机器学习算法的技巧分享

来源: 网络 日期:2021-02-18

1.支持向量机(SVM)的C参数

SVM的C参数为每个错误分类的数据点增加了代价。如果c小,则对错误分类的点的惩罚较低,因此以较大数量的错误分类为代价选择了具有较大余量的决策边界。

如果c大,由于高罚分,SVM会尝试最大程度地减少误分类示例的数量,从而导致决策边界的边距较小。对于所有错误分类的示例,惩罚都不相同。它与到决策边界的距离成正比。

2.具有RBF内核的SVM的Gamma参数

具有RBF内核的SVM的Gamma参数控制单个训练点的影响距离。较低的gamma值表示相似半径较大,这导致将更多点组合在一起。

对于较高的伽玛值,这些点必须彼此非常接近,以便在同一组(或类)中考虑。因此,具有非常大的伽玛值的模型往往会过拟合。

3.是什么使逻辑回归成为线性模型

逻辑回归的基础是逻辑函数,也称为Sigmoid函数,该函数接受任何实数值,并将其映射到0到1之间的一个值。

它是一个非线性函数,但逻辑回归是一个线性模型。

这是我们从S型函数得到线性方程的方法:

以双方的自然对数:

在方程式(1)中,我们可以使用线性方程式z代替x:

然后,等式(1)变为:

假设y为正分类的概率。如果为0.5,则上式的右侧变为0。

我们现在有一个线性方程要求解。

4.PCA中的主要组成部分

PCA(主成分分析)是一种线性降维算法。PCA的目标是在减少数据集的维数(要素数量)的同时保留尽可能多的信息。

信息量由方差衡量。具有高方差的特征会告诉我们有关数据的更多信息。

主要成分是原始数据集特征的线性组合。

5.随机森林

随机森林是使用称为装袋的方法构建的,其中将每个决策树用作并行估计器。

随机森林的成功很大程度上取决于使用不相关的决策树。如果我们使用相同或非常相似的树,则总体结果将与单个决策树的结果相差无几。随机森林通过自举和特征随机性来实现具有不相关的决策树。

6.梯度增强决策树(GBDT)

GBDT使用提升方法来组合各个决策树。增强意味着将一系列学习算法串联起来,以从许多顺序连接的弱学习者中获得强大的学习者。

每棵树都适合前一棵树的残差。与装袋不同,加强不涉及自举采样。每次添加新树时,它都适合初始数据集的修改版本。

7.增加随机森林和GBDT中的树的数量

增加随机森林中的树的数量不会导致过度拟合。在某一点之后,模型的准确性不会因添加更多树而增加,但也不会因添加过多树而受到负面影响。由于计算原因,您仍然不想添加不必要的树,但是不存在与随机森林中的树数相关联的过拟合风险。

但是,就过度拟合而言,梯度增强决策树中的树数非常关键。添加过多的树会导致过拟合,因此一定要停止添加树,这一点很重要。

8.层次聚类vsK-均值聚类

分层群集不需要预先指定群集数量。必须为k均值算法指定簇数。

它总是生成相同的聚类,而k均值聚类可能会导致不同的聚类,具体取决于质心(聚类中心)的启动方式。

与k均值相比,分层聚类是一种较慢的算法。特别是对于大型数据集,运行需要很长时间。

9.DBSCAN算法的两个关键参数

DBSCAN是一种聚类算法,可与任意形状的聚类一起很好地工作。这也是检测异常值的有效算法。

DBSCAN的两个关键参数:

eps:指定邻域的距离。如果两个点之间的距离小于或等于eps,则将其视为相邻点。

minPts:定义集群的最小数据点数。

10.DBSCAN算法中的三种不同类型的点

    A+
声明:本文转载自其它媒体,转载目的在于传递更多信息,并不代表赞同其观点和对其真实性负责。