机器学习是现代人工智能的核心,从推荐系统到自动驾驶汽车,各类智能应用背后都离不开基础模型的支持,本文将为大家简洁而全面地解析关键机器学习模型,大家可以当成模型备忘录。
线性回归
线性回归旨在通过最小二乘法找到一条“最佳拟合线”,使得该线与所有数据点的距离最小,从而揭示自变量与因变量之间的关系。
最小二乘法通过最小化残差平方和(SSR)来找到这条线性方程,例如下图中的绿色线比蓝色线拟合效果更好,因为它与所有数据点的距离最小。

Lasso回归(L1正则化)
Lasso回归是一种正则化技术,通过在模型中引入一定程度的偏差来减少过拟合。
它通过在最小化残差平方和的基础上加上一个惩罚项来实现,这个惩罚项等于lambda乘以斜率的绝对值,lambda值决定了惩罚的严厉程度,作为超参数可调整以减少过拟合并获得更好的拟合效果。

当特征数量众多时,L1正则化是首选,因为它会忽略所有斜率值极小的变量。

岭回归(L2正则化)
岭回归与Lasso回归相似,不同之处在于惩罚项的计算方式,它添加的惩罚项等于斜率大小的平方乘以lambda。
当数据存在多重共线性(自变量高度相关)时,L2正则化效果最佳,因为它会将所有系数向零收缩。

弹性网络回归
弹性网络回归结合了Lasso回归和岭回归的惩罚项,提供了更正则化的模型,它允许两种惩罚项的平衡,相比单独使用L1或L2,能构建出性能更优的模型。

多项式回归
多项式回归将因变量与自变量之间的关系建模为n次多项式,多项式是形如k.xⁿ的项的和,其中n为非负整数,k为常数,x为自变量。它适用于非线性数据。

逻辑回归
逻辑回归是一种分类技术,旨在找到数据的最佳拟合曲线,它利用sigmoid函数将输出转换为0到1之间的值。
与线性回归使用最小二乘法找到最佳拟合线不同,逻辑回归使用最大似然估计(MLE)来找到最佳拟合曲线。

K近邻算法(KNN)
KNN是一种分类算法,根据新数据点与最近分类点的距离来对其进行分类,它假设距离较近的数据点具有高度相似性。
KNN算法也被称为“懒惰学习器”,因为它存储训练数据,直到出现新数据点进行预测时才进行分类。
默认情况下,KNN使用欧氏距离来找到新数据点的最近分类点,并取最近类的众数作为新数据点的预测类,如果k值设置过低,新数据点可能被视为异常值,如果设置过高,则可能忽略样本较少的类。

朴素贝叶斯
朴素贝叶斯是一种基于贝叶斯定理的分类技术,主要用于文本分类,贝叶斯定理描述了在已知与事件相关的条件先验知识的情况下,事件发生的概率。
朴素贝叶斯之所以被称为“朴素”,是因为它假设某个特征的出现与其他特征的出现无关。

支持向量机
支持向量机的目标是在n维空间(n为特征数量)中找到一个超平面,将数据点分隔到不同的类中。
这个超平面是通过最大化类之间的间隔(距离)来找到的,支持向量是距离超平面最近的数据点,它们可以影响超平面的位置和方向,并帮助最大化类之间的间隔。超平面的维度取决于输入特征的数量。

另外我们精心打磨了一套基于数据与模型方法的 AI科研入门学习方案(已经迭代过5次,即将迭代第6次),对于人工智能来说,任何专业,要处理的都只是实验数据,所以我们根据实验数据将课程分为了三种方向的针对性课程,包含时序、影像、AI+实验室,我们会根据你的数据类型来帮助你选择合适的实验室,根据规划好的路线学习
只需5个月左右(很多同学通过学习已经发表了 sci 一区及以下、和同等级别的会议论文)学习形式为直播+录播,多位老师为你的论文保驾护航。
第6期课程大纲
大家感兴趣可以直接添加小助手微信:ai0808q通过后回复“咨询”既可!
AI for science
决策树
决策树是一种基于树结构的分类器,包含一系列条件语句,用于确定样本到达底部的路径。

决策树的内部节点代表特征,分支代表决策规则,叶节点代表结果。决策节点类似于if-else条件,叶节点包含决策节点的输出。
它首先使用属性选择度量(如ID3或CART)选择一个属性作为根节点,然后递归地将剩余属性与父节点进行比较以创建子节点,直到树到达叶节点。
随机森林
随机森林是一种集成技术,由多棵决策树组成。它在构建每棵树时使用自助采样和特征随机性来创建不相关的决策树森林。
随机森林中的每棵树都在数据的不同子集上进行训练以预测结果,然后选择得票最多的结果作为随机森林的预测。

例如,如果只创建了一棵决策树,预测结果可能是类0,但基于四棵树的众数,预测结果可能变为类1。
极端随机树
极端随机树与随机森林分类器非常相似,不同之处在于它们选择根节点的方式,在随机森林中,使用最优特征进行分裂;
而在极端随机树中,随机选择特征进行分裂,极端随机树提供了更多的随机性,并且特征之间的相关性非常小。
另一个区别是,随机森林使用自助复制来生成用于训练集成成员(决策树)的大小为N的子集,而极端随机树则使用整个原始样本。
与随机森林相比,极端随机树算法在计算上要快得多,因为每棵决策树的训练过程直到预测都是相同的,只是随机选择了分裂点。

AdaBoost
AdaBoost是一种提升算法,与随机森林有一些显著差异,它不是构建决策树森林,而是构建决策树桩森林(树桩是只有一个节点和两个叶子的决策树)。
每个决策树桩在最终决策中被赋予不同的权重,它为错误分类的数据点分配更高的权重,以便在构建下一个模型时给予它们更多的重视,它有助于将多个“弱分类器”组合成一个强大的分类器。

梯度提升
梯度提升构建多棵决策树,每棵树都从之前的树的错误中学习,它使用残差误差来提高预测性能。
梯度提升的整个目标是尽可能减少残差误差,梯度提升与AdaBoost相似,不同之处在于AdaBoost构建决策树桩,而梯度提升构建具有多个叶子的决策树。
梯度提升首先构建一个基础决策树,并且通常取平均值作为初始预测,接着使用初始特征和残差误差作为因变量创建一个新的决策树。
新决策树的预测是通过将模型的初始预测加上样本的残差误差乘以学习率来得到的,这个过程会一直重复直到达到最小误差。
K均值聚类
K均值聚类是一种无监督机器学习算法,它将未标记的数据分成K个不同的簇,其中K是用户定义的整数。
它是一种迭代算法,使用簇中心点将未标记的数据分成K个簇,使得具有相似属性的数据点属于同一个簇。
层次聚类
层次聚类是另一种基于聚类的算法,它以树的形式创建簇的层次结构来划分数据。
它自动找到数据之间的关系,并将它们分成n个不同的簇,其中n是数据的大小。
层次聚类主要有两种方法:凝聚法和分裂法。

在凝聚法中,我们将每个数据点视为一个单独的簇,然后将这些簇合并,直到只剩下一个组(完整的数据集)。
而在分裂法中,我们从整个数据集(被视为一个单独的簇)开始,然后将其划分为不太相似的簇,直到每个单独的数据点都成为自己独特的簇。
DBSCAN聚类
DBSCAN(基于密度的带噪声应用空间聚类)基于这样的假设:如果一个数据点距离某个簇的多个数据点较近,而不是距离任何单个点较近,那么它属于该簇。

epsilon和min_points是用于将数据分成小簇的两个重要参数。
epsilon指定了一个点与另一个点应该有多近才能被视为属于同一个簇,而min_points则确定了形成簇所需的最小数据点数量。
Apriori算法
Apriori算法是一种关联规则挖掘算法,它根据数据项之间的依赖关系将它们映射在一起。
使用Apriori算法创建关联规则的关键步骤包括:
1. 确定大小为1的每个项集的支持度,其中支持度是数据集中项的频率。
2. 删除所有低于最小支持度阈值(由用户决定)的项。
3. 创建大小为n+1的项集(n是前一个项集的大小),并重复步骤1和2,直到所有项集的支持度都高于阈值。
4. 使用置信度(在已知x发生的情况下,x和y同时发生的频率)生成规则。
分层K折交叉验证
分层K折交叉验证是K折交叉验证的一种变体,它使用分层采样(而不是随机采样)来创建数据的子集。
在分层采样中,数据被分成K个不重叠的组,每个组都具有与完整数据集相似的分布,每个子集将具有每个类别标签的相等数量的值,如下面的图示所示。

主成分分析(PCA)
PCA是一种线性降维技术,它将一组相关的特征转换为更小(k
通过应用PCA,我们会损失一些信息,但它提供了许多好处,如提高模型性能、减少硬件需求以及通过可视化更好地理解数据。
人工神经网络(ANN)
人工神经网络(ANNs)受人类大脑结构的启发,由多层相互连接的神经元组成,它们由输入层、隐藏层和输出层组成,每个神经元对传入的数据应用权重和激活函数。
由于ANNs能够从数据中学习复杂模式,因此它们被广泛用于图像识别、自然语言处理和预测分析等任务。
卷积神经网络(CNN)
卷积神经网络(CNNs)是一种专门用于图像和视频处理的神经网络。
与将每个像素视为单独输入的传统神经网络不同,CNNs使用卷积层来扫描图像并检测边缘、纹理和形状等模式。
这使得它们在识别图像中的物体方面非常有效,即使物体出现在不同的位置。
CNNs为面部识别、自动驾驶汽车和医学图像分析等技术提供了支持,通过自动学习视觉数据中的模式来发挥作用。
Q学习
Q学习是一种强化学习算法,通过试错帮助机器学习。它常用于游戏AI、机器人和自学交易机器人中。
其思想很简单:一个“代理”(如机器人或游戏角色)与环境交互,尝试不同的动作,并根据其选择获得奖励或惩罚。
随着时间的推移,它通过将学到的知识存储在Q表中来学习在不同情况下采取的最佳动作。
这种技术广泛用于需要自主决策的AI系统中,如自动驾驶汽车导航交通或AI驱动的游戏角色学习如何下棋。
词频-逆文档频率(TF-IDF)
TF-IDF是一种文本分析算法,有助于识别文档中的重要词汇,它通过计算一个词出现的频率(词频,TF)并与其在所有文档中的稀有程度(逆文档频率,IDF)相平衡来工作。
这可以防止“the”和“is”等常见词被排名过高,同时突出更有意义的词,TF-IDF广泛用于搜索引擎(Google、Bing)、关键词提取和文档排名中,帮助系统理解哪些词与给定主题最相关。
潜在狄利克雷分配(LDA)
潜在狄利克雷分配(LDA)是一种主题建模算法,用于在大量文本集合中发现隐藏的主题。
它假设每个文档由不同的主题组成,而每个主题又由经常一起出现的某些词组成。
LDA在新闻分类、研究论文分类和客户评论分析中特别有用,因为它有助于揭示大量非结构化文本中的潜在主题。
如果你在研究工具中看到过自动主题建议功能,那么它很可能正在使用LDA来将相似的文本分组在一起。
Word2Vec
Word2Vec是一种自然语言处理(NLP)算法,通过将词转换为数值向量来帮助计算机理解词的含义。
与仅查看词频的旧方法(如TF-IDF)不同,Word2Vec捕捉词之间的语义关系。例如,它可以学习到“king”和“queen”是相关的,或者“Paris”与“France”的关系就像“Berlin”与“Germany”的关系一样。
这使得它在聊天机器人、情感分析和推荐系统中非常有用,在这些系统中理解词的含义和上下文至关重要。
许多现代语言模型(包括Google Translate和语音助手使用的模型)都依赖于Word2Vec作为更深入语言理解的基础。
另外我们精心打磨了一套基于数据与模型方法的 AI科研入门学习方案(已经迭代过5次,即将迭代第6次),对于人工智能来说,任何专业,要处理的都只是实验数据,所以我们根据实验数据将课程分为了三种方向的针对性课程,包含时序、影像、AI+实验室,我们会根据你的数据类型来帮助你选择合适的实验室,根据规划好的路线学习 只需5个月左右(很多同学通过学习已经发表了 sci 一区及以下、和同等级别的会议论文)学习形式为直播+录播,多位老师为你的论文保驾护航。
第6期课程大纲
大家感兴趣可以直接添加小助手微信:ai0808q通过后回复“咨询”既可!
AI for science
大家想自学的我还给大家准备了一些机器学习、深度学习、神经网络资料大家可以看看以下文章(文章中提到的资料都打包好了,都可以直接添加小助手获取)
大家觉得这篇文章有帮助的话记得分享给你的死党、闺蜜、同学、朋友、老师、敌蜜!