真得收藏了！6608字全面盘点机器学习算法！作用-何时使用-示例-优点-缺点-小贴士

未命名(6).gif

如果你刚接触机器学习（ML），或者面对诸如朴素贝叶斯、k均值或Q学习等算法感到有些迷茫，那这篇文章一定要收藏。
机器学习算法主要分为四大类：

监督学习：从标记数据中学习以预测结果。
无监督学习：在未标记数据中发现模式。
强化学习：通过与环境交互来学习。
半监督学习：结合标记和未标记数据以实现更智能的学习。

监督学习：有导师指导的学习
监督学习就像用一本充满答案的教科书来教导学生，你给机器提供标记数据（输入与正确输出配对）来训练它，使其能对新数据进行结果预测，它用于预测房价或分类电子邮件为垃圾邮件等任务。

分类方法
这些算法预测类别（如“猫”或“狗”）。

朴素贝叶斯：

作用：利用概率（贝叶斯定理）对数据进行分类。它假设特征独立，因此称为“朴素”。
何时使用：非常适合文本分类，如垃圾邮件检测或情感分析。
示例：通过计算“免费”或“赢”等词的概率来过滤垃圾邮件。
优点：速度快，在小数据集上表现良好。
缺点：如果特征高度相关，则效果不佳。
小贴士：对于快速原型制作或处理文本数据时，可尝试使用。

逻辑回归：

作用：预测二元结果（如是/否，0/1）的概率。
何时使用：非常适合二元分类，如预测客户是否会购买产品。
示例：根据学习时间预测学生是否会通过（1）或不及格（0）。
优点：简单、可解释，且能很好地处理线性关系。
缺点：对于复杂、非线性的数据表现不佳。
小贴士：在尝试复杂算法之前，可将其作为基线模型。

K近邻（KNN）：

作用：通过找到“k”个最近的数据点（邻居）并进行多数投票来对数据进行分类。
何时使用：适用于小数据集或当你想要一个简单、非参数的模型时。
示例：根据大小和颜色将水果分类为苹果或橙子。
优点：直观且无需训练阶段。
缺点：在大数据集上速度慢，对噪声数据敏感。
小贴士：对数据进行归一化（缩放特征）以使距离有意义。

随机森林：

作用：构建多个决策树并组合它们的预测（就像团队投票一样）。
何时使用：非常适合具有许多特征的复杂数据集，如医学诊断。
示例：根据年龄、体重和血糖水平预测患者是否患有糖尿病。
优点：稳健，能处理缺失数据，减少过拟合。
缺点：训练速度可能较慢，且解释性较差。
小贴士：调整树的数量以获得更好的性能。

支持向量机（SVM）：

作用：找到最佳分离类别的超平面，最大化类别之间的间隔。
何时使用：对于高维数据（如图像分类）表现良好。
示例：在OCR系统中对手写数字进行分类。
优点：在复杂数据集上有效，能使用核函数处理非线性数据。
缺点：在大数据集上速度慢，需要仔细调整参数。
小贴士：尝试不同的核类型（如线性、RBF）以获得更好的结果。

决策树：

作用：根据特征条件将数据分成分支，就像流程图一样。
何时使用：适用于需要可解释模型的场景，如信用评分。
示例：根据收入和信用评分决定贷款申请人是低风险还是高风险。
优点：易于理解和可视化。
缺点：如果不进行剪枝，容易过拟合。
小贴士：与随机森林结合使用以提高性能。

回归方法
这些算法预测数值（如房价）。

随机森林回归：

作用：对多个决策树的预测进行平均。
何时使用：非常适合非线性关系，如预测销售额。
示例：根据大小、位置和卧室数量估计房价。
优点：能处理复杂数据，减少过拟合。
缺点：解释性不如简单回归。
小贴士：使用特征重要性分数来了解关键预测因素。

支持向量回归（SVR）：

作用：拟合一个函数来预测连续值，忽略小误差范围内的误差。
何时使用：对于具有非线性模式的中等规模数据集非常有用。
示例：根据历史数据预测股票价格。
优点：使用核技巧灵活，对异常值稳健。
缺点：对于大数据集计算成本高。
小贴士：对数据进行缩放以提高SVR性能。

决策树回归：

作用：分割数据以预测数值结果。
何时使用：当你需要一个简单、可解释的回归模型时。
示例：根据发动机大小和重量预测汽车里程数。
优点：易于解释。
缺点：如果不进行适当调整，容易过拟合。
小贴士：限制树深度以避免过拟合。

简单线性回归：

作用：拟合一条直线（y = mx + b）来预测一个数字。
何时使用：适用于简单、线性的关系。
示例：根据儿童年龄预测身高。
优点：速度快，可解释。
缺点：对于非线性数据表现不佳。
小贴士：始终绘制数据以检查线性关系。

多元回归：

作用：将线性回归扩展到多个输入变量。
何时使用：当多个因素影响输出时，如根据广告和定
价预测销售额。
示例：根据降雨量、温度和土壤质量估计作物产量。
优点：能处理多个特征。
缺点：假设线性关系。
小贴士：检查特征之间的多重共线性。

Lasso回归：

作用：添加惩罚项以减少不太重要特征的影响，有助
于特征选择。
何时使用：当你有很多特征并怀疑其中一些不相关时。
示例：在预测房价时忽略次要特征。
优点：防止过拟合，选择关键特征。
缺点：如果调整不当，可能会丢弃有用的特征。
小贴士：进行交叉验证以找到合适的惩罚强度。

另外我们精心打磨了一套基于数据与模型方法的AI科研入门学习方案（已经迭代第6次），对于人工智能来说，任何专业，要处理的都只是实验数据，所以我们根据实验数据将课程分为了三种方向的针对性课程，包含时序、影像、AI＋实验室，我们会根据你的数据类型来帮助你选择合适的实验室，根据规划好的路线学习 只需3-5个月左右（很多同学通过学习已经发表了 sci 一区及以下、和同等级别的会议论文）学习形式为直播＋录播，多位老师为你的论文保驾护航。

适合人群：

导师放养，自学无头绪
时间紧任务重有延毕风险
想提前完成大小论文为之后读博或工作做准备的
想通过发表sci论文、提升科研能力bao研、考研的本科同学

大家感兴趣可以直接添加小助手微信：ai0808q通过后回复“咨询”既可。

第6期课程大纲

无监督学习：发现隐藏模式
无监督学习就像在没有地图的情况下探索一座新城市——你在不知道“正确”答案的情况下发现模式，它用于当你拥有数据但没有标签时。

聚类技术
将相似的数据点分组在一起。

k均值聚类：
作用：根据相似性将数据分成k个簇。
何时使用：用于客户细分或图像压缩。
示例：根据购买行为对客户进行分组。
优点：简单，对小数据集速度快。
缺点：你必须选择k；对于非球形簇表现不佳。
小贴士：使用肘部法则来选择合适的k值。

独立成分分析（ICA）：

作用：将混合信号分离成独立的源。
何时使用：用于信号处理，如分离音频轨道。
示例：从嘈杂的录音中提取单独的声音。
优点：对于盲源分离非常有效。
缺点：假设信号是非高斯的。
小贴士：在应用ICA之前对数据进行预处理以去除噪声。

DBSCAN算法：

作用：根据密度对数据进行聚类，处理不规则形状。
何时使用：用于嘈杂的数据集或当簇不是球形时。
示例：识别疾病爆发的地理簇。
优点：不需要指定簇的数量。
缺点：对参数设置敏感。
小贴士：仔细调整距离参数。

主成分分析（PCA）：

作用：在保留关键模式的同时减少数据维度。
何时使用：用于可视化或加速机器学习模型。
示例：在2D中可视化高维基因表达数据。
优点：简化数据，减少计算量。
缺点：会丢失一些信息。
小贴士：检查解释方差以确保保留足够的信息。

关联
发现项目之间的关系。

频繁模式增长（FP-Growth）：

作用：使用树结构高效地发现频繁项集。
何时使用：用于市场篮子分析，如推荐产品。
示例：建议购买啤酒时同时购买尿布（经典示例！）。
优点：对于大数据集比Apriori算法更快。
缺点：对于非常大的数据集内存消耗大。
小贴士：对于稀疏数据集使用它以节省时间。

Apriori算法：

作用：通过生成候选规则来发现频繁项集。
何时使用：用于更简单的关联任务。
示例：发现面包和黄油经常一起被购买。
优点：易于实现。
缺点：对于大数据集比FP-Growth慢。
小贴士：设置最小支持度阈值以减少噪声。

异常检测
识别不寻常的数据点。

孤立森林：

作用：通过随机分割数据来隔离异常值。
何时使用：用于欺诈检测或网络安全。
示例：检测不寻常的信用卡交易。
优点：速度快，可扩展到大数据集。
缺点：对于高维数据效果不佳。
小贴士：对于高维数据集结合PCA使用。

局部异常因子（LOF）：

作用：基于局部密度识别异常值。
何时使用：用于具有不同密度的数据集。
示例：在物联网设备中检测故障传感器。
优点：能处理不同密度的簇。
缺点：对于大数据集计算成本高。
小贴士：对数据进行子采样以加速LOF。

Z分数算法：

作用：使用标准差标记远离均值的数据点。
何时使用：用于简单、正态分布的数据。
示例：在测试分数中检测异常值。
优点：简单且速度快。
缺点：假设数据遵循正态分布。
小贴士：使用直方图可视化数据以检查正态性。

强化学习：通过行动学习
强化学习（RL）就像训练宠物一样——你对好的行为给予奖励，并让智能体通过试错来学习，它用于机器人技术、游戏和自主系统。

无模型强化学习
直接从经验中学习，而不对环境进行建模。

Q学习：

作用：学习动作的价值以最大化奖励。
何时使用：用于简单环境，如网格世界游戏。
示例：训练机器人导航迷宫。
优点：简单，适用于离散环境。

缺点：对于大型状态空间速度慢。
小贴士：使用小的学习率以获得稳定的学习。

SARSA（状态-动作-奖励-状态-动作）：

作用：与Q学习类似，但根据采取的下一个动作进行更新。
何时使用：当你想要一个更谨慎的策略时。
示例：训练智能体平衡一根杆子。
优点：比Q学习探索更安全。
缺点：收敛速度可能较慢。
小贴士：与epsilon-贪婪探索结合使用。

策略梯度方法：

作用：直接使用梯度优化策略（动作选择）。
何时使用：用于连续动作空间，如机器人控制。
示例：教机器人走路。
优点：能很好地处理连续动作。
缺点：可能会陷入局部最优。
小贴士：使用奖励塑造来指导学习。

深度Q网络（DQN）：

作用：将Q学习与神经网络结合用于复杂任务。
何时使用：用于高维输入，如游戏截图。
示例：训练人工智能玩Atari游戏。
优点：可扩展到复杂环境。
缺点：需要大量计算。
小贴士：使用经验回放以提高稳定性。

基于模型的强化学习

构建环境模型以规划动作。

Dyna-Q：

作用：通过模拟经验结合学习和规划。
何时使用：当你能对环境进行建模时。
示例：优化配送路线。
优点：比无模型方法学习更快。
缺点：需要准确的环境模型。
小贴士：随着新数据的到来定期更新模型。

蒙特卡洛树搜索（MCTS）：

作用：使用基于树的搜索探索可能的动作。
何时使用：用于游戏或规划任务，如国际象棋或围棋。
示例：为棋盘游戏构建人工智能。
优点：对于战略规划非常有效。
缺点：计算密集。
小贴士：限制搜索深度以获得更快的结果。

模型预测控制（MPC）：

作用：通过预测未来状态来规划动作。
何时使用：用于实时控制，如自动驾驶。
示例：控制无人机的轨迹。
优点：对于已知的动力学非常精确。
缺点：需要好的模型。
小贴士：对于动态环境使用短的预测范围。

半监督学习：充分利用有限的标签
半监督学习是一种混合方法，同时使用标记和未标记数据。它非常适合当标记数据昂贵或耗时的情况，如医学成像。

分类

自集成：

作用：使用模型预测来标记未标记数据。
何时使用：用于标记数据较少的图像或文本分类。
示例：对标记数据较少的医学图像进行分类。
优点：利用大型未标记数据集。
缺点：需要稳健的初始模型。
小贴士：使用数据增强以提高稳健性。

支持向量机：

作用：调整SVM以使用未标记数据来获得更好的间隔。
何时使用：当你同时拥有标记和未标记数据时。
示例：对标记样本较少的客户评论进行分类。
优点：对于小标记数据集非常有效。
缺点：计算密集。
小贴士：使用传导式SVM以获得更好的结果。

标签传播：

作用：将标签传播到相似的未标记数据点。
何时使用：用于基于图的数据，如社交网络。
示例：根据少数标记的个人资料预测用户兴趣。
优点：直观，对于图结构表现良好。
缺点：对图质量敏感。
小贴士：确保你的数据具有清晰的相似性模式。

协同训练：

作用：在数据的不同视图上训练多个模型，互相标记
对方的未标记数据。
何时使用：当数据具有多个特征集时，如文本和图像。
示例：使用文本和元数据对新闻文章进行分类。
优点：利用多样化的数据视图。
缺点：需要独立的特征集。
小贴士：确保特征集互补。

高斯混合模型（GMM）：

作用：将数据建模为高斯分布的混合，使用标记数据来指导聚类。
何时使用：用于具有一定标签的概率聚类。
示例：对部分标记的客户进行细分。
优点：概率性，灵活。
缺点：假设高斯分布。
小贴士：在使用GMM之前检查数据分布。

图神经网络（GNN）：

作用：使用图结构来传播标签。
何时使用：用于关系数据，如社交网络或分子结构。
示例：对标记样本较少的蛋白质功能进行预测。
优点：对于图数据非常强大。
缺点：需要构建图。
小贴士：使用预训练的GNN以获得更快的结果。

伪标签：

作用：将模型自信的预测视为标签进行训练。
何时使用：当你有一个强大的初始模型时。
示例：对标记示例较少的图像进行分类。
优点：简单，有效。
缺点：存在强化错误的风险。
小贴士：为伪标签使用高置信度阈值。

主动学习：

作用：模型选择最不确定的数据点供人工标记。
何时使用：当你能负担得起标记少数关键样本时。
示例：在专家输入下对医学图像进行标记。
优点：减少标记工作量。
缺点：需要人工干预。
小贴士：优先选择不确定性采样以提高效率。

互信息最大化：

作用：最大化标记和未标记数据之间共享的信息。
何时使用：用于标签有限的深度学习。
示例：使用未标记数据改进图像分类。
优点：利用深度学习的力量。
缺点：计算密集。
小贴士：使用预训练模型以节省时间。

回归
线性回归：

作用：拟合一条线来预测数字，由一些标记数据指导。
何时使用：用于具有部分标签的简单数值预测。
示例：对标记样本较少的房价进行预测。
优点：简单，可解释。
缺点：仅限于线性关系。
小贴士：与伪标签结合使用以获得更好的结果。

多项式回归：

作用：拟合一条曲线以捕捉非线性模式。
何时使用：当数据呈现非线性趋势时。
示例：根据非线性因素预测作物产量。
优点：捕捉复杂关系。
缺点：存在过拟合风险。
小贴士：限制多项式次数以避免过拟合。

岭回归：

作用：添加正则化以防止线性回归中的过拟合。
何时使用：用于具有有限标签的稳定预测。
示例：根据噪声数据预测销售额。
优点：对过拟合稳健。
缺点：仍然假设线性关系。
小贴士：对正则化参数进行交叉验证。

Lasso回归：

作用：通过将其他特征缩减为零来选择关键特征。
何时使用：当你怀疑存在不相关特征时。
示例：根据许多变量预测能源消耗。
优点：特征选择，防止过拟合。
缺点：可能会丢弃有用的特征。
小贴士：与特征缩放结合使用以保持一致性。

支持向量回归（SVR）：

作用：调整SVM以用于具有部分标签的数值预测。
何时使用：用于具有有限数据的非线性回归。
示例：对标记点较少的股票价格进行预测。
优点：灵活，对异常值稳健。
缺点：对于大数据集速度慢。
小贴士：尝试不同的核类型以获得更好的拟合。

选择正确算法的逐步指南：

了解你的数据：

有标记数据吗？尝试监督学习。
有未标记数据吗？尝试无监督学习。
标签有限吗？使用半监督学习。
有交互式环境吗？探索强化学习。

定义你的目标：

预测类别吗？使用分类。
预测数字吗？使用回归。
发现模式吗？尝试聚类或关联。
检测异常值吗？使用异常检测。
最大化奖励吗？使用RL。

从简单开始：

对于分类：尝试逻辑回归或朴素贝叶斯。
对于回归：从简单线性回归开始。
对于聚类：使用k均值。
对于RL：从Q学习开始。

实验和调整：

测试多种算法（如随机森林与SVM）。
使用交叉验证来评估性能。
调整超参数（如KNN中的k值，RL中的学习率）。

扩展规模：

对于复杂数据集，尝试随机森林、SVM或深度学习（DQN、GNN）。
对于大数据集，使用可扩展的算法，如孤立森林或FP-Growth。

迭代：

分析结果，优化特征，并再次尝试。
结合方法（如PCA + k均值，伪标签 + SVM）。

另外我们精心打磨了一套基于数据与模型方法的AI科研入门学习方案（已经迭代第6次），对于人工智能来说，任何专业，要处理的都只是实验数据，所以我们根据实验数据将课程分为了三种方向的针对性课程，包含时序、影像、AI＋实验室， 我们会根据你的数据类型来帮助你选择合适的实验室，根据规划好的路线学习 只需3-5个月左右（很多同学通过学习已经发表了 sci 一区及以下、和同等级别的会议论文）学习形式为直播＋录播，多位老师为你的论文保驾护航。

适合人群：

导师放养，自学无头绪
时间紧任务重有延毕风险
想提前完成大小论文为之后读博或工作做准备的
想通过发表sci论文、提升科研能力bao研、考研的本科同学

大家感兴趣可以直接添加小助手微信：ai0808q通过后回复“咨询”既可。

第6期课程大纲

大家想自学的我还给大家准备了一些机器学习、深度学习、神经网络资料大家可以看看以下文章（文章中提到的资料都打包好了，都可以直接添加小助手获取）

《人工智能资料分享》

零基础学习路线（点击图片即可跳转）

时间序列学习资料（点击图片即可跳转）

神经网络学习资料（点击图片即可跳转）

大家觉得这篇文章有帮助的话记得分享给你的死党、闺蜜、同学、朋友、老师、敌蜜！

B站：AI秃秃学长小墨

关注小墨

获取最新AI技能+最肝AI干货