机器学习必备的数学基础有哪些？

现如今，计算机科学、人工智能、数据科学已成为技术发展的主要推动力。

无论是要翻阅这些领域的文章，还是要参与相关任务，你马上就会遇到一些拦路虎：

想过滤垃圾邮件，不具备概率论中的贝叶斯思维恐怕不行；
想试着进行一段语音识别，则必须要理解随机过程中的隐马尔科夫模型；
想通过观察到的样本推断出某类对象的总体特征，估计理论和大数定理的思想必须建立；
在统计推断过程中，要理解广泛采用的近似采样方法，蒙特卡洛方法以及马尔科夫过程的稳态也得好好琢磨；
想从文本中提取出我们想要的名称实体，概率图模型也得好好了解。

在看到这些专业术语后，很多人就开始打退堂鼓，然后马上选择放弃。

为什么会这样？

因为机器学习所需数学知识有极高的学习曲线。

那么需要多少数学知识呢？宾夕法尼亚大学的计算机教授所写的《计算机科学相关代数学、拓扑学、微分学以及最优化理论》，就用 1900 页的篇幅讲解了相关的数学知识。

不要着急，不要害怕，继续往下看……

我作为一个机器学习、自然语言处理方面的研究者和实践者，参与了大量涉及知识图谱、语义理解、智能问答等技术的工程和科研项目。我认为，有更简单、高效的方法可以让你掌握机器学习中所需的数学知识。

首先，集中力量、紧紧围绕机器学习核心算法中所涉及到的知识进行学习，做好精确打击。
然后，注重加强基础知识与算法、应用案例之间的联系，将理论和算法应用场景相互关联，形成学以致用的实践导向。
同时，运用好 Python 工具，做到和工程应用无缝对接，利用 Numpy、Scipy、Matplotlib、Pandas 等工具强化对知识的理解、提升工作效率。

在上述理念的基础上，我花费数月时间撰写了《机器学习中的数学》系列专栏。

在这段时间里，我不仅要严密地梳理知识体系的内在逻辑，还在讲解技巧上投入了很大功夫，最终做到可以深入浅出地向你展现完整的知识体系。

在近期，我将在 GitChat 先后推出 《机器学习中的数学：概率统计》、《机器学习中的数学：线性代数》 和 《机器学习中的数学：微积分与最优化》 三个专栏。这三部分数学知识的作用分别是：

概率统计是利用数据发现规律、推测未知的思想方法
线性代数是利用空间投射和表征数据的基本工具
微积分与最优化是机器学习模型中最终解决方案的落地手段

机器学习应用中的思想方法与核心算法大多都是构筑在统计思维方法之上的，所以我们推出的第一个专栏《机器学习中的数学：概率统计》，正是与机器学习紧密相关的概率统计核心内容。

扫码了解专栏详情

▼

专栏作者

张雨萌：清华大学硕士/机器学习书籍作者

毕业于清华大学计算机科学与技术系，目前从事机器学习、自然语言处理方面的研究。他参与的工程和科研项目涉及知识图谱、语义理解、智能问答等领域。热爱技术写作的他，尤其擅长梳理知识体系的内在逻辑，从而深入浅出地展现知识体系。

专栏特色

详解 6 大核心板块：概率思想、随机变量、统计推断、随机过程、采样理论、概率模型，筑牢机器学习核心基础。
教你熟练使用 Python 工具库：依托 numpy、scipy、matplotlib、pandas 工具，无缝对接工程实践。
有理论还有实战：大量实战案例与完整详细源码，反复加深概率统计思想的深刻理解。

专栏大纲及内容特色

第 1 部分：概率思想。我们首先从条件概率和贝叶斯方法入手，阐明条件、独立、相关等基本概念，掌握联合、边缘的计算方法，我们将一起构建起认知世界的概率思维体系。

第 2 部分：随机变量。我们将重点介绍随机变量主干内容，从单一随机变量的分布过渡到多元随机变量的分析，最后重点阐述大数定理和中心极限定理，并初步接触蒙特卡洛方法，和读者一起建立重要的极限思维。

第 3 部分：统计推断。这部分我们关注的是如何通过部分的样本集合推断出我们关心的总体特征，这在现实世界中非常重要。在参数估计的思想方法基础上，我们重点关注极大似然估计和贝叶斯估计这两种方法。

第 4 部分：随机过程。我们将关注由一组随机变量构成的集合，即随机过程。股票的波动、语音信号、视频信号、布朗运动等都是随机过程在现实世界中的实例。我们在随机过程的基本概念之上，将重点分析马尔科夫链，梳理其由静到动的演变，探索变化的过程和不变的稳态。

第 5 部分：采样理论。我们将重点关注如何获取服从目标分布的近似采样方法，从基本的接受-拒绝采样入手，逐渐深入到马尔科夫链-蒙特卡洛方法，通过动态的过程进一步深化对随机过程、随机理论以及极限思想的理解。

第 6 部分：概率模型。这里我们将介绍概率图模型中的一种典型模型：隐马尔科夫模型，熟悉状态序列的概率估计和状态解码的基本方法，为后续学习的概率图模型打好基础。

知识图谱如下：

让我们一起开始这段学习旅程！

万丈高楼平地起，希望《机器学习中的数学》系列专栏能陪伴大家走好机器学习的学习与实践的必经之路、梳理纷繁复杂的知识网络、构筑好算法模型的数学基础。更重要的是，我希望我们能一起形成一种思维习惯：源于理论，我们条分缕析；面向实践，我们学以致用。有了扎实的数学理论和方法基础，相信同学们都能登高望远、一往无前。

福利：我们为本专栏付费读者创建了微信交流群，以便更有针对性地讨论专栏相关的问题（入群方式请在第 3 篇末尾查看）。

点击阅读原文，试读了解专栏详情