人工智能、机器学习、深度学习的关系，终于有人讲明白了

作者：史丹青

来源：大数据DT（ID：hzdashuju）

2012年以后，信息爆炸带来的数据量猛增、计算机算力的高速提升、深度学习的出现以及运用，使人工智能的研究领域不断扩展，迎来大爆发。除了传统的专家系统、机器学习等，进化计算、模糊逻辑、计算机视觉、自然语言处理、推荐系统也接二连三有了里程碑式的成果^[1]，见图1-10。

▲图1-10 人工智能的分支

机器学习属于人工智能的分支之一，且处于核心地位。顾名思义，机器学习的研究旨在让计算机学会学习，能够模拟人类的学习行为，建立学习能力，实现识别和判断。机器学习使用算法来解析海量数据，从中找出规律，并完成学习，用学习出来的思维模型对真实事件做出决策和预测。这种方式也称为“训练”。

深度学习是机器学习的一种实现技术，在2006年被Hinton等人首次提出。深度学习遵循仿生学，源自神经元以及神经网络的研究，能够模仿人类神经网络传输和接收信号的方式，进而达到学习人类的思维方式的目的^[2]。

简而言之，机器学习是一种实现人工智能的方法，深度学习是一种实现机器学习的技术，而生成对抗网络则是深度学习中的一种分类。它们之间的关系可以通过图1-11清晰地表示。

▲图1-11 人工智能、机器学习、深度学习与生成对抗网络四者的关系

01 机器学习分类

在机器学习或者人工智能领域，有几种主要的学习方式：监督式学习、无监督式学习、强化学习。监督式学习主要用于回归和分类，无监督式学习主要用于聚类。

1. 监督式学习

监督式学习^[3]是从有标签训练集中学到或建立一个模式，并根据此模式推断新的实例。训练集由输入数据（通常是向量）和预期输出标签所组成。当函数的输出是一个连续的值时称为回归分析，当预测的内容是一个离散标签时，称为分类。

2. 无监督式学习

无监督式学习^[4]是另外一种比较常用的学习方法，与监督式学习不同的是，它没有准确的样本数据进行训练。

举个例子，比如我们去看画展，如果我们对艺术一无所知，是很难直接区分出艺术品的流派的。但当我们浏览完所有的画作，则可以有一个大概的分类，即使不知道这些分类对应的准确绘画风格是什么，也可以把观看过的某两个作品归为一个类型。

这就是无监督式学习的流程，并不需要人力来输入标签，适用于聚类，把相似的东西聚在一起，而无须考虑这一类到底是什么。

3. 强化学习

强化学习^[5]是另外一种重要的机器学习方法，强调如何基于环境而行动，以取得最大化的预期利益。在这种模式下，输入的样本数据也会对模型进行反馈，不过不像监督式学习那样直接告诉正确的分类，强化学习的反馈仅仅检查模型的对错，模型会在接收到类似于奖励或者惩罚的刺激后，逐步做出调整。

相比于监督式学习，强化学习更加专注于规划，需要在探索未知领域和遵从现有知识之间找到一个合理的平衡点。

图1-12展示了监督式学习、无监督式学习和强化学习之间的区别。

▲图1-12 监督式学习、无监督式学习和强化学习的区别

02 神经网络与深度学习

神经网络是一种实现机器学习的技术，旨在模拟人脑神经网络的运作机制。

1943年，抽象的神经元模型被首次提出。1949年，心理学家Hebb提出了“学习率”这一概念，即信息在人脑神经细胞的突触上传递时，强度是可以变化的。于是研究人员开始用调整权值的方法进化机器学习算法。1958年，计算科学家Rosenblatt提出了由两层神经元组成的单层神经网络，它可以完成线性分类任务。

1986年，BP算法的提出解决了两层神经网络所需要的复杂计算量问题。这个算法在两层神经网络（输入层和输出层）中增加了一个中间层。但尽管使用了BP算法，一次神经网络的训练仍然耗时太久，局部最优解作为困扰训练优化的一大问题，使得神经网络的优化较为困难。

2006年，Hinton在Science和相关期刊上发表了论文，首次提出了深度学习的概念，并增加了两种优化技术——“预训练”（pre-training）和“微调”（fine-tunin）。这两种技术的运用可以让神经网络的权值找到一个接近最优解的值，并大幅减少对整个网络进行优化训练的学习时间^[6]。

图1-13中展示了单层、两层和多层神经网络。

▲图1-13 从单层、两层和多层神经网络

深度学习实际上指的是深度神经网络学习，普通神经网络由于训练代价较高，一般只有3～4层，而深度神经网络由于采用了特殊的训练方法和一些技术算法，可以达到8～10层。深度神经网络能够捕捉到数据中的深层联系，从而能够得到更精准的模型，而这些联系不容易被普通的机器学习方法所发觉。

03 深度学习的应用

目前，深度神经网络学习（见图1-14）在人工智能界占据统治地位。但凡有关人工智能的产业报道，必然离不开深度学习。深度学习的引入也确实让使用传统机器学习方法的各个领域都取得了突破性的进展。

▲图1-14 深度神经网络学习

自2000年开始，人们开始用机器学习解决计算机视觉问题——可以很好地实现车牌识别、安防、人脸识别等技术。在深度学习出现以前，大多数识别任务要经过手工特征提取和分类器判断两个基本步骤，而深度学习可以自动地从训练样本中学习特征。深度学习的发展使其应用场景不断扩大，如无人车、电商等领域。

Mobileye及NVIDIA公司把基于深度卷积神经网络的方法用于汽车的视觉系统中，率先将深度学习应用于无人驾驶领域，为无人驾驶提供了硬件基础。2018年2月2日，谷歌宣布将于2018年启动无人驾驶出租车服务，无人驾驶首次开启商业运营（见图1-15）。除此之外，通用、特斯拉、百度、Uber、苹果等公司也进入无人驾驶赛道^[7]。

▲图1-15 谷歌无人驾驶车

在语音技术上，2010年后深度学习的广泛应用使语音识别的准确率大幅提升，成熟产品如苹果的Siri、亚马逊的Echo（见图1-16）等，可以很轻松地识别出用户说出的一段话，并可以协助用户完成一些任务，比如开关应用、搜索，甚至帮助预订晚餐座位。

▲图1-16 亚马逊智能音箱Echo

与图像相比，语音的识别更加复杂，不同语言、不同口音，甚至充满暗喻的内容，这些对机器的理解能力提出很高的要求^[8]。

在自然语言处理上，目前取得最大突破的成熟产品就是机器翻译。谷歌的翻译系统可以理解原文的连贯语义，给出完整的翻译结果，这是人工智能的一个标杆性事件。2016年，谷歌翻译升级成谷歌神经网络翻译系统（Google Neural Machine Translation），在机器翻译上实现颠覆性突破。