图灵奖推荐信曝光，邓力：Hinton对深度学习有宗教般信仰

来源：新智元

本文共3000字，建议阅读10分钟。

一封值得拜读的推荐信。

[ 导读 ]近日，2018图灵奖获得者公布，深度学习三巨头中的Geoffrey Hinton荣获桂冠。而早在2016年底，美国微软研究院深度学习技术中心的Partner研究经理和AI首席科学家邓力先生(Dr. Li Deng)便由合作者的身份高度举荐Hinton荣获图灵奖。我们得到邓力先生的授权，公开他写的图灵奖推荐信。

Geoffrey Hinton，被称为“神经网络之父”“深度学习鼻祖”，他将神经网络带入到研究与应用的热潮，将“深度学习”从边缘课题变成了谷歌，脸书，微软, 亚马逊，苹果等互联网和IT巨头仰赖的核心技术。

近期，Hinton获得图灵奖的消息刷爆全网，可谓是实至名归。而早在2016年底，时任美国微软研究院深度学习技术中心的Partner研究经理和人工智能首席科学家的邓力先生便高度推荐和支持Geoffrey Hinton获得该奖项。纽约时报在3月27日首次报道Hinton等获图灵奖的消息时，引用了作为语音识别合作者的邓力先生对Hinton在深度学习开创性工作的评价。（见 https://www.nytimes.com/2019/03/27/technology/turing-award-ai.html）

本文经邓立先生授权，公开其推荐信。这是他在离职微软入职城堡基金前夕受多伦多大学委托为Hinton教授写的。以下为推荐信的具体内容。

邓力博士为Hinton获图灵奖的推荐信

2016年11月24日

致：图灵奖评选委员会主席

关于：推荐和支持Geoffrey Hinton获奖

尊敬的图灵奖评选委员会主席，

我是美国微软研究院深度学习技术中心的Partner研究经理，过去与Geoff Hinton教授一同在诸方面做过卓有成效的合作。我强烈推荐和支持Geoff获得图灵奖，因为他在深度学习方面的开创性工作和成就引领了现代整个语音识别、图像识别和人类语言处理行业的发展趋势。Geoff对我本人的工作也产生了深刻地影响。我的公司微软，以及美国和世界上许多大大小小的IT公司，都从Geoff的深度学习的原创工作中在多维度上大大受益。

Geoff是我所认识和共事过的最卓越及才华横溢的科学家和研究员。他的工作不仅有助于了解人类大脑如何处理信息，更重要的是，他能够有效地将这些知识嵌入到工程和人工智能系统中，从而创造出潜在的类似大脑的能力。在接下来的这封推荐信中，我想将Geoff在工业语音识别方面工作的影响作为一个具体的案例，因为这是Geoff所做出的最具代表性的杰出成就之一，而我本人恰恰能作为他的合作者的身份证明他的伟大功绩。

Geoff在2009-2012年期间与美国微软研究院紧密合作，在深度学习方面进行了开创性的工作，从根本上改变了语音识别在工业界和学术界的应用方式。这次合作及其产生的结果打破了20多年来语音声学表征的传统，即使用数目巨大的但基本上平坦的高斯混合模型作为每个隐马尔可夫状态。接下来，让我简要地描述一下Geoff和我的合作是如何展开的，以及这项工作后来在微软和整个行业产生了怎样的影响。

在2009年11月至12月期间(加上2010年的另一段时间)，我有幸“聘请”Geoff为我和微软雷蒙德研究院进行咨询，研究如何将深度学习方法应用于语音特征编码和语音识别问题。在此之前，基于高斯混合统计模型和隐马尔可夫模型的语音识别长期以来一直处于非常令人沮丧的“局部最优”状态，因为语音识别的准确率很难大幅提升。自20世纪80年代以来，这些模型在语音识别中可是一直占据主导地位。现在让我将这种情况置于当时的历史背景吧。

2006年秋季，美国政府的Office of the Director of National Intelligence’s Office of Science and Technology（即IARPA的前身组织) 敏锐的观察到了语音识别中出现的这一尴尬状态，就同时呼吁成立一支专家小组（我是其中之一）在首都华盛顿会面决策怎样跳出这种状态。这个小组开了几天会，剧烈争论的焦点是 --- 在15年的时间内并在（假设的）无限制资源情况下如何开发语音识别的颠覆性技术，才能摆脱“局部最优”的难题。大部分的讨论都集中在了深层统计生成模型上，以及如何获取和整合有关动态人类语音感知和生成的知识，并将其整合到复杂的统计框架中。而我们当中所有的专家小组成员当时没有一个人谈论过神经网络，因为神经网络在当时的2006年之前许多年就已经“过时”了。

这次会议产生了一份冗长的报告。几年后，微软和其他组织都按照报告中提出的方向进行了许多尝试。特别是，我在微软带领一个团队，继续使用当时流行的现代机器学习算法(如变分推理和贝叶斯学习)进行深度和动态生成建模。对于一些基准测试任务(例如TIMIT)，这种方法提供了最高的准确性。

但是对于大型词汇量的语音问题的推断和解码，运行时的复杂性是如此之高，甚至我自己的公司微软也不想将这种深入的统计模型应用到我们的语音产品中。所以那时，我们微软一直在寻找新的技术。在我阅读了Geoff于2006年发表的两篇开创性的深度学习论文，以及Geoff亲自与我（在NIPS 2008上）讨论过这些论文的重要性之后，我邀请Geoff Hinton来为我和我的研究团体做咨询。那时，语音研究社团几乎没人读过或重视过Geoff的深度学习论文和思想。

在他2009年咨询之旅期间，Geoff和我在Redmond的办公室里密切合作，共同开发了和分析了训练Geoff的深层信念网络的方法“食谱”及在语音特征提取上的应用。这是一种深层模型的生成形式，但是参数化形式和深度神经网络一样。我们当时实验中用的声学数据来自于常用的小型语音识别实验。因为数据集相当小，这就允许快速的实验周转。所使用的网络比以前的神经网络要深得多、大得多，有多达6到10个隐含层，每层有几千个隐含单元，相邻层之间完全连接。最后对网络进行微调，使用标准的反向传播算法计算梯度，利用动量随机梯度下降更新权值。这就将生成信念网络转化为判别神经网络。

在微调开始之前，通过使用由Geoff和其学生开发的无监督学习算法来初始化神经网络的权重，该算法无需知道用于微调的标签。无监督学习算法一次学习一个二元随机特征的隐含层，目的是在学习第一个隐含层时，对下一层或原始语音特征中特征激活模式的统计结构建模。这种深度神经网络的结果在对同一任务进行评估时仅略优于当时文献中性能最好的，基于我和同事开发的深层/动态生成模型的单一系统。

然而，我们仔细分析了这两种不同的系统产生的语音识别的错误样本，发现它们的错误模式迥然不同。这种不同的错误模式的发现反映了两种方法不同的核心能力，并推动了对深度学习方法的进一步研究。2010年和2011年在微软内部的进一步研究使得大规模语音识别系统的错误率大幅减少，首先由微软的大型语音识别实验所证实，然后由IBM、谷歌、科大讯飞和百度再证实，而后更由全球几乎所有从事语音识别的行业和学术团体证实。

这种语音识别系统中使用的基本算法是基于Geoff开创性的深度学习的工作。如果没有Geoff的洞察力，没有他对深度学习在成功前的宗教般的信念，没有他对此的热切追求和他劝说的力量，没有他亲自实践的指导来运行他的“食谱”(甚至实践到同我手把手一起研究语音数据时的计算机编码水平)，语音识别行业就不会有今天这种革命性的成功。

Geoff在运行针对大规模人工智能问题(如语音识别)的深度学习算法时，及时采用现代计算基础设施的巧妙本能令我感到见到大神般的惊讶。具体来说，GPU/CUDA库是在2007/2008年发布的，当时不少语音识别领域的研究人员都在追求深度/动态生成模型，希望能够为大规模语音识别提供正确的解决方案但一直没有成功。“最完美的时刻”出现在2009年，当时GPU/CUDA变得流行起来，微软发现由于与这些方法相关的可扩展性问题，严格的方法无法交付我们需要的东西。当才华横溢的学者Geoff和业界抓住这个机会，利用GPU的及时大计算资源和深度神经网络方法(这种方法最适合GPU计算)共同解决最紧迫的问题时，革命发生了。

综上所述，Geoff的工作和成就对语音识别行业的革命性变革做出了巨大的贡献，因为在很长一段时间内，整个领域都陷入了“局部极小值”。Geoff在将深度学习和深度神经网络引入语音识别方面所做的工作，其重要性超过了语音识别整个50年历史中任何一项单独的技术。在计算机视觉、自然语言处理和多模态机器学习(我的研究也涉及到这些)方面，Geoff的贡献同样重要。我相信，其他推荐人会很详细说明Geoff在这些方面的贡献和他们的重要性。

如果您需要更多信息，请通过deng@microsoft.com或者拨打425-xx-xxxx与我联系。

Li Deng, Ph.D.

Partner Research Manager, & Chief Scientist of AI

Microsoft AI and Research, Microsoft Corporation

One Microsoft Way,

Redmond, WA, USA, 98052

Tel: 425-xxx-xxxx

编辑：黄继彦

校对：林亦霖