准确分配加权了的神经网络本质上是一个笨重的巨型数据库。此前,你为了让它学习而准备的各种东西(在我们的教育,这些就好比是我们所需的所有铅笔、书本、老师的教导等)已经远远多于它在完成某一特定任务时所需的内容。
在现实世界中,如果有人想使用这些训练,你真正所需的是一种可以保持学习并能将其学习成果应用于其从未见过的数据的快速应用,这就是推理:只需要少得多的真实世界数据,就能快速得出正确答案(实际上是对什么是正确的的预测)。
尽管这是计算机科学的一个全新领域,但我们仍有两种主要的方法可以对迟钝的神经网络进行修改,以使其速度更快并改善应用在跨多个网络运行时所造成的延迟。
推理是如何实现的?
第一个方法着眼于神经网络中训练之后就不再激活的部件。这些部分已不再被需要,可以被“修剪”掉。第二个方法是寻找方法将神经网络的多个层融合成一个单一的计算步骤。
这类似于数字图像的压缩。设计师可能设计了这些巨大的、美丽的、数百万像素宽和高的图像,但如果要将它们放到网上,就需要将它们转换成 jpeg 格式。对人眼来说,它们看起来基本上完全相同,只是分辨率不一样。推理也是类似的,你可以得到预测的几乎同样的准确度,但简化、压缩和优化可以提升运行时的性能。
这意味着我们可以一直使用推理。你的智能手机的声控助手使用了推理,谷歌的语音识别、图像搜索和垃圾邮件过滤应用也都是用了推理。百度也在语音识别、恶意程序检测和垃圾消息过滤中使用了推理。Facebook 的图像识别和亚马逊与 Netflix 的推荐引擎全都依赖于推理。
GPU具备并行计算(同时进行多个计算)能力,既擅长训练,也擅长推理。使用 GPU 训练的系统可以让计算机在某些案例中实现超过人类水平的模式识别和对象检测。
训练完成后,该网络可被部署在需要“推理”(对数据分类以“推理”出一个结果)的领域中。而具备并行计算能力的 GPU 可以基于训练过的网络运行数十亿的计算,从而快速识别出已知的模式或对象。
你可以看到这些模型和应用将会越来越聪明、越来越快和越来越准确。训练将越来越简单,推理也将为我们生活的方方面面带来新的应用。