大型芯片将打破深度学习的速度壁垒

━━━━

Cerebras公司的技术将在数小时而非数周的时间里完成对这些人工智能系统的训练。

人工智能计算机初创企业Cerebras Systems的联合创始人兼首席执行官安德鲁•费尔德曼（Andrew Feldman）表示，今天的人工智能效率远低于它本应能达到的效率。

他和公司的其他联合创始人一致认为，如今的人工神经网络在训练上太过耗时，计算量太大。比如说，要让一辆自动驾驶汽车识别出它在路上会遇到的所有重要物体，则需要向汽车的神经网络展示大量有关这些物体的图像。这个过程发生在数据中心，耗电数十千瓦有时甚至数百千瓦的计算机会专门处理这种常常耗时长达数周的任务。假如生成的网络能够以所需精确度执行这项任务，则定义网络连接强度的多个系数随后会被下载到汽车的计算机中，然后去执行另一半深度学习工作，即推理。

Cerebras的客户（该公司已经有一些客户了，不过在去年夏天还在保密状态）抱怨说，在当今的计算机上进行大型神经网络训练可能需要长达6周的时间。以这样的速度，他们一年可能只能训练6个神经网络。“我们的目的是测试更多的想法，”费尔德曼说，“如果你能在2到3个小时内（训练1个网络），那么你就可以运行数千个想法。”

记者参观Cerebras公司位于加州洛思阿图斯（Los Altos）的总部时，这些客户和部分潜在新客户已经在用有橙色护套的光缆将他们的训练数据导入4台CS-1计算机中。这些64厘米高、功率为20千瓦的机器不停地运转，产生的热量通过墙上的一个孔洞被排放到了硅谷的街道上。

从外观来说，CS-1计算机本身并不特别。实际上，每个机箱的3/4都被冷却系统占据，而另外1/4空间中的内容才具有真正的“变革性”：一台非常强大的计算机几乎完全由一块单一芯片组成。不过这块芯片的面积超过46255平方毫米，是任何市售处理器芯片面积的50多倍。借助1.2万亿个晶体管、40万个处理器内核、18千兆字节的静态随机存储器（SRAM）以及每秒可移动100千万亿字节的互连技术，Cerebras的晶圆级引擎（WSE）可轻松秒杀其他系统。

Cerebras引用的统计数据是相当惊人的。该公司称，一个10机架的TPU2集群（谷歌人工智能计算机产品的第二代）消耗的功率是单台WSE计算机的5倍，占用的空间是它的30倍，性能却仅为其1/3。单一巨型芯片是否真的是人工智能界一直在等待的答案，今年将变得明朗起来。“（神经网络）模型越来越复杂，”加州山景城林利集团（Linley Group）的高级分析师迈克•戴姆勒（Mike Demler）说，“能够快速训练或再训练非常重要。”

芝加哥附近的超级计算机巨头阿贡国家实验室等客户已经在自己的办公场所安装了这种机器，如果Cerebras的推测是正确的，那么有出色表现的神经网络的数量将呈爆炸式增长。

费尔德曼解释说，Cerebras的创始人们（都是服务器公司Sea Micro的老员工，Sea Micro被超微半导体公司AMD收购）在2015年初次开会时便希望打造一台完美符合现代人工智能工作量性质的计算机。这些工作量由以下几点定义：快速移动大量数据，接近处理内核的内存，而且这些内核不需要处理其他内核正在处理的数据。

这立刻给包括首席技术官加里•劳特巴赫（Gary Lauter-bach）在内的资深计算机架构师提供了一些想法。首先，他们可以使用成千上万个用于进行相关神经网络计算的小内核，而不是使用更少量的通用内核。其次，这些内核应该与一个低能耗且可以快速移动数据的互连方案连接在一起。最后，所有所需数据应位于处理器芯片中，而不是多个单独的存储芯片上。

很大程度上正是在这些内核之间移动数据的需要让WSE变得独一无二。在两个内核之间移动数据最快、能耗最低的方法就是将它们放在同一个硅基板上。数据必须从一块芯片传输到另一块芯片时，速度和功率方面的代价都很高，因为距离很长，传输信号的“电线”必须更粗且密度更小。

通过硅片实现所有通信的欲望，加上对小内核和本地存储的渴望，都指向制造一块尽可能大的芯片（也许大如一整块硅晶圆）。费尔德曼说：“显然我们做不到这一点，这是肯定的。但这很明显有很大的好处。”

━━━━

几十年来，工程师们一直认为研究晶圆级芯片是一个死胡同。毕竟，出色如已故IBM System/360大型机首席架构师吉恩•阿姆达尔（Gene Amdahl），也在与Trilogy Systems公司合作进行的尝试中失败了。不过劳特巴赫和费尔德曼说，任何与阿姆达尔的尝试进行的比较都很可笑而且过时的。阿姆达尔使用的晶圆只有如今晶圆的1/10大，而在这些晶圆上组成的设备尺寸却是现今设备的30倍。

更重要的是，Triology无法解决芯片制造过程中不可避免出现的错误。在其他条件相同的情况下，芯片越大出现缺陷的可能性就越大。如果芯片和一张信纸一样大，那么它必然会有不少缺陷。

不过，劳特巴赫找到了架构解决方案。由于他们的目标工作量偏向于采用成千上万个相同的小内核，所以可以容纳足够多的冗余内核来承担其中高达1%的缺陷所导致的故障，与此同时仍然能有一块非常强大、非常大的芯片。

当然，为了制造能容纳缺陷的巨型芯片，Cerebras还是需要解决大量制造问题。例如，光刻工具能够将它们的特征定义图案刻蚀到相对较小的矩形上，并不断重复。由于在晶圆不同位置刻蚀不同图案的成本和难度较高，仅此一项就导致无法将许多系统构建在单个晶圆上。

不过WSE不需要这样做。它就像一块充满了完全相同的芯片的普通标准晶圆一样。最大的挑战是找到一种将这些伪芯片连接在一起的方法。芯片制造商在每个芯片周围留下了一条称为“划线”的空白硅窄边。通常会沿着这些线将晶圆切成小块。Cerebras与台湾积体电路制造股份有限公司（TSMC）合作开发了一种跨越划线实现互连的方式，以便每块伪芯片中的内核都可以通信。

由于所有通信和内存都在一块硅片上，数据可以畅通无阻地快速移动，实现每秒1000拍比特的内核到内核带宽和每秒9拍字节的SRAM到内核带宽。“这多的可不是一点点。”费尔德曼说，”就是因为我们继续使用了硅，我们将带宽提升了4个数量级。”

除了实现跨划线互连，芯片制造硬件也必须修改。即便是用于电子设计自动化的软件，也必须定制才能在如此大的芯片上工作。“每一条规则、每一种工具和每一种制造设备的设计都像是挑选一块普通大小的巧克力饼干。而（我们）提供的是一整块烤盘大的饼干，”费尔德曼说，“其中的每一步都需要创新。”

晶圆级集成“在过去40年里一直被忽视，当然，总有一天它会得到重视”，他说。现在，既然Cerebras已经这样做了，大门可能会向其他人敞开。“我们认为，其他公司会寻求与我们合作，以解决人工智能之外的问题。”

确实，伊利诺伊大学和加州大学洛杉矶分校的工程师们认为，Cerebras芯片可以促进他们使用硅互连结构技术推进他们的晶圆级计算工作。“这是对我们所做研究的极大验证，”伊利诺伊大学的拉凯什•库马尔（Rakesh Kumar）说，“我们很高兴这种事情有商业利益。”

━━━━

当然，CS-1不仅仅是WSE芯片，但它也没有更多内容。这既是出于设计，也是出于必要。被看作主板的，是一个位于芯片上方的电力输送系统，其下方还有一块水冷冷板。令人惊讶的是，在这款计算机的开发过程中，最大的挑战便是这个电力传输系统。

WSE有1.2万亿个晶体管，其设计工作电压约为0.8伏，这是处理器的标准配置，但它们的数量过多，共需要2万安培的电流。劳特巴赫说：“在没有明显电压下降的情况下，将2万安培的电流注入晶圆是一个相当艰巨的工程学挑战，这比冷却晶圆或解决成品率问题要难得多。”

电力无法从WSE的边缘传输，因为互连中的电阻在电压到达芯片中间之前早已将其降为零。所以应该自上而下垂直传输。Cerebras设计了一块玻璃纤维电路板，里面装有数百个用于功率控制的专用芯片。100万根铜柱将玻璃纤维板与WSE上各个点之间约1毫米的距离连接起来。

以这种方式传送电力似乎很简单，但事实并非如此。操作过程中，芯片、电路板和冷板都会预热到相同的温度，但在预热时它们膨胀的量各不相同。铜膨胀最大，硅膨胀最小，玻璃纤维的膨胀介于两者之间。对正常尺寸的芯片来说，这种不匹配是一个令人头疼的问题，因为这种变化足以切断它们与印刷电路板的连接，或者产生足以破坏芯片的应力。对于WSE大小的芯片而言，即使是很小的尺寸变化也会转化为几毫米的变化。

劳特巴赫说：“与主板（热膨胀系数）不匹配是一个残酷的问题。”Cerebras曾尝试寻找一种热膨胀系数介于硅和玻璃纤维之间的材料，只有这样才能保持百万个电力输送柱的连接。不过，最终工程师们不得不自己发明材料，这项工作耗时1年半。

━━━━

WSE明显比通常用于神经网络计算的竞争芯片要大，后者包括英伟达的Tesla V100图形处理器和谷歌的Tensor处理器，但更大意味着更好吗？

2018年，谷歌、百度和一些顶级学术团体开始研究基准，以便在系统之间进行同类比较。结果是他们于2018年5月发布了训练基准MLPerf。

根据这些基准，神经网络训练技术在过去几年里取得了巨大进步。英伟达DGXSuperPOD（本质上是一台1500-GPU的超级计算机）用了80秒便解决了ResNet-50图像分类问题，而使用英伟达DGX-1机器（大概在2017年）需要8小时，使用该公司2015年的K80则需要25天。

Cerebras还没有发布MLPerf结果或任何其他可独立验证的同类比较结果。相反，该公司更愿意让客户使用自己的神经网络和数据来测试CS-1。

分析人士称这种做法并不罕见。“每个人都有为自己的业务开发的模型，”Moor Insights的人工智能分析师卡尔•弗洛因德（Karl Freund）说，“对买家来说，这是唯一重要的。”

例如，早期客户阿贡国家实验室就有一些相当强烈的需求。在训练神经网络以实时识别不同类型的引力波事件时，科学家们最近使用了阿贡功率为百万瓦特的Theta超级计算机1/4的资源，该超级计算机的计算能力在全球排名第28位。

把功耗降低到千瓦级似乎是超级计算的一个重要益处，劳特巴赫怀疑这项功能是否会成为数据中心的一大卖点。“虽然很多数据中心都在说（节约）能源的问题，但归根结底……他们并不在乎，”他说，“他们想要的是性能。”而这是一个约餐盘大小的处理器完全可以提供的。

作者：Samuel K. Moore

IEEE Spectrum

《科技纵览》

官方微信公众平台

往期推荐

新型硅芯片复苏旧算法

40个GPU 的芯片设计

集成电路硬件安全——从一粒沙到安全芯片