移动端和物联网智能设备的迅猛发展,势必需要算力从集中向终端分布式部署,最终在中心化和分布式两者间取得平衡。人工智能在算法优化阶段需要投入大量的算力,Google的明星机器人AlphaGo在击败李世石之前,DeepMind团队使用了48颗TPU对AlphaGo进行了数个月的3000多万盘对弈训练。显然移动时代,大量的数据在本地存储的模式不在适合。因此,算力一定会随着移动设备和物联网智能设备的发展而向边缘倾斜,实现算力的分布式部署。服务端与客户端分离的结构,移动端的分布式机器学习就成为重要的方向,Google在这方面已经获得产品级突破——Google基于TensorFlow构建了全球首个产品级可扩展的大规模移动端联合学习系统,目前已在数千万台手机上运行。
分布在全球的大量IDC和个人算力节点资源由于网络和算法瓶颈,其潜能未被充分挖掘。根据IDC和Seagate联合发布的白皮书,预测到2025年,全球连接数达1000亿,为2015年的10倍。全球数据存储量由2018年的32 ZB扩大5.5倍,达到175 ZB。随着数据的指数级增长,超大型数据中心作为数据的物理承载,成为信息基建的重要组成部分——同时,远离网络入口的IDC和分布在网络里的大量计算节点成为一个新的市场主角。过去由于存在网络时延以及算法效率瓶颈,互联网巨头建立集中的、具有网络出口优势的数据中心,提供互联网服务。而如今,在数据计算和存储等业务领域,无论是大型的IDC还是更加分散的个人节点算力资源,都有极大的待挖掘的潜能未被激发。


以Google联合学习算法为典型,分布式AI使得移动端分布式机器学习成为现实,分布式算力的潜力被激活。今年2月谷歌宣布实现了全球首个产品级的超大规模移动端分布式机器学习系统,目前已经能够在数千万部手机上运行。谷歌基于TensorFlow构建了全球首个产品级可扩展的大规模移动端联合学习系统,目前已在数千万台手机上运行。这些手机能协同学习一个共享模型,所有的训练数据都留在设备端,确保了个人数据安全,手机端智能应用也能更快更低能耗更新。研究人员表示,该系统有望在几十亿部手机上运行。联合学习能产生更智能的模型,更低的延时和更少的功耗,同时确保用户的隐私。这一切都依赖于联合学习(FL)方法,联合学习是一种分布式机器学习方法,可以对保存在移动电话等设备上的大量分散数据进行训练,是“将代码引入数据,而不是将数据引入代码”的更加通用化的一个实现,并解决了关于隐私、所有权和数据位置等基本问题。

分布式联合机器学习使得分散算力可以联合执行算法任务,并在大规模的分散设备部署,有效突破通信瓶颈,实现分布式算力的联合协同完成数据计算任务。指数级增长的全球终端节点设备使得算力大量分散在网络不同节点,而GPU计算性能的提升使得每一个设备都是不可忽视的算力资源。网络快速增长的数据量是一个价值潜力巨大的资源池,如果能够将分布式算力、大规模数据和算法结合起来,将创造极具价值的服务市场。
网络算力资源不仅来自于企业自身、大型云计算公司,更广泛的分布式云算力资源市场有待进一步挖掘。传统的互联网巨头掌握大量的数据、算法和算力资源,闲置网络算力资源是一种浪费,弹性复用的想法下诞生了云计算服务。亚马逊、阿里、腾讯和华为等传统IT巨头在云计算服务的投入使得这些公司获得了不小的回报。但更为广泛闲置的是云算力——毕竟依靠中心化互联网巨头集中投入的计算资源只是网络算力的一部分,我们不应该忽视更为广泛的分布式节点的计算资源,这些节点可能来自于个人、小团体或其他无意成立专门的部门输出云计算服务的公司。大型云计算平台的模式仍是是中心化的运作,在商业拓展和数据隐私方面都存在一定的瓶颈。构建一个去中心化的云算力市场,既保护节点的隐私又能是的云算力获得应有的市场回报,是云算力市场值得挖掘的潜力。
互联网巨头的云计算业务主要以消费互联网公司为主,更关注实时性消费级业务,云算力有望成为新崛起的蓝海市场。从2018年云计算市场来看,主要集中在亚马逊、微软、谷歌、阿里云与IBM手中,Cannlys数据显示,上述五大巨头占全球65%市场份额,其中亚马逊AWS占全球31.7%市场份额,规模高达254亿美元。排在第二的是微软Azure,营收规模为135亿美元,占全球份额16.8%。亚马逊AWS业务的头部客户主要是苹果、Adobe、Snap、Lyft和Pinterest等消费互联网公司,其他云计算巨头的客户同样集中在社交、娱乐等领域,对实时性交互要求较高。

对网络实时性不敏感的大规模数据计算和存储业务,云算力有望打造蓝海市场。基于互联网大致可以分为三类:一类是实时性强的业务,用户需要流畅的访问和浏览,比如网页浏览、视频娱乐、支付等等;一类是需要大规模数据计算的业务,这类业务并不需要太强的实时性,但需要强大的算力资源做支撑,进行大工作量的数据计算,这类业务以加密货币挖矿、科学计算等等为代表;还有一类是对实时性和算力要求都不高的冷数据业务,比如存储备份等。其中对后面两类业务场景是云算力最理想的市场。这类业务平台目前处于发展的初期,典型的项目如BOINC,(全称Berkeley Open Infrastructure for NetworkComputing,伯克利开放式网络计算平台)诞生于2003年,是全球最早、最知名、用户量最大的分布式计算网络。目前,全球大约40个科学项目正在使用BOINC。整个网络包含超过15万名志愿者和65万台计算机。这些计算机每秒产生30“PetaFLOPS”的计算能力,或30亿次浮点算术运算,与世界上排名第二的超级计算机相当。如果将Folding@Home项目算力计入,BOINC所有志愿者的计算量比任何超级计算机都要大。对于大规模数据计算,对时延并不敏感,可以充分调动分布式云算力,实现算力提供者的资源复用和数据计算的成本优先的双赢局面。

加密数字货币挖矿为云算力率先开辟了一个快速增长的市场。以加密数字货币挖矿为例,经历数字货币市场熊市背景下,比特币全网算力接近历史新高。这些算力背后都是分布在全球各地的矿场和矿机,大部分矿场对IT环境和网络环境要求极低,挖矿的主要关注点和成本就是电力。调动分布在全球的云算力——无论是大型IDC还是个人节点,都可以为各类数据计算提供保护数据隐私、高效的服务。加密数字货币挖矿为云算力率先开辟了一个快速增长的市场,具备一定的示范效应。将挖矿中的算力消耗引向数据因业务计算,改进共识机制的算法,那么等于将“挖矿”拓展到数字货币外更多的场景和领域——云算力市场将是一个更大规模更广泛的挖矿市场。

