社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

PaddlePaddle叕将升级!如何理解中国深度学习框架的起跳瞬间

脑极体 • 7 年前 • 357 次点击  

以前看一部战争片的时候,对一位军工厂领导的台词印象深刻。他是这么说的:前方的战士看见我们运过去的炮弹,心里比看见麻花都甜。


在一项事业或者工程进行当中,从业者对核心生产资源的那种期待,是外人难以估量和理解的。无论是战争、医疗还是工程,在现代工业体系中,毫无疑问资源就是一切。这种对基础资源的期待,如今也发生在AI产业当中。


AI的核心资源当然有很多。但毫无疑问,深度学习框架是其中之一。毋庸讳言,中国的深度学习框架发展比欧美要晚,起步阶段的失位和整个产业的高速发展,造成了中国AI开发者和创业公司们某种程度的“框架饥渴症”。



好在这种情况正在被积极“治疗”中。近两年我们可以看到百度PaddlePaddle不断进行重大升级。而刚刚传来消息,百度宣布成立深度学习技术平台部,其隶属AI技术平台体系(AIG),由两位AI技术专家于佃海、马艳军分任总架构师和部门负责人。


成立专门部门进行打造,毫无疑问意味着PaddlePaddle的战略地位进一步提升。从一个技术平台到一个独立部门,这个中国深度学习框架史上的首次操作,应该可以看做AI产业的一次飞跃。


这次起跳意味着什么?有什么前因和后果?


让我们把PaddlePaddle的幸福时刻定格在这里,看一看深度学习框架的中国之旅,背后都有怎样的辛秘。


一个巨大的需求


PaddlePaddle之所以不断上升,从技术资源、人才资源,再到今天的企业架构资源,相继往这个有点萌的名字上倾斜,背后的道理很简单:PaddlePaddle卡住了一个巨大而且必需的市场需求。


百度于2013年成立深度学习实验室,并推出自主研发的深度学习平台,即PaddlePaddle的前身;2016 年 8 月,PaddlePaddle正式开源。该平台对标谷歌TensorFlow,是中国首个、也是当前国内唯一开源开放的深度学习框架。而这个首个,也映射着当时中国AI开发者三个难以搞定的真实需求:


一、中文需求


TensorFlow、caffe这样的框架,当然是没有中文文档和训练数据的。但是语言又是AI世界中的重中之重。总不能让中国市场上的AI系统都说英语吧?在PaddlePaddle开源之前,还有个更痛苦的情况是,如果中文AI开发者训练的算法出问题了,他就必须越洋电话和邮件去找欧美的客服。这其中的沟通成本和效率可想而知。


所以当PaddlePaddle开源,百度开始大规模为开发者提供中文训练文档,以及中文客服,并不断共享百度在语音交互这个强势领域的数据与算法技术,这对于中国AI开发者当然是雪中送炭。仅仅靠这一点,在AI开发的兴起时刻,PaddlePaddle就确立了存在的意义与必要性。



二、大规模应用需求


据说开发PaddlePaddle,最早在百度内部的目的就是应对TF等框架,不适应大规模训练的问题。由于TF这样的框架更偏于学院化和深层开发,这就导致企业级AI应用非常难适应。而中国恰恰是一个流量大、数据多、用户存量大的市场,欧美的小而精模式当然水土不服。于是当PaddlePaddle高举大规模应用的旗帜出现,中国AI开发者,甚至不少欧美开发者当然蜂拥而至。如今PaddlePaddle在持续升级下,系统稳定性已经可以支持工业界服务的规模,这在业界中也是首屈一指的,更加适合了中国市场AI与传统行业结合、大规模互联网AI应用的真实情况。


三、国家安全需求


中兴事件已经可以看出,底层技术掌握在其他国家手中是相当可怕的一件事。一言不合就给你掐断上游,简直没地方讲理去。


试想一下,安防、军事等领域的AI应用,假如用欧美框架训练那是多么可怕的一件事?这种情况下,完全自主掌握的AI框架变得格外重要。


而到目前为止PaddlePaddle已经完成了从芯片到文档,从框架到应用工具的全面自主化。其还在NLP、知识图谱、语音图像等领域进行了深度布局,能够满足从产业界到社会服务的不同AI开发需求,这也就让整个国家经济体的AI发展安全系数大为飙升。所谓最适合中国国情的深度学习框架,并不只是说说而已。


占领了这些核心需求,PaddlePaddle开始了不断积累升级,并在适当时刻准备冲刺与跳跃。这次百度成立深度学习技术平台部,可以看做PaddlePaddle产业根基来到了全新阶段。


日渐稳固的根基


想要赢得未来,就必须稳固住现在的优势与地位。而PaddlePaddle来到可独立成为部门的节点上,实际也标志着百度对PaddlePaddle目前产业根基与身位优势的判断。


可以看到,三方面的领先优势支撑了PaddlePaddle可以独立出来,扩大招兵买马规格,走上产业快速迭代的快车道:


一、技术已经积累充足


深度学习框架的好坏,除了开发基础之外,主要有几个方面的技术来评定:工具是否健全而充足;颗粒精细程度能否满足深度开发需求;社区建设与数据资源的建设水平。这些领域,中国的深度学习框架是一个必须快速追赶欧美,必须在紧迫时间完成连续升级的过程。好在PaddlePaddle基本已经证明了技术建设速度可以被信任。


2016年开源之后,2017 年 11 月,百度发布更细粒度的新一代深度学习框架——PaddlePaddle Fluid;2018年7月的百度AI开发者大会(Baidu Create 2018)上,百度发布PaddlePaddle 3.0,包括完整的核心框架,以及AI Studio、AutoDL、EasyDL等可以让开发者平等便捷获取顶尖AI能力的组件。


到目前为止,PaddlePaddle已经组成了数据、工具、框架上的全面技术优势,可以与欧美一线框架看齐。



二、人才优势不断扩大


这次成立深度学习技术平台部,据说PaddlePaddle将一举成为40人的研发团队。而且两位领头人都在百度AI业务最前线奋战多年,不仅对深度学习的理论和算法有深刻理解,还具有超强的产品和工程能力。


资料显示,早在2010年,于佃海作为核心成员之一推动了百度搜索使用机器学习的排序算法;2012年,百度开始深度学习的研究,于佃海是第一批研究人员,他带头研发的深度学习技术被百度多个产品广泛应用。马艳军曾获国家科技进步奖,并曾经负责百度信息流内容的技术研发,大幅提升了信息流的用户体验,支撑了百度信息流实现高速增长。


两位T10级别业界领军人物带队,展现出了百度豪华的AI人才储备。围绕PaddlePaddle,无论是人才成长还是人才吸引力,都已经达成了国际水准。


三、身位优势不断加强


在AI产业发展上行到新局面,AI与IoT结合不断加深、传统行业应用AI潜力被释放、无人驾驶等领域风口来临的时候,AI基础设施的价值也相应地被放大。但是就国内市场而言,想要在短期内再出现可开源,并且工具化相应完善的深度学习框架,基本已经是极小概率事件。而且社群建设与生态建设更是需要时间。早投入早回报,已经开始让PaddlePaddle呈现出产业周期红利。


战略资源不断升级,百度体系内的地位不断明晰,国际影响力与吸引力不断增强。等等优势让PaddlePaddle值得被加大投入力度,达成更高水准的产业聚合。而与此同时,PaddlePaddle的未来要走向哪里,似乎也再愈发的明晰了起来。


已然清晰的方向


成立专门部门之后,PaddlePaddle会走向何方,这或许是一个大众比较关心的问题。但是就PaddlePaddle的过往发展历程而推断,其发展方向其实一直非常明确。所做的是在推动产业迭代速率,为已经清晰明确的方向添柴加火。


从过往分析,“两化一目标”似乎可以被视作PaddlePaddle的未来。


一、基础设施化


PaddlePaddle自诞生之日起,到不断的重大升级和产业迭代,都是以成为中国AI产业与广大开发者的基础设施为目标。而在今天的独立特性确立,生态化基础牢固之后,PaddlePaddle势必将进一步加强自身成为AI产业基础设施的优势,与产业深度结合,不断向开发者开放新的资源与产业优势。伴随着百度在无人驾驶、对话式AI,以及AI技术综合应用领域的扩展,PaddlePaddle也将持续加深行业下沉力,完成其成为基础开发必经之路的产业使命。


二、生态化


AI不能闭环,必须无功利地开放和共享,造就持续有生命力的AI开发环境,这是已经在世界AI开发舞台上得到印证的判断。但中国的AI开发生态仅刚刚起步,必须有更强的生态赋能方案出台,催化开发生态的成熟。


这是PaddlePaddle的第二个目标,也是其成立专门部门的核心支撑因素:提高生态赋能能力,建设纵深度和生命力更强的AI开发群落。



目前我们看到PaddlePaddle对开发者的全方位扶持已经不仅局限于技术框架。公开课、AI大赛、与高校合办师资培训班等等方式都成为常态。而稳固的生态会堆积成雪球效应,这也是AI产业的必须要求。


在百度AI开发者大会上,我们已经看到PaddlePaddle生态化的成果。比如北京工业大学的四位学生利用PaddlePaddle制造了一台智能桃子分拣机,实现桃子的自动分拣;援藏医生陈静飞借助基于PaddlePaddle的定制化训练与服务平台EasyDL,进行显微镜下寄生虫虫卵识别。这些能够改变产业效率,甚至承担社会责任的AI开发,都是从PaddlePaddle的生态化进程中汲取而来。


三、目标专精于工业应用


AI的未来在于与经济体结合,成为工业体系换发活力的再生药水。那么对深度学习开发框架的最高要求,就是能够全面赋能工业体系,提高工业级应用AI的可能性,降低准入门槛。


厉兵秣马的PaddlePaddle,已经将目标对准了工业级应用。目前PaddlePaddle已经开放近20种工业级模型,各项AI技术被广泛应用于生产中。


从PaddlePaddle的明晰目标中可以看出,中国AI开发的大任只是刚刚开始而已。有了基础,还需要有不断的投入和社会意愿的激发。但无论怎么说,PaddlePaddle都是一种开始。


美妙的开始,是一切想象力与恢弘故事的源头。


今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/BVWlxMZVzP
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/21640
 
357 次点击