社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  aigc

燧原科技创新研究院院长、首席科学家姚建国教授:构建基础算力底座,推动国产算力发展|WISE2023颠覆AIGC产业发展峰会

36氪 • 1 年前 • 325 次点击  
大模型需要大算力,分布式聚合的系统级创新将构建新一代算力底座,赋能AIGC应用。

5月23日,36氪举办「颠覆·AIGC」产业发展峰会。本次峰会汇聚产业力量,共同探讨企业、行业在面临变革时的应对策略,分享思考,探索和发现产业中最具潜力的企业与最具价值的技术,在激荡的环境中探寻前行的方向。

大会上,燧原科技创新研究院院长、首席科学家姚建国教授发表了题为《新一代AIGC算力底座》的主题演讲,从算力视角分享了自己在大模型发展历程中的见闻。姚建国教授坦言,大模型的快速发展已超出意料,两年前关于大模型落地的解决方案仍不够明晰,但目前看来大模型用武之处颇多。姚建国教授也表示,大模型的发展不是一蹴而就,而算力是大模型发展的重要助推器。

同时,姚建国教授进一步指出,国内芯片技术与软件生态建设较国外仍有差距。首先,随着智能算力的需求增加,利用系统级设计解决大模型算力可能会成为未来的发展方向;其次,软件生态产业应构建国内软件生态,寻求与国际创新体系相结合。最后,产业界的内部合作将加速算力基础设施落地商用,共同推动国产算力发展。

以下为姚建国演讲实录(经36氪整理编辑):

我本身在燧原科技和上海交大两个单位,所以整个算力视角,我会从产业界、学术界包括研究界的角度分享一下。

其实算力的主要分为需求、场景、芯片和系统四个层次。2022年左右有多少朋友相信大模型落地?我和很多朋友分享过,也讨论过整个后续大模型发展,大模型真正有一个算力之问,模型越大真的能够提升算力水平吗?

其实这个问题2023年之前,很多朋友都不信,为什么呢?因为我们原来很多小的模型都能解决我们的问题,比如说原来NLP、CV也好都是通过经典模型解决。模型越大,能力越强,泛化越好,就有能力解锁新的技能,这是出乎很多人意料的一个期望,最终2023年,现在很多人相信了。所以很多发展原来受限于算力、模型、软件硬件迭代式交互结果,这也是大家熟悉的发展历程。

谷歌2017年提出Transformer,把Attention机制介绍到学术界, OpenAI整个发展历程通过了好几代迭代。整个过程不是一蹴而就的,模型不停迭代去做。在大模型开始之初是有极大风险的,他们自己都不太相信,或者是怀疑这个能做到什么样的程度,通过了几代的迭代,去年年底开始有了突破性的成果。所以我们还是期望国内有一款对标ChatGPT的通用大模型,我们能够愿意付费使用,这样会对整个产业有重大的推动作用。

这个过程中,算力起到什么作用呢?一般来讲都说,大模型的参数很多,参数很多时候算力要求很大。比如OpenAI的开放文献中提到:3640PFLOS天,这个相当于1万张A100加速卡的算力水平。可以看到真正通用大模型算力水平是通过大量算力去做,也因此ChatGPT的投入巨大,风险巨大。

2020年之前从研究界一直关注Transformer模型,Transformer相关一些机制到NLP解决,后来移到CV上,当然CV还在提升精度。从整个发展水平和发展规律来看,算力在整个大模型基础设施里面起了重大推动作用。埃隆马斯克要做,首先买了一万张GPU卡,这个是基本的配置。

算力的种类很多,包括通用算力、超算、智算,通用算力就是我们用的云计算;超算方面,比如说天气预报、超算中心;智能计算这几年的发展呈指数级增长,超越了摩尔定律。2012-2018年AI训练算力增长了30万倍,而通用计算增长只有7倍,所以说从算力发展来讲,目前算力水平包括算力需求的话还是智能计算为主的计算发展趋势。

我记得前两年去企业交流时,很多人都在问,大模型怎么落地?当时我也不知道,但现在看来都觉得哪儿都可以落地,所以说很多发展,都是在意料之外的发展。这个意料之外的过程中,我们怎么去找一下规律,看一下未来国内机会哪,我们沿着别人走过的路,能够找一些其他的方向发展,所以整个发展是生成能力改变了生产力的智能。

什么叫生产力智能?就是能够帮我们人类做很多事情,能够解决生产力问题,我本人负责研究生,我们在研究生培养里面,今年开始改了一些考试规则,比如说研究生复试编程,如果GPT能做出来,研究生就不需要学了,这样考试内容基本不能和GPT能力相当,人类还是要解决复杂问题的,通用的基本智能,可以交给机器去做,这个很多是生成能力,未来会给大家很多想象空间。

这里就有算力需求,不同的算力需求应对不同的大模型,基础大模型,场景大模型和应用大模型。基础大模型与ChatGPT类似,是很基础,是通过巨大的算力生成模型,通过预训练,由超大算力去支撑。这一般都是巨大的智算中心去做的,小的智算中心还达不到要求。

场景大模型是在大模型的基础上做调优,可以适用到不同的应用场景,赋能到不同行业,可以用普惠训练算力做。

还有应用大模型,主要是推理算力,是相对来讲性价比比较高的算力。推理现在有两种趋势,一个云端推理调用一下返回来;另外还有端侧,现在开始要有,本身的大模型部署开始往端侧做。

还有就是“模型即服务”,这个事已经发展很久了,但是发展并不好,原来我们AI这个通用一些自动化AI算法,有很多的BAT都做过,但用下来之后,包括客户反馈是一般的。但如果“模型即服务”是通过通用人工智能提供的话,可以带来不同一些体验,比如文字生成图。

所以我们一致认为,AIGC给大家带来全民体验AI能力,这个非常重要,现在我们大街上随便找人都可以说AI能力这个事情,因为都体验过。这就是很多“模型即服务”能力部署的范围提供。

我们再看一下芯片,上个月上海学术界做一个讨论,大模型我们差多远?学术界给的说法至少差一代,芯片当然也差,只有知道差在哪以后我们才有能力追赶。不管是模型、算法也好,还是芯片能力也好,国内一直以来都在讲追赶。

智能芯片目前还是英伟达占统治地位,这个是不可否认事实,而且大家看到全球AI芯片的增长的话,是快速的增长,因为智能算力的需求在增加,智能算力主要芯片载体就是AI计算加速卡,叫GPU、DSA也好,都是AI算力的特定计算。

从市场来讲还是有很大需求,但是我们怎么办呢?其实我们要深刻看一下历史发展,和我们将来发展路径一个耦合度,比如超算。超算也是做大系统,主要靠互联去解决大算力问题,这样的话能够实现E级计算。它的重要特点就是单核能力差,系统能力相当,我单个打不过你整个系统还是可以,因为它实现了整体算力。

智能计算未来类似芯粒,单die算力有限,但是系统级设计包括互联能够解决大模型算力这种智算水平,未来很可能往这个方面发展。

最近很多的研究、初创企业都在提系统级创新,包括AMD、英特尔都在提,这是技术的趋势。系统级创新的问题来源于算力水平,不仅仅是单颗芯片解决,一定是通过系统解决方案去实现整个算力的变化。

目前存储和运算的性能提升很多,但是带宽提升有限,有一个9万倍计算性能提升,但是有一个30倍带宽性能提升,这肯定是不匹配的,未来会有通信瓶颈。所以要去解决高速通讯下实现高速互联,高速互联实现可扩展智算水平的问题。

另一方面,现在功耗太大,大家知道智算中心其实都是高耗能产业。解决这种高能效一些计算,比如英特尔做了7nm以下数据搬运,能够占63%的能耗水平。现在很多大模型计算都是数据密集型的计算,因此它的能耗会很高。另外大模型需求还要去做专门的加速,刚才咱们看到大模型发展从技术来讲可以追溯到2017年谷歌发的Attention的文章,那篇文章在模型上提供了一个专门的算法,现在包括英伟达在内的各类加速设备,都在做专门的加速,针对特定模型、特定算子,特定的计算范式可以做专门加速,整个实现模型算力就会有这种呈指数提高,这就是系统性创新。

另外整个智算系统的发展趋势来讲,芯片还是要大算力,高速互联下的高算力,这个能够实现系统级的解决方案。目前来讲单独的服务器、单独的集群无法解决大模型预训练,但推理还是可以的。预训练会有一些专门加速,比如说H100提供Transformer引擎,提供低精度的数据格式,这样也是提升算力利用率。这里还有很多互联创新,所以未来会有很大创新是集中在系统级层面。

此外还有生态,软件生态其实是我们产业最关心一件事情。前段时间讨论,软件生态提了好多年了,为什么软件生态还没有成长起来?现在大家都认为做软件生态,首先是在国内包括研究界自己要把软件生态产业支撑起来,并与国际创新体系相结合。

所以说,还是在开放的软件生态下,去做类似于大模型编程,现在出了新的编程模型,包括编程方法,支撑大模型更有效地、更容易地编程。这也是智算系统的发展趋势。

燧原科技是做整个算力的基础设施和数字底座,有芯片、软件、系统,包括解决方案,目前AI芯片主要还是两类,是第二代训练和第二代推理,现在已经实现了整个算力集群的部署。由于集群都需要高速互联,我们也实现了自己的协议高速互联,替代原有协议,这样可以实现多机多卡,实现大规模千卡以上互联下的集群算力。

同时,燧原也提供了液冷智算集群的解决方案,实现了低能耗、高能效。目前已经在智算中心、泛互联网、以及智慧城市和金融的人工智能应用场景里落地商用了。未来也是需要我们和产业界朋友一起推动国产算力发展,构筑新一代AIGC的算力底座。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/155650
 
325 次点击