ChatGPT背后的创新支撑机制及对我国的启示

电话 | 010-82030532 手机 | 18501361766

微信 | tech9999 邮箱 | yw@techxcope.com

来源：科技中国

作者：张华珺谢琳灿

2022年11月30日，美国人工智能研究机构OpenAI发布了基于大型语言模型的聊天机器人ChatGPT。ChatGPT能够准确理解用户的提问，生成接近于人类语言水平的高质量回答，并联系上下文进行多轮互动对话，是人类迈向通用人工智能的重大进展，吸引了从工业界、学术界到普通用户的广泛关注。发布仅2个月后，ChatGPT的全球月活跃用户就突破了1亿，打破了TikTok之前创造的纪录，成为史上用户增长速度最快的消费级应用程序。ChatGPT的出现，是OpenAI所实行的一系列创新支撑机制综合作用的结果。我们需理性认识技术发展规律，积极借鉴其创新支撑机制，加强国家层面前瞻性布局，推动人工智能关键核心技术突破。

一、ChatGPT的发展与特点

2018年，OpenAI提出了名为GPT（Generative Pre-Training Transformer，生成式预训练变换器）的大型语言模型，并开始不断对GPT模型进行优化迭代。2019年2月，OpenAI发布了GPT-2，提升了模型大小和训练数据量。2020年5月，OpenAI发布了GPT-3，可以根据用户的简单描述，生成代码、网页，撰写文章或新闻，还可以编写诗歌和音乐。2021年至2022年，OpenAI继续对GPT-3模型进行微调，发布了WebGPT、InstructGPT等一系列GPT-3的变体模型，这些模型统称为GPT-3.5。2022年底，OpenAI将GPT-3.5模型应用到对话（Chat）任务领域，发布了对话机器人ChatGPT，引发了全球通用人工智能热潮。

（一）基于长期主义的技术路线选择

GPT并非自然语言处理领域的唯一知名模型。谷歌公司2018年底推出的BERT模型（Bidirectional Encoder Representation from Transformers，基于变换器的双向编码器表示）一直是GPT的强大竞争对手。BERT和GPT的结构和训练方法都非常相似，在自然语言处理领域也同样取得了优秀的表现。但是，GPT被设计为兼顾自然语言理解和自然语言生成两种任务，而BERT只专注于执行自然语言理解任务。不同的任务导向，决定了两者在技术路线上的分野。

直到本次GPT大火之前，过去的五年中，全球自然语言处理领域的主要热门方向一直是BERT。2019年，BERT相关论文发表数量就有近200篇。由于GPT模型训练工作难度更大，在自然语言理解任务中的表现也相对较难产生阶段性成果，因此，它的研发团队论文发表数量很少。OpenAI没有追求短期论文发表数量，而是秉持长期主义，多年如一日、“甘坐冷板凳”，对GPT模型进行研究攻坚。ChatGPT的成功，不仅仅是一项具体技术的进步，更是OpenAI在大型语言模型发展方向上坚持长期主义，进行战略布局并耐心坚守的结果。

（二）量变引起质变的建模方式

决定GPT等深度学习模型能力上限的，主要是模型大小和训练数据集两个因素。模型大小就像模型的“学习潜力”，一般用参数量来衡量，参数越多、模型越大越复杂，可实现的智能上限越高。训练数据集作为“学习教材”，其具体内容的数量和质量都非常重要，会直接影响模型实现的效果。

OpenAI在对GPT系列模型的迭代更新过程中，不断将模型规模推至极限。GPT-1模型中，人工神经网络的堆叠层数为12层，参数规模为1.17亿个，训练数据集规模为5GB。GPT-2将人工神经网络堆叠层数增加到48层、1600维度，参数规模扩大到15亿个，训练数据集规模为40GB。GPT-3的参数规模更是高达1750亿个，是最大的BERT模型（3.75亿个参数）的470倍，光是模型本身就需要700GB的硬盘空间来存储。GPT-3的训练数据集也是规模空前，已经扩大到了45TB，训练时间需耗费1920个显卡小时，相当于一块高端专用芯片日夜不停工作80天才能完成对数据的学习。

2022年，谷歌公司在《大型语言模型的涌现能力》论文中对GPT-3的发展进行了研究，发现参数规模超过某一个临界点后，它的模型能力开始呈指数型爆发式增长，并出现了一些不可预测的“高级”能力，包括类比推理、抽象模式归纳、词义消歧、人类情感理解等137项能力，在部分任务上已经展现出了类似甚至超越人类的准确性。

（三）算力合作等业务协同模式

算力是人工智能发展不可或缺的基础设施。ChatGPT所依托的深度学习算法涉及较多的矩阵或向量运算，计算量大、计算过程复杂，模型训练和运行都需要大量高端专用芯片。随着技术进步，算力需求还在飞速提升。2018年，OpenAI发布的分析报告提出，自2012年以来，人工智能算法训练所需要使用的算力呈指数增长，每3.4个月增长一倍，即每年增长10倍。

为了解决算力问题，OpenAI和全球数字巨头微软围绕云计算业务进行了合作。从2016年10月起，微软的Azure云计算平台成为OpenAI运行深度学习大规模实验的主要云平台。微软为OpenAI提供了充足的高端专用芯片，创建了超级计算集群，并开发了多种软件，为OpenAI旗下产品的模型训练提供了全方位的云服务配套支持。在微软的算力支撑下，GPT系列模型快速迭代升级，并迅速落地转化，成为人人都能用上的应用服务。OpenAI取得技术进步后，发布的工具和服务集成在微软Azure Cloud平台中，反向带动了微软云计算业务的发展，取得了极好的协同效应。

二、OpenAI的创新支撑机制

（一）高精尖人才团队

顶尖人才对于人工智能发展的作用至关重要。OpenAI联合创始人、首席执行官山姆·阿尔特曼（Sam Altman）从斯坦福大学辍学后，28岁创立创业孵化公司Y Combinator，29岁创立OpenAI。他坚持将通用人工智能作为OpenAI的目标，并努力寻求理想和盈利之间的平衡，是维持OpenAI运营的灵魂人物。

GPT团队中有多位全球人工智能领域顶尖专家。OpenAI联合创始人、首席科学家伊利亚·苏茨克维（Ilya Sutskever）是深度学习领域的权威，带领研究团队确定了GPT的研发方向。GPT-2论文第一作者亚历克·拉德福德（Alec Radford）曾在图像生成领域提出了著名的DCGAN模型（Deep Convolution Generative Adversarial Networks，深度卷积生成对抗网络）。华人杰弗里·吴（Jeffrey Wu）是GPT-2和RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习技术）两篇论文的第三作者，也是GPT-3论文作者之一，对GPT系列模型研发作出了重要贡献。

GPT的成功更是庞大顶尖人才团队集思广益和共同努力的结果。OpenAI的绝大多数成员都拥有斯坦福大学、麻省理工学院等世界顶尖名校教育背景，以及谷歌、苹果、英特尔等世界顶尖科技企业工作经历。这为GPT模型能持续迭代直至成功，奠定了重要的人才基础。GPT-3的论文署名作者多达31位，另一项关键技术RLHF的论文署名作者也达到了20位，充分体现了团队协作的力量。

（二）工程化研发流程

OpenAI在运营模式上的一个重要创新，是将算法研究与软件工程相结合，采用工程化思维推动技术迭代。OpenAI联合创始人、现任总裁格雷格·布洛克曼（Greg Brockman）表示，OpenAI从成立之初，就在打造一支“能将软件工程与算法研究相结合的团队”。ChatGPT的研发流程也同样呈现出了工程化的特点。ChatGPT团队进行了业务拆分和流水线分工，组建了模型构建、模型预训练、数据整合与标注、模型微调、安全等多个小团队，不同团队各司其职、互相配合。同时，团队接受伊利亚·苏茨克维等人的统一领导，以确保软件工程的开发效率。

通过人工数据标注改进模型效果，是ChatGPT工程化研发模式的重要体现。OpenAI曾公开表示，ChatGPT在GPT-3.5模型的基础上，依托大量人工标注数据进行了微调。据美国《时代周刊》报道，2021年底，OpenAI与Sama公司签署了约20万美元的数据标注外包合同，Sama公司雇用了大批肯尼亚劳工负责筛除数据集中的攻击性言论等不恰当内容。此外，OpenAI投入了数十位具有博士学历的专业人才，负责人工给出相应指令或问题的高质量答案，再基于这些数据调整GPT-3.5模型，以确保ChatGPT能够更好地理解人类意图，输出更接近于人类语言水平的回答。这也印证了当前阶段人工智能界的普遍说法：“有多少人工，才有多少智能”。

（三）组合型融资方式

OpenAI成立之初是非营利机构。由于人工智能算法训练所需研发投入极高，非营利机构的组织形式难以获得充足研发资金，2019年3月，OpenAI进行了重组，创新设立“捐赠＋投资”的融资结构，在维持非营利机构定位的同时，创建了“有限盈利”子公司OpenAI LP负责筹集资金。

OpenAI LP成立后，于2019年接受了微软10亿美元的投资，2021年和2023年1月，又分别接受了微软追加的20亿美元和100亿美元投资，同时给予了微软一定股份以及部分知识产权。双方约定：如果OpenAI没有获得盈利，微软的130亿美元就算为捐赠；如果获得盈利，在OpenAI的首批投资者收回初始资本后，微软有权收回投资资本，然后继续参与分红，直到分红利润达到920亿美元上限为止；此后微软所持股份重新归还给OpenAI LP。

这种“捐赠＋投资”结构，在保证融资的同时，确保了OpenAI技术团队的研究方向不受盈利目标压力和股东意愿影响。充裕的经费保障了人才招聘和研发所需的巨额开销。OpenAI人员工资和福利支出从2016年的700万美元提升至2022年的8900万美元，同期计算和数据支出从不到400万美元提升至4.16亿美元。对于微软来说，支持OpenAI也是一个重要的战略性选择，得到的投资回报是巨大的。微软旗下的必应搜索、Office办公软件、云计算业务都整合了OpenAI的技术，获得了更大的市场份额和盈利空间，还享有收回投资和未来分红的可能性。

三、启示与建议

可以预期，以ChatGPT为代表的新一代人工智能技术，将带来生产力的大幅提升，重构社会经济活动的各个环节。为更好应对新一轮科技产业革命和日益激烈的国际竞争带来的挑战，国内相关机构应该高度关注ChatGPT后续发展和应用拓展，大力提升人工智能领域技术水平和全球影响力。OpenAI的一系列创新支撑机制，对我国科技发展战略、科研体制机制、算力基础设施、技术国际合作等的改革创新，均具有重要的启发和借鉴意义。

首先，要紧跟全球人工智能技术发展大势，加速推动关键核心技术攻关。要积极抢抓新一轮科技革命和产业革命战略机遇，充分认识技术发展自身规律，发挥新型举国体制作用，依托重点高校、科研机构和创新型企业，加大对人工智能基础性研究、长周期研究、重大疑难问题研究的综合支持力度。鼓励企业参与科技顶层设计和重大决策，对未来技术方向开展更多前瞻性的预研预判。

其次，要创新支持前沿技术发展的体制机制，鼓励有条件的新型研发机构创新组织架构和融资模式。加大对企业成为科技创新主体的支持，创造稳定政策环境，鼓励企业充分利用广阔的国内市场空间和成熟的商业应用场景，形成产业“飞轮效应”。加强核心技术领域人才培养教育，提高高精尖人才福利待遇，优化国际高端人才引进和服务机制，吸引更多人才回国发展。探索首席科学家负责制，赋予科研人员更大的技术路线决定权和经费使用自主权。

再次，要持续优化国内互联网基础设施，优化国内算力产业发展的总体布局。推动全国算力规模化集约化发展，布局算力枢纽和数据中心集群，支持“东数西算”工程建设。提高算力绿色低碳水平，降低用电价格和碳排放成本。支持创新合作模式和合作机制，推动网络、算力、数据等各方面资源协同。

最后，要建设开放的国际技术合作生态，鼓励开源技术社群社区发展。积极为国内科研人员开展跨国、跨机构的交流创造便利条件。支持国内高校、科研机构、企业联合国外机构开展研发合作，积极引进国际先进技术和产品。支持企业以市场化方式对接国际先进资源，持续优化跨境投资布局，支持我国具备相对优势的人工智能技术和产品走出去。

一网打尽系列文章，请回复以下关键词查看：
创新发展：习近平 \| 创新中国 \| 协同创新 \| 科研管理 \| 成果转化 \| 新科技革命 \| 基础研究 \| 产学研
热点专题：军民融合 \| 民参军 \| 工业4.0 \| 商业航天 \| 国家重点研发计划 \| 装备采办 \| 摩尔定律 \| 诺贝尔奖 \| 国家实验室 \| 军工百强 \| 试验鉴定 \| 双一流 \| 净评估
前沿科技：颠覆性技术 \| 仿生 \| 脑科学 \| 精准医学 \| 基因编辑 \| 虚拟现实 \| 增强现实 \| 人工智能 \| 机器人 \| 3D打印 \| 4D打印 \| 太赫兹 \| 云计算 \| 物联网 \| 互联网+ \| 大数据 \| 石墨烯 \| 电池 \| 量子 \| 超材料 \| 超级计算机 \| 卫星 \| 北斗 \| 智能制造 \| 不依赖GPS导航 \| 5G \| MIT技术评论 \| 航空发动机 \| 可穿戴 \| 氮化镓 \| 隐身 \| 脑机接口 \| 传感器 \| 数字孪生
先进武器：无人机 \| 轰炸机 \| 预警机 \| 运输机 \| 直升机 \| 战斗机 \| 六代机 \| 网络武器 \| 激光武器 \| 电磁炮 \| 高超声速武器 \| 反无人机 \| 防空反导 \| 潜航器
未来战争：未来战争 \| 抵消战略 \| 水下战 \| 网络空间战 \| 分布式杀伤 \| 无人机蜂群 \| 太空战 \| 反卫星 \| 混合战 \| 电子战 \| 马赛克战
前沿机构：战略能力办公室 \| DARPA \| 快响小组 \| Gartner \| 硅谷 \| 谷歌 \| 华为 \| 阿里 \| 俄先期研究基金会 \| 军工百强
其他主题系列陆续整理中，敬请期待……

一网打尽系列文章，请回复以下关键词查看：
创新发展：习近平 \| 创新中国 \| 协同创新 \| 科研管理 \| 成果转化 \| 新科技革命 \| 基础研究 \| 产学研
热点专题：军民融合 \| 民参军 \| 工业4.0 \| 商业航天 \| 国家重点研发计划 \| 装备采办 \| 摩尔定律 \| 诺贝尔奖 \| 国家实验室 \| 军工百强 \| 试验鉴定 \| 双一流 \| 净评估
前沿科技：颠覆性技术 \| 仿生 \| 脑科学 \| 精准医学 \| 基因编辑 \| 虚拟现实 \| 增强现实 \| 人工智能 \| 机器人 \| 3D打印 \| 4D打印 \| 太赫兹 \| 云计算 \| 物联网 \| 互联网+ \| 大数据 \| 石墨烯 \| 电池 \| 量子 \| 超材料 \| 超级计算机 \| 卫星 \| 北斗 \| 智能制造 \| 不依赖GPS导航 \| 5G \| MIT技术评论 \| 航空发动机 \| 可穿戴 \| 氮化镓 \| 隐身 \| 脑机接口 \| 传感器 \| 数字孪生
先进武器：无人机 \| 轰炸机 \| 预警机 \| 运输机 \| 直升机 \| 战斗机 \| 六代机 \| 网络武器 \| 激光武器 \| 电磁炮 \| 高超声速武器 \| 反无人机 \| 防空反导 \| 潜航器
未来战争：未来战争 \| 抵消战略 \| 水下战 \| 网络空间战 \| 分布式杀伤 \| 无人机蜂群 \| 太空战 \| 反卫星 \| 混合战 \| 电子战 \| 马赛克战
前沿机构：战略能力办公室 \| DARPA \| 快响小组 \| Gartner \| 硅谷 \| 谷歌 \| 华为 \| 阿里 \| 俄先期研究基金会 \| 军工百强
其他主题系列陆续整理中，敬请期待……