Open AI公司推出的ChatGPT以最快速度(5天)突破百万用户,并不断更新迭代,2023年3月推出最新版本Chat GPT4.0,产生现象级效应。本文基于专利视角分析ChatGPT相关技术创新路径,阐述主要技术创新点,详细分析国、内外主要申请人的专利布局情况,探讨专利分析角度下的GPT技术局限性,从而期望对国内大模型技术发展有所启示。
01 Open AI与ChatGPT
OpenAI成立于2015年,是由美国著名创业孵化器Y Combinator的总裁Sam Altman和特斯拉的CEO马斯克(Elon Musk)发起的让全人类受益的非盈利组织。OpenAI承诺开源所有技术,鼓励研究人员公开发表工作成果,将专利(如果有的话)与全世界共享,避免使用危害人类或过度集中权力的AI或AGI(通用人工智能)。2018年,因公司经营理念问题,马斯克与OpenAI分道扬镳。在研发AI模型的过程中,OpenAI面临越来越大的经济压力,最后不得不在2019年转变为盈利性公司,之后获得了微软10亿美元的投资。2022年1月,路透社援引的Semafor报告称,微软正考虑投资100亿美金给OpenAI(总估值290亿美金)。ChatGPT是OpenAI于2022年11月推出的人工智能聊天机器人程序,该程序是在GPT-3.5(一种自然语言预训练大模型)基础内核上使用监督学习和强化学习进行训练所得到的模型。在监督学习过程中,ChatGPT收集了全新的人类对话语料,并将其与GPT-3.5的监督学习语料合并。在强化学习过程中,ChatGPT首先训练了一个得分模型来对模型输出进行排序,然后用该得分模型来对生成模型输出进行反馈,并优化该生成模型。最终由强化学习得到的模型即为ChatGPT。ChatGPT以文字方式互动,可以实现与人类对话交互,还可以实现文本生成、自动问答、自动摘要等在内的多种任务。ChatGPT的成功来源于更早期发布的GPT-3模型以及对RLHF的优化。GPT是Generative Pre-trained Transformer(生成型预训练变换模型)的缩写。它是基于Transformer架构(2017年由谷歌提出),GPT的主要优势在于它可以通过预训练大量语料数据来获得对语言任务的预测能力,而不需要大量的人工标注数据。它具有良好的语言生成能力,可以生成文本、回答问题、对话等多项语言任务。RLHF(Reinforcement Learning from Human Feedback人类反馈强化学习)是一项涉及多个模型和不同训练阶段的复杂概念,包括以下三个步骤:预训练一个语言模型(LM);聚合问答数据并训练一个奖励模型(Reward Model,RM);用强化学习(RL)方式微调LM。2023年3月15日,多模态预训练大模型GPT-4正式发布,能够处理文本、图像两种模态以及25000个单词的超长文本输入,并通过文本输出。GPT-4能够很好的支持图像输入,能够理解图片中的幽默之处,并且具备理解长上下文的能力,在各种专业和学术基准测试上表现出人类水平,包括通过模拟律师考试,分数约为全体考生的前10%。相对于以前的GPT-3.5模型,GPT-4明显减少了“幻觉”,在团队内部对抗性设计的事实性评估中,GPT-4的得分比GPT-3.5高19个百分点。但是,考虑到GPT-4这样的大模型的竞争格局和安全影响,OpenAI并未公开有关架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法或类似内容的更多详细信息。目前,ChatGPTPlus版本已经使用GPT-4模型。智谱AI团队研究发布的《ChatGPT团队背景研究报告》称,2023年2月,ChatGPT团队规模不足百人(共87人)。分析发现,其显著特征是“年纪很轻”、“背景豪华”、“聚焦技术”、“积累深厚”、“崇尚创业”和“华人抢眼”。该团队平均年龄为32岁,“90后”是主力军。他们引领的这一波大型语言模型技术风潮,充分说明了那些经常被认为研发经验不足的年轻人,完全有可能在前沿科技领域取得重大突破。团队成员绝大多数拥有名校学历,且具有全球知名企业工作经历。华人学者欧阳龙参与了与ChatGPT相关的7大技术项目中的4大项目的研发,他是InstructGPT论文的第一作者,是RLHF论文的第二作者,可见他是这两个关键技术项目的核心人员。