差点被Ilya摁掉，胎死腹中！ChatGPT爆红内幕首次公开

新智元报道

编辑：KingHZ

【新智元导读】从「与GPT-3.5畅聊」到「ChatGPT」，OpenAI团队如何在混乱中拍板上线、又怎样被用户「点赞」调教成「赛博舔狗」？从产品发布、命名内幕、团队文化到AI时代核心竞争力，深度访谈揭开幕后全过程！

自2022年11月30日上线以来，ChatGPT迅速爆红。

连OpenAI自己都没料到会这么火。

在OpenAI播客第二期中，ChatGPT负责人Nick Turley和首席研究官Mark Chen首度揭秘这款产品的幕后故事。

从名字的由来，到病毒式传播的意外惊喜；

从内部激烈的发布争论，到模型行为如何调整，他们逐一详解。

他们还讨论了图像生成技术的突破、编程方式的变革以及OpenAI的企业文化等。

这场对话不仅揭示了ChatGPT成功的原因，也展望了AI在医疗、研究等领域的未来机遇。

🔥本来只是预览，没想到火了！

OpenAI起名烂得出名，在ChatGPT发布前，这款日后爆火、载入史册的产品叫「与GPT 3.5畅聊」(Chat with GPT 3.5)。

至于GPT到底是啥意思？

在当时，OpenAI内部众说纷纭。一半的人认为是「生成式预训练」（generative pre-training），另一半人认为它是「生成式预训练Transformer」（generative pre-trained transformer）。

事实上，GPT是后者「generative pre-trained transformer」的缩写。

OpenAI是如何决定ChatGPT这个酷炫的名字的？

某天，他们意识到「Chat with GPT 3.5」这个称呼有些拗口，难以发音。

于是，在发布前的某个深夜，他们决定简化一下。

具体的改名时间，难以回忆了：在发布前的前一天晚上，也可能是发布当天。

那时候，各种情况已经很混乱了，一团乱麻。

当时GPT 3.5模型已经发布好几个月了，ChatGPT只是一个低调的研究预览。

研究预览意味着不保证稳定性，系统可能会宕机。

因为从能力角度来看，当只看看评估结果时，你会觉得「哦，还是老一套，只是加了一个界面，减少了提示需求，然后聊天功能就出来了」。

发布时，OpenAI的博客称：「ChatGPT是InstructGPT的姊妹模型——后者经专门训练，能够精准遵循用户指令并生成详尽的回应。」

日后ChatGPT的火爆，在他们的意料之外。

那么，ChatGPT 是什么时候开始爆火的呢？

毫无疑问，每个人都有自己的记忆，因为那段时期非常混乱。

对ChatGPT负责人Nick Turley来说，直到发布后第四天，他才意识到ChatGPT就是「AI界的iPhone」，它将改变世界。

第一天，数据暴涨，他还在想：「仪表盘是不是坏了？日志数据肯定不对。」

第二天，他心想：「哦，奇怪，日本Reddit网友发现了这个东西，也许这只是小范围的现象。」

第三天，他意识到：「好吧，它确实火起来了，但热度很快就会消失。」

到了第四天，他才明白：「它将改变世界。」

不过，对于当时的前沿研究负责人Mark Chen而言，第一天就是意识到ChatGPT不一样：它的增长速度非常快。

他认为这是通向通用人工智能（AGI）梦想的里程碑，OpenAI将成为谷歌这样耳熟能详的大品牌。

但ChatGPT，真的只是一个很随意的名字。

🤔只答对了一半问题，它值得发布吗？

那OpenAI内部对ChatGPT是否真的「有用」、是否应该发布，其实意见也不一致。

Mark回忆称：「并不是所有人都同意发布。」

甚至在上线前一天晚上，联合创始人Ilya对模型提了十个问题，难度都非常大。其中只有五个回答，他认为还算「可以接受」。

这成了OpenAI内部的「经典传说」。

所以，当时他们面临一个「艰难的抉择」：「到底要不要上线这个模型？外界会怎么看它？它到底够不够好？」

这也反映出类似「知识诅咒」的现象——

当在内部开发这些模型时，你很快就会对它的能力习以为常。

你很难再设身处地地站在一个没有参与模型训练过程的人的角度，去感受那种真正的魔力。

对此，Nick也非常赞同。这也是一个提醒：在AI上，其实OpenAI经常判断错误：

你以为它还不够好，但现实却是用户觉得非常有用。

这就是为什么与现实频繁接触如此重要。

因为没有哪个明确的时间点，你能断定：「现在模型终于有用了。」

「有用」是连续的光谱，并没有一条清晰的界线。

你可能还在犹豫它是否达到那个「理想点」，但现实的用户已经从中受益了。

只有真正让模型接触用户，才能理解它的实际价值。这就是「与现实频繁接触」的核心含义。

在ChatGPT项目上，开发团队非常有原则，就是不让项目范围无限制地膨胀。他们坚决要求尽快获得反馈和数据。

这与传统科技巨头的发布惯例不同。

在假期来临之前，传统巨头会发布一些新东西。比如说如果在11月某个时间点之后，某个项目还没有上线，那它就得等到来年2月了。好像总有那么一个发布窗口期。

而OpenAI要灵活得多，这也是ChatGPT首次发布留下的影响：一旦人们开始使用ChatGPT，改进速度就变得非常惊人。

OpenAI当然可以考虑用更多数据、在更大的规模上训练，扩大计算资源，但真实用户使用所带来的信号，是完全不同的概念。

随着时间的推移，反馈已经真正成为OpenAI构建产品不可或缺的一部分。它也成了OpenAI安全工作的一部分。

大家总能感觉到，因为犹豫而错失反馈所带来的时间成本。

当然，可以闭门造车地反复思量：用户会更喜欢这个，还是更喜欢那个？

但这完全无法替代把它直接推向市场的检验。

最初发布AI模型的方式，更像是发布硬件：很少发布，每次发布都必须尽善尽美，发布后就不再更新，然后转头去做下一个大项目。它资本密集，周期漫长。

但随着时间的推移，ChatGPT带来了转折点。现在，OpenAI的理念就是让模型与真实世界接触。他们转向了更像软件的发布方式：频繁更新，快速试错，灵活回滚，降低单次发布的风险。

现在，这也成了OpenAI提升模型性能最重要的杠杆之一。

警钟

ChatGPT一夜变「舔狗」

频繁更新、高度依赖用户反馈来改进模型，可以更贴近用户需求，可以更快地创新。但也有问题。

一个典型例子就是模型变得过于谄媚和阿谀奉承。人们突然发现ChatGPT会说：「嘿，您的智商高达190，您是智慧巨人，您还是宇宙中最帅的人。」

Mark认为：「这是个典型例子，说明我们高度依赖用户反馈来改进模型。」他解释了具体的技术原因。

它背后涉及到「人类反馈强化学习」（RLHF）。比如，当用户喜欢某个回答时，会点「赞」。

OpenAI训练模型，倾向于生成更多能获得点赞的回答。

听起来很合理，但一旦平衡不好，模型就可能变得过于讨好。用户可能会偏爱被赞美的感觉，模型就开始学会「拍马屁」，变成「赛博舔狗」。

但其实这种现象只是少数高级用户发现的，而大多数普通用户并没察觉到。

这是依赖用户反馈最典型的负面例子。

问题被发现后不久，Joanne Jang就发文回应，详细解释了来龙去脉。

「谄媚事件」非常重要，是很好的教训。但从根本上说，Mark Chen认为OpenAI有正确的机制来打造出色的产品。

OpenAI更看重这些能力

而不是PhD文凭

奇点已至，未来人们需要什么样的技能？

这是现在很普遍的问题。

在自己的团队中，OpenAI寻找什么样的技能？

Nick对此思考了很久。

招聘很难，特别是如果想组建一支规模小、能力强、谦逊且能快速行动的团队。他认为，「好奇心」是最重要的特质。

世界瞬息万变，到底该怎么做？

对大家来说，有太多未知。在开发AI时，你必须保持一定的谦逊，因为在你真正去研究、去深入、去尝试理解之前，你并不知道什么是有价值的，什么是有风险的。

现在在工作的方方面面，我们显然要与AI协作，不仅仅是编码。而在这方面的瓶颈，在于提出正确的问题，而不一定是得到答案。

从根本上，他相信：「我们需要雇佣那些对世界、对我们的事业抱有深度好奇心的人。我反而不太在乎他们是否有AI领域的经验。」

就产品团队而言，Nick发现：好奇心是成功的最佳预测指标。

即使在研究团队，OpenAI现在也越来越不看重你是否拥有AI博士学位了。

Mark Chen刚加入OpenAI时，也没有AI经验，而现在是首席研究官。

对新员工来说，Mark Chen认为很重要的一点是「自主性」（agency）。在OpenAI，你不会得到事无巨细的指令。

OpenAI真正需要的是，你能主动去发现问题，然后心想：「嘿，这有个问题，没人解决，那我就自己上，把它搞定。」

此外，他也看重「适应性」。

AI日新月异，变化极快，这是AI领域目前的本质。你需要能够快速判断什么是重要的，并迅速调整工作方向。

从根本上说，OpenAI拥有大量具备自主性、能够「搞定事情」的人——产品发布还能更快。

这体现在产品、研究和政策等各个方面。当然，「搞定事情」的含义各不相同。

这种高比例的实干家，以及除了在关键领域外极少的繁文缛节，正是 OpenAI 的独特之处。

当从200人增长到2000人时，很多事情可能会改变。在某些方面，OpenAI确实变了。但人们常常低估了OpenAI所做事情的多样性。

在OpenAI工作，更像是身处一所大学：因为一个共同的理想，大家聚集在这里，但每个人都在做着不同的事情。在午餐或晚餐时，你会坐下来和某人聊天，了解他们正在做的事，然后你会惊叹：「哇，你做的那个东西太酷了！」

正因为OpenAI涉足的领域如此广泛，每个具体的项目——无论是 ChatGPT、Sora还是其他——实际上都是由非常精简、保守的团队来负责。

比如，开发ChatGPT的团队总人数大约只有200。

这保证了团队成员高度的自主性，并确保他们拥有所需的资源。

参考资料：

https://www.youtube.com/watch?v=atXyXP3yYZ4