毫无疑问,ChatGPT 现在已经是个 super-app 了。
每周超过 7 亿的活跃用户,超过 500 万的企业订阅用户,ARR 收入突破 50 亿美元。
20 美元的 Plus 会员价格成了 AI 产品包月会员的约定俗成,200 美元的 Pro 会员更是颠覆了 SaaS 产品定价的逻辑。
不管怎么说,ChatGPT 都是很成功的一款产品了。
而这个成功,并非偶然,而是源于「模型即产品」的迭代范式、对使用场景的极致开放、以及追求极致的迭代速度。
从 super-app 的角度来复盘 ChatGPT,或许能给今天的 AI 创业者带来不少启发。
Lenny 的最新一期播客邀请了 OpenAI 的 ChatGPT 负责人 Nick Turley 对谈,这也是他首次接受主流播客的访谈。在对谈中,Nick 详细地分享了 ChatGPT 从内部项目快速发布,成长为 7 亿周活产品的过程,如何进行产品开发、怎么做增长、定价怎么决策等等。
TLDR:
ChatGPT 从决定发布到上线只用了 10 天,ChatGPT 成功的原因之一就是「行动力」,将产品推向真实世界是发现其价值的唯一途径。
我们完全不关心用户在产品里花了多少时间,我们的目标是解决用户的问题。
模型和产品之间其实没有界限,模型就是产品,因此你需要像迭代产品一样去迭代它。我们的基本模式通常是从发布一个非常开放的产品开始,然后密切观察用户在用它做什么。在用户关心的使用场景上改进模型。
在开发 AI 产品时,要根据模型的能力反向思考,看看我们有什么可用的技术,以及什么是将其产品化的最好方式。
「自然语言交互」和「聊天」是两码事。聊天是当时我们能想到的最简单的产品发布方式。把 chat 看作是终极界面,不仅很有局限性,甚至有点反乌托邦。
OpenAI 希望未来打造一个能随着时间真正了解用户的产品,即「你的 AI」。
超 10000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。
最新、最值得关注的 AI 新品资讯;
-
不定期赠送热门新品的邀请码、会员码;
最精准的AI产品曝光渠道
01
ChatGPT 的第一性原理是什么?
主持人:你曾在 Dropbox 和 Instacart 这样的传统产品公司工作,现在在 OpenAI。从你在 OpenAI 的经历中,学到的最反直觉的产品教训是什么?
Nick:我花了很多时间思考 OpenAI 的这个问题,尤其是在 ChatGPT 之后。在此之前,这可以说是个没有意义的问题,因为我们当时并没有多少收入或产品之类的东西。
一个是经验主义,就是你只能通过发布产品来发现真相,这也是为什么我们要「最大化加速」。这是我们发布如此频繁的一个重要原因。其中之一是,出色的想法来自任何地方。运营一个研究实验室的特点是,你不会告诉人们要研究什么,你不会那么做。即使我们成为了一个研究与产品并重的公司,我们也继承了这种文化。所以,让那些有出色想法的人放手去做,而不是成为所有事情的守门人或优先级制定者,这对我们来说被证明是极具价值的。很多创新都源于此,源于赋予任何职能的聪明人权力。所以这是我们从 OpenAI 过去和现在的成功中继承下来的好东西。
跨学科性,真正确保你把研究、工程、设计和产品放在一起,而不是把它们当作孤岛。我认为这是我们成功的原因,也体现在我们发布的每一个产品中。如果你发布一个功能,而当模型变得聪明两倍时,这个功能却没有变得好两倍,那这可能不是我们应该发布的功能。当然不总是这样,安全合规不会因为模型更聪明而变得更好。但我认为对于很多核心能力来说,这是一个很好的检验标准。
所以,真的需要深入思考这个地方为什么成功,然后,最大化地加速它,因为这能让你把感觉像是意外的成功,变成可复制的成功。
主持人:你提到了第一性原理,对你来说,用第一性原理思考到底是什么样的?能举个例子吗?
Nick:我认为你真的需要触及你真正想解决的问题的根本。
比如,就像招聘这件事,你不要教条地认为你必须有一个产品经理、一个工程经理和一个设计师等等。你的目标是组建一个能交付的出色团队。所以在那种情况下,第一性原理意味着真正理解我们到底需要什么、缺少什么,而不是套用一个以前学到的流程或行为。所以,我认为这是个好例子。
在这种环境下,另一个符合第一性原理的好例子是,这个功能需要打磨吗?我们因为模型选择器被骂得很惨,我承认这一点。我试着对每个愿意听的人都这么说。对于那些不知道的人来说,模型选择器是产品里一个巨大的下拉菜单,这从传统意义上说,是任何好产品的反面教材。但是,如果你真的从头开始推理,是等到你有一个完美的产品再发布更好,还是发布一个粗糙的东西,即使它看起来不那么合理,但能开始学习并让人们用上更好?
我认为一个流程繁多或者有很多固有行为的公司,会做出一个选择,就是我们有一个质量标准,我们发布时就得遵守。如果你用第一性原理思考,我想你会觉得,「你知道吗?我们应该发布。这虽然有点丢人,但总比得不到你想要的反馈要好。」
所以我认为,在这种领域,从头开始处理每个场景非常重要,因为我们正在构建的东西没有先例。你无法复制一个现有的东西。我们不是 Instagram,也不是 Google,也不是一个生产力工具。我不知道我们是什么,但你可以从任何地方学习,但你必须从头开始。我认为这就是为什么这个特质能让一个人在 OpenAI 高效工作,也是我们在面试中会考察的一点。
主持人:这个讨论反复出现,就是速度和打磨之间的权衡。你一直强调,在这个领域,速度更重要,不仅是为了领先,也是为了了解人们到底想用这东西做什么。为什么在 AI 领域需要如此快速地行动?
Nick:无聊的答案会是,「哦,竞争激烈,所有人都在做 AI,他们在互相竞争。」我认为这或许是真的,但这并不是我相信这一点的理由。真正的原因是,在这个领域,你很可能会在错误的地方进行打磨。你绝对应该打磨,比如模型输出等东西,但在你发布之前,你不会知道该打磨什么。我认为在一个产品的特性是涌现出来、而不是预先可知的环境中,这一点尤其正确。我认为很多人都搞错了,因为最优秀的人往往是工匠,他们对「工艺」有传统的定义。
发布只是通往卓越之路上的一个点。你应该有意识地选择那个点,它不必是你迭代的终点,它可以是起点,但你最好要坚持到底。
所以我们做了大量的工作,尤其是在上个季度,真正地 polish 了 ChatGPT 的用户界面。因为一旦你知道人们喜欢什么功能,就可以更好地去打磨一个产品了。只是在一个你还不知道方向的世界里,可能会被严重分散注意力。
再说一次,你得用第一性原理来思考,但我确实认为,把速度,尤其是在早期,当作一个工具,这其实在消费社交领域也被说过。比如,这不是第一个有人说「嘿,你得尝试十件事,因为你很可能会错」的领域。所以我不认为这种动作是前所未有的,但我确实认为在 AI 领域,内化这一点很重要。
主持人:还有一个因素是,
模型在不断变化。所以你可能甚至没有意识到它们的能力。
Nick:完全正确。模型在变,而改进它们的最好方法是,你需要失败案例,真实的失败案例,来让这些东西变得更好。基准测试越来越饱和了。
所以,你需要真实世界的场景,在这些场景里你的产品或模型实际上没有做到它应该做的事情。而你获得这些的唯一方法就是发布,因为你能得到使用案例的分布,然后才能把这些东西做好。因此,这也是向你的团队,特别是你的机器学习团队,明确传达「我们需要改进什么」的最好方法。比如,「哦,人们在尝试做 X,模型在 Y 方面失败了,现在让我们把这些做好。」
主持人:这个关于失败案例的观点让我想起 Kevin Weil 和 Mike Krieger 都提到过的一件事,就是评估(evals)正在成为产品人需要掌握的一项重要新技能,因为现在很多产品构建工作都是在做评估、写评估。
Nick:我在 OpenAI 的整个历程,就像是在一个全新的背景下,重新发现那些永恒的产品智慧和原则。
我记得在我知道什么是评估之前,我就开始写评估了。因为我当时只是在为各种使用案例非常清晰地描绘理想的行为,直到有人告诉我,「嘿,你应该做一个评估。」我才意识到,有一个与我试图做的产品毫无关系的、完整的学术研究评估基准世界。我当时就想,「哇,这或许是向从事 AI 研究的人传达产品应该做什么的通用语言。」这真的让我豁然开朗。
说到底,这和你做任何事之前都应该明确成功标准这个智慧并没有太大区别,只是一个新的机制而已。你可以在电子表格里做,你可以在任何地方做。我真的很想为那些觉得这个词很神秘的人揭开它的面纱。它不是你必须理解的某种技术魔法,它真的只是关于用一种对你的训练团队最有效的方式来明确成功的标准。
02
模型之外,
ChatGPT 的增长方法
主持人:ChatGPT 的用户增长速度很快,用户留存率也很高,有数据显示,用户首次使用后一个月的留存率能到 90%,这个数字准确吗?
Nick:我能分享的具体数字有限,但我们的留存率数据确实非常不错,用户留存率也是我们关注的重点。我们完全不关心用户在产品里花了多少时间。实际上,我们的目标就是解决用户的问题,如果你真的喜欢这个产品,你自己就会订阅使用,从我们的角度出发没有动机让你在产品里停留太久。但我们很高兴的是,比如三个月后,用户还在使用这个东西。
对我来说,用户留存率在早期一直是个绕不开的大问题。就像是,「嘿,这可能是个很酷的产品,但它真的是那种你会反复使用的东西吗?」令人难以置信的是,我们不仅看到了非常好的留存数据,甚至随着时间的推移留存率还在提高,而且是我们的用户群体从早期尝鲜者变成了更广大的普通人。
主持人:用户留存率还能持续上升,这在产品界是极其罕见的「微笑曲线」现象。
Nick:是的。我觉得一部分是技术的原因,另一部分则是超出了产品本身。人们实际上正在以一种非常有趣的方式逐渐适应并使用这项技术。将任务「委托」给 AI 这个想法,这个行为对大多数人来说并不显示。你不会在日常生活中时刻想着「这件事可以交给 AI 做」。可能在硅谷的某些圈子里有人会这样做,因为他们更热衷自我优化,试图把一切外包出去。但我认为对世界上大多数人来说,这是一种需要后天学习的思维模式。用户需要一个过程去学习和思考:「我的目标究竟是什么?AI 能在哪些方面帮助我?」
我认为这个学习过程需要时间,当用户与产品有足够长时间的互动后,他们自然会想通这一点。当然,我们也在产品上做了很多事情,无论是改进核心模型,还是增加像搜索和个性化这样的新功能,以及我们开始做的标准增长策略。这些事情都很重要。
主持人:人们可能会觉得,你们有这么强大的模型,产品能成功是理所当然的。在模型之上,你们到底做了哪些具体工作来驱动增长和留存?
Nick:我先说一点,通过 ChatGPT 我们学到,模型和产品之间其实没有界限,模型就是产品,因此你需要像迭代产品一样去迭代它。我们的基本模式通常是从发布一个非常开放的产品开始,然后密切观察用户在用它做什么。我们发现用户在用它写作、编程、获取建议、寻求推荐,于是我们就需要系统性地在这些核心使用场景上进行改进。这个过程和传统的产品开发非常相似,当然,具体的方法论有所不同,但发现问题的路径是一致的:与用户交流、分析数据、进行实验并收集反馈。
所以,这是我们一直在有意识投入的一大块工作:在用户关心的使用场景上改进模型。还有一个很重要的东西叫「感觉」(vibes),这也是我对 GPT-5 感到兴奋的原因之一,因为它的「感觉」真的很好。我们有一个专门的模型行为团队,专注于打磨模型的个性和谈吐。这是第一类工作,我想它大概贡献了我们所看到的留存率提升的三分之一。
然后我认为另外三分之一,是我称之为「由研究驱动的产品新能力」。这些功能是由前沿研究驱动的,但它们最终以全新的产品特性呈现给用户。搜索就是一个例子。如果你还记得在过去,大概 20 个月前,你跟 ChatGPT 对话,它会说:「根据我的知识截止日期……」或者,「我无法回答那个问题,因为它发生在我的知识库更新之后。」而联网搜索这种能力的加入,极大地提升了用户黏性,因为它让你能用这个产品做更多的事。个性化,比如我们推出的「记忆」功能,让模型能随着时间真正了解你,是这类能力的另一个例子。我认为这是另外一大块贡献。
最后三分之一,则是你会在任何产品中都会做的常规增长工作。比如,无需登录即可使用产品就是一个巨大的成功,因为它极大地降低了新用户的尝试门槛。我想我们从一开始就有这个直觉,但一直没能实现,因为我们没有足够的 GPU 资源或受限于其他条件。所以,传统的增长策略同样不可或缺。我倾向于将这三类工作的贡献看作是各占三分之一。但我们仍在不断学习,并且计划对产品进行大量革新,所以我相信未来一定会出现新的增长杠杆。
03
影响 AI 行业的 20 美元定价,
只是机缘巧合的产物
主持人:你们早期有哪些无心插柳的决定,最终却改变了历史?
Nick:太多了,而且这很有趣,因为你当时根本没时间去细想,但它们最终却变得至关重要。名字就是一个。我们在发布前一晚,才从「Chat with GPT-3.5」改成了「ChatGPT」,虽然好了一点,但还是很糟糕。
主持人:它之前叫什么?
Nick:之前打算叫「Chat with GPT-3.5」,因为我们压根没想过它会成为一个成功的产品。我们当时实际上是想让它听起来尽可能地「技术宅」,因为它的本质就是一个研究演示,而不是一个产品。所以我们当时不觉得那个名字有什么不好。
但我认为在最初的发布中,免费开放是一个重大决定,其重要性我们当时可能并未充分认识到。因为 GPT-3.5 模型在我们的 API 里至少已经存在了六个月。我认为任何人都可能构建出类似的东西,也许在模型方面不会那么出色,但我相信它同样会火起来。所以,免费提供,并给它一个漂亮的用户界面,这个决定产生了深远的影响,而你现在可能觉得这是理所当然的。这就是为什么我认为,即使到了 2025 年,分发渠道和用户界面仍然至关重要。
付费业务,现在在消费和企业领域都是一个巨大的业务,它最初的诞生只是为了疏导需求。并不是我们深思熟虑后说:「哦,AI 最好的盈利模式是什么?」而是:「用什么机制可以筛选掉那些不那么认真的用户,留下那些真正想用它的人?」订阅模式恰好有这个特性,然后它就发展成了一项大生意。
我认为,在功能还未打磨完善时就发布它们,是另一件重要的事。这感觉像是一个战术决策,但它后来成了一种惯例,因为我们能从中学到太多东西。还记得我们发布代码解释器(Code Interpreter)时,发布后我们学到了很多。现在它在 ChatGPT 里好像叫数据分析(Data Analysis),这正是因为我们得到了真实的用例反馈,然后我们才能据此进行优化。所以,我认为随着时间的推移,有很多我们当时迅速做出的决策,都被证明是相当有影响力的。我们必须那么做。
主持人:每月 20 美元的订阅价格似乎成了行业标准,你们当初是怎么定下这个价格的?
Nick:关于那个价格,我记得当时我有点恐慌。因为我们急需推出订阅服务,那会儿我们服务很不稳定,动不动就得下线。当时我们有一个类似推特「失败鲸」的页面,上面还有一首 AI 生成的诗。所以,大家都在催:「必须把这个搞出来。」我记得当时给一个我非常尊敬、在定价方面极其厉害的人打电话,我说:「我该怎么办?」我们聊了很多,但我根本没时间去采纳大部分的反馈。
于是,我在 Discord 上发布了一个 Google 表单,里面包含了定价时常会用到的四个经典问题。
主持人:范·威斯坦多普定价法?
Nick:是的,没错。里面确实就是那四个问题。我清楚地记得两件事:第一,我们根据反馈得到了一个价格区间,最终大概就是这样定下了 20 美元。第二,隔天早上,就有媒体报道说:「你绝对想不到,ChatGPT 团队为了给产品定价,问了这四个天才问题。」我心想,要是你知道真相就好了。所以,在这样一个极度公开的环境中进行产品建设,人们会对你所做的事情赋予比实际情况多得多的意图。但我们最终还是拍板定了 20 美元。
我们当时也在考虑一个稍微高一点的价格。我常常在想,如果当初定了高价会怎么样,因为后来很多公司都抄袭了 20 美元这个价位。所以我在想:「我们是不是因为这样定价而抹掉了一大笔市场价值?」但我并不在乎,因为能让这项技术变得越普及越好。而且我认为,在西方国家,这个价位对于很多人来说,相对于他们所获得的价值,是合理的。最重要的是,只要条件允许,我们就会不时地将一些高级功能下放到免费版。
主持人:所以,你们就是用范·威斯坦多普调查法定价的?
Nick:那是当时 Google 搜索的第一个结果。那时候 ChatGPT 还没有实时联网能力,不然它也许能给自己定价。但当时就是靠 Discord、Google 表单,再加上一篇关于那种方法的博客文章,我们才得出了这个价格。
主持人:结果非常好。顺便说一句,我现在用的是每月 200 美元的套餐,所以显然还有提价空间。
Nick:谢谢你。那个套餐的故事也很有趣。最初 Plus 计划的目的是为了提供更稳定的服务,然后能够发布一些我们无法大规模提供给所有人的功能。但到某个时候,Plus 用户太多了,以至于它也失去了这种「优先体验」的特性。所以,我们推出 200 美元套餐的主要原因,就是我们有太多非常棒的研究成果,它们实际上非常强大,比如 o3 Pro 或者未来的 GPT-5 Pro。能有一个渠道把这些东西提供给那些真正、真正重视它们的用户,是令人兴奋的,即使这有点违反了 SaaS 定价页面的常规设计,看到 10 倍的价格跳跃有点突兀。
04
需求驱动之外,
AI 产品的开发主要靠技术驱动
主持人:除了定价,还有没有其他类似的故事?
Nick:企业版也是一个有趣的故事。我们看到企业领域有非常惊人的采纳率。客观上说,试图同时建立一个开发者业务、一个消费者业务和一个企业业务,是相当疯狂的。但故事是这样的:在大约上线后的第一、第二个月,我们就很清楚地看到,大部分的使用场景都是工作用途的,
我们很快就在财富 500 强公司中实现了 90% 的自然渗透,这种情景让我想起了在 Dropbox 的经历。我们决定做企业版的真正原因是,我记得我们当时在争论是应该做企业版还是应该推出一个 iOS 应用,因为当时团队规模很小,是因为一些公司开始禁用我们的产品,因为他们都觉得,我们的隐私和部署方案都不到位。所以我当时就想:「天哪,我们必须做点什么。否则我们将错失一个打造工作产品的时代机遇。」
我们对通用人工智能(AGI)的定义是,在有经济价值的工作上超越大多数人类,我可能复述得不完全准确。我觉得我们必须在企业领域有所作为。那在当时是一个相当快的决定,但它如今已经成长为一个巨大的业务板块。我们刚刚达到了 500 万商业订阅用户,而一两个月前,我想这个数字还是 300 万。所以,它就像一个衍生品,有了自己的生命力,我对此感到非常、非常兴奋。
主持人:同时要处理平台、消费产品和 B2B 业务,你们是如何做权衡,并保持成功的?
Nick:这是个好问题。首先,我现在已经不负责开发者业务了,我们找到了更胜任的人,他非常出色。所以我现在主要负责各种形式的聊天产品,幸运的是,我不必再做那个权衡。
当你开发这些 AI 产品时,你得从两个不同方面来确定优先级。一是根据模型的能力反向思考,这与其说是科学,不如说是一门艺术。你真的需要看看我们有什么可用的技术,以及什么是将其产品化的最好方式。如果你试图套用某种项目管理框架,很可能会犯下大错。因为如果你拥有的技术,比如 GPT-5,现在在前端编程上真的非常非常出色,那我认为就意味着你必须重新调整优先级,必须把这种能力产品化。也许是让 ChatGPT 在随性编程和渲染应用方面做得更好,也许是更多地利用模型的审美能力让用户界面更具表现力。我们可以做的事情有很多,但你必须重新规划和调整优先级,这比任何特定的用户群体划分都更重要。
这真的就是看我们有什么神奇的东西,以及如何让它发光。语音功能也是类似的情况。并不是说我们的客户需要语音。而是,「哇,我们想出了一种方法,可以让这些东西输入和输出任何内容。有什么创意十足、很棒的方式能把它产品化呢?」然后我们再看人们会用它做什么。
我认为这是一部分,但另一部分则更像是经典的产品管理,用户需求驱动,你需要倾听客户的声音。而当你的客户群体非常不同时,这可能会让人困惑,因为 ChatGPT 是一个非常通用的产品。
我们发现,当你观察最终用户时,他们在需求上其实有大量的重叠,比如像项目、历史记录搜索、分享与协作这样的基础功能。所有这些东西,无论你是在和工作中的人交谈,还是和在家、在学校的人交谈,都非常非常普遍。有时具体机制会略有不同,但大体上是相似的,我认为我们可以从中获得很多价值。然后,还有一些企业领域特定的工作是我们必须做的,比如你必须要做 HIPAA 合规,要做 SOC 2 合规,如果你想成为一个严肃的玩家,这些都必须做。这些是没有商量余地的。所以情况很复杂,正如你所指出的,但这或许就是开发一个非常开放和强大的技术的「诅咒」吧。
OpenAI 里一位我非常尊敬的人有时会打一个比方:我们有点像迪士尼。迪士尼有一个核心的创意 IP,就是他们的内容,然后他们有邮轮、主题公园、漫画和所有这些不同的东西。我认为我们有出色的模型,但有很多不同的方式可以将其产品化,我们只是需要以各种不同的方式最大化其影响力。
05
10 天就完成了 ChatGPT 的上线
主持人:你提到从决定发布到上线只用了 10 天,能具体说说吗?
Nick:黑客松是很早之前举办的,我们的原型设计持续了很长时间。但在某个时刻,我们基本上对构建更定制化的东西失去了耐心,这主要是因为每次我们测试时,用户总是想用它做各种各样其他的事情。所以,是从我们决定要发布到我们实际发布,中间隔了 10 天。
我们一直在测试的研究,可以看作是我们称之为「指令遵循」(instruction following)的演进。这个理念是,模型不仅仅是补全句子,而是能真正遵循你的指令。所以,如果你说「总结这个」,它真的会这么做。这项研究从这个阶段演变成了可以进行多轮对话的聊天格式。研究花了远不止 10 天,它在后台酝酿了很久。但把这个东西产品化的过程非常、非常快,很多功能都没来得及加上。我记得我们当时没有历史记录功能,这也是我们收到的第一个用户反馈。模型当时有很多缺点,但能够对模型本身进行迭代真是太酷了。
我刚才谈到的,把模型当作产品来对待,这在 ChatGPT 之前是从未有过的。因为我们过去发布产品更像是发布硬件,比如发布一个 GPT-3 版本,然后我们开始研发 GPT-4,这些都是周期很长的、耗资巨大的研发项目,规格一旦确定就无法更改,然后你得再等上一年。ChatGPT 真正打破了这一点,因为我们能够像软件一样对它进行迭代改进。说真的,我的梦想是,如果我们能像软件行业那样做到每日甚至每小时发布新版本,那就太棒了,因为你可以随时修复问题。当然,如何在做到这一点的同时,保持模型的个性、不让其他能力退步,这其中充满了各种挑战。所以,这是一个有待探索的领域。
主持人:这正是「最大化加速(Maximally Accelerated)」的绝佳例子:10 天上线 ChatGPT。很多人都说,紧迫感和节奏是你工作方式的核心。为什么你认为即使产品已经如此成功,在团队内部营造紧迫感也依然重要?
Nick:有两件事,关于 ChatGPT,当我们决定要做的时候,原型阶段已经持续了很久,我当时就说:「十天之内,我们要把这东西发布出去」,然后我们真的做到了。所以,那可能是一个特定时刻的决定,我当时只是非常想确保我们能学到点东西。
从那以后,我花了很多时间思考 ChatGPT 最初成功的深层原因,我认为其中一个因素就是「行动力」。当时有很多其他公司在大型语言模型(LLM)领域拥有技术,但就是迟迟没有发布。我当时就觉得,在我们所有可以优化的事情中,尽可能快地学习是至关重要的。于是我开始围绕这一点召集大家,并采取了不同形式。有一段时间,当我们还是那个规模时,我每天主持一个发布同步会,把所有需要做决策的人都叫来,我们会讨论当天的计划以及如何根据前一天的反馈快速调整。显然,到某个阶段,这种方式就不再适用了。但我一直觉得,我在这里的部分职责,除了思考产品方向,还要为团队设定节奏和「静息心率」。
再说一次,这在任何地方都很重要,但当发现用户喜好和产品价值的唯一途径就是把它推向真实世界时,这就变得尤其关键。因此,我认为这已经成为 OpenAI 的一项超能力。
主持人:你的 CPO Kevin Weil 让我问你一个原则:「Is it Maximally Accelerated?」能谈谈这个吗?
Nick:这很有趣,我们 Slack 上现在好像都有这个的表情包了,因为我以前老这么说。现在我尽量换种说法。但有时,我真的很想直奔主题,比如:「好吧,我们为什么现在不能做这个?」或者,「为什么明天不行?」我认为这是一个很好的方式,可以和团队一起扫清大量障碍,并注入一种理念……特别是当你团队里有来自大公司的人时。
他们习惯于说:「我们一周后再跟进」,或者,「我们下个季度再评估是否能把它列入计划。」而我只是,作为一种思维练习,总是希望大家反问自己:「好吧,如果这是最重要的事情,你想真正地把它最大化加速,你会怎么做?」这不代表你真的会那么做,但它是一个很好的约束函数,能让你分清什么是关键路径,什么是可以延后的。
我一直觉得执行力至关重要。这些想法,随处可见。每个人都在谈论个人 AI,你可能也看到了相关新闻,但我真的认为,在这个领域,执行力是最关键的因素之一。而这个提问方式就是一种工具。所以,它能成为一个梗还挺有趣的。那是一个粉色的 Slack 表情包,大家想推动问题的时候就会用它。
主持人:所以,你们的文化就是不断地推动思考:这件事是否已经最大化加速了?还有没有更快的方法?
Nick:是的。但我们会谨慎使用,对吧?因为它需要契合具体的场景。有些事情你并不想尽可能快地加速,因为你可能需要流程。我们在这方面非常、非常审慎,流程本身是一个工具。我们拥有大量流程的一个领域就是安全。因为,第一,风险已经非常高,特别是对于像 GPT-5 这样在很多方面都处于前沿的模型。第二,如果你相信指数级增长——我相信,大多数从事这项工作的人也相信——你就必须为某个你真的、真的、真的非常需要流程的时刻做好演练。
这就是为什么我认为将产品开发速度(这个速度必须非常高)与前沿模型这类事情分开非常重要。对于后者,实际上需要一个严格的流程,你需要进行红队演练,你需要撰写系统安全卡,你需要征求外部意见,然后你才能自信地将产品发布出去,因为你知道它已经通过了正确的安全保障。所以,再说一次,这是一个需要细致理解的概念,但我们发现在需要的时候它非常有用。对于所有产品开发来说,速度就是生命线,所以把产品推出去至关重要。
主持人:通常那些非常通用、能做很多事情的平台,都需要很长时间才能火起来,因为人们不知道怎么用。而 ChatGPT 是个绝佳的反例,它一推出就火了,所有人都很快上手了。
Nick:我认为原因在于它是一次性上线的。说到另一个影响深远的决定,我们当时在争论要不要用等候名单,因为我们很清楚我们的工程系统无法承受。而事实上没有等候名单——这在 OpenAI 之前的任何发布中都没有过——这个决定影响深远,因为你能够实时看到其他所有人都在做什么。所以我认为,当你为所有人一次性推出这些东西时,会有一个非常特殊的时刻,你可以看到别人在做什么并从中学习。而且很多学习过程实际上发生在产品之外。
有些 TikTok 帖子特别火,评论区里有大概 2000 个使用案例。我会详细地去看那些,因为那些使用案例我也并不知道。它们是涌现出来的。我就去翻评论,去消化,有太多东西可以学了。因此,我认为我们得以在一定程度上跳过了「空盒子问题」,因为当人们在现实生活或网络上互相观察时,大量的学习发生在产品之外。
主持人:这很有趣,因为像 Airtable、Notion 这些公司,都花了数年时间去构建和打磨产品。
Nick:就像电脑版的 Airtable,他们必须做模板,必须做所有这些事情,把一个水平产品变得由使用场景驱动。相比之下,就像 Instant Pot 的电压力锅,网上到处都有人分享食谱,围绕它形成了一个完整的生态系统。我认为我们在 ChatGPT 上非常幸运,也发生了同样的事情,就是用户在各种地方互相分享使用案例。
06
ChatGPT 最初是个短期实验项目
主持人:我了解到 ChatGPT 最早只是一个内部实验项目,用来测试 GPT-3.5,后来 Sam Altman 在推特上随手一发,就引爆了。在它一夜成名之前,那段早期岁月是怎样的?
Nick:大概在 GPT-4 训练完成的时候,我们决定要做一些面向消费者的东西,这主要有几个原因。我们当时已经有了一个产品,就是我们的开发者平台,它对我们的使命助益良多。事实上,它已经成长壮大,现在是拥有大概 400 万开发者的 OpenAI 平台。但在当时,它还处于早期,我们遇到了一些瓶颈。
问题有两个。第一,迭代速度非常慢,因为你每次修改模型,都可能导致所有人的应用崩溃。尝试新东西非常困难。第二,学习效率很低,因为我们收到的反馈要先从终端用户传给开发者,再由开发者传给我们,不够直接。我们渴望在通往通用人工智能(AGI)的道路上快速前进,但感觉需要和消费者建立更直接的联系。
我们当时也在琢磨该从哪儿着手。按照 OpenAI 的一贯风格,尤其是在那个时候,我们组织了一场黑客松,召集了一群热衷于在 GPT-4 上进行各种尝试的爱好者,看看能创造出什么酷炫的东西,或许能发布给用户。结果每个人的想法都和「超级助理」有关。也有一些更具体的点子,比如一个能接入会议的会议机器人,设想是它未来能帮你主持会议。我们还有一个编程工具,现在回头看,可能有点超前了。
挑战在于,我们测试了这些想法,但每次测试这些更具针对性的功能时,用户都想用它来做各种各样其他的事情,因为它本身就是一项通用性极强的技术。所以,在原型设计了几个月后,我们召集了同一批志愿者——那真的是一个志愿者团队,有来自超级计算团队的,以前写过 iOS 应用;有来自研究团队的,写过一些后端代码。他们都成了最初 ChatGPT 团队的一员。
我们决定发布一个开放式的产品,因为我们只想了解真实世界中用户的使用场景分布。我认为这是 AI 领域的一个规律:你必须得把产品发布出去,才能真正了解它的潜力以及用户的需求,而不是凭空推测。所以,ChatGPT 在最后阶段应运而生,因为我们迫切地希望能尽快获得这些认知。我们在假期前发布了它,本以为假期回来看看数据,然后就可以把它关停了。显然,后来的发展完全出乎意料,因为人们非常喜欢它当时的样子。
我记得当时自己的心路历程,从「哦天哪,后台数据面板坏了」,到「等等,大家好像很喜欢它。但这肯定只是病毒式传播,热度很快就会过去的」,再到「哇,用户留存率很高,但我完全搞不懂为什么。」最终,我们才真正进入了产品开发模式,但这多少有些歪打正着。
主持人:作为这个项目的负责人,面对如此巨大的成功和影响力,你有没有某个时刻会停下来感慨一下:「天哪,这太不可思议了」?
Nick:我必须得这样做。我得时常掐自己一下,提醒自己这不是梦。同时,我也必须偶尔停下来,静心思考,这在事情发展如此迅速的时候真的很难。我喜欢在公司里推动快节奏,但为了能够自信地做到这一点,我每周至少需要有一天完全断开网络,只用来思考方向,复盘一周等等。我需要在周六这样的日子里彻底「拔掉插头」。否则,根本撑不下去。这三年来就像一场漫长的马拉松。
另一件事是,我从未做过一个本质上如此依赖经验主义的产品。如果你不时常停下来,去观察和倾听用户在做什么,你就会错失太多东西,无论是在实用性方面还是在风险方面。通常,你发布一个产品时,你知道它能做什么。你不知道用户是否会喜欢,这总是需要市场验证,但你知道它的功能边界。而对于 AI,我认为它的很多能力是涌现出来的,你实际上真的需要在发布后停下来倾听,然后根据用户尝试做的事情和那些还不太奏效的地方进行迭代。因此,仅凭这一点,我认为停下来观察正在发生的一切就至关重要。
07
看好自然语言交互,
但不看好纯粹的聊天形式
主持人:Kevin Weil 曾说,聊天是个天才界面,因为它能适配所有智力水平的人。你怎么看?聊天会是 ChatGPT 的长期形态吗?
Nick:我觉得我们总有一天应该去掉名字里的「Chat」或者「GPT」,因为它实在太拗口了。我们被这个名字困住了,但无论如何,产品本身会不断演变。我同意,自然语言有其深刻之处。它确实是人类交流最自然的形式,因此,你应该用自然语言与你的软件交流,这一点显得很重要。
但我认为「自然语言交互」和「聊天」是两码事。我认为聊天是当时我们能想到的最简单的产品发布方式。它能作为一个概念如此火爆,让我始料未及;更让我意外的是,竟然有那么多人模仿这种范式,而不是去尝试与 AI 互动的不同方式。我仍然希望未来能看到更多创新。所以,我认为自然语言会继续存在,但那种回合制聊天互动的想法非常有局限性。
这也是我不喜欢「超级系统」这个比喻的原因之一,尽管我们过去常常用它。因为如果你那样想,你就会感觉像在和一个人说话。但比如,GPT-5 在生成出色的前端应用方面可能非常强大。既然如此,我看不出有任何理由,AI 不能自己渲染出交互界面。你当然希望这个过程是可预测且体验良好的。但对我来说,把 chat 看作是终极界面,不仅很有局限性,甚至几乎有点反乌托邦。我不想通过某个单一的聊天窗口来使用我所有的软件。我喜欢直接在 Figma 里创作,喜欢在 Google Docs 里写作。对我来说,那些都是很棒的产品,而且它们都不是 chatbot。
所以,我的观点可以概括为:看好自然语言交互,但不看好纯粹的聊天形式。我真心希望,在如何与 AI 交互这个领域,我们能看到更多消费级的创新,这里的可能性太多了,需要大家探索和尝试。聊天之所以能流行起来,就是因为我们当时就那么做了,且恰好用户很喜欢。所以我希望我们能在这方面看到更多探索,我们也会尽力做出我们的贡献。
主持人:聊聊 ChatGPT 和 GPT 的长远愿景,它的终局会是什么样?
Nick:或许可以稍微回溯一下。现在你可能会问,ChatGPT 会不会成为一个无处不在的产品?全球大约 10% 的人口每周都在使用它,我们现在有 500 万商业客户。它本身已经形成了一个成熟的品类。但实际上,我们最初的目标是打造一个「超级助理」,当时我们就是这么称呼它的。事实上,我们用的代码库就叫 SA Server。
是的,在某些方面,这依然是我们的愿景。我不常提它的原因是,我认为「助理」这个词在我们要构建的思维模型上有些局限。你会想到一个非常拟人化、功利性的形象……坦白说,对大多数人而言,除非身在硅谷当经理,否则拥有一个「助理」并不太能引起共鸣。所以这个词并不完美。
但我们真正设想的是这样一个实体:它能帮你处理任何任务,无论是在家、在公司还是在学校,覆盖任何场景。而且,这个实体了解你的目标。所以,和今天的 ChatGPT 不同,你不需要非常详细地描述你的问题,因为它已经很了解你的总体目标和生活背景了。这是我们非常兴奋的一点。而与‘更懂你’相辅相成的,是赋予它更大的行动空间。
我们非常期待,随着时间推移,做到一个聪明、有同理心且能使用电脑的人能为你做的一切。我认为,一旦你赋予它这样的工具,你能为人们解决的问题的边界,将和今天聊天机器人所能做的截然不同。
我常想:「好吧,我是一个通用智能。如果我成了 Lenny 的实习生会怎么样?」即便我同时具备刚才提到的那两个特质,我的效率也不会特别高。此外,我认为与这项技术建立「关系感」也至关重要。所以,这可能是我感到兴奋的第三点:打造一个能随着时间真正了解你的产品。你应该看到了我们今年早些时候推出的记忆力改进功能,那仅仅是我们计划的开始,我们希望它最终能让你感觉这真正是「你的 AI」。所以,我不知道「超级系统」是否仍然是那个最准确的比喻,但我认为人们最终会把它看作是「他们的 AI」。我相信我们可以把它放进每个人的口袋里,帮助他们解决真实的问题,无论是变得更健康、创办一家公司,还是仅仅在任何事情上获得第二意见。在人们的日常生活中,它能帮上忙的地方太多了,而这正是我前进的动力。
主持人:所以愿景是做人的助手,而不是取代人,对吧?这一点非常关键,能展开说说吗?
Nick:人工智能确实让人们感到恐惧,我能理解,几十年的科幻电影已经在大众心中根植了某种特定的印象。即便只看今天的技术,我想每个人都经历过这样的时刻:AI 做了某件对你个人而言意义非凡的事,而你曾以为「AI 永远做不到那个」。对我来说,是一些很偏的音乐理论问题,当时我心想:「哇,这家伙对音乐的理解竟然比我还深」,而音乐是我的热情所在。所以,恐惧是自然而然的。
我认为,对我们至关重要的一点是,要打造一个让你感觉它在帮助你,但「你」始终掌握主导权的产品。随着这些技术变得越来越有自主性,这种掌控感就愈发重要。这可以体现在一些小细节上。我们开发了一种方式,可以在 AI 处于智能体模式时观察它的行为。你并非真的需要全程盯着它,但这会给你一个心智模型,让你感觉一切尽在掌握。这就像你坐进一辆 Waymo 自动驾驶汽车,你会看到那个显示屏,对于体验过的人来说,你能看到周围的车辆。你不会真的全程盯着看,但它让你感觉你了解这东西的运作方式和当前状况。另外,我们总会向你征求确认,这有时有点烦人,但它把你放在了主导者的位置,这很重要。因此,我们始终将技术,以及我们所构建的技术,视为放大你能力的东西,而不是取代你。随着技术越来越强大,这一点也变得愈发重要。
转载原创文章请添加微信:founderparker