ChatGPT的通用agent来了，Manus们怎么办？

记者：吴一凡

编辑：吴洋洋

Key Points

ChatGPT长出了手和脚，这是它自2023年11月底推出以来的最大产品迭代；

模型即通用agent，能力越通用，模型公司越会进入覆盖；

Manus与Genspark强调其效果好过ChatGPT，起码可视化表现上。

7月18日凌晨，OpenAI发布了「通用agent」——ChatGPT agent。

发布会直播中，团队展示的ChatGPT agent的使用场景包括：让它为用户提供婚礼筹备建议，涵盖服装选择、酒店预订、行程规划等方面；从Google Cloud中提取数据并制作PPT，用图表展示结果；上传一张团队的吉祥物照片（一只小狗），根据照片制作动漫风格的笔记本电脑贴纸，然后在StickerMule公司订购500份，邮寄到指定地点。

在ChatGPT内即可打开这一功能。

这是OpenAI发布的首个「通用agent」。此前，Manus、Genspark等华人创业团队都推出过同类产品，号称能完成不止一种类型的多步骤任务。

与同类产品一样，ChatGPT agent会在必要时主动向用户确认信息，例如在发送邮件前。另外，在ChatGPT agent工作时，用户可以随时插话追加任务，它会基于新信息继续推进工作，且不丢失之前的进度。

让ChatGPT不再仅仅是回答问题，而是能够长出「手和脚」，帮用户完成多种操作类任务，这是ChatGPT自2023年11月底推出以来的最大产品迭代。

这个「通用agent」是此前两个「专用agent」的结合体

发布该「通用agent」之前，OpenAI已经发布过两个「专用agent」：Operator和Deep research。

Operator发布于今年1月，是OpenAI的首个agent，可以替用户浏览网页并执行相关任务，比如帮用户预订门票或发送电子邮件，用户用自然语言向Operator交代任务即可，不用亲自打开特定网页或邮箱。Operator推出两周后，OpenAI又推出了Deep research，这个agent能够模仿人类研究者使用搜索引擎寻找信息、做研究的方式，一边搜索，一边根据获得的信息判断是否需要进一步搜索，最后给出一份深度研究报告。

推出通用agent之前，ChatGPT已推出专用agent：Operator和Deep research。通用agent上线后，Operator将不再独立提供服务。

OpenAI称，ChatGPT agent融合了Operator的网页操作和Deep research的信息整合能力。因为他们在用户反馈中发现，Deep research最受欢迎的一个功能是它可以登陆经过用户身份验证的网站——这恰是Operator擅长的；而人们在使用Operator时，输入的提示词常带有Deep research的特征，比如「计划一次旅行，然后预订行程」。于是，团队意识到，这两种能力是高度互补的，可以融合到一起。因此，他们在一个agent——ChatGPT agent中整合了Operator和Deep research。

模型即通用agent

单从通用程度看，ChatGPT agent并没有超越市场上已存在的其他通用agent，它和Manus、Genspark的本质区别在于它的agent能力更多来自于模型本身，而非基于模型构建工作流。

OpenAI称，ChatGPT agent和o3模型一样，本身就是一个智能体模型（agentic model），它已经通过强化学习学会了应该选择什么工具来完成相应任务。

而Manus和Genspark都没有为其agent专门训练一个模型，而是基于现有模型（主要是Claude）构建了它们的产品，Claude来自于OpenAI的对手Anthropic。去年10月，Anthropic发布推理模型Claude 3.5 Sonnet后，今年3月，Manus发布了基于该模型的通用agent。发布Manus时，Manus联创兼首席科学家季逸超称，Manus当时使用的是Claude 3.5 Sonnet v1和各种微调的Qwen模型，并正在测试Sonnet 3.7。

留给Manus等agent公司基于市场上最前沿的推理模型构建「通用agent」的机会会越来越少。因为只要足够通用、市场规模足够大，模型公司就会把它变成自营C端应用的基础功能。目前，OpenAI和Anthropic都已将网页操作、AI编程、深度研究作为一项基础功能添加到各自的Chatbot里。在OpenAI推出能浏览网页、制作PPT、预订酒店、进行深度研究等的「通用」agent后，Anthropic推出相应的产品只是时间问题。

Manus与Genspark强调其效果好过ChatGPT，起码可视化表现上

ChatGPT agent发布后，Manus和Genspark都坐不住了。OpenAI的发布会结束还不到4个小时，Manus在社交平台X上发布了自家产品和ChatGPT agent的10个案例对比。

Manus展示了比ChatGPT agent更好的（可视化）效果。

Genspark的联合创始人Eric Jing随后也根据OpenAI发布会上的案例提示词，发布了Genspark在执行相同任务时的效果。

博主@rowancheung在X上分享了他借助ChatGPT agent制定提前退休计划的案例，称ChatGPT agent用20多分钟就为他生成了一份PPT，「如果找财务顾问做这个事情，我得花费5000多美元，还得等上几周。」此外，他还提到，ChatGPT agent的电子表格与幻灯片生成功能令他印象深刻，不过其效果与使用Manus或Genspark得到的效果相近。

@rowancheung用ChatGPT agent花20分钟做了一份退休计划。

Genspark和Manus也很快都根据该博主的提示词，展示了他们的产品效果，言外之意是：我们的产品效果（起码可视化效果）更好。

Genspark的PPT效果。

目前，ChatGPT的Pro、Plus和Team版用户可优先体验ChatGPT agent。Pro版用户每月拥有400次查询额度，Plus版和Team版用户每月可查询40次。OpenAI CEO Sam Altman称，他们争取在本月底之前面向Enterprise版和Edu版用户推出服务。

Manus的PPT效果。

Manus最便宜的套餐为每月19美元，Genspark每月需24.99美元，ChatGPT Plus版用户的收费标准则为每月20美元——这已经能让他用上ChatGPT agent了。

-END-

腾讯、阿里和字节都在布局AI浏览器，它会是PC端超级入口吗？｜AI浏览器（上）

Vibe Coding很火，但「人人都能编程」为时尚早｜对话通义灵码神秀

豆包正式上线AI播客，它为什么那么重视音频？｜大公司