ChatGPT长出了手和脚,这是它自2023年11月底推出以来的最大产品迭代;
模型即通用agent,能力越通用,模型公司越会进入覆盖;
Manus与Genspark强调其效果好过ChatGPT,起码可视化表现上。
7月18日凌晨,OpenAI发布了「通用agent」——ChatGPT agent。
发布会直播中,团队展示的ChatGPT agent的使用场景包括:让它为用户提供婚礼筹备建议,涵盖服装选择、酒店预订、行程规划等方面;从Google Cloud中提取数据并制作PPT,用图表展示结果;上传一张团队的吉祥物照片(一只小狗),根据照片制作动漫风格的笔记本电脑贴纸,然后在StickerMule公司订购500份,邮寄到指定地点。
在ChatGPT内即可打开这一功能。
这是OpenAI发布的首个「通用agent」。此前,Manus、Genspark等华人创业团队都推出过同类产品,号称能完成不止一种类型的多步骤任务。
与同类产品一样,ChatGPT agent会在必要时主动向用户确认信息,例如在发送邮件前。另外,在ChatGPT agent工作时,用户可以随时插话追加任务,它会基于新信息继续推进工作,且不丢失之前的进度。
让ChatGPT不再仅仅是回答问题,而是能够长出「手和脚」,帮用户完成多种操作类任务,这是ChatGPT自2023年11月底推出以来的最大产品迭代。
这个「通用agent」是此前两个「专用agent」的结合体
发布该「通用agent」之前,OpenAI已经发布过两个「专用agent」:Operator和Deep research。
Operator发布于今年1月,是OpenAI的首个agent,可以替用户浏览网页并执行相关任务,比如帮用户预订门票或发送电子邮件,用户用自然语言向Operator交代任务即可,不用亲自打开特定网页或邮箱。Operator推出两周后,OpenAI又推出了Deep research,这个agent能够模仿人类研究者使用搜索引擎寻找信息、做研究的方式,一边搜索,一边根据获得的信息判断是否需要进一步搜索,最后给出一份深度研究报告。
推出通用agent之前,ChatGPT已推出专用agent:Operator和Deep research。通用agent上线后,Operator将不再独立提供服务。
OpenAI称,ChatGPT agent融合了Operator的网页操作和Deep research的信息整合能力。因为他们在用户反馈中发现,Deep research最受欢迎的一个功能是它可以登陆经过用户身份验证的网站——这恰是Operator擅长的;而人们在使用Operator时,输入的提示词常带有Deep research的特征,比如「计划一次旅行,然后预订行程」。于是,团队意识到,这两种能力是高度互补的,可以融合到一起。因此,他们在一个agent——ChatGPT agent中整合了Operator和Deep research。
单从通用程度看,ChatGPT agent并没有超越市场上已存在的其他通用agent,它和Manus、Genspark的本质区别在于它的agent能力更多来自于模型本身,而非基于模型构建工作流。
OpenAI称,ChatGPT agent和o3模型一样,本身就是一个智能体模型(agentic model),它已经通过强化学习学会了应该选择什么工具来完成相应任务。
而Manus和Genspark都没有为其agent专门训练一个模型,而是基于现有模型(主要是Claude)构建了它们的产品,Claude来自于OpenAI的对手Anthropic。去年10月,Anthropic发布推理模型Claude 3.5 Sonnet后,今年3月,Manus发布了基于该模型的通用agent。发布Manus时,Manus联创兼首席科学家季逸超称,Manus当时使用的是Claude 3.5 Sonnet v1和各种微调的Qwen模型,并正在测试Sonnet 3.7。
留给Manus等agent公司基于市场上最前沿的推理模型构建「通用agent」的机会会越来越少。因为只要足够通用、市场规模足够大,模型公司就会把它变成自营C端应用的基础功能。目前,OpenAI和Anthropic都已将网页操作、AI编程、深度研究作为一项基础功能添加到各自的Chatbot里。在OpenAI推出能浏览网页、制作PPT、预订酒店、进行深度研究等的「通用」agent后,Anthropic推出相应的产品只是时间问题。
Manus与Genspark强调其效果好过ChatGPT,起码可视化表现上
ChatGPT agent发布后,Manus和Genspark都坐不住了。OpenAI的发布会结束还不到4个小时,Manus在社交平台X上发布了自家产品和ChatGPT agent的10个案例对比。
Manus展示了比ChatGPT agent更好的(可视化)效果。
Genspark的联合创始人Eric Jing随后也根据OpenAI发布会上的案例提示词,发布了Genspark在执行相同任务时的效果。
博主@rowancheung在X上分享了他借助ChatGPT agent制定提前退休计划的案例,称ChatGPT agent用20多分钟就为他生成了一份PPT,「如果找财务顾问做这个事情,我得花费5000多美元,还得等上几周。」此外,他还提到,ChatGPT agent的电子表格与幻灯片生成功能令他印象深刻,不过其效果与使用Manus或Genspark得到的效果相近。
@rowancheung用ChatGPT agent花20分钟做了一份退休计划。
Genspark和Manus也很快都根据该博主的提示词,展示了他们的产品效果,言外之意是:我们的产品效果(起码可视化效果)更好。
Genspark的PPT效果。
目前,ChatGPT的Pro、Plus和Team版用户可优先体验ChatGPT agent。Pro版用户每月拥有400次查询额度,Plus版和Team版用户每月可查询40次。OpenAI CEO Sam Altman称,他们争取在本月底之前面向Enterprise版和Edu版用户推出服务。

Manus的PPT效果。
Manus最便宜的套餐为每月19美元,Genspark每月需24.99美元,ChatGPT Plus版用户的收费标准则为每月20美元——这已经能让他用上ChatGPT agent了。