社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

ChatGPT的通用agent来了,Manus们怎么办?

新皮层NewNewThing • 1 月前 • 90 次点击  

记者:吴一凡

编辑:吴洋洋


Key Points


ChatGPT长出了手和脚,这是它自2023年11月底推出以来的最大产品迭代;


模型即通用agent,能力越通用,模型公司越会进入覆盖;


Manus与Genspark强调其效果好过ChatGPT,起码可视化表现上。


7月18日凌晨,OpenAI发布了「通用agent」——ChatGPT agent。

发布会直播中,团队展示的ChatGPT agent的使用场景包括:让它为用户提供婚礼筹备建议,涵盖服装选择、酒店预订、行程规划等方面;从Google Cloud中提取数据并制作PPT,用图表展示结果;上传一张团队的吉祥物照片(一只小狗),根据照片制作动漫风格的笔记本电脑贴纸,然后在StickerMule公司订购500份,邮寄到指定地点。

在ChatGPT内即可打开这一功能。

这是OpenAI发布的首个「通用agent」。此前,Manus、Genspark等华人创业团队都推出过同类产品,号称能完成不止一种类型的多步骤任务。

与同类产品一样,ChatGPT agent会在必要时主动向用户确认信息,例如在发送邮件前。另外,在ChatGPT agent工作时,用户可以随时插话追加任务,它会基于新信息继续推进工作,且不丢失之前的进度。

让ChatGPT不再仅仅是回答问题,而是能够长出「手和脚」,帮用户完成多种操作类任务,这是ChatGPT自2023年11月底推出以来的最大产品迭代。

这个「通用agent」是此前两个「专用agent」的结合体

发布该「通用agent」之前,OpenAI已经发布过两个「专用agent」:Operator和Deep research。

Operator发布于今年1月,是OpenAI的首个agent,可以替用户浏览网页并执行相关任务,比如帮用户预订门票或发送电子邮件,用户用自然语言向Operator交代任务即可,不用亲自打开特定网页或邮箱。Operator推出两周后,OpenAI又推出了Deep research,这个agent能够模仿人类研究者使用搜索引擎寻找信息、做研究的方式,一边搜索,一边根据获得的信息判断是否需要进一步搜索,最后给出一份深度研究报告。

推出通用agent之前,ChatGPT已推出专用agent:Operator和Deep research。通用agent上线后,Operator将不再独立提供服务。

OpenAI称,ChatGPT agent融合了Operator的网页操作和Deep research的信息整合能力。因为他们在用户反馈中发现,Deep research最受欢迎的一个功能是它可以登陆经过用户身份验证的网站——这恰是Operator擅长的;而人们在使用Operator时,输入的提示词常带有Deep research的特征,比如「计划一次旅行,然后预订行程」。于是,团队意识到,这两种能力是高度互补的,可以融合到一起。因此,他们在一个agent——ChatGPT agent中整合了Operator和Deep research。

模型即通用agent

单从通用程度看,ChatGPT agent并没有超越市场上已存在的其他通用agent,它和Manus、Genspark的本质区别在于它的agent能力更多来自于模型本身,而非基于模型构建工作流。

OpenAI称,ChatGPT agent和o3模型一样,本身就是一个智能体模型(agentic model),它已经通过强化学习学会了应该选择什么工具来完成相应任务。

而Manus和Genspark都没有为其agent专门训练一个模型,而是基于现有模型(主要是Claude)构建了它们的产品,Claude来自于OpenAI的对手Anthropic。去年10月,Anthropic发布推理模型Claude 3.5 Sonnet后,今年3月,Manus发布了基于该模型的通用agent。发布Manus时,Manus联创兼首席科学家季逸超称,Manus当时使用的是Claude 3.5 Sonnet v1和各种微调的Qwen模型,并正在测试Sonnet 3.7。

留给Manus等agent公司基于市场上最前沿的推理模型构建「通用agent」的机会会越来越少。因为只要足够通用、市场规模足够大,模型公司就会把它变成自营C端应用的基础功能。目前,OpenAI和Anthropic都已将网页操作、AI编程、深度研究作为一项基础功能添加到各自的Chatbot里。在OpenAI推出能浏览网页、制作PPT、预订酒店、进行深度研究等的「通用」agent后,Anthropic推出相应的产品只是时间问题。

Manus与Genspark强调其效果好过ChatGPT,起码可视化表现上

ChatGPT agent发布后,Manus和Genspark都坐不住了。OpenAI的发布会结束还不到4个小时,Manus在社交平台X上发布了自家产品和ChatGPT agent的10个案例对比。

Manus展示了比ChatGPT agent更好的(可视化)效果。

Genspark的联合创始人Eric Jing随后也根据OpenAI发布会上的案例提示词,发布了Genspark在执行相同任务时的效果。

博主@rowancheung在X上分享了他借助ChatGPT agent制定提前退休计划的案例,称ChatGPT agent用20多分钟就为他生成了一份PPT,「如果找财务顾问做这个事情,我得花费5000多美元,还得等上几周。」此外,他还提到,ChatGPT agent的电子表格与幻灯片生成功能令他印象深刻,不过其效果与使用Manus或Genspark得到的效果相近。

@rowancheung用ChatGPT agent花20分钟做了一份退休计划。

Genspark和Manus也很快都根据该博主的提示词,展示了他们的产品效果,言外之意是:我们的产品效果(起码可视化效果)更好。

Genspark的PPT效果。

目前,ChatGPT的Pro、Plus和Team版用户可优先体验ChatGPT agent。Pro版用户每月拥有400次查询额度,Plus版和Team版用户每月可查询40次。OpenAI CEO Sam Altman称,他们争取在本月底之前面向Enterprise版和Edu版用户推出服务。

Manus的PPT效果。

Manus最便宜的套餐为每月19美元,Genspark每月需24.99美元,ChatGPT Plus版用户的收费标准则为每月20美元——这已经能让他用上ChatGPT agent了。

-END-

腾讯、阿里和字节都在布局AI浏览器,它会是PC端超级入口吗?|AI浏览器(上)

Vibe Coding很火,但「人人都能编程」为时尚早|对话通义灵码神秀

豆包正式上线AI播客,它为什么那么重视音频?|大公司



Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/184587
 
90 次点击