社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

奥特曼放出ChatGPT「统一智能体」!惊呼真AGI,最卷打工人来了

机器学习研究组订阅 • 2 月前 • 103 次点击  

今晚,ChatGPT和Deep Research、Operator「三剑客」首度合体!

奥特曼亲自带队,25分钟高能直播重磅发布ChatGPT agent,开启人类和智能体协作全新时代。

图片
图片

ChatGPT agent的核心,是一个统一的智能体系统。

简言之,它融合了此前三大技术突破的优势:Operator与网站交互的能力,Deep Research整合信息的技巧,以及ChatGPT智能对话优势。

图片

如今,ChatGPT可以直接使用计算机,全程自主为你工作。

从智能浏览网页、筛选结果,在需要时提醒安全登录、运行代码、进行分析,还能直出PPT和Excel汇总发现结果。

图片

最最重要的是,一切尽在掌控之中。

人类随时可以中断任务、接管浏览器,或是完全停止。

在HLE测试中,ChatGPT agent拿下了41.6%高分;并在数学FrontierMath基准上,同样刷新SOTA,碾压o4-mini和o3模型。

图片

顺便提一句,ChatGPT Agent在HLE上仍不及马斯克的Grok 4 Heavy

谁能想到,上面这张PPT,还是ChatGPT agent自己做的。在基准测试中,其操作办公软件的能力,几乎没给人类留下多少余地了。

图片

网友辣评:打工人的好日子到头了

奥特曼感慨道,ChatGPT agent使用计算机执行复杂任务,对自己来说是一个真正「感受AGI」的时刻。

图片

从今天起,Pro、Plus和Team用户直接可以开启体验,在对话框下拉栏中,选择「Agent mode」即可。

其中,Pro用户每月有400次的额度,Plus和Team为每月40次。

图片

太长不看版:(节选自OpenAI研究员张熙堃的X

    1. Deep Research擅长做研究,Operator会执行操作,而ChatGPT agent则能同时完成所有这些任务!

    2. 端到端强化学习的威力!基于RL Scaling,ChatGPT agent的高效性和数据利用率非常惊人。

    3. 人机协作,依旧是核心!任务过程中可随时打断,引导ChatGPT完成新任务。在支付、删除文件等操作前,会向人类主动确认。只有在必要时,它才会提问以获取更清晰的指令。

    4. 真实世界表现 > 追逐基准排名!ChatGPT agent确实横扫了很多榜单。在模型开发过程中,OpenAI既不会一门心思去刷分,也不太在意最终在排行榜上的位置。

    鲁豫真的吗我不信表情包_鲁豫式提问实用表情包- 三千图片网

    图片
    三强首度合体
    ChatGPT agent正式登场

    今年1月,OpenAI发布了首个智能体Operator,让AI像人类一样直接与GUI交互。

    紧接着2月初,他们又推出了首个Deep Research,推理模型直接可以使用工具,开展研究。

    这两个工具各有专长,Operator可以自主上网、点击和输入,而Deep Research则擅长分析和总结信息。

    然而,前者无法开启深度分析、撰写详细报告;后者无法与网站交互获得精确结果。

    今天,OpenAI正式将其合二为一——ChatGPT agent,「单一模型」即可解锁全新能力。

    ChatGPT agent配备了一整套工具:

    · 可视化浏览器:用于图形用户界面与网页交互

    · 文本浏览器:用于处理简单推理和网页查询

    · 终端+直接API访问权限:图像API


    图片

    agent还能借助ChatGPT连接器,连接Gmail、Github等应用,便于根据提示找到相关信息并给出回复。

    不仅如此,接管浏览器后登录任何网站,让ChatGPT agent进行更深入、更广泛的研究和任务执行。

    由此,ChatGPT便能选择最佳路径,高效地执行任务。

    图片

    打工人的PPT,ChatGPT代劳了


    为了展示ChatGPT agent能力,团队现场演示了一个真实场景:为朋友Minnie和Sarah策划一场婚礼。

    根据提示,这项任务需要AI依据着装要求和天气情况,推荐精美价格合理的礼服、为参会者预订酒店,以及为新人准备婚礼礼物。

    ChatGPT agent在理解提示后,并没有直出报告,而是再次重述确认任务要求,比如确切的婚礼日期。

    图片

    当一切确认之后,接下来,它便自主打开浏览器,并在交互页面上显示逐步执行的每一个过程,即思维链。

    图片

    需要注意的是,agent会在几秒内配置好的虚拟计算环境中,开始执行任务。

    任务执行中,agent 使用文本浏览器查询,并找到了合适的西装,然后切换到视觉浏览器,等待确认。

    图片

    在ChatGPT执行婚礼策划任务同时,还可以让它做另一个任务:购买一双9.5码黑色鞋子。

    图片

    也就意味着,ChatGPT agent不惧被打断。即便上一个任务规划时间很长,也不耽误接下来的事情。

    图片

    最后,ChatGPT agent生成了一份非常全面的报告,包括礼服、酒店、鞋子、礼物全部给出了规划和建议。

    在另一个演示中,团队用ChatGPT应用开启任务——上传一张团队吉祥物——可爱小狗的图片,做成笔记本贴纸,并订购500个。

    然后,它便开始调用工具Imagen生成动漫版图片,并设计贴纸,从StickerMule订购500份寄到xxx。

    图片

    更令人惊喜的是,ChatGPT agent还能通过连接器,比如Google Drive提取评估数据,自己生成PPT。

    图片

    在此过程中,agent会编写代码,并将其编译成最终幻灯片。它还会借用图像工具,为PPT页面进行装饰。

    图片

    不一会功夫,它就直接输出了第一张HLE、FrontierMath的PPT,但不够精致,然后它再次通过RL不断优化。

    图片

    最终,就得到了一个优美的PPT文件,可以在办公软件中直接打开。

    图片

    不得不说,ChatGPT agent太强了。

    图片

    甚至,你还可以让ChatGPT agent 制定一个参观30+美国职棒大联盟球场的最佳行程。

    耗时25分钟,它迅速生成一个直观可视化的Excel,以后做数据也彻底解放了双手。


    图片
    HLE拿下41.6%高分
    多项基准破纪录

    统一后的agent,大幅提升了ChatGPT在日常和专业领域的实用性。

    不仅在网页浏览,还是现实任务完成能力的评估中,ChatGPT agent全部刷新了SOTA。

    如上提及的,在人类最后考试(HLE)中,ChatGPT agent以41.6%的得分,刷新了pass@1最高纪录。

    当研究团队采用并行策略后,即同时运行最多8次并选取自信度最高结果,HLE得分直接刷到了44.4%。

    图片

    在最难的数学基准测试FrontierMath中,ChatGPT agent借助代码终端等工具,实现了27.4%准确率,大幅超越o3和o4-mini。

    图片

    不仅如此,在内部设计的「高经济价值知识工作」测试中,ChatGPT agent在半数案例中,输出质量与人类相当,甚至碾压人类。

    图片

    任务来自真实专业工作场景,比如为按需紧急护理服务商撰写竞品分析、编制详细的摊销表,以及为新的绿色氢能设施寻找可行的水源

    在评估数据科学生产力任务的DSBench中,ChatGPT agent以显著优势超越了人类表现。

    图片

    在Excel编辑能力的SpreadsheetBench测试中,其表现同样远超现有模型。

    当获得直接编辑权限时,ChatGPT agent以45.5%的得分显著超越Excel Copilot的20.0%。

    图片

    在投行分析师1-3年级建模任务的内部评估中,ChatGPT  agent底层模型碾压Deep Research和o3模型。

    图片

    此外,在OpenAI发布的BrowseComp基准测试中,ChatGPT agent以68.9%的准确率刷爆纪录,比Deep Research高出17.4%。

    在WebArena基准测试中,其表现也优于基于o3的CUA(即Operator背后的底层模型)。

    图片

    BrowseComp基准专门评估浏览智能体在网络上定位难寻信息的能力;WebArena用于评估网页浏览智能体完成现实网络任务的能力


    图片
    2025下一个热点
    AI智能体「杠杆」

    ChatGPT agent这么强,能为我们带来什么价值?

    最近,刚刚离职OpenAI研究员Hyung Won Chung分享演讲视频中表示,「AI正成为有史以来最强大的『杠杆』」。

    图片

    他表示,AI智能体结合了两种杠杆:人力和代码。

    它就像雇了个帮手,替你干活(人力杠杆);而且它又是软件,能无限复制(代码杠杆)。

    1. 人力杠杆 :AI智能体可以替人类完成工作,就像一个人AI助理。 


    2. 代码杠杆:当前的AI智能体是纯软件形式,可以轻松复制。如果你想要10倍的产出,就运行10个智能体;想要12倍,就再加两个。这种杠杆不需要许可,可以随意扩展。


    在这场发布会上,OpenAI重提了「AI杠杆」这一核心话题。

    他们同样认为,2025年之后,AI智能体将成为一种全新的杠杆机制。

    图片

    它不仅能代替人类完成工作,还能通过「复制粘贴」无限扩展。不论是10个,还是更多智能体,不需要额外的许可,即可一键部署。

    研究人员举例称,Deep Research发布之后近半年里,极大地提升了个体和小团队的产出。

    过去,团队规模化需要依赖「人力杠杆」,但人类协作的沟通成本,甚至包括摩擦,往往成为了瓶颈。

    而现在,ChatGPT agent的出现一个重大意义在于,让小团队创造巨大的价值。

    一个10人或20人的初创公司,借助AI杠杆,可能创造出媲美科技巨头的成就。


    这种「超级个体」模式,或许在未来将重塑企业的组织架构,凭借AI实现指数级增长。


    图片
    北大校友领衔出镜

    值得一提的是,这次直播中,有两位华人学者同时出镜。

    Zhiqing Sun(孙之清)

    图片

    孙之清于2024年6月加入OpenAI,担任研究科学家。

    他于2025年在卡内基梅隆大学获得计算机科学博士学位,于2019年在北京大学获得计算机科学学士学位。

    图片
    图片

    在OpenAI期间,他不仅参与到了o3/o4-mini、计算机使用智能体,以及Deep Research这几个关键项目当中,而且还是Deep Research的研究负责人。

    图片
    图片
    图片

    Casey Chu

    图片

    Casey Chu于2020年4月加入OpenAI,担任研究员。

    此前,他于2019年在斯坦福大学获得计算数学硕士学位,并于2016年在哈维穆德学院获得数学学士学位。

    后来他曾尝试攻读斯坦福大学的计算数学博士学位,但中途选择了退学。

    图片
    图片

    别看他的title只是研究员,但他不仅是DALL·E 2的共同一作,而且还主导了GPT-4视觉输入的初始原型的开发。

    图片
    图片
    参考资料:
    https://openai.com/index/introducing-chatgpt-agent/
    https://x.com/xikun_zhang_/status/1945895070269583554

    想要了解更多资讯,请扫描下方二维码,关注机器学习研究会


    图片


    转自:新智元


    Python社区是高质量的Python/Django开发社区
    本文地址:http://www.python88.com/topic/184578
     
    103 次点击