社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

OpenAI紧急加播:ChatGPT上新深度搜索,持续思考30分钟输出1万字,刷榜“人类最后的考试

量子位 • 1 周前 • 45 次点击  
梦晨 西风 发自 凹非寺
量子位 | 公众号 QbitAI

就在开源的DeepSeek-R1被整合进各路AI搜索工具之际OpenAI临时举行小型发布会。

4点27通知,8点开始直播。

ChatGPT上新“Deep Research”,把推理大模型的思考能力用于联网搜索。

据介绍,Deep Research功能可在数十分钟完成人类专家需要几个小时的复杂研究任务。

“人类最后的考试”上,Deep Research刷新了最高分,比o3-mini高推理设置分数高出一倍。

该测试包括3000多个多选和简答题,涵盖从语言学、火箭科学到生态学的100多个主题。

与o1相比,Deep Research最突出的地方在化学,人文和社会科学以及数学中,表现出类似人类的“在必要时寻找专业信息”的能力。

另一项测试GAIA,在现实世界问题上评估AI的公开基准测试,Deep Research在3个级别的难度上均刷新记录,平均完成一个问题花费60-70秒。

出于保护基准测试的目的,OpenAI只展示了Deep Research在完成这些任务时的搜索过程,隐去了最终答案。

Deep Research功能接下来将对Pro、Plus和Team用户开放。

奥特曼后面补充,目前版本基于o3构建,Plus用户(20美元/月)每个月能用约10次,且正在构建一个更高效的版本。

此外,免费用户也能获得非常少量的使用额度。

推理Agent的第一步

OpenAI表示,Deep Research专门为在金融/科学/工程等领域从事高强度知识工作、需要深入精确且可靠研究的人群而设计。

它由OpenAI o3驱动,通过基于真实任务(涉及浏览器和Python工具的使用)的训练,采用了与o1相同的强化学习方法。

只需一个提示,它就会查找分析并整合数百个在线资源,生成一份达到研究分析师水平的综合报告。

Deep Research对于OpenAI的重要性,官方原话是:

Deep Research标志着我们在开发AGI的宏伟目标上迈出了重要一步。我们长期以来一直设想AGI能够进行新颖的科学研究,而Deep Research正是这一愿景的重要进展。

使用方法,点击输入框下方的Deep Research按钮即可,支持上传文件添加额外资料。

例如prompt:

Compile a research report on how the retail industry has changed in the past 3 years. Use bullets and tables where necessary for clarity.(写一份关于过去三年零售业变化的研究报告,并运用项目符号和表格来提升内容的清晰度)

ChatGPT线会确认一下问题细节信息,比如“您能具体说明您最感兴趣的零售业方面吗?”“您需要全球视角还是特定地区的分析?”

然后,它就开始分析+挖掘信息了:

侧边栏会显示所采取的步骤摘要和使用的信息来源。

完成任务的时间大概是5-30分钟,最终结果将以报告的形式输出。

OpenAI表示,接下来几周内,还将为这些报告添加嵌入式图片、数据可视化和其它分析输出。

和GPT-4o等相比,Deep Research对于需要深度和细节的多方面、特定领域的问题,能够进行广泛探索并引用每个观点。

不过,OpenAI也指出了Deep Research存在的局限性。

它有时会在回复中产生事实幻觉或做出错误的推断,尽管根据内部评估,其错误率明显低于现有的ChatGPT模型。

它可能在区分权威信息和谣言方面遇到困难,并且在自信度校准方面目前表现出弱点,常常无法准确传达不确定性。

报告和引用中可能会有轻微的格式错误,并且启动任务可能需要更长的时间。

下一步,OpenAI表示将在本月内将Deep Research推到移动和桌面APP端。目前,Deep Research可以访问公开网络和上传的文件,未来将能够连接到更多专业化的数据源,使其输出更加稳健和个性化。

我们预见ChatGPT将实现Agent体验的融合,用于异步、现实世界的研发和执行。Deep Research(可进行异步在线调查)与Operator(可进行现实行动)的结合,使ChatGPT能够执行越来越复杂的任务。

AI深度搜索是互联网的新界面

OpenAI研究员Jason Wei分享了他对这项新研究的看法:

它不仅是出色的Agent,也可以看成是互联网的新界面

人类使用互联网需要大量时间来搜索和点击,受到时间和注意力的限制。

AI永远不会累,一次可以浏览许多网站,并拥有几乎无限的世界知识。

将来,通过浏览器手动浏览互联网将过时,就像手动计算数字而不使用计算器一样。

OpenAI toG业务负责人Felipe Millon则分享了一个个人故事。

10月底,Millon的妻子被诊断出患有双侧乳腺癌,病情很严重,在12月初做了双乳房切除手术,晚些时候开始化疗。

他们遇到一个新问题,是否应该接受放疗,对于她的具体病情来说,这是一个模糊问题,不同的专家给出不同的建议。

Millon在OpenAI已经获得了Deep Research的测试权限,就尝试上传了手术报告,并询问ChatGPT的建议。

ChatGPT不仅证实了人类专家提到的内容,还搜索出了全新的参考研究。

MIllon认为,这是一个将改变世界的工具。

此外也有少数第三方团队提前获得了Deep Research的测试资格,并在今日分享测试结果。

Every团队介绍,一些问题要花费30分钟才得到结果,答案可能超过1万个单词。

他们做的测试包括:

  • 撰写从2020年到今天每一天的历史

  • 阅读《战争与和平》的第1章,分析托尔斯泰的人物描写,回答他对人性的看法是什么?

  • 仔细查阅近期的 10-K 报告以发现未报告的财务违规行为
    ……

测试中发现的局限性包括:

  • 有时信息缺失引用来源

  • 没有“停止”按钮,如果搜索歪了只能重头开始

直播回看:
https://www.youtube.com/watch?v=YkCDVn3_wiw

参考链接:
[1]
https://openai.com/index/introducing-deep-research/
[2]https://x.com/_jasonwei/status/1886213911906504950
[3]https://x.com/danshipper/status/1886203397004783996

量子位智库年终发布三大年度报告

带你一起回顾2024年人工智能智能驾驶Robotaxi新趋势,预见2025年科技行业新机遇

2024年度AI十大趋势报告

Robotaxi2024年度格局报告

智能驾驶2024年度报告


一键关注 👇 点亮星标

科技前沿进展每日见


一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/178638
 
45 次点击