社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试

新智元 • 1 周前 • 50 次点击  



  新智元报道  

编辑:Aeneas 桃子
【新智元导读】刚刚,OpenAI再度紧急出手,在发布会直播全新的「Deep Research」功能。基于o3的推理再加上联网搜索,ChatGPT如今可以完成耗费人类专家数小时的复杂研究了!现在,模型已经刷爆「人类最后考试」榜单。

一大早,OpenAI开启的在线直播,简直让人猝不及防。
OpenAI研究负责人Mark Chen带领三位工作人员,在20多分钟内向我们详细演示了Deep Research的功能。
最大亮点之一:只要数十分钟,它就能完成人类专家花费几小时的复杂调研任务!
Mark Chen将之称为「我们的下一代智能体产品」。
去年,OpenAI就推出了o1,但这些推理模型的一个限制,是它们无法使用工具,因为缺少了浏览互联网这个核心能力,
因此,现在OpenAI宣布了一个重大步骤:引入Deep Research!
奥特曼激动地表示,这就像是拥有一种超能力,可以随时调用专家!

它能够使用互联网进行复杂的研究和推理,并为你提供详细报告。它非常强大,能够完成那些通常需要数小时、数天,且花费数百美元的任务。
需要强调的是,Deep Research是基于优化版o3打造——一个可以浏览网页和执行python代码的o3。
这是一个可以在互联网上进行多步骤研究的模型,它能发现、综合内容,并对之进行推理。甚至随着发现更多信息,它还会调整自己的计划。
也就是说,Deep Research的一大特点,就是消除了模型中的延迟限制,它返回结果可能需要五分钟,甚至长达半小时。
模型能在无人监督的情况下,以更长时间执行自主任务,这俨然就是AGI的雏形。最终,OpenAI的愿景是:模型能自主发现和发掘新知识。

OpenAI研究员表示,「使用Deep Research对我来说真的是一次个人的AGI时刻。只要10分钟,它就能生成准确又全面的竞争对手和市场研究报告(还有来源),以前这些东西我得花3个小时才能做完」。
现在,Deep Research会自己上网,然后给你一份全面、引用翔实的研究论文!也就是说,它已经妥妥达到了某领域研究专家的级别。
奥特曼还特意发文表示,这还不是o3-mini的「One More Thing」,这个小彩蛋过几天公布。
今天,Deep Research就将在Pro中推出了(每月100次查询),之后还会很快在Plus、Team、Education和Enterprise版本中上线。

帮PM完成深度市场调查报告


从一个按钮「Deep Research」开始,就可以和Deep Research聊天了。
OpenAI研究者演示说,自己一直在思考的就是,是否该开发一款新的语言翻译app呢?
这个市场调研,就可以交给Deep Research——
「帮我找到ios和Android的采用率,想要学习另一种语言的人的百分比,过去几年移动普及率的变化,以及发达国家和发展中国家的差异。」
研究者明确表示,希望自己想要的信息以格式化的报告呈现,其中要包含表格和明确建议,说明哪些是最佳的新兴机会。
这个市场调查要求,可着实不简单。如果是普通打工人来调研,最少也得花费数小时。
但是Deep Research,立马就启动了调查。
接下来,研究者进一步细化了自己的要求:给我渗透率的用户百分比,分析总体使用情况,对其余部分进行最好的假设。
在这里,Deep Research就开始发挥自己的长处:自主启动研究过程。
在这个过程中,它会浏览不同网页,查看相关图片、表格、PDF,提取所有信息,来确定下一步要做什么。
在OpenAI的演示结束时,Deep Research仍然在进行搜索和调研。此时,它已经查看了29个不同来源和大量信息。
可以看出,它的报告中已经包含了不同的表格,以及多种呈现数据的形式。
而且,我们能够点击查看模型的每一个引用,以及它遇到的不同网站。
对于不同学术领域的市场研究,比如物理学、计算机科学、生物学,Deep Research都很擅长。
OpenAI研究者还展示了一个财务研究的例子:「我是一个硅谷风投公司的投资分析师,想分析民用超音速航空旅行市场,准备一份详尽的投资备忘录。」
在这个过程中,模型开展了7分钟的研究,使用了12个不同来源,提供了一份全面的调查报告。
下面是一个生物学方面的例子。
研究者上传了一篇论文,想找到关于同一主题的其他论文。
最终Deep Research给出的结果,得到了生物学专家的认可。

有趣的东西:买买买


而且,Deep Research能做的绝不仅仅是严肃的学术调查报告,它还可以帮你完成很多有趣、好玩的调查,比如——我该买什么?
如果我们要入手一件很贵的东西,肯定不敢贸然下单,而是提前在网上细细研读每一页说明和买家评论。
比如想在日本滑雪,想买滑雪板,就可以直接让Deep Research给我们出一份带表格的报告。
在这个过程中,我们可以细化要求:高级滑雪者,有时雪是粉状的,自己身高很高所以需要长滑雪板,而且颜色要很漂亮。
最终,Deep Research给出了长篇的报告,还对理想的滑雪板做了详细列表。
也就是说,如果你想要的答案非常具体,那么Deep Research就会非常有效。
甚至,我们可以用Deep Research找出10年前在东京去过的餐厅的名字,或者找到我们忘记名字、但记得其中某集内容的电视剧。
除了描述情节之外,其余的信息就是这是5到10年前的电视剧了。
结果,Deep Research居然找出了正确答案!

优化版o3加持,AGI又近一步


去年12月,谷歌最先放出了研究智能体Deep Research。
OpenAI同款Deep Research,也是智能体的一种,能够针对复杂任务上网进行多步研究。
它能在几十分钟内,完成人类需要数小时才能完成的工作。
只需一个提示,ChatGPT即可查找、分析和综合数百个在线资源,创建一份「研究分析师级」的综合报告。
值得一提的是,Deep Research由即将推出的o3模型的「优化版本」加持。
OpenAI通过端到端强化学习,对它的深度浏览和推理任务进行了训练。
该版本专门用于网页浏览和数据分析,它利用推理能力来搜索、解释和分析互联网上大量的文本、图像和PDF,并根据遇到的信息随时调整方向。
要知道,「综合知识」的能力,是创造新知识的先决条件。
因此,Deep Research的推出,标志着OpenAI向更广泛的目标——开发AGI迈出了重要一步。
OpenAI研究科学家Hyung Won Chung对此表示:
Deep Research的一个显著特点就是它极强的耐心。我认为它已经接近了「超人类耐心」。在这个项目的过程中,我意识到智力和耐心是非常契合的。

就像推理模型o1一样,Deep Research是通过强化学习(RL)进行学习的。它学习如何搜索相关信息,并通过推理整合知识。当scale遇上RL时,魔力就会产生。
毕竟,OpenAI一直设想,真正的AGI是能够自己产出新颖的科学研究。
几天前的Reddit在线问答中,奥特曼也发表了同样的观点。

在我看来,最重要的影响将是加速科学发现的速度,我认为这是对提高生活质量贡献最大的因素。

一个提示,即出一份专业报告


那么,Deep Research究竟能做什么?
据OpenAI介绍,它是专为那些在金融、科学、政策和工程等领域从事密集知识工作,需要全面、精确和可靠研究的人们而打造的。
对于那些「买买买」购物狂来说,Deep Research还能为你所需研究的购买项目,比如汽车、家电、家具等,提供高度的个性化建议。
而且,每个输出都有完整的文档记录,包含清晰的引用和思维过程总结,方便随后参考和验证。
尤其是,它特别擅长发现需要浏览众多网站才能获取的小众、非直观信息。
只需查询一次,Deep Research就能get要点,加快复杂、耗时的网络研究,节省了大量宝贵的时间。
此外,Deep Research能够独立发现、推理并整合来自网络各种见解。
在技术层面上,它采用了与o1相同的强化学习方法,并进行了重要的升级。
它在真实世界任务中进行了训练,整合了浏览器的操作能力,强化了Python工具使用。
虽然o1在编码、数学和其他技术领域展示了令人印象深刻的能力,但许多现实世界的挑战需要从不同在线来源获取大量背景和信息。
Deep Research在这些推理能力的基础上弥补了这一差距,使其能够处理人们在工作和日常生活中面临的各类问题。

最快5分钟,图像数据可视化要来


进入ChatGPT,可以再聊天对话框中选择「Deep Research」,直接输入提示即可。
不论是对流媒体平台的竞争分析,还是关于最佳通勤自行车的个性化报告,ChatGPT全能hold住。
甚至,你还可以上传文件、电子表格,提供与问题更多相关的背景信息。
一旦开启对话,侧边栏会显示所采取步骤和信息来源的摘要。
一般来说,Deep Research需要5-30分钟完成一份研究,具体实践取决于深入网络研究所需的时间。
在此期间,你完全可以去干别的事,ChatGPT完成研究后会主动向你发送通知,最终的输出将以报告形式展现在聊天中。
更惊喜的是,未来几周,OpenAI还将在这些报告中添加嵌入式图像、数据可视化和其他分析输出,提供更多清晰度和背景信息。
与Deep Research相比,GPT-4o更适合实时的多模态对话。
对于需要深入和细节的多维度、专业领域的问题,Deep Research能够进行广泛探索并为每个论点提供引用来源。
这种能力使其有别于简单的快速总结,而是能够提供经过充分论证和验证的专业答案,这些答案的质量足以作为正式的工作成果使用。
比如,你想要统计过去10年内,按GDP排名的前10个发达国家和前10个发展中国家的以下数据:iOS和安卓系统的使用率、想学习另一门语言的人口比例、移动设备普及率的变化。
GPT-4o仅仅是帮你列了出来,而Deep Research更像是一个报告,甚至给出了完整的可视化表格。

端到端强化学习,与o1同源


Deep Research是如何运作的?
它通过在各个领域的复杂浏览和推理任务上,进行端到端强化学习训练而成。
通过这种训练,它学会了规划和执行多步骤路径,找到所需数据,必要时可以回溯并对实时信息做出反应。
该模型还能够浏览用户上传的文件,使用Python工具绘制和迭代图表,在回答中嵌入生成的图表和网站图片,并引用其来源中的具体句子或段落。
通过这种训练,它在多个关注现实世界问题的公开评估中刷新SOTA。
人类最后一场考试,得分26.6%刷爆了
全网爆火的「人类最后一次考试」中,Deep Research取得了26.6%准确率破纪录。
奥特曼骄傲地表示,早在周五,「人类最后一场考试」的最高分是 o3-mini-high,得分为 13%。但到了周日,Deep Research功能的得分已经达到了26.6%。
要知道这项测试包含了超3,000道「专家级」多选题和简答题,涵盖从语言学到火箭科学、从古典学到生态学等100多个学科。
与o1相比,最大的进步出现在化学、人文社会科学和数学领域。
驱动Deep Research的模型通过在必要时有效寻找专业信息,展现出类人的解决方案。
GAIA
在GAIA测试中,这是一个评估AI解决现实世界问题能力的公开基准测试。
驱动Deep Research的模型同样刷新SOTA,位居外部排行榜榜首。
这些测试包含三个难度等级的问题,成功完成这些任务需要具备推理能力、多模态流畅性、网页浏览和工具使用等多项技能。
下面是一级和三级任务的对比区别。
专家级任务
另外,在对各个领域专家级任务的内部评估中,Deep Research能够自动化完成,需要多个小时的复杂人工调查工作。
下图为专家级任务与最大工具调用次数的对比,显示出了模型花更多时间思考和浏览时,性能就会更强。
这跟OpenAI的理念相吻合:在未来世界里,智能体将花费越来越长的时间,完成越来越困难的任务。
下面这个案例中,Deep Research进行的化学研究,节省了大约4小时的时间。
语言学方面,更是节省了5个小时。
以下两个图表可以证实这一事实。其中,上图为不同估算经济价值范围的通过率,下图为完成不同任务所需时间范围的通过率。
所谓通过率,即模型在专家级任务中提供满意答案的比率,答案由专家评定。
从图表中可以看出,通过率与估算经济价值的相关性,比估计小时数的相关性更高,也就是说,模型发现困难的事,也是对人类来说更耗时的事。

局限性


Deep Research仍处于早期阶段,同样存在一些限制。
根据内部评估,它有时会在回答中产生虚构的事实或做出错误的推断,不过,频率明显低于现有的ChatGPT模型。
它可能难以区分权威信息和谣言,目前在置信度校准方面表现较弱,往往无法准确传达不确定性。
在发布时,报告和引用可能存在微小的格式错误,任务可能需要更长时间才能开始。
OpenAI预计所有这些问题都会随着使用时间的增加而快速改善。

Pro用户先上手,Plus一个月内上线


OpenAI称,Deep Research在ChatGPT中非常消耗计算资源。
研究查询所需时间越长,所需的推理计算就越多。
目前,OpenAI开始向Pro用户提供优化版本,每月最多100次查询。
接下来,这项功能会逐渐向Plus和Team用户(带越一个月内),以及Enterprise用户推出。
未来,所有付费用户都将获得更高的使用配额。
届时,OpenAI将发布一个更快、更具成本效益的深度研究版本,它由更小的模型驱动,但仍能提供高质量的结果。

下一步:Operator+Deep Research


ChatGPT的Deep Research功能现已在网页版正式上线,并将在一个月内推广到移动端和桌面端。
如前所述,目前,Deep Research可以访问实时互联网,获取最新信息,并对上传的文件进行深入分析。
但,这仅仅是开始。
未来,任何一个人将能够接入更专业的数据源,比如学术期刊或企业内部资源。
这种定制化的知识获取能力,让ChatGPT真正成为你的专属智能助手。
最激动人心的是,OpenAI正在酝酿一场更大的革命。
下一步,通过将Deep Research(负责异步网络调查)与Operator(负责实际行动执行)相结合,ChatGPT将不再局限于信息处理,能够为每个人执行愈加复杂的任务。
这种突破性组合,将开创一个全新的AI个人助手时代。

参考资料:

https://www.youtube.com/watch?v=jv-lpIsnLOo

https://openai.com/index/introducing-deep-research/



Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/178644
 
50 次点击