社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

#OpenAI连发o3和o4mini##ChatGPT首次带图深-20250417114836

量子位 • 5 月前 • 93 次点击  

2025-04-17 11:48

#OpenAI连发o3和o4mini##ChatGPT首次带图深度思考#

仅隔一天,OpenAI再次突然放大招:

一口气,o3和o4 mini同步上线。【图1】

依然是最热门推理模型,并且这一次,它们终于能够调用ChatGPT里的各种工具了,包括网络搜索、Python、图像分析、文件解释和图像生成。

也就是说,你现在可以也用o3来生成吉卜力风格的奥特曼抱子图了(doge)。【图2】

还不只是能看懂、生成图像,官方提到,o3和o4-mini是OpenAI首次能将上传图像集成到思维链中的模型——

这意味着,它们可以基于图像展开思考,be like:

OpenAI表示,o3是他们目前最强大的推理模型,在编程、数学、科学、视觉感知等多个维度的基准测试中都刷新了SOTA,在分析图像、图表和图形等视觉任务中表现尤为出色。【图3】

在外部专家评估中,o3在困难现实任务中,能比o1少犯20%的重大错误。

而o4-mini则是一款专为快速、经济高效的推理而优化的小模型。

在专家评估中,o4-mini在非STEM任务以及数据科学领域都超过了前代的o3-mini。

在AIME 2024和AIME 2025中,甚至有超过o3的表现。【图4】

即日起,ChatGPT的Plus、Pro会员以及Team用户,都能直接体验o3、o4-mini和o4-mini-high,而原本的o1、o3-mini和o3-mini-high则已悄然下架。【图5】

所以,在基准测试上表现如此强势的o3和o4-mini,具体能带来哪些体验上的改变?

Talk is cheap,来看实测案例。

在OpenAI的官方直播中,研究员们展示了这样一个用法:

让o3直接读一份未完成的学术海报,让它根据其中的研究线索,帮忙估算质子的同位旋矢量标量电荷,并搜索相关最新研究成果,对比新成果跟估算值的不同。【图6】

思考了不到3分钟,o3完全没有被难住,吐出了这样的结果:【图7】

网友们也第一时间给o3和o4-mini上了小球测试:【图8】

还有医学教授在抢先体验后表示:完全停不下来。

我觉得o3的智能程度已经达到或接近天才水平了!【图9】

这位医学专家表示,他在向o3提出一些颇具挑战的临床或医学问题时,o3能给出像直接来自顶级专科医生的回答。

我们也简单测试了一下,比如让o3和o4-mini分别解读一下“洛就完了”表情包。【图10】

o3:【图11】

o4-mini:【图12】

你pick哪个答案?#OpenAI发布o3和o4mini#
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/181194
 
93 次点击