Py学习  »  chatgpt

OpenAI被DeepSeek整急眼了?ChatGPT o3-mini深度测评

阿昆的科研日常 • 6 月前 • 1108 次点击  

点击上方“阿昆的科研日常”,关注我的公众号。

添加微信:akunscience28    备注:AI

免费获取《35个AI写作到投稿提示词》



ChatGPT前几天上线了新推理模型o3-mini high和o3-mini,卖点是比o1更高的输出质量,但价格只有o1的1/10,且上下文窗口增加到20万token

我们第一时间进行了测评,先说结论:
思考过程是在模仿DeepSeek R1,但是输出质量不如之前的ChatGPT o1    

 

以下是实测对比:

1.学术问题回答
o3-mini作为一个推理模型,擅长复杂问题的推理回答。
我们之前测试对比了DeepSeek和ChatGPT o1在学术方面的应用效果:
现在再把o3-mini加入对比一下。
测试问题:什么是人类文化的根源?
先来看一下o3-mini的思考过程:

基本上就是一个先发散,再收拢的过程。
DeepSeek虽然展示的思考过程更细致,但是也是差不多思路:    

之前ChatGPT o1没有给出展示详细的思考过程,在算力加强版提示词(详见:5句话,让你的ChatGPT Plus变Pro)的push下,它提升了思考时间,展示的思考过程和DeepSeek还是有很大不同的:  
DeepSeek更多在分析提问者的意图,o1则着重每一个知识点的延伸思考。  
再来对比针对该问题的回复答案。
DeepSeek:    
ChatGPT o1: 
o1的六个要点,只有语言与符号的出现,是和DeepSeek一样的。
再来看o3-mini high的回答:    
对比一下,观点1、3、4都和DeepSeek一样。
我们合理怀疑是因为o3-mini的思考过程在模仿DeepSeek,所以答案和DeepSeek更相似

2.充当评审专家,对论文和标书进行预评审
评审专家是需要深刻洞察和逻辑推理的一项任务。
在我们的《AI辅助课题标书的撰写》课程里,有一节是让AI充当评审专家,对标书初稿进行预评审,提出问题和改进意见,方便我们查漏补缺,进一步全面打磨和提升标书质量。
之前测试了好几个AI大模型和提示词,ChatGPT o1完成质量是最高的:近2万字的标书,o1在阅读全文的基础上,针对每一部分都能给出精准的评审意见和修改建议。
现在,o3-mini声称是o1的升级版,我们也来测试对比一下。
首先看ChatGPT o1的回复:
立项依据部分:

不论是总的评审意见,还是下面详细的修改建议,真的是很精准和极具洞察力。
再看一下“本项目的特色与创新之处”:    
如何?把这几点补充进去,是不是感觉你的标书创新性又上了几个台阶?
再来看看最新的o3-mini
立项依据部分:    
虽然提的点和o1是差不多的,但是在修改建议的细节上,没有o1细节丰富全面。
再看“本项目的特色与创新之处”,o3 mini的分析:    
         

 

这个除了第一点和o1相似,后面两点都没有o1的观点更准确。
可见,o3的回复长度和内容质量比o1都差了许多。
再来看DeepSeek
立项依据部分:    

提出的3个问题大致和o1提的差不多,但是没有o1精准,且修改建议出现幻觉,开始引用不存在的文献。
再看创新性评估:    

提了两点,也比o1差远了。
综上,对于标书预评审来说,ChatGPT o1还是效果最优,ChatGPT o1>ChatGPT o3-mini > DeepSeek
总结一下,o3-mini好像是OpenAI在DeepSeek的冲击下,匆匆上线的一个模型:一方面对于DeepSeek的深度思考算法很认可,一方面对于DeepSeek的开源白菜价很焦虑。
于是,OpenAI匆匆忙忙推出了这么一个,在价格和性能上同DeepSeek都不能相比的模型。
最后,必须要说,现在关于AI的新闻、进展铺天盖地的,建议大家以终为始,从自己的目标出发,看看自己的需求场景是哪些,要实现这些需求,用哪一个大模型效果更好。
以上。


如果你觉得我的分享对你有帮助的话,欢迎大家在这里点赞、在看、分享。当然,也欢迎大家在这里打赏。互动越多,更新越快哦~

声明:本公众号的所有原创内容,在未经允许的情况下,不得用于任何商业用途,违者必究。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/178676
 
1108 次点击