OpenAI被DeepSeek整急眼了？ChatGPT o3-mini深度测评

点击上方“阿昆的科研日常”，关注我的公众号。

添加微信：akunscience28 备注：AI

免费获取《35个AI写作到投稿提示词》

ChatGPT前几天上线了新推理模型o3-mini high和o3-mini，卖点是比o1更高的输出质量，但价格只有o1的1/10，且上下文窗口增加到20万token。

我们第一时间进行了测评，先说结论：

思考过程是在模仿DeepSeek R1，但是输出质量不如之前的ChatGPT o1。

以下是实测对比：

1.学术问题回答

o3-mini作为一个推理模型，擅长复杂问题的推理回答。

我们之前测试对比了DeepSeek和ChatGPT o1在学术方面的应用效果：

现在再把o3-mini加入对比一下。

测试问题：什么是人类文化的根源?

先来看一下o3-mini的思考过程：

基本上就是一个先发散，再收拢的过程。

而DeepSeek虽然展示的思考过程更细致，但是也是差不多思路：

之前ChatGPT o1没有给出展示详细的思考过程，在算力加强版提示词（详见：5句话，让你的ChatGPT Plus变Pro）的push下，它提升了思考时间，展示的思考过程和DeepSeek还是有很大不同的：

DeepSeek更多在分析提问者的意图，o1则着重每一个知识点的延伸思考。

再来对比针对该问题的回复答案。

DeepSeek：

ChatGPT o1：

o1的六个要点，只有语言与符号的出现，是和DeepSeek一样的。

再来看o3-mini high的回答：

对比一下，观点1、3、4都和DeepSeek一样。

我们合理怀疑是因为o3-mini的思考过程在模仿DeepSeek，所以答案和DeepSeek更相似。

2.充当评审专家，对论文和标书进行预评审

评审专家是需要深刻洞察和逻辑推理的一项任务。

在我们的《AI辅助课题标书的撰写》课程里，有一节是让AI充当评审专家，对标书初稿进行预评审，提出问题和改进意见，方便我们查漏补缺，进一步全面打磨和提升标书质量。

之前测试了好几个AI大模型和提示词，ChatGPT o1完成质量是最高的：近2万字的标书，o1在阅读全文的基础上，针对每一部分都能给出精准的评审意见和修改建议。

现在，o3-mini声称是o1的升级版，我们也来测试对比一下。

首先看ChatGPT o1的回复：

立项依据部分：

不论是总的评审意见，还是下面详细的修改建议，真的是很精准和极具洞察力。

再看一下“本项目的特色与创新之处”：

如何？把这几点补充进去，是不是感觉你的标书创新性又上了几个台阶？

再来看看最新的o3-mini：

立项依据部分：

虽然提的点和o1是差不多的，但是在修改建议的细节上，没有o1细节丰富全面。

再看“本项目的特色与创新之处”，o3 mini的分析：

这个除了第一点和o1相似，后面两点都没有o1的观点更准确。

可见，o3的回复长度和内容质量比o1都差了许多。

再来看DeepSeek。

立项依据部分：

提出的3个问题大致和o1提的差不多，但是没有o1精准，且修改建议出现幻觉，开始引用不存在的文献。

再看创新性评估：

提了两点，也比o1差远了。

综上，对于标书预评审来说，ChatGPT o1还是效果最优，ChatGPT o1＞ChatGPT o3-mini ＞ DeepSeek。

总结一下，o3-mini好像是OpenAI在DeepSeek的冲击下，匆匆上线的一个模型：一方面对于DeepSeek的深度思考算法很认可，一方面对于DeepSeek的开源白菜价很焦虑。

于是，OpenAI匆匆忙忙推出了这么一个，在价格和性能上同DeepSeek都不能相比的模型。

最后，必须要说，现在关于AI的新闻、进展铺天盖地的，建议大家以终为始，从自己的目标出发，看看自己的需求场景是哪些，要实现这些需求，用哪一个大模型效果更好。

以上。

如果你觉得我的分享对你有帮助的话，欢迎大家在这里点赞、在看、分享。当然，也欢迎大家在这里打赏。互动越多，更新越快哦~

声明：本公众号的所有原创内容，在未经允许的情况下，不得用于任何商业用途，违者必究。