社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

高考作文“抽象”冲上热搜,ChatGPT、DeepSeek等推理大模型集体上场,实测来了!

CSDN • 1 周前 • 76 次点击  

图片

整理 | 屠敏
出品 | CSDN(ID:CSDNnews)

盛夏六月,蝉鸣渐盛,又是一年高考时。

随着上午的结束,2025 年高考语文作文题如期揭晓。每年这个时刻,作文题目总能迅速登上热搜,引发一波全民关注热潮。而当有人问起“你还记得自己那年高考的作文题吗?”,作为已经毕业十年的笔者,竟一时哑语,但是犹记得有一年的「本手、妙手、俗手」让很多考生“破防”。

今年的作文题刚刚出炉之际,我们恰好也站在一个新的 AI 技术节点上。去年 AI 圈还在上演“百模大战”,时隔一年,这一领域已进入智能体(Agent)系统层的比拼。这些新一代 AI,不仅生成能力更强,更强调“思考与深度推理能力”。那么,如果让它们来面对同样的高考作文题,会交出一份怎样的答卷?

今天,我们就用几款主流 AI 模型来实测一下今年的高考作文题,一探它们的真实的进化水平。

话不多说,先上很多考生直呼“看不懂”的全国一卷作文试题:

阅读下面的材料,根据要求写作。(60分)

他想要给孩子们唱上一段,可是心里直翻腾,开不了口。

——老舍《鼓书艺人》

假如我是一只鸟,

我也应该用嘶哑的喉咙歌唱

——艾青《我爱这土地》

我要以带血的手和你们一一拥抱,

因为一个民族已经起来

——穆旦《赞美》

以上材料引发了你怎样的联想和思考?请写一篇文章。

要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。

乍一看,很难想象这三个人说的话该如何联系到一起,接下来,我们就来看看各家 AI 的表现吧~

注:排序按产品名称首字母,排名不分先后

超 3000 人的「AI 产品及应用交流」社群,不错过 AI 产品风云!诚邀所有 AI 产品及应用从业者、产品经理、开发者和创业者,扫码加群:

进群后,您将有机会得到:

图片


· 最新、最值得关注的 AI 产品资讯及大咖洞见

· 独家视频及文章解读 AGI 时代的产品方法论及实战经验

· 不定期赠送热门 AI 产品邀请码



ChatGPT :《以喉为歌,为民族发声》
率先接受作文大挑战的 AI 考生为 ChatGPT,使用的模式为“深度研究”。当把上面原题给到它时,其先是询问了一句想要哪种文体的文章:
让其“自行定义”之后,ChatGPT 经过深度研究进行了推理思考,过程如下:
而后产出了一篇 以喉为歌,为民族发声的议论文:
我们进一步要求 ChatGPT 以“高考作文评分标准”对自己的文章进行打分。在满分 60 分的情况下,ChatGPT 自行参考、引用了一些高考作文评分标准,对上文自评得分:50 分,属于较高档次的作文范例。

Claude:《声音的力量》
Anthropic 发布的 Claude 4 大模型在编程领域的实力早已有目共睹。那么,若将它应用于中文写作,尤其是面对今年的高考作文题,它又会有怎样的表现?今天我们测试的是 Claude Sonnet 4,来看它在写作方面的能力展现。
在分析作文题目的过程中,Claude 逐条解析了题干中提供的三个材料,试图从中提炼出共同的情感基调和写作方向,并在此基础上提出自己的写作立意:

最终生成的文章题为《声音的力量》

详细来看,这篇的整体风格与 Gemini 2.5 Pro(Preview)类似,更偏向于材料解读与概念阐述,而非传统意义上的议论文或记叙文。

当被问及这篇文章可以得多少分时,Claude 并未给出具体数值,而是给出了一个得分区间:48 至 52 分(满分 60 分),并附上了一些评分理由作为参考:


DeepSeek:《血喉》
第三位参赛选手为 DeepSeek R1。
今年 2 月,DeepSeek R1 的发布震动了国内外技术圈。它没有采用传统的有监督微调(SFT)方法来优化模型,而是通过大规模强化学习(RL)提升推理能力,使得模型在回答问题时能呈现出完整的思考过程。那么,当面对这道高考作文题时,DeepSeek R1 是如何思考的?
结果显示,DeepSeek R1 仅用了 27 秒就完成了深度思考。虽然用时不长,但它在“大脑”中演绎出的思路却并不简单:
DeepSeek R1 最终撰写了一篇包含标题《血喉》两个字在内刚刚好 800 字的作文,全文如下:
同样,当让它自评打分时,令人意外的是,DeepSeek 给出了 57 分的高分,也同步了详细的评分理由:
扣分点在于全文稍有瑕疵之处:

Google Gemini:《于无声与嘶哑处,听时代的赞美诗》
就在两天前,Google 推出了 Gemini 2.5 Pro 的升级预览版,并宣称这是“迄今为止最智能的模型”。发布时,谷歌 CEO Sundar Pichai 表示:“它在编程、推理、科学和数学等方面表现更出色,在多个关键基准测试(如 AIDER Polyglot、GPQA、HLE 等)中成绩提升,自上一个版本以来,在 @lmarena_ai 上的 Elo 分数也提高了 24 分。”
而当面对一篇中文高考作文题目时,这款海外模型 Gemini 2.5 Pro(Preview)选择以中英混合的方式进行解析与作答。
整体思考过程如下:
作文标题为《于无声与嘶哑处,听时代的赞美诗》
仅从内容上来看,Gemini 2.5 Pro(Preview)不像是在写作文,而更像是材料解析。同时,这篇作文字数超过了很多,共有 1818 个字。
不过,Gemini 2.5 Pro(Preview)似乎没有考虑到字数这一点,同样打出了 57 分这样的高分,在立意、结构等方面给出了满分的分析结果:

Kimi:《勇于表达,奏响生命乐章》

我们来看看 Kimi 的长思考模式 —— Kimi 1.5 的表现。它通过完整的推理过程,逐步分析题干中的三则材料,最终提炼出“表达”这一核心关键词:

基于这个立意,Kimi 写下了题为《勇于表达,奏响生命乐章》的作文。
不过,相比其他几款大模型的自评,Kimi 给出的得分最低,仅为 45 分。在评分解析过程中,它倒是没有指出文章存在的一些问题,只是进行了中规中矩的评价:

通义千问:《嘶哑的喉咙与不灭的火种》
相比 DeepSeek R1,于一个多月以前发布的Qwen 3 的深度思考要更短一些,只有 18 秒。
详细过程如下:
Qwen 3 给出的作文标题为《嘶哑的喉咙与不灭的火种》,正文中引用了不少中国戏曲的词名,文化底蕴较为深厚,只是全文篇幅只有 718 个字。
让它自行打分时,Qwen 3 也颇为低调,给出了 52 分的成绩,称可以写得更好:

豆包:《以心之声,唱时代华章
再来看看字节跳动的豆包表现如何?
把高考作文题目作为 Prompt 发给豆包后,其整体反应较快。在思考过程中,自己还尝试先写了一段开头:
最终形成了一篇主题为以心之声,唱时代华章的作文,篇幅为 1057 个字。

就这篇作文本身来说,笔者个人还是比较认可的,表达也有一定张力。那么如果交给豆包来打分,它给出的成绩是 54 分。下面是它给出的具体评分与分析:


讯元宝:《沉默中的呐喊:论时代的精神困境与心灵表达》

腾讯元宝目前提供两款模型支持,分别是 Hunyuan 和 DeepSeek。本次测试中,我们选择的是 Hunyuan T1 的深度思考模型。在所有参与测试的模型中,腾讯元宝的深度思考耗时最短,仅为 9 秒。

它撰写的作文题目为《沉默中的呐喊:论时代的精神困境与心灵表达》

这篇文章的最终得分为 54 分 腾讯元宝在文章立意、逻辑结构、论据、语言表达等多个维度,均有少量扣分:


文心一言:《生命的绝唱:在沉默与嘶吼之间》
接下来,来看百度文心一言的表现。
测试中,我们同样启用了“文心一言”的深度思考模式(X1 Turbo),在作答过程中不仅展示了完整的思考与行动链,还对高考作文题中的三则材料进行了详细分析,并主动寻找充分的论据来支撑每一个观点:
作文标题为《生命的绝唱:在沉默与嘶吼之间》
问及文心一言如何评价自己撰写的作文时,其给出了很高的评价。在满分为 60 分的情况下,这篇文章获得了 58 分,这也是今天测试的所有模型中得分最高的一篇:
具体的理由如下所示:

讯飞星火:《以歌为刃 破浪前行》

科大讯飞的讯飞星火在深度推理(X1)的模型下,在思考和行动过程中,自行定义了要写一篇议论文文体的作文:

进而生成了一篇《以歌为刃 破浪前行》为主题的文章。

作文得分为 54 分
以上,便是几款大模型大战今年高考作文的结果!你觉得它们的表现如何,你最看好哪家的模型?欢迎分享你对今年高考作文的看法,以及目前 AI 工具的表现~
推荐阅读:
宇树CEO王兴兴回应机器人争议,具身智能天团对话完整实录!

USB-C太混乱?微软放“大招”:Win11电脑必须用统一接口标准!

辛顿、杨立昆等 AI 先驱都源自信号处理——对话 IEEE 首位华人主席、美国双院院士刘国瑞 | 万有引力

📢 2025 全球产品经理大会

8 月 15–16 日 

北京·威斯汀酒店

2025 全球产品经理大会将汇聚互联网大厂、AI 创业公司、ToB/ToC 实战一线的产品人,围绕产品设计、用户体验、增长运营、智能落地等核心议题,展开 12 大专题分享,洞察趋势、拆解路径、对话未来。

更多详情与报名,请扫码下方二维码。

图片

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/182987
 
76 次点击