
内容编辑丨特工小师 特工小天
内容审核丨特工少女
最近,央视连续两天报道了一件让许多大学生吐槽的事:
多位高校学生发现,自己花了大半年写的毕业论文,被 AIGC 检测系统判定为「高度疑似 AI 生成」。

新浪财经也报道一位中国人民大学副教授,耗时三年完成的研究成果,检测结果显示 82.54% 为 AI 生成。
更搞的是,有人把《滕王阁序》丢进检测系统,AI 率超过 50%。甚至,凭一篇《出师表》让无数后人读哭的诸葛亮这次也要哭了。他的名作也没能幸免,被贴上了 61.79% 的 AI「高风险」标签。
诸葛亮要是知道自己被 AI 怀疑用了「豆包」,大概会从五丈原气活过来(be like):

这些并非个例:当前许多高校已将 AIGC 检测作为毕业论文答辩的前置条件,检测率上限从 15% 到 40% 不等。一些学校要求低于 30% 才能通过。
当检测系统连古文都分不清楚的时候,让学生拿这个数字去自证清白,个中酸楚,怕只有这几届的大学生才知道。

机器是怎么「判断」你在用 AI 的
要理解为什么会出现这样的误判,得先看看 AI 检测到底在检测什么。
AI 检测的核心原理并不复杂,主要依赖两个指标。
第一个叫「AI 困惑度」。
这个指标衡量的是文本的「AI 可预测性」。
AI 生成内容的本质是语言模型逐词进行概率预测,所以整体用词高度符合统计预期,读起来流畅、规整,困惑度低。
而人类写作因为思维跳跃、个人风格差异大,用词往往没那么「标准」,所以 AI 困惑度相对较高。
简单来说,你写得越让 AI 觉得「这话我也会这么说」,系统就越觉得你不是人写的。
讽刺的是,连「不是……而是……」这类工整的转折句式、破折号引出的解释结构,都是 AI 最爱用的模式。
对于一个用词本身就像 AI 的 INTJ 小编来说,这等于被永久剥夺了使用「不是……而是……」句式和破折号的权利:
不是你的文字本身是 AI 写的,而是你天生的表达习惯,恰好撞上了 AI 的统计模型。

第二个叫「突发性」。
它衡量的是句子之间节奏变化的幅度。
人类写东西时,句子长短不一,有时候一段话密集输出观点,有时候突然来一句短促的感叹,节奏起伏明显。AI 生成的文本在句式结构和长度上往往过于均匀,缺乏这种自然的随机波动。
在这两个基础指标之上,检测系统还会分析句子的句法结构、术语密度、转折词频率等特征,最后通过深度学习分类模型综合判定一个概率值。

有意思的是小红书上,可以搜到各种类似的降 AIGC 的方法,总结为两种:
1、一种是自己降,一段一段的给 AI 复制上面的提示词,豆包改完 DeepSeek 改,然后用自己的话再稍微改改。
2、一种是找小红书的专门降 AIGC 的降,费用大概是 30-50 一篇不等,而这些写手背后可能就是用前面提到的降 AIGC 系统降的。
而小红书上许多用 AI 降 AIGC 的提示词,底层就是针对上面提到的 AI 检测这一个特点进行「逆向工程」:


毕业季 AIGC 算法突袭
更搞笑的是,5 月 2 日,某知名论文检测平台悄咪咪完成了 AIGC 检测算法的重大升级。
于是许多大学生美美过完五一,结果回到学校就开始不笑了:
小红书上有许多学生反馈:同一篇论文在更新前检测 AI 率只有 4%,更新后飙升到 52%。还有人从 20% 多直接跳到 100%。有学生去知网做交叉验证,结果从 9% 变成了 60%。
小编拿《出师表》亲自花了两元大洋测试了下,果真如此。

当然,这个时间节点也很「何意味」:
5 月初正值毕业季论文定稿的关键时期,很多学生已经根据之前的检测结果完成了修改,准备提交终稿。一夜之间规则变了,没有任何提前通知。
于是,社交媒体上骂声一片:“五一趁大家放松警惕偷偷更新,连个公告都没有。早不更新晚不更新,偏偏卡在毕业季改规则,说白了不就是想趁机收割一波吗?”。
学生们的愤怒不难理解:当一个影响毕业的关键指标可以在没有预告的情况下剧烈波动,谁能不慌?
更讽刺的是,学生们很快总结出了应对「规律」:
越像「口水话」AI 率越低,逻辑严密、用词精准的学术表达反而容易被标红,而松散随意、带点语病的文字却能顺利通过。

这套检测机制,等于在鼓励学生主动把好好写的论文改烂。

数学上无解的问题
但问题真的只是「AIGC 检测工具还不够好」吗?
围绕 AI 检测的争论已经持续了两年多,一直停留在「工具不够精准,需要不断优化」的层面,而维普、知网每年也都会更新自己的检测算法。
但今年三月发表的一篇来自澳大利亚格里菲斯大学的论文,给出了一个更根本的结论:
问题不在于 AIGC 检测器不够好,而在于「检测文本的 AIGC 率」这个问题本身,它的「数学逻辑」不允许完美解决方案的存在。

论文作者的核心论证是这样的:
传统检测思路把问题简化为「人类文本 vs AI 文本」的二元判别。
但在真实的大学场景中,每位学生都有独特的写作风格和语言习惯,检测器面对的实际上是「某个未知的人类写作模式 vs AI」的判别。后者在数学上严格地更难。
具体来说,学生群体的写作多样性意味着,总有一部分学生的写作风格在统计特征上天然接近 AI 输出。非英语母语者使用简洁句式、有限词汇和模板化结构时,文本的统计特征与 AI 生成内容高度重叠。
论文指出检测困难的两个来源:
一个是 AI 模型越来越像人类,另一个是学生群体本身的多样性。即使 AI 模型不再进步,仅凭学生写作风格的天然差异,就足以让检测器陷入困境。
投入更多资源开发更好的检测算法,能应对第一种机制,但对第二种完全无效。

论文用数学推导给出了一个 AIGC 检测矛盾的逻辑:
如果一个检测器要达到 80% 的检测力(即能识别出 80% 的 AI 内容),那么在万人规模的院校中,至少会产生约 750 次误判。如果反过来,要求严格保护每位学生不被冤枉(误判率低于 1%),检测器的有效检测力上限只有 6%。也就是说,最多只能抓住 6% 的 AI 生成内容。
论文指出,这套 AIGC 的文章检测逻辑,天然遵循「类似」计算机里 CAP 定理的矛盾:
高检测力、低误判率、多样化的学生群体,三者不可兼得。
也就是说:这套系统要么抓得准但冤枉人,要么不冤枉人但形同虚设,不存在「又准又不冤枉人」的版本。

产业链:AI 写,AI 查,AI 改
但原理归原理,现实归现实。
现实里,一条荒诞但完全符合逻辑的 AI 产业链形成了:学生用 AI 写,平台用 AI 查,查完不过关,学生再用 AI 改,改到通过为止。
具体来说,学生用 AI 辅助写作,提交后被检测系统标记为高 AI 率,于是再用 AI 工具进行「降 AIGC」改写,改完再检测,不通过就再改,与此同时,检测系统本身也是 AI 驱动的。
而论文最终提交后,现在各种高校也引入了智审环节(AIGC 过了,看论文质量如何),也是同样的逻辑:AI 检测完,AI 再改。在这个整个链条里,真正的人类判断被逐渐挤出了核心位置。

于是,付费「降 AIGC 率」服务也应运而生:
小红书许多商家都号称可以将 88% 的 AI 率降到 10% 以下,「观猹」平台也涌现了一批「自动降 AIGC 的系统」。

这门生意不禁让人想到一个问题:
当系统可以被系统性地绕过时,它检测的是学术诚信,还是学生愿不愿意多花一笔钱?
而学术界多位专家的共识是:AIGC 检测结果不应作为唯一评价依据。
同济大学教授张韬略表示,AI 检测工具的技术成熟度存疑,若直接用于判定学术诚信可能存在误判风险。北京邮电大学教授鄂海红则认为,不同学科对 AIGC 率不应一刀切,应由学科专家或导师做最终定论。
而如果回到高校 AIGC 最根本的初衷,如果检测目标是防止学生完全不动脑子、把论文全权交给 AI 生成,这个目标合理,但实现这个目标的手段,不应该是一个误判率超过 30% 的概率检测工具。
解决思路或许要跳出「检测」这个框架本身,与其纠结一篇文章是不是 AI 写的,不如回到更本质的问题:
这篇论文的质量,是否达到了高校对学生的学术要求。
当然 AIGC 会不断技术进步:AI 模型会越来越像人类,学生也会越来越习惯使用 AI 作为工具。
在这个过程中,学术评价体系需要找到新的锚点,而这个锚点大概率不是一个:
连自己的检测标准都无法说清楚的 AIGC 检测系统。
毕竟,如果连高校副教授都过不了 AIGC 查重,但是小学生写的作文百分百能过,这套系统检测的到底是什么呢?


