Py学习  »  aigc

全国大学生,苦 AIGC 检测久矣

特工宇宙 • 2 周前 • 139 次点击  

内容编辑丨特工小师 特工小天

内容审核丨特工少女

最近,央视连续两天报道了一件让许多大学生吐槽的事:

多位高校学生发现,自己花了大半年写的毕业论文,被 AIGC 检测系统判定为「高度疑似 AI 生成」。

新浪财经也报道一位中国人民大学副教授,耗时三年完成的研究成果,检测结果显示 82.54% 为 AI 生成。

更搞的是,有人把《滕王阁序》丢进检测系统,AI 率超过 50%。甚至,凭一篇《出师表》让无数后人读哭的诸葛亮这次也要哭了。他的名作也没能幸免,被贴上了 61.79% 的 AI「高风险」标签。

诸葛亮要是知道自己被 AI 怀疑用了「豆包」,大概会从五丈原气活过来(be like):

这些并非个例:当前许多高校已将 AIGC 检测作为毕业论文答辩的前置条件,检测率上限从 15% 到 40% 不等。一些学校要求低于 30% 才能通过。

当检测系统连古文都分不清楚的时候,让学生拿这个数字去自证清白,个中酸楚,怕只有这几届的大学生才知道。

机器是怎么「判断」你在用 AI 的

要理解为什么会出现这样的误判,得先看看 AI 检测到底在检测什么。

AI 检测的核心原理并不复杂,主要依赖两个指标。

第一个叫「AI 困惑度」。

这个指标衡量的是文本的「AI 可预测性」。

AI 生成内容的本质是语言模型逐词进行概率预测,所以整体用词高度符合统计预期,读起来流畅、规整,困惑度低。

而人类写作因为思维跳跃、个人风格差异大,用词往往没那么「标准」,所以 AI 困惑度相对较高。

简单来说,你写得越让 AI 觉得「这话我也会这么说」,系统就越觉得你不是人写的。

讽刺的是,连「不是……而是……」这类工整的转折句式、破折号引出的解释结构,都是 AI 最爱用的模式。

对于一个用词本身就像 AI 的 INTJ 小编来说,这等于被永久剥夺了使用「不是……而是……」句式和破折号的权利:

不是你的文字本身是 AI 写的,而是你天生的表达习惯,恰好撞上了 AI 的统计模型。

第二个叫「突发性」。

它衡量的是句子之间节奏变化的幅度。

人类写东西时,句子长短不一,有时候一段话密集输出观点,有时候突然来一句短促的感叹,节奏起伏明显。AI 生成的文本在句式结构和长度上往往过于均匀,缺乏这种自然的随机波动。

在这两个基础指标之上,检测系统还会分析句子的句法结构、术语密度、转折词频率等特征,最后通过深度学习分类模型综合判定一个概率值。

有意思的是小红书上,可以搜到各种类似的降 AIGC 的方法,总结为两种:

1、一种是自己降,一段一段的给 AI 复制上面的提示词,豆包改完 DeepSeek 改,然后用自己的话再稍微改改。

2、一种是找小红书的专门降 AIGC 的降,费用大概是 30-50 一篇不等,而这些写手背后可能就是用前面提到的降 AIGC 系统降的。

而小红书上许多用 AI 降 AIGC 的提示词,底层就是针对上面提到的 AI 检测这一个特点进行「逆向工程」:

毕业季 AIGC 算法突袭

更搞笑的是,5 月 2 日,某知名论文检测平台悄咪咪完成了 AIGC 检测算法的重大升级。

于是许多大学生美美过完五一,结果回到学校就开始不笑了:

小红书上有许多学生反馈:同一篇论文在更新前检测 AI 率只有 4%,更新后飙升到 52%。还有人从 20% 多直接跳到 100%。有学生去知网做交叉验证,结果从 9% 变成了 60%。

小编拿《出师表》亲自花了两元大洋测试了下,果真如此。

当然,这个时间节点也很「何意味」:

5 月初正值毕业季论文定稿的关键时期,很多学生已经根据之前的检测结果完成了修改,准备提交终稿。一夜之间规则变了,没有任何提前通知。

于是,社交媒体上骂声一片:“五一趁大家放松警惕偷偷更新,连个公告都没有。早不更新晚不更新,偏偏卡在毕业季改规则,说白了不就是想趁机收割一波吗?”。

学生们的愤怒不难理解:当一个影响毕业的关键指标可以在没有预告的情况下剧烈波动,谁能不慌?

更讽刺的是,学生们很快总结出了应对「规律」:

越像「口水话」AI 率越低,逻辑严密、用词精准的学术表达反而容易被标红,而松散随意、带点语病的文字却能顺利通过。

这套检测机制,等于在鼓励学生主动把好好写的论文改烂。

数学上无解的问题

但问题真的只是「AIGC 检测工具还不够好」吗?

围绕 AI 检测的争论已经持续了两年多,一直停留在「工具不够精准,需要不断优化」的层面,而维普、知网每年也都会更新自己的检测算法。

但今年三月发表的一篇来自澳大利亚格里菲斯大学的论文,给出了一个更根本的结论:

问题不在于 AIGC 检测器不够好,而在于「检测文本的 AIGC 率」这个问题本身,它的「数学逻辑」不允许完美解决方案的存在。

论文作者的核心论证是这样的:

传统检测思路把问题简化为「人类文本 vs AI 文本」的二元判别。

但在真实的大学场景中,每位学生都有独特的写作风格和语言习惯,检测器面对的实际上是「某个未知的人类写作模式 vs AI」的判别。后者在数学上严格地更难。

具体来说,学生群体的写作多样性意味着,总有一部分学生的写作风格在统计特征上天然接近 AI 输出。非英语母语者使用简洁句式、有限词汇和模板化结构时,文本的统计特征与 AI 生成内容高度重叠。

论文指出检测困难的两个来源:

一个是 AI 模型越来越像人类,另一个是学生群体本身的多样性。即使 AI 模型不再进步,仅凭学生写作风格的天然差异,就足以让检测器陷入困境。

投入更多资源开发更好的检测算法,能应对第一种机制,但对第二种完全无效。

论文用数学推导给出了一个 AIGC 检测矛盾的逻辑:

如果一个检测器要达到 80% 的检测力(即能识别出 80% 的 AI 内容),那么在万人规模的院校中,至少会产生约 750 次误判。如果反过来,要求严格保护每位学生不被冤枉(误判率低于 1%),检测器的有效检测力上限只有 6%。也就是说,最多只能抓住 6% 的 AI 生成内容。

论文指出,这套 AIGC 的文章检测逻辑,天然遵循「类似」计算机里 CAP 定理的矛盾:

高检测力、低误判率、多样化的学生群体,三者不可兼得。

也就是说:这套系统要么抓得准但冤枉人,要么不冤枉人但形同虚设,不存在「又准又不冤枉人」的版本。

产业链:AI 写,AI 查,AI 改

但原理归原理,现实归现实。

现实里,一条荒诞但完全符合逻辑的 AI 产业链形成了:学生用 AI 写,平台用 AI 查,查完不过关,学生再用 AI 改,改到通过为止。

具体来说,学生用 AI 辅助写作,提交后被检测系统标记为高 AI 率,于是再用 AI 工具进行「降 AIGC」改写,改完再检测,不通过就再改,与此同时,检测系统本身也是 AI 驱动的。

而论文最终提交后,现在各种高校也引入了智审环节(AIGC 过了,看论文质量如何),也是同样的逻辑:AI 检测完,AI 再改。在这个整个链条里,真正的人类判断被逐渐挤出了核心位置。

于是,付费「降 AIGC 率」服务也应运而生:

小红书许多商家都号称可以将 88% 的 AI 率降到 10% 以下,「观猹」平台也涌现了一批「自动降 AIGC 的系统」。

这门生意不禁让人想到一个问题:

当系统可以被系统性地绕过时,它检测的是学术诚信,还是学生愿不愿意多花一笔钱?

而学术界多位专家的共识是:AIGC 检测结果不应作为唯一评价依据。

同济大学教授张韬略表示,AI 检测工具的技术成熟度存疑,若直接用于判定学术诚信可能存在误判风险。北京邮电大学教授鄂海红则认为,不同学科对 AIGC 率不应一刀切,应由学科专家或导师做最终定论。

而如果回到高校 AIGC 最根本的初衷,如果检测目标是防止学生完全不动脑子、把论文全权交给 AI 生成,这个目标合理,但实现这个目标的手段,不应该是一个误判率超过 30% 的概率检测工具。

解决思路或许要跳出「检测」这个框架本身,与其纠结一篇文章是不是 AI 写的,不如回到更本质的问题:

这篇论文的质量,是否达到了高校对学生的学术要求。


当然 AIGC 会不断技术进步:AI 模型会越来越像人类,学生也会越来越习惯使用 AI 作为工具。

在这个过程中,学术评价体系需要找到新的锚点,而这个锚点大概率不是一个:

连自己的检测标准都无法说清楚的 AIGC 检测系统。

毕竟,如果连高校副教授都过不了 AIGC 查重,但是小学生写的作文百分百能过,这套系统检测的到底是什么呢?

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/196955