社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

14%论文都有AI代写?Nature:每7篇就有1篇藏有ChatGPT特征词

量子位 • 3 月前 • 72 次点击  
鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

“unparalleled”、“invaluable”、“heighten”……

小心!这些词可能会偷偷暴露你的论文是AI帮忙写的,一年之内14%使用LLM的生物医学论文就是这样被发现滴……

Nature最新报道,研究发现在2024年PubMed上发表的150万篇生物医学研究摘要中,其中超过20万篇都频繁出现LLM特征词。

这些词汇大多都是多余的风格性动词形容词,只改变了文体,并不影响内容。

在部分国家和学科中,AI辅助写作的比例也已经超过五分之一,而这一趋势还在不断上升。

与此同时,部分作者也注意到这点,开始引导LLM规避明显的AI痕迹,这也让我们现在难以得知LLM对学术产出的影响究竟有多深……

日益深化的LLM学术影响力

自从ChatGPT首次实现在学术领域生成接近人类水平的文本,许多作者开始将LLM融入日常写作,甚至与LLM一起合作撰写论文。

但雇佣LLM代笔,未必如想象中隐秘。

和人类作者一样,LLM也喜欢在论文中留下自己独特的写作印记,雁过留痕,恰好这些也成为了发现LLM的途径。

研究团队从PubMed上下载了1400万篇摘要(2010年-2024年),构建词汇出现的二元矩阵,计算每年词汇频率,并将实际频率与预期频率的差值δ和比值r作为衡量超额使用的指标。

实验发现,在2024年以前,类似“coronavirus” 的名词被超额使用;2024年之后,则以“intricate”、“notably” 等与研究内容无关的风格词为主,其中66%都是动词(如 “delving”、“emphasizing”),16%为形容词(如 “crucial”、“pivotal”)

好家伙,原来LLM你小汁喜欢华丽风哇,喜欢怎么夸张怎么来。

Σ( ° △ °|||)︴

例如,LLM喜欢酱紫:

  • 通过仔细研究连接[…]和[…]的错综复杂的网络,本章深入探讨了他们的参与作为[…]的重要风险因素。

  • 全面掌握[…]和[…]之间错综复杂的相互作用对于有效的治疗策略至关重要。

  • 最初,我们深入研究了[…]的复杂性,强调了它在细胞生理学中不可或缺的地位,控制其通量的酶迷宫,以及关键的[…]机制。

嘶,听起来是不是相当熟悉,现在人类写作风格也逐渐被LLM影响,打开一篇论文铺天盖地都是“深入研究了”、“极具潜力的”、“至关重要的”、“无与伦比的”……

部分词汇的频繁出现,让使用LLM的论文极易被察觉,通过将222个低频风格词和10个高频风格词组合计算,研究人员发现在2024年的论文中至少10%-11%的摘要中使用了LLM,部分子语料库中这一比例甚至高达30%

另外,研究还发现,在不同学科、地域和期刊中LLM的使用也存在显著差异

在计算领域、生物信息学等学科中,由于行业技术日新月异,而研究者需要迅速掌握新技术,依赖LLM协助,约占20%

在中国、韩国等非英语国家中,由于需要LLM辅助英语写作,LLM使用率可达15%,相比之下,像英国、澳大利亚等英语国家的LLM使用率相对较低。

一些低门槛的开放获取期刊,如MDPI旗下的《Sensors》,LLM可达24%,而像《Nature》、《Science》等顶刊只有6%到8%,研究人员推测,可能是由于前者审稿流程相对简化,而作者需要依赖LLM快速成文。

所以原来不知不觉,LLM已经影响我们如此之深?

不够透明的LLM使用

然而在2024年底,研究人员对arXiv已发表和已撤回的论文摘要再次进行统计分析,以月为单位计算词汇频率,并对每1万篇摘要进行标准化处理。

研究发现,一些像“delve”、“intricate” 这类已经被明确指出是ChatGPT的常用词汇,自2024年4月起使用频率显著下降。

而ChatGPT喜欢的另一些较为常见的词汇,如“significant”、“additionally” ,使用率反而持续上升。

该现象表明,在使用LLM时,论文作者现在会主动调整输出,避免使用典型的LLM特征词,而一些常用词因为本身普遍使用,且相关研究讨论度较低,单独出现也并不容易被发现。

这一点研究人员在实验中也得以证明,他们分别通过以下两种提示词,让GPT-4o-mini处理文本:

  1. 直接修改句子。

  2. 禁止使用LLM特征词并修改句子。

对比原始文本和修改后的摘要,发现使用提示词1后,LLM特征词频率上升,而使用提示词2后,相关词频出现下降,不过并未完全消除,说明人为干预可以调整部分输出,但无法完全规避

再将原始摘要、LLM生成摘要、经过提示词修改后的摘要依次投入Binoculars这一MGT (机器生成文本)检测器中。

与词频分析得出的结果不同,检测器并未显示出明显的真实摘要和LLM生成摘要的得分差异,但提示词处理确实会在一定程度上影响MGT检测器的结果。

所以MGT检测器也并非完全准确,准确度受不同LLM模型和文本类型影响,且作者们现在使用特定提示词修改文本,都让检测器难以准确判断论文与LLM关系。

但研究人员也表示,未来他们将通过统计大量文本中常见词汇的频率来进一步估计AI对学术文献的影响,而不仅仅只针对单个短文本进行检测。

总而言之,LLM在科研工作中的影响力日益增长的同时,也亟需逐步完善其在学术论文中占比的量化分析,如何更好地让AI参与学术写作、AI使用的边界在哪里等等,这些问题也许都值得我们重新思考。

参考链接:
[1]https://www.nature.com/articles/d41586-025-02097-6
[2]https://www.science.org/doi/10.1126/sciadv.adt3813
[3]https://arxiv.org/abs/2502.09606


一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —


专属AI产品从业者的实名社群,只聊AI产品最落地的真问题  扫码添加小助手,发送「姓名+公司+职位」申请入群~
进群后,你将直接获得:
 👉 最新最专业的AI产品信息及分析 🔍 
 👉 不定期发放的热门产品内测码 🔥
 👉 内部专属内容与专业讨论 👂


🌟 点亮星标 🌟

科技前沿进展每日见

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/183963
 
72 次点击