社区
教程
Wiki
注册
登录
创作新主题
社区所有版块导航
Python
python开源
Django
Python
DjangoApp
pycharm
DATA
docker
Elasticsearch
分享
问与答
闲聊
招聘
翻译
创业
分享发现
分享创造
求职
区块链
支付之战
aigc
aigc
chatgpt
WEB开发
linux
MongoDB
Redis
DATABASE
NGINX
其他Web框架
web工具
zookeeper
tornado
NoSql
Bootstrap
js
peewee
Git
bottle
IE
MQ
Jquery
机器学习
机器学习算法
Python88.com
反馈
公告
社区推广
产品
短视频
印度
印度
一周十大热门主题
Windows11安装Git和最新版Ubuntu子系统-202510
Nature子刊丨上海科技大学沈定刚等开发了一种基于深度学习的多模态HER2状态评估模型
网页内容永久保存,25000+ GitHub Star!
GitHub又一个逆天项目!支持1100+种语言,还能克隆声音,能把任何电子书秒变高质量有声书!
比肩新质生产力?耐心资本2025年已发超140篇CSSCI!耐心资本+新质生产力+基于双重机器学习因...
#1000个生成式AI项目##AI类GitHub项目合集#AI类-20251020143150
年化591%,回撤仅7%的策略,支持订阅信号|基于AgentScope开发金融多智能体,附pytho...
高性能场景为什么推荐使用PostgreSQL,而非MySQL?
2025 年 10 月编程语言排行榜|C、C++、Java 第二名之争愈演愈烈,Python 继续称...
#ChatGPT干掉麦肯锡5000顾问##麦肯锡不是以前的麦肯锡-20251021151900
关注
Py学习
»
chatgpt
GPT-4「荣升」AI顶会同行评审专家?斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成
新智元
• 1 年前 • 263 次点击
新智元报道
编辑:Mindy
【新智元导读】
斯坦福的一篇案例研究表示,提交给AI会议的同行评审文本中,有6.5%到16.9%可能是由LLM大幅修改的,而这些趋势可能在个体级别上难以察觉。
LLM在飞速进步的同时,人类也越来越难以区分LLM生成的文本与人工编写的内容,甚至分辨能力与随机器不相上下。
这加大了未经证实的生成文本可以伪装成权威、基于证据的写作的风险。
尽管在个例上难以察觉,但由于LLM的输出趋于一致性,这种趋势可能会放大语料库级别的偏见。
基于这一点,一支来自斯坦福的团队提出一种方法,以此来对包含不确定量的AI生成文本的真实世界数据集进行可比较的评估,并在AI会议的同行评审文本中验证。
论文地址:
https://arxiv.org/abs/2403.07183
AI会议的同行评审可能是AI?
同行评审是一种学术论文发表前的质量评估机制。
这些同行评审者通常具有相关领域的专业知识,他们会对论文的原创性、方法学、数据分析、结果解释等进行评价,以确保论文的科学性和可信度。
斯坦福团队研究的AI会议包括ICLR 2024、NeurIPS 2023、CoRL 2023和EMNLP 2023,他们的研究发生在ChatGPT发布之后,实验观察估计LLM可能会显著修改或生成的大语料库中的文本比例。
结果显示,有6.5%到16.9%可能是由LLM大幅修改的,即超出了拼写检查或微小写作更新的范围。
在下图中,可以看到ICLR 2024同行评审中,某些形容词的频率发生了显著变化,例如「值得称赞的」、「细致的」和「复杂的」,它们在出现在句子中的概率分别增加了9.8倍、34.7倍和11.2倍。而这些词大概率是由人工智能生成的。
同时研究还发现,在报告较低自信度、接近截稿时间以及不太可能回应作者反驳的评论中,LLM生成文本的估计比例较高。
最大似然让LLM现形
因为LLM检测器的性能不稳定,所以比起尝试对语料库中的每个文档进行分类并计算总数,研究人员采用了最大似然的方法。
研究方法主要分成四个步骤:
1. 收集(人类)作者的写作指导——在这个情况下是同行评审指导。将这些指导作为提示输入到一个LLM中,生成相应的AI生成文档的语料库。
2. 使用人类和AI文档语料库,估算参考标记使用分布P和Q。
3. 在已知正确比例的AI生成文档的合成目标语料库上验证方法的性能。
4. 基于对P和Q的这些估计,使用最大似然法估算目标语料库中AI生成或修改文档的比例α。
上图对方法进行了流程可视化。
研究人员首先生成一个具有已知科学家或AI作者身份的文档语料库。利用这些历史数据,我们可以估算科学家撰写的文本和AI文本的分布P和Q,并验证我们方法在留存数据上的性能。最后,使用估算的P和Q来估算目标语料库中 AI 生成文本的比例。
在验证集中,该方法在LLM生成反馈比例方面表现出高精度,预测误差不到2.4%。同时,团队对鲁棒性也进行了验证。
另外,一位审稿人可能会分两个不同阶段起草他们的审稿意见:首先,在阅读论文时创建审稿的简要大纲,然后使用LLM扩展这个大纲以形成详细、全面的审稿意见。
在这种场景的验证中,算法仍旧表现出色,能够检测到LLM用于大幅扩展由人提供的审稿大纲的情况。
实验结果中还发现了什么
首先,团队将AI会议的同行评审和Nature Portfolio期刊的α进行了比较。
与AI会议相反,Nature Portfolio期刊在ChatGPT发布后没有显示出估计α值的显著增加,ChatGPT发布前后的α估计值仍在α = 0验证实验的误差范围内。
这种一致性表明,在与机器学习专业领域相比,广泛的科学学科对AI工具的反应有明显的不同。
除了发现同行评审文本中,有6.5%到16.9%来自于LLM的手笔之外,该研究还
发现了一些有意思的用户行为,在四个AI会议里保持一致:
1. 截至日期效应:在审稿截止日期前3天内提交的评审往往更倾向于用GPT
2. 参考文献效应:包含「et al.」一词的评审,即有学术引用的评审,更不会用GPT
3. 回复率降低效应:审稿讨论期间,审稿人回复数量越多,评审更不会用GPT
4. 同质化效应:与同论文其他审稿意见越相似的评审,越可能用GPT
5. 低置信度效应:自评置信度在5分制度中为2分或以下的评审与较高置信度(3分或以上)的评审相比,更可能用了GPT
尽管这项研究存在一定的局限性,比如只涉及了四个会议、仅使用了GPT-4来生成AI文本,并且可能存在其他误差来源,比如由于主题和审稿人的变化而导致的模型时间分布的偏差。
但是,研究的结论启示了LLM可能对科学界产生的潜在影响,这有助于激发进一步的社会分析和思考。希望
这些研究结果能够促进对于LLM在未来信息生态系统中应该如何使用以及可能带来的影响的深入探讨,从而推动出台更加明智的政策决策。
参考资料:
https://arxiv.org/abs/2403.07183
Python社区是高质量的Python/Django开发社区
本文地址:
http://www.python88.com/topic/168254
登录后回复