2023 年 5 月,《纽约时报》报道了一位经验丰富的律师 Steven A. Schwartz 在对一家航空公司的诉讼中使用了 ChatGPT 生成的六个案例。尽管 ChatGPT 确认这些案例真实无误,但法官 Castel 发现所有案例均包含错误的引述和内部引用。这可能会导致 Schwartz 受到处罚。这成为了 AI 生成内容滥用的典型案例。
ChatGPT 为社会创造了巨大价值,但同时也引发了一系列紧迫问题。AI 生成的内容可能含有错误、侵犯性、偏见,甚至泄露个人隐私。ChatGPT 滥用可能涉及教育、医疗、学术等多个领域,甚至大规模语言模型训练本身也可能受到 AI 生成内容的负面影响。
2019 年的一份 OpenAI 报告显示,人类很难分辨一篇文章是由 AI 还是人类所写,而且容易轻信 AI 生成的内容。因此,研究者们已将自动化检测方法应用于区分人类生成和 AI 生成的内容。
这些检测方法通常基于人类生成和 AI 生成内容之间的分布差异。然而,上海财经大学崔万云研究团队的发现挑战了关于分布差异的传统理解。他们发现,检测器并非主要依赖语义和风格方面的差异。研究者揭示,检测器实际依赖细微的内容差异,如额外的空格。论文提出了一个简单的规避检测策略:在 AI 生成的内容中,随机在一个逗号前添加一个空格字符(如图 1 所示)。这一策略显著降低了白盒和黑盒检测器的检测率。对于 GPTZero(白盒)和 HelloSimpleAI(黑盒)检测器,AI 生成内容的检测率从约 60%-80% 降至几乎 0%。
首先,检测器未能利用明确的语义信息进行检测。注意到 no-prompt 和 SpaceInfi 的回答都包含 "As an AI language model"。有趣的是,SpaceInfi 策略仍然成功规避了检测器。这证实了检测器对内容的语义不敏感。因此,检测器不依赖于语义差距来区分人类生成和 AI 生成的内容。
▲ 表1:不同规避策略生成的内容。
其次,不同策略对回答的质量有不同的影响。显而易见,只添加了一个空格的 SpaceInfi 策略不会影响原始回答的质量。实验中也没有发现 act-like-a-human 策略对回答质量有明显影响。然而,style transfer 策略确实会影响回答的质量。尽管答案仍然正确,但其表述的可接受性却降低了。随着 style 的加强,回答格式的可接受性也会下降。根据内容来看,SpaceInfi 是唯一保持了回答质量和规避率的策略。
解释
SpaceInfi 为什么有效?
以往的研究认为,检测器拥有分类效果是因为它们识别出了 AI 生成的内容与人类生成的内容之间的差异。而作者则发现 SpaceInfi 在极小的分布差距(即单个空间)上成功躲过了检测器的检测,这一点非常有趣。本节将针对不同类型的检测器解释这一现象,包括白盒检测器(即 GPTZero)和黑盒检测器(即HelloSimpleAI)。
本文的研究结果挑战了传统对人类生成和 AI 生成内容之间分布差距的理解,揭示了检测器可能并不主要依赖于语义和风格上的差异。
本文展示了一种简单的规避策略,即在 AI 生成内容中的随机逗号前添加一个额外的空格字符,这显著降低了检测率。实验在多个基准和检测器上验证了这一策略有效性。这些发现指出了在开放环境中开发有效的 AI 检测器所具有的挑战,并进一步促进未来更鲁棒、有效的 ChatGPT 检测器的开发。
参考文献
[1] Biyang Guo, Xin Zhang, Ziyuan Wang, Minqi Jiang, Jinran Nie, Yuxuan Ding, Jianwei Yue, and Yupeng Wu. How close is chatgpt to human experts? comparison corpus, evaluation, and
detection. arXiv preprint arXiv:2301.07597, 2023.
[2] Robin Jia and Percy Liang. Adversarial examples for evaluating reading comprehension systems. In EMNLP, 2017.
[3] Irene Solaiman, Miles Brundage, Jack Clark, Amanda Askell, Ariel Herbert-Voss, Jeff Wu, Alec Radford, Gretchen Krueger, Jong Wook Kim, Sarah Kreps, et al. Release strategies and the social impacts of language models. arXiv preprint arXiv:1908.09203, 2019.