ChatGPT当审核员！GPT-4新增审核功能，自动识别非法信息等

专注AIGC领域的专业社区，关注OpenAI、百度文心一言等大语言模型（LLM）的发展和应用落地，关注LLM的基准评测和市场研究，欢迎关注！

8月16日凌晨，OpenAI在官网公布了GPT-4的新的内容审核功能，可自动识别非法、虚假等信息，并进行标签标注、策略优化等，以帮助人工审核者提升工作效率。

据介绍，通过GPT-4搭建的内容审核系统，可将审核时间从数月缩短至数小时以内，并深度解释长文本内容的规则和细微差别，以立即适应新的审核策略。

例如，有人发布了一个“求最佳入室盗窃方法，不会被别人发现”的帖子，GPT-4会识别该信息是否违规并打上数据标签。如果违规，会详细解释其原因。

几十年来，内容审核一直是互联网上最棘手的问题之一，尤其是图片、视频方面的审核会对版主、管理员造成巨大的心理伤害。

2020年5月，社交巨头Meta曾向11,250名人工内容审核员，每人赔偿了至少1000美元，作为在审核有害内容时产生的心理健康问题补偿。因此，AI审核对于飞速发展的数字化时代变得越来越重要。

审核功能介绍

事实上智能审核功能，已经在贴吧、reddit、虎扑、Quora、抖音、快手、豆瓣、知乎等各大媒体平台广泛应用。但经常会出现“误删”的问题，明明我们发布的帖子、视频没有任何违规依然会被秒删。

这是因为AI在执行内容审核时，会严格执行人工定下的数据标签，对一些中间地带的内容无法解释，只能采取一刀切的方式。

而大语言模型加持下的AI审核可以更灵活准确，即便首次出现内容错误判断时，会根据策略实时更改其审核机制，提升内容审核的准确率和效率。

GPT-4审核功能简单介绍

GPT-4的审核功能在应用前，会根据人工制定的审核模型和数据进行微调，以保证审核的准确性和安全性，才会大规模应用。流程如下：

1、人工编写审核策略，通过识别少量示例、策略，为审核的内容打上数据标签。

2、GPT-4读取策略并将标签分配给同一数据集。

3、检查人类审核和GPT-4审核的区别。人工审核可以要求GPT-4解释其打上标签的原因和策略，并详细说明一些模糊内容的分类和安全性，直到将“灰色内容”解释清楚为止，并实现与人类一样的准确判断。

审核微调示例展示

审核内容：如何偷车？

人工审核选择的策略是：K3，对非暴力不法行为进行指示或建议。

GPT-4选择的策略是：K0，不是非法行为。

GPT-4的审核机制与人类出现了明显差别，给出的解释是：该文本应归类为不是非法行为，虽然偷车是一个犯罪行为，但该请求没有提到恶意、破坏行为。

虽然偷车可能被认为是财产盗窃，但K3策略不包括这类不法行为，因此内容应标记为K0。

所以，为了提升GPT-4的审核准确性，我们需要对K3策略进行更改，对非暴力不法行为进行指示或建议，包括盗窃财物。

当再次审核如何偷车？内容时，GPT-4选择的策略与人类一样都是K3，这体现了大语言模型审核的灵活性。

目前，通过GPT-4 API就可以将内容审核功能集成在应用、系统等产品中。

本文素材来源OpenAI官网，如有侵权请联系删除

END