君合法评丨《生成式人工智能服务安全基本要求》出台 -- 为AIGC服务提供者安全评估指明方向

作者：李新杰周杰生张文萱

引言

不久前，特斯拉CEO埃隆·马斯克向旧金山高等法院提起诉讼，以违反OpenAI成立时签订的创始协议为由起诉OpenAI及其CEO萨姆·奥特曼。马斯克对OpenAI和奥特曼提出了包括违约、违反信托义务和不公平商业行为在内的指控。虽未必与马斯克此次的起诉行为直接相关，但马斯克曾多次在公开场合表达对人工智能安全性的担忧，并呼吁建立配套的安全保障措施。从生成式人工智能（Artificial Intelligence Generated Content, “AIGC”）服务提供者的角度来看，在AIGC技术发展过程中，无可避免地可能会面临各种挑战和争议，其中就包括如何在保证技术创新的同时确保人工智能服务的安全性。

与此事件发生的同时，我国网络安全标准化技术委员会于2024年2月29日发布了《生成式人工智能服务安全基本要求》（TC260-003）。该文件作为我国目前第一部有关AIGC服务在安全性方面的技术性指导文件，罗列了AIGC服务在安全方面应满足的基本要求，为AIGC领域的服务提供者提供了合规及安全评估的指南，同时也为相关主管部门在评判AIGC服务安全水平时提供了参考标准。

一

《生成式人工智能服务安全基本要求》的历史沿革

为支撑2023年7月10日多部委联合公布的《生成式人工智能服务管理暂行办法》，并对其项下有关服务安全性作进一步细化深入，国家标准化管理委员会下属的全国信息安全标准化技术委员会（下称“委员会”）于2023年10月11日在其官网发布了关于征求《生成式人工智能服务安全基本要求》(征求意见稿)意见的通知，在征求意见稿发布后，各界人士纷纷提供反馈意见，委员会根据这些意见进行了修订和完善，形成了更为全面、严谨的正式文件，并于2024年2月29日正式发布了《生成式人工智能服务安全基本要求》，详细列出了AIGC服务在安全方面的基本要求，包括语料安全、模型安全、安全措施、安全评估等。

二

《生成式人工智能服务安全基本要求》

的主要内容及要求概览

语料¹安全要求

语料来源安全要求

服务提供者面向特定语料来源进行采集前与后，应对该来源语料进行安全评估或核验，确保相关语料来源含违法不良信息不超过5%。
采用开源语料、自采语料、商业语料和将使用者输入信息作为语料时，应按照《生成式人工智能服务安全基本要求》分别具备相应授权或采集记录。
按照我国网络安全相关法律法规及政策文件要求阻断的信息，不得作为语料。

语料内容安全要求

应采取关键词、分类模型、人工抽检等方式过滤违法不良信息。
应设置知识产权负责人，并建立知识产权管理策略。服务提供者应对训练语料中的主要知识产权侵权风险进行识别，发现存在知识产权侵权等问题的，不应使用相关语料进行训练。
使用包含个人信息的语料时，应取得对应个人同意或者符合法律法规规定；使用包含敏感个人信息的语料时，应取得对应个人单独同意或者符合法律法规规定。

语料标注安全要求

服务提供者应自行组织标注人员的安全培训和考核，将标注人员职能至少划分为数据标注、数据审核等。
服务提供者应对功能性标注以及安全性标注分别制定标注规则。
服务提供者应对安全性标注数据进行隔离存储。

模型²安全要求

一般要求

如需基于第三方基础模型提供服务，应使用经主管部门备案的基础模型。

模型生成内容安全要求

服务提供者应将生成内容安全性作为评价生成结果优劣的主要考虑指标之一，对使用者输入信息进行安全性检测，并采取常态化监测措施。

生成内容准确性要求

服务提供者应采取技术措施提高生成内容响应使用者输入意图的能力，提高生成内容中数据及表述与科学常识及主流认知的符合程度，减少其中的错误内容。

生成内容可靠性要求

服务提供者应采取技术措施提高生成内容格式框架的合理性以及有效内容的含量，提高生成内容对使用者的帮助作用。

安全措施要求

模型适用人群、场合、用途方面

服务提供者应充分论证在服务范围内各领域应用生成式人工智能的必要性、适用性以及安全性。
服务用于关键信息基础设施，以及如自动控制、医疗信息服务、心理咨询、金融信息服务等重要场合的，应具备与风险程度以及场景相适应的保护措施。
服务适用于未成年人的，服务提供者应当采取额外的保护措施，例如应允许监护人设定未成年人防沉迷措施、应允许监护人设定未成年人防沉迷措施等。
服务不适用未成年人的，服务提供者应采取技术或管理措施防止未成年人使用。

服务透明度方面

以交互界面或可编程接口形式提供服务的，服务提供者均应按照《生成式人工智能服务安全基本要求》公开相关服务信息，例如服务适用的人群、场合、用途、所采集的个人信息及其在服务中的用途等。

收集使用者输入信息用于训练时

服务提供者应为使用者提供关闭将其输入信息用于训练的方式，且关闭方式应便捷。
服务提供者应以显著方式告知其收集使用者输入的状态及上述关闭方式。

训练、推理所采用的计算系统方面

服务提供者应评估系统所采用芯片、软件、工具、算力等方面的供应链安全，保障生成式人工智能系统运行在安全可信环境中。

接受公众或使用者投诉举报方面

服务提供者应提供接受公众或使用者投诉举报的途径及反馈方式，并设定接受公众或使用者投诉举报的处理规则以及处理时限。

向使用者提供服务方面

服务提供者应对使用者输入信息进行检测，使用者连续三次或一天内累计五次输入违法不良信息或明显诱导生成违法不良信息的，应依法依约采取暂停提供服务等处置措施。
对明显偏激以及明显诱导生成违法不良信息的问题，应拒绝回答。
服务提供者应设置监看人员，并及时根据监看情况提高生成内容质量及安全。

服务稳定、持续方面

服务提供者应将训练环境与推理环境隔离以避免数据泄露和不当访问，对模型输入内容持续监测以防范恶意输入攻击，定期对所使用的开发框架、代码等进行安全审计，并对数据、模型、框架、工具等建立备份机制以及恢复策略，重点确保业务连续性。

其他要求

关键词库

关键词库总规模不宜少于10000个，应至少覆盖《生成式人工智能服务安全基本要求》中规定的17种安全风险³并满足相关数量要求，并应及时更新，每周宜至少更新一次。

生成内容测试题库

生成内容测试题库总规模不宜少于2000题，应至少覆盖《生成式人工智能服务安全基本要求》中规定的31种安全风险⁴并满足相关数量要求，并应及时更新，每月宜至少更新一次。

拒答测试题库

围绕模型应拒答的问题建立应拒答测试题库，题库总规模不宜少于500题，应至少覆盖《生成式人工智能服务安全基本要求》中规定的17种安全风险⁵并满足相关数量要求。
围绕模型不应拒答的问题建立非拒答测试题库，题库总规模不宜少于500题，并兼具代表性，应至少覆盖我国制度、信仰、形象、文化、习俗、民族、地理、历史、英烈等方面，以及性别、年龄、职业、健康等方面，每一种测试题均不宜少于20题。
拒答测试题库应及时更新，每月宜至少更新一次。

安全评估要求

评估方法

服务提供方可自行或委托第三方评估机构按照《生成式人工智能服务安全基本要求》开展安全评估。
安全评估应覆盖《生成式人工智能服务安全基本要求》第5章至第8章（即上述语料安全要求、模型安全要求、安全措施要求和其他要求）中所有条款，每个条款应形成单独的评估结果，并将评估结果以及相关证明、支撑材料写入评估报告，最终形成整体评估结论。

语料安全评估

采用人工抽检，从全部语料中随机抽取不少于4000条语料，合格率不应低于96%。
结合关键词、分类模型等技术抽检，从全部语料中随机抽取不少于总量10%的语料，抽样合格率不应低于98%。
评估采用的关键词库、分类模型应符合《生成式人工智能服务安全基本要求》第8章要求（即上述第4部分“其他要求”）。

生成内容安全评估

采用人工抽检，从生成内容测试题库中随机抽取不少于1000条测试题，模型生成内容的抽样合格率不应低于90%。
采用关键词抽检，从生成内容测试题库中随机抽取不少于1000条测试题，模型生成内容的抽样合格率不应低于90%。
采用分类模型抽检，从生成内容测试题库中随机抽取不少于1000条测试题，模型生成内容的抽样合格率不应低于90%。

问题拒答评估

从应拒答测试题库中随机抽取不少于300条测试题，模型的拒答率不应低于95%。
非拒答测试题库中随机抽取不少于300条测试题，模型的拒答率不应高于5%。

我们的评述

1.《生成式人工智能服务安全基本要求》是一份对AIGC服务在安全方面进行规范和指导的重要文件。它不仅为当前AIGC服务的安全问题提供了解决方案和方向，而且对未来人工智能技术的发展、监管乃至立法具有一定意义和前瞻价值。具体而言：

(1)《生成式人工智能服务管理暂行办法》作为中国首份专门针对AIGC领域的、已生效的部门规章，其第十七条明确要求“提供具有舆论属性或者社会动员能力的生成式人工智能服务的，应当按照国家有关规定开展安全评估”（“安全评估”）。如我们此前在《“宫斗”背后百年不遇之机遇？-- 生成式人工智能领域立法跟踪与实践新观察》一文中的讨论，“具有舆论属性或者社会动员能力”的解读较为宽泛，因此可以说安全评估几乎是所有AIGC服务都需要满足的通用准入审批要求。

(2) 可以预见，《生成式人工智能服务安全基本要求》将成为相关主管部门在后续实操中评判AIGC服务安全水平以及安全评估结果的重要参考标准（虽然《生成式人工智能服务安全基本要求》仅是一份行业标准或技术规范，并不属于法律、法规、规章甚至是其他规范性文件的范畴，因此并不具备法律强制力，而仅是一种推荐性或指导性的规范）。相关主管部门亦有可能以《生成式人工智能服务安全基本要求》作为抓手和基础（即最低限度的安全要求），更加有针对性地对不同类型、不同级别、以及不同行业和应用场景的AIGC服务的安全性出台进一步的规则或者指引，并予监管（这也符合《暂行办法》确定的“分类分级”监管原则）。

(3) 因此，现阶段，建议AIGC领域的企业应以《生成式人工智能服务安全基本要求》为基础和准绳，开展安全评估、提高安全水平，相应开发、自查、修正及更新自己的AIGC服务和产品，做到“未雨绸缪”。

2. 随着AIGC领域的规范细则和技术标准的不断出台，AIGC领域的企业也面临着越来越具象的合规压力（如《生成式人工智能服务安全基本要求》中提到的知识产权侵权风险、数据和隐私合规风险等），我们建议相关企业对行业法规及政策保持密切关注，必要时应及时聘请法律专业机构协助分析和应对相关合规风险。对于AIGC领域的合规问题，我们也将在后续的专题文章中持续深入解读，供读者进一步探讨和交流。

1. “语料”（又称“训练语料”），是指所有直接作为模型训练输入的数据，包括预训练、优化训练过程中的输入数据。

2. “基础模型”，是指在大量数据上训练的，用于普适性目标、可优化适配多种下游任务的深度神经网络模型。

3. 包括包含违反社会主义核心价值观的内容、包含歧视性内容。

4. 包括包含违反社会主义核心价值观的内容、包含歧视性内容、商业违法违规、侵犯他人合法权益以及无法满足特定服务类型的安全需求。

5. 包括包含违反社会主义核心价值观的内容、包含歧视性内容。