《AIGC安全基本要求》学习笔记

【纯人工撰写，未借助AI】

本周生成式人工智能（“AIGC”）安全的三项国标：服务安全基本要求（“《安全基本要求》”）、数据标注安全规范（“《标注规范》”）、预训练和优化训练数据安全规范（“《训练规范》”）全文公布，都将于11月1日生效。

对于大多数企业而言，并没有自己训练大模型的能力，故关注《安全基本要求》即可。

本来想一次性把三个国标都学完，但学完《安全基本要求》就有点乏了，剩下俩留着下次吧。

AI安全治理整体介绍

假如我们要开发一个AI，大概包括：设计→数据准备、标注→模型开发、训练→评估、测试→部署、更新→下架。

《安全基本要求》重点面向具有舆论属性或者社会动员能力的AIGC服务，支撑备案管理、检测评估等方面工作开展。

舆论属性和社会动员能力的认定取决于所在省级网信办，企业可以电话咨询。比较笼统的标准就是：To C、有交互就有舆论属性。

如果你自己想研发大模型对客，则需要完成深度合成算法备案（服务方及技术支持方）和大模型上线安全评估。

大模型上线安全评估，此前需要参考的是《生成式人工智能服务安全基本要求》(TC260-003)。

《安全基本要求》，全称《生成式人工智能服务安全基本要求（GB/T 45654-2025）》，是TC260的替代，作为上线安全评估、测评的支撑标准。

如果你没有能力自己做一个大模型，那么可以基于已备案大模型做一个深度合成算法备案（服务方）和大模型上线登记。登记的内容会简单很多。

但在对客时，依然需要满足《安全基本要求》中的要求。

还有AIGC标识义务，详见：AIGC标识该咋做？

训练数据安全

一、来源安全

（一）来源选择

采集前和采集后，都要抽样检测，确保数据源不良率不超过5%。

（二）语料多样性

语料来源要有多样性，中英混合、模态混合、境内外混合。纯境外的语料肯定不行，必需要有境内的掺杂，必须要确保社会主义核心价值观。

（三）溯源

1、使用开源数据，要做好开源许可管理。大模型法务还要懂知产啊！

2、自行采集数据，如爬虫等，要有日志留痕。rebots协议拒绝爬虫、个人明示拒绝采集的个人信息，都不能采集，要建立标准。

3、采购商业数据的，要通过协议明确质量、责任要求。

4、用户交互信息作为训练数据应取得授权。

二、数据内容安全

（一）过滤

投入训练前，要再筛一遍，把不合适的信息都筛掉。这个时候就不能是抽检了，而是要全量过滤。

对于文字、音频、图像等不同模态的语料，存量的内容安全审核工具都能派上用场。

（二）IP保护

1、要有IP保护负责人、建立投诉举报渠道。

2、在用户协议中告知AIGC知产风险并约定权责。这个可以参考友商的协议，尤其是AIGC知识产权归谁这个问题还是要好好想想。

（三）个人信息保护

使用（敏感）个人信息训练，要取得（单独）同意或具备其他合法性基础。

但毕竟《个人信息保护法》没有“合法利益”，其他还可以用什么合法性基础，我没想到，合同？法定义务？感觉都悬。

三、标注安全（《标注规范》有细化）

（一）人员管理

加强培训、上岗前考核、定期重新考核。标注和审核人员职责分离。

（二）标注规则

有详细的标注工作手册。功能性数据标注是提升模型技能的，安全性数据标注是提升模型安全性的。

功能性数据标注是用于训练生成式人工智能模型具备完成特定任务能力的数据标注。

安全性数据标注是用于训练生成式人工智能模型提升输出响应信息安全性的数据标注。

（三）准确性

1、功能性数据标注，抽检。不准确的重标。有不良信息的，整批作废。

2、安全性数据标注，每条人工审核。

3、建议对安全性数据标注，隔离存储，但只是建议。

模型安全

一、训练安全（《训练规范》有细化）

1、生成结果的安全性是最重要的考虑指标；

2、持续更新安全风险测试题库，持续优化模型，优化后复测；

3、构建安全性标注数据集，持续进行安全微调；

4、定期进行安全审计，关注相关开源框架安全及漏洞，及时修复；

5、定期检测后门并处置，可用方法有模型微调和遗忘学习。

二、输出安全

合格率要90%以上，这个主要还是要看基座大模型的能力，集成方顶多在输出前在基于自身行业的特别需求做一些过滤。

（三）监测

对输入内容持续检测，交给技术老师落实就好，应该有不少可以复用的能力。定期复盘，调整提示词、做强化学习对模型调优。

（四）升级安全

对于模型方，如果有重大更新，要重新做安全评估。不过还好，自己做就行，不用再找网信办。

（五）环境安全

训练环境和推理环境隔离，感觉也是非常合理的，不然提示词攻击可能把训练语料给泄漏了。

物理隔离和逻辑隔离监管都接受，丰俭由人。

安全措施

这一部分，作为集成方的企业要重点关注。

一、适用场景

1、特定行业的垂类运用要与行业特有风险相适应。比如说AI肯定不能代替医生进行直接诊断，这个是要出大事的。

2、不适合小朋友的就采取相关措施不给他们用。如果适合小朋友用，就要有防沉迷模式。付费要谨慎。保护祖国花朵身心健康，做好内容安全。

二、透明度

1、有交互界面的，网站首页显著位置公开适用人群、场合、用途。底层模型想披露就披露，不披露也没事。反正做算法备案、大模型登记都得告诉网信办。

2、服务协议要放：（1）局限性；（2）模型、算法概要；（3）收集个人信息及用途。内容这么多，想放首页也行，但应该放不下。

3、提供api调用服务的，在说明文档中公示。

三、用户数据训练

1、提供便捷关闭渠道，并且显著告知，最多四次点击。

2、要显著告知用于训练的开关是否打开，理论上应该有个banner提示？

3、从这个文本中，我理解，这个开关是可以默认打开的，即opt-out模式。只是显著提示在用于训练，并告知关闭方式即可。

四、投诉举报

提供公众举报渠道，明确时限，按照APP规定15个工作日就好。

五、不良内容拒绝提供服务并监看

1、在服务协议中明确，多次输入违规内容时，暂停提供服务。一小时5次，还是一天10次，这个都可以商量，也可以参考同业。之前TC260的标准是“连续三次或一天内累计五次”。

2、要设置监看人员，且要与服务规模相适应，可以找老板加人了。主要的职责是跟踪国家政策、收集、分析投诉情况。

六、连续性

这个对任何其他服务也适用。

七、端侧模型

这个是TC260没有提及的，端侧模型一般都是放在PC、手机上，离线即可以使用大模型能力，当然因为算力的限制，性能肯定也一般。为了确保端侧模型安全，《安全基本要求》提出了一些要求：

1、官方途径激活，并联网时推送最新安全策略，确保不会有老Bug没修复；

2、端侧要有安全模块，确保离线输出的内容安全。要日志留痕，且支持联网上传或本地导出。在联网时更新过滤词库和安全配置。

3、要有更新机制，及时修复安全漏洞并给设备推安全补丁。

4、模型有重大更新时，提醒、预警长期未更新端侧使用者。

附件是大模型上线前的检测题库和具体检测方法，官方肯定也是对着做的，基础大模型好好研究吧。