美国版权局发布第三份人工智能报告：现有版权法框架能够应对AIGC挑战

美国版权局｜来源

CBS｜来源

网络诉讼圈｜整理

【导读】

2025年5月9日，美国版权局发布《版权与人工智能》报告的第三部分（Generative AI Training）的预出版版本。报告指出，生成式人工智能系统的发展依赖于海量数据，包括受版权保护的作品。这些技术的使用是否需要版权所有者的许可或补偿，成为了一个激烈讨论的问题。报告提到，目前美国有数十起相关诉讼正在进行，全球各地的立法者也在考虑制定相关法律，以消除障碍或施加限制。报告强调，公共利益要在技术创新和创意生态系统之间找到有效的平衡。这份报告深入探讨了在生成式人工智能迅猛发展的当下，版权法所面临的全新挑战与复杂问题，为科技与版权领域的从业者和关注者提供了极具价值的参考与启示。

报告的总体结论是，现有的版权法框架能够应对生成式人工智能带来的挑战，但需要在促进技术创新和保护创作者权益之间找到平衡。报告建议，目前应允许许可市场继续发展，同时考虑在必要时引入扩展集体许可等替代方案。报告强调，持续监测和适应是确保版权法有效应对技术发展的关键。

《版权与人工智能》报告分为三部分发布，分析人了工智能 (AI) 引发的版权法和政策问题。第一部分于 2024 年 7 月 31 日发布，探讨了数字复制品的问题。第二部分于 2025 年 1 月 29 日发布，探讨了使用生成式人工智能创作的作品的版权问题。2025 年 5 月 9 日，发布了第三部分的预出版版本，以回应国会质询和利益相关方的意向表达。第三部分的最终版本将在不久的将来发布，预计分析或结论不会有任何实质性变化。

值得一提的是，在美国版权局局长希拉·珀尔穆特和她的办公室发布了该份关于人工智能报告的第三部分，并对人工智能技术使用版权材料表达了一些担忧和质疑后，她被特朗普政府解雇了。

报告中写道：“然而，人工智能开发人员需要多少数据，以及更多数据对模型能力的边际效应如何，这仍是一个悬而未决的问题。并非所有人都认为，数据和测试性能的进一步提升必然会导致实用性在现实世界中的持续提升。”

众议院行政委员会资深成员、纽约州民主党众议员乔·莫雷尔在一份声明中表示，珀尔穆特的解雇是“毫无法律依据的、史无前例的夺权行为”。莫雷尔推测，“在她拒绝批准伊隆·马斯克挖掘大量版权作品来训练人工智能模型的努力后不到一天，他就采取行动，这肯定不是巧合”，她指的是版权局本周发布的报告。

上个月，马斯克在其社交媒体平台X上似乎表达了对废除知识产权法的支持。马斯克还拥有人工智能初创公司xAI，并于今年2月向OpenAI提交了收购ChatGPT运营公司OpenAI的报价，但未能成功。特朗普一直是人工智能的主要支持者。他上任后立即宣布成立一家由OpenAI、软银和甲骨文组成的合资企业，该合资企业将投资高达5000亿美元的私营部门资金，用于建设人工智能基础设施。

初步侵权行为

一、数据收集与整理（Data Collection and Curation）

1、数据收集和整理过程中涉及复制受版权保护的作品，这有可能侵犯版权法中的复制权。开发者在下载、转换存储介质、转换格式以及创建修改版本时，都可能构成对作品的复制。

2、许多开发者从公开渠道获取数据，但“公开可用”并不等同于“授权”。例如，从未经授权的网站下载数据或通过绕过付费墙获取内容，可能构成侵权。

3、数据整理过程中，开发者可能会对数据进行过滤、清洗和编译，这些行为也可能涉及对作品的复制或改编。

二、训练（Training）

1、训练过程中，模型需要下载数据集并将其复制到高性能存储设备中。此外，在训练过程中，模型会临时复制作品或其部分，以便进行训练。

2、训练过程模型的权重可能会“记忆”训练数据中的内容。如果模型能够生成与训练数据高度相似的输出，这可能表明训练数据中的内容被保留在模型权重中，进一步复制这些权重也可能构成侵权。

三、检索增强生成（RAG）

1、RAG通过检索数据库中的相关内容来增强模型的输出。这可能涉及从内部数据库或外部来源（如搜索引擎）检索内容，并将其与用户提示一起提供给模型。

2、RAG过程中的检索和使用可能涉及对受版权保护作品的复制和分发，尤其是当检索到的内容被直接用于生成输出时。

四、输出（Outputs）

1、生成式人工智能模型有时会输出与受版权保护作品高度相似的内容，例如复制电影中的静止图像、版权角色或新闻报道的文本。这种输出可能构成对复制权和改编权的侵权。

合理使用

合理使用是美国版权法中的一项重要抗辩事由，允许在特定条件下使用受版权保护的作品。报告详细分析了合理使用的四个法定因素，并探讨了这些因素在生成式人工智能训练中的适用性。

一、使用的目的和性质（Purpose and Character of the Use）

1、转换性使用是指使用作品的方式是否增加了新的表达、意义或信息，而不仅仅是复制或替代原作品。例如，训练生成式人工智能模型以生成与训练数据不同的新内容，可能被视为转换性使用。

2、使用是否具有商业性质也是合理使用分析的一个重要因素。如果使用是为了商业目的，可能不利于合理使用抗辩。

3、如果开发者在训练过程中使用了未经授权获取的作品（如盗版或非法获取的内容），这可能对合理使用抗辩产生负面影响。

二、作品的性质（Nature of the Copyrighted Work）

1、使用更具有创造性和表现性的作品（如小说、音乐、艺术作品）通常比使用事实性或功能性作品（如计算机代码）更难构成合理使用。

三、使用的数量和重要性（Amount and Substantiality of the Portion Used）

1、使用作品的全部或大部分通常不利于合理使用抗辩。然而，如果这种使用是出于转换性目的且合理必要，则可能被接受。

2、使用大量作品可能会增加对原始作品市场的替代风险，从而不利于合理使用抗辩。

四、对作品潜在市场或价值的影响（Effect on the Market for or Value of the Copyrighted Work）

2、即使模型的输出不直接替代特定作品，也可能稀释与训练数据中作品相似的市场，例如生成风格相似的内容。

人工智能训练的许可

报告探讨了在生成式人工智能训练中使用受版权保护作品的许可问题，包括自愿许可和可能的法定许可方法。

一、自愿许可（Voluntary Licensing）

1、许多评论者指出，自愿许可在某些领域已经存在，但其可行性取决于作品的类型、许可市场的成熟度以及训练数据的需求。对于某些高价值、易于许可的内容（如流行音乐和股票照片），自愿许可可能较为可行。

3、集体许可组织（CMOs）可能面临反垄断法的限制。一些评论者建议，可能需要反垄断豁免或司法部的指导，以促进集体许可的发展。

二、法定许可（Statutory Approaches）

三、退出机制（Opting Out）

**以上仅对报告部分内容的摘录编译，完整内容请查看报告全文。

报告全文

《报告》完整版请见下方提供的下载链接

三个报告全文的下载链接：

第一部分：《数字复制品》（Digital Replicas）

https://www.copyright.gov/ai/Copyright-and-Artificial-Intelligence-Part-1-Digital-Replicas-Report.pdf

第二部分：《版权》（Copyrightability）

https://www.copyright.gov/ai/Copyright-and-Artificial-Intelligence-Part-2-Copyrightability-Report.pdf

第三部分：《生成式人工智能训练（预出版）》（Generative AI Training pre-publication version）

https://www.copyright.gov/ai/Copyright-and-Artificial-Intelligence-Part-3-Generative-AI-Training-Report-Pre-Publication-Version.pdf

🌹如需何谈系列回放及课件

请加入“何渊讲AI”会员