美国版权局|来源
CBS|来源网络诉讼圈|整理
【导读】
2025年5月9日,美国版权局发布《版权与人工智能》报告的第三部分(Generative AI Training)的预出版版本。报告指出,生成式人工智能系统的发展依赖于海量数据,包括受版权保护的作品。这些技术的使用是否需要版权所有者的许可或补偿,成为了一个激烈讨论的问题。报告提到,目前美国有数十起相关诉讼正在进行,全球各地的立法者也在考虑制定相关法律,以消除障碍或施加限制。报告强调,公共利益要在技术创新和创意生态系统之间找到有效的平衡。这份报告深入探讨了在生成式人工智能迅猛发展的当下,版权法所面临的全新挑战与复杂问题,为科技与版权领域的从业者和关注者提供了极具价值的参考与启示。
报告的总体结论是,现有的版权法框架能够应对生成式人工智能带来的挑战,但需要在促进技术创新和保护创作者权益之间找到平衡。报告建议,目前应允许许可市场继续发展,同时考虑在必要时引入扩展集体许可等替代方案。报告强调,持续监测和适应是确保版权法有效应对技术发展的关键。
《版权与人工智能》报告分为三部分发布,分析人了工智能 (AI) 引发的版权法和政策问题。第一部分于 2024 年 7 月 31 日发布,探讨了数字复制品的问题。第二部分于 2025 年 1 月 29 日发布,探讨了使用生成式人工智能创作的作品的版权问题。2025 年 5 月 9 日,发布了第三部分的预出版版本,以回应国会质询和利益相关方的意向表达。第三部分的最终版本将在不久的将来发布,预计分析或结论不会有任何实质性变化。
值得一提的是,在美国版权局局长希拉·珀尔穆特和她的办公室发布了该份关于人工智能报告的第三部分,并对人工智能技术使用版权材料表达了一些担忧和质疑后,她被特朗普政府解雇了。
报告中写道:“然而,人工智能开发人员需要多少数据,以及更多数据对模型能力的边际效应如何,这仍是一个悬而未决的问题。并非所有人都认为,数据和测试性能的进一步提升必然会导致实用性在现实世界中的持续提升。”
众议院行政委员会资深成员、纽约州民主党众议员乔·莫雷尔在一份声明中表示,珀尔穆特的解雇是“毫无法律依据的、史无前例的夺权行为”。莫雷尔推测,“在她拒绝批准伊隆·马斯克挖掘大量版权作品来训练人工智能模型的努力后不到一天,他就采取行动,这肯定不是巧合”,她指的是版权局本周发布的报告。
上个月,马斯克在其社交媒体平台X上似乎表达了对废除知识产权法的支持。马斯克还拥有人工智能初创公司xAI,并于今年2月向OpenAI提交了收购ChatGPT运营公司OpenAI的报价,但未能成功。特朗普一直是人工智能的主要支持者。他上任后立即 宣布成立 一家由OpenAI、软银和甲骨文组成的合资企业,该合资企业将投资高达5000亿美元的私营部门资金,用于建设人工智能基础设施。
美国版权局是美国国会图书馆下属的一个部门,拥有约450名员工,主要职责包括登记版权声明、记录版权所有权信息以及执行版权法等。
一、数据收集与整理(Data Collection and Curation)
1、数据收集和整理过程中涉及复制受版权保护的作品,这有可能侵犯版权法中的复制权。开发者在下载、转换存储介质、转换格式以及创建修改版本时,都可能构成对作品的复制。
2、许多开发者从公开渠道获取数据,但“公开可用”并不等同于“授权”。例如,从未经授权的网站下载数据或通过绕过付费墙获取内容,可能构成侵权。
3、数据整理过程中,开发者可能会对数据进行过滤、清洗和编译,这些行为也可能涉及对作品的复制或改编。
二、训练(Training)
1、训练过程中,模型需要下载数据集并将其复制到高性能存储设备中。此外,在训练过程中,模型会临时复制作品或其部分,以便进行训练。
2、训练过程模型的权重可能会“记忆”训练数据中的内容。如果模型能够生成与训练数据高度相似的输出,这可能表明训练数据中的内容被保留在模型权重中,进一步复制这些权重也可能构成侵权。
三、检索增强生成(RAG)
1、RAG通过检索数据库中的相关内容来增强模型的输出。这可能涉及从内部数据库或外部来源(如搜索引擎)检索内容,并将其与用户提示一起提供给模型。
2、RAG过程中的检索和使用可能涉及对受版权保护作品的复制和分发,尤其是当检索到的内容被直接用于生成输出时。
四、输出(Outputs)
1、生成式人工智能模型有时会输出与受版权保护作品高度相似的内容,例如复制电影中的静止图像、版权角色或新闻报道的文本。这种输出可能构成对复制权和改编权的侵权。
2、当生成内容与原始作品在市场中形成替代关系时,可能对版权所有者的市场利益造成损害。
合理使用是美国版权法中的一项重要抗辩事由,允许在特定条件下使用受版权保护的作品。报告详细分析了合理使用的四个法定因素,并探讨了这些因素在生成式人工智能训练中的适用性。
一、使用的目的和性质(Purpose and Character of the Use)
1、转换性使用是指使用作品的方式是否增加了新的表达、意义或信息,而不仅仅是复制或替代原作品。例如,训练生成式人工智能模型以生成与训练数据不同的新内容,可能被视为转换性使用。
2、使用是否具有商业性质也是合理使用分析的一个重要因素。如果使用是为了商业目的,可能不利于合理使用抗辩。
3、如果开发者在训练过程中使用了未经授权获取的作品(如盗版或非法获取的内容),这可能对合理使用抗辩产生负面影响。
二、作品的性质(Nature of the Copyrighted Work)
1、使用更具有创造性和表现性的作品(如小说、音乐、艺术作品)通常比使用事实性或功能性作品(如计算机代码)更难构成合理使用。
2、使用未发表的作品通常对合理使用抗辩不利,因为版权所有者有权控制作品的首次发表。
三、使用的数量和重要性(Amount and Substantiality of the Portion Used)
1、使用作品的全部或大部分通常不利于合理使用抗辩。然而,如果这种使用是出于转换性目的且合理必要,则可能被接受。
2、使用大量作品可能会增加对原始作品市场的替代风险,从而不利于合理使用抗辩。
四、对作品潜在市场或价值的影响(Effect on the Market for or Value of the Copyrighted Work)
1、如果生成式人工智能模型的输出直接替代了受版权保护作品的市场,可能导致版权所有者失去销售机会。
2、即使模型的输出不直接替代特定作品,也可能稀释与训练数据中作品相似的市场,例如生成风格相似的内容。
3、如果版权所有者本可以通过许可获得收入,而未经授权的使用剥夺了这些机会,这也可能构成市场损害。
报告探讨了在生成式人工智能训练中使用受版权保护作品的许可问题,包括自愿许可和可能的法定许可方法。
一、自愿许可(Voluntary Licensing)
1、许多评论者指出,自愿许可在某些领域已经存在,但其可行性取决于作品的类型、许可市场的成熟度以及训练数据的需求。对于某些高价值、易于许可的内容(如流行音乐和股票照片),自愿许可可能较为可行。
2、评论者对版权所有者是否能通过许可获得有意义的补偿存在分歧。一些人认为,尽管单个作品的许可费用可能较低,但总体上仍可能累积为可观的收入。
3、集体许可组织(CMOs)可能面临反垄断法的限制。一些评论者建议,可能需要反垄断豁免或司法部的指导,以促进集体许可的发展。
二、法定许可(Statutory Approaches)
1、强制许可允许在没有版权所有者同意的情况下使用作品,但需要遵守法定和监管要求。报告指出,强制许可通常适用于市场无法有效运作的情况,但其实施需要复杂的行政机制,且可能难以调整以适应快速发展的技术。
2、ECL允许集体许可组织代表所有版权所有者进行许可,除非版权所有者选择退出。这种方法在某些欧洲国家已经采用,但报告指出,其适用范围应限于特定类型的作品和用途,以避免对版权所有者造成不公平的负担。
三、退出机制(Opting Out)
1、一些评论者建议,可以通过技术手段(如元数据、水印、技术标志等)允许版权所有者选择退出人工智能训练。然而,版权所有者担心这些机制可能难以实施,且可能无法有效保护他们的权利。
2、报告指出,要求版权所有者选择退出与美国版权法的基本原则不符,即使用受版权保护的作品需要获得版权所有者的明确同意。
**以上仅对报告部分内容的摘录编译,完整内容请查看报告全文。
《报告》完整版请见下方提供的下载链接第一部分:《数字复制品》(Digital Replicas)https://www.copyright.gov/ai/Copyright-and-Artificial-Intelligence-Part-1-Digital-Replicas-Report.pdf第二部分:《版权》(Copyrightability)
https://www.copyright.gov/ai/Copyright-and-Artificial-Intelligence-Part-2-Copyrightability-Report.pdf
第三部分:《生成式人工智能训练(预出版)》(Generative AI Training pre-publication version)
https://www.copyright.gov/ai/Copyright-and-Artificial-Intelligence-Part-3-Generative-AI-Training-Report-Pre-Publication-Version.pdf