涂藤|机器学习的著作权侵权判定：超越非表达性使用理论

实务研究

作者：涂藤

中山大学法学院博士研究生

来源：《政治与法律》2024年第10期

转载对注释与参考文献进行了省略

摘要：针对人工智能机器学习的著作权侵权判定难题，近期引人注目的非表达性使用理论根据“表达性机器学习”和“非表达性机器学习”的类型化方法划分侵权责任，并提倡禁止人工智能模仿特定作者的个人创作风格。然而，复制权的目的解释、历史解释和判例分析表明，非表达性使用理论未能走出长久以来“实施复制即侵权”的理论误区，面临逻辑、法理和现实层面的三重困境。对此，应当对非表达性使用理论进行扬弃，重构机器学习的著作权侵权判定标准，以公众接触原作品表达的高度盖然性取代“实施复制即侵权”的形式主义理念。

关键词：机器学习；人工智能；侵权判定；非表达性使用；高度盖然性

目次

一、著作权侵权构成中的“法定利用行为”要件

（一）法定利用行为要件的基本意蕴

（二）机器学习所涉及的法定利用行为

二、复制权侵权构成的解释论展开

（一）目的解释：作为传播准备行为的复制

（二）历史解释：复制权中心主义的式微

（三）判例分析：中间环节复制的个案定性

三、机器学习的侵权判定标准重构

（一）从非表达性使用到高度盖然性

（二）高度盖然性标准的实践应用

四、结语

　著作权法中的“非表达性使用”（non-expressive use），是指并未向公众传播作者的独创性表达的作品使用行为。美国学者马修•赛格（Matthew Sag）最早提出非表达性使用理论，用以描述美国司法实践将中间环节机械复制认定为合理使用的趋势，以及原本用于认定作品可版权性的“思想/表达二分法”在侵权判定场合的适用潜力。例如，在涉及反向工程的Sega Enterprises Ltd.v. Accolade, Inc.案中，美国第九巡回上诉法院认为，被告虽然复制了原告享有版权的游戏软件，但复制的目的仅仅是为了探查原告推出的家用游戏机平台的兼容性要求（不受保护的功能性要素），以使被告自己设计的游戏软件能在该游戏机平台上运行，且反向工程是达到该目的的唯一手段，被告的复制行为由此构成合理使用。类似地，在涉及文本与数据挖掘的Authors Guild v. Google, Inc.案（以下简称Authors Guild案）中，美国第二巡回上诉法院认为，谷歌公司推出的“数字图书馆计划”虽然全文复制存储了原告享有版权的图书，但仍然具备高度转换性，因为谷歌公司并未向公众提供图书的核心表达内容，损害原作品的市场利益，而是向公众提供图书的出版日期、出版社、作者、页数，以及某一关键词在书中出现的片段等信息，以帮助用户筛选符合需求的图书。总之，作为一种类型化的侵权判定框架，非表达性使用理论为数字环境下频繁发生的中间环节机械复制的合法性认定提供了有益的启示。

　　在近期关于人工智能机器学习著作权侵权判定的研究中，非表达性使用理论受到了广泛的关注、援引和深化。为了从原始数据中提取出有意义的模式、趋势和特征，人工智能模型必须基于数据集进行训练，而创建一个包含数百万个样本的训练数据集必须先复制更多的图像、视频、音频或文本，这使人工智能服务提供者承担了显而易见的著作权侵权风险。根据国家互联网信息办公室等部门2023年7月10日公布的《生成式人工智能服务管理暂行办法》第7条第1款第2项，服务提供者开展训练数据处理活动不得侵害他人知识产权。与此同时，该款第4项要求服务提供者增强训练数据的多样性。此种矛盾是著作权法中利益平衡主题在人工智能时代的显现。为了消解机器学习的著作权侵权风险，使服务提供者不至于因著作权法“先授权后使用”的预设而必须在事前付出过高交易成本，保障公众利用人工智能提升创作效率和生活便利的自由，非表达性使用理论在机器学习与反向工程、数字图书馆等涉及中间环节海量复制的作品使用场景之间寻找相似性，并基于机器学习的不同目的，将其中的使用行为分为“非表达性使用”和“表达性使用”，分别设计免责路径。在此种类型化分析下，“非表达性使用”是指人工智能使用原作品中功能性元素的情形。例如，即使输入海量受著作权保护的人脸照片来训练一个人脸识别模型，由于使用的只是人脸的物理特征，且人工智能输出的并非表达性内容，前期的机器学习不应落入复制权的保护范围。在此类机器学习中，“作品并未被作为作品使用”（the work is not used as a work），仅是推导其他相关信息的工具或数据，没有人使用作品的表达性内容，也没有公众能够享受作品。同时，“表达性使用”指涉生成式人工智能（Generative AI）的基本运行模式，即以获取、存储和分析海量现存作品为中间环节，最终生成新的独创性表达。对此，非表达性使用理论主张，在立法论上应该为“表达性使用”创设专门的合理使用情形，但模仿特定作者个人创作风格的机器学习使作者的潜在市场利益受到不合理损害，应承担侵权责任。

　　然而，笔者认为，非表达性使用理论背后的预设及其主张的类型化侵权判定方法均值得商榷。笔者于本文中首先从著作权侵权构成中的“法定利用行为”要件切入，并以复制权作为机器学习著作权侵权判定的核心问题；其次对复制权展开目的解释、历史解释和案例分析，质疑非表达性使用理论所预设的“实施复制即侵权”理念；再次通过对非表达性使用理论的扬弃，重构机器学习的著作权侵权判定标准，提出公众接触原作品表达的高度盖然性标准，并阐释其正当性与实践应用；最后总结全文。

一、著作权侵权构成中的“法定利用行为”要件

　以ChatGPT、Midjourney等为代表的生成式人工智能革新了作品的创作过程，并为反思著作权法的诸多理论预设提供了一个切入点。总体而言，生成式人工智能引发了生成内容可版权性问题、内容输入（机器学习）阶段侵权问题、内容输出（生成）阶段侵权问题。不过，这三个问题类型并非互不相关，笔者于本文中将尝试在人工智能内容输入与输出阶段的行为之间建立关联性，以后者作为判定前者是否构成侵权的标准。对此，理论重构的起点不是机器学习是否构成合理使用，而是机器学习可能侵犯著作权法中的哪些排他性权利、排他性权利与合理使用的关系、排他性权利之间的适用关系等问题，这些问题均指向了著作权侵权构成中的“法定利用行为”要件。

（一）法定利用行为要件的基本意蕴

　　众所周知，著作权侵权的构成必须符合“接触+实质性相似+法定利用行为”的要件。其中，“接触+实质性相似”来源于美国的司法实践，而法定利用行为根植于知识产权法定主义的理念。知识产权法定主义认为，“知识产权的种类、权利的内容以及诸如获得权利的要件、保护期限等关键内容必须由法律统一确定，除立法者在法律中特别授权外，任何人不得在法律之外创设知识产权”。在著作权法领域，权利内容的法定性尤为重要。著作权法对作品的列举仅具有例示性，这是各国理论与实践的共识，但由于作品是一种模糊、不确定、没有物理边界的无形财产，具备法律效果的作品利用方式必须由法律进行明确规定，否则第三人无法知晓哪些作品利用行为是非法的，若著作权人能够禁止立法中并未明示列举的行为，公众的行动自由和获取信息的自由无疑将受到难以预测的打击。因此，法定利用行为的类型和范围将对著作权侵权行为的构成产生决定性影响。

　　在著作权侵权判定中，法定利用行为与合理使用承担了不同的职能。被告唯有实施了《中华人民共和著作权法》（以下简称《著作权法》）明文列举的复制、发行、出租、展览、表演、放映、广播、信息网络传播等法定利用行为，才有必要援引合理使用抗辩。因而，法定利用行为要件质疑了诉诸合理使用制度的必要性。未经反思地通过合理使用制度来消除机器学习的著作权侵权风险，不仅可能产生司法结果不确定性、行为的法律评价降低、合理使用制度的异化等弊端，而且将严重受制于现实因素。《著作权法》的修改周期较长，自1990年该法通过以来仅进行过三次大的修改，且2020年的修改没有引入任何针对机器学习的合理使用情形，短期内通过修改法律为机器学习提供合法性支持难度极大，且将严重滞后于急速发展的人工智能产业现状。对此，在出现了立法者未曾预见的作品使用方式时，司法人员应通过各种解释论手法积极介入与著作权有关的利益分配过程，确保公众利用人工智能工具提升生产效率的自由和人工智能产业的正常发展。具体的解释论上，《著作权法》现有的合理使用情形难以涵盖绝大部分机器学习，但法定利用行为所提供的解释空间远未穷尽。由此，如果特定机器学习不构成某一法定利用行为，便无需创设某种新的合理使用情形，或是迂回地解释个人使用、适当引用、科学研究等条款，为人工智能服务提供者设计免责方案。

（二）机器学习所涉及的法定利用行为

　　根据目前的司法实践、学说和人工智能的技术原理，机器学习可能涉及的法定利用行为是信息网络传播、改编和复制。

　　1.信息网络传播行为

　　如果人工智能响应用户的提示词，生成与他人享有著作权的作品构成实质性相似的表达，使用户可以在其选定的时间或地点获得，此时人工智能服务提供者是否实施了信息网络传播行为，存在争议。否定的观点认为，由于人工智能服务提供者并未将作品置于信息网络中，人工智能模型中亦没有作品的数字复制件，缺乏“提供要件”，不构成信息网络传播行为。肯定的观点认为，由于上传服务器的行为被生成式人工智能等新技术所取代，并无必要再将上传作为信息网络传播行为的构成要件，司法解释使用的亦是含“等”字的开放性表述。但重要的是，无论以何种标准认定信息网络传播行为，直接侵犯信息网络传播权的机器学习都很可能只是少数情况。理论界和实务界之所以多围绕复制权和改编权来讨论机器学习的著作权侵权问题，是因为生成式人工智能极少输出与他人作品构成实质性相似的表达。“传统人工智能的目标是对现存数据进行识别或分类，而生成式人工智能可以基于给定的输入参数或环境，输出全新的、多样化的内容。”诚然，生成式人工智能偶尔会“记忆”（memorization）原作品并输出与其构成实质性相似的表达，尤其是在用同一作品的多份复制件训练模型、文生图模型中图像与唯一的文本描述相关联、模型规模与训练数据之比相对较大的场合。但是，“记忆”问题本就是生成式人工智能的程序错误而非其技术特征，服务提供者亦会通过“数据去重”（deduplication）等技术手段尽量避免“记忆”的发生。实践中，人工智能的技术特征和调试措施将使著作权人难以通过简单的提示词令其生成与原作品构成实质性相似的内容，无法诉诸信息网络传播权，便不得不诉诸改编权或复制权。

　　2.改编行为

　　在人工智能生成内容与原作品缺乏实质性相似时，改编行为同样难以成立。在Andersen v. Stability AI Ltd.案中，原告虽然在起诉状中承认Stable Diffusion模型根据提示词输出的图片不太可能与训练数据中的特定图片相匹配，即无法证明输出内容与输入内容构成实质性相似，但同时主张人工智能生成的图片全部侵犯了改编权。理由在于，人工智能模型输出的每张图片都必须基于隐藏在模型中的图片来生成，而这些隐藏的图片复制自原告享有版权的图片，所以人工智能输出的图片必然构成改编作品。在Tremblay v. Open AI Inc.案中，原告也提出了相同的论证。然而，改编作品基于对原作品的改变、转换或改写而形成，必须在一定程度上再现原作品中的独创性表达，若涉案作品与原作品不构成实质性相似，当然不存在改编行为。因此，以上两案原告关于改编权的主张均因缺乏实质性相似而未能得到美国联邦地区法院的支持。

　　3.复制行为

　　复制是与机器学习关系最密切的法定利用行为。《著作权法》第10条第1款第5项规定：“复制权，即以印刷、复印……等方式将作品制作一份或者多份的权利。”《日本著作权法》第2条第1款第15项规定，复制是指“通过印刷、摄影、复写、录音、录像或其他方法进行有形的再生产”。《美国版权法》第106（1）条规定：“版权人享有将受版权保护的作品以复制件或录音形式复制的专有权利。”可见，各国法往往规定复制是对原作品的再现，复制行为中已然包含了复制件与原作品构成实质性相似的前提。据此，在司法实践中，法院倾向于采用“实施复制即侵权”的立场，用复制行为的证明责任架空实质性相似的证明责任。例如，在Walker v. University Books公司案中，美国第九巡回上诉法院认为，虽然一个被控侵权的复制件本身可能只是某个最终产品的初期阶段，但这一事实无法排除侵权的可能性，问题不在于复制行为是否仅发生于中间环节，而在于被告是否未经许可地使用了作品。在Sega Enterprises Ltd.v. Accolade Inc.案中，该法院重申，Walker v. University Books Inc.案的判决是基于法律对复制权的明文规定所作出的，并不区分未经许可的复制件体现了被控侵权作品的哪一个阶段，《美国版权法》第106条赋予作者“将受版权保护的作品以复制件形式复制的专有权利”，明确涵盖并禁止了中间环节的复制。

　　近期涉及机器学习的域外司法实践延续了“实施复制即侵权”的理念。在Tremblay v. Open AI公司案中，美国联邦地区法院认为，由于原告未能证明被告实施了复制其作品的行为，原告必须证明人工智能输出内容与其作品构成实质性相似。换言之，若能证明被告实施了复制行为，则实质性相似不再是侵权构成要件。实践中，原告已有多种方式证明被告存在复制行为，从而使人工智能服务提供者在输出内容与原作品不构成实质性相似的情况仍要承担侵权风险。例如，在Getty Image（s US）, Inc.v. Stability AI, Inc.案中，原告主张Stable Diffusion模型输出的内容中频繁出现与原告类似的水印。在Saruh Andersen et al.v. Stability AI Ltd.etal.案中，原告发现使用艺术家的名字作为提示词时，人工智能会生成与原作品相似的图像，且原告通过“haveibeentrained.com”等网页搜索工具，发现被告训练模型所依托的数据集LAION中含有原告个人网站上的图像。这些证据虽无法证明人工智能输出内容与原作品构成实质性相似，但可以间接证明被告实施了复制行为。

　　非表达性使用理论虽然认为人脸识别等使用功能性元素的“非表达性机器学习”不构成复制，但在泛用性更强的“表达性机器学习”即生成式人工智能机器学习的侵权判定场合，仍采用了“实施复制即侵权”的立场：在一般论层面，只要人工智能输出实质性相似内容的可能性并非为零，原告就只需证明被告实施了复制行为，机器学习即侵犯复制权，被告唯有诉诸不确定的合理使用抗辩。即使复制权仍以实质性相似作为侵权构成要件，也不会改变侵权判定结果。由于至少有一些人工智能模型会记忆并输出原作品，当模型有可能输出实质性相似内容时，该模型本身就是一个与原作品构成实质性相似的复制件。总之，复制权规制以一切形式再现作品的行为，且在再现完成的时刻即构成侵权，而复制是否可能使公众接触并享受到作品中的独创性表达，复制是否可能损害著作权人的利益，均在所不问。但笔者认为，“实施复制即侵权”的预设与复制权的规范目的和历史演进并不相符，且忽略了司法个案中的特殊事实。下面笔者将通过目的解释、历史解释和判例分析方法，论证复制权调整的不是一切形式的复制行为，而仅是传播准备阶段的复制行为。

二、复制权侵权构成的解释论展开

（一）目的解释：作为传播准备行为的复制

　　复制权的规范目的根植于著作权法的整体立法目的。在当下的知识产权正当性解释中，立足于功利主义哲学的激励理论占据了主导地位，“知识产权的本质是发明和创作的激励”。据此，著作权法的立法目的是通过赋予作者一定限度的排他性权利，使其得以通过许可使用或诉讼的方式获得经济利益，回收创作成本，激励作者源源不断地投身于创作活动，最终促进文化、艺术和科学事业的发展。但仅凭创作活动的繁盛，无法达成著作权法促进文化发展的立法目的。根据《著作权法》第1条的规定，保护作者权益的目的是“鼓励有益于社会主义精神文明、物质文明建设的作品的创作和传播，促进社会主义文化和科学事业的发展与繁荣”。该条之所以将“创作”和“传播”放在一起，是因为立法者早已认识到，对促进文化发展的最终目的而言，创作和传播是相辅相成、不可分割的两个面向。作品创作活动本身并非著作权法促进文化发展的充分条件，唯有创作完成后向公众传播作品，使公众得以体验、欣赏、享受作品中的独创性表达，才可能对社会文化的多样性带来真正的助益。因而，也有学者倾向于一种更彻底的传播中心主义，主张著作权法鼓励创作的目的是使作者获得利益，而传播是作者获利并回收创作成本的必要手段，且传播可以使公众接触作品，从作品的独创性表达中获得精神愉悦，以补偿作者占用公共领域资源所造成的损失。

　　以作品的市场传播为核心的理念可以对著作财产权体系进行融贯的解释。在著作财产权中，《著作权法》第10条第1款列举的法定权利可以分为“控制传播行为的权利”和“控制传播准备行为的权利”，前者包括发行权、出租权、展览权、表演权、放映权、广播权、信息网络传播权，后者包括复制权、摄制权、改编权、翻译权、汇编权。在时间轴上，复制、改编等传播准备行为必然先于传播行为本身，发生于公众接触作品的前置阶段。《法国知识产权法典》第122-3条第1款规定“复制是指以一切方式将作品固定在物质上以便间接向公众传播”，更是明确提示了复制作为传播准备行为的性质。著作权法赋予权利人控制传播准备行为的专有权利，目的均是为了在作品流入市场传播之前阻却后续可能发生的传播行为，最终实现对相关市场的控制，因为唯有未经许可的传播能使公众免费接触到作品的独创性表达，对著作权人的市场利益造成实质性损害。如果行为人仅仅复制作品却不实施任何传播行为，著作权法便没有介入的必要性和意义。总之，著作权法调整的是作品在市场传播阶段的利益分配，若规制一切无法使公众接触原作品表达、不会影响权利与义务主体间法律关系的中间环节机械复制行为，则既会耗费大量制度成本，也无助于实现著作权法鼓励作品创作和传播的立法目的。

（二）历史解释：复制权中心主义的式微

　　以复制权调整一切形式的复制行为，而不问公众是否有可能接触、享受原作品的表达，不问作者市场利益是否有可能受到损害的观念根植于来自印刷术时代的复制权中心主义。在著作权发展史上，古登堡印刷术的普及带动了出版业的繁荣，而为了防止他人翻印内容相同的书籍，导致出版者的投资得不到回报，18世纪的英国出版者结合保护作者利益的思潮，促成了现代著作权法的诞生。由此，最初的著作权法以复制权作为核心的权能，禁止市场上出现的一切未经许可的复制行为。例如，《安妮女王法令》仅规定作者对其书籍享有印刷（print）和重印（reprint）的专有权利。这种早期的复制权中心主义对各国著作权法的立法形式产生了深远的影响，多数国家将复制权规定在著作财产权的首位。

　　然而，随着数字化技术的发展，复制权中心主义已经无法适应新出现的作品创作和利用形式。在数字时代的内容生产中，新出现的数字桌面出版系统比传统印刷出版更有效率，为原本位于市场边缘的作品和作者提供了新的发行渠道。在内容复制和传播层面，数字化技术能够以几乎零边际成本在短时间内生产与原作品质量相差甚微的内容，并通过大众传播技术向不在场的多数人提供，任何人都能轻易通过互联网向公众传播他人享有著作权的内容。如果他人未经许可实施了交互式传播行为，而著作权人仅根据复制权提起诉讼，则法院只能按照涉案作品一份复制件对权利人而言的价值（即制作该复制件的许可费）作为计算的基础，远不能补偿交互式传播对著作权人实际造成的损失。由此，著作权法再无法仅凭复制权来弥补新的传播技术对著作权人的市场利益造成的损害。在很大程度上，数字时代的著作权扩张史就是公众传播权从复制权中分离，并逐渐取而代之的历史。为了规制新出现的大规模数字化复制和传播现象，保障作者创作激励的充足供给，各国通过订立著作权双边条约和国际公约，逐渐引入表演权、改编权、向公众传播权等超越复制权的权能，著作权法的规制范围持续扩张，背后的预设也从复制权中心主义转变为复制权和公众传播权并用主义。进而，在规制现场表演和机械表演的表演权、规制非交互式远距离传播的广播权、规制交互式传播的信息网络传播权日益完善，并适用于所有类型的作品之后，著作权法对传统复制权体系的依赖全然消失，复制权不仅已经式微，而且理应式微。

　　我国司法实践对复制权和信息网络传播权的关系的解释，是数字时代复制权中心主义式微的表现。在1990年《著作权法》尚未引入信息网络传播权之时，复制权承担了规制如今的信息网络传播行为的功能。例如，在《大学生》杂志社与北京京讯公众信息技术有限公司、李翔侵犯著作权纠纷案中，北京市第二中级人民法院曾经认定被告未经许可上载他人作品的行为侵犯了复制权：“在将文字作品数字化处理后通过网络传输已经成为一种新的作品传播使用方式的时候……将他人作品上载的行为亦属于对他人作品的复制。”立法引入信息网络传播权之后，当被控侵权行为构成信息网络传播，且以复制作为信息网络传播的必要环节时，法院转而采用统一定性原则，用在后的信息网络传播行为吸收在先的复制行为的效果。在王莘诉谷歌案二审判决中，北京市高级人民法院指出，著作权法之所以规定未经许可的复制构成侵权，并非因为单独的复制行为会损害著作权人的经济利益，而是因为使用作品在多数情况下以复制为前提，禁止他人未经许可复制作品是为了禁止后续的实际使用。但是，如果是专门为了后续的合理使用行为而实施的中间环节复制行为，应该与后续行为结合起来作为一个整体看待，该复制行为同样构成合理使用。此外，一审法院认定谷歌公司提供图书片段的信息网络传播行为构成合理使用，而著作权人并未对此提出上诉。据此，“实施复制即侵权”的复制权中心主义理念不再为法院所采用，而谷歌公司侵犯复制权的根本原因仅仅是未能证明复制图书的目的是“专门为了”后续的合理使用（信息网络传播）行为。

（三）判例分析：中间环节复制的个案定性

　　1.上海新创华文化发展有限公司诉AI公司案

　　在上海新创华文化发展有限公司诉AI公司案中，原告主张在被告所经营网站的AI绘画模块中输入“生成奥特曼”等简单提示词，被告网站即可生成与原告享有版权的奥特曼形象构成实质性相似的图片，侵犯了原告享有的复制权、改编权和信息网络传播权。然而，广州互联网法院在认定被告侵犯复制权和改编权后，回避了信息网络传播权的侵权判定，理由在于“该问题仅涉及侵犯具体著作权权利的认定，并不影响其侵权行为成立与否……本案是生成式人工智能发展背景下生成物侵权的新情况，且本院已经支持了其复制权、改编权侵权的主张，在同一被诉侵权行为已经纳入复制权、改编权控制范畴的情况下，本院不再进行重复评价”。法院表面上并未延续王莘诉谷歌案中以在后的传播行为吸收在先的准备行为的统一定性立场，回归了“实施复制即侵权”的形式主义，但事实上并非如此。在判定被告是否侵犯信息网络传播权时，“本案是生成式人工智能发展背景下生成物侵权的新情况”的表述说明，法院未论述信息网络传播权的真正目的是回避生成式人工智能对传统的服务器标准的冲击可能引发的争议。在输入“生成奥特曼”等与奥特曼相关的简单提示词后，涉案人工智能即会生成与原作品构成实质性相似的内容，使公众有极大可能接触到原作品的表达，以复制权或改编权判令被告承担停止侵害责任，防止损害的扩大于未然，在解释论上并无障碍。

　　2. Range Rd. Music Inc.v. E. Coast Foods Inc.案

　　若原告能够证明自己的作品被用于机器学习，但人工智能输出内容与原作品不构成实质性相似，被告是否构成侵权？在Andersen v. Stability AI Ltd.案和Tremblay v. Open AI Inc.案中，原告均援引了Range Rd. Music Inc.v. E. Coast Foods Inc.案（以下简称Range Rd.案）的先例，主张若版权人能够证明被告实施了直接复制作品的行为，便不需要针对实质性相似举证。然而，Range Rd.案能否对涉及机器学习的案件产生拘束力，必须回溯该案的具体事实。Range Rd.案的原告是8件音乐作品的版权人，同时也是美国作曲家、作家与出版商协会（ASCAP）的成员，被告是一家餐厅的经营者。由于被告未经许可在其餐厅中播放原告享有版权的音乐作品，在多次警告未果后，ASCAP雇佣了一名独立调查员前往被告餐厅调查版权侵权行为。该调查员通过聆听被告餐厅的乐队现场演奏、辨认音响中播放的歌曲、在歌曲播放时抄录CD盒上的曲名等方式，获取了被告实施表演行为的直接证据。在诉讼中，被告主张原告未能证明其享有版权的音乐作品和被告表演的音乐作品构成实质性相似。但美国第九巡回上诉法院认为，实质性相似不是版权侵权的构成要件，它的功能是帮助法院认定在涉案侵权作品并未完全复制原作品的情况下，是否复制了作品中的独创性元素。本案中，由于原告提供直接证据证明被告实施了未经许可的表演行为，便不必再证明实质性相似。

　　然而，将Range Rd.案类推适用于机器学习侵权案件的做法缺乏合理性。Range Rd.案的被告实施的法定利用行为是表演，而非单纯的复制。表演属于向公众传播作品的行为，其唯一目的是使公众接触并享受作品中的独创性表达。若将Range Rd.案类比于生成式人工智能的情形，则餐厅播放他人享有版权的音乐的表演行为更接近人工智能响应用户提示词，向公众传播与原作品构成实质性相似内容的行为（无论是否构成严格的信息网络传播行为），而不是对应机器学习阶段不会使公众接触作品的机械复制行为。出于对表演行为和复制行为的不当类比，法院根据Range Rd.案赋予原告二者择一的主动权，暗示只需在“人工智能输出内容与原作品构成实质性相似”或“被告实施了复制作品的行为”中任选其一证明，人工智能服务提供者即构成侵权行为值得商榷，因为在生成式人工智能这一特定技术下，机器学习阶段的机械复制行为很可能不具备使公众接触原作品表达的可能性。

　　3. White-Smith Music Co.v. Apollo Co.案

　　《美国版权法》关于复制件（copies）定义的修改历史无法支持非表达性使用理论。在White-Smith Music Co.v. Apollo Co.案（以下简称White-Smith案）中，美国联邦最高法院曾经主张自动钢琴卷轴（piano rolls）本身无法被人类理解和欣赏，不构成音乐作品的复制件，“它们不是像乐谱那样用来观看的，而是机器的一部分……唯一的目的是在乐器上机械地演奏”。但是，立法者此后修改了复制件的定义，现行《美国版权法》中的复制件是指“通过任何已知或将来可能开发的方法将作品固定在其中的，除录音制品外的实物，并且从这些实物中，可以直接或借助机器设备来感知、复制或传播作品”。由于立法者修正了White-Smith案的结论，非表达性使用理论主张，修改后的复制件定义涵盖以任何方法将作品固定在其中的实物，甚至包括人类无法理解的非表达性复制件，机器学习理应落入复制权的保护范围。然而，这种观点忽略了自动钢琴卷轴的唯一目的是让机械钢琴播放卷轴上刻录的音乐，使公众接触、欣赏、享受音乐作品中的表达性内容，而不是单纯复制他人享有版权的音乐作品。在不借助机械钢琴等设备的情况下，人类能否感知、理解、阅读自动钢琴卷轴上所记载的乐谱，与自动钢琴卷轴向公众传播音乐作品的最终目的并无任何关系。换言之，“借助设备使公众享受作品的独创性表达”与“无人能享受作品的独创性表达”的情形有本质区别，司法者不应固守“实施复制即侵权”的理念，而不考虑个案事实下复制的最终目的和结果。White-Smith案认定自动钢琴卷轴不侵犯复制权的结论之所以不甚合理，不是因为《美国版权法》的修改过程中立法者扩张了复制件的定义，而是因为未经许可制造自动钢琴卷轴的唯一目的是通过设备播放他人享有版权的音乐作品，因而有极大可能使公众接触原作品的表达，损害作者的市场利益，理应通过复制权防范于未然，提前阻却后续的传播行为。与此相反，在机器学习的侵权判定中，若人工智能最终输出的内容与原作品不构成实质性相似，也缺乏输出实质性相似内容的可能性，则前期的机器学习属于“无人能享受作品的独创性表达”的情形，不构成著作权法意义上的复制。

三、机器学习的侵权判定标准重构

　以上解释论和判例分析表明，在机器学习的侵权判定中，不宜孤立地看待无涉传播的内容输入阶段和指涉传播的内容输出阶段，且因为人工智能输出与原作品构成实质性相似的内容的可能性并非为零，就一般性地认定机器学习构成侵权行为。由于复制权仅在规制传播准备行为时才具备规范意义，应当对非表达性使用理论进行扬弃，重构机器学习的侵权判定标准。具体而言，应当对机器学习是否属于作品传播的前置阶段展开个案认定，考量其是否具备使公众接触原作品表达的高度盖然性。

　（一）从非表达性使用到高度盖然性

　　1.非表达性使用理论的困境

　　非表达性使用理论在一般论层面进行表达性或非表达性使用的抽象类型化侵权判定，并将风格模仿型机器学习认定为非法行为，虽然正确地发现了法定利用行为与合理使用的优先次序问题，但此种类型化面临逻辑、法理和现实层面的三重困境。

　　首先，在逻辑上，若采用主流的“实施复制即侵权”立场，无视后续的传播阶段，则无论人工智能最终是否输出与原作品构成实质性相似的表达，乃至无论是否输出任何表达，在作品存储完成的那一刻都已然构成侵权行为。由于此种论证的前提不考虑输出阶段，此后若再根据人工智能输出的是非表达性还是表达性的内容，来为非表达性机器学习免除侵权责任，就属于自相矛盾。反之，若将传播阶段纳入考量，认为只要涉案人工智能模型有可能输出表达性内容，机器学习即侵犯复制权，则“输出非表达性内容”与“输出非实质性相似内容”的法律效果并无区别，非表达性使用理论将前者认定为合法（未进入复制权保护范围），将后者认定为非法（必须通过合理使用阻却责任），缺乏依据。

　　其次，在法理层面，禁止人工智能模仿创作风格的观点亦值得商榷。风格是“在同一个艺术家的不同作品里到处可看到的个性特征”，即特定作者的复数作品中具有共性和识别力的元素。然而，第一，著作权法保护的是特定表达本身，而不保护从复数表达中抽象出的共有元素，否则权利保护范围将受到不当扩张；第二，风格层面的实质性相似确有可能导致公众误认为人工智能生成内容出自特定作者，损害该作者的潜在市场利益。但这种以损害倒推权利受侵害的做法难以成立，因为此处受损的是广义的市场竞争利益，可能受到反不正当竞争法或商品化权益的保护，却无法受到著作权法保护。若人工智能输出内容与原作品在表达层面缺乏实质性相似，或人工智能服务提供者并未实施《著作权法》第53条第1款第8项规定的“制作、出售假冒他人署名的作品”的特殊侵权行为，则公众的混淆误认不足以使机器学习产生著作权法上的可归责性。

　　最后，在现实层面，在对生产效率提供巨大助益的生成式人工智能缺乏训练数据的环境下，非表达性使用理论仍将表达性机器学习类型化为必须通过合理使用事后阻却侵权责任，未能完全解决我国合理使用制度的立法周期问题和解释论困境。

　　2.高度盖然性标准的正当性

　　与非表达性使用理论不同，笔者提倡的高度盖然性标准属于一种折衷的解释论。根据该标准，若著作权人以复制权等规制传播准备行为的权能提出请求，但未证明人工智能最终的输出内容与原作品构成实质性相似，仅证明被告实施了复制行为，则必须证明该复制行为具备后续使公众接触原作品表达的高度盖然性。采用该标准认定机器学习是否侵犯著作权，具有以下正当性依据。

　　首先，高度盖然性标准具备解释论上的融贯性。第一，无论人工智能最终输出的是表达性还是非表达性内容，均以在后的、符合著作权法规范目的的传播行为吸收在先的、作为传播准备阶段的机械复制行为，在维持实质性相似作为侵权构成要件的地位的同时，防止了类型化区分表达性或非表达性使用所引发的逻辑矛盾。第二，在法定利用行为要件中对被控侵权行为进行统一定性，彻底免去诉诸合理使用的必要性，规避我国合理使用制度的立法周期和解释困境。第三，该标准与复制权的定义并无冲突，因为复制权的实际保护范围是由司法而非其定义条款划定的。例如，在北京易查无限信息技术有限公司、于某侵犯著作权罪案中，上海市浦东新区人民法院主张，若搜索引擎在将转码后的网页传输给手机用户后自动删除了在内存或硬盘中临时存储的内容，则该过程所涉及的瞬间、短暂的临时复制没有独立经济价值，不构成侵权行为。在Gordon v. Nextel Communications and Mullen Advertising, Inc.案中，美国第六巡回上诉法院认定，在电视广告背景中短暂出现的、模糊的牙科插图构成微量复制（de minimis copying），并专门指出：“法院首先会审查微量复制抗辩，以确定是否存在任何可诉的复制行为……如果跨越了微量复制的门槛，法院才会审查合理使用抗辩。”临时复制和微量复制在形式上为复制权的定义所涵盖，但由于公众无法接触、欣赏原作品的表达，这些两种情形均不具备独立的经济意义，不构成著作权法意义上的复制，且完全无涉合理使用的判定。由此可见，复制权定义条款的功能只是在事前概括性地提示法定利用行为的性质，事后的具体化工作则交由司法完成。将复制权的定义等同于复制权实际保护范围的做法是一种范畴错误。

　　其次，高度盖然性是大陆法系民事诉讼法普遍采用的证明标准，具备实证法上的基础。《最高人民法院关于适用〈中华人民共和国民事诉讼法〉的解释》第108条第1款规定：“对负有举证证明责任的当事人提供的证据，人民法院经审查并结合相关事实，确信待证事实的存在具有高度可能性的，应当认定该事实存在。”该款中的“高度可能性”即民事诉讼证明标准理论中的高度盖然性，是指“证明虽然没有达到使法官对待证事实确信只能如此的程度，但已经相信存在极大可能或非常可能如此的程度”。之所以采用高度盖然性标准，是因为法官若仅仅根据一般程度的可能性来形成内心确信，则将降低普通人对法院事实认定的信任，因而必须要求法官以普通人不会怀疑的可能性程度为基础来形成内心的确信。在比较法上，英美法系一般采用比高度盖然性标准要求更低，更强调双方证据证明力对比的优势证据（preponderance of the evidence）标准。该标准在判例法上有诸多表述形式，它意味着“一方的证据超过、优于、多于另一方的证据”，或是“仅仅要求事实审理者相信某一事实存在的可能性大于不存在的可能性”，以及“超过50%的证明力”。但是，即使采用在形式上要求更低的优势证据标准，判例法亦不支持举证方用某种未必会发生的假设性损害在诉讼中获得优势地位。这亦为复制权侵权判定中公众接触可能性的证明设置了门槛。

　　最后，高度盖然性标准限制并解决了非表达性使用理论提出的风格模仿导致作者利益受损的问题。在法理上，风格赋予作品的共性和识别力其实是美术角色形象的可版权性要件。在DC Comics v. Towle案中，美国第九巡回上诉法院认定《蝙蝠侠》漫画中的“蝙蝠车”是受版权法保护的美术角色形象，并提出了一种“三步测试法”，要求受保护的美术角色形象“具备物理与观念上的属性”，“被充分描绘，每次出现时都能被认为是同一角色，并展示出一致且可识别的性格特征和属性”，以及“极具识别力，且包含某些独特的表达元素”。据此，共性和识别力将使原本仅是美术作品组成部分的美术角色形象的保护范围广于美术作品本身，产生“跨作品性”保护效果。由此可见，模仿风格的机器学习即使能在著作权法上产生可归责性，也仅局限于生成的美术角色形象与原作品构成实质性相似的情形。在技术层面，生成式人工智能虽难以侵犯一般的美术作品著作权，但如果反复利用某个受保护的美术角色形象来训练文生图模型，则易于生成侵犯该美术角色形象著作权的内容。例如，将史努比形象反复用于机器学习，则用户输入简单的提示词“生成一只狗”时，人工智能便有可能直接生成史努比的形象。对此，只需根据高度盖然性标准，即可将此类机器学习认定为复制权侵权行为。我国司法实践中，美术角色形象作为独立的美术作品受到保护并无障碍，而生成式人工智能反复学习同一美术角色形象时更易输出实质性相似内容的技术特征，可成为推定高度盖然性的间接证据。

（二）高度盖然性标准的实践应用

　　在传统的著作权侵权判定中，未使公众实际接触作品的复制、上传等行为之所以构成侵权，是因为特定行为的性质本身使公众接触作品成为一种事实推定，著作权人无需举证证明。例如，图书馆复制他人享有著作权的馆藏书籍用于出借的行为侵犯了复制权，因为复制的唯一目的是后续使公众接触原作品的出借行为，虽然出借行为本身不构成著作权法所禁止的法定利用行为。又如，一名盗版商人翻印了大量书籍，此时尚无任何人购入盗版书籍，作者的市场利益也未受到损害，但该盗版商已构成复制权侵权行为，因为根据朴素的逻辑即可得出，盗版商翻印书籍的唯一目的是向公众出售这些盗版书籍，应通过复制权禁止此类行为，防范市场损害于未然。再如，将他人享有著作权的作品置于可公开访问的信息网络中，已然侵犯信息网络传播权，而公众在事实上是否接触到该作品则在所不问，因为公共互联网的特性使上传行为具备使公众接触作品的高度盖然性。但以上例证亦表明，行业惯例、行为样态、社会常识等因素对高度盖然性的证明将产生极大影响，在机器学习的侵权判定中采用高度盖然性标准，并不会过度加重原告的证明责任。事实上，出于对生成式人工智能的技术特征和规避输出实质性相似内容的惯习与趋势的考虑，国内外的立法政策和司法实践已直接或间接地表明，唯有具备使公众接触原作品表达的高度盖然性的机器学习才构成侵权行为。

　　1.人工智能显著频繁输出实质性相似内容时的侵权判定

　　《日本著作权法》第30条之4规定了“非享受目的使用作品”的权利限制情形，当不以享受作品中表达的思想或情感为目的，或者不以让他人享受为目的时，可以在必要范围内以任何方式使用该作品。以“信息解析”即“从大量的作品及其他信息中，提取构成该信息的语言、声音、影像及其他要素的有关信息，并进行比较、分类及其他解析”为目的使用作品，被明文列于该条第1款第2项中，作“为非享受目的使用”的例示情形。由于该条在比较法上属于极为宽松的权利限制，并未对行为的主体、目的、内容等方面进行任何限定，也未规定著作权人的选择退出机制，日本被称为“机器学习的天堂”。然而，对于机器学习是否构成“非享受目的使用”的问题，日本文化厅发布的《关于AI与著作权的见解》指出，虽然应该单独评价人工智能在机器学习阶段使用作品的行为是否具有“享受目的”，而不应仅凭人工智能生成了与其学习对象构成实质性相似的内容，就认定机器学习侵犯著作权，但如果人工智能显著频繁地输出与其学习对象构成实质性相似的内容，则可以成为推定机器学习阶段具有“享受目的”（构成侵权）的一个要素。不过，如果是因用户有意输入特定提示词，导致人工智能生成实质性相似的内容，则不能推定机器学习具有“享受目的”。

　　日本文化厅的上述解释正是高度盖然性标准的实践例证。首先，人工智能在机器学习阶段和内容输出阶段使用作品的行为并非互不相关，而通过输出内容推定机器学习阶段侵犯复制权的条件是人工智能显著频繁地输出与原作品构成实质性相似的内容，因为输出实质性相似内容的频率与公众接触的盖然性成正比。其次，如果人工智能用户精心设计提示词，通过试错的方式诱使人工智能生成与原作品构成实质性相似的内容，则不应推定机器学习阶段侵犯复制权，因为此时机器学习不具备使公众接触原作品表达的高度盖然性。这如同将他人享有著作权的作品上传到网盘并设置四位密码，再将网盘的链接提供给公众，即使有可能猜出或破译四位密码并接触到原作品，加密上传者也不侵犯信息网络传播权，因为可能接触到原作品的特定少数人不构成著作权法意义上的“公众”。

　　2.服务提供者的注意义务与责任限度

　　对于人工智能服务提供者的注意义务，各国立法规定了训练数据来源披露义务、合成内容标识义务等诸多类型。不过，与著作权侵权问题关系最密切的注意义务是防止人工智能输出与原作品构成实质性相似的内容。日本文化厅《关于AI与著作权的见解》指出，将人工智能服务提供者而非用户评价为侵权责任主体的可能性与人工智能输出侵权内容的频率成正比，且如果服务提供者在开发、提供过程中意识到输出实质性相似内容的盖然性较高却不采取防止措施，被评价为侵权责任主体的可能性亦将提高。对于侵犯著作权所承担的停止侵害责任，在上海新创华文化发展有限公司诉AI公司案中，由于被告不是人工智能模型的研发者，而是使用应用程序编程接口（API）接入第三方模型的“部署者”，法院要求被告承担的停止侵害责任以用户正常使用与奥特曼相关的提示词，人工智能模型不能生成与奥特曼形象构成实质性相似的图片为限。日本文化厅明确将侵权责任主体认定的重心放在输出实质性相似内容的盖然性上，我国法院亦以防止未来输出实质性相似内容来划定部署者的停止侵害责任。这都是以高度盖然性标准取代了“实施复制即侵权”的形式主义标准。

　　3.文本与数据挖掘中的数据泄露可能性

　　在Authors Guild案中，原告认为谷歌公司对其图书的数字化复制、存储行为将产生数据泄露的风险，因为黑客可能接触到作品并向公众传播，损害其市场利益。对此，美国第二巡回上诉法院主张，原告的观点虽然在理论上能够成立，但在案证据不足以支撑该观点。Authors Guild案的在案证据表明，谷歌公司将原告享有版权的图书数字化存储在公共互联网无法访问的计算机上，并受到与谷歌公司用来保护其自身机密信息相同的安全措施保护，原告方的安全专家也高度评价了谷歌的安全系统，原告亦未能指出任何从谷歌图书计划中盗取作品数据的行为。由此，谷歌公司已经充分证明自身施加了足够的安全措施来保护其存储的作品数据。该案虽然没有在法定利用行为阶段解决中间环节复制的侵权判定问题，而是将谷歌公司对海量图书的文本与数据挖掘认定为转换性使用，但针对原告作品数据泄露可能性的论点，法院根据被告对安全措施的证明否认了未必发生的假设性损害，是复制权侵权判定中采用高度盖然性标准的例证。

　　谷歌图书相关案件在我国的裁判结果有所不同，但法理有相通之处。在前述王莘诉谷歌案中，谷歌公司若能像美国类案一样证明对原作品数据采取了足够的安全措施，使黑客等技术人员无法接触并传播作品，即可证明复制的唯一目的是为了实施后续的合理使用（信息网络传播）行为，前期的复制行为由此亦将因“统一定性”原则被在后的信息网络传播行为所吸收，从而构成合理使用。可见，我国法院亦认为不会致使公众接触原作品表达的中间环节复制应属合法行为。

四、结语

　在理论上，有三种路径能够为机器学习中的海量复制行为提供正当化依据。其一为公共利益路径，主张著作权法应在生成式人工智能提供的公共利益面前让步；其二为权利调整路径，认为著作权应受到“研究权”（right to research）等基本权利的限制；其三为内在制约路径，提倡以著作权法的保护范围和固有结构作为机器学习的正当化依据。然而，首先，在人人都可兼具著作权人和作品使用者身份的数字时代，公共利益路径无法解释为何著作权人的利益必须让位于使用者的利益；其次，在《著作权法》面临合理使用立法周期过长等现实问题，且《欧盟数字单一市场版权指令》《日本著作权法》等域外立法例中关于机器学习的权利限制条款受到不同程度批判的背景下，权利调整路径难以将基本权利的精神反映于著作权立法中，并未得出具体且可行的方案；最后，内在制约路径是典型的法教义学路径，它以著作权法的既定规则为基础，对机器学习的侵权判定规则展开解释论层面的检讨，是我国当下最为合理的选择。笔者于本文中以内在制约路径作为根本的方法论指引，在批判层面，质疑了非表达性使用理论以及著作权法长期以来的“实施复制即侵权”的预设；在建构层面，笔者于本文中在生成式人工智能的内容输入（复制）和输出（传播）阶段之间建立关联，提出以公众接触原作品表达的高度盖然性作为机器学习的侵权判定标准，以期为目前正在发生且仍将频繁发生的生成式人工智能著作权侵权判定问题提供理论与实践的参照。

相关阅读

1. 章凯业｜机器中的作者与创作：从摄影技术到生成式人工智能

2. 徐小奔：论人工智能生成内容的著作权法平等保护

3. 张吉豫、汪赛飞：大模型数据训练中的著作权合理使用研究

微信号 : DigitalLaw_ECUPL

探寻数字法治逻辑

展望数字正义图景

战略合作伙伴：上海中联律师事务所