社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  aigc

以全球范围AIGC训练数据侵权诉讼为例梳理合理使用规则的适用

中伦视界 • 5 月前 • 169 次点击  

未经授权将他人数据用于AIGC大模型的训练是否构成侵权,能否适用合规使用规则,在全球范围内都在进行讨论,本文旨在以全球范围内的AIGC诉讼为视角进行梳理,以期梳理合理使用规则适用的要件。

作者丨王飞 贺梦琳 蒲柯洁


笔者在《以全球范围AIGC诉讼为例梳理AIGC的侵权认定和权利限制规则 》一文中提及,近年来,世界范围内人工智能(AI)训练过程中的著作权侵权诉讼频发,著作权人通常指控人工智能平台未经授权使用其作品进行大模型训练进而侵犯其著作权(训练阶段一般涉及作品复制权)、或指控其构成不正当竞争等。值得注意的是,部分被告提出适用著作权法上的合理使用条款[1]进行不侵权抗辩,这在世界范围内引起了讨论。


正如著作权法的应有之义在于激励创新,促进智力成果创作的繁荣,赋予著作权是促进创新的有力工具,但赋予著作权人的权利需要受到限制,否则会不恰当地减损社会公众使用智力成果的公共利益,著作权法上的权利限制制度恰是平衡激励创新和维护客观公共利益的工具。若合理使用适用于人工智能训练作品,则人工智能开发者在一定条件下不经著作权人授权即可使用他人作品用于大模型训练而无需承担侵权责任,一定程度上可以促进人工智能技术的发展;但如不恰当地扩张合理使用的范围,可能会减损权利人利益进而破坏著作权法激励创新的平衡机制。本文将总结全球范围内人工智能使用他人作品训练引发的著作权侵权案件,梳理各国的合理使用制度标准。


一、全球范围内训练数据侵权诉讼与合理使用抗辩



(一)美国


1、合理使用制度


美国《版权法》(17 U.S.C.)第108条至第122条之封闭式权利限制规定中没有可针对性适用于人工智能训练的规定,因此在美国发生的AI使用他人作品的侵权纠纷中,被告通常援引第107条规定的开放式合理使用进行不侵权抗辩。根据该条规定,美国法院在评估在任何特定情况下对作品的使用是否构成合理使用时,应考虑四个因素:(1)使用的目的和性质,包括此类使用是具有商业性质还是用于非营利教育目的;(2)受版权保护作品的性质;(3)所使用部分在受版权保护作品整体中所占的比例和实质性;以及(4)使用对受版权保护作品的潜在市场或价值的影响。以上四个因素会被法院综合考量,以第一个因素为例,并不代表使用具有商业性质就一定不构成合理使用,也不代表使用具有非营利教育目的就一定构成合理使用。


根据《伯尔尼公约》、TRIPS协定和《世界知识产权组织版权条约》规定,著作权的限制和例外需满足“三步检验法”标准,即在某些特殊情况下、不与作品的正常使用相冲突、没有不合理地损害作者的合法权益。“三步检验法”作为国际通则被各个国家和地区的著作权法所接受和遵循,例如我国《著作权法》、欧盟《单一数字市场版权指令》、英国《版权法》、美国《版权法》的封闭权利限制规定均遵循了该等通则。而不同于较为封闭的权利限制与例外规定,美国的开放式合理使用具有较强的灵活性,在应对新作品传播技术和商业模式挑战时具有更大的适应性。例如在1999年的“图像搜索引擎”案件[2]中,美国法院认定在互联网的图像搜索引擎中提供缩小图像属于合理使用。又如著名的某平台数字图书馆案件[3]最终被认定为合理使用,在数字化作品与传统版权业者利益相冲突时,法院认为对作品摘要的数字化复制构成转换性使用(即符合前述第(1)个要件,转换性程度越高,其他因素的考量比重可能较低)不属于侵权。该开放式合理使用制度在其他法域也有应用,例如在2010年德国最高法判决的类似案件[4]中,法院认定制作搜索引擎有利于社会公众获得相关信息,以默示许可判定被告没有侵权。


2、案例与评述


目前在多起AI使用他人作品训练的著作权侵权案件中,具有广泛适应性的开放式合理使用规定成为被告援引抗辩不构成侵权的有力工具。例如在Huckabee v. Bloomberg案中,被告在2024年3月22日提起驳回动议,辩称其行为构成开放式合理使用,特别是作为财经新闻和分析服务提供商在非商业研究项目中使用版权作品训练生成式AI模型更属于合理使用的典型情形。5月3日,被告回应了原告对驳回动议的回复,认为法院以合理使用为由驳回版权侵权申诉有判例支持。[5]在Nazemian and Dubus v. N*案中,被告在2024年5月23日和7月1日的侵权抗辩中均引用开放式合理使用规定。[6]2024年6月24日,代表环球音乐、索尼音乐、华纳音乐等大型唱片公司的美国唱片业协会RIAA起诉了AI音乐技术公司S公司等,理由是其在未经授权的情况下,非法使用了大量原告公司受版权保护的音乐作品作为AI大模型训练数据,以提升其AI模型生成音乐的能力,从而构成了对原作品复制权、信息网络传播权等权利的侵犯。8月,S公司提交侵权答复,主张复制版权作品作为公众不可见的后端技术流程的一部分,以创造最终不侵权的新产品,属于版权法上的合理使用。[7]同日,S公司高管发表博文称“我们根据在互联网上可以找到的中高品质音乐来训练我们的模型,其中确实包含受版权保护的内容,其中一些为大型唱片公司所有。但利用互联网上的数据训练人工智能模型,与孩子们在听了摇滚乐后自己创作摇滚歌曲没什么区别。学习不是侵权,过去不是,现在也不是。”[8]


笔者认为,在类似案件中,AI使用他人作品训练的比例和体量通常较大,被告援引开放式合理使用的理由集中在使用目的和对版权作品潜在价值的影响两个因素上,而转换性和潜在市场影响判断又通常与AI生成阶段的表现(例如社会公众获取信息的便捷程度、生成内容与训练内容的相似程度)相关,例如在Silverman v. OpenAI案件中,法院认为原告必须指出AI输出内容与版权保护作品之间有实质相似性才足以证成替代性版权侵权。


总体而言,针对AI不同阶段侵权问题的复杂性,美国法院持谨慎态度,基于部分原告未证明AI训练删除版权管理信息的事实损害而批准了被告的驳回动议,但尚未在开放式合理使用的判断上作出明确回应。


(二)欧盟——以德国为例


1、合理使用制度


欧盟2001年《信息社会版权指令》(Directive 2001/29/EC)第5条第1款规定各成员国应当在国内法中规定临时复制作为权利限制例外。符合该权利限制例外要求的临时复制应当同时符合以下要件:(1)该复制是暂时的或附带的;(2)该复制构成技术过程不可或缺的重要部分;(3)该复制仅为合法使用[9]作品或充当第三方之间通过网络传输作品的中间人而传输作品之目的;且(4)该复制没有独立的经济意义[10]。针对数据和机器学习的具体情形,欧盟2019年《数字单一市场版权指令》(Directive 2019/790)第3条规定了旨在科学研究目的的文本和数据挖掘(Text and Data Mining , TDM)[11] 的例外,适用于研究组织和文化遗产机构为科学研究目的对其合法获取的作品或其他内容进行文本和数据挖掘而进行复制和摘录。第4条规定了一般情况下的TDM的权利限制例外,即为文本和数据挖掘目的复制和摘录合法获取的作品和其他内容,但一般情况下的TDM例外允许权利人声明保留。该指令实际上赋予了规定条件下文本和数据挖掘行为的合法性,一般情况下的TDM例外不存在主体限制或使用技术目的限制,也可能同样适用商业性使用目的行为。


2、案例与评述


2024年9月,德国汉堡地区法院一审判决AI训练数据集的侵权案件。Kneschke是德国的一名摄影师,LAION是一家创建开发AI模型和数据集的德国非营利机构,其创建的数据集被Stable Diffusion、Midjourney等多家著名图片生成AI平台使用。数据集创建的大致流程是,对第三方现有的包含图像链接和图像描述的数据进行检查,筛除掉其中图像链接对应的图像与图像描述不匹配的项目后,由此创建新的数据集。这一流程中,LAION需要下载图像链接对应的图像进行分析。Kneschke拥有著作权的图像包含在LAION创建的数据集内。Kneschke以LAION为被告提起诉讼,要求其停止复制其享有著作权的图像以创建数据集。当地时间2024年9月27日,汉堡地区法院第10民事庭(案件编号310 O 227/23)驳回了原告的诉讼请求。


根据欧盟指令要求,《德国著作权法》(Urheberrechtsgesetz, “UrhG”)第44a条规定了临时复制,条文内容与《信息社会版权指令》基本一致;同法第44b条规定了一般情况下的TDM例外,第60d条规定了用于科学研究的TDM例外。此三条权利限制规定正是本案被告援引抗辩不侵权的规定。法院认定被告在本案创建数据集的行为没有违反三步检验法——创建数据集的行为本身并不能必然推导出其将生成相同或相似内容,后续使用是否为法律允许尚不能明确区分。笔者认为,法院由此为权利人没有声明保留的创建训练数据集中的TDM行为提供了适用权利限制例外的空间。


针对科研目的的TDM例外,UrhG第60d条规定的TDM例外适用于以科学研究为目的开展TDM的非商业研究机构、将所有利润投资于科研的研究机构或是由国家批准为公益开展活动的研究机构。但是,与私营企业合作、受其影响并将成果优先供其适用的研究机构不在此限。法院认定LAION创建涉案数据集的行为属于科学研究的范畴,涉案数据集的免费公开可以印证LAION的非商业目的。同时,法院认定LAION不属于前述被排除在范围外的、受私营企业影响的研究机构。综上,根据第60d条,原告的诉讼请求被法院驳回。


笔者倾向于认为,本案实质上仅针对创建数据集的行为进行评价,其不涉及创建数据集之后使用数据集训练人工智能的行为以及训练后的人工智能生成内容的行为。法院在创建数据集阶段的讨论中,将训练和生成阶段的难以预见性排除到了适用限制例外的考虑之外,没有考虑创建数据集的目的,也无法回答被告主张其训练数据在生成阶段具有转化性的抗辩问题,同时本案被告具有科学研究性质的非商业目的,对于商业性质的AI产品参考意义其实是较为有限的。


(三)日本


笔者认为,在法律规定上,日本对适用合理使用制度较为乐观。作为封闭式权利限制立法的典型,日本《著作权法》上的权利限制规定自1970年全面修订以来即以适用条件规定详尽著称,但完全封闭的特点亦受到了理论和实务的批评,关于引进美国开放式合理使用规定或使权利限制规定更富有弹性的意见亦络绎不绝。


日本2009年修改后的《著作权法》第四十七条之七首次规定了计算机信息解析过程中对复制权和演绎权的权利限制。日本2018年修改后的《著作权法》第三十条之四合并了原第四十七条之七的规定,该条规定不以享受作品中表达的思想或感情为目的(下称“享受目的”)时,可以对作品进行信息解析等不伴随自然人知觉识读的计算机处理,前提是不能对著作权人利益造成不当损害。包含第三十条之四在内的部分权利限制规定加入这一前提被认为是对封闭式立法模式的缓和,这也为AI大模型的训练提供了著作权权利限制的依据。但由于该规定仅能适用于训练阶段,因此其理论上仍不能适用于AI生成内容包含受著作权保护内容的情形。同时,对封闭式立法模式的缓和也意味着法院将享有更大的自由裁量权。日本文化厅指出,是否构成该前提的例外情形,具体应交由司法具体个案判断,标准大致是判断是否对作品原有市场造成了替代,并举例称目的本为信息解析用的数据库商品不能依该条复制并进行信息解析。[12]


除此之外,日本2018年修改后新设的第四十七条之五允许了在计算机信息处理过程中创造出新的知识或信息的情况下进行包含所需信息的作品的定位信息(如作品标题、作者姓名以及链接等)搜索和信息解析并提供其结果。与第三十条之四相比,在AI场景下,第四十七条之五对部分AI生成内容阶段的作品使用行为也进行了豁免,然而其在生成阶段对作品的使用仅限于附随性质的轻度使用(可能的场景如AI基于搜索结果总结时附带地包含了作品的一小部分)。对于文生图等场景中,生成的图片仍与原作品实质性相似等情况,则难以适用本规定。


根据日本文化厅的总结[13],在生成式AI的场景下,第三十条之四和第四十七条之五的适用性如下,目前,日本尚无公开或已被报道的AI大模型侵权案例。

点击可查看大图


二、中国训练数据侵权诉讼与合理使用抗辩



2024年6月20日,北京互联网法院开庭审理了全国首例涉及AI绘画大模型训练著作权侵权案,[14]版权人对未经许可抓取其作品用于输入AI模型的行为和使用版权作品作为物料训练AI的行为提起诉讼。在该案中,被告的抗辩理由包括:一是原告主张权利的作品与涉案AI生成图片不存在实质性相似;二是被告大模型训练行为即使使用原告作品亦应构成合理使用,目前该案正在审理中。


目前,我国《著作权法》第二十四条仍属于封闭式的合理使用规定,同时通过“不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益”规定将“三步检验法”转化为国内立法,但第二十四条无法适用AI训练问题的具体场景。2011年最高人民法院印发《关于充分发挥知识产权审判职能作用推动社会主义文化大发展大繁荣和促进经济自主协调发展若干问题的意见》的通知第8条规定:“在促进技术创新和商业发展确有必要的特殊情形下,考虑作品使用行为的性质和目的、被使用作品的性质、被使用部分的数量和质量、使用对作品潜在市场或价值的影响等因素,如果该使用行为既不与作品的正常使用相冲突,也不至于不合理地损害作者的正当利益,可以认定为合理使用。”笔者认为该规定实际上引入了美国开放式合理使用的判断因素,但在中国具体的合理使用的实际案件中适用前述最高法意见则可能不恰当地超出了法律规定的范畴。


基于目前国内立法的封闭限制,有观点主张扩充封闭条款的规定,将人工智能数据训练纳入目前法律规定的合理使用的范畴,例如“AI善治论坛 人工智能法律治理前瞻”专题研讨会发布《中华人民共和国人工智能法(学者建议稿)》第二十四条指出:“人工智能开发者使用他人享有著作权的数据进行模型训练时,如果该使用行为与数据原本的使用目的或功能不同,并且不影响该数据的正常使用,也没有不合理地损害数据权利人的合法权益,则该使用行为属于数据合理使用。对于符合上述合理使用情形的数据使用行为,人工智能开发者可以不经数据权利人许可,不向其支付报酬,但是应当以显著的方式标注数据来源。”


但笔者认为,AI数据训练适用合理使用或权利限制制度的难点仍在于使用目的不同和不合理损害权利人的合法权益标准难以认定。这可能与AI生成阶段的侵权性质紧密相关,特别是在AI生成内容与训练数据未产生差异构成实质性相似(对作品原有市场造成了替代)的情形下,必然损害到训练数据权利人的合法权益,该等情形下适用合理使用规则显然不合理,依据三步检验法进行判断最终仍需根据个案进行确定。


[注] 

[1] 《伯尔尼公约》、TRIPS协定和《世界知识产权组织版权条约》规定各成员国可以对著作权专有权利作出限制。因此各国规定了对著作权的限制和例外,但在名称和立法体例上有一定区别。为了表述方便,除特指外,本文将不需要向著作权人取得许可,也不需要向其支付报酬即可使用作品的制度统称“合理使用”。美国《版权法》第107条(17 U.S.C. 107)所规定的“Fair Use”本文则称为“开放式合理使用”。美国《版权法》第108条至第122条还规定了其他封闭的、特定情形下的权利限制规定,例如第120条规定可以以摄影等图片形式复制建筑作品。

[2] Kelly v. Arriba soft corp., 77F. Supp. 2d 1116 (D. C. cal. 1999).

[3] Authors Guild v. G*, Inc., No. 13-482x (2d Cir. 2015).

[4] BGH, IZR 69/08 of 29 April 2010 – Vorschaubilder Ⅰ.

[5] Huckabee v. Meta Platforms, Inc., 1:23-cv-09152, bakerlaw, from https://www.bakerlaw.com/huckabee-v-bloomberg/.

[6] Nazemian et al v. N* Corporation, 4:24-cv-0265x, bakerlaw, from https://www.bakerlaw.com/nazemian-v-nvidia-corporation/.

[7] UMG Recordings, Inc. v. S*, 1:24-cv-1161x.

[8]https://www.ithome.com/0/785/809.htm.

[9] 根据该指令序言第33段的解释,合法使用指经权利人授权的使用或未受法律限制的使用。

[10] 这一要件并不是指不得以营利或商业使用为目的临时复制作品。以复制目的仅为合法使用作品为例,由于作品具有特定的经济价值,使用作品的行为必然将具有经济意义。这一要件的着眼点在于该临时复制行为是否产生了与合法使用作品的行为不同的或是可分割的经济意义,或是产生了合法使用作品之外的经济利益。参见 C‑302/10第47-54段。

[11] 根据该指令第2条的定义条款,文本和数据挖掘意指旨在分析数字形式的文本和数据以生成包括但不限于模式、趋势和相关性信息的任何自动化分析技术。

[12] 这本身亦是2018年修改前原第47条之七明文列举的除外情形。文化庁著作権課「デジタル化・ネットワーク化の進展に対応した柔軟な権利制限規定に関する基本的な考え方」9頁(2019年10月24日)

[13] 基于日本文化厅参考资料翻译整理,https://www.bunka.go.jp/seisaku/bunkashingikai/chosakuken/hoseido/r05_07/pdf/94011401_07.pdf。

[14] 北京互联网法院:《北京互联网法院开庭审理全国首例涉及AI绘画大模型训练著作权侵权案》,https://mp.weixin.qq.com/s/cyskAz1cASBaNIYQpGpGsA,2024年6月20日。


王飞  律师


北京办公室

非权益合伙人

业务领域:诉讼仲裁,知识产权权利保护

行业领域:传媒、体育和娱乐


贺梦琳


北京办公室  争议解决部


蒲柯洁


北京办公室  争议解决部




《以全球范围AIGC诉讼为例梳理AIGC的侵权认定和权利限制规则》

《“摄屏”风波背后的合理使用问题探究》

《AIGC产品的生命周期透视(下)大模型与产品的运行合规》

《AIGC产品的生命周期透视(上)数据与代码的授权合规》

《以全球主流AIGC产品用户协议为例梳理AIGC生成内容的权利归属与使用限制》

特别声明

以上所刊登的文章仅代表作者本人观点,不代表北京市中伦律师事务所或其律师出具的任何形式之法律意见或建议。


如需转载或引用该等文章的任何内容,请私信沟通授权事宜,并于转载时在文章开头处注明来源于公众号“中伦视界”及作者姓名。未经本所书面授权,不得转载或使用该等文章中的任何内容,含图片、影像等视听资料。如您有意就相关议题进一步交流或探讨,欢迎与本所联系。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/177311
 
169 次点击