Py学习  »  aigc

AI治理专栏 | 夏杰:著作权法下AIGC训练数据构成合理使用的探讨

人工智能与网络空间治理 • 1 年前 • 492 次点击  

来源:社科大互联网法学

发布时间:2023-11-14




著作权法下AIGC训练数据构成合理使用的探讨

作者:夏杰


中国人工智能产业要跟美国直接竞争,需要在算法、算力和数据三个方面发力。其中,数据作为人工智能产业发展的生产性要素,特别是机器学习算法对数据的挖掘和训练性使用,已成为AIGC产业发展中必不可少的一环。法律规范意义上的数据获取手段是否合法正当直接影响到物理世界中数据可获取的程度,例如数据量大小、数据质量好坏、数据完整性程度等。本文从著作权法规范下对数据挖掘和训练性使用行为的法律挑战出发,探索在保护版权人作品著作权利益的基础上,如何在解释论和立法论两种路径下解决这一直接影响后续人工智能产业长期健康发展的难题。

一、AIGC训练数据行为面临的著作权法挑战
 
相比于输出端AIGC生成物的可版权性讨论,输入端的训练数据行为法律性质的讨论可能显得更为急迫。因为输出端AI生成内容的可版权性议题仅仅关涉事后的利益分配激励问题,不直接阻碍AIGC产业技术的本身发展;而输入端的数据获取和使用问题,是直接横亘在AIGC技术路上的达摩克利斯之剑,倘若这一合法性问题解决不了,这一AI技术应用模式可能遇到较大的挫折和停滞。
 
AIGC对版权数据获取和使用合法问题在近期的司法实践中呈现出井喷的局面。在美国,已经有版权人起诉AIGC技术或服务提供者版权侵权的众多案例,例如Getty Images (US)诉Stability AI案,Silverman等诉OpenAI案,Tremblay诉OpenAI案,Michael Chabon等诉OpenAI案,Michael Chabon等诉Meta案,Andersen诉Stability AI案,Reuters诉Ross案等。上述案件的基本诉由都比较类似,即作为版权人的原告起诉作为生成式人工智能技术或服务提供者的被告,被告未经原告同意许可的情况下,对原告享有版权的作品进行复制或其他使用行为,声称构成著作权法意义上的侵权行为。
 
作为PGC(平台生成内容)、UGC(用户生成内容)的下一个阶段,AIGC(人工智能生成内容)的基本原理是通过深度学习等算法,通过将海量文本转化为机器可以进行训练的数学模型,然后使用这些模型来生成文本、图片、音视频等内容。作为机器预训练使用的海量文本中,除了包括公有领域中的作品之外,也包括大量的拥有版权的作品。生成式人工智能技术对拥有版权作品的如下行为可能构成著作权法上的侵权行为:首先,在数据获取阶段,AIGC技术或服务提供者可能会采取爬取等手段,对公开的版权作品进行未经授权的复制;其次,在数据训练阶段,机器需要通过OCR识别、自然语言处理等技术将拥有版权的作品进行复制或挖掘,转化成机器可以读取的格式或形式,可能存在大量的作品未经版权人许可而被用于机器训练;再次,在AIGC生成阶段,可能存在大量的作品片段内容被使用或展示,这也构成对版权人作品的直接复制或对外公开传播行为。

二、现有著作权法下的合理使用路径探究
 
AIGC技术或服务提供者向版权人事先一个个获得版权授权许可是最安全的合规方式,但这一版权获取路径在版权内容归属高度分散,而AIGC训练所用数据海量的情况下,会产生极高的交易成本,实质上会阻碍这一授权机制的产生和正常运作,因为这相当于把如今图片、图书、音乐、电影、网络音视频、公开数据等各种形式的版权授权链路重新建立一遍,在上述版权授权都千疮百孔、漏洞百出的情况下,要完成AIGC训练数据的授权链路可能性特别小。
 
据此,著作权法上的“合理使用”制度自然而然成为解释论可以考虑的最优合规路径之一,如果AIGC技术或服务提供者针对版权作品的上述所有行为,能够构成“合理使用”,那么AIGC的训练数据行为就能豁免版权法的侵权认定。我国法院在分析合理使用一般采取“三步分析法”,即符合著作权法规定的权利限制或例外的13种特定情形、不得影响该作品的正常使用、不得不合理地损害著作权人的合法权益。这与美国法院采取四要素分析法基本上异曲同工【1】,四要素分析即指:考虑作品使用行为的性质和目的、 被使用作品的性质、 被使用部分的数量和质量、使用对作品潜在市场或价值的影响。鉴于这两种合理使用判断思路的内在一致性,本文将基于后一判定框架,将AIGC的数据训练的行为纳入“合理使用”的理由进行探讨。
 
首先,在使用行为性质和目的方面,AIGC对于现有版权内容的训练性使用可能是典型的“转换性使用”目的的场景。“转换性使用”理论在Google图书馆案中被典型阐释和应用。在该案中,法院认为,Google提供图书在线检索服务不同于提供图书内容本身,该行为能够产生新的不同于原作形式的服务市场,即便这一服务属于商业性使用,Google的行为也并没有造成原作的市场损害,因此这一使用构成转换性使用【2】。
 
在AIGC的场景下,AIGC技术或服务提供者使用训练版权内容的目的旨在帮助计算机学习人类生成内容的语法逻辑和搭配概率,并非针对原作的“表达性内容”进行使用,使用的并不是原作中的智力成果,这种“非表达性使用”在使用行为上明显不同于侵犯原作著作权的“表达性使用”,即不是针对终端用户的消费性使用,而是机器的一种过程性工具使用(例如作为校验环节使用训练数据),不属于著作权法受控的规范行为。
 
在输出内容上,AIGC提供的生成物内容可能构成新的AI信息服务类型,这与传统的欣赏或阅读为主的原作服务市场并不构成相同的替代市场,可谓创造了新的市场和需求,具有明显的转换性因素,而且AIGC对于原作的这种使用方式扩充了人类的知识,这种知识是人工智能产生的人类可能永远无法察觉或得到的新的知识或现实【3】,将其认定为转换性使用也符合著作权法丰富公共知识的最终目标。此外,在AIGC生成内容中存在大量复制原作表达的情况下,只要没有全文或整段复制,在某种程度上或许可以落入“为介绍、评论某一作品或者说明某一问题,在作品中适当引用他人已经发表的作品”这一范畴内,即AIGC对于原作的训练性使用本身并不是为了侵权的目的,在客观结果上也没有造成对原作侵权损害的扩大。
 
是否属于商业性使用并不构成判定“合理使用”的单一判定因素,在Google图书馆案中,Google对外提供的服务也构成商业性使用,只要从所有四要素整体判定即可,并不局限在某一单一因素判定。尽管AIGC对于训练数据的使用可能构成商业性使用,但这一使用并没有剥夺版权人对原作的版权利益,倘若人工智能公司不对AIGC技术进行研发或投入,版权人并没有激励或动力去开发AIGC技术。
 
其次,在被使用部分的数量和质量,以及被使用作品的性质方面,尽管AIGC对于原作的使用是全部复制,但从复制行为来说,AIGC在数据训练阶段对版权内容的复制不属于版权法意义上的“复制”,上述复制行为可能大概率构成“临时复制”,即属于技术上不可避免的复制,仅仅是为了对于版权内容的统计学意义上的概率使用,并不是为了复制原创作者的独创性智力成果表达,这类似于搜索引擎对被检索内容的临时缓存复制。【4】
 
大模型的生成结果依据的是统计学概率或大数据模型,这使得大模型生成的观点或内容不一定准确反映先有素材或现实,即神经网络等深度学习算法无法回溯出生成结果与训练数据之间的一一对应关系,【5】数据训练过程和AI内容生成过程实际是处于前后割裂的两个阶段,两者之间并不存在直接的因果关系,因此,训练中使用部分的数量多少并不等于AIGC生成内容的多少,所以AIGC生成内容和原作内容基本上不适用“实质性相似”的著作权侵权判定过程。
 
再次,在使用对作品潜在市场或价值的影响方面,AIGC对于版权内容的复制并不产生外界可获取的复制件,即没有剥夺原作品所享有的竞争性市场利益或份额,从著作权法激励理论来看,倘若某一复制行为不影响原创作者的激励,那应当属于复制权之外的复制。特别是对于AIGC来说,其已经不同于之前的弱人工智能产品或服务,其生成物是否属于可版权的客体处于极大争议的阶段,例如美国版权局在2023年2月对外的声明中表达,如果AI技术确定其输出的表达要素时,生成的内容不是人类作者身份的产物,该内容将不受版权法保护,其在注册申请中会被驳回。【6】在这一背景下,倘若AIGC生成物在法律上不属于版权保护的客体,那该生成物也不属于原作品的衍生作品,即也不构成对原作品著作改编权的侵犯。人类生成物和人工智能生成物并驾齐驱的背景下,也不存在两种潜在市场或价值出现交叉影响的情况出现,此时AIGC生成时代将会彻底颠覆著作权法适用的理论基础和前提。
 
最后,从产业政策或中小企业利益来看,保证版权作品公开可获得性对于AI产业中的中小研发者具有重要的竞争法上的意义。头部平台通常在数据、资金、技术等方面具有绝对优势,倘若再加上海量版权作品内容被某几个头部平台聚集,排除其他中小AI研发者获取内容进行大模型训练,那将抑制AI技术的大规模研发或部署,因此,“合理使用”制度具有降低中小AI企业研发门槛的作用。
 
三、建议
 
尽管依照当前司法实践中对于“合理使用”制度适用的框架,有较大概率得出AI对于“训练数据”的使用可能不构成著作权侵权,但这一适用也存在不同法院适用裁量存在的不一致,以及司法事后规制导致的市场预期不确定问题,因此从立法上对这一问题进行解决是釜底抽薪的做法。
 
从立法角度,通过著作权或人工智能等相关立法,将人工智能对文本和数据挖掘的复制、使用等行为明确作为“合理使用”的法定情形,已经成为不少国家或地区的选择。例如在日本2018年修订的著作权法中,增加“通过计算机处理创造新知识或信息之以下行为者,......以任何方式利用他人已公开作品,但不得不当损害著作权人利益。”【7】欧盟在其2019年《单一数字市场版权指令》中也将对文本和数据挖掘的使用限定了版权例外规则,即“成员国应当规定,科研机构和文化遗产机构为科学研究目的进行文本和数据挖掘,对其合法获取的作品或其他内容进行复制与提取的行为,属于96/9/EC指令第5条(a)项与第7条第1款,2001/29/EC指令第2条以及本指令第15条第1款所规定的权利的例外。”【8】
 
2022年12月,美欧等十六家机构在《科学》杂志上发表联名政策评论文章表示,过时的版权法已经在全球范围内阻碍对文本和数据挖掘(text and data mining,简称TMD)的研究,阻碍对机器学习、数字人文或社会科学的研究。并指出,越发达的国家(例如新加坡、日本、德国、瑞士、英国、欧盟、以色列等),针对文本和数据挖掘行为越采取较为开放的著作权法立法条款或司法惯例,越不发达的国家采取越僵化的著作权法规定。【9】
 
因此,建议我国在配套修改的行政法规《著作权法实施条例》中,将“人工智能的数据挖掘和训练”行为纳入到著作权权利的限制里,以增进著作权法制度的灵活性应对人工智能的技术发展,待相关适用经验成熟以后,可以考虑在下次《著作权法》修改时进行增加。
 
另外,如果将人工智能对训练数据的使用直接按照“合理使用”进行处理,可能会让著作权人产生利益分配不公平的感觉,但这种利益的补偿不一定必须在著作权法的框架下解决,也可以在著作权法之外寻求对著作权人的补偿,因为著作权作为法定权利,并不是保护著作权人作品的所有价值,保护的是著作权法规定的能平衡著作权人与使用者利益的作品的那部分“独创性”价值,作品上附着的其他非作品价值并不受著作权法保护,例如版权内容的数据要素权益。因此通过市场化的公开数据分享协议,将训练数据集中到公开透明的AI训练数据池或交易中心【10】在公开市场中进行交易,从数据交易市场上给予版权人补偿,而不是事前版权许可的授权机制补偿著作权人,这样既能规避高额的市场交易成本,又能在保护著作权人部分利益的前提下促进人工智能产业的发展。



【1】参见《最高人民法院关于充分发挥知识产权审判职能作用推动社会主义文化大发展大繁荣和促进经济自主协调发展若干问题的意见》[法发(2011)18号]

【2】Authors Guild, Inc. v. Google, Inc. (Google Books), 804 F.3d 202 (2d. Cir. 2015).

【3】亨利·基辛格,埃里克·施密特,丹尼尔·胡滕洛赫尔:《人工智能时代与人类未来》,中信出版社,2023年5月

【4】MW Carroll, Copyright and the Progress of Science: Why Text and Data Mining Is Lawful,53 UC Davis Law Review,2019

【5】N Lucchi, ChatGPT: A Case Study on Copyright Challenges for Generative Artificial Intelligence Systems, European Journal of Risk Regulation,https://doi.org/10.1017/err.2023.59

【6】Shira Perlmutter, Register of Copyrights and Director of the U.S. Copyright Office. March 10, 2023.

【7】高嘉鸿《日本2018年著作权法修正权利限制规定概要》,《智慧财产权月刊》,第245卷

【8】Directive (EU) 2019/790 of the European Parliament and of the Council of 17 April 2019 on copyright and related rights in the Digital Single Market and amending Directives 96/9/EC and 2001/29/EC (Text with EEA relevance.) (17 May 2019), https://eur-lex.europa.eu/eli/dir/2019/790/oj.

【9】Sean M. Fiil-Flynn1, Brandon Butler,et al.,Legal reform to enhance global text and data mining research:Outdated copyright laws around the world hinder research,Science,2022,2 December

【10】N Lucchi, ChatGPT: A Case Study on Copyright Challenges for Generative Artificial Intelligence Systems, European Journal of Risk Regulation,https://doi.org/10.1017/err.2023.59


作者单位:中国社会科学院大学法学院互联网法治研究中心



Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/164410
 
492 次点击