社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

蔡元臻:机器学习著作权法定许可的适用基础与规则构建

知识产权杂志 • 6 月前 • 282 次点击  


机器学习著作权法定许可的适用基础与规则构建


蔡元臻:同济大学法学院副教授


内容提要


人工智能模型训练(机器学习)侵权是人工智能著作权冲突中的重要问题。扩张适用合理使用制度和加强损害赔偿救济难以解决社会利益失衡的难题,法定许可模式仍具有难以替代的利益调和功能。机器学习法定许可的使用行为仅限于复制,商业性数据挖掘必须遵守法定许可,合理使用仅适用于公益性明显强于商业性的情形。法定许可费用的制定可以参考损害赔偿许可使用费的裁定方法,费用的收转仍需通过著作权集体管理组织配合执行,但是需要提高作品使用者的信息标注义务和完善人工智能法定许可信息机制。机器学习孤儿作品的特殊情形可以采用责任限制为主、法定许可为辅的二元治理模式。人工智能研发者负有数据过滤和信息披露的注意义务,后者应当遵循强制公开和公平合理原则;人工智能服务提供者则是在避风港规则的基础上,承担研发者信息披露的形式审查等义务。


关 键 词


机器学习 法定许可 社会利益 孤儿作品 注意义务



一、问题的提出:人工智能模型训练对著作权制度的挑战


有关生成式人工智能的知识产权法学探讨始于机器创作的可版权性之问,随着功能性更强的人工智能技术的问世(如文生视频模型Sora和语言模型ChatGPT-4),愈加成熟的算法生成物充斥于信息空间。飞速发展的产业也许无暇等待理论体系的漫长调整,由于人类作者群体与人工智能产业之间的权益冲突加剧,目前各界在一定程度上搁置了有关“是否存在冲突”的探讨,径行走向了“如何解决冲突”的阶段。


从生成式人工智能技术普遍采用的运行流程来看,可以将该项技术与人类创作的著作权侵权冲突划分为三个环节,分别是人工智能模型在设计完善时获取人类作品进行分析处理的机器学习环节,操作者通过输入和调整参数而命令模型进行计算的算法运行环节,以及计算完成并生成最终内容的结果输出环节。三者构成了人工智能创作的前端、中端和后端。尽管三者于理论上都存在侵犯人类作者著作权的可能性,但是处在前端的机器学习不仅是整个侵权过程的起点,也包含了最具争议的侵权认定。如果能够妥善解决前端的问题,则可以极大地避免中端的算法运行侵权。至于后端的生成内容与人类作品之间相似性判定的问题,本身早已为司法实践所熟悉。实际上,在操作者不刻意干预、反复调试的情况下,人机作品构成实质性相似的概率极低。易言之,机器学习侵权是当前最为迫切和现实的人工智能著作权问题。


人工智能模型在学习的过程中需要使用超大体量的数据集,数据供应不足会严重削弱训练效果。部分数据显然是不具备可版权性的,但是机器学习使用大量人类作品也是不争的事实。针对这一著作权法律治理的重大问题,主流观点反映出两个截然不同的立场:一者倾向于将此种使用视作著作权法中的合理使用行为,从而允许人工智能产业无偿使用现有作品;二者主张强化侵权判定,仰赖司法救济来捍卫作者群体的利益。


上述两条路径各有利弊且难以调和,但更为关键的问题在于,在人类作者与人工智能产业之间,两种方案在本质上都是以牺牲对方群体的权益为代价,来实现保障本方利益的目的。鉴于两方权益都蕴含了不容忽视的社会意义,难言主次抑或轻重,必须从合作共存的原则出发,重新思考人工智能时代的著作权制度安排。本文认为,著作权法定许可制度在人工智能技术环境下具有更高的合理性,在基本规则的调整和体系化完善的基础上,该制度将更具备可操作性。依循该思路,本文首先分析并证否合理使用和侵权救济等解决路径;其次从法经济学和国际政治角度出发,论证法定许可模式的适用基础;再次构建机器学习法定许可的基本框架,明晰相关规则和概念;最后进行该制度的体系化完善,进一步消除关于其可操作性的质疑。



二、机器学习著作权纠纷的现有解决方案


(一)合理使用制度的扩张适用


著作权合理使用制度允许在一定范围内自由且免费地使用他人作品,由于可以一劳永逸地规避侵权风险,该制度受到人工智能产业的普遍青睐。2020年之前,美国、欧盟、日本相继对机器学习中实施的数据挖掘和复制行为采用了合理使用模式,这在一定程度上是因为较早的人工智能技术尚未严重侵蚀作者群体的利益,灵活、宽松的政策立场有助于本国在技术孕育阶段尽早取得国际竞争优势。但时至今日,我们可以从域外新近的立法表达中察觉到一种愈发审慎的态度。


以2024年7月正式颁布的欧盟《人工智能法案》为例,该法在适用范围和权利例外方面沿用了《数字化单一市场版权指令》的相关规定,既允许商业主体挖掘他人的文本数据,又明确著作权人对非科研目的的使用享有声明保留的权利。但是具体地看,《人工智能法案》前言第104条或多或少地反映出欧盟对人工智能产业合法性的大致判断——人工智能模型的设计和运行很难保障尊重他人著作权。只有在确立著作权制度具有约束效力的前提下,才能确保人工智能立法的合理性。在该法案前言第105条、第106条、第107条和第108条中,欧盟继续三令五申著作权保护和作者声明保留权的重要性,同时规定了人工智能提供者的信息披露义务以及行政机构的监督义务。可以看出,欧盟立法意识到了人工智能技术与作者著作权的冲突关系,并且正在努力划定二者的利益边界以缓解冲突。


日本著作权制度的近期动向也存在类似的情况。2018年日本《著作权法》修订扩张了合理使用规则的范围,其第30条之四的“信息分析”合理使用摆脱了原有的统计方法限制,涵盖了机器学习的数据处理方法。不过,在2024年日本文化厅著作权科就《关于人工智能与著作权问题的观点(草案)》征求意见之后,官方认为尽管原则上机器学习仍然可以构成合理使用,但是对于集中学习特定作者作品的行为,则需要另行管控。这本质上是基于机器学习目的的公共性差异,而将使用行为区分为面向大众的“非作品性使用”与针对特定作者的“作品性使用”,对看似不与作者利益相冲突的“非作品性使用”予以豁免。


美国在调和技术与法律关系的问题上,习惯利用著作权合理使用制度中的“转换性使用”裁判理论,对新兴技术的态度相较于欧盟模式更显宽松,并且在面对图片缩略和图书文字抓取技术时多次采用。仅就数据抓取而言,机器学习的行为本质与先前的新型传播技术没有根本差异,其在建设数据库的过程中,以自动化计算分析为目的,以他人素材的大规模复制为行为表征,同时没有依循或者利用原作品的表达方式和信息内容。如果将机器学习的主要目的之一理解为催化知识生产,机器学习就会带来影响更为深远的“优势公益”,从而可以再次被认定为合理使用。在2023年底美国版权局发起的研讨活动中,以美国计算机通信产业协会为代表的多个技术产业组织都表达过这一观点。


合理使用的制度选择和转换性使用的思维路径在我国研讨机器学习问题的过程中均得到了一定的认可。例如,学界于2024年先后发布的《人工智能法(学者建议稿)》和“AI十二条”中的“数据合理使用”条款采纳了转换性使用和“三步检验法”的认定标准,糅合了不同立法模式的特点。借助合理使用制度来化解机器学习的著作权侵权风险,一方面具有比较明显的效率优势,可以省却信息不对称和海量授权许可所造成的社会交易成本;另一方面,能够保证学理和法治层面的逻辑自洽,通过修正概念和完善立法,创设专门的“机器学习合理使用”规则。总的来说,合理使用模式是在技术优位观念下一条较为简便、高效的法治途径。


(二)强化侵权行为认定和法律救济


世界典型国家在合理使用制度的立法和适用问题上表现出了些许意愿,但囿于争议较大,总体仍不明朗。趁此间隙,已有著作权人抢先发起了针对人工智能模型研发者的侵权诉讼。数据抓取的技术流程始于数字化的复制行为,其侵权构成存在相当程度的讨论空间。在美国New York Times v. Microsoft案中,《纽约时报》声称OpenAI公司使用其大量文章训练ChatGPT而侵犯著作权,后者通过信息输出服务,已具备了作为信息来源与《纽约时报》在新闻服务领域展开竞争的能力。在Getty Images v. Stability AI案中,大型图片数据库主张被告未经许可使用了超过1200万张照片用于构建人工智能。在Authors Guild v. OpenAI案中,原告认为其受版权保护的作品被OpenAI公司用作训练数据,并且正在输出模仿性的、存在替代作用的人工智能文字作品。与此同时,其他文字作品作者和美术作品作者也基于同样情形提起侵权诉讼。


作者群体通过主张损害赔偿,以一种更为强势的姿态回应技术冲击,司法机关通常也乐于接受这一治理模式。当然,侵权损害赔偿并非作者群体争取利益平衡的唯一途径。在行政监管职能相对更为完备的法国,其杂志新闻编辑工会、新闻总联盟和法国新闻社联合指控谷歌人工智能服务Bard未经许可使用作品用于训练,同时未能遵守关于公平竞争的多项承诺,促使法国竞争管理局(Autorité de la Concurrence, ADLC)作出了2.5亿欧元的罚款决定。此案的意义在于揭示了人工智能法治困境的多元属性,权力机构可以基于著作权方面的核心争议,延伸性地运用竞争法、产业政策甚至强制谈判的非常规手段来宏观调控市场。


(三)现有方案的法社会维度之困


扩张适用合理使用制度和加强对作者的侵权救济,代表了破解人工智能著作权困境的两种流行观点。从二者截然相反的利益倾向不难看出,它们分别来自人工智能产业和人类作者群体这两个对立阵营。如果仅从法律治理和学理逻辑的角度来剖析,二者都有着明确甚至不容置疑的法益追求,理论上的解释构建也并不困难。合理使用认定避免了人工智能技术运用中的著作权法律成本,使得产业可以走向更加宽松、快捷的发展道路,立法上的迅速回应也能让大型企业尽早“重归自由”。这不仅惠及社会运行的整体效率和科学技术创新,更在大国技术竞争的语境下具有重要的国际政治意义。事实上,人工智能的技术研发版图带有明显的地缘性,“科技脱钩”的压力迫使各国有时无暇兼顾著作权保护。


相反,对于作者权利救济的重视在彰显私有财产权地位的基础上,重申了“人类中心主义”这一重要的主体观念。在人类社会漫长的技术变革历史上,尚未出现像人工智能一般冲击人类作为绝对权利主体地位的情况。美国版权局通过拒绝人工智能创作物的登记注册,暂时捍卫了人类中心的作者身份传统。但是当人们试图在侵权纠纷中争取更大权益时会发现,否定权利救济会导致人类作者在面对工业技术时,难以维系数百年来的“本体属性”,这种对人与技术关系的重新书写几乎不可能获得社会的普遍认同。


如此再看,囿于单一化的利益倾向和绝对的矛盾关系,二者注定都在合理性基础上存在缺陷。诚如哈佛大学Tushnet教授所言:“人工智能时代的著作权思考牵涉许多重要的法学理论和规则,但是关键问题终究不在于模式的取舍,而是利益的分配。”立法者并非不知道如何更好地保护作者的民事权利,但是否值得为此去放缓尖端技术的发展速度?例如,美国田纳西州众议院2024年通过的《确保肖像、声音和图像安全法案》计划修订该州法典,将未经许可提供专门用于机器制作他人照片、肖像和声音的技术和设备的行为视为侵权。这种明显带有间接侵权规则意味的保护说明人格权得到了比著作权更多的立法重视,其后续得到了美国其他州的效仿。网络法理学研究认为,数字空间的法律架构应当兼顾网络用户地位和企业财产,但是考虑到技术本身极为强大的竞争能力以及知识壁垒和政策资源上的庇护,法律制度应当向公众稍加倾斜,对技术企业予以适当的约束。申言之,对于著作权制度,社会利益关系的重新调和意味着人类作者应当在经济利益上享有长期稳定、可预期的法律保障,这是合理使用模式和侵权诉讼模式难以实现的社会效果。



三、机器学习法定许可制度的合理性论证


(一)法定许可回应技术变革的历史经验


之所以在合理使用与法定许可之间选择前者,更多是基于其立竿见影的实施效果和交易成本较低的考虑。合理使用本质上是一种著作权的强制免费交易。传统著作权理论认为两种制度都有平衡社会利益的作用,有些情况下合理使用也许更胜一筹,法定许可本身也不具备增进公共利益的功能。然而在人工智能著作权时代,这些经典论述需要重新审视和修正。正如前文所述,合理使用制度虽然向来以利益平衡功能著称,但是其没有能力在技术变革的特殊时期兼顾各方利益。许多国家著作权制度所通用的“三步检验法”首先要求将合理使用情形限制于“特定情况”,在目的导向性的解释下,此类情况必须达致某种更高社会价值的公共目的。


无论我们对公共目的进行怎样的多元化释义,都难以改变机器学习合理使用与公共目的背道而驰的事实,这一社会义务应当转由法定许可制度来承担。法定许可的功能在于缓解产业矛盾和弥补市场失灵,能够针对性地回应技术变迁所带来的挑战。很大程度上,法定许可正是技术变迁的法治产物,其意义不仅限于调整著作权领域内的法律关系。即便是合理使用理论发展较为领先的美国,也更习惯于利用强制性的著作权许可制度来化解新技术与著作权法之间的矛盾。从纸卷自动演奏钢琴的异态复制行为许可,到有线电视和卫星电视载体的信号转播许可,以及非交互性网络流媒体服务对录音制品的数字表演许可等,几无例外地起到了积极效果。


(二)法定许可定价逻辑的缺陷与澄清


通说认为,法定许可通过限制和固定许可费用来破除市场垄断。除算法垄断外,市场垄断暂时不构成人工智能产业的核心议题,但许可费用在著作权治理中具有不容忽视的重要性。法定许可制度对费用的限制和固化作用紧密绑定并且各有利弊。价格限制既可以防止垄断,也有助于许可机制在全社会范围的广泛适用,但是有时会因为低估作品市场价值而遭受诟病,数字音乐作品的法定许可正是因此而被视为技术政治妥协的失败案例。价格固化能够有效降低社会交易成本,但可能有悖于变动不居的市场关系而引发担忧。


长久以来,法定许可制度的定价逻辑似乎都伴随着脱离市场的质疑,并逐渐形成一种固有理论。但是本文认为,这些价格限制和固化的所谓负面效果,不仅存在夸大之嫌,在实际的制度构建过程中也不乏应对之策。首先,遵循我国法定许可的传统模式,作者可以享有针对法定许可适用的声明保留权利,这一作者退出机制为自由市场交易保留了运作空间。事实上,即便在取消退出机制的情况下,作者和使用者也可以分别通过转让著作权和事前协商的方式实现私人自治。其次,人工智能产业的许可市场失灵远甚于数字音乐。由于市场定价缺失和合理使用主张的存在,机器学习面临的首要问题并不是许可费用过高或者过低的判定,而是有偿抑或无偿的选择。在目前的现实环境下,法定许可应当是最有可能延续创作激励的模式。在美国版权局就机器学习许可征求社会意见的过程中,诸多产业主体表示认可强制许可制度所带来的基本利益保障,便是基于同样的考虑。最后,版税调整的配套机制能够强化许可费用的灵活性,这在政策层面不存在立法争议,主要依赖于立法者与各个利益群体的充分沟通。


(三)本土法治和国际政治层面的双重意义


法定许可模式尽管在操作性方面仍有一些困难亟待克服,但是该模式的内核——强制性的基础对价交易,使其在应对人工智能时代的利益冲突时具备优势。关于人工智能著作权矛盾的许多探讨都是在侵权判定的语境下展开——使用行为究竟构成侵权还是合理使用?以美国作家协会为代表的作者群体宣称“人工智能对人类作者的替代效果将会造成文化侵蚀和生存危机”;相对立地,产业主体也表示知识产权合规成本过重可能导致企业向法律环境更为宽松的地域转移,产业迁徙不仅会造成本土人工智能技术的发展迟缓,也可能导致技术秘密的泄露。


愈发激化的观点对立说明人工智能法律已经上升为一个本土法治和国际政治命题。这也解释了一个更深层次的问题:为何在转换性合理使用有着明确论证、决策者又乐于迎合技术产业发展的情况下,主张许可模式的观点却逐渐势强?例如,最近一年美国版权局多次在官方回应中表示,将对强制许可、集中许可等方案进行内部研讨和征集意见,并且建议国会配合采取相同的措施。人工智能技术在根本上导致的是社会利益关系的冲突,而著作权只是集中体现冲突的一个维度。由于作者群体与技术产业之间缺少共存共赢的合意,强制性的许可合作制度应当是现阶段最为合理的选择。我国与域外各国尽管有着不同的文化传统、法治理念和行业协会制度,但是出于节约社会成本、保护私权和推动技术发展的考量,应当重视法定许可模式的可行性。



四、机器学习法定许可的主要规则


(一)使用行为的界定:以复制为中心


出于利益平衡的考量,法定许可通常会对使用作品的行为方式作出限制。不同类型的法定许可基于作品所属产业和使用场景的特点,在规定行为方式时各有偏重,总体上,各国法定许可都以复制权和发行权的规制为核心。


基于生成式人工智能的不同类型,机器学习的方式和原理也会有所区别。多数机器学习还是遵循“定位—获取—分析提取”的三段式技术逻辑。其中,“获取”即数据抓取,是指机器筛选数据后保存到人工智能结构化数据库中的过程。易言之,对于数据中构成著作权法上作品的部分,抓取本身包含了对内容的复制,未经许可的数据抓取行为可以视为侵犯复制权。后续无论是特征提取、算法运行抑或结果生成环节,都不会出现著作权法意义上的使用或者传播他人作品的行为,因此对于侵犯发行权的可能性通常无需讨论。


但是,“获取”并非机器学习的必经步骤。大型人工智能模型之所以先行抓取下载数据,是因为其具有训练持续时间长、重复次数多的特点,本地化处理可以显著提高效率和节约成本。实践中仍有一部分人工智能训练会在定位所需数据后,完成基本的技术价值分析便径行提取特征。这种特殊情形缺少了更容易判断的精准、整体复制过程,给行为属性的认定带来了新的困难。面对“提取原作品特征”这种具有高度技术抽象性的处理行为,司法实践几乎无从判断实质性相似和复制的问题,这与美国司法在软件代码实质性相似判定中的束手无策颇为相似:“裁判者普遍无法理解电脑软件,将本属于科技的事物归类为文学艺术,让司法认定标准的制定实施难上加难。”人工智能侵权的司法实践在未来将面临更加严峻的考验,通过司法文件对“仅接触、不复制”的机器学习行为予以明确定性应当是最为现实可行的路径。另外需要指明的是,在前述两种机器学习原理之间,一者属于“永久复制”,一者仅存在“实质复制”与“完全不复制”之辨,“临时复制”并非机器学习语境下的现实问题。由于机器学习行为的内涵仅限于复制,同时为了在后续的机器创作环节中保留作者针对生成物主张侵权救济的权利,机器学习法定许可仅指复制权的许可,而非涵盖多项权利的一揽子许可。


(二)使用目的:公益性使用的例外规定


美国大型集体管理组织“版权结算中心”(Copyright Clearance Center)曾就强制许可适用问题提出建议:鉴于强制许可占用行政管理资源较多,并且在许可费标准的商议过程中也附带产生了诉讼成本,因此许可模式仅适用于“基于市场思维的、非排他性的、自愿的,且用于商业研究、教学机构和教育技术”的使用行为。


这一建议隐含了一种行为目的导向之下的类型化思维。如果有些机器学习行为可以被认定为合理使用,有些则适用法定许可,那应当如何设定两种模式之间的适用边界?外国立法针对该问题的参考价值比较有限。本文的主张是,原则上商业性的数据挖掘必须适用法定许可规则,只有明显非商业性使用的情形才有讨论合理使用的可能。


采用上述主张的前提是明晰商业属性和公益属性的概念及相互关系。合理使用和法定许可都具备保障公共利益的制度功能,同时也不排斥商业性开发的行为和目的。单独采用商业性或者公益性标准来界分二者是不合理的,应当进一步考察两种属性的强弱关系。原则上,只有仅具备公益性,或者公益性明显超出商业性的机器学习行为,才有可能被认定为合理使用,而对于“强商业、弱公益”以及两种属性基本持平的其他行为,则一律适用法定许可规则。


基于这一思路,应当摆脱以往一些经典公共利益观念所产生的路径依赖,例如不能将以科研和教学为目的的使用简单归入合理使用范畴。美国、日本相继将商业性的数据训练行为定性为合理使用,但是欧盟《数字化单一市场版权指令》谨慎地赋予了作者对非科研目的数据挖掘的保留权,从侧面展现出对该行为“强商业、弱公益”属性的准确认识。我国将课堂教学和教材编写这两种教育产业下的重要行为场景分别划入合理使用和法定许可范围,也是因为后者蕴含了更高的市场价值和收益。“公共利益”概念本身具有很强的解释性和不确定性,必须在机器学习的相关规定中予以限缩化、类型化的审慎处理,不能任由合理使用挤占法定许可规则的适用空间。商业性机器学习行为应当适用法定许可,在其强公益性得到充分论证的特殊情况下,再考虑适用合理使用规则。


(三)法定许可费用的规则设计


法定许可费用既需要现实合理的具体标准,也需要得到卓有成效的收取和转交,如此才能保障著作权人的经济利益。许可费用标准的合理性和收转程序的可操作性也许是人工智能著作权的法定许可探讨中最为棘手的问题。“这一主张是有意义的,但付诸法律规定是不容易的”,正是其导致国内外的许多观点在整体积极之余又难免存在顾虑。循此,下文将针对法定许可费用的制定和收转规则构建进行讨论。


1.法定许可费用的制定


法定许可与产品市场之间自始存在一种互为矛盾的关系:一方面,降低社会交易成本的制度功能决定了“一刀切”式的许可费用形态,致使法定许可与市场的疏离;另一方面,为避免作者群体利益无法实现而导致社会失衡,许可费用又要尽量贴近市场标准。这种矛盾关系很容易让法定许可费用规则陷入顾此失彼的局面。法定许可作为著作权强制标准化交易的一种形式,其单方面定价机制很容易对权利主体造成利益损害。


为避免这一问题,我国应当更为科学、缜密地设计机器学习法定许可费用。囿于考量因素和专门理论的缺失,可以就这一问题参考侵权损害赔偿中许可使用费的裁定方法。也就是说,应当奉行以市场价值为中心的宏观政策和总体标准,虽然不需要将许可费用严格对标作品的实际市场价值,但是需密切关注著作权作品的普遍价值、学习作品数量、通货膨胀、国民消费水平、权利人预期收益、行业管理及国外定价等因素的变化情况,定期重新研判并调整费用标准。许可费用的计算还需要重点考虑作品类型,甚至可以延伸到背后的创作成本、独创性高度及市场知名度等因素。


机器对于作品的“部分学习”则涉及两个方面的思考。其一,部分作品是否仍然能够获得著作权保护?其二,如果机器使用的部分本身也足以构成作品,那么法定许可费用是否也要进行比例性的调整?这种比例思维在国内外立法和司法活动中多有体现。机器使用部分作品的行为引申出了“权利价值贡献”和“侵权价值贡献”的判定,其进一步引申出的问题是,机器学习法定许可是否需要对每个对象作品及其使用方式进行独立分析,再决定许可费用的有无抑或多寡?本文认为,虽然这一主张有助于法定许可费用的层次优化,但将消耗大量的立法成本和不同管理组织间的协调成本。从交易效率和企业操作的现实角度,动辄数以百万计的作品也使其难以付诸实践。未来在我国著作权集体管理制度趋于成熟并且与人工智能产业建立高效互动机制的情况下,可以考虑由负责不同作品的管理组织各自制定计费标准。在现阶段,针对不同类型作品和作品的部分使用,建议不再作价值或者比例上的区分。


2.法定许可费用的收转


在新技术浪潮导致市场暂时失灵的特殊时期,通常有两种著作权许可制度可供选择:集中许可制度和法定许可制度,自由协商更多被视为二者的补充。仅就许可费用的收取而言,两种制度不同程度地依赖于著作权集体管理组织的运行。著作权集体管理组织将在人工智能时代发挥重要作用,并且有观点认为,其在本职工作之外还具有筛除低质量作品和低意愿作者的功能。如此一来,著作权集体管理组织负责管理的作品平均质量将高于使用者自行搜索获取的作品,还可以大幅降低大语言模型所需要的数据体量和算法负荷。


尽管如此,机器学习市场并不适合采用集中许可模式。囿于严控组织设立、专属许可关系、一揽子许可模式等制度性问题,著作权集体管理的市场垄断隐患依然存在。垄断的后果之一是歧视性许可,对于作者而言,人工智能模型有可能根据接触作品和获取许可的情况,为降低成本而调整后续机器学习的作品选取标准和策略,导致一种新的“算法技术歧视”现象。


法定许可依然是迅速重建利益平衡的最佳方案,其费用收转仍需通过著作权集体管理组织来配合执行,但是,此类组织长久以来在实际运行效果方面的弊端必须得到纠正。在许可费用的收取环节,由作品使用者承担更多的注意义务,在成本整体可控的前提下,对所使用的作品进行必要的信息标注,明确模型研发者的信息披露注意义务。


费用转付环节则有更为繁复的操作性难题,尤其是集体管理组织对作者的搜寻定位和未分配费用的披露监管。报刊转载法定许可曾经因为无法觅得作者等原因,其费用收转比例较低,后来有所好转。我国虽然未曾引入美国版税法官和作者审计权等特色制度,但是现行《著作权法》第8条中的权利信息查询机制是一条值得继续探索的道路。针对机器学习著作权许可的特殊场景,建议专门建立“人工智能法定许可信息查询系统”,全面披露使用主体、作品明细、作者身份、费用收转执行情况等信息。


(四)网络空间孤儿作品的特殊规则


孤儿作品著作权的归属、行使和救济并非著作权制度中的主流问题,其立法完善的进程相对比较迟缓。早期的孤儿作品多为馆藏文物,如今信息网络技术的普及则是用另外一种方式造就了孤儿作品。网络空间中的作品传播和使用具有更加明显的信息不对称性和非市场性。对于前者,当作品在网络环境下经历了多次且广泛的复制传播,且没有显性水印等数字标识措施的配合时,作者信息很容易逐渐脱离于作品,使用者继而无法正常获得许可。后者更多是指作品由于市场价值较低而遭到了作者的遗忘和放弃,也就是作者在有能力对作品进行身份绑定的情况下选择不作为,而数字内容的高速流动性、消费性和瞬时性特征进一步放大了这一现象。事实上,现实世界中的大多数作品都是非专业创作者的“网络弃儿”,其变相流入了公有领域。同时也不难发现,我国现有的孤儿作品制度很难适用于网络环境。


尽管我们无从统计网络孤儿作品的绝对数量或者相对比例,但是鉴于机器学习行为的持续时间、实施次数和数据集合体量,机器学习作品中必然存在大量孤儿作品。2014年国务院法制办公室公布的《著作权法(修订草案送审稿)》第51条曾经借鉴了英国、日本等国的法定许可模式,规定使用者在尽到勤勉查找义务的前提下,有权对孤儿作品进行付费使用。囿于举证责任、费用支付、作者搜寻等工作所带来的高昂成本,这一模式在域外实践中已经暴露出制度性的缺陷。人工智能时代的孤儿作品若是单独适用法定许可很难具备操作性,可以考虑责任限制为主、法定许可为辅的二元模式。


源自美国法的责任限制模式允许人工智能产业在未获作者许可的情况下,直接使用孤儿作品。该模式对使用者的主观善意有所要求,这一要件一般指使用者应当尽到“查找作者”的注意义务。对此,采用责任限制模式的国家和地区在立法上设立了不同程度的义务标准,例如美国版权局主张的“善意与合理勤勉”标准、欧盟《孤儿作品指令》的“勤勉与强制询问”标准、加拿大和匈牙利法的“合理努力”标准、韩国法的“尽力”标准等。繁重的查找义务有可能制约责任限制模式的应用,但是如果查找义务的要求过低,人工智能研发者必然会在象征性地查找之后便径直免费使用他人作品。本文认为,孤儿作品原则上优先适用责任限制模式,但是这一特殊情形必须受到几个方面的约束。首先,使用者主观要件的善意标准可以摒弃明显严苛的“尽力”标准,但仍应当遵循更为公平且契合“合理注意义务”原则的“勤勉”标准。其次,明确“勤勉”标准的具体意涵。可以借鉴欧盟及其数字图书馆高级专家组制定的强制询问规则,要求人工智能研发者借助自动技术或者人工操作,穷尽地访问、搜寻指定孤儿作品数据库。最后,倘若作者后续出现并索取许可费,则从责任限制模式转为法定许可模式,依据统一的法定许可收费标准予以补偿。


(五)作者退出机制的争议与保留


我国在报刊转载法定许可和录音制品制作的法定许可规则中,赋予作者声明拒绝授权的权利,这一做法在逻辑上与法定许可防止垄断的功能存在一定矛盾,因此颇受争议。欧盟《数字化单一市场版权指令》第4条第3款规定,文本和数据挖掘的权利保护例外是建立在“权利人没有以适当方式明确保留对上述作品或其他内容的使用”之上,属于世界上主流著作权制度中少数的类似立法。我国学界的相关研究尚未涉及这一问题。本文认为,机器学习法定许可可以沿用著作权人的声明退出机制。


传统法定许可模式的探讨往往隐含了一种假设,即产业中的一部分著作权人时刻准备垄断市场,继而作出拒绝许可、提高许可费用等妨碍公平交易的行为。由此得出的结论是,声明退出机制容易遭到此类权利人的利用而导致法定许可的效果大打折扣,甚至有可能在中小型著作权人的盲目跟风之下成为一种普遍现象。“滥用声明保留机制”的观点或许有一定道理,但是在人工智能时代下,著作权人却是被迫站在了“失去权益”“难保生计”还是“妥协共存”的十字路口,难言怀有多少左右市场的野心。美国大量作者组织在奋起捍卫权利的过程中,面对同样强硬的合理使用主张,陆续表示如果能够通过许可机制获得尊重和经济收入,便乐于接受这一安排。同时,其寄希望于影视行业与人工智能企业约定,在未来的影视作品制作中保障人类作者的就业。事实上,自2020年人工智能著作权问题引发社会利益矛盾以来,美国历史最悠久、规模最大的作家专业组织——美国作家协会在其游说活动中发布的21份倡议声明,几乎全部包含了有关著作权许可制度构建的主张。著作权人的传统价值观念及其行为规律并不适用于人工智能的社会场景,即便有权利人选择声明退出,其自行协商和维权在现实中缺乏持续性,组织协会也很难提供足够的援助。


声明保留与主体的趋利性之间存在直接关系。主张声明保留的主体一般仅限于少数大型著作权主体和专业著作权经营机构。此类机构具备更强的趋利性、谈判能力、财政实力,能够与人工智能产业展开平等的、规模性的合作对话。相较之下,个体著作权人很少自主声明保留,对于仅仅为了博取一线生机的传统创作者群体而言更是如此。虽然实践中多有作品发表的媒介平台(例如首发报刊)对法定许可规则发布拒绝声明,但其法律效力值得商榷,否则将变相形成一种媒介平台主导的集中许可机制,挤占原属于法定许可的适用空间。由于适用场景有限,少量的作者退出情形不会削弱法定许可模式的社会普适性,甚至可以就许可费用的市场化定制,为著作权行政管理部门和集体管理组织提供有价值的参考。



五、机器学习法定许可中的注意义务


(一)人工智能产业主体的注意义务


人工智能技术的复杂构造及其社会影响,决定了产业主体必须面对极为庞杂的注意义务规则。我国有些本土规范依循了保障“网络技术安全”的进路,将对损害国家利益、破坏社会稳定、侵犯民事权利、违反商业规则以及有损社会基础设施等情形的预防和应对,全部纳入了人工智能服务提供者的注意义务范畴之中。2024年4月公布的《人工智能示范法2.0(专家建议稿)》采用了更为宏大的注意义务体系,包含研发者义务和提供者义务、事前义务和事中义务、公法义务和私法义务、主动义务和被动义务、法律义务和社会义务等多个面向,这些不同层级和维度的义务将随着人工智能法治的衍进而继续细化。


在机器学习的技术场景下,注意义务的主要内容是数据过滤和信息披露。数据过滤的根本目的是防范数据中可能隐含的法律风险,研发者需要以提取关键词、分类处理和人工抽查的方式,全面排查损害社会利益和民事权利的内容,后续还将受到外部机构的监督和抽检。人工智能的数据过滤注意义务是平台版权过滤义务的升级适用,由于数据使用者需要筛除存在违法嫌疑的著作权作品,因此该义务在理论上的确有利于法定许可交易的有序进行,但是其技术可行性和成本可负担性还需等待产业的实践反馈。


信息披露义务也许是机器学习法定许可最为重要的配套性制度。世界各国的最新立法已经充分表明,由产业主体承担信息披露义务是人工智能风险治理的基本要求。收取法定许可费用的前提是人工智能产业对使用他人作品行为的公开,但是囿于监测和追踪机器学习技术本身的复杂性,如果使用者不主动披露并缴纳许可费,在很多作者组织看来,使用行为连同用于训练的作品复制件都将掩藏在海量的作品集合和技术壁垒之中。机器学习法定许可模式的成功与否,很大程度上取决于信息披露规则的构建及其在实践中的贯彻效果。


(二)机器学习信息披露的主要原则


国内外的早期立法更加重视后端的人工智能生成物标注义务。机器学习的著作权信息披露义务应当包含两个主体部分:对象作品的基本信息披露和训练数据集合中的数据标注,二者都具备公开性,但前者旨在面向公众并由作者和集体管理组织查阅和使用,后者则是便于行政机构的监督。本文认为,后续完善信息披露制度时,应当着重确立如下两项原则。


第一,强制公开原则。信息披露的强制性或许并非增加系统安全或者用户避险能力的必要手段,但是对于机器学习法定许可而言,强制披露是确保交易发生的前提。机器模型提供者至少应披露模型训练过程中所接触和使用的作品名称、来源、作者身份、明细清单等基本信息,从而允许作者或者集体管理组织知晓作品使用的大致情况,再在权利信息查询机制的辅助下跟踪许可费用的支付流程。我国《生成式人工智能服务管理暂行办法》第19条规定:“有关主管部门依据职责对生成式人工智能服务开展监督检查,提供者应当依法予以配合,按要求对训练数据来源、规模、类型、标注规则、算法机制机理等予以说明⋯⋯”从配套行政监管可以大致推断出训练数据披露的强制属性,这与欧盟《人工智能法案》的模式比较相近。2024年,我国陆续发布了《信息安全技术 生成式人工智能预训练和优化训练数据安全规范(征求意见稿)》《网络安全技术 生成式人工智能数据标注安全规范(征求意见稿)》的国家标准文件,后者虽然对人工智能训练数据的标注目的、类型、方式作出了较为细致的规定,但是根本上仍属于推荐性标准。总的来说,机器学习著作权信息披露的强制性亟待正式明确。


第二,公平合理原则。研发者在披露训练数据著作权信息的过程中,满足了作者的知情权,也保证了法定许可模式的现实可行,但可能给研发者自身带来商业秘密泄露的风险。过度披露作品信息有可能导致算法泄露,将信息披露异化为技术披露。由于算法的保密性、秘密性和价值性特点与商业秘密高度契合,过度披露将进一步损及人工智能技术领域的市场竞争秩序。事实上,即便技术秘密得以保全,其他市场竞争主体也能在一定程度上从被披露的作品信息中知悉披露方的发展策略和算法类型。商业秘密制度之所以将客户名单、商业合作对象这些看似与创新无关的事物纳入保护范围,也是基于类似的考量。从现阶段我国立法动向来看,立法对于信息披露导致服务提供者利益减损的风险尚欠考虑。循此,应当对机器学习的著作权信息披露设立公平合理的限度要求。借鉴个人信息处理制度中的最小必要原则,一如前述,模型研发者仅须披露保证法定许可交易的最小范围信息,至于使用方式、目的、次数、结果等则一概不论。在完成法定许可交易之后,应当在相应作品信息中补充标注法定许可事实。


(三)人工智能服务提供者的注意义务与避风港规则的适用


数据过滤和信息披露的义务主体是人工智能产品和服务的研发者,与之不同,单纯的人工智能平台的提供者既不接触或者掌握核心技术,也不直接操作模型,仅属于向公众提供使用渠道的中介主体。人工智能提供者的角色属性和社会功能与一般网络服务提供者没有根本差异,可以沿用近年来趋于成熟的平台治理模式,并在此基础上完善注意义务规定。


针对前端机器学习,人工智能平台应当承担审查研发者信息披露情况的义务。单纯的人工智能服务提供者难以知悉模型算法、数据集或者法定许可的实际情况,因此仅对信息披露作形式审查和抽样审查,而非实质审查或者全面审查。这在本质上属于对研发者的事前合规审查,抑或说平台并不“过滤作品”,而是“过滤模型”。在充分履行这一义务并确认信息披露之后,平台可以允许人工智能模型上线运行。此后,如果有作者发现作品数据公开不充分、信息标注不真实或者法定许可交易未完成的情况,可以向人工智能平台发送通知。平台收到通知后,基于平台技术特点和模型违法行为的具体情况,理论上可以采取限制运行、暂停或者彻底关闭服务的阶梯型必要措施。但是仅就机器学习所造成的著作权问题而言,倘若因为个别作品未曾支付法定许可费用便将模型予以下线,显然有违比例原则。相较之下,要求人工智能平台将情况向人工智能主管部门和相关著作权组织机构报告,这种外部监督机制更具合理性和效率性。最后,如果平台未予及时采取措施并导致违法行为的持续和扩大,平台理应承担连带侵权责任和行政责任。人工智能平台的避风港规则既是责任分担机制,也是风险分摊和交易促进机制。



结 语


历史上,人类与技术之间总是存在一种互助却又博弈的关系,虽然其最终结果通常是人类文明的进步,但是在技术勃兴的初期必然会产生难以应对的冲击。人工智能技术所引发的著作权治理困境,本质上是一个社会性命题。著作权制度的使命不能局限于厘清个案中的是非对错,而是应当充分发挥特定机制的社会效果优势,尽快完成主要相关群体之间的利益调和。在这一意义上,法定许可制度是更为合理的选择。法定许可模式较之合理使用等其他解决路径,可以在延续“人类中心主义”观念的同时让算法技术的发展免受拖累,因此具备更高的现实理性。本文从法律、经济、社会等角度论证了法定许可模式的合理性基础,并且尝试构建机器学习法定许可的基本规则。或许更重要的是,面对机器学习法定许可的成本隐患,提出和完善了许可费用、孤儿作品、注意义务等规则。著作权制度需要打破“追赶技术、约束技术”的刻板印象,追求让失衡的利益回归秩序的更高社会目的,这是人工智能时代下法定许可制度背后更为深远的意义。



相关链接


2023年第11期|焦和平 梁龙坤:人工智能合成音乐的著作权风险及其化解



来源:《知识产权》2024年11期

责任编辑:崔倩

编辑:梁艳超

审读:蔡莹


咨询邮箱:

zscqip@163.com

投稿网站:

https://zscq.cbpt.cnki.net/EditorHN/index.aspx?t=1



Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/176855
 
282 次点击