社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  aigc

韬安说 | 拨云见日:AI大模型开发版权争议及AIGC的可版权性问题探讨(上)

TA娱乐法 • 3 周前 • 106 次点击  
韬安说 | 第9期 

一、AI大模型开发的四个阶段

根据谷歌的介绍,大语言模型(Large Language Model, LLM)是一种基于大量数据训练的统计语言模型,可用于生成和翻译文本和其他内容,以及执行其他自然语言处理 (NLP) 任务。[1]我们常听到或用到的大模型包括Chatpt、DeepSeek、文心一言等。大语言模型的迅速发展是人工智能技术不断革新的重要体现,其中涉及的版权问题也一直是法律领域、创作领域和AI行业领域人士都非常关心的问题。

笔者认为,大语言模型对于数据(也称语料)的处理一般可以分为四个典型阶段:数据收集、数据存储、数据训练和内容生成。由于笔者并非AI行业技术人士,该分类仅为便于法律分析所做,技术上或有不严谨之处,本文谨围绕大模型开发过程中前述四个典型阶段可能涉及的法律风险展开分析,以期抛砖引玉。

(一)数据收集

巧妇难为无米之炊,数据收集是大模型训练的第一步,高质量的AI模型离不开高质量的数据投喂。

在国家网信办等多部门2023年共同发布的《生成式人工智能服务管理暂行办法》第七条中,明确规定生成式人工智能服务提供者应当“使用具有合法来源的数据和基础模型”。但何谓“合法来源”,该规定并未给出具体解释。但对于何谓不合法的来源,我国法律和司法实践给出了较为清晰的回应:

首先,对于构成作品的数据,《著作权法》第四十九条明确规定了,“未经权利人许可,任何组织或者个人不得故意避开或者破坏技术措施”。因此,如果权利人已经对版权作品采取了技术措施保护,以禁止或限制他人未经许可访问或使用的,那么开发者以故意避开或破坏等手段收集或抓取该版权作品用于AI开发,显然不属于“合法来源”,构成著作权侵权。

此外,对于本身可能并不构成作品的数据,绕过技术措施进行收集仍有可能损害数据权利人的竞争性利益,构成不正当竞争。值得注意的是,刚刚通过全国人大常委会审议、并将于2025年10月15日起正式施行《反不正当竞争法(修订案)》,新增“非法数据获取条款”第十三条第三款),明确规定“经营者不得以欺诈、胁迫、避开或者破坏技术管理措施等不正当方式,获取、使用其他经营者合法持有的数据,损害其他经营者的合法权益,扰乱市场竞争秩序。”但根据司法实践,认定非法获取数据构成不正当竞争,除了需要满足行为要件(如该条提到的欺诈等不正当方式),还需要满足结果要件,即损害了权利人的合法权益(如行为人抓取数据开发的产品/服务,构成了对权利人产品/服务的实质性替代)、扰乱了市场竞争秩序(如不合理增加了权利人的运营成本,或妨碍了权利人产品/服务的正常运行)等。

在近期二审审结的高德公司诉万得公司不正当竞争纠纷[2]一案中,高德公司主张万得公司未经许可且规避技术措施抓取了其享有竞争性利益的“拥堵延时指数”数据集,并置于“WIND金融终端”中向用户有偿提供,构成不正当竞争。万得公司的抗辩理由之一是原告数据属于公共数据和公开数据,其应当负有开放数据使用的容忍义务。

北京知识产权法院在该案中明晰了相关数据使用规则,值得参考:

1)关于公共数据。产生于企业经营而非源于公共管理或服务行为的数据,即便具有公共属性或可用于公益目的,也不属于公共数据,数据权利人无开放义务。

2)关于公开数据。如果数据是完全公开的(如无需登录或认证即可访问)且数据持有者未施加任何技术限制措施(如Robots协议或Api限制等),他人获取该公开数据的行为应不违背数据持有者的合理预期,难言不当,但故意规避技术措施获得数据,则具有明显的不正当性。

3)关于衍生数据。对于进行深度加工、具有独立市场价值的衍生数据,数据处理者即使公开无偿向社会公众提供,虽可推知不禁止其他主体访问、获取数据,但不意味着数据使用者可以在未获授权的情况下向其他市场主体直接售卖或有偿提供该衍生数据本身。最终,法院认定万得公司的被诉行为构成不正当竞争,判赔1250万元。

(二)数据存储

数据存储讨论比较多的集中在是否侵犯作品复制权的问题上。一般认为,需要根据数据存储的方式来分情况讨论,即属于临时复制,还是非临时/永久复制。

对于临时复制/存储,如可能是为了方便机器学习,在数据收集或调用过程中产生了临时缓存,这就像我们在网络观看视频时,浏览器可能会自动提前进行缓存,缓存的目的是优化用户观影体验、减少卡顿,且缓存文件通常不可被直接读取打开、活动结束后会自动删除。如果大模型的数据处理是类似这种实时学习的方式,并不会将数据固定和存储到一个独立的数据库中,那么这种存储方式在中国一般仅涉及著作权法中的“临时复制”,不构成著作权侵权。正如透过镜子可以看到反射的权利作品,但因为没有固定下来,这种临时复制并不会损害著作权人的权利,没有规制的必要。

对于非临时/永久复制,如AI开发者将收集的权利作品均固定下来,存储到自己的独立数据库单中,且这个数据库与AI训练是可以分离开来的,那么在目前现行的著作权法的规定下,这种行为产生了独立的复制件,可能会侵犯权利作品的复制权。虽然AI开发者可以就AI训练的整体过程提出合理使用的抗辩,以免除存储阶段的侵权责任,但基于侵权法的核心系依据行为来判断合法性,如果被明确证明存在数据存储、数据训练等不同且可分的行为的情况下,仍存在较大的侵权风险。

(三)数据训练

数据训练是大模型开发的核心环节。大模型训练可以细分为数据预处理、标注、特征提取、模型训练等步骤,通过概率和算法,最终实现完成人类特定任务(如内容生成)的目的。

关于数据训练过程中,如果使用到权利人的版权作品,是否需要取得授权这个重大争议问题,这些年国际上不同国家/地区通过立法、司法陆续给出了一些回应。从整体上,倾向于认定数据训练属于合理使用,可以豁免著作权侵权责任。

1. 中国方面

我国《著作权法》第二十四条合理使用条款,明确了在“个人学习”等十二种情况下使用作品,“可以不经著作权人许可,不向其支付报酬,但应当指明作者姓名或者名称、作品名称,并且不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益”。该法律渊源来源于《伯尔尼公约》著名的“三步检验法”,即适用于特定情形、不与原作品的正常使用相冲突、不损害原权利人的合法权益。虽然数据训练(或数据挖掘、机器学习)未被著作权法纳入法定的合理使用情形,但司法实践中,中国已经有法院在数据训练的合法性方面进行了开创性的探索。

典型案例即“杭州奥特曼案”,杭州互联网法院认为:“该种使用行为(指数据训练)聚合大量作品作为分析样本数据进行提高作品创作能力训练,并非以再现作品的独创性表达为目的,且一般情况下数据训练只是对语料数据作结构特征分析时暂时保留了在先作品,数据训练及生成过程中也未将在先作品展示给公众,因此,本院认为,在无证据证明生成式人工智能是为使用权利作品的独创性表达为目的、已影响到权利作品正常使用或者不合理地损害相关著作权人的合法利益等情形下,可以被认为是合理使用。”[3]

2. 美国方面

美国《著作权法》第107条关于合理使用规定了著名的四要素判断法:

(1) 使用的目的和性质(如是否具有商业性质或具有转换性);

(2) 受著作权保护作品的性质(如虚构作品还是非虚构作品);

(3) 所使用部分的数量和实质性内容;

(4) 对受著作权保护作品的潜在市场的影响。

美国是AI产业发展的领头人,产业发展过程中,美国国内也发生了大量权利人起诉AI开发者的案例,典型如纽约时报诉Open AI案等,大部分仍在诉讼进程当中。

美国特拉华州地区法院在2025年2月汤森路透诉Ross公司侵权案[4]中,认定被告数据训练行为不构成合理使用,但该案并非典型意义大模型数据训练侵权的案例。该案被告开发的是垂直领域的AI法律检索工具,并非我们常见的通用大模型或生成式AI,法院最终认定该产品与原告的法律数据库产品存在直接竞争关系,不具有转换性,且可能损害原告潜在AI训练数据许可市场,因此不构成合理使用。

2025年6月23日,美国法院首次作出了人工智能训练行为构成合理使用的判决。[5]该案是三位作家起诉Anthropic (Claude.ai)的案件,美国美国加利福尼亚北区联邦地区法院评价了被告被诉的三个核心行为:

(1) 使用原告作品等内容进行数据训练;

(2) 将合法购买的图书逐页扫描后销毁,转换为可检索的数字格式,存入其“中央图书馆”;

(3) 从非法网站下载了大量盗版电子书,同样存入了该“中央图书馆”。

法院通过合理使用四要素逐一分析了上述三个行为,最终认定:

(1) 数据训练具有高度转换性,构成合理使用;

(2) 将纸质书销毁后转为电子书,提高了检索效率,也具有转换性,构成合理使用;

(3) 下载盗版书并建立资料库的行为构成侵权,且法院后续将就损害赔偿等问题进行进一步审理。

两天后,6月25日,美国认定人工智能训练行为构成合理使用的第二案[6]发布。类似第一案,本案为13位作家起诉Meta公司未经许可将其作品进行数据训练,该案同样由美国加利福尼亚北区联邦地区法院审理。法官经过四要素分析,认为在四个要素中仅第二个要素(作品的性质)有利于原告,但该要素重要性较低。最终,法院认定Meta的AI模型具有高度的转换性,且原告未提出足够证据证明被告的训练行为会导致原告市场被稀释,最终认定被告的数据训练行为构成合理使用。

3. 欧盟方面

欧盟在2019年通过的《数字化单一市场版权指令》(Directive on Copyright in the Digital Single Market,简称“DSM指令”)规定了文本与数据挖掘(Text and Data Mining,简称“TDM”)例外。根据该指令第四条的规定,任何主体以文本和数据挖掘为目的(无论是否为商业目的)复制、摘录合法获取的作品和其他内容,都不构成著作权侵权,除非著作权人以机器可读等适当方式明确保留其权利。这也就是我们常听到的选择退出(Opt-out)机制,即“默示同意”。2024年,欧盟又通过了《人工智能法案》(EU AI Act),延续了DMS指令规定的TDM例外,提出除非权利人作出保留,通用AI模型训练过程中的文本与数据挖掘不构成著作权侵权,但开发者应当遵守著作权人的权利保留声明,并使用最先进的技术手段识别该权利保留。欧盟的立法政策充分体现了其试图平衡著作权人利益和AI产业利益的努力。

但在实践中,Opt-out机制如何落实,仍存在很大的不确定性。例如权利人声明应当以何种形式作出?是必须机器可读,还是自然语言作出亦可?爬虫协议(robots.txt)等形式是否有效?对于传统作品如纸质出版物的权利声明如何作出?在多个不同平台传播的电子出版物,其权利声明应如何作出、由谁作出、是否各平台均需作出?等等。此外,在如今大模型训练缺乏足够信息透明度的情况下,绝大部分作品权利人可能无法知悉其作品是否被用于AI收集或开发,故其难以通过许可谈判从Opt-out机制中获益,而AI开发者同样需要承担较高的合规成本。从未来看,一个技术上便于普遍采用和实施、符合创作者和AI开发者利益平衡的Opt-out技术标准,仍有待建立。

4. 日本方面

日本在2018年修订的《著作权法》中加入了“非享受性使用”的合理使用条款。该法第30条之4规定:“在如下所列情形以及其他情形下,当对作品的利用并非为了自己或他人享受作品所表达的思想或情感时,在使用的必要范围内,可以以任何方式利用作品。但是,如果根据作品的种类及用途,作品利用方式会对著作权人利益产生不当损害的情形下,不适用本规定。第一,用于与作品的录音、录像或其他使用相关的技术开发或实用化试验情形;第二,用于信息分析的情形;第三,除上述两种情形以外,在电子计算机信息处理过程中对作品表达所进行的不被人类感知和识别的利用情形,但不包括电子计算机执行计算机程序作品的行为。”

换言之,在日本,只要不以“享受作品表达的思想或情感”为目的,同时符合“必要限度”与“不损害著作权人利益”,即可以使用该作品,该规定甚至突破了对传统的非营利性、合法来源等具体要求。可见,相比欧盟的谨慎,日本采取了更加鼓励人工智能等新兴产业发展的立法政策。

(四)内容生成

AI大模型生成的内容,不应与他人在先作品构成实质性相似,否则将可能构成著作权侵权。这一点,应该是四个阶段的版权问题中,争议最小的。

按照著作权侵权比对“接触+实质性相似”的基本原则,其他作品在先公开发表过即可以推定满足接触要件,权利人只需要举证曾经公开发表/出版即可,无需证明被告方实际接触。因此,对于此类侵权案件的核心判断在于,双方作品内容是否构成实质性相似,即排除思想范畴、公有领域、有限表达等不受著作权法保护的内容后,在具体表达层面是否相似。

关于被诉 AI平台侵权责任的认定,还需要结合被诉平台的性质(大模型/第三方API调用模型)和提供的服务类型(内容服务/技术服务),判断被诉平台是否为直接侵权的主体,是否构成直接侵权;若不是(如自身不训练数据,仅通过API调用等方式允许用户自主训练和生成内容),则判断该平台是否尽到合理注意义务(如是否收到侵权通知后及时删除侵权内容);若没有,则仍可能构成帮助/间接侵权。

例如前述的杭州奥特曼案,法院虽然认定数据训练属于合理使用,但对于输出阶段,法院认定被告作为生成式人工智能服务提供者,应当知道网络用户利用其网络服务侵害涉案作品信息网络传播权而未采取必要措施,其未尽到合理注意义务,主观上存在过错,应当认定构成侵害原告信息网络传播权的帮助侵权行为。

另外关于用户是否可能承担侵权责任,虽然实践中尚未发现用户承担责任的案例(杭州奥特曼案中的原告并未起诉用户),但理论上当平台构成帮助侵权,则必然包含直接侵权的主体,即用户;此外,对于用户故意使用侵权语料训练定制化的侵权模型、故意诱导大模型生成侵权内容、或明知输出内容侵权仍采取公开传播等方式扩大侵权影响等等情况,用户仍可能承担侵权责任。

(未完待续)

——撰稿人:高成

参考:
[1] https://cloud.google.com/ai/llms?hl=zh-CN
[2] 详见北京知识产权法院(2024)京73民终1761号民事判决书。
[3] 详见杭州互联网法院(2024)浙0192民初1587号民事判决书。
[4] THOMSON REUTERS, et al. V. ROSS INTELLIGENCE INC. (1:20-cv-613-SB)
[5] ANDREA BARTZ, et al. V. ANTHROPIC PBC. (3:24-cV-05417-WHA)
[6] RICHARD KADREY, et al. V. META PLATFORMS INC. (3:23-cv-03417)


高成律师

邮箱:g.cheng@taoanlaw.com

高成律师专注于知识产权、泛娱乐与互联网领域法律的争议解决及非诉法律服务,服务过的客户主要包括头部影视公司及行业协会、互联网视听平台、艺人/KOL、作家、艺术家、MCN机构等。高成律师致力于为客户提供版权交易、影视综项目的制作发行、IP衍生开发、广告代言、商标布局及维权、争议解决等多维度专业法律支持。

高成律师毕业于上海对外经贸大学法学院,获法律硕士学位,具有中国律师执业资格,工作语言为中文与英文。
资质与荣誉
  • 国际保护知识产权协会(AIPPI)中国分会版权专业委员会委员
  • 国际保护知识产权协会(AIPPI)中国分会信息技术和互联网专业委员会委员

- END -
本栏目文章为本所为本行业及社会公众提供的公益性普法服务,不属于针对具体事项的法律意见,也不代表本所针对具体个案的意见或观点。



图片


图片

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/185332
 
106 次点击