社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  aigc

拨云见日:AI大模型开发版权争议及AIGC的可版权性问题探讨(下)

知产观察家 • 3 周前 • 104 次点击  


高成

北京韬安律师事务所律师、

国际保护知识产权协会(AIPPI)中国分会版权专业委员会、

信息技术和互联网专业委员会委员



二、AI生成内容可版权性问题


AI生成内容(AIGC)是否具有版权,随着理论和实践的不断发展,在全球范围内已经达成一定的共识,同时仍存在一定争议。


共识的范畴可以简要总结为以下三点:


① AI本身并非民事主体(至少当前的国际共识),故AI不是其生成内容的作者或著作权人。


② 著作权的基石在于保护人类的独创性成果,因此没有人类参与或人类参与程度极低、完全或主要由AI自主生成的内容,不受到著作权法保护。


③ 如果创作过程和成果内容的核心来源于人类智力贡献,AI仅对人类的创作提供辅助,那么该成果构成作品,受到著作权法保护,创作该作品的自然人为作者,著作权归属于作者(除非AI平台用户协议另有约定或存在其他因素)。


目前而言,比较大的争议在于:需要达到何种程度的人类参与/贡献,才能够赋予AIGC以版权保护?这个问题在理论和实务、国内和国际都存在非常大的争议。接下来,笔者通过几个国内外的知名案例,就人类参与程度与最终内容获得版权保护之间的关系,试图拨开迷雾。


(一)由AI自主生成的内容


以下介绍和比较美国Thaler案和中国Dreamwriter案,两案的案情存在高度相似,原告均为AI模型开发者,均先有了原告开发的AI模型,后有了该AI模型自主生成的成果(图片/文章),且在该生成阶段都没有人类的参与(主要的区别可能在于Dreamwriter案中原告主张其自身为作者,Thaler案中原告则主张该AI模型为作者)。两案法官经审理,作出了完全相反的认定结果。


①Thaler v. Perlmutter案[1](2023,美国)


涉案图像由AI算法自主生成,申请人 Thaler没有进行任何改动,故美国版权局认定该图片缺乏“人类作者身份”(authorship),拒绝了其版权申请。后申请人向当地法院起诉,被法院以同样的理由驳回。

涉案图片:A Recent Entrance to Paradise



②腾某公司诉盈某公司案[2](2020,中国)


本案被称为“中国首例认定人工智能生成的文章构成作品案件”。原告主张被告未经许可在其网站发布了原告享有著作权的财经报道,涉案文章是由原告组织的包含编辑团队、产品团队和技术开发团队在内的主创团队利用Dreamwriter软件,在大量采集并分析股市财经类文章的文字结构、不同类型股民读者的需求的基础上,根据原告独特的表达意愿形成文章结构,并利用原告收集的股市历史数据和实时收集的当日上午的股市数据,于当日上午股市结束的2分钟内完成写作并发表。法院认为,原告主创团队在数据输入、触发条件设定、模板和语料风格的取舍上的安排与选择,属于与涉案文章的特定表现形式之间具有直接联系的智力活动。从涉案文章的外在表现形式与生成过程来分析,该文章的特定表现形式及其源于创作者个性化的选择与安排,并由Dreamwriter软件在技术上“生成”的创作过程,均满足著作权法对文字作品的保护条件,法院认定涉案文章属于我国著作权法所保护的文字作品。法院同时认为,涉案文章是由原告主持的多团队、多人分工形成的整体智力创作完成的作品,整体体现原告对于发布股评综述类文章的需求和意图,是原告主持创作的法人作品。


通过比较,中美两国该案的审理法官,对于“创作过程”的理解可能存在巨大差别。Thaler案中,法院可能仅将“创作过程”理解为限于AI模型开发完成后的具体的生成阶段,因为该过程没有人类的参与,故自然不能产生受到著作权法保护的作品;但在Dreamwriter案中,法院将“创作过程”扩展到AI模型的前期开发过程(数据输入、触发条件设定、模板和语料风格的取舍等),因该前期开发过程体现了人类(开发者)的智力活动,所以最后生成的内容也可以受到著作权法保护。就此,Dreamwriter案中法院提到“原告主创团队为涉案文章生成作出的相关选择与安排,和涉案文章的实际撰写之间存在一定时间上的间隔。涉案文章这种缺乏同步性的特点,是由技术路径或原告所使用的工具本身所具备的特性所决定的。”可见法院发现了这种“创作”与通常创作存在较大差别,但仍认为不足以否定其创作性质。


根据《著作权法实施条例》第三条规定:“著作权法所称创作,是指直接产生文学、艺术和科学作品的智力活动。”Dreamwriter案中,法院对于创作理念的突破,也引发了学界诸多质疑。王迁教授认为,“直接产生......作品”强调的是民事主体决定构成作品所需表达性要素的自由意志,其与作品之间的联系如此紧密,以至于只能用“直接”而非“间接”予以描述。与之相对的是“间接产生......作品”,包括对作品的创作理念、风格、目标和方法等下达指令、进行指导、提出意见或建议,其并不能直接决定构成作品的表达,而需要作者自行选择和判断,以个性化的方式予以实现。在此基础上,王迁教授进一步提出,Dreamwriter案法院认为“上述选择与安排符合著作权法关于创作的要求,应当将其纳入涉案文章的创作过程”显然是将“主创团队直接决定涉案文章的表述性要素(文字组合、遣词造句)”与“主创团队直接决定用于生成涉案文章的Dreamwriter程序的运行机制”这两个不同的概念混为一谈,其中后者并不是著作权法意义上对涉案文章的“创作”[3]


(二)用户提供复杂提示词和参数生成的内容


以下介绍和比较中国“春风”案和美国“太空歌剧院”案,两案同样高度相似,原告均为AI文生图工具的使用者,均使用了复杂的提示词和参数等内容,最终生成了涉案图片。但两案法院对于该图片能否受到著作权法保护,亦作出了完全相反的认定。


①春风案[4](2023,中国) 


本案被称为“中国AI文生图著作权第一案”。本案中,原告使用了stable diffusion工具,通过输入大量提示词(包括正向提示词、反向提示词),并选择了相关参数,最终生成了涉案图片。法院认为,从涉案图片本身来看,体现出了与在先作品存在可以识别的差异性。从涉案图片生成过程来看,一方面,原告对于人物及其呈现方式等画面元素通过提示词进行了设计,对于画面布局构图等通过参数进行了设置,体现了原告的选择和安排。另一方面,原告通过输入提示词、设置相关参数,获得了第一张图片后,其继续增加提示词、修改参数,不断调整修正,最终获得了涉案图片,这一调整修正过程亦体现了原告的审美选择和个性判断。在无相反证据的情况下,可以认定涉案图片由原告独立完成,体现出了原告的个性化表达,属于美术作品,原告是涉案图片的作者,享有涉案图片的著作权。

 涉案图片:春风带来了温柔


②太空歌剧院案[5](2023,美国) 


本案中,版权登记申请人使用了Midjourney工具,累计输入了至少624个文本提示词,获取图像的初始版本后,使用Adobe Photoshop消除缺陷并添加视觉内容,并使用Gigapixel AI提高分辨率。但美国版权局经审查认为,尽管申请者输入了大量提示词,但最终的生成结果仍取决于Midjourney系统如何理解并处理人类的提示词。部分提示词可能具有足够的人类创造性,可能可单独作为文字作品受到版权保护,但这不意味着向AI输入文本提示词足以实际形成该图像,因为提示词并不能对图像元素构成“创作性控制”(creative control)。此外,美国版权局认为,申请人补充使用Adobe Photoshop和Gigapixel AI进行修改的行为,没有增加新的要素,也不足以体现人类的创造性。

涉案图片:Théâtre D'opéra Spatial(太空歌剧院,右图为最终图片)


通过比较两案可以发现,尽管中美两地法院/版权局都认为人类的原创性贡献是使得AI生成内容获得著作权保护的关键,但究竟多高程度的人类参与程度可以被视为足够,仍存在较大区别。复杂的提示词和参数等的调整,在中国司法实践中可能被认定为施加了足够的创造性控制,可以视为“创作”的过程并获得版权保护;但在美国,仅靠输入提示词,并不足以体现出人类对AI生成内容的充分控制,因为最终生成的内容可能更加取决于AI模型的训练数据和算法,而非人类的输入。显然,美国对于人类参与程度/原创性贡献的要求更高。


就此问题,笔者更倾向于认为,用户仅通过输入复杂的提示词和调整参数生成内容,可能并不足以使得AIGC获得版权保护。理由如下:


(1)从输入提示词、参数的过程是否属于“创作”来看,可以作以下类比:


AI文生图过程


类比

 输入首轮提示词/参数


 老师给学生们布置美术作业



 选定某一生成内容



 老师评出最佳美术作品


 就该选定内容,给出多轮补充提示词/参数,直至选定最终生成内容



 为了评选全国大奖,老师给画出优秀美术作品的学生提供多轮修改意见,直至最终满意



通过类比可以发现,尽管老师参与了学生作业的创作过程,甚至可能提供了核心创意,但其提供的意见更可能属于思想范畴,而非具体表达,其意见无法充分决定最终的创作结果,该创作结果的表达内容和形式最终仍来源于执笔的学生,因此该美术作品的作者仍应当是该学生,而非老师;如果把类比中的学生换成AI模型,其他条件不变,那么输入同样内容(布置同样作业和作出同样修改意见)的老师,在智力贡献完全相同的情况下,也不应当因为完成绘画的主体的变化而成为该内容的作者。


(2)从用户对生成结果的控制力(输入提示词、参数和生成结果的对应性)来看:


AI模型因为其算法和训练数据的不同,同样的提示词和参数,可能产生结果迥异的生成结果,即便提示词极为复杂,也不太可能通过提示词产生能够与所谓用户“脑海”中完全相同的内容。尤其是,文字和图像本身属于两种完全不同的符号和表达体系,即便再精确的文字,也不可能仅对应唯一的图像结果,就像我们不可能用文字去定义或涵盖大自然所有的颜色。因此,对于同样提示词和参数生成的不同的结果,很难认定这些结果都是用户的“作品”。在用户难以通过提示词、参数调整对生成结果产生充分的控制力的情况下,也难以认定用户的作者身份。


(3)从用户对生成内容的选择来看:


至于用户从多个生成内容中选定结果,笔者认为这更多体现的是用户的审美或喜好,类似于鉴赏,这种体现审美偏好的选择并不能等同于创作。


(三)用户输入自有版权作品后生成的内容


以下两个案例都来自美国,相同点在于,申请人都将自己的版权作品(照片/绘画)作为向AI输入的内容并生成了最终结果。但美国版权局认定其中一个构成作品,另一个不构成。


①SURYAST案[6](2023,美国)


申请人以自己拍摄的建筑和落日照片为底稿,指示AI模型用梵高的《星夜》作为风格参考,并调整了风格强度变量,最终生成了涉案《SURYAST》图片。美国版权局认为,虽然申请人有结合两张图片并由AI生成新图片的想法,但这种思想不受版权保护。将两张图片具体融合的过程(如建筑、星星、云层、颜色等元素如何进行放置、安排和融合)是由AI模型而非申请人做出的,故拒绝了该版权登记申请。

涉案图片:SURYAST(右图)



②Rose Enigma案(2023,美国) 


申请人以自己的绘画《玫瑰之脸》为底稿,输入提示词并调整参数后生成了最终图片,并申请版权登记。同时,申请人声明放弃对最终输出图像中出现的“任何非人类表达”的权利主张。美国版权局审查后,批准了该版权登记申请,但明确“作品登记仅限于申请材料中清晰可见且可与申请人放弃权利主张之外的、与非人类表达相区分的、未经修改的人类绘画作品”。

 涉案图片:Rose Enigma


通过比较,虽然两案的申请人都是以自己的版权作品作为底稿输入给AI,但毫无疑问两申请人对最终AI生成内容的控制力完全不同。SURYAST案中,最终生成图片的核心表达,不论是画面元素、笔触、色彩、风格还是这些元素的融合方式,都是由AI来完成的,甚至申请人原摄影作品底稿的内容最终都已经变得模糊不清,底稿和AI生成内容的关联性变得极低;而在Rose Enigma案中,申请人精确地控制和利用AI模型,将其绘画手稿中的部分元素,如鼻子、嘴巴、玫瑰花等,转换为3D真实图像,最终形成涉案图片,可以理解为是对其原作的改编创作。因此,美国版权局拒绝了前案的申请,而批准了后案的申请。


但需要注意的是,虽然Rose Enigma案中涉案图片整体受到版权保护,但其中完全由AI生成的画面组成元素,例如最终的鼻子、嘴唇和玫瑰花等,被美国版权局明确排除在版权保护之外。从法律效果来看,盗用该整体图片的行为构成侵权,但如果截取和传播其中完全由AI生成的玫瑰花等元素,可能并不会构成侵权。由此可以看出,美国版权局对于作品的保护范围,根据是否来源于人类贡献进行了非常精细的划分,这一点值得借鉴。


(四)通过局部修改等个性化调整后生成的内容


A Single Piece of American Cheese案(2025,美国)


本案中,涉案图片是申请人完全通过AI工具创作完成的,图片中的绝大部分元素也都是由AI生成。申请人首先输入了一系列提示词,并使用特定模型,生成了一系列图片后选择了其中一幅,手动扩大了画布(图像工作区域),并手动绘制了更多的色彩细节。之后,申请人使用了图像修补技术(inpaint)超过35次(该技术利用AI模型智能推测并填补选定区域),并在原有图片的基础上增加了如第三只眼睛、融化的奶酪和人物上半身等要素,最终完成创作。

涉案图片:A Single Piece of American Cheese Case

(左图为输入关键词后AI生成,右图为最终作品)



美国版权局第一次审查后拒绝了申请人的版权登记申请,但申请人后申请复核,同时提交了接近10分钟的创作过程记录的视频,美国版权局审查后最终批准了该申请。


           涉案图片 A Single Piece of American Cheese Case 创作过程


需要说明的是,申请人在提交的版权登记申请中,仅对构成完整图片的元素的“选择、组合和编排”主张版权保护。美国版权局认为,申请人对AI生成材料主动的选择、组合和编排使得该作品含有足够多的人类独创身份,满足了获得版权的基本要求,因此可以受到版权保护。


但需要注意,类似Rose Enigma案,受到版权保护的内容并不包括单个由AI生成的内容或元素,因此如果第三人盗用的是前文展示的由AI生成的左图,而非最终成品的右图的情况下,可能并不会构成侵权。


通过本案,我们可以进一步发现,完全由AI工具生成的内容,并非一定不能得到版权保护。因为一个作品当中可能存在大量的组成元素,即便这些元素由AI生成,但对于这些元素的选择、组合和编排,同样可以体现人的智力贡献,特别是如果该内容中包含用户就特定区域进行精细调整或手动绘制的情况,人类的直接参与创作的程度会变得更高,内容受到版权保护的可能性也会越大。


通过对上述多个案例的比较分析,我们可以发现,AI生成内容获得版权保护的核心,在于人类的参与,人类的参与方式、参与程度、对成果的控制力等,都会影响生成内容可版权性的认定,且不同司法辖域在具体认定上可能存在分歧。因此,AI生成内容是否可以获得版权保护,需要具体问题具体分析和个案认定,没有简单一刀切的答案,但在既有的多个国内外的案例铺就的前路的基础上,未来AI生成物的可版权性认定的路径,已经愈发清晰。



三、实务建议


通过以上对LLM开发涉及的版权问题以及AIGC可版权性问题的分析,笔者对AI开发者、作品权利人以及AI内容创作者,总结了以下建议,供读者参考。


(一)对AI开发者的建议


  1.  数据收集


对于AI开发者而言,首先,应当通过合法手段获取训练数据。这是最稳妥、最合规的做法,可以有效规避潜在侵权风险。笔者梳理了可以以及避免收集的数据,供从业者参考:


可以收集


公共数据(如源于公共管理或服务的数据政府公开数据,但不包括企业自身经营中取得的具有公共属性的数据);爬虫协议/网站声明/用户协议等内容未限制抓取、且未设置技术措施限制抓取的公开数据;权利人明确声明允许抓取的数据


避免收集


权利人采取技术措施限制访问或抓取的数据;权利人通过爬虫协议或用户协议、权利声明等内容明确不允许抓取的数据;国家秘密/国防数据;商业秘密数据;自然人个人信息/敏感信息/隐私等



但必须注意的是,允许收集只是“手段/行为层面“,是否侵权还需要关注“结果层面”,即是否实质替代了权利人提供的产品/服务(如将合法收集的衍生数据并非用于分析,而是直接转售),以及是否破坏/妨碍权利人产品/服务的正常运营或提高其运营成本等。如是,即便数据收集行为本身合法,但结果上仍可能构成侵权/不正当竞争。


2. 数据存储


一般而言,AI开发阶段对版权数据的“临时复制”在我国并不会构成对著作权的侵犯,但如果AI开发者将收集的数据建立了一个独立的数据库,且可以和AI数据训练相分离,这种情况仍可能构成对版权数据的复制权的侵犯,尤其是针对以下情况:(1)存储从盗版网站下载的盗版作品和资源;(2)将此类数据库用于其他非AI数据训练的目的使用;(3)授权第三方使用等,则AI开发者侵权的风险将会急剧升高,应当极力避免。


3. 数据训练


从较多国家已有的法律实践来看,大语言模型的数据训练因为涉及的是对数据进行标识、清洗、分析、概率统计等技术维度的利用,并非传统意义上以享受作品的独创性表达为目的的使用,故在没有不合理地损害权利人合法权益的情况下,可能被认定为合理使用或侵权例外。


但仍需注意的是,对于AI开发者而言,如果开发的并非LLM大语言模型,而是就特定领域、范围的垂直模型(如法律检索),或者就特定风格、内容的定制模型(如奥特曼定制模型),则仍可能被认定为侵犯版权数据权利人在相关市场潜在的许可利益,继而存在较大的著作权侵权或不正当竞争的风险。


4. 内容生成


AI内容生成一般会视为独立阶段,故即便此前AI数据训练等阶段均完全合法,在AI模型仍生成与他人权利作品内容实质性相似的内容的情况下,除非能证明不存在“接触”可能性,AI开发者仍存在极高的侵权风险。但在在先作品已公开发表的情况下,著作权法意义上的“接触”已被推定存在,由于AI训练所使用的大规模的数据语料,以及算法黑箱的存在,AI开发者证明不存在“接触”可能性几乎是一个不可能完成的任务。


因此对于AI开发者而言,对于广为人知的权利作品、热门IP等内容,有必要提前采取必要的技术措施(包括但不限于关键词识别、过滤、屏蔽、拦截、提示、禁止生成等),避免生成侵权内容。此外,AI开发者还有必要设置明显的侵权举报、投诉渠道,合理应用“通知-删除”规则,积极处置权利人的侵权投诉,以降低自身过错,避免损失和责任扩大。


(二)对于作品权利人的建议


面对AI的冲击,作品权利人并非束手无策。虽然多国在立法、司法层面陆续明确了AI数据训练可能构成合理使用或侵权例外,但也有些国家或地区(如欧盟)明确了数据权利人有权作出权利保留。此外,在实践中,明确违反权利声明或规避技术措施等方式取得的数据,仍存在侵权的可能性,尤其是在不能证明属于临时复制且仅用于数据训练的情况下。


因此,作为作品权利人,如果不愿意自己的版权作品被用于AI训练,应积极采取权利保留措施或声明。例如在作品发表时在内容中明确声明禁止未经授权用于AI训练;如果是网站或平台经营者,可以使用爬虫协议(robots.txt文件等)、嵌入元数据等方式明确禁止AI爬虫抓取或训练;还可以采取技术措施,禁止或限制未经许可的访问或抓取。虽然这些声明和技术手段目前仍可能存在局限性和法律认定上的不确定性,但它们仍是著作权人表达意愿的重要方式。


(三)对AI内容创作者的建议


AI作为一种革新的生产力工具,可能越来越多地被用于辅助创作。对于内容创作者而言,最关心的可能就是,通过AI工具创作的成果,能否受到版权保护。


一个基本的原则是,人对于AI生成过程的参与、贡献或干预程度越高,那么受到版权保护的可能性就越高。具体而言,简单的提示词或参数调整产生的内容很难受到版权保护,而复杂的提示词和参数调整是否足以体现用户创作的独创性,在国际上也存在争议。


因此,对于AI内容创作者,除了使用复杂的关键词和参数外,还建议:(1)对生成内容的局部进行更多个性化的精细调整和控制;(2)结合自己已有的版权作品作为创作素材或生成内容的一部分;(3)对最终内容中不同元素的选择、编排以及整体的组合方式、顺序等施加自己的调整和控制,这些都将有效提高最终作品受到版权保护的可能性;(4)最后,基于大部分AI创作过程均难以复现,建议AI内容创作者,通过摄像、录屏、时间戳取证等方式,将自己完整的创作过程记录和固定下来,以便于万一未来发生第三方侵权时,能够有效证明作品的可版权性和权利归属,充分维护自身合法权益。


四、结语


我们处在一个变革的时代,AI浪潮势不可挡,未来可能深刻改变我们的生产方式、生活方式乃至思维方式。在这个过程中,著作权法作为激励创作、保护创新、促进文化传播的重要制度,其作用将愈发凸显。


在世界各国都纷纷将AI产业作为未来重点发展领域的情况下,多数国家和地区都倾向于选择偏向鼓励创新、促进AI产业发展的政策方向。但是,在未来技术和组织条件成熟的情况下,提高AI开发者的透明度义务(如公示训练作品清单),通过法定许可等方式,向集体管理组织或其他有代表性的组织进行集体付酬和分配收益,以平衡AI开发者和著作权人的合法利益,是应当考虑的方向。AI发展和版权制度的“博弈”不仅复杂,而且也将是一个长期的过程,但拨开迷雾寻找前路的过程,充满了挑战也孕育着希望。


(完)



【参考资料】


[1] STEPHEN THALER. V. SHIRA PERLMUTTER. (1:22-cv-01564-BAH)


[2]详见深圳市南山区人民法院(2019)粤0305民初14010号民事判决书。


[3]王迁:《再论人工智能生成的内容在著作权法中的定性》,载《政法论坛》2023年第4期。


[4]详见北京互联网法院(2023)京0491民初11279号民事判决书。


[5] Re: Second Request for Reconsideration for Refusal to Register Theatre D'opera Spatial (SR 1-11743923581; Correspondence ID: 1-5T5320R)


[6] Re: Second Request for Reconsideration for Refusal to Register SURYAST (SR#1-11016599571; Correspondence ID: 1-5PR2XKJ)



往期回顾


拨云见日:AI大模型开发版权争议及AIGC的可版权性问题探讨(上)


免责声明

编辑:张万

# 本文仅代表作者观点,不代表知产观察家立场 #


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/185278
 
104 次点击