在AI模型的训练过程中,数据收集、清洗和标注是重要的前置环节。随着基于大模型的AIGC应用逐渐推广和商业化,模型训练数据是否侵权需要纳入考虑,用于模型训练的数据可以分为专有数据、开源数据、专用数据集等类型。
针对不同的数据类型有不同的方式来保证数据的版权,或通过直接补偿创作者的方式,在很大程度上降低了训练数据侵权的风险。随着AI模型的不断迭代和性能提升,以及下游应用产业链的繁荣和相关规章制度的成熟,科技公司需要付出越来越多的成本来保证训练数据的版权与合规性。

1.1、专有数据:主要通过版权合作协议、API付费访问等方式保障版权,商业空间广阔
AI公司将专有数据用于模型训练,可以直接与版权方交涉,以保证训练数据集的版权合规性。包含特定领域的高质量数据以及未公开授权的私有数据,通常需要付费,但对于进一步提升大模型性能、增强模型的细分垂类能力很十分重要。AI公司获取专有数据的两个主要方式是版权合作协议和API付费访问。
1.1.1、版权合作协议:海外Shutterstock、Axel Springer等多家版权提供商与AI公司建立合作
版权提供商的高质量语料对于模型性能提升十分重要,并且能降低数据清洗和标注的工作量。新闻版权商拥有丰富全面且更新及时的信息,文学作品、艺术创作、影视作品中包含大量高质量的训练素材;另外,部分素材库本身就具备针对图片、视频、音乐等素材的标注,能大幅降低数据清洗和标注的工作量。
多媒体版权库Shuttertock与OpenAI、Meta、LG等公司建立合作,将其图片、视频、音频等素材提供给合作伙伴用于模型训练,并从中获得收入;新闻出版社Axel Springer与OpenAI合作,其新闻素材将用于丰富OpenAI的模型训练数据集;以色列文生图模型公司Bria AI与Getty Images建立长期合作,采用 Getty Images、Alamy、Envato等图像版权库的许可内容进行训练。

1.1.2、API付费访问:23年以来Reddit、Twitter等网站的API访问由免费转向了付费
通过API爬取网络数据也是模型训练数据的重要来源。随着大语言模型在不同细分行业的应用越来越深入,对于专业数据的需求也会水涨船高。
部分含金量高、专业性强的数据提供商会针对API访问进行收费。例如,金融领域的彭博API、新闻媒体领域的纽约时报API、虚数领域的Elsevier API、电商领域的亚马逊API、谷歌地图API等均需要付费使用。
社交平台、开源代码平台等非专业数据网站也逐步开始针对API访问收费。23M4社交平台Reddit和Twitter的API访问从免费转向了付费,背后原因可能是大模型训练需求拉动下API调用量显著提升,为两家社交平台带来了较高的成本。开源代码平台Stack Overflow宣布会向AI公司收取训练数据费用。

1.2、开源数据:依靠开放许可协议、特定的数据抓取策略来保障版权,但仍存在侵权的隐患
AI公司将开源数据用于模型训练,可以通过开放许可协议、特定数据抓取策略、手动筛查、社区监督等方式来保证版权合规性。开放许可协议是一种标准化授权方式,方便著作权持有人将数据授权给他人使用;抓取训练数据时也可以采取精细化的策略,充分尊重网站的API政策;此外,模型厂商也可以提升训练数据集的透明度,通过手动筛查和社区监督等方式来保证版权合规性。
1)开放许可协议:开源数据集的常见开放许可协议包括知识共享(CC)、开放数据共享(ODC)、社区数据许可协议(CDLA)等。知识共享协议提供六种选项:① CC BY:需注明作者、允许改编、允许用于商业用途;②CC BY-SA:需注明作者,改编作品必须在相同条款下共享;③ CC
BY-NC:需注明作者、允许改编、不允许用于商业用途;④ CC BY-NC-SA:需注明作者,仅允许非商业用途,改编作品必须在相同条款下共享;⑤CC BY-ND:需注明作者,不允许改编;⑥ CC BY-NC-ND:需注明作者,仅允许非商业用途,不允许改编。
2)特定的数据抓取策略:AI公司在抓取网页数据时可以采用特定策略避开有版权保护的信息,网页维护者也可以加强对于数据爬取的审核。例如,网页的Robot.txt文件规定了搜索引擎抓取工具可以访问哪些网址,noindex则可以禁止将某个网页编入索引,阻止抓取工具的访问。
3)社区监督:AI公司可以提升训练数据集的透明度,鼓励社区监督,若训练数据的创作人主张侵权可以进行申诉。这种方法更适用于开源模型,而对于商业化的闭源模型,训练数据集往往会作为开发商技术壁垒的一部分进行保密。
整体来说,开源数据的获取已发展出了一套完善的版权保护制度,但仍存在一定的侵权隐患。例如,部分公开网页不具备完善的开放许可协议和针对API抓取的规定,甚至公开网页中的内容可能本身就存在侵权行为。

1.3、 直接补偿创作者:海外先进技术识别AI生成内容的版权来源,建立基金会为创作者提供补贴
通过直接补偿创作者来保障版权的做法主要分为两种:1)事前补偿:版权人的作品在被采纳为训练数据时获得补偿;2)事后补偿:通过特定技术追溯AI生成内容的训练数据源,并针对性地给予补偿。
事前补偿的技术难度较低,但难以界定合理的补偿额度。海外知名图片版权库Shutterstock建立了贡献者基金,当投稿人创作的内容被用于AI模型训练时将获得补偿,并在后续使用模型生成内容时持续获得补偿。此类方法可以保证创作者获得一定的报酬,但不同风格、不同质量的内容对模型训练的贡献各不相同,很难具体量化,会给补偿定价带来一定的难度。
事后补偿指通过技术手段对训练数据溯源并进行对应的版权补偿,定价更合理但技术难度尚不成熟。23M9 卡耐基梅隆大学、Adobe Research和加州大学伯克利分校合作开发了两种算法,第一种算法可以阻止模型调用受版权保护的作品,第二种算法可以在模型用受版权保护的作品生成内容时为创作者提供补偿,该算法也能提供一种选择,让艺术家随时退出AI模型。另外,以色列文生图模型公司Bria AI于23M9开发了一种归因模型,能够计算数据源对AI生成内容的影响,从而对训练数据的版权人提供定价更加合理的报酬。

1.4、专用数据集:直接出售适用于AI和ML的数据集,或作为MaaS服务的一部分提升用户体验
专用数据集指经过筛选和清洗、直接适用于模型训练的数据集,需要数据集提供方履行数据确权义务。专用数据集为开发者进行机器学习和模型训练相关研究提供强有力的支持,大多数为开源数据集,也有部分数据集被用来出售。对于云服务提供商,往往会将专用数据集打包成MaaS服务的一部分提供给用户,帮助用户更好地训练自己的定制化模型。
1)直接出售数据集:此类数据集经过了前期的筛选、整理和注释,由标记的示例或输入输出对组成,能直接运用于AI和机器学习模型训练。付费方式包括一次性购买和订阅制,具体价格受到数据量、准确度、覆盖时间和地区等因素的影响。例如,数据集商店DataStock售卖高质量、结构化的网页爬取数据集,涵盖零售、医疗、旅行等多个领域;数据交易平台Datarade划分出了AI & ML训练数据专区,供提供者和开发者进行数据集交易。
2)作为MaaS的一部分提供给用户:微软、亚马逊、谷歌等云服务提供商均提供帮助客户进行AI模型训练和应用程序开发的MaaS服务,包括自研和第三方AI模型调用接口、围绕模型训练技术细节的配套服务和指导等。对于定制化模型,数据集一般是客户的个性化数据,但部分MaaS平台也会提供特定的模型训练数据集供客户使用。例如,微软Azure云平台为客户提供特选数据集,使用可公开获取的数据制成,可在模型训练过程中随时访问。

版权合作协议:盈利模式稳定、海外商业化成效初步展现
2.1、版权提供商与AI公司的合作是互利共赢AI生成内容的快速增加,对于图片素材库、新闻出版社等版权提供商来说构成一定的威胁。
1)AI生成内容可能被上传至版权库混淆视听。随着大模型性能的不断突破,AI生成内容的质量逐渐提升,甚至难以与人类作者和艺术家创作的内容区分。若版权素材库中被上传了大量的AI生成内容,可能会影响用户的付费意愿。
2)AI生成内容可能成为版权素材库的替代品。随着AIGC产品的推广和普及、未来大模型成本的不断降低,以及相关政策的不断完善,AI生成内容将被越来越多地运用于商业化产品中,从而挤压传统版权素材库的生存空间。
因此,版权提供商也需要积极拥抱AIGC潮流,探索传统业务与AI技术结合的新形势。
对于AI公司来说,模型训练需要海量的高质量数据,且AIGC产品也需要与更多信息源产生联动。公开渠道的数据存在侵权的风险,且需要耗费更多精力进行数据清洗和数据标注,为了模型后续的商业化和公司的长期健康发展,从版权提供商获取高质量训练数据是更好的方式。另外,版权提供商也可以丰富AIGC产品的信息来源和产品功能,赋能用户使用体验。
2.1.1、海外多媒体版权库Shutterstock:出售模型训练素材创收,通过基金会为创作者提供补偿
海外知名多媒体版权库Shutterstock紧随AIGC浪潮,推出了AI生成图片专区,并提供由OpenAI支持的AI文生图工具。Shutterstock拥有100多万投稿者贡献的超4.5亿张图片,提供的多媒体素材主要包括:1)图片:矢量图、照片、AI生成的图片等;2)Pond5视频平台:镜头、AE素材、音效、3D模型等;3) 设计:商业营销模板、社交媒体模板等。此外,Shutterstock还提供设计工具,包括图片编辑器、抠图工具、AI生成图片工具等。
Shutterstock与OpenAI的双向合作始于2021年。2021年Shutterstock与OpenAI、LG开始合作;23M7 OpenAI与Shutterstock进一步加深合作关系,签订了为期六年的合作协议。

Shutterstock与AI公司的合作可以概括为三个方面:
1)Shutterstock向OpenAI提供图片素材版权用于模型训练。签订协议后,OpenAI有权访问Shutterstock的图像、视频、音乐等素材用于AI模型的训练数据。Shutterstock拥有丰富且高质量的内容素材版权,在多样性和数据标注上处于行业领先地位,使其在训练AI模型上具备较大的优势。
2)Shutterstock设立了贡献者基金,当投稿人创作的图片被用于AI图像模型训练时将获得补偿。Shutterstock是首个推出贡献者基金的公司,截至23M7,该基金已为数十万创作者提供补偿,并通过与新生成资产许可活动相关的版税为创作者们提供持续补偿。
3)AIGC文生图和图片编辑工具集成进Shutterstock平台,并得到OpenAI的文生图模型DALL·E的支持。创作的图片被用于模型训练的投稿人将获得AI文生图工具的长期使用权。除OpenAI外,Shutterstock还与英伟达、Meta、LG等公司建立合作,共同开发文本、图像、3D等领域的AIGC创作工具。
2.1.2、海外新闻出版商Axel Springer:为OpenAI提供文本训练数据,通过链接为创作者引流
出版社的优质文章素材是大模型训练的高质量文本语料来源,有助于加快大模型性能迭代,促进AI生成内容的版权制度完善。2023年12月13日,德国数字出版商Axel Springer和OpenAI宣布建立全球伙伴关系,并成为全球第一家与OpenAI合作的新闻社。
1)对于OpenAI:OpenAI将付费使用Axel Springer出版物的内容,完善其AI模型训练数据库。ChatGPT用户将收到Axel Springer旗下媒体品牌精选的全球新闻摘要。当ChatGPT使用Axel Springer出版物中的信息回答用户问题时,将在答案下方提供来源链接,确保内容版权方获得信用、补偿和流量。
2)对于Axel Springer:可通过向AI公司提供优质内容素材开辟新业务线,获取潜在收入增量,同时利用OpenAI的技术支持改进其产品。通过与OpenAI合作,利用AI来增强内容体验和创造新的发展机会,探索新闻业的未来方向。
OpenAI曾多次因未经允许使用新闻媒体的文章训练模型引发争议。美国头部新闻机构《华尔街日报》、《纽约时报》都曾因版权问题与OpenAI发生过纠纷。23M2,New Corp道琼斯部门的总法律顾问Jason Conti在给彭博新闻社的一份声明中表示,任何使用《华尔街日报》培训AI的企业应该向道琼斯公司寻求许可;23M8《纽约时报》更新服务条款,禁止其新闻报导和图片用于开发应用软件和训练AI模型,并警告如果持续引发争议将起诉OpenAI。
与Axel Springer的商业合作是OpenAI与世界各地出版商互利共赢的起点。OpenAI首席运营官Brad Lightcap宣布OpenAI将致力于与世界各地的出版商和创作者合作,确保他们从先进的AI技术和新的收入模式中受益。
2.2、从Shutterstock看多媒体版权库与AI公司的合作:AIGC的利好整体强于利空
2.2.1、Shutterstock的数据授权收入已较明显体现在业绩端,驱动估值修复和股价回升
随着向合作伙伴出售数据的业务逐渐释放业绩潜力,Shutterstock股价触底反弹。23M1-23M5,Shutterstock股价出现了快速上升和回调,后续股价呈现下跌趋势,直至23Q3业绩发布后股价开始反弹。

1)23M1-23M4:受AIGC行业投资逻辑催化,股价大幅拉升。AIGC投资热点下,市场开始挖掘潜在受益的产业,Shutterstock作为2021年起就与OpenAI建立合作的公司而受到关注,且大模型训练拉动训练数据版权需求的逻辑非常顺畅,2023年以来最高涨幅达51.1%。2)23M5-23M10:市场开始担忧AI文生图的快速发展挤压Shutterstock的传统业务图片版权出售。
3)随着Shutterstock出售AI模型训练数据授权的收入快速增长,股价触底反弹。Shutterstock披露的向合作伙伴提供计算机视觉数据项目(Computer Vision Data Partnerships Offering)代表向大型科技公司提供的图片、视频、音乐、3D模型等素材授权,用于训练生成式AI和机器学习模型。23Q3该项收入达到4550万美元,占公司总收入的19.5%;23年前九个月该项收入达到7950万美元,占公司总收入的12.1%。
2.2.2、Shutterstock传统业务下滑原因众多,AIGC对于版权提供商的威胁和替代尚不明显
我们认为,Shutterstock传统业务下滑并非受AI文生图的影响,更可能源于竞争压力等多种因素影响。我们将Shutterstock的传统业务(不包含计算机视觉数据收入)与其竞争对手Getty Image的收入进行对比。Shutterstock的传统业务代表排除了出售用于大模型训练数据之外的其他业务,包括电商业务(客户可以按月订阅,或按需付费下载图片)以及企业服务,为客户提供图片库、视频等素材,与Getty Image的收入更具可比性。图片版权提供商Getty Images凭借其丰富的高质量图片资源在图片库市场展现出强有力的竞争力。
23年以来,Getty Image的收入维持稳定,并未明显受到AI文生图的影响。作为Shutterstock的竞争对手,Getty
Images并未出售AI模型训练数据,其近两年总收入相对稳定,23Q3总收入为2.3亿美元,同比下降0.5%。相比Getty
Image, Shutterstock传统业务收入自22Q4以来连续下滑,23Q3跌至1.9亿美元,同比下降7.3%,同时23Q3 Shutterstock订阅用户数量和付费下载量也呈下降趋势。我们认为,Shutterstock的传统业务收入下滑更多受到同业竞争压力的影响,但计算机视觉数据出售也成为了业绩的新增长点。

国内外模型训练数据版权规定尚待完善,版权商股价有望得到密集催化截至23年底,公众对于AI文生图和其他多模态生成的反感情绪仍较为强烈。2023年12月6日,春晚吉祥物“龙辰辰”被质疑是AI作图,受到了国内民众的广泛批评。自Stable Diffusion、Midjourney等文生图软件走入公众视野,便引发了关于AI生成图片是否侵权的持续讨论。22M12马里兰大学帕克分校和纽约大学合作发布的一篇论文显示,一些参数量较小的文生图模型会直接复制用于训练的图片素材的某个部分,而当时较为成熟的文生图产品Stable Diffusion也出现了以像素点级别复制名画的细节、结构和绘画风格的情况。
公众对于AI多模态生成的质疑主要来自于:1)模型训练采用的图片素材是否获得授权;2)通过机器学习生成图片是否可以被定义为学习和创作的过程;3)AI生成图片过程中,运用于训练数据的图片素材是否被简单粗暴地拼接。
逐渐扭转公众对于AI多模态生成的消极情绪和片面认知,是AI图片、AI视频等技术推广至生产生活、释放商业化潜力的必要前提。随着AIGC的影响力快速扩大,科技公司也需要付出更多成本以确保模型训练数据和生成内容的版权和合规性,以应对未来可能的法律挑战。

对AIGC的版权问题的争议和相关法规主要可以分为两类:
1)AI生成内容的版权界定:指由AI生成的文字、图片等内容是否受到版权保护,以及版权应当归属于用户、模型提供商、训练数据提供者等哪一方。对于AI生成内容版权的明确,是AIGC产品大规模商业化的重要前提。
2)模型训练数据的版权规定:指OpenAI、Stability AI等模型供应商在训练基础模型时采用的数据集是否受到版权保护,模型供应商应该以怎样的方式获得训练数据集的版权。对于训练数据的版权规定,是AIGC产业良性可持续发展、以及令公众消除对AI生成内容的消极情绪的关键。

对于AI生成内容的版权界定,美国不承认AI生成内容拥有著作权,而中国倾向于保护AI生成内容的著作权。
美国版权局2023年3月16日收录于《联邦法规》中的AI版权认定和登记指引政策表明,仅由AI生成的作品不受版权保护,包含AI生成内容的作品根据情况给予登记;2023年3月6日,美国版权局拒绝为一篇小说中包含的AI生成插图提供版权登记。中国的《生成式人工智能服务管理暂行办法》未给出明确规定,但在2020年1月和2023年12月的两起AI生成内容引发的著作权纠纷案中,判决都肯定了AI生成内容具有独创性,应当获得著作权法保护。
对于模型训练数据的版权规定,美国、欧盟均明确要求使用受版权保护的材料来训练模型,而日本则认定训练数据不受版权保护。
美国新闻媒体联盟于23M4发布的《生成式人工智能监管原则》中强调生成式AI的开发者和部署者必须尊重创作者对其内容的权利。欧盟于23M6投票通过《人工智能法案》,要求OpenAI、谷歌和微软等基础模型的供应商声明是否使用受版权保护的材料来训练AI,并添加了透明度和风险评估要求。日本则在23M6重申日本法律不会保护人工智能使用的原始材料版权,无论是否从非法网站或其他方式获取训练数据,政策上都是允许的。

整体来看,国内外对于模型训练数据的版权保护技术尚待成熟、政策尚待完善,未来版权提供商股价有望得到密集催化。随着模型训练数据的版权规定进一步完善,有利于扭转公众对于AI多模态生成的消极情绪,促进AI生成图片、视频等技术的产品化,释放商业潜力。展望数据归因技术的成熟使版权收入和AI生成内容量紧密挂钩,随着AIGC下游应用的商业潜力释放,有望持续带动版权提供商的授权收入增量。
复盘Shutterstock的业绩和股价表现,AIGC产业的发展对于版权提供商的利好多于利空,预期差驱动股价回升。Shutterstock授权给科技公司训练AI模型的数据出售收入快速增长,而传统业务的下滑更多受到同业竞争压力的影响,AI生成图片替代版权提供商传统业务的担忧逐渐消退,而模型训练带动的版权收入快速增长形成了预期差,驱动Shutterstock股价回升。建议关注海外版权提供商:Adobe、Shutterstock、Getty
Image、Elsevier、Thomson Reuters,以及注重数据版权保护的AI公司:微软、谷歌、Meta。
看好国内模型训练数据的版权保护继续完善,带动新闻媒体、图片、影视等各类信息媒介版权提供商的业绩增长。建议关注:1)AI+出版:中国出版、中国科传;2)图片版权库:视觉中国;3)影视版权库:捷成股份、华策影视。
中美地缘政治摩擦、宏观经济不及预期、AIGC技术发展和应用落地进度不及预期、AI行业竞争加剧风险。
本订阅号是光大证券股份有限公司研究所(以下简称“光大证券研究所”)海外研究团队依法设立、独立运营的官方唯一订阅号。其他任何以光大证券研究所XX研究团队名义注册的、或含有“光大证券研究”、与光大证券研究所品牌名称等相关信息的订阅号均不是光大证券研究所海外研究团队的官方订阅号。
本订阅号所刊载的信息均基于光大证券研究所已正式发布的研究报告,仅供在新媒体形势下研究信息、研究观点的及时沟通交流,其中的资料、意见、预测等,均反映相关研究报告初次发布当日光大证券研究所的判断,可能需随时进行调整,本订阅号不承担更新推送信息或另行通知的义务。如需了解详细的证券研究信息,请具体参见光大证券研究所发布的完整报告。
在任何情况下,本订阅号所载内容不构成任何投资建议,任何投资者不应将本订阅号所载内容作为投资决策依据,本公司也不对任何人因使用本订阅号所载任何内容所引致的任何损失负任何责任。
本订阅号所载内容版权仅归光大证券股份有限公司所有。任何机构和个人未经书面许可不得以任何形式翻版、复制、转载、刊登、发表、篡改或者引用。如因侵权行为给光大证券造成任何直接或间接的损失,光大证券保留追究一切法律责任的权利。