社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Git

GitHub被"GitHub Copilot" 倒逼成为开源项目?

OSC开源社区 • 4 年前 • 523 次点击  

文 | 局长
出品 | OSC开源社区(ID:oschina2013)

GitHub 在上周推出了一个名为"GitHub Copilot"的工具,此工具使用了机器学习技术来提供代码建议/自动补全,并因此引发了不小的争议。原因是许多开发者认为,GitHub Copilot 宣称的基于公开代码训练其实是在未遵循开源许可证的情况下,肆意“抄袭”开源代码。

个别比较激进的开发者为了抗议 GitHub 未经授权和许可便使用受版权保护的源代码作为 GitHub Copilot 的训练数据,宣布弃用 GitHub

在众多的质疑和批评声中,被讨论较多的一个问题是:如果 GitHub Copilot 的训练模型使用了遵循 GPL 的软件进行训练,那么会发生什么?

题为"Is GitHub a derivative work of GPL'd software?(GitHub 是 GPL 软件的衍生作品吗?)"的博客文章描述了对这个问题的一些想法。下面是对这篇文章的一些整理。

GPL 的一系列许可证被认为是"Copyleft"许可证,其特点是具备“传染性”。特别是,Copyleft 作品的常见特征是要求“衍生作品”使用与原始 Copyleft 许可相同的条款发布其新作品。

这就引申出了一个有趣的法律问题:机器学习系统生成的作品,甚至是机器学习系统本身,是否属于“投喂”给训练模型的数据的衍生作品?如果答案为“否”,是不是意味着可以把 GitHub Copilot 作为一种手段,借此将自己想使用的 GPL 代码进行“清洗”,从而达到无需遵循其许可协议的目的。

但是,如果答案为“是”呢?也就是说机器学习模型生成的作品属于输入数据的衍生作品,这样一来,GitHub 本身也就可以被认为是 Copyleft 软件的衍生作品。因为 GitHub 的博客文章在说明"Copilot"的训练数据时,曾发表如下的表述

“在 GitHub Copilot 的早期开发过程中,作为内部试用的一部分,近 300 名员工在日常工作中使用了它。”

如果 300 名 GitHub 员工将 Copilot 用作其日常工作流的一部分,他们很可能已将 Copilot 生成的代码整合到 GitHub 的几乎所有软件资产中,后者为用户提供了 Web 服务。如果训练模型是在遵循 AGPL 的软件上进行训练,并且 Copilot 使用该模型创造了一个衍生作品。那么,所有 GitHub 用户有权根据 AGPL 的条款获得 GitHub 的源代码副本——亦即倒逼 GitHub 被迫成为了一个开源项目。

事实上,这里面还涉及到了机器学习的伦理问题,被纳入机器学习训练数据的内容的所有者应该有什么权利?

举个例子,如果我想发表一个不希望被纳入训练模型的作品,或者说如果自己的作品被用于训练模型,但能让公众有权访问此模型,是否可以实现?是否应该允许我这样做?如果被使用的作品是我的个人信息,并且在我不知情或未经同意的情况下被收集,怎么处理?如果这些被收集的信息被服务商滥用,甚至是用在一些对自己不利的场景,比如在做贷款决定时,怎么办?如果它被用来做违背整个社会利益的事怎么办?

END



Ansible名称由来你知道吗?
关注视频号“开开开源”
带你了解更多开源知识


觉得不错,请点个在看

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/116690
 
523 次点击