本期作者 / OneRiver to AIGC群友
本推送收录一川AIGC社群过去几周就AIGC领域相关热点和话题的讨论结果,经充分脱敏并征得群友同意后予以公布。如有兴趣加入社群参与讨论,可在阅读文末的社群规则后扫描二维码以填写申请问卷,我们将在10个工作日内完成入群审核,并向满足入群门槛的申请者发放入群邀请。能不能请教一下,从技术角度来看,拼到最后是“语料”更关键,还是“算力”更关键呀?其实是缺一不可的。不过如果回到现实个例的应用来说,算力一定比语料更容易解决,因为数据才是最核心资产嘛,个人觉得短期算力占优,长期肯定还是数据为王。主要还是得数字化后的语料,此外数据的治理和清洗也一直是大问题,不过当然还是有胜算的。Transfomer是否为
极客公园之前发过一篇介绍hugging face的文章(小编注:微信公众号《OpenAl和谷歌最怕的,是一张「开源笑脸」》,写的也不错。我看完的观感是觉得,transfomer不一定就是大模型的最终架构形态,但在大部分AI创业追求尽快落地、尽快商业化变现的大环境下,去hugging Face拿一个开源架构的确是最快的启动路径。国内愿意潜心研究的人还是相对太少,不管是自己本身就着急捞钱,还是被公司/投资人逼着捞钱,反正都需要短平快。就和手机的创新主要集中在应用而不是芯片上,汽车的创新主要集中在冰箱彩电而不是发动机上,可能是差不多的。赞同,毕竟transformer已被验证贴这个标签拿投资和上项目都更快。目前国内做大模型的公司里,不知道有没有不用transformer或者其他开源架构做基础,自己扎扎实实从头搭架构的?我如果理解不错的话,哈工深是国内高校ChatGPT之后极少拥有完全自主的基础模型的团队之一。微信文章《OpenAI 和谷歌最怕的,是一张「开源笑脸」》个人感觉针对套壳行为还要分析使用部分是否是为了实现某些目的的唯一或极为有限的表达方式。针对套壳行为所使用的他人的计算机程序,如果某些部分是实现某些目的的唯一表达方式或极为少数的表达方式时,该部分就不再受著作权保护,即便该部分不在开源社区中或者开源社区对该部分的使用有其他限制。如果有多种方式实现一个目的的话这种使用方式肯定是不妥当的,只是一种陷入侵权纠纷时的抗辩事由。明白了!但这个分析思路我感觉实践中是不是不太可能落地我好像想不出什么大模型场景能实现这个目的。确实,但就安卓的开源协议而言,即使谷歌哪天宣布新版本的安卓不再开源了,旧版本的安卓应该依旧还是可用的。而且我感觉拿安卓来类比也有点不太合适,开发个操作系统本身对国内厂商来说不难,操作系统看重的是生态,国内这么大市场,再造一个生态问题不大,所以应该卡不住脖子。请教群里的技术专家,对于合作机构侧用户数据进入大模型后,如何清除数据或者如何避免AI在诱导性对话后吐出用户原始数据,这个技术上有好的解法吗?训练数据肯定要脱敏的吧,一般都是源头做数据脱敏的。目前通行的做法是在用户提示词进入大模型运算前,会对用户prompt进行分析,然后进行提示词改写,再在大模型运算后,输出结果前再做一次过滤。如果管理上认为输出源数据风险高的话,会对每一次输出(包括测试输出)做回归测试,看有问题的输出的提示词是什么,进而优化过滤机制。目前尤其toC的大模型服务商,应该没有用户提示词直接进大模型的,都要改写后才能作为训练数据。群友A:
我在读一些论文时也见过类似的观点:当人工智能生成物在外观上已经与自然人作品没有很大区别且当自然人等法律主体愿意在市场中为其支付相应的对价时就可以认定其是作品并受著作权保护,也有观点认为人工智能生成物更好的满足了人们对于文化与信息的新需求,符合著作权法的立法精神并能够让人们更专注于更高级的创作。
群友B:
感觉人工智能生成物是否应该受到著作权保护和其商业性是否应该受到保护可以是两个议题。维持现有著作权法的基本框架下进行保护,相当于给了
AI拟制人格。给AI拟制人格后对于很多其他的法律体系都会有冲击。王迁老师之前就用猕猴自拍来比喻过,即便和人的创作很像,因为是动物所以也没有著作权。
群友A:
个人感觉学界对生成物讨论涉及到其商业性这一问题时其实并不是在纠结于独创性这一著作权法基本理论,而是从著作权法保护创新的立法精神以及功利主义出发,从这让的道路出发可以发现一些保护生成物的好处(如符合最便宜原则)以及一些坏处(如打击投资者投资激情,影响行业)进而得出生成物应该被保护的结论。其实认定AI的拟制人格我感觉只有在认定AI为作者且享有生成物的著作权这一观点中才会出现,如果认定AI是工具或者拟制其他人为作者就不涉及这个问题了。
群友C:
保护商业性可以羊毛出在猪身上,用区块链等技术通过行为获益,比如流量变现,弥补不确权没有激励的缺憾。不给著作权并不限制行为,国家也可以收税然后反哺技术和使用者。
群友B:
如果AI是工具,作者只能是使用者。但使用者如果输入的只是很简单的提示词,可能会涉及到提示词只是思想,使用者不存在表达的问题,给生成物著作权总觉得别扭。
群友C:
商品价值是无差别的人类劳动,就给个提示词很难说有啥人类劳动,这个跟PS的渲染还不能放一起说,不是一个性质。
群友D:
首先,目前的aigc生成的边际成本趋于零,主要是费电因为要跑显卡,要是给予最通常情形下基于用户简单prompt生成的aigc版权,恐怕没有任何意义,因为它的供应是几乎不需要成本的,也谈不上稀缺性。另外,如此般恐怕版权局和知产立案庭也会不堪重负。其次,独创性不是单纯外观上的艺术美感,而且往往独创性的认定也并不看美感,因为法官没有办法论断艺术的发展(美感是可能变化的,多样的)。而是指人类作者独立创作完成,因此机器产生的内容,无论其再精美,倘若没有人类的参与创作,便不能说是作品。再者,在北互受理的aigc版权性第一案中,审判员特地询问当事人是否输入同样的提示词是否会生成同样的输出。当事人的答案是趋于肯定的,即会生成多个确定的输出。这可以从侧面证明,其实它不是一个创作的过程,而是一个数学上寻找最优解的过程,很难把数学题的演算过程说成是“创作”。因此,个人观点还是北互不会认定版权。
群友A:
判断人工智能生成物独创性时是否需要判断主体因素在学界存在一定争议,存在观点认为适用客观独创性。在dreamwriter案中法院亦有观点认为虽然在人工智能创作的几分钟时没有人类的参与,但人工智能的创作方式还是人类所预设的,人类智力活动与人工智能创作行为的断开是因为特定的技术原因,故不能理解为人工智能的创作活动没有人类的参与。
群友E:
小时候,大家都听过“刻舟求剑”
的故事。技术发展就像一条奔腾的河,法律规则就像人在船舷上刻下的记号。很明显,当船开走太远的时候,船舷上的记号就失去了指标意义。在过去的年代里,这条河水流淌的速度可能以数十年为量度来进化,接下来可能以数年、甚至年为量度。河水推船,水动船动,旧记号无法标记明天,我们在这个过程里,可能不能完全用法律从规则出发的思维方法,而需要更多的观察河水流向,看河水需要什么样的规则。
比如,用 ai 创设的产品,如果我主张版权,那么,这个交易的利害关系中,谁会获益,谁会受损:
(1)生产者:我有想法,有优化,有审美评判,有决定产出;
(2)消费者:好东西才付钱,才会有版税抽成,我决定该不该出钱;
(3)大模型和应用 AI:已经收过费了,它们是卖画笔、画纸、photoshop 的,不论多先进,他们的商业模式不要求版税;
综上,一个值得被消费的艺术品,它的产生根源,是人的念头,在于(1),如果我们要鼓励整个社会的精神生产,那么我们就应该给第一步的生产者以版税,毕竟他要有好念头,要有好审美,要有好产出。至于你说他是不是不劳而获,不会的,只有初期可能有简单红利,正如我昨晚提到的,很快大家都知道用 ai 帮助可以产生什么水准的作品,大家都能用简单提示词做出的,自然也卖不出去。
再举一个例子,达利把一个小便池当成艺术品提交给展览,成为艺术史上的里程碑事件,你说他有没有创意,当然有,有没有版权,也当然有,从一个商品的工业设计进入到艺术品的思想冲击,所有美术教材中用到他这幅作品,都会有版权问题。达利做的事情,在行为上,比跟 GPT 聊天更复杂么,并没有。我其实只有两个核心想法:
(1)昨天我跟一个广美毕业的设计师聊,她说,美术教育,核心是审美判断,而不是动手能力,GPT 能帮忙出图,但审美还是靠人,创造的本质在这里,而不是画画的动作。
(2)前两天有一个珍·古道尔的纪录片,讲了一个一辈子研究黑猩猩的生物学家,她说,研究这种有近似智力的人类近亲,可以更好的帮助我们理解人类。我突然明白,我们观察 GPT,也可以帮助我们理解人类自己。我也是看到 GPT 出图之后,才明白达利《泉》的价值——我以前一直以为这是一个性格乖张的艺术家的恶搞,不理解他为什么在艺术史上是无法回避的作品。
《泉》似乎告诉我们,实体劳动不重要,人的想法更重要。如果这句话依然不好理解,我们还有一句类似的话:“选择比努力更重要”。
群友F:
“我们观察 GPT,也可以帮助我们理解人类自己”-这句话特别感同身受,使用GPT这半年以来,我的逻辑能力是有明显提升的,直接体现在提问水平上。如何提出一个逻辑流畅,表意清晰的问题,如何去判断不同文本的质量差异并做选择,都是过往学习和工作很难得到的锻炼。
微信文章《王迁:ChatGPT生成物与“猕猴自拍”无异,不应受著作权法保护》
一川社群丨向前一步:AIGC分群开放入群申请啦
一川社群-AIGC分群申请问卷↓