Py学习  »  机器学习算法

给句话就泛滥!机器学习再加点想象,这款交互小说带你领略“无限生成的世界”

大数据文摘 • 4 年前 • 420 次点击  
大数据文摘出品
作者:刘俊寰

还记得去年圣诞吗,黑镜出了一个特别篇——《黑镜:潘达斯奈基》,尽管黑镜系列被Netflix买下后已走下神坛,但也不能否认他们在技术上的创新。

相信大家都听过,《潘达斯奈基》是一部交互式电影,观众在观看时,屏幕上会出现不同的选项,每个选择都会影响结局。也就是说,每个人都有不同的结局,整个交互总时长也长达312分钟。


不过,这种交互式电影并非完美,观众只是在被提供选项的地方有主动性,其余时候仍然只是信息的接收者而已。但可以肯定的是,“交互”已经逐渐成为新的创作趋势。

这不,今年新出的AI Dungeon 2可以说就是文字版的《潘达斯奈基》。

别误会,这可不是Netflix投资准备冲击明年艾美的新剧本。广义上讲,你可以把AI Dungeon 2理解成是一部基于机器学习的交互式小说。不过这还需要每个人的参与,和《潘达斯奈基》的不同结局一样,每个参与者都能写出独一无二的小说。

既然是小说,就注定了AI Dungeon 2是以文本为中心,交互方式自然就是输入文本,这里的文本指的是任何信息。也就是说,参与者可以通过输入任意内容进行交互,AI Dungeon 2都能识别后并创作后续故事,参与者再根据AI创作的后续故事进行人为创作,如此循环往复。

用开发者Nick Walton的话说就是,写出一个“无限生成的世界”

从语言构成上看,Dungeon即“地牢”,但这里用“迷宫”来作喻或许更为恰当,正如希腊神话的米诺斯迷宫模型,进去容易出来难。说得直白一点就是,入坑容易出坑难!


文摘菌可没有说大话,入AI Dungeon 2的坑真的太容易了,只需要在浏览器中完成基础设置,从系统中的选择参数,然后等待系统加载一小段时间,就能开始创作了。

接下来,就是放飞自我的时间。首先需要选择故事类型以及角色信息,还需要根据系统指示输入正确形式的内容,比如,交互内容需要以第一人称进行,即“我”做了什么。


推特网友对AI Dungeon 2已经爱得不能自拔了,纷纷请愿求出坑。

从推特上大家的反馈上看,上多数人都选择的是fantasy(奇幻小说),参与者既可以和兽人战斗,也可以与他们为伴开创新的宗教,既可以在农场安居,种植一些奇形怪状的南瓜,也可以直接成为上神。

比如,有人辱骂兽人并成功激怒他们后,与兽人开始了一场战争,最后成功用火球击退兽人,却突发了心脏病?


除了奇幻小说之外,AI Dungeon 2也完全可以驾驭其他类型的小说。比如,有人在草坪上休息的时候突然时空穿越,与过去的自己进行了对话:


甚至还有人在政治选举中脱颖而出,成功就任总统,而就任第一件事就是疯狂增税,在舆论压力之下迫不得已用税收建立起医疗中心:


不得不说一句,推特网友脑洞真大,AI Dungeon 2的疯狂程度也超乎想象!除了上述进行完全虚构的故事创作外,还可以试着用AI Dungeon 2去为喜欢但烂尾的影视进行再创作,或许磕的CP就能happy ending了。(文摘菌太弱,舞台留给你们)

不过比起故事创作,对开发者而言还有一个更有趣的点,就是在创作过程中去思考机器学习是如何引导故事走向的。

说到机器学习,这是AI Dungeon 2的核心技术。Nick Walton利用的是OpenAI一款开放源代码生成系统GPT-2,该系统本身就擅长处理语言建模任务。Nick Walton在此基础上,为其提供了一堆文本数据,以“构建自己的冒险故事”为主题,将GPT-2摇身变成了AI Dungeon 2这个交互式小说的样貌。

就像所有的小说创作一样,在这里,唯一需要的就是你的想象力,你需要能够应对机器学习给出的各种变化,推动故事继续发展,就像即兴游戏一样。

说了这么多,跃跃欲试了?在此奉上游戏链接,快去创作吧!目前iOS和安卓也都已经上架啦。

游戏链接:
http://www.aidungeon.io/


首个文字生成的冒险游戏AI Dungeon 2


考虑到AI Dungeon 2的参与性和趣味性,如果将其定义为游戏的话,那AI Dungeon 2就是第一个文字生成的冒险游戏。

AI Dungeon 2在发布当天在Reddit上就引起了关注。


当然并不止AI Dungeon 2本身,上周,开发者Nick还在推特上抱怨,在GCS/Colab的运行上,AI Dungeon 2每天的花费就超过了1万美元。相关内容也在Reddit上引起了一番讨论。


有网友指出,Nick用极其低效的架构为每个玩家运行一个单独的实例,本质上是由Google的免费服务提供补贴,由于需要初始化实例,开销是不可避免的。

与此前相关系统不同的是,AI Dungeon 2只基于文本进行后续反应。也就是说,它的反应源只有输入文本,排除了一些长期叙述或具体目标的干扰,系统对角色以及角色的行为没有任何深入的认识。

正因为此,不少玩家认为,只要在AI Dungeon 2上花费了足够多的时间精力,并且按照系统的指示进行再创造,就会得到意想不到的结果。

这对于任何游戏来说都是很好的形式,因为它能充分调动玩家的能动性,不管它有没有被AI赋能。


AI Dungeon:迭代发展之路


想必大家也都注意到了“AI Dungeon 2”的说法,这说明AI Dungeon一直在迭代发展。

在第一代AI Dungeon中,Nick Walton就使用了OpenAI的124M参数GPT-2模型来创建并部署了这款基于深度学习的文本冒险游戏。同时,为了计算成本,生成可能动作及其结果,提供给玩家足够丰富的选择。

到了第二代,AI Dungeon 2取消了第一代预先生成的动作选择,允许用户输入任何内容,模型继续生成由输入动作产生的故事。不仅如此,模型大小还被升级为OpenAI的最大的1.5B参数模型,并从chooseyourstory官网中获得一系列文字说明对其进行了微调。

同时,Nick Walton还按照Salesforce CTRL模型的示例,修改了模型的采样,以对已生成的词语添加惩罚,以减少GPT-2具有的重复问题并启用较低的温度设置。

玩家在玩AI Dungeon 2的时候,可以从多个可能的设置和角色中进行选择,这些选择生成起始提示和上下文语句。上下文语句始终作为输入包含到模型中,以帮助它与所选设置保持一致,而开始提示是故事的开始。例如,如果选择成为一个魔幻世界中名为Zoltan的巫师,冒险可能就这样开始了。


对于输入的每个操作,模型都会在其内存中输入上下文语句以及过去N个操作结果对以生成结果,结果发现,N=8是一个很好的内存量来填充模型。

该模型有时显示出非凡的理解力和写作品质,例如,玩家试图在荒凉的岛屿上寻找爱情。


有时又分不清楚谁是谁,这种情况在对话中经常出现。


尽管AI Dungeon 2还存在上述缺陷,但它仍然是语言模型生成故事的有力证明。

同时,这也说明,由AI产生的交互式小说进步显著!

有创新也有局限的数据集GPT-2


AI Dungeon可以有这么强大的创作能力,也得益于自然语言处理领域最新的进展,算法模型GPT-2的出现。这是OpenAI的新算法,也是迄今nlp领域为止最令人兴奋的模型之一。GPT-2擅长于语言建模任务,也就是,预测给定句子中下一个单词。给它一个标题,它将撰写本文的其余部分,在创作短篇小说时,只需输入第一行中,它将完成角色接下来的故事。

GPT-2是GPT的第二代模型,也是基于大型转换器的语言模型,它具有15亿个参数,在800万个网页的数据集上进行训练。GPT-2的训练目标很简单,就是在40GB的互联网文本中预测下一个单词。


数据集的多样性使得这个目标包含了跨越不同领域的多任务的自然演示。GPT-2是GPT的一个直接扩展,但其参数超过后者10倍,训练数据量超过后者10倍。

OpenAI的研究人员通过使用Reddit作为过滤器收集了他们的训练数据,他们从网站上收集了最受好评的约800万个链接,抓取了文字部分,创建了一个相对紧凑的数据集,大小仅40GB。OpenAI研究人员Jeff Wu开玩笑说:“从某种意义上说,所有工作都是由Reddit网友完成的。” 

相关链接:

https://openai.com/blog/better-language-models/


GPT-2功能多样,包括生成高质量条件合成文本的能力,需要通过在模型中使用输入来填充模型,让其生成冗长的延续。


此外,GPT-2优于其他在特定领域(如维基、新闻或书籍)上训练的语言模型,这就意味着无需使用这些特定领域的数据集。在诸如答疑、阅读、总结和翻译的语言任务上,GPT-2使用的是原始文本进行任务学习,尽管这些下游任务的得分远非最新,但结果表明,只要有足够的(未标记)数据和计算,这些任务就可以从无监督的技术中受益。

不过,这就又引发了新的问题,如果GPT-2能够在不经过显式编程的情况下翻译文本,那么GPT-2还学到了我们不知道的哪些内容?

OpenAI的研究人员承认,他们也无法完全回答这个问题。不过,他们仍在探索GPT-2可以做什么和不能做什么。正因为此,他们在项目共享内容时暂时将底层代码和培训数据进行保密,如果有人利用GPT-2生成种族、暴力、辱骂性文字,那么这些文字将始终在互联网上得以保存。

OpenAI政策总监Jack Clark表示,这些担忧不可忽视,OpenAI也希望鼓励学者和公众在该技术广泛使用之前就其危害进行讨论。

“有人会使用合成视频、图像、音频或文本来破坏当前的信息状态。互联网上充斥着的废话会毒害互联网上的言论空间。”Clark说道。

好了,文摘菌的测评到这里差不多就结束了。俗话说得好,听君一席话,不如上手试。欢迎留言告诉文摘菌你的小说结局~




实习/全职编辑记者招聘ing

加入我们,亲身体验一家专业科技媒体采写的每个细节,在最有前景的行业,和一群遍布全球最优秀的人一起成长。坐标北京·清华东门,在大数据文摘主页对话页回复“招聘”了解详情。简历请直接发送至zz@bigdatadigest.cn


点「在看」的人都变好看了哦!
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/51913
 
420 次点击