AI前线一周新闻盘点：Facebook 意外发布监控型AI工具 ; emoji为何能够成为深度学习语言的理想候选方案

作者｜Jack Clark

译者｜核子可乐

编辑｜Debra、Emily

AI 前线导读：

研究人员们试图捕捉网络上逐渐消亡的 Flash 游戏以推动强化学习研究
蒙古研究人员成功解决一个深度学习模因问题
利用深度学习绘制 emoji 表情符号与情感表达间的映射关系
Facebook 公司的研究人员们训练模型以对人体作出前所未有的详尽分析
以时间为核心：关于提升自动驾驶车辆效果的技巧与提示
利用欺骗方式提升代理的效能

更多干货内容请关注微信公众号“AI 前线”，（ID：ai-front）

研究人员们试图捕捉网络上逐渐消亡的 Flash 游戏以推动强化学习研究：

…FlashRL 代表着另一种尝试，研究人员希望借此访问网络上的各类 Flash 游戏——但目前这套平台雏形仍然存在缺陷…

挪威阿格德大学的研究人员们已经发布了 FlashRL——这套研究平台旨在帮助人工智能研究人员熟悉以 Flash 编写而成的软件。顺带一提，Flash 是一种已经过时的交互式媒体格式，曾全面定义网络发展早期最受欢迎的各类游戏。该平台与 OpenAI Universe 拥有类似的理念，试图为研究人员提供大量新环境以进行算法测试及开发。

数据集：FlashRL 当中包含提取自网络的“数千套游戏环境”。

工作原理:FlashRL 利用 XVFB

Linux 库创建一套虚拟帧缓冲区，可用于进行图形渲染，而后在 Gnash 等 AI 玩家当中执行 Flash 文件。FlashRL 可通过专门为此设计的、名为 pyVLC 的 VNC 客户端进行访问，pyVLC 随后则将 API 提供给开发者。

测试：研究人员们通过训练一套神经网络游玩“Multitask”游戏对 FlsahRL 进行了测试。不过如果缺少可进行比较的基准或规则，那么研究人员将很难发现 FlshRL 相较于其它训练系统所存在的缺陷——最好的办法可能是选择一款比较知名的游戏学习方案，例如 Atari Learning Environment，并以此为基准进行游戏能力测试。

为何值得关注: 考虑到当前测试系统正呈现出爆炸式增长之势，FlashRL 的最终命运可能取决于社区到底为其提供多少支持与贡献。为了吸引贡献者的参与，研究人员可能需要调整该系统，从而确保其能够以每秒 30 帧以上的速度实现环境运行（多种其它强化学习框架甚至允许 FPS 达到 1000 以上），这是因为运行环境的速度表现将直接影响到平台之上进行研究的速度。

了解更多: FlashRL: 一套面向 Flash 游戏的强化学习平台 (Arxiv)。查看其 GitHub 库：

https://arxiv.org/abs/1801.08841

超酷工作岗位来袭！哈佛 / 麻省理工联合项目经理：打算在公共利益层面作出贡献？希望帮助聪明且道德感极强的人们构建实际方案？哈佛大学的伯克曼克莱恩中心（简称 BKC）目前正在物色一位项目经理协调员，负责帮助其管理“联合计划”。此项计划由麻省理工学院媒体实验室同哈佛大学共同主导，旨在将高级开发人员及其他技术人员如今在一起，从而为学习者们面临的公共利益难题找到解决方法。去年的联合计划主要涉及网络安全问题，而今年的讨论则涵盖人工智能的道德与治理问题。除了联合计划之外，这位项目经理还将与 Jonathan Zittrain 教授及其团队合作开展更多其它项目。若您希望了解与该岗位的职责、资格以及申请要求相关的完整说明，请访问哈佛大学人力资源职位申请列表。

蒙古研究人员成功解决一个深度学习模因问题：

…在这篇探讨互联网文化的 AI 研究论文中，我们发现了一些奇怪的现象..

蒙古国立大学的研究人员们发表了一篇研究论文，他们运用标准技术（通过微调与迁移学习）来解决现有机器学习面临的问题。其新颖之处在于，他们的研究基础在于尝试说明小狗与松饼图片之间的差异——这是几年前 Twitter 上广为流传的一个有趣模因 / 笑话，随后发展成为一种深刻的学习模式。

为何值得关注: 此份论文之所以令人感兴趣，是因为其表明：1）传统学术问题与互联网上出现的半讽刺问题间的界线正逐渐模糊 ; 2）学者们正利用互联网模因文化指导自己的工作。

了解更多: 用于分辨吉娃娃与松饼这一类似对象识别难题的深度学习方法 (Arxiv)：

https://arxiv.org/abs/1801.09573

利用深度学习绘制 emoji 表情符号与情感表达间的映射关系：

…学习理解这一包含大量数据的新型对话领域…

Emoji 表情符号已经成为世界各国人民用于表达情感的一种影子语言。事实上，Emoji 表情符号也是深度学习分析领域的一类绝佳候选素材，因为其由相对较少的不同“词汇”组成——总量约在 1000 个上下。相比之下，大多数英文文档中的常用词汇多达 10 万个。这意味着与以传统自然语言组成的数据集相比，将表情符号同语言及图像数据较少的特定含义加以映射往往更为简单。

现在，研究人员们正在对互联网上最理想的 emoji<>语言<>图像源进行探索：即 Twitter 之上无穷无尽的发布内容。研究人员们在论文中写道，“表情符号在检索任务方面拥有一些独特的优势，其相对有限的数量（一般表意‘词汇’仅在 1000 多个，而不像英语等传统语言通常包含 10 万以上词汇）使其在潜在查询空间方面提供更高的确定性。此外，表情符号不受任何特定自然语言的约束，大多数表情符号拥有泛文化属性。”

“Twemoji”数据集: 为了对表情符号进行分析，研究人员们在 2016 年夏季期间收集了 1500 万条包含表情符号的推文，而后对这套“Twemoji”数据集以及其它两套衍生数据集进行了分析：Twemoji-Balanced（一套较小的数据集，其中各表情符号的出现次数皆不超过 10 次，同时剔除了部分使用频繁较低的表情符号 ; 在原始语料库中，哭泣与笑脸表情符号出现了大约 150 万次，而其它 116 种表情符号只出现了一次）以及 Twemoji-Images（同时包含图像与表情符号的约 100 万条推文）。此后，他们将深度学习技术应用于这套数据集，希望了解其能够利用表情符号顺利完成预测与检索任务。结果: 研究人员们利用双向 LSTM 帮助执行表情符号与语言之间的映射 ; 利用 GoogleLeNet 图像分类系统帮助其绘制表情符号与图像之间的关系 ; 并将二者结合起来以分析三者间的关系。这套系统还学习如何根据给定的推文文字或视觉内容提供不同的表情符号建议。大多数结果被视为早期基准，而非标志性结论 ; 其 5 项最高文本 - 表情符号预测准确率约为 48.3%，5 项最高图像 - 文本 - 表情符号预测准确率则约为 40.3%。

为何值得关注: 此篇论文是探索深度学习新型发展趋势的绝佳实例：技术如今已经变得非常简单，来自核心 AI 研究领域之外的研究人员们开始挑选 LSTM 以及预训练图像分类器等基本组件作为技术方案，并利用其重新实现现有研究领域的情境化调整——例如通过表情符号理解语言学及检索任务。–

了解更多: 新模式：利用表情符号挑战预测、建议与检索难题 (Arxiv)。

https://arxiv.org/abs/1801.10253

Facebook 公司的研究人员们训练模型以对人体作出前所未有的详尽分析：

…此项研究在军事以及监控类用途方面拥有重大意义（虽然论文中并未提及此事）…

Facebook 公司的研究人员们已经训练出一套名为“DensePose”的先进系统，其能够查看人物的 2D 照片或视频，并自动为人物目标创建出高清 3D 网格模型 ; 这样的能力在众多领域都具有广泛的用途及影响。研究人员们的动机是希望能够将这样的技术引入图形、增强现实或者人机交互领域，同时也有可能借此建立起实现基于 3D 对象的识别能力的技术基石。然而，根据现有研究成果以及即将发布的数据集来看，这项技术对于数字化监控同样极具现实意义——而本文研究人员并未在论文中对此作出讨论。

效能: DensePose”技术“能够为复杂的场景构建起高精度对应场景，且出色的速度使其能够实时同时追踪多达数十个人物目标：在使用 GTX 1080 GPU 的前提下，我们的系统以每秒 20 至 26 帧的速度运行。800 x 1100 分辨率的图像则可实现每秒 5 帧。这样的表现大大超越了以往的先进系统，当然其性能水平仍然无法与人类的识别速度相提并论。”

免费数据集：为了进行这项研究，Facebook 公司创建出一套基于“COCO 数据集”的全新数据集。这里介绍一下，COCO 数据信当中包含 50000 张拥有不同坐标以及对应注释的人物图像，用于生成包含所描绘人物的 3D 地图。

技术: 研究人员们采用了多段式深度学习方法，即首先为某一对象确定关注区域，而后将各个特定区域交付至自己的深度学习管道，从而进一步执行对象区分与三维点预测及映射。对于任何给定的图像，其中的每位人物都拥有相对稀疏的标签——每人约拥有 100 至 150 条注释。为了增加神经网络的可用数据量，研究人员们利用监督系统在训练期间自动通过训练完成的模型添加其它数据点，从而人为强化数据资源。

使用的组件： Mask R-CNN 配合 Feature Pyramid Networks; 二者皆可在 Facebook 公司刚刚发布的“Detectron”系统中使用。

为何值得关注：实现实时监控: 这项研究也带来了一些令人不安的暗示：这套系统在监控架构当中同样拥有着广泛的用途，可能允许操作人员分析大量人群来确定其活动是否存在问题——例如此类系统可用于向其它系统发送信号，从而根据特定活动组合识别出抗议或者骚乱状况。我希望 Facebook 公司的研究人员们探讨这样一套系统被其他恶意行为者滥用的可能性，但遗憾的是论文当中并没有提到这些问题。最令人担忧的是：Facebook 公司考虑到这个问题吗？他们是否曾在内部讨论过类似的用例？他们在发布这样的系统时，是否会同时提供“信息风险”手册？这些答案我们无从知晓。作为技术社区的一分子，我们（包括 OpenAI 这类机构）需要更好地公开处理日益升级的信息风险，以免我们在不经意之间给世界带来我们无法承担相关责任的严重后果。

了解更多: DensePose: 在真实环境下对密集人群进行态势预估 (Arxiv)。

https://arxiv.org/abs/1802.00434

以时间为核心：关于提升自动驾驶车辆效果的技巧与提示：

…来自中国机器人厂商的自动驾驶车辆论文...Horizon Robotics 公司的研究人员们发表了一篇研究论文，旨在概述设计理想深度学习型自动驾驶车辆方案当中的技巧与提示。顺带一提，这是一家新兴中国 AI 企业，主要从事自动驾驶车辆软件、芯片以及智慧城市大脑的研发工作。在论文当中，他们主要关注的是驾驶的“战术性决策”任务，即涉及变更车道行为以及应对临时威胁的反应等工作。（本文同时亦涉及到路径选择、规划以及控制等硬编码功能。）

行动跳过: 与传统的强化学习方案不同，研究人员们希望通过避免使用行动重复与重放方式来学习高级策略，而是引入了一种被称为行动跳过的技术。这是为了避免车辆为了通过行动重放实现学习，而在道路上的不同车道间往来切换并造成危险行动。凭借着行动跳过机制，车辆能够获得更为具体的单一决策报酬（例如由当前车道切换至另一车道），而后建立起包含此项报酬的修改后决策版本。其使用的最新版本将始终包含初始决策之后特定时间段内所获得报酬函数的平均值。研究人员们在论文中写道，“行动跳过的一大缺点在于，决策频率的降低可能延迟或阻碍主体对关键事件的反应。为了改善这种情况，行动在推理过程当中可采取不同的跳过因子。例如在变换车道任务当中，保持在当前车道中的跳过因子的持续时间将缩短，而车道切换跳过因子的持续时间则延长，以便代理能够快速完成车道变更行动。”

战术报酬: 战术决策当中的报酬函数涉及多种不同的竞争性报酬。在这里，研究人员们使用一些与车速相关的持续性报酬函数、车道切换报酬，以及鼓励汽车学习以相对较少的步骤及相关执行剧本以降低与其它车辆间碰撞风险的情境报酬。除此之外，其还会判断是否存在交通灯，当前环境是否包含骑行者等特定风险，或者模拟在常规环境中经常出现的逆行超车等状况带来的风险。

测试: 研究人员们通过在道路模拟器当中模拟自动驾驶车辆的行进情况来测试其实际效能，而后重复 10 次以运行 25 万个离散步骤，最终利用 100 项预先生成的测试事件进行测试。其最终评估标准则包括是否能够在相关速度限制之下成功抵达目的地，且不致因迅速加、减速而影响到乘客的乘坐体验。

结果: 研究人员们发现，他们提出的跳过机制与多样化报酬理念能够显著改善原本不平等的随机基准，并带来更为合理的基于规则的基准系统。

了解更多: 高效深层强化学习中各要素对实现战术性驾驶决策制定的作用 (Arxiv)。

https://arxiv.org/abs/1802.00332

利用欺骗方式提升代理效能：

…由邪恶人类开发的狡猾游戏将颠覆传统 AI 系统…

尽管目前的人工智能技术正在繁荣发展，但其中的一大问题在于其往往缺乏应有的远见；更具体地讲，大多数人工智能方案只会无意识地追求目标，而哪怕只是引入一点点所谓人类常识，都能够为其带来更理想的结果。这个问题亦是人工智能安全研究工作中的主要基础之一，即弄清楚如何帮助代理追求更为抽象的目标，或者在其完成任务的具体方法当中引入更多与人类类似的推理能力，从而真正获得解决安全问题的能力。

测试: 探索这类问题的方法之一，在于通过对现有算法进行测试以体现出其目前所使用的无意义推理方法。DeepMind 已经通过其 AI 安全网格世界（AI Safety GridWolrd，详见走向 AI 第 71 节）支持这种方法，即为开发人员提供一套特殊的环境进行代理测试，从而利用现有 AI 代理开发方式优化特定报酬函数。如今，斯特拉斯克莱德大学、澳大利亚国立大学以及纽约大学的研究人员们发布了自己的一套复杂环境，他们将其称为“欺骗游戏”。此游戏以标准视频游戏描述语言（简称 VGDL）实现，用于测试已经能够通过常规视频游戏人工智能竞赛的 AI 系统。

欺骗游戏: 研究人员们设计出以下几跑步同类型的欺骗游戏：

贪婪陷阱: 利用代理能够通过执行特定操作获取报酬这一事实设下陷阱，从而阻止其进一步获得报酬。

中庸陷阱: 大多数 AI 算法以降低难度并增加任务数量的方式进行优化，在这里其需要更努力地作出尝试，从而探索风险更高但回报也更可观的解决思路。

普遍性陷阱: 让 AI 学习环境中各物体的普遍性规则——例如吃掉糖果对象能够获得报酬，而后再对这种规则加以颠覆。举例来说，若与上述对象交互的次数过多，则反而会遭遇负面报酬。

结果：由于 VGAI 竞赛当中采用的 AI 系统往往使用多种不同技术，因此最终结果表明，某些排名很高的代理在这类新环境中反而表现很差，而某些排名较低的代理却拥有更出色的发挥。大多数代理无法解决大部分环境中设下的难题。本篇论文的目标在于提供充足的环境，而 AI 研究人员则借此测试并评估自己 AI 算法的效能，甚至创建其它“AI 安全基准”进行 AI 测试。这可能将进一步推动 VGAI 竞赛的未来延伸，并使其暴露出 AI 代理中存在的显著缺陷：“限制进入游戏时的状态，甚至要求 AI 认真学习游戏机制以发现其中可能存在的欺骗性陷阱。我们也允许将这种方法扩展至其它游戏，包括不再为 AI 提供正演模型，或者要求其处理环境当中不完整或者存在干扰因素的传感器信息。”

了解更多: 欺骗游戏 (Arxiv)。

https://arxiv.org/abs/1802.00048

了解更多关于 DeepMind 的“AI 安全网格世界” (Arxiv)。

https://arxiv.org/abs/1802.00048

作者 Jack Clark 有话对 AI 前线读者说：我们对中国的无人机研究非常感兴趣，如果您想要在我们的周报里看到更多有趣的内容，请发送邮件至：jack@jack-clark.net。

原文链接：

https://jack-clark.net/

今天看啥 - 高品质阅读平台
本文地址：http://www.jintiankansha.me/t/dAeMI5WEAT