社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

谷歌打造「终结者」!ChatGPT版最强机器人AGI,动嘴操控007

机器学习研究组订阅 • 2 年前 • 397 次点击  

一觉醒来,大模型的版本又更新了?

火遍全球的大语言模型,已经Out了?

本次版本更新的主角是谷歌DeepMind推出的「视觉-语言-动作」(vision-language-action,VLA)模型!

论文地址:https://robotics-transformer2.github.io/assets/rt2.pdf

根据谷歌内部披露,VLA模型已经接入到机器人身上,能够和现实世界进行互动了!

这个机器人被谷歌命名为Robotic Transformer 2 (RT-2) ,它能够从网络、机器人的数据中学习,还能将这些知识自主转化为有效的指令。

简单来说,你只需要对RT-2画个饼,之后就可以等着RT-2把饼喂到你嘴边了。

网友们纷纷表示:这真是泰酷辣!

谷歌DeepMind负责人表示,

长期以来,计算机在分析数据等复杂任务方面表现出色,但在识别和移动物体等简单任务方面却不尽如人意。通过 RT-2,我们正在缩小这一差距,帮助机器人解读世界并与之互动,让其对人类更加有用。

但俗话说,一口吃不成个大胖子,在RT-2成为RT-2之前,它的前辈Robotic Transformer 1 (RT-1)为RT-2打下了坚实的基础。

RT-1升级RT-2,VLM到VLA


RT-1是一种多任务模型,基于Transformer构建,能够将图像、自然语言指令等作为输入,并直接输出标记化动作。

RT-1 的架构:该模型采用文本指令和图像集作为输入,通过预先训练的 FiLM EfficientNet 模型将它们编码为token,并通过 TokenLearner 压缩它们。然后将这些输入到 Transformer 中,Transformer 输出操作token

因此,与一般机器相比,RT-1具有更好的性能和泛化能力。

其中,RT-1所搭载的视觉语言模型(vision-language models ,VLMs)扮演了关键角色。

VLM在互联网级的数据集上进行训练,因此在识别视觉、语言和跨语言合作这块具有极高水平。

在RT-1基础上升级过的RT-2仍以VLM 为基础,是谷歌研究员在办公室、厨房等环境中使用13个RT-1的17个月数据上进行训练的。

但RT-2比RT-1多了一个机器动作(action)的模态。

为了解决模型对机器控制的挑战,研究人员将RT-2的机器操作设置为模型的输出标记,并将其描述为可以由标准自然语言标记器处理的字符串,如下所示:

RT-2 训练中使用的动作字符串的表示形式。这种字符串的示例可以是机器人动作标记编号的序列,例如「1 128 91 241 5 101 127 217」

于是,解决加入动作模态(action)将模型与机器进行联结的挑战后,VLM就升级为了VLA。

RT-2也在一系列的升级换代后,显示出了惊人的学习能力和理解能力:

它能够自己解释全新的命令,通过执行基本推理来响应用户的要求。

甚至在与思想链推理结合的情况下,RT-2能够执行多阶段的语义推理。

如,决定哪个物体可以用作临时的锤子(石头),或者哪种类型的饮料最适合疲倦的人(一种能量饮料)。

RT-2架构和训练:针对机器人和网络数据共同微调预训练的VLM模型。生成的模型接收机器人看到的图像并直接预测机器人要执行的动作

泛化能力提升62%


研究人员在在RT-2模型上进行了一系列定性和定量实验,一共进行了6,000多次机器人试验。

具体来讲,谷歌团队探索了RT-2的三项技能:

- 符号理解
- 推理

- 人类识别

以上的每项任务都需要理解视觉语义概念,以及执行机器人控制的能力。

比如,让RT-2去捡起从桌子上掉下来的袋子,或者将香蕉放到2+1之和的数字的命令。

其中要求机器人对数据中从未见过的物体或场景执行操作任务,将知识从基于网络的数据转化为可操作的。

数据中不存在的技能示例,需要通过网络预训练进行知识迁移 

在所有类别中,研究人员观察到,与之前的基线(例如之前的RT-1模型和Visual Cortex (VC-1) 等模型)相比,泛化性能提高了3倍以上,这些模型是在大型视觉数据集上进行预训练的。

紧急技能评估的成功率:RT-2 模型优于RT-1和VC-1基线

此外,研究人员还进行了一系列定量评估,首先是机器人数据中有实例的原始RT-1 任务,然后对机器人先前未见过的物体、背景和环境。

以上的任务可以让机器人从VLM预训练中学习泛化。

机器人以前未见过的环境示例

RT-2保留了数据中「看到」的原始任务的能力,并提高了机器人在以前未见过场景中的性能,从RT-1的32%提高到了62%。

研究人员还观察到,与仅视觉任务预训练的基线相比有显着改进,例如VC-1和机器人操作的可重用表示 (R3M),以及使用VLM进行对象识别的算法。

RT-2 在可见的分布内任务上取得了高性能,并且在分布外未见的任务上优于多个基线。

团队还在开源语言表(Language Table)机器人任务套件上评估了模型,模拟中的成功率高达90%,比BC-Z(72%)、RT-1(74%)和LAVA(77%)等以前的基线模型有了大幅提高。

然后,他们还在现实世界中评估相同的模型,并展示了其泛化到新对象的能力。

如下所示,其中除了蓝色立方体之外,没有任何物体出现在训练中数据集。

RT-2在真实机器人语言表任务中表现良好

受到LLM中使用的CoT方法的启发,研究人员还将机器人控制与思维链推理相结合,以便能够在单个模型中学习长期规划和低级技能。

特别是,对RT-2的变体进行了几百个梯度步骤的微调,以提高其联合使用语言和动作的能力。

然后,研究人员还对数据进行了扩充,添加了一个额外的「计划」步骤。

首先用自然语言描述机器人即将采取的动作的目的,然后是「动作」和动作标记。

示例如下:

思想链推理能够学习一个独立的模型,该模型既可以规划长期技能序列,又可以预测机器人的动作

通过此过程,RT-2可以执行更多复杂的命令,这些命令需要推理完成用户指令所需的中间步骤。

得益于VLM主干,RT-2还可以根据图像和文本命令进行规划,从而实现基于视觉的规划。

通用机器人前景


RT-2的最新研究表明,视觉语言模型(VLM)可以转化为强大的视觉语言动作(VLA)模型。

通过将VLM预训练与机器人数据相结合,可以直接控制机器人。

基于大模型PaLM-E和PaLI-X的两个实例化,RT-2提升了机器人的策略。

更重要的是,还带来了显着更好的泛化能力、以及应对突发问题的能力,继承了网络规模的视觉语言预-训练。

RT-2不仅是对现有VLM模型的简单,而有效的修改,而且还展示了构建通用实体机器人的前景。

该机器人可以推理、解决问题和解释信息,以在现实中执行各种任务世界。

或许,机器人总动员中,那个聪明的瓦力离我们不远了。


参考资料:
https://twitter.com/GoogleDeepMind/status/1684903412834447360
https://www.deepmind.com/blog/rt-2-new-model-translates-vision-and-language-into-action?utm_source=twitter&utm_medium=social&utm_campaign=rt2


想要了解更多资讯,请扫描下方二维码,关注机器学习研究会

                                          


转自:新智元

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/159174
 
397 次点击