【泡泡图灵智库】通过深度学习方法学习手眼协调以进行机器人抓取

泡泡图灵智库，带你精读机器人顶级会议文章

标题：Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning

and Large-Scale Data Collection

作者：Sergey Levine, Peter Pastor, Alex Krizhevsky and Deirdre Quillen

来源：arXiv

编译：李逸帆

审核：李鑫

提取码：k3we

这是泡泡图灵智库推送的第 466篇文章，欢迎个人转发朋友圈；其他机构或自媒体如需转载，后台留言申请授权

摘要

本文提出一种手眼协调的学习方法，让机器手臂藉由图像作为输入，学习抓取物品。为此该方法训练了一个大型的卷积神经网络，作为预测手臂在空间中运动时的成功抓取概率。仅使用单眼相机，不必关心相机校准或和手臂姿势。

该方法使得网络了解场景中夹爪和物体的空间关系，从而学习手眼协调。为了训练模型，耗时两个月收集80万次抓取资料(trajectory)，使用14个机器手臂不断的搜集数据与优化模型，每台的相机位置和硬体会有些微差异。实验结果表明，该方法可以实现有效即时操作，除了可抓取训练过的外，还能抓取没训练过、看过的物品。

前言

该方法使用了两个模块：

抓取预测器，使用卷积预测动作是否能成功地夹取。
连续控制器，让机器不断的接受移动指令。借着连贯性的动作决策找出最佳路径，直到成功地抓取其中一个任意物品。

整个手眼协调方法，能让算法不间断地取得图像，即时得到回馈，连续决策手臂的移动与方向。

主要算法

抓取评估卷积网路

手臂抓取的评估方法如上图，网路使用了当下拍摄图片作为输入，以及一张没有被手臂阻挡视野的照片(time=0)，这两张照片输入做级联，水平相加filter，再送进卷积网路。

经过七层卷积后，再另外提供一个有五个值的向量，包括位置与方向，把此向量平展著成卷积，与第七层的输出做级联，然后送进卷积，直到最后展开为64个节点的DNN，最后经过sigmoid输出成功的机率。

資料蒐集

经过两个月的时间，14台手臂搜集八十万次的抓取(trajectry)，没有经过人工标注。操作员唯一介入的行为只有整理物品与开启机器。初期资料是藉由随机抓取而搜集，移动次数为2 step(T=2)，两次移动结束变会执行抓取，成功率在10%-30%。整个资料集一半的资料是随机抓取，剩下就用更新过的网路搜集。累积一定量样本后，模型会再更新，并逐渐增加time step，从2升至10次。

如何判定抓取有无成功？该论文介绍两种方法：首先是夹爪如果成功抓取物品，两指中间会卡住该物件，导致无法完全闭合，以此可判定抓取有无成功，但因为有些物品，例如毛织物因无法夹取的完全，导致判定失效。另一个方法用before-after方法，判断影像中有无物品消失，来判断是否成功。

实验结果

为了客观评估该方法的成效，该论文设计了一些定量测试，这些测试物品都是不在训练集出现过的。如图8，物品包括办公与家庭物品，包含较重、平坦的物品，还有性质较为柔软或半透明物品。

实验方式有两种：第一种是取后放回，抓100次，但它可能会因算法持续抓取较简易物品而使得错误率偏低。第二种是取后不放回，实验4次，实验总结前10、20、30抓取勿述的失误率，N为抓取次数乘实验次数。

资料量比较

图中表示着训练集数量与准确率的关系。M为image资料数量，随着训练次数增加，time step慢慢从2增加至10。就全部样本来说，后面的训练数据意义更大，因为藉由前期的探索抓取简单的物件，后期可以用尝试用更多step抓取更难的物品，增加的样本数据，进一步提升模型准确度。

结论

建构手眼协调的机器手臂抓取方法，使用类神经判断出抓取的成功机率。透过14台实体机器与80万次的样本(trajectory)，每个相机的姿态与夹爪有些微不同差异。该方法不用透过相机校正，而是从资料反覆训练类神经。结果表示该方法可以有效抓取不同物体，包括没见过的物品。

----------------------------------------------------------------------------------

Abstract

We describe a learning-based approach to hand-eye coordination for robotic grasping from monocular images. To learn hand-eye coordination for grasping, we trained a large convolutional neural network to predict the probability that task-space motion of the gripper willresult in successful grasps, using only monocular camera images and independently of camera calibration or the current robot pose. This requires the network to observe the spatial relationship between the gripper and objects in the scene, thus learning hand-eye coordination. We then use this network to servo the gripper in real time to achieve successful grasps. To train our network, we collected over 800,000 grasp attempts over the course of two months, using between 6 and 14 robotic manipulators at any given time, with differences in camera placement and hardware. Our experimental evaluation demonstrates that our method achieves effective real-time control, can successfully grasp novel objects, and corrects mistakes by continuous servoing.

如果你对本文感兴趣，想要下载完整文章进行阅读，可以关注【泡泡机器人SLAM】公众号。

点击阅读原文，提取码：k3we 即可获取本文下载链接。

欢迎来到泡泡论坛，这里有大牛为你解答关于SLAM的任何疑惑。

有想问的问题，或者想刷帖回答问题，泡泡论坛欢迎你！

泡泡网站：www.paopaorobot.org

泡泡论坛：http://paopaorobot.org/forums/

泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成，希望大家珍惜我们的劳动成果，转载请务必注明出自【泡泡机器人SLAM】微信公众号，否则侵权必究！同时，我们也欢迎各位转载到自己的朋友圈，让更多的人能进入到SLAM这个领域中，让我们共同为推进中国的SLAM事业而努力！

商业合作及转载请联系liufuqiang_robot@hotmail.com