【泡泡一分钟】OpenLORIS-Object：用于终身深度学习的机器人视觉数据集和基准

每天一分钟，带你读遍机器人顶级会议文章

标题：OpenLORIS-Object: A Robotic Vision Dataset and Benchmark for Lifelong Deep Learning

作者：Qi She, Fan Feng, Xinyue Hao, Qihan Yang, Chuanlin Lan, Vincenzo Lomonaco, Xuesong Shi, Zhengwei Wang, Yao Guo, Yimin Zhang, Fei Qiao, and Rosa H. M. Chan

来源：2020 IEEE International Conference on Robotics and Automation (ICRA)

编译：姚潘涛

审核：柴毅，王靖淇

这是泡泡一分钟推送的第 754 篇文章，欢迎个人转发朋友圈；其他机构或自媒体如需转载，后台留言申请授权

摘要

计算机视觉最近的突破得益于可用于训练的大型代表性数据集(例如ImageNet和CoCo)。然而，机器人视觉给应用从这些标准计算机视觉数据集开发的视觉算法带来了独特的挑战，因为它们隐含地假设固定任务集的分布是不变的。由于计算、存储，有时还有隐私问题，每次有新任务可用时，完全的再培训模型是不可行的，而传统的增量策略已被证明会遭受灾难性的遗忘。具有自适应视觉感知系统的机器人能够在开放和有害的条件下持续工作是至关重要的，其中终身学习是一种基本能力。然而，很少有数据集和基准可用于评估和比较新兴技术。为了填补这一空白，我们提供了一个通过RGB-D摄像机收集的新的终身机器人视觉数据集(“OpenLORISObject”)。该数据集嵌入了机器人在现实应用中面临的挑战，并为验证终身对象识别算法提供了新的基准。此外，我们还提供了9种最先进的终身学习算法的试验台。每个测试涉及48个任务，在OpenLORIS-Object数据集上有4个评估指标。结果表明，在复杂多变的环境中，目标识别任务远未得到解决，瓶颈在于前向/后向迁移设计。我们的数据集和基准在https://lifelong-robotic-vision.github.io/dataset/object.上公开提供。

图1 OpenLORIS机器人平台(左)，安装有多个传感器(右)。在OpenLORIS-Object数据集中，RGB-D数据是从深度相机采集的。

表1 OpenLORIS-对象与其他对象识别数据集的比较。不同数据集的特征的汇总集中于照度、遮挡、图像中的对象尺寸(像素大小)、杂乱、上下文信息的变化，以及这些特征是以显式(可以量化)方式还是隐式方式(不能隔离数据的这些特征，并明确定义难度级别)提供的。因此，我们无法确定终身对象识别算法如何执行w.r.t。现实世界面临着严峻的挑战)。

表2 4个真实机器人视觉挑战的每个3个级别的详细信息。

表3 终身目标识别任务的四个评估指标。

图2 来自OpenLORIS的简单聚类(左)和复杂聚类(右)的两个RGB-D帧示例-带有2D边界框和蒙版注释的对象数据集。

图3 在多级别环境条件(列)下拾取了4个对象(行)的样本。从左到右的变化是照明(弱、正常和强)；遮挡(0%、25%和50%)；对象像素大小(<30×30、30×30−200×200和>200×200)；杂乱(简单、正常和复杂)；以及对象的多视图。(请注意，我们使用不同的视图作为每个因素中每个难度级别的训练样本)。

表4 训练-测试精度矩阵R，其中Tr=训练数据，Te=测试数据，Rij=T上的模型训练和T上的测试的分类精度。任务数为N，训练/测试比例为8：2。

图4 在顺序学习设置下的四因素分析(照明、遮挡、对象像素大小和杂乱)。Y黄色条表示遇到的因素(“1”：照明，“2”：遮挡，“3”：对象像素大小，“4”：杂乱)；蓝色条突出显示每个因素中的难度级别，绿色条表示任务ID。在每个难度级别中，提供三个任务w.r.t。它们在对象视图中的变体。

图5 9种终身学习算法的4个评价指标的蜘蛛图：准确度(灰色)、BWT(蓝色)、FWT(红色)和总体准确度(黄色)，这些算法分别根据光照、遮挡、对象像素大小和杂乱因素进行评估。面积越大越好。每个评估指标的最大值为100%。

图6 序列因素分析。对模型进行了3个难度水平的4个因素的连续学习训练。

图7 序列任务学习的评价结果。

Abstract

The recent breakthroughs in computer vision have benefited from the availability of large representative datasets (e.g. ImageNet and COCO) for training. Yet, robotic vision poses unique challenges for applying visual algorithms developed from these standard computer vision datasets due to their implicit assumption over non-varying distributions for a fixed set of tasks. Fully retraining models each time a new task becomes available is infeasible due to computational, storage and sometimes privacy issues, while naive incremental strategies have been shown to suffer from catastrophic forgetting. It is crucial for the robots to operate continuously under openset and detrimental conditions with adaptive visual perceptual systems, where lifelong learning is a fundamental capability. However, very few datasets and benchmarks are available to evaluate and compare emerging techniques. To fill this gap, we provide a new lifelong robotic vision dataset (“OpenLORISObject”) collected via RGB-D cameras. The dataset embeds the challenges faced by a robot in the real-life application and provides new benchmarks for validating lifelong object recognition algorithms. Moreover, we have provided a testbed of 9 stateof-the-art lifelong learning algorithms. Each of them involves 48 tasks with 4 evaluation metrics over the OpenLORIS-Object dataset. The results demonstrate that the object recognition task in the ever-changing difficulty environments is far from being solved and the bottlenecks are at the forward/backward transfer designs. Our dataset and benchmark are publicly available at https://lifelong-robotic-vision.github.io/dataset/object.

如果你对本文感兴趣，请点击点击阅读原文下载完整文章，如想查看更多文章请关注【泡泡机器人SLAM】公众号（paopaorobot_slam）。

百度网盘提取码：af2w

欢迎来到泡泡论坛，这里有大牛为你解答关于SLAM的任何疑惑。

有想问的问题，或者想刷帖回答问题，泡泡论坛欢迎你！

泡泡网站：www.paopaorobot.org

泡泡论坛：http://paopaorobot.org/bbs/

泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成，希望大家珍惜我们的劳动成果，转载请务必注明出自【泡泡机器人SLAM】微信公众号，否则侵权必究！同时，我们也欢迎各位转载到自己的朋友圈，让更多的人能进入到SLAM这个领域中，让我们共同为推进中国的SLAM事业而努力！

商业合作及转载请联系paopaorobot@163.com