福利|《深度学习目标检测》免费送！

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

自从深度学习被应用到计算机视觉领域，目标检测算法在短时间内有了很大的进步，甚至有人为了抢个车位用上了Mask R-CNN进行自动检测

能有这样的神仙操作，多亏了Mask R-CNN在物体检测中能得到像素级别的检测结果。Mask R-CNN能够对每一个目标物体，不仅给出其边界框，并且对边界框内的各个像素是否属于该物体进行标记！

本文选自《深度学习与目标检测》一书，带我们一同来了解一下这个神奇的Mask R-CNN~

2017年，Kaiming He等人提出了针对实例分割（instance segmentation）的Mask R-CNN模型[1]，将Mask R-CNN看成在Faster R-CNN基础上进行的扩展，在其已有的基于边界框识别的分支上添加了一个并行的用于预测目标掩码的分支，以完成实例分割任务。

实例分割简介

语义分割（semantic segmentation）通常是在像素级别上进行的，用于标注不同的类别。

例如，在自动驾驶项目中，一个类别可能是指行人、车辆、广告牌或者其他模型需要识别的类别。模型通过学习，最终会形成对行人、车辆、广告牌等不同类别的划分标准。但是，若仅进行语义分割，有时会出现问题，如图。

语义分割

上图是一幅标注得很精确的语义分割图片，不仅不同类别之间的边界清晰，而且分类准确。但是，图中所有的车都被标注成“车”这个类别（因为图片上的车之间有重叠，所以有些算法在理解这个信息时就会遇到问题）。毕竟这不是一辆长度为一个街区长度的履带式车辆，而是一系列前后排列的、单独停在路边的车辆。

语义分割只能区分不同的类别，但不能区分不同的实例（两辆车虽为同一类别，但它们作为不同实例的区别并不能在语义分割中体现）。

这时，实例分割的意义就显现出来了。实例分割可以作为目标检测与语义分割的结合，它不仅能在图像中正确地将目标检测出来，还能对每个目标实例进行精准的分割，效果如图。

实例分割

实例分割是在语义分割的基础上对不同的实例进行逐像素的分割。

与语义分割相比，实例分割对属于同一个类别的不同目标实例进行了区分。这样的标注更容易让自动驾驶车辆模型取得满意的结果。尽管基于实例的标注会花费较长的时间，但是对企业级的标注项目而言，可以通过这个细微的变化大幅提升精确度，进而得到更优秀的算法。

COCO数据集的像素级标注

Mask R-CNN的训练是在COCO数据集上进行的。

在COCO数据集的目标检测任务中，检测结果的保存格式有两种：一种是使用一个2D边界框来定位图像中不同的目标（在对定位精度要求较高的应用中显得有些粗糙）；另一种是逐像素对目标进行分割（相应地，图像中的每个像素都会被标注出来）。尽管不同的标注方式来源于不同的项目需求，但近年来对像素级别的实例分割的需求正在增加。

COCO数据集逐像素分割的总体思路是：提供每一个目标实例在整幅图像的每个像素上的分割掩码（segmentation mask），用1和0区分目标和背景，掩码的像素级标签使用行程长度编码（run-length encoding，RLE）机制。RLE是一种简单、高效的二进制掩码储存格式。RLE首先将向量（或者向量化的图像）划分为一系列分段的连续区域，对每个区域储存其长度。例如，当 M=[0 0 1 1 1 0 1]时，其RLE计数为 [2 3 1 1]，而当 M=[1 1 1 1 1 1 0] 时，其RLE计数为 [0 6 1]。RLE 计数的奇数位置上表示的总是0的数量。

[1] K. He, G. Gkioxari, P. Dollar, et al. Mask R-CNN. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, PP(99):1-1.

—— 图书推荐 ——

▊《深度学习与目标检测》

杜鹏谌明苏统华编著

本书的写作初衷是，从学者的角度，用一种通俗易懂的方式，把与基于深度学习的目标检测的相关论文中的理论和方法呈现给读者，同时针对作者在深度学习教学过程中遇到的难点，进行深入的分析和讲解。

本书侧重对卷积神经网络的介绍，而深度学习的内容不止于此。所以，作者将深度学习分为有监督学习、无监督学习和强化学习三类，将图像分类、目标检测、语音识别、人脸识别、对抗生成网络和AlphaGo围棋等应用场景归入不同的类别，并分别对其原理进行了概括性的讲解。

▲ 新书上市，扫码获取详情 ▲

如果你对计算机视觉领域感兴趣

快在留言区大声告诉我们

截止5月14日晚八点

留言获赞数最高的三位同学各赠一本

如果喜欢本文

欢迎在看丨留言丨分享至朋友圈 三连

吐血整理|3D视觉系统化学习路线
那些精贵的3D视觉系统学习资源总结（附书籍、网址与视频教程）
超全的3D视觉数据集汇总
大盘点|6D姿态估计算法汇总(上)
大盘点|6D姿态估计算法汇总（下）
机器人抓取汇总|涉及目标检测、分割、姿态识别、抓取点检测、路径规划

汇总|3D点云目标检测算法

汇总|3D人脸重建算法
那些年，我们一起刷过的计算机视觉比赛
总结|深度学习实现缺陷检测
深度学习在3-D环境重建中的应用
汇总|医学图像分析领域论文
大盘点|OCR算法汇总
重磅！3DCVer- 学术论文写作投稿交流群已成立
扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会（ICRA/IROS/ROBIO/CVPR/ICCV/ECCV等）、顶刊（IJCV/TPAMI/TIP等）、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近1000+星球成员为创造更好的AI世界共同进步，知识星球入口：

福利|《深度学习目标检测》免费送！

汇总|3D点云目标检测算法

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题