来自北卡夏洛特, 戴顿大学, 德州大学达拉斯分校,中佛罗里达大学的研究人员对该领域的研究发展进行了综述。基于输入数据和推理程序的系统分析和比较,作者对基于深度学习的 2D 和 3D 姿态估计解决方案进行全面回顾,其中涵盖了自2014 年以来 240 余篇相关研究论文。同时还提供了定期更新的 github 项目。
人体姿势估计的研究目标是根据图像和视频等输入数据来定位人体部位并建立人体表现形式(例如人体骨骼)。在过去的十年中,它引起了越来越多的关注,并已被广泛用于包括人机交互,运动分析,增强现实和虚拟现实的应用中。尽管最近基于深度学习的人体姿势估计研究已经取得了很好的效果,但是训练数据不足,深度模糊和遮挡等挑战依旧存在。本调查论文的目的是通过基于输入数据和推理程序的系统分析和比较,对基于深度学习的2D和3D姿态估计解决方案进行全面回顾。该调查涵盖了自2014年以来240余篇研究论文。此外,论文还包括2D和3D人类姿势估计数据集和评估指标。总结并讨论了在大众化数据集上所审查方法的定量性能比较。最后,总结了所涉及的挑战,应用和未来的研究方向与之前的综述论文对比
该综述提供了更系统更全面的2D和3D人体姿态估计的归纳和讨论,数据集汇总和结果对比,人体姿态估计的应用总结,以及未来研究方向的讨论。根据单眼图像/视频或其他来源的 2D 或 3D 场景,对单视图或多视图HPE方法进行分类并提供了最新的基于深度学习的 2D 和 3D HPE 方法的全面回顾(直至 2020 年)。
2D 和 3D HPE 方法的广泛性能评估。我们根据不同方法类别对常用数据集上算法性能进行了总结和比较。并讲解了不同方法的优势和劣势,揭示了 HPE的研究趋势和未来研究方向。
详尽介绍了各种HPE的应用场景,例如游戏,监视,AR / VR和医疗保健。
就 2D 和 3D HPE 的主要挑战提出了有见地的讨论,指出了潜在的研究方向以提高算法性能。
本文按照 2D/3D, 单人/多人,单视角/多视角,输入数据形式等进行了全面的技术分类:作者重点介绍了 Kinematic 模型和 Volumetric 模型下的 SMPL, DYNA, Frankenstein & Adam 等常用 3D 模型。针对不同类型的技术,作者概括了该类型下的常用框架以及详细介绍了每类方法。Fig. 3: 单人2D HPE框架。(a)回归方法(通过深度神经网络)学习从原始图像到人体模型的映射,并生成关键点坐标。(b)身体部位检测方法利用热图的监督来预测人体关节的位置。
Fig. 4: 多人2D HPE框架。(a)自上而下的方法有两个子任务:(1)人的检测(2)单人区域内的姿态估计;(b)自下而上的方法也有两个子任务:(1)检测身体部位的所有关键点候选者;(2)将不同人体的身体部位关联起来,并将它们组合成单独的姿势表示形式。
Fig 5:3D单人姿态估计框架(a)直接从2D图片预测 (b)从已预测的2D人体姿态再估计3D人体姿态 (c)基于人体模型的方法,最终重建出human mesh
Fig 6:3D多人姿态估计框架 (a)自上而下法,先检测出图片中所有单人区域,针对每个单人区域做单人人体估计,最后把所有的单人姿态校准到世界坐标系。(b)自下而上法,先估计出所有的人体关键点和深度图,再对属于同一人的关键点进行分组连接。
同时作者也归纳了 3D 人体姿态下的多视角的姿态预测和其他输入形式(比如Depth and point cloud sensors,IMUs,Radio frequency device 等 )的姿态预测方法。2D 人体姿态估计在不同分类下的不同数据集的结果比较:3D 人体姿态估计在不同分类下的不同数据集的结果比较:
Domain adaptation for HPE
Human body models
Temporal consistency and motion smoothness frame-level evaluation metrics
Resolution-aware HPE networks
Adversarial attack for HPE
Neural Architecture Search for HPE
人体姿态估计、手势识别等更多新鲜资讯,若已为CV君其他账号好友请直接私信。
微信号:aicvml
QQ群:805388940
微博知乎:@我爱计算机视觉
投稿:amos@52cv.net
网站:www.52cv.net
在看,让更多人看到