深度学习三巨头来拜年了？背后是他们为之奋斗一生的事业

今儿个就是除夕，AI科技评论在这儿先祝大家春节快乐，牛年吉祥，在接下来的一年里多发论文，多接offer.......（以下省略1w字）。

不说没用的，整点干货！我们“拉”来了达叔给你送上祝福~~达叔说：祝你天真无邪，貌美如花。

除了达叔，深度学习三巨头也不远万里，送上了祝福。

Yann LeCun说，在新的一年，要多喝牛奶，多吃牛肉，身体壮如牛。

Bengio说，我们唱歌跳舞，祝福大家新年好。

Hinton说，我给你下碗饺子吃吧？..........

AI圈里的开山宗师能够亲口为你送上祝福，还得益于他们一生为之奋斗的事业：AI。正如动图上的图标，以上拜年黑科技来源于爱奇艺创作中心，科学家们用当前最先进的技术方案，丰富的数据，解锁了AI拜年新姿势。姿势之新，连宠物都不放过！

还有戴珍珠耳环的少女，一键化身tvb港星，潮爆朋友圈👇

你想拥有新姿势？观看下面视频，手把手教你定制属于自己的拜年新方式~👇

改进的一阶运动模型

熟悉的小伙伴可能认出来了，这一套AI捏脸术，源技术来自NeurIPS 2019 论文《First Order Motion Model for Image Animation》（，以下简称FOMM，详细技术解释，请参考DeepFake 新高度：一阶运动模型让“万物皆可动”一文），最初的目的是让“静态图片”动起来。

论文中的一阶运动模型分为运动估计模块和图像生成模块两个主要组成部分。在运动估计模块中，该模型通过自监督学习将目标物体的外观和运动信息进行分离，并进行特征表示。

而在图像生成模块中，模型会对目标运动期间出现的遮挡进行建模，然后从给定的名人图片中提取外观信息，结合先前获得的特征表示，进行视频合成。

据爱奇艺技术产品团队PersonAI介绍，这篇文章主要完成的任务是image animation，给定一张源图片和一个目标动作视频，目标视频的表情和动作可以迁移到源图片上，使得源图片中的人物做出目标视频相同的表情动作。

另外，该模型对硬件要求比较高，想实现33帧/秒的视频效果，需要一张1080ti显卡，也即需要英伟达10系显卡中的卡皇加持。

源技术FOMM的另外一个缺点是，FOMM在姿态角度比较大时，生成效果比较差，人脸会有明显的扭曲变形，即侧脸驱动效果很不自然。同时，如果表情比较大，嘴部动作比较夸张，由于FOMM是基于全局的光流来驱动的，这种夸张表情也使得驱动效果不好。

为了优化这些问题，爱奇艺PersonAI团队从训练数据和训练方法两个方面着手调整。训练数据方面，利用团队内部的人脸识别、人脸属性识别、情感识别、微表情识别等技术，从海量的爱奇艺优质视频中提取出可用于训练的视频片段，并从性别、年龄、人种、姿态、表情等多个维度保证了训练数据的合理分布。

其中，还刻意增加了姿态角度比较大和表情比较夸张的数据的比例，以保证训练数据的全面覆盖。

在训练方法方面，在原有的约束LOSS上增加了人脸特征、3d姿态表情、及其嘴巴局部细节等的约束。其中人脸特征得益于PersonAI团队的千万级人脸识别模型，再加上高精度的双线性3D重建模型，对生成前后的图像分别提取人脸特征、3D模型的姿态和表情系数，并对嘴巴部分做了加权处理，尽量保证在姿态角度大和嘴部动作相对较大的情况下，生成的图像与目标图像保持相似的人脸特征和姿态表情。

最终效果实现：

为了提高用户体验，需要保证快速的模型推理时间。因此，爱奇艺的研究人员在保证生成效果的同时，对模型速度进行了进一步的优化：将模型中计算量较大的卷积层替换为深度可分离卷积，并通过对模型结构的分析，构建了轻量化的网络模型，大幅提高了模型推理速度。

在性能保持方面，实验过程中发现采用小模型后，模型的生成效果有所减弱，尤其是嘴部会比较模糊，为此爱奇艺通过神经网络蒸馏技术提升了小模型的整体生成效果，并对嘴部区域单独做了进一步的优化。

基于以上改进，基本保证了生成又快又好。针对侧脸问题，与人脸3d模型的结合进一步优化了生成效果。

具体而言，是在训练过程中引入了爱奇艺PersonAI团队的3D重建模型，对生成前后的图片计算3D模型的姿态和表情系数，尽量保证大角度侧脸下的生成效果。人脸3D模型的系数，主要是来源3dmm模型，3dmm模型使用facescape的双线性模型[2]作为基础，这个相对于线性模型一般有更好的表达能力。

为了提高3D模型的可用性，在facescape数据处理部分进行了改进，以TU模型作为target，结合facescape双线性模型pca基底拟合身份和表情系数。

注：FaceScape 一个大规模高质量的3D人脸数据集,包括18760张高质量3D人脸模型。

图注：FaceScape: a Large-scale High Quality 3D Face Dataset and Detailed Riggable 3D Face Prediction，CVPR 2020，facescape训练数据样例。

为了弥补facescape采集人数上的不足，PersonAI团队从300wlp分别选取同一个人的图片，根据身份相同的约束，及personAI团队自主研发的landmark检测器准确检测人脸landmark，拟合出3dmm模型的表情系数和身份系数。据介绍，这份数据的特点是环境为真实环境，光线和清晰程度与使用场景更为接近。

此外，训练过程借鉴了Personalized Face Modeling for Improved Face Reconstruction and Motion Retargeting和Towards Fast, Accurate and Stable 3D Dense Face Alignment等方法，训练过程增加了重建mesh的3d landmark投影到图片上的点到脸轮廓线loss等，可以提高训练收敛速度和重建效果。

图注：FaceScape: a Large-scale High Quality 3D Face Dataset and Detailed Riggable 3D Face Prediction，CVPR 2020，重建效果图例

OMT：未来改进方向

当然，此技术还有很多改进的方向。最主要的一点是，用人脸数据训练，模型学习到的是人脸的五官分布信息。如果直接应用在宠物上，效果可能不好。因为有些宠物的五官跟人的五官差异比较大，生成出来的效果可能是宠物的鼻子在动。

如下动图所示：

出现这个问题的原因是：海量的宠物数据收集相对比较困难，宠物的品种繁多，不同品种的外观差异也很大，目前模型还没法很好地应用到所有宠物上，有些宠物需要单独优化。

最后，再次祝大家新年快乐。不过，新年饭菜可口，也不要多吃哟，要不然~

注：本文中所涉及的各项人物、图片以及《AI科技评论》利用爱奇艺APP功能所生成的各项动图及视频，仅用于相关技术介绍及评论。绝无恶意，侵权删除。

点击阅读原文，直达AAAI小组！

由于微信公众号试行乱序推送，您可能不再能准时收到AI科技评论的推送。为了第一时间收到AI科技评论的报道，请将“AI科技评论”设为星标账号，以及常点文末右下角的“在看”。