熟悉的小伙伴可能认出来了,这一套AI捏脸术,源技术来自NeurIPS 2019 论文《First Order Motion Model for Image Animation》(,以下简称FOMM,详细技术解释,请参考DeepFake 新高度:一阶运动模型让“万物皆可动”一文),最初的目的是让“静态图片”动起来。
论文中的一阶运动模型分为运动估计模块和图像生成模块两个主要组成部分。在运动估计模块中,该模型通过自监督学习将目标物体的外观和运动信息进行分离,并进行特征表示。而在图像生成模块中,模型会对目标运动期间出现的遮挡进行建模,然后从给定的名人图片中提取外观信息,结合先前获得的特征表示,进行视频合成。据爱奇艺技术产品团队PersonAI介绍,这篇文章主要完成的任务是image animation,给定一张源图片和一个目标动作视频,目标视频的表情和动作可以迁移到源图片上,使得源图片中的人物做出目标视频相同的表情动作。另外,该模型对硬件要求比较高,想实现33帧/秒的视频效果,需要一张1080ti显卡,也即需要英伟达10系显卡中的卡皇加持。源技术FOMM的另外一个缺点是,FOMM在姿态角度比较大时,生成效果比较差,人脸会有明显的扭曲变形,即侧脸驱动效果很不自然。同时,如果表情比较大,嘴部动作比较夸张,由于FOMM是基于全局的光流来驱动的,这种夸张表情也使得驱动效果不好。为了优化这些问题,爱奇艺PersonAI团队从训练数据和训练方法两个方面着手调整。训练数据方面,利用团队内部的人脸识别、人脸属性识别、情感识别、微表情识别等技术,从海量的爱奇艺优质视频中提取出可用于训练的视频片段,并从性别、年龄、人种、姿态、表情等多个维度保证了训练数据的合理分布。其中,还刻意增加了姿态角度比较大和表情比较夸张的数据的比例,以保证训练数据的全面覆盖。在训练方法方面,在原有的约束LOSS上增加了人脸特征、3d姿态表情、及其嘴巴局部细节等的约束。其中人脸特征得益于PersonAI团队的千万级人脸识别模型,再加上高精度的双线性3D重建模型,对生成前后的图像分别提取人脸特征、3D模型的姿态和表情系数,并对嘴巴部分做了加权处理,尽量保证在姿态角度大和嘴部动作相对较大的情况下,生成的图像与目标图像保持相似的人脸特征和姿态表情。最终效果实现:为了提高用户体验,需要保证快速的模型推理时间。因此,爱奇艺的研究人员在保证生成效果的同时,对模型速度进行了进一步的优化:将模型中计算量较大的卷积层替换为深度可分离卷积,并通过对模型结构的分析,构建了轻量化的网络模型,大幅提高了模型推理速度。在性能保持方面,实验过程中发现采用小模型后,模型的生成效果有所减弱,尤其是嘴部会比较模糊,为此爱奇艺通过神经网络蒸馏技术提升了小模型的整体生成效果,并对嘴部区域单独做了进一步的优化。 基于以上改进,基本保证了生成又快又好。针对侧脸问题,与人脸3d模型的结合进一步优化了生成效果。具体而言,是在训练过程中引入了爱奇艺PersonAI团队的3D重建模型,对生成前后的图片计算3D模型的姿态和表情系数,尽量保证大角度侧脸下的生成效果。人脸3D模型的系数,主要是来源3dmm模型,3dmm模型使用facescape的双线性模型[2]作为基础,这个相对于线性模型一般有更好的表达能力。为了提高3D模型的可用性,在facescape数据处理部分进行了改进,以TU模型作为target,结合facescape双线性模型pca基底拟合身份和表情系数。注:FaceScape 一个大规模高质量的3D人脸数据集,包括18760张高质量3D人脸模型。图注:FaceScape: a Large-scale High Quality 3D Face Dataset and Detailed Riggable 3D Face Prediction,CVPR 2020,facescape训练数据样例。为了弥补facescape采集人数上的不足,PersonAI团队从300wlp分别选取同一个人的图片,根据身份相同的约束,及personAI团队自主研发的landmark检测器准确检测人脸landmark,拟合出3dmm模型的表情系数和身份系数。据介绍,这份数据的特点是环境为真实环境,光线和清晰程度与使用场景更为接近。
此外,训练过程借鉴了Personalized Face Modeling for Improved Face Reconstruction and Motion Retargeting和Towards Fast, Accurate and Stable 3D Dense Face Alignment等方法,训练过程增加了重建mesh的3d landmark投影到图片上的点到脸轮廓线loss等,可以提高训练收敛速度和重建效果。图注:FaceScape: a Large-scale High Quality 3D Face Dataset and Detailed Riggable 3D Face Prediction,CVPR 2020,重建效果图例