活动中的 3D 网格
我们针对 3D 网格采用迁移学习技术,并训练了一个具有多个目标的网络:该网络能够同时根据经合成和渲染的数据预测 3D 网格坐标,并根据与 MLKit 提供的数据类似且带有注释的现实数据预测 2D 语义轮廓。训练好的网络能够同时根据合成和现实数据,为我们提供合理的 3D 网格预测结果。我们使用包含不同地区信息的数据集中的数据训练所有模型,随后又使用平衡且多样化的测试集对模型的定性和定量性能进行测试。
注:MLKit 链接
https://firebase.google.com/docs/ml-kit/face-detection-concepts#contours
3D 网格网络接收裁剪后的视频帧,并将其用作输入值。由于 3D 网格网络不依赖额外的深度输入,所以也可以应用于预先录制的视频。模型输出 3D 点的位置,以及在输入中存在并合理对齐的面部概率。一种常见的替代方法是为每个标记预测 2D 热图,但该方法并不适用于深度预测,并且由于点的数量过多,其计算成本也很高。
我们通过迭代自展和优化预测,进一步提高模型的准确性和鲁棒性。通过这种方法,我们可以改进数据集,解决愈发具有挑战性的案例,例如鬼脸、斜角和遮挡。此外,数据集增强技术还扩展了可用的地面实况数据,并开发出能够应对相机缺陷或极端照明条件等人工产品问题的模型。