ZAO 背后的深度学习算法原理浅析

这里我们给出的是图像上人脸替换的一般流程，那对于短视频而言，就需要先对视频进行截帧，然后逐帧进行人脸替换，在视频帧替换过程中要有人脸识别的网络来保证替换的对象保持统一性（具体理解就是比如我们要替换一段视频中小燕子的脸，那就要识别出检测的人脸是不是小燕子的，不能将紫薇的人脸也替换了），当然由于是视频逐帧的替换，那么在其中为了保证视频随时间前后帧替换的人脸的自然和连贯性，就需要对前后帧的人脸进行转移平滑操作，从而保证较强的视觉效果。

以上就是图像换脸，视频换脸的通用流程，当然对于ZAO而言，我们发现它的换脸效果要好于我们一般的换脸算法，尤其是在头部旋转的（低头，回头，仰头）上面，效果很是不错，所以我们有理由相信，ZAO的算法内部应该是使用3D人脸关键点的检测，这样在替换的过程中就会换的更为自然。

好的，现在我们了解了流程，下面我们更加细节的介绍上面说的DeepFake（GAN/CycleGAN）的算法工作原理。为了简化大家对于GAN/CycleGAN的理解，我们同样以图的方式展现：

首先，上图表示了最简单的人脸替换网络，对于输出人脸（左边），通过神经网络编码得到中间状态（往往是一个向量或者很小的图像），之后再进入解码器还原得到重建的人脸（右边）。我们注意，中间的编码态相当于保存的人脸的全部信息。在上图我们并没有做人脸替换的相关操作，即A脸编码后解码的还是A脸，B脸编码后解码的还是B脸。

下面，如果我们将B脸编码的向量用A脸的解码去解，会发生什么呢？是的，B的脸会出现在原本A的脸的位置，但面部的表情和一些细节会保留A的。这样就实现了换脸。

从上图还有一点需要注意，因为编码的可替换要求，我们必须让所有脸的编码器保持一致性，也就是所有替换前的人脸用统一的编码器去编码（上图统一的红色编码器），但对于每个不同的人脸要实用不同的解码器去解码（上图不同的蓝色和绿色解码器），这样才能完成换脸。

但是如果仅仅使用上面的算法结构，生成的人脸会比较假，可以看出相当明显的人为替换痕迹，而为了让替换发生的更为真实，CycleGan应运而生，还是简单的一张图去理解CycleGan的算法本质：

我们可以看出，说到底，CycleGan不过在换脸后生成的假脸和真脸的之间多增加了一个损失来减小两者的差距，同时让相较于之前的A-->B, CycleGan还同时实现了B-->A的生成和缩小差距，而这整个过程呈现了一个闭环，故而名为Cycle。

CycleGan的循环训练可以明显的缩小直接将B脸用A解码器解码所产生的不真实性。

当然，在真实场景中，在完成换脸后可能还需要一些后处理来保证结果更加平滑自然，比如在换脸边缘做一些模糊处理，在人脸区域做一些和原脸的风格迁移等等。而这些就是实现技术代差的关键技术了，我们今天只是浅析一下ZAO的算法，更深入的一些产品算法设计细节我们这里不做更深的探讨了。

最后面对ZAO，虽然他有着霸王条款，单但从技术角度看，我认为ZAO确实做的很好，技术上值得我们学习，但换脸本身是否符合道德，究竟是不是一件有意义有价值的事情，还需要时间给出我们最终的答案。

感谢您阅读，希望对您有所帮助。

更多精彩

识别二维码观看直播

阿里CTO鲁肃：技术的想象力不应设限，未来所有应用的核心都离不开数据和智能

云栖大会第一天，我们生了头“驴”和“无影”！

点此阅读作者更多好文！

ZAO 背后的深度学习算法原理浅析

阿里CTO鲁肃：技术的想象力不应设限，未来所有应用的核心都离不开数据和智能

(adsbygoogle = window.adsbygoogle || []).push({}); 云栖大会第一天，我们生了头“驴”和“无影”！

云栖大会第一天，我们生了头“驴”和“无影”！