社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Git

火爆全网的柳夜熙,GitHub已开源 AI 算法!

鸭哥聊Java • 2 年前 • 3615 次点击  

大家好,我是鸭哥。


最近大火的虚拟美妆博主柳夜熙、上周百度发布的央视总台首个 AI 手语主播以及各大虚拟偶像等等数字人的核心技术中,让数字人开口说话的就是这个 AI 算法。


图片来源:网络


蒙娜丽莎说 Rap、苏轼先生开口念诗、Gollum 唱 Black Pink 的 Ice Cream。是的,你没有看错,本篇给大家介绍的这个 AI 算法可以实现上述超级 Fancy 的特效,亲手制作点击量过百万、霸榜热搜的超级视频


话不多说,让我们先看效果!




那这到底是什么神奇的技术呢?


答案就是飞桨开源套件 PaddleGAN 中的新晋宠儿:Wav2lip 模型


赶紧上项目查看源码及文档教程吧,这个项目还提供热门 GAN 模型,如 AnimeGANv2、GauGAN、First Order Motion 的实现。


GitHub链接

https://github.com/PaddlePaddle/PaddleGAN/blob/develop/README_cn.md


更贴心的是,完整项目代码已公开于 AI Studio,大家动动手指即可体验:


https://aistudio.baidu.com/aistudio/projectdetail/3156519?ref=gdaily2


下面呢,我们就来给大家拆解下这个技术原理,和具体的操作步骤,手把手教你实现苏轼念诗,蒙娜丽莎唱 Rap 或者任何你心仪的 Idol 说情话

这是一个输入一段语音,使目标人物图片、视频的唇形,根据语音进行自动匹配并运动起来的任务。


因此,我们需要准备一段音频和一段人像 / 动漫人物视频,将音频和视频输入 Wav2lip 模型中,经过 Wav2lip 模型预测后,便会输出一段目标人物 / 动漫人物说出输入音频的视频,至此,「千万级」配音视频就完成啦~



PaddleGAN 的唇形迁移能力:Wav2lip


Wav2lip 模型实现唇形与语音精准同步突破的关键在于:


  • 采用了唇形同步判别器,以强制生成器持续产生准确而逼真的唇部运动。

  • 此外,通过在鉴别器中,使用多个连续帧而不是单个帧,并使用视觉质量损失(而不仅仅是对比损失)来考虑时间相关性,从而改善了视觉质量。



万能的 Wav2lip 模型适用于任何人脸、任何语音、任何语言!对任意视频都能达到很高的准确率,都可以实现无缝地与原始视频融合,无论是视频效果还是语音效果都很逼真。


与此同时,PaddleGAN 针对 Wav2Lip 模型进行了高清优化,使唇形拟合更细腻,更加逼真。



PaddleGAN Wav2lip 的使用方法


在 PaddleGAN 的帮助下,完成上述神奇的自制「配音 / 对口型」只需两步:


1. 下载 PaddleGAN 并所需安装包

# 下载PaddlePaddle安装包# 从github上克隆PaddleGAN代码(如下载速度过慢,可用gitee源)!git clone https://gitee.com/PaddlePaddle/PaddleGAN#!git clone https://github.com/PaddlePaddle/PaddleGAN#本地安装PaddleGAN%cd /home/aistudio/PaddleGAN!pip install -v -e .!pip install -r requirements.txt


    
!pip install librosa!pip install numba==0.53.1


2. 使用唇形合成命令

%cd applications/!python tools/wav2lip.py \    --face /home/aistudio/1.jpeg \    --audio /home/aistudio/2.m4a \    --outfile /home/aistudio/pp_put.mp4 \    --face_enhancement

只需在如下命令中的 face 参数和 audio 参数分别换成自己的视频和音频路径,然后运行即可生成和音频同步的视频,运行完成后,会在当前文件夹下生成文件名为 outfile 参数指定的视频文件,该文件即为和音频同步的视频文件:


  • face: 原始视频,视频中的人物的唇形将根据音频进行唇形合成

  • audio:驱动唇形合成的音频,视频中的人物将根据此音频进行唇形合成

  • outfile:成品视频名

  • face_enhancement:添加人脸增加特效


PaddleGAN 的花样玩法


以为 PaddleGAN 就止于此?NoNoNo~


免费开源的宝藏套件 PaddleGAN 的能力当然不止于唇形迁移 / 生成的技术,里面满满都是种类丰富、趣味的图像 / 视频生成、处理能力,热门的前沿模型,如 AnimeGANv2、GauGAN、First Order Motion 等模型等待大家探索。


图像风格迁移、视频修复、图像超分辨率、人像动漫化、照片动漫化、人脸编辑等等。




PaddleGAN 就如一个「游乐场」,欢迎各位「玩家」加入,体验各类「游戏设施」 ~

来源:网络



程序员技术交流群
有不少同学给鸭哥说,现在进大厂太难了!赚钱太难!因此,鸭哥特意邀请了华为、腾讯、阿里的朋友进群,与大家一起交流经验,一起增长技术。
有兴趣入群的同学,可长按扫描下方二维码,一定要备注:城市+昵称+技术方向,根据格式备注,可更快被通过且邀请进群。
▲长按扫描

近期技术热文
1、SpringBoot 实现万能文件在线预览
2、Jetbrains即将推出下一代编辑器:Fleet,对标 VS Code,内含官方申请链接!
3、又一程序员删库跑路,只不过他没跑掉,还被抓了~
4、Java 线程池配置的常见误区



    
点击下方公众号
回复关键字【666
领取资料


我就知道你会点赞+“在看”

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/123843
 
3615 次点击