关注“FightingCV”公众号
回复“AI”即可获得超100G人工智能的教程
最近,一些 AI 生成视觉形象的应用爆火,例如只需 9 块 9 就能生成个人写真的「妙鸭相机」。由于操作简单,不涉及任何技术操作,很多用户都纷纷在朋友圈晒出妙鸭相机生成的写真。

妙鸭相机虽然好用,但它是一个需要付费的应用。现在,一个名为 FaceChain 的开源项目可以用 AI 模型打造人物写真。项目上线一周,已经狂揽 2.5k star,今天还上了Github趋势排行榜第一名。

项目地址:https://github.com/modelscope/facechain
用户仅需提供最低三张照片,就可以获得特定风格的个人写真。例如,生成商务证件照:

也可以在 ModelScope 创空间中直接体验这项应用,无需任何安装步骤。

试玩地址:https://modelscope.cn/studios/CVstudio/cv_human_portrait/summary


作者在项目介绍中讲解了 AI 生成个人写真的技术原理,解释了生成式 AI 模型如何成为「写真神器」,我们来看下这部分讲解内容。
个人写真的生成原理
基本原理
AI 生成个人写真的能力来源于 Stable Diffusion 模型的文生图功能,—— 输入一段文本或一系列 prompt,输出对应的图像。而影响个人写真生成效果的因素主要有两方面:写真风格信息和用户人物信息。
为此,项目作者分别使用线下训练的风格 LoRA 模型和线上训练的人脸 LoRA 模型来学习上述两方面的信息。LoRA 是一种具有较少可训练参数的微调模型,在 Stable Diffusion 中,可以通过对少量输入图像进行文生图训练的方式将输入图像的信息注入到 LoRA 模型中。

因此,个人写真模型的能力分为训练与推断两个阶段,训练阶段生成用于微调 Stable Diffusion 模型的图像与文本标签数据,得到人脸 LoRA 模型;推断阶段基于人脸 LoRA 模型和风格 LoRA 模型生成个人写真图像。
训练阶段
训练阶段的输入是用户上传的包含清晰人脸区域的图像,输出是人脸 LoRA 模型。
具体来说,项目作者首先使用基于朝向判断的图像旋转模型,以及基于人脸检测和关键点模型的人脸精细化旋转方法,来处理用户上传图像,得到包含正向人脸的图像;接下来使用人体解析模型和人像美肤模型,以获得高质量的人脸训练图像;随后,该项目使用人脸属性模型和文本标注模型,结合标签后处理方法,产生训练图像的精细化标签;最后使用上述图像和标签数据微调 Stable Diffusion 模型得到人脸 LoRA 模型。
推断阶段
推断阶段的输入是训练阶段用户上传图像和预设的用于生成个人写真的输入 prompt,输出是个人写真图像。
在推断阶段,该项目首先将人脸 LoRA 模型和风格 LoRA 模型的权重融合到 Stable Diffusion 模型中;接下来使用 Stable Diffusion 模型的文生图功能,基于预设的 prompt 初步生成个人写真图像;随后,该项目使用人脸融合模型进一步改善上述写真图像的人脸细节,其中用于融合的模板人脸通过人脸质量评估模型在训练图像中进行挑选;最后再使用人脸识别模型计算生成的写真图像与模板人脸的相似度,以此对写真图像进行排序,并输出排名靠前的个人写真图像作为最终输出结果。
项目作者已详细介绍安装与使用方法,并将项目代码开源,感兴趣的读者快去试试吧。
往期回顾
基础知识
【CV知识点汇总与解析】|损失函数篇
【CV知识点汇总与解析】|激活函数篇
【CV知识点汇总与解析】| optimizer和学习率篇
【CV知识点汇总与解析】| 正则化篇
【CV知识点汇总与解析】| 参数初始化篇
【CV知识点汇总与解析】| 卷积和池化篇 (超多图警告)
【CV知识点汇总与解析】| 技术发展篇 (超详细!!!)
最新论文解析
NeurIPS2022 Spotlight | TANGO:一种基于光照分解实现逼真稳健的文本驱动3D风格化
ECCV2022 Oral | 微软提出UNICORN,统一文本生成与边框预测任务
NeurIPS 2022 | VideoMAE:南大&腾讯联合提出第一个视频版MAE框架,遮盖率达到90%
NeurIPS 2022 | 清华大学提出OrdinalCLIP,基于序数提示学习的语言引导有序回归
SlowFast Network:用于计算机视觉视频理解的双模CNN
WACV2022 | 一张图片只值五句话吗?UAB提出图像-文本匹配语义的新视角!
CVPR2022 | Attention机制是为了找最相关的item?中科大团队反其道而行之!
ECCV2022 Oral | SeqTR:一个简单而通用的 Visual Grounding网络
如何训练用于图像检索的Vision Transformer?Facebook研究员解决了这个问题!
ICLR22 Workshop | 用两个模型解决一个任务,意大利学者提出维基百科上的高效检索模型
See Finer, See More!腾讯&上交提出IVT,越看越精细,进行精细全面的跨模态对比!
MM2022|兼具低级和高级表征,百度提出利用显式高级语义增强视频文本检索
MM2022 | 用StyleGAN进行数据增强,真的太好用了
MM2022 | 在特征空间中的多模态数据增强方法
ECCV2022|港中文MM Lab证明Frozen的CLIP 模型是高效视频学习者
ECCV2022|只能11%的参数就能优于Swin,微软提出快速预训练蒸馏方法TinyViT
CVPR2022|比VinVL快一万倍!人大提出交互协同的双流视觉语言预训练模型COTS,又快又好!
CVPR2022 Oral|通过多尺度token聚合分流自注意力,代码已开源
CVPR Oral | 谷歌&斯坦福(李飞飞组)提出TIRG,用组合的文本和图像来进行图像检索