社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  aigc

【首度揭秘】淘宝2025春晚云参演证背后的AIGC技术

大淘宝技术 • 4 月前 • 95 次点击  
图片



随着人工智能技术的飞速发展,AIGC(生成式人工智能)逐渐走入大众视野。在2025年央视春晚这一国民级舞台上,一项基于AIGC的创新互动玩法——“春晚云参演证”应运而生。用户只需上传个人照片,即可通过AI换脸技术融入九大类春晚经典节目场景(如主持、歌舞、相声等),实现“一键智能换脸+场景沉浸式角色扮演”的全新体验。这项技术不仅打破了专业演出的壁垒,让普通观众瞬间化身为“AI数字演员”,还通过零门槛的创作方式,为千万用户带来了“上春晚”的仪式感与传播裂变势能。


本文将详细回顾该项目的开发历程,涵盖算法设计、工程实施、问题解决及成果影响等多个方面,全面展示AIGC技术如何赋能春晚,推动文化IP破圈传播,并为未来更多创新玩法提供借鉴与启发。




图片
项目背景


为响应央视春晚“全民参演”这一创意需求,我们通过AIGC技术实现了「全民上春晚」的创新玩法——用户只需上传个人照片,即可融入春晚的多类节目场景,包括主持、歌舞、相声等。通过深度合成和内容生成技术的结合,我们开创了“一键智能换脸 + 场景沉浸式角色扮演”的全新体验模式。这项技术不仅让用户照片与春晚场景完美对接,更使每一位普通观众瞬间变身为“AI数字演员”,无缝融入著名的主持阵容、精彩歌舞和经典相声的舞台场景之中。这种零门槛的AI创作体验打破了传统演出的壁垒,让大众在虚实融合的环境中,收获“上春晚”的仪式感,并产生强大的传播裂变势能。这一创新不仅提升了节目参与感,也通过技术手段实现了 AIGC 文化 IP 的破圈传播。


我们的技术实施采用了“分模块化开发与滚动验收”的高效模式,三线并行推动算法、工程和测试,仅用四周时间便成功实现了服务开发与上线。依托三级熔断机制来保障抗压能力,AIGC服务在高峰期保持万级QPS的稳定状态,使得千万用户能够在零故障情况下流畅体验。并在社交平台上引发了现象级传播,生成了数亿张个性化参演图像,超8成用户导出这些内容进行分享。在小红书,用户自发发表的相关帖子近万篇,在抖音和视频号等平台有大量的用户自主创作内容不断涌现,体现了技术价值和社区影响力的双重突破。


部分产品效果图如下所示


图片

算法开发历程与问题回顾


  2.1需求确认


在2025年,淘宝成为春晚的独家电商互动平台,推出了一系列创新互动玩法。其中,领取“春晚云参演证”成为用户参演春晚节目的重要一环。通过这一功能,用户可以参与到春晚节目《如意》中,其参与的精彩瞬间将被记录并分享, 节目最终截图如下所示:



这次尝试标志着春晚首次与全民互动的舞台表演方式,融入了全新的技术与创意。我们希望通过引入AIGC技术,大幅提升春晚云参演证的趣味性和传播价值。新玩法不仅成为活动的一大亮点,更激发了用户自发分享和宣传的热情。


支持春晚项目的AIGC换脸技术为每位用户带来了“全民参演上春晚”的独特体验。算法服务通过处理用户上传的正面人脸图像,生成与之高度相似的云参演证图片,默认生成数量为8张,并通过动态随机生成保持新鲜感。这些参演模板覆盖了9大类春晚项目,涵盖从婴幼儿到老年人的不同年龄段,系统能够提供高质量的演绎效果,确保所有用户都能享受这一创新的交互体验。


然而,与以往不同的是,此次AI玩法面临三大挑战:

  • 流量挑战:由于春晚口播的广泛影响,此次AIGC服务首次需应对爆发式流量的冲击。
  • 用户体验保障:在高峰期时段,需确保用户体验流畅,减少用户等待排队的时间。
  • 多样性适配:活动覆盖全民参与,对不同年龄段和地域的相貌特点进行适配,具有较高的难度。

通过应对这些挑战,项目力求为用户提供无缝的互动体验,并展示AI技术在大规模复杂应用环境中的潜力。


整体项目开发分为两个主要链路:离线模板生产链路和在线推理链路。

1. 离线模板开发生产链路:

  • 由业务团队提供相关模板标准和冷启动数据

  • 使用多模态对图片的理解能力, 构建多组类型的模板生产任务

  • 对生成的模板进行统一的挑选,最终形成标准化的模板库。

2. 在线推理链路:

  • 前置处理链路
  • 对用户上传的图像进行基础质量和风控检测, 并完成人脸检测与人脸信息提取
  • 换脸处理链路

  • 符合生成需求的图像请求相关合成服务, 通过后返回给用户端,完成整个流程


这种架构确保离线模板生产与在线用户交互的高效进行,从而提升用户体验与系统稳定性。


  2.2模板开发


  • 模板需求

在构建支持春晚项目的AIGC模板时,我们设计了主持人、歌手、舞蹈、相声、小品、杂技、魔术、武术以及新春艺术照共九种模式。这些模板类型丰富多样,需满足以下要求:
  • 高质量标准:模板必须具备高度的美学质感,确保视觉效果吸引人且专业。
  • 避免侵权:设计过程中不能侵犯央视版权,亦不能涉及任何明星或经典形象的侵权问题。
  • 政策与安全合规性:模板的制作必须严格遵循相关政策法规,确保不涉及任何安全风险。
  • 自然的用户体验:需避免产生明显的AI人工痕迹,让用户体验更自然、更真实。

由于没有现成的算法方案或参考模板可供使用,模板需经过预生成,并与业务进行多轮确认。在有限的时间内,还需通过多轮的安全审核与央视的最终审查,这使得AIGC模板的生产过程极具挑战性。

项目在确保高质量输出的同时,也需要有效地协调各方面的需求与限制,确保产出的模板符合所有标准,为春晚提供新颖而可靠的互动体验。


  • 模板生产标准

在模板生产中,需要实现较高标准的图片美学与真实感,以满足C端用户的审美需求。这不仅要保证用户对作品的保存率存图率,还要增加用户的参与感可玩性,保证模板的多样性。此外,还需激发用户的分享欲和传播性, 针对模板我们抽象出以下几点要求:
  • 结构完整性:模板必须毫无瑕疵,无人物四肢偏差、服饰和道具细节错误,或明显景深问题和异常文字情况。
  • 高美感与质感:模板须具备强烈的美学吸引力和精致的图像质感,符合市场主流审美。
  • 多样性与趣味性:确保模板的多样性和可玩性,提供趣味性体验。
  • 广泛适用性:支持不同年龄段和性别的用户,适应全场景用户的参与需求。
  • 个性化偏好:模板设计应考虑不同性别和年龄段的偏好,例如中年男性用户更加重视阳刚气质和形体表现。

在模板制作的初期,产品和市场团队协作,选取符合主题的少量冷启动图片。这些图片经过分析以提取关键元素,同时进行大规模的数据抓取。利用这些数据,进行相关主题的风格模型训练,并通过图像生成和反向推导链路来获取初步结果。

接下来,我们使用AIGC图像质量分类模型进行初步筛选, 并通过自动判别与修复模型链路,优化得到的图像。最终结果由标注和市场产品团队进行多轮筛选,去除不符合主题或具有侵权风险的图片,形成最终的模板集。


  • 基础模型和模型训练


1. 基础模型:我们的团队使用经过专门针对人像微调的写实扩散模型生成模板图像,在真实感、美学、构图和细节层次上均有显著提升。
2. 挑战与难点:尽管微调过生成模型在理解物理世界方面已有进步,但在春晚主题图像生成中仍面临如下挑战:
  • 场景氛围适配:
  • 整体画面缺乏春晚特有的节日喜庆氛围,红色主色调未充分运用。
  • 场景元素融合不足,未能有效结合灯笼、中国结等节庆符号。
  • 画面缺乏春晚舞台的恢宏仪式感。
  • 文化元素表达:
  • 人物服饰缺少传统中国风元素,如汉服的形制与刺绣工艺。

  • 妆容设计未能准确反映春晚演员的标志性舞台风格。

  • 装饰元素中出现中西风格混淆。

  • 人物表现力:
  • 皮肤质感不够自然,呈现塑料感。
  • 眼神光反射不自然,瞳孔细节缺失。
  • 面部表情僵硬,缺乏舞台表演者的神态。
  • 肢体语言显得机械化,缺乏舞蹈的柔美。
3. 模型微调:针对上述问题,我们进行了多方面的模型二次微调。优化包括:
  • 定制春晚定妆人物的妆容与眼神。
  • 融入更多中国风的服装设计与武术动作。
  • 提升照片质感,以契合现代C端用户的审美标准。
  • 增强模型对春晚特定道具、场景及细节的理解,使生成图像更加自然真实。

通过这些调整,模型生成的人物更加自然和真实,服饰更加中国化,审美更加符合当下C端用户对审美的需求,模型对春晚相关道具、画面、细节的理解也更加合理。

基础模型与微调

基础模型

模型微调

基础模型

模型微调

基础模型

模型微调


  • 批量模板生产prompt 工程

  • 工作流程:

  • 首先,收集一批具有准确语义和明确场景的高质量图片。

  • 使用这些图片,通过反向推理和大型语言模型(LLM)扩展生成大量精确的文本描述,作为模板生产的基础。

  • 挑战:

  • 春晚项目涵盖多种类别,文本提示(prompt)需要覆盖九种类型,且每种类别内部需包括丰富的人物妆造、服饰、动作、道具和构图元素。

  • 很难找到既语义准确又满足高清完整要求的图片。有的图片背景合适但前景人物混乱,有的前景合适但背景人物杂乱,这些都使得直接反推的文本提示难以使用。
  • 解决方案:
  • 为了实现批量化、多样化、并确保可玩性和广泛传播性,算法团队通过 qwen-VL-max 模型,应用多种 prompt 技术,如反推、分段、改写、扩展和组装:
  1. 整体反推:对完整的参考图片进行文本反推。

  2. 单点反推:针对图片中的特定元素如衣服、动作或背景进行反推。

  3. 直接改写:对已经反推出的文本提示进行改写。

  4. 拆解提示:将完整的文本提示拆解为面部、服饰、动作、背景及其他质感组件。

  5. 扩展与组装:对单个元素进行扩展改写,并通过多样化组装形成丰富的提示集合。


通过多组自动化的 prompt 改造流水线,我们能够大规模生产满足模板生成需求的文本提示,这为批量模板生图提供了基础。


  • 图片修复技术


生成的AI图像在细节上常存在诸多问题,需要进行后处理修复来提升画面的合理性,从而确保在终端市场赢得良好口碑,提高用户的保存和传播率。为此,我们的算法团队构建并升级了一整套模板图片的修复流程,包括文字擦除、局部擦除、图像延展、图像重绘、手部修复及图像清晰化等。通过这些精细的后处理技术,我们确保AI生成图像的质量更符合用户的期望,从而带来更高的用户满意度和更广泛的传播效果。


a. 手部修复手部绘制始终是AI生成图像中的一大挑战, 手部崩坏会极大降低模板图成图率和优图率,我们利用inpaint技术、LoRA微调技术和ControlNet技术,开发了专用于春晚的手部修复模型,手部修复成功率超过90%。在模板图的生产过程中,手部修复被整合至图片后处理阶段,以显著提升成图率和图像质量.

原始图

修复图原始图修复图


b. 文字擦除。由于春晚项目的特殊性,经常会在图像的舞台上、道具中、背景中出现文字。AI 直接生成文字的能力还比较弱,容易在前景精美的图像背景中出现部分字符,会降低成图率。我们利用文字检测、擦除能力构建通用文字擦除模块,可以在图像后处理中加入,对文字进行自动化检测与擦除。

原始图

修复图原始图修复图


c. 细节擦除与重绘。AI 生图在细节上、局部上极容易出问题。手部只是一个特例。其他的诸如发饰、耳环、衣服花纹细节、发型细节、道具细节等。如果因为局部细节问题而直接丢弃一张美观度较高的图片,那么优图率会进一步降低。利用淘宝擦除重绘模型,在图片审核后的后处理中加入,可以提升图片的优图率,并保证模板图局部和细节上的合理性。

原始图修复图原始图修复图



d. 图像尺寸。AI生图在构图上,有时候不合理,因此需要做图像延展,来保证诸如人物居中、头发不被截断等问题。我们通过微调开发出了适合春晚的图像延展模型和图像延展策略, 可以修复构图不合理的问题。

原始图

延展图原始图延展图


e. 图像高清。模型生产直出的图片一般在1024的宽高。在画面中,人脸的占比往往更小,发饰细节、脸部纹理细节、服饰细节会存在一定的模糊。通过专门的人像图像高清模型,可以将图片放大至四倍宽高。显著提升模板图细节与质感。

原始图 高清图原始图高清图


通过这些精细的后处理技术,我们确保AI生成图像的质量更符合用户的期望,从而带来更高的用户满意度和更广泛的传播效果。


  • 审核链路完善

  • 成图率优化

  • 通过与业务和产品团队的紧密协作,算法团队得以迅速完成第一轮粗审核和第二轮详细审核,确保选择的图片不存在结构性问题(如人物四肢、道具和背景的崩坏)。
  • 通过多轮出图策略优化与修图策略优化,模型生成图片的成图率大约在3~4成之间。我们设立了专门的图片审核工具和专业标准。
  • 优图率提升
  • 提升图片的优图率涉及专业的审美和排序标准。关键在于了解什么样的图片符合C端用户的审美,哪些图片的保存率更高。
  • 我们的算法团队通过多轮与业务和产品的深入沟通,建立了一致的优选标准和高效的审图流程。
  • 在进行图片修复和换脸效果生成后,继续进行第三轮细致审核和最终的确认审核,以确保图片符合C端的美学标准,从而提高市场传播效果。

AI生成精美春晚定妆照模板

模板图

模板图

模板图

模板图

模板图

模板图


  2.3前置链路开发


在春晚云参演项目中,由于项目的合家欢节日属性,系统需支持婴幼儿、孩童和青少年等未成年人的模板设计。我们需要在算法前置处理服务中增加以下功能:
  • 图像内容检查:确保上传图像的安全性和合适度,确保符合平台标准

  • 人脸区域检测:识别并提取图像中的人脸区域。

  • 人脸信息提取与选择:从检测到的人脸中选择最佳候选。

  • 性别和年龄识别:增强对选择人脸的性别和年龄识别的准确性,特别是提升未成年人性别预测的可靠性。

  • 人脸特征提取:获取人脸的embedding数据,为后续处理提供基础支持。



通过这些前置处理措施,我们确保系统能更好地支持未成年用户的互动体验。


  • 前置处理

对于用户上传的1-3张图像,我们采用并行下载、并行编解码的方式(用户图中有少量超大图, 通过并行方案稳定了服务最大耗时, 显著降低超时问题),下载解码并对图像按照长边最大尺寸等比例缩放,同时针对ios系统可能存在的上传图像方向错误问题进行矫正。通过人脸检测模型检测图像的多个人脸信息,若所有图像都未检测到人脸,或人脸偏转角度均过大,则直接返回约定的错误码。为了提高人脸的检出率,检测模型会从大到小遍历多种分辨率尺寸(在最大化检出率与耗时之间取了最佳平衡)。在单张图像中,只选择人脸检测框面积最大的人脸,进行后续的识别和1*1024维的embedding提取。对用户上传多张照片的场景,会按照人脸偏转角度和图像间人脸的相似度选择一张最佳图像进行后续识别处理, 实现最佳的效果。

  • 年龄与性别判别

年龄识别为本次活动新增需求且组内无相关算法积累,整体风险较高,我们快速构建数据采集与数据标注清理链路, 构建数据训练新版模型,  收集超过数百万图, 使用多个多模模型进行标注并做进行统一校验, 得到近百万高精度数据, 采用多阶段训练手段进行模型的训练。上线后全年龄段识别效果稳定,年龄分段整体识别精度在98%以上, 满足了业务方春晚阖家欢的设定。

性别识别能力团队内已有的模型主要针对成年人,对未成年人性别预测的准确性一般。在项目中后期,同年龄识别类似我们通过多模校验数据微调了一个针对全年龄段的性别预测模型, 单图成人识别精度在98%以上, 单图未成年人精度在90%以上, 并通过结合多图识别与结果校验策略,实现精度进一步提升。

  • 整体服务


该服务的所有单个模型均使用预编译与算子合并等方案进行统一加速, 整体模型推理耗时均被压缩至100ms内。整体服务算法接口耗时基本稳定在350ms内,保障了用户体验的丝滑。

  2.4换脸算法模块开发与优化


  • 换脸模型架构


基础模型选择


  1. 模型架构部分, 为了平衡算法的耗时与效果,我们基于SDXL模型开发了换脸算法。训练了两个功能的模型:一个用于文本生成图像(T2I),专注于解决图像内容的稳定性;另一个用于图像重绘(inpaint),着眼于解决图像边缘处理问题。
  2. T2I 基础模型。该基础模型使用团队自研开发的通用t2i模型作为基底,该基底采用 sdxl une作为主干模型,使用千万级高质量数据进行泛化训练,然后使用高质量人像数据微调了人脸质感LoRA模型,用于提升人脸的颜值和自然度, 来满足春晚换脸需求。为了有效引入身份特征,我们利用 ControlNet 进行高效的特征学习与控制。该过程基于 UNet 的编码器部分实现,ControlNet 主要的引导语义为人脸的高维特征编码,而非文本语义。ControlNet 的输入包括噪声信息及模板人脸的关键点图,这使得模型能够精确控制人脸五官的位置。在模型输出的每一层,我们将 ControlNet 的输出与 t2i 模型的输出相加,从而实现身份表征特征的注入。我们基于上述 t2i 基础模型和百万级高质量人脸数据,对 ControlNet 进行微调。

  3. 人脸细节注入参考ip-adapter技术架构。t2i 主干模型的每个Attention模块均有两个并行的交叉注意力模块,一个用于处理文本prompt特征,一个用于处理人脸特征,处理结果相加。文本特征由两个CLIP特征提取器提取,人脸特征由一个CLIP特征提取器提取。ip-adapter用于处理人脸细节信息和文本的交互融合,还原用户的人脸特征。ip-adapter基于 t2i 基础模型,使用百万级别的高质量人脸数据训练, 将人脸特征embedding与prompt特征embedding一起送入UNET进行信息注入, 实现人脸细节特征的保持。

  4. Inpaint 基础模型。我们的换脸算法采用了经过专业开发和微调的 SDXL Inpaint 模型,该模型以 16 通道输入为基础,提供了优越的保真效果。此模型在生成图像内容的美观性和合理性方面表现极为出色,显著优于现有的开源解决方案。同时,模型在低步数条件下也能够有效地保持良好的去噪效果。为了有效引入身份特征,为适应 Inpaint 推理结果,我们采用微调 LoRA 的方式对已经基于t2i基础模型训练的ControlNet进行参数微调,以确保其与 Inpaint 模型的效果无缝整合。这种方法使得我们的换脸算法在多样性和真实性之间取得了良好的平衡,为最终用户提供了高质量的人脸替换效果。通过构建这些高效的模型,我们不仅提升了技术性能,还确保了在实际应用中的优质用户体验。


换脸模型训练

换脸算法采用了多步训练策略,利用百万级高质量人脸数据,确保换脸效果的美观度和相似度。训练具体步骤如下:

a. 人脸特征引导:

  • 固定t2i基础模型的参数,专注训练IP-Adapter部分。

  • 通过图像MSE损失函数,快速赋予主干网络人脸特征引导能力,生成逼真的人像。

b. 人脸注入初步训练:

  • 保持t2i基础模型参数不变,集中训练适配t2i基础模型的ControlNet。

  • 使用图像MSE损失,使ControlNet迅速具备人脸特征注入能力。

c. 人脸注入相似度提升:

  • 在固定t2i基础模型和IP-Adapter参数的情况下,微调已训练的ControlNet。同时微调适配inpaint基础模型的Controllora。

  • 使用人脸ID损失函数,并运用ArcFace模型提取换脸图像和注入人脸图像特征,优化其余弦距离,提高ControlNet的人脸注入准确性和换脸图像的人脸相似度。

d. 人像质感LoRA微调:

  • 固定IP-Adapter和ControlNet参数,利用高质量数据微调t2i基础模型中的LoRA。

  • 这一过程旨在提升人像的颜值和质感效果。


整体推理流程如下图所示。


  • 推理部分


  1. 在推理中为提高推理速度,模型的推理步数压缩到10步, 有一定的生成质量损耗, 但是整体效果损失可接受(95%情况下差异较难观察)

  2. 为了在推理过程中平衡图像的美观度和相似度,我们的策略是适当降低 mask 区域加噪的强度,生成的图像在相似度和美观度方面表现会更好。通过采用这种策略,即使用户上传的面部图像美观度不足,我们也能确保实现较好的效果。

  3. 在推理过程中,为了提升生成效果,我们通过增加人脸在图中的占比来实现。模型的输入图像是人脸区域的裁剪图(crop image),这确保了人脸在图像中的占比约为50%。在推理完成后,我们会将生成图像中的人脸区域贴回到模板图中,以消除边界感。


使用上述优化后的模型和推理策略后,换脸的效果在五官的位置控制和美观程度、相似度、自然度、合理性等方面均提升明显。对比case如下表。


AI换脸

用户图

优化前

优化后

用户图

优化前

优化后


图片
工程侧挑战与解决

  3.1工程侧需求


  • 大流量

与传统的AIGC玩法的较稳定流量不同,由于春晚期间主持人会对活动玩法进行介绍,届时将有集中的用户流量涌入,吞吐需求达上万QPS。
  • 高可用
活动处于过年期间且春晚属于重大项目,服务的稳定性要求格外严格,要求SLA达到99.99%。
  • 低耗时
AIGC出图不同以往的普通服务,受限于目前GPU的算力,大部分出图服务都在数秒以上,为了保证用户的体验,要求99%的请求在3s内处理完毕,且尽可能不出现排队等待的时间。


  3.2技术挑战


  • 算力资源问题

春晚期间在峰值生图容量要求为上万QPS,按照模型原始性能,需要约等效数万余张计算卡的计算资源来支撑业务峰值需求。


  • 模型适配&优化

由于需要筹备大量GPU,获取到的卡型有数十种。大部分卡型推理时长均大于业务要求3s,且由于硬件实现不同,依赖环境、推理效果、加速方案都需要独立进行优化与适配。


  • 系统架构设计

算力资源有限,为了实现在算力满载的情况下,依旧保持高可用、低耗时的效果,这对系统流量调度和运维提出了更高的要求。


  3.3解决方案


  • 模型适配 & 优化


业务明确要求生图算法部分需要加速至单次推理耗时3S以下,而模型原始计算在多种卡型上普遍高于3秒。由于筹集到的卡型众多,硬件实现不同,意味着需要对大量的卡型定制独立的加速方案。在实践中,我们也发现各卡型存在一定的精度GAP,推理时会造成效果差异,这需要我们对卡型加速后的效果进行对齐,并逐一校验。

下面简单介绍下在不同卡型上部署的主要优化手段:


Nvidia卡推理加速

虽然Nvidia卡型都对CUDA生态有良好的支持,但本次涉及卡型较多(包含L20、H20、A100、H100等),卡型架构不尽相同,支持的计算精度、算力也存在差距。


为兼顾性能和稳定性,Nvidia卡型的加速方案选择了偏为保守的TRT框架,对UNET、 ControlNet等耗时较长的部分进行了加速。针对自有模型中特殊的结构,我们对部分算子进行了重写,这使得在不影响模型效果的前提下,获取了相比TRT更好的性能。

卡型

RT(原始)

RT(优化)

L20

3.3 s

1.7 s

H20

3.7 s

2.2 s

A100

1.9 s

1.1 s


AMD卡推理加速

AMD卡型主要为AMD MI308X,其硬件特性决定在F16上可以拿到比F32更好的计算性能。我们利用Torch.Compile的默认优化方案,拿到了相比MIGraphX方案更好的加速效果,并通过预存Autotune编译过后的Graph来减少前置编译耗时。值得注意的是,AMD卡型特有的CPX模式对于较大规模的扩散模型并不能带来吞吐的提升。使用SPX模式,可以在相同吞吐下有效减少单次请求的耗时。

卡型

RT(原始)

RT(优化)

MI308X

4.2 s

2.7 s


某系列国产推理卡

国产推理卡在本次项目中承载了约60%的算力需求,涉及到多种卡型,部署近两万实例。


这些国产推理卡在项目中对常见Pytorch、CUDA等深度学习技术表现出了优异的兼容性:无需对代码进行任何的适配,即可顺利运行模型。在常见的模型结构的推理上展现也优于AMD且不输于Nvidia卡型的性能和稳定性。针对国产卡型的硬件特点,我们优化工作主要是对Attention模块的QKV计算模块做了Fuse融合,并且通过预编译实现模型加速。

卡型

RT(原始)

RT(优化)

某国产卡型-A

1.8 s

1.23 s

某国产卡型-B

1.9 s

1.33 s

某国产卡型-C

3.3 s

2.7 s


  • 在线服务架构


全链路架构


架构图:


流程简介:

  1. 用户的请求图片经过安全检测后,将任务等信息记录,并发出生图的任务消息;

  2. Worker拉到任务后,经过令牌桶限流,保证调用到算法的请求量稳定在万级QPS;

  3. AI服务系统进行调度与推理,最终任务结果以消息通知到服务端。

设计思路:

通过MQ和令牌桶的设计,即使上游服务遇到极高的脉冲流量,其对AI服务的请求速度依旧稳定且控制在AI服务总容量的以内。


AI系统架构图



流程简介:

  1. 首先生图请求经过网关,网关根据不同卡型的算力得到相应的路由比例,将流量分发到不同的调度服务。

  2. 调度服务根据请求的生图数目分别调用算法出图服务。

设计思路:

  1. 将不同卡型算法服务进行独立部署,有效地进行容灾域的隔离。这也有助于运维管理,使得版本迭代和部署过程可以互不干扰。

  2. 算法网关根据不同算法集群的算力来进行动态流量路由调整,提供了便捷有效的集群水平扩容能力。


单集群调度架构


架构图:


流程简介:

  1. 请求发送的任务经过网关层被分配到某个队列;

  2. AI服务的worker每次从单个分片中拉取单个任务进行处理;

  3. 任务处理完则立即继续拉取队列数据处理,若无任务则sleep一段时间后再次拉取任务;

设计思路:

对万卡集群做到自适应负载均衡,使得在满载的情况下依然可以做到RT稳定且任务拉取低延时。


  • 服务运维


水平扩展与灾难域隔离

通过架构上流量网关、队列的设计,调度服务、AI模型服务拥有良好的水平扩展能力。同时通过对不同卡型、地域集群的拆分,提供了针对机房地域性灾难的容灾的手段。


全面的压测方案

分别对 AI 算法服务的单链路、全链路进行多次高强度压测,模拟了业务项目全生命周期的流量变化,对异常情况的容灾SOP进行了针对性的演练,有效暴露了系统瓶颈和容灾能力的不足。


图片
项目成果与行业影响


在短短的上线一周多的时间里,已有逾千万用户使用了AIGC功能,生成了数亿张图像,用户导出率接近九成,大大提升了公众对AIGC技术的认知。整个服务的峰值QPS达到数万,换脸技术跨年龄段的相似度接近百分之百。生成多图效果的端到端延迟保持在数秒内,确保了服务的稳定性和用户体验的流畅。

小红书接近万篇相关讨论帖子, 抖音与视频号均有大量自来水构建大量视频帖进行分享,网友在小红书、微博等社交媒体平台发帖并互相推荐:“一个参演证,把我家春节气氛直接拉满了!”、“太好玩啦!根本停不下来!”、“我也停不下来,感觉在免费拍艺术照”、“不是,这以后还拍啥写真啊?直接给无痛整了上百张,比拍写真好看,淘宝这个春晚云定妆照搞的有点东西”、“这活动以后可以多搞点,还有点春晚的参与感” 、“云参加也是参加呀!这个定妆照美的不行”、“我也参与一起上春晚啦哈哈哈,好好玩!!”等等。有许多网友表示在 aigc 上玩了一个多小时甚至半天。


图片
问题与后续展望

在面向春晚的国民级 AIGC 应用开发中,我们成功应对了超千万用户的需求,实现了每秒过万的访问量(QPS)。整个项目的开发周期被压缩至一个月内,对效果及用户体验的要求也非常高。在整体团队成员的共同努力以及其他团队的鼎力支持下,我们圆满完成了项目的各项支持工作。


在项目实施过程中,我们也暴露出了一些问题。卡型多样化所带来的部分集群结果不一致问题; 为了应对最终超高的 QPS我们补充了大量机器, 平台部署超大集群的发布更新及稳定性也面临挑战。用户输入的多样性和复杂度也为整体服务带来了不可控因素。


在前期阶段,我们的一些审美设定给部分用户带来了不好的体感。例如,老年人参演春晚却被表现为年轻人形象,模型偏好导致部分用户圆脸效果看起来更瘦, 影响了少量用户体验。此外,首次进行大规模多卡部署时,不同卡型之间的计算差异也造成了效果不一致。我们通过多种手段进行效果对齐,并通过多种监控手段解决了部分物理机带病导致的推理效果异常问题。


展望未来,我们将进一步对相关 AIGC 玩法进行规范化,提升模板生产的自动化程度,标准化业务图片素材的生产过程,从而提高图片审核通过率与可玩性,减少算法在此方面的投入时间。同时,我们将继续迭代升级模板生产模型与链路,确保模板的质感和自然度再上新台阶。通过对换脸模型的不断升级,我们致力于解决用户反馈的相似度低以及脸型不适配等问题。此外,我们将继续探索更多有趣的 AIGC 玩法,为淘宝的广大用户带来更多创新与服务。


图片

附录


部分小红书贴截图


图片
团队介绍


淘宝视觉智能团队是淘天集团供给技术侧以AI能力为核心驱动的技术团队。自2023年成立以来,团队由30余位来自清华大学、北京大学、复旦大学、上海交通大学、浙江大学、中国科学技术大学等顶尖院校的博士和硕士组成,形成了产研一体化的研发矩阵。


作为业务侧AIGC算法中枢,团队专注于生成式AI与计算机视觉的融合创新。技术研发重点包括多模态图像生成、可控式内容编辑以及跨域风格迁移等核心领域。团队自主研发的技术,如虚拟试穿、商品注入、场景生成、图像智能尺寸处理、图像编辑和智能白底图,均具备高视觉保真度。

这些技术已被深度集成到多项核心业务场景中,包括淘宝AI发品、天猫营销素材中心、天猫国际商品运营中心、用增巨浪外投、1688商家工作台、以及LAZADA商品发布等。团队的技术支持每月生成数亿张图像数据,服务数百万商家,展现了其在商业应用中的巨大影响力。

欢迎优秀人才加入:linran.lr09@taobao.com





Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/179336
 
95 次点击