独家揭秘AIGC的“十八般武艺”，N+种{热门玩法}大曝光，让你「赢在起跑线上」！

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区，

用心写好每一篇文章！

00-序言

自从ChatGPT出现之后，AIGC变得异常火热！但是在很多人的眼里，所谓的AIGC可能只是ChatGPT、GPT-4、GPT-4O等大模型，可能只是SD或者MJ文生图扩散模型、可能只是Sora、DreamMachine、可灵AI。事实却并非如此，AIGC有很多有趣且有价值的子领域，而你却并不了解！

本文的主要目的是为了扩展你的视野，让你对AIGC的热门算法与应用有一个更全面的认识，彻底打开你的思路！在这个信息完全不对称的年代，你或许在很多不同的公众号、博客、论坛、会议中听到过其中的某些AIGC算法或者应用，但是你很少能看到一个全面、系统的AIGC算法与应用，很少有人愿意将这些干货分享出来！

自从创建了“AI产品汇”公众号之后，我先后认识了很多朋友，不过大家可能只关注AIGC某一个子领域，很少有人对AIGC有全面且系统性的认识。有的朋友只关注SD或者MJ如何调参生成精美的图片、有的朋友只关注如何利用大模型来聊天、有的朋友只关注如何创作精美的视频片段。对于一些准备创业的朋友们而言，他们可能花费了很多时间去参加各种论坛或者会议、咨询各种技术大佬来了解某些AIGC子领域，或者寻找某些AIGC子领域的代表性算法、应用或者产品。

为了让更多的人对AIGC有一个更全面、更系统的认识，博主花费了2天时间帮你梳理了主流的一些AIGC应用。里面包含了很多你可能都没有听说过，但是却很实用且有用的算法或应用！所有的应用没有先后重要性之后，由于文章篇幅有限，每个AIGC子领域仅展示了一些代表性的算法或者应用，更多的是抛转引玉的作用，让你了解到这个AIGC子领域！由于个人能力与精力有限，可能忽略了一些更有价值的算法或者应用，欢迎大家在评论区交流与补充！

01-文生图

所谓的文生图任务，输入是一段文本提示，输出是一张生成的图片。它可以应用在“创意设计、服装图片设计、手机壳图案设计、生成一些Cornercase数据”等众多场景中。这个应该是大家最熟悉的应用了，我就不做过多的赘述！

01.01-Stable Diffusion

链接-https://stability.ai/

SD，即Stable Diffusion。它是由Stability AI推出的一套商业版文生图扩散模型，当前已经跌倒了多个版本，代表性的版本包括：Stable Diffusion 1、Stable Diffusion 2、Stable Diffusion 3、Stable Diffusion 3 Medium等。

SD通常与ComfyUI结合在一起使用，它是一个最强大、模块化的稳定扩散GUI和后端。此ui允许您使用基于图形/节点/流程图的界面来设计和执行高级稳定扩散管道。

01.02-MJ

链接- https://www.midjourney.com/home

Midjourney，即MJ，它是一个由位于美国加州旧金山的同名研究实验室开发的人工智能程序，它是一个商业版的文本生成图像工具，于2022年7月12日进入公开测试阶段，用户可通过Discord的机器人指令进行操作。该研究实验室由Leap Motion的创办人大卫·霍尔兹（David Holz）负责领导。它是一个小型自筹资金的团队，专注于设计、人力基础设施和人工智能。总共只有11名全职员工和一组令人难以置信的顾问。

01.03-PixArt-Sigma

链接-https://pixart-alpha.github.io/PixArt-sigma-project/

PixArt-Σ是华为提出的一种能够直接生成4K高清分辨率图像的国产扩散Transformer模型（DiT）。PixArt-Σ比其前身PixArt-α有了显著的进步，能够提供更加高保真度的高清图像，并改进了与文本提示的对齐思路。

PixArt-Σ的一个关键特征是它的训练效率。利用PixArt-α的基础预训练模型，它通过结合更加高质量的数据，可以从“较弱”的基线演变为“更强”的模型，作者称之为“弱到强训练”。

PixArt-Σ的进步主要包含两个方面的因素：1）高质量训练数据：PixArt-Σ融合了高质量的图像数据，并配有更精确、更详细的图像字幕。2） 高效的令牌压缩：作者在DiT框架内提出了一种新的注意力模块，它可以压缩密钥和值，显著的提高了效率并促进超高分辨率图像的生成。

02-文生图文

在我们的日常生活场景中，图片与文本经常会自然的融合在一起，很少会有孤零零的图片，例如：广告设计、海报设计、标语设计等等。与文生图不同，文生图文是一个更贴地气的应用场景。它的输入是一段文本提示，输出是一张“包含部分文本信息的图文”。

当然，它的难度更高一些，当前只有极少数的模型能够很好的完成该任务，效果比较好的几个代表闭源与开源模型包括：DALL·E 3、Midjourney-V6、Ideogram 1.0、Glyph-ByT5、Glyph-ByT5-V2等等。

02.01-DALL·E 3

链接-https://openai.com/index/dall-e-3/

DALL·E 3是一个革命性的AI模型，由OpenAI于2023年9月推出，它可以根据用户通过ChatGPT生成的提示（prompt）来创建高质量的图像。DALL·E 3不仅在用户体验上实现了重大优化，其生成的图像质量也得到了显著提升，这一模型的发布巩固了OpenAI在AI领域的技术领导地位。

DALL·E 3的一个显著特点是通过ChatGPT接收自然语言的提示来生成图像，这简化了操作过程，使得用户无需掌握复杂的Prompt编写技能即可使用。这种自然语言交互方式大幅度降低了用户的学习门槛。它不仅可以生成精美的图片，还支持生成图文图片。

02.02-Ideogram

链接-https://ideogram.ai/t/explore

Ideogram 1.0是一款先进的AI文本到图像生成工具，由Google Brain和Imagen团队开发，专门擅长文本渲染和超真实图像创建。Ideogram 1.0在多个方面对其前代版本进行了显著提升，包括画质、样式支持以及长文本提示的理解能力，同时将图像的错误率降低了两倍。

它在文本渲染上表现出色，支持多种字体、大小、颜色和样式，能够准确识别并提取文本中的关键信息，从而生成匹配的图像。Ideogram 1.0还内置了多种预设风格，如3D渲染、电影感、绘画风、时尚感、产品效果、插图风格、概念艺术和浮世绘等，满足不同用户的需求。

综上所述，Ideogram 1.0凭借其卓越的文本渲染能力和广泛的应用场景，已成为AI图像生成领域的重要工具。未来随着更多功能的加入和完善，Ideogram 1.0有望继续引领行业发展。

02.03-Glyph-ByT5系列

链接-https://glyph-byt5-v2.github.io/

Glyph-ByT5系列是由“微软、清华、北大”等联合推出的一些文生图文模型。与上面的两个商业闭源模型不同，该模型是免费开源的！Glyph-ByT5与SDXL集成的有效方法，从而创建了用于设计图像生成的Glyph-SDXL模型。这显著提高了文本渲染的准确性，在作者设计图像基准上将其从不到20%的精度提高到近90%

虽然Glyph-ByT5在图形设计图像中实现了高精度的视觉文本渲染性能，但是它仍然只关注英语，在视觉吸引力方面表现相对较差。在Glyph-ByT5-V2这项工作中，作者通过提供Glyph-ByTa5-v2和Glyph-SDX-v2来解决这两个基本限制，这个版本不仅支持10种不同语言的精确视觉文本渲染，而且还实现了更好的美学质量。

03-文/图生贴纸

图生贴纸是一个比较小众，但是却非常实用、且易于落地的AI应用场景。它的输入是一张原图，输出是一张带有不同风格的贴纸图。它的原理其实就是简单的图像风格变换，通常需要内置一些不同风格的模版。下面介绍一些比较热门的图生贴纸应用，具体包括“StickerBaker、picsart”等。

03.01-StickerBaker

链接-https://stickerbaker.com/

StickerBaker是一个支持通过“文本或者图片”来生成贴图的一个开源应用。它的使用方式极其简单，用户只需要输入一个简单的文本提示或者传入一张原始图片，就可以在很短的时间内生成一张卡通风格的贴纸出来。有了这个贴纸，你可以将它打印或者保存下来做很多实际的任务！

03.02-Picsart

链接-https://picsart.com/ai-sticker-maker/

Picsart是一个基于AI的贴纸生成器，轻松个性化您的视觉效果、技术和在线对话，完美贴合您的视觉和性格。你所需要做的就是在一个简短的文本提示中描述你心目中的贴纸类型，选择一种艺术风格，AI贴纸生成器将把你的愿景变成贴纸。就这么简单。

03.03-Plugger

链接-https://platform.plugger.ai/

plugger是一个基于AI的贴纸生成工具，AI贴纸生成器通过AI的力量将文本转换为自定义贴纸。它为创建个性化贴纸提供了一个用户友好的平台，以增强数字通信和社交媒体的参与度。

你需要AI贴纸生成器来为你的数字互动注入个性爆发，并区分你的在线交流内容。这是制作独特而引人注目的视觉元素的完美解决方案，这些元素可以吸引注意力、传达情感，并与观众建立难忘的联系。

AI贴纸生成器是为每个人设计的，从社交媒体和内容创作者到寻求在营销工作中添加创意的企业。这是一个直观的工具，使任何技能水平的用户都可以设计和部署充满活力的自定义贴纸，而无需专业的图形设计知识。

04-文生动画

文本动画是通过运动给文本赋予生命的艺术气息。通过动画化文本来传达情感、强调意义和创造动态叙事，文本动画将静态信息转化为生动的互动体验。动作和文本的融合，不仅能够吸引观众，而且加深了信息的影响，使文本动画在电影、广告、网站小工具和网络表情包中占主导地位。

04.01-LogoMotion

链接-https://vivian-liu.com/#/logomotion

动画徽标是个人和品牌在网络上展示自己的一种引人注目且无处不在的方式。手动创作这些徽标可能需要大量的艺术技能与精力。为了帮助新手设计师制作徽标的动画，设计工具通常会提供一些模板和动画预设。然而，这些解决方案的表达范围可能会具有较大的限制。

大型语言模型可以通过生成适合其内容的动画代码来帮助新手设计师创建动画徽标。本文介绍了LogoMotion，这是一个基于LLM的系统，它接收分层文档，并通过基于视觉的程序合成方法来生成动画徽标。

作者介绍了创建画布的HTML表示、识别主要和次要元素、合成动画代码以及可视化调试动画错误的技术。与行业标准工具相比，作者发现LogoMotion制作的动画更注重内容，质量也与行业工具不相上下。

04.02-DynamiCrafter

链接-https://animate-your-word.github.io/demo/

文本动画是一种表达媒介，通过将文字与动作融合，唤起情感，强调意义，构建引人入胜的叙事方式，将静态交流转化为动态体验。制作具有语义意识的动画具有重大的挑战，同时需要具备平面设计和动画方面的专业知识。

为了降低它的落地难度，本文提出了一种自动文本动画生成方案DynamiCra fter，作者称为“动态排版”，它结合了两个具有挑战性的任务。它使字母变形以传达语义，并根据用户提示为它们注入一些充满活力的动作。

该技术利用矢量图形表示和基于端到端优化的框架。该框架利用神经位移场将字母转换为基本形状，并应用到每帧的运动中，鼓励其与预期的文本概念保持一致。在整个动画过程中，使用形状保持技术和感知损失正则化来保持易读性和结构完整性。作者展示了该方法在各种文本生成视频模型中的可推广性，并强调了该端到端方法相对于基线方法的优势，基线方法可能包括单独的任务。通过大量的定量和定性评估，证明了该框架在生成连贯的文本动画方面的有效性，这些动画很好的解释了用户提示，同时保持了可读性与趣味性。

05-文生视频

文生视频是当下的一个热门话题，随着Sora的出现，彻底火了起来！该任务的输入是一段文本提示，输出对应的视频片段。当前能够生成的最长视频长度大概在1~3分钟左右，行业平均水平大概在5~12s之间。尽管当前也出现了一些视频延长算法，但是效果却不尽人意。个人觉得文生视频领域还有较长的路要走，当下主流的文生视频应用包括：Sora、DreamMachine、可灵AI等。

05.01-Sora

链接-https://openai.com/index/sora/

Sora是一个人工智能模型，可以根据文本指令创建逼真和富有想象力的场景。Sora能够生成具有多个角色、特定运动类型以及主题和背景的准确细节的复杂场景。该模型不仅了解用户在提示中的要求，还了解这些东西在物理世界中是如何存在的。该模型对语言有着深刻的理解，使其能够准确地解释提示，并生成令人信服的人物，表达充满活力的情感。Sora还可以在一个生成的视频中创建多个镜头，准确地保持角色和视觉风格。

Sora是一个扩散模型，它从一个看起来像静态噪声的视频开始生成视频，并通过多次去除噪声来逐渐变换视频。Sora能够一次生成整个视频，或者扩展生成的视频以使其更长。通过一次为模型提供多帧的前瞻性，解决了一个具有挑战性的问题，即确保主题即使在暂时离开视线时也保持不变。

05.02-Dream Machine

链接-https://lumalabs.ai/dream-machine/

Luma AI 是一家人工智能领域的初创公司，致力于打造基于深度学习和神经渲染技术的产品和服务，以帮助用户创建逼真的、高质量的3D物体，包括3D捕捉、建模和渲染工具。其核心产品是FieldsEditor、Imagine3D和LumaUnreal Engine等，分别适用于不同的场景和需求。该公司先后发生投融资事件89起，总投资额超过26亿美元，受到市场的高度关注。

Dream Machine是一种视频生成模型，它可以快速从文本和图像中生成高质量、逼真的视频。这是一个高度可扩展和高效的转换器模型，直接在视频上训练，使其能够生成物理准确、一致和有事件的镜头。Dream Machine是我们构建通用想象引擎的第一步，现在每个人都可以使用它！

05.03-可灵AI

链接-https://kling.kuaishou.com/

可灵AI文生视频大模型是快手推出的一款先进的AI视频生成工具，它能够将用户的想象力转化为具体的画面。该模型采用3D时空联合注意力机制，可以更精确地建模复杂的时空运动，生成较大幅度运动的视频内容，同时能够符合运动规律。得益于高效的训练基础设施和极致的推理优化，可灵大模型能够生成长达3分钟的视频。

此外，它还支持自由的输出视频宽高比，满足更丰富场景中的视频素材使用需求。可灵大模型在多个领域都有广泛的应用前景，如影视制作、社交媒体、艺术创作、广告行业等。

06-文生动漫/小说/故事

文生动漫短片是当下比较火热的一个文生视频应用热点，它更偏向于预设一些风格，然后基于这些风格生成一些一致性比较好的动漫短片片段，最后通过编辑工具增加音效等效果生成一个视频短片。

随着抖音、快手等带火了视频短片之后，利用AIGC生成一些动漫短片还是一个挺吸粉和引流的方式。不过当下生成的片段还是比较短，片段之间的而连续性有待进一步的提升。或许在不久的将来，我们看到的很多动漫都是AI也人工共同创作出来的！

06.01-白日梦AI

链接-https://aibrm.com/?utm_source=ai-bot.cn

"白日梦AI"是一款全新的文生视频类AIGC创作平台，它能够让你借助一些强大的的AIGC生成工具来创造出各式各样满足你的个性化需求的图像或者视频，能够圆你“创作家”的伟大梦想！该平台支持的功能如下所述：

文生视频：输入一段文本，即可生成一段AI视频。
动态视频：支持动态画面、静态画面2种画面效果展示。
风格选择：目前支持包含写实风风、漫画风、迪斯尼风等在内的多种视频风格。
AI角色生成：上传5-8张角色照片，即可创建自己的角色库，并将创建完成的角色应用到自己的视频故事里。
人物一致性：无需一一调试即可保持视频里的人物形象统一。
场景一致性：无需一一调试即可保持视频里的故事场景一致。
分镜功能：上千个人物分镜模版，可根据创作需求自行选择不同的分镜（例如单人/双人、人物站位、人物姿势、远近中景别等）。
局部重绘：当画面里的某些组成要素不符合创作需求时，可以通过文字描述进行局部修改。

06.02-巨日禄AI

链接-https://jayhome.jurilu.com/

巨日禄AI是一款全网性能卓越的故事AI绘画转视频工具，巨日禄Ai用于将小说快速转化为绘画视频，支持漫画推文的一站式生成。它适合用来制作一些AI短漫画、短小说或者短故事，由于它的风格更偏向动漫风格一些，所有还是很能吸引大家的眼球。

07-文生3D

文生3D领域也是很多朋友们关注的热点领域，它的输入是一段文本描述，输出是一个生成的3D模型。文生3D领域在去年和今年异常火热，相继出现了多种算法和应用。当前的文生3D已经在往可控性方面发展，已经出现了一些不错的工作。

3D物体生成任务对于实现逼真的虚拟现实、增强现实、视频游戏、机器人技术和计算机辅助设计等 应用具有重要意义。通过生成高质量的三维物体模型，可以提供更真实的可视化效果，增强用户的沉浸感和交互性。

07.01-Interactive3D

链接-https://interactive-3d.github.io/

虽然当前3D对象生成已经取得了重大进展，可以产生高质量的结果。但是它却无法实现精确的用户控制，往往产生与用户期望不一致的结果，从而限制了其适用性。由于交互能力有限，设想3D对象生成的用户在使用当前生成模型实现其概念方面面临重大挑战。

本文介绍了Interactive3D，这是一种用于交互式3D生成的创新框架，通过广泛的3D交互功能，用户可以精确控制整个生成过程。Interactive3D分为两个级联阶段构建，使用不同的3D表示。第一阶段采用高斯飞溅进行直接用户交互，允许在任何中间步骤通过 1）添加和删除组件；2）可变形和刚性拖动；3）几何变换；4) 语义编辑 来修改和引导生成方向。随后，高斯飞溅被转换为InstantNGP。作者在第二阶段引入了一个新颖的交互式哈希优化模块，能够进一步添加细节并提取几何体。

07.02-MeshLRM

链接-https://sarahweiii.github.io/meshlrm/

MeshLRM是一种新的基于LRM的方法，可以在不到1秒的时间内仅从四个输入图像重建高质量的网格。与以前专注于基于NeRF的重建的大型重建模型（LRM）不同，MeshLRM在LRM框架内结合了可微分网格提取和渲染。这允许通过网格渲染微调预训练的NeRF LRM来进行端到端网格重建。

此外，通过简化以前LRM中的几个复杂设计来改进LRM架构。MeshLRM的NeRF初始化是用低分辨率和高分辨率图像顺序训练的；这种新的LRM训练策略能够显著更快地收敛，从而用更少的计算获得更好的质量。该方法从稀疏视图输入实现了最先进的网格重建，还可以直接应用到许多下游应用，包括文本到三维和单图像到三维生成。

07.03-Meshy

链接-https://www.meshy.ai/

Meshy文生3D应用可通过文本或图像生成3D模型及贴图纹理，极大地提高了3D建模的效率和便捷性。其主要功能包括文本生成贴图纹理（AI Texturing）、文本生成3D模型（Text to 3D）以及图片生成3D模型（Image to 3D）。

Meshy文生3D应用支持多种3D建模风格，包括Low-poly、写实、卡通和体素等，这使得它能够在不同场景下被广泛应用。生成的3D模型可以用于多个领域，如游戏开发、影视制作、艺术创作等。

Meshy文生3D应用可以与Blender等3D软件结合使用，通过Meshy生成的3D模型可以导入到Blender中进行场景搭建和动画渲染，解锁更高效的工作体验。这种结合使用的方式特别受到游戏开发者和动画制作者的青睐。

08-图像编辑

图像编辑任务是指通过对图片中的各种目标执行增删添改操作，从而获得特定的视觉效果或满足特定需求的过程。这些任务旨在改变图像的外观、构图、颜色、质量或内容，以满足用户的编辑目标。

图像编辑其实是一种很实用也很好用的技术，它通常可以与文生图片应用结合在一起，进一步微调生成的图片效果，可以起到与ControlNet类似的效果。其实它就是一种利用AI实现的PS技术，最近，在大规模预训练的文本到图像扩散模型的支持下，编辑模型的能力范围也显著扩展。

08.01-MimicBrush

链接-https://xavierchen34.github.io/MimicBrush-Page/

考虑到用户的不同需求，图像编辑是一项实用而富有挑战性的任务，其中最困难的部分之一是准确描述编辑后的图像应该是什么样子。

本文作者提出了一种新的编辑形式，称为模仿编辑，它可以帮助用户更方便地发挥他们的创造力。具体地说，为了编辑感兴趣的图像区域，用户可以自由地直接从一些参考图片中获得灵感（例如，一些在线的相对图片），而不必处理参考和来源之间的匹配问题。

这样的设计要求系统自动地从参考中找出期望执行编辑的内容。为此，作者提出了一种称为MimicBrush的生成训练框架，该框架从视频剪辑中随机选择两个帧，屏蔽一个帧的一些区域，并使用另一帧的信息学习恢复屏蔽的区域。这样，该模型从扩散先验发展而来，能够以自我监督的方式捕捉单独图像之间的语义对应关系。大量的实验结果证明了该方法在各种测试用例下的有效性，以及它相对于现有替代方案的优越性。

08.02-SelfGuidance

链接-https://dave.ml/selfguidance/

SelfGuidance是一种具有自我引导功能的可控图像生成模型。通过引导扩散模型的内部表示来更好的控制生成的图像。自我引导类似于标准分类器中注意力机制引导，只需使用预训练模型本身中存在的信号，无需额外的模型或训练就可以获得。

作者展示了如何从这些表示中提取物体的形状、位置和外观等属性，并将其用于引导采样过程，从而实现更具挑战性的图像操作，例如修改特定对象的位置或大小，将一个图像中的对象外观与另一个图像的布局合并，将多个图像中的对象组合成一个图像等。此外，自我引导还可以用于编辑真实图像。

08.03-pixlr

链接-https://pixlr.com/

Pixlr是一个强大的免费的AI图像编辑器，它不仅支持利用AI来生成，而且支持AI图像编辑。它的功能极其强大，不仅支持基础的图像编辑功能，而且还支持“换脸、生成填充、生成扩展、润饰”等特色功能。除此之外，它还支持传统的PS编辑功能，当AI算法失效的情况下，利用它作为一个补充还是很有必要的！

这些工具非常适合初学者和经验丰富的专业人士，利用直观的人工智能技术重新定义了艺术表现形式，彻底改变了您的创作过程。

09-图生视频

除了文生视频之外，在现实场景中，也经常会有图生视频的需求。图生视频任务是一种利用人工智能技术将静态图片转化为动态视频的过程。这种任务通常涉及多个步骤，包括图像分析、元素识别、运动路径规划和视频合成等。在图生视频任务中，AI模型首先分析输入的静态图片，识别出图片中的主要元素和背景。接着，根据预设的算法或用户指定的动作，模型为这些元素规划运动路径和方式。最后，通过合成技术，将这些动态元素渲染成连贯的视频内容。

总的来说，图生视频任务是一种通过先进技术增强视觉呈现的方式，它在内容创作、广告、游戏开发等领域都有着广泛的应用前景。

09.01-Generative Image Dynamics

链接-https://generative-dynamics.github.io/

Generative Image Dynamics是谷歌提出的一种针对场景动态建模的图像空间先验方法，它可以让你的静态图片快速运动起来！该先验是从包含自然振荡运动（如树木、花朵、蜡烛和风中飘动的衣服）的真实视频序列中提取的一系列运动轨迹进行学习的。

给定一张单独的图像，训练的模型使用频率协调的扩散采样过程来预测傅里叶域中每个像素的长期运动表示，作者称之为神经随机运动纹理。这种表示可以转换为跨越整个视频的密集运动轨迹。

结合基于图像的渲染模块，这些轨迹可以用于许多下游应用，比如将静止图像转换为无缝循环的动态视频，或者允许用户与真实图片中的物体进行真实交互。

09.02-Animate Anyone

链接-https://humanaigc.github.io/animate-anyone/

角色动画旨在通过驱动信号从静止图像中生成角色视频。目前，由于扩散模型具有强大的生成能力，已成为视觉生成研究的主流方法。然而，在图像合成视频领域，特别是在角色动画生成领域，依然存在较大的挑战，在该领域，时间上保持与角色详细信息的一致性仍然是一个具有挑战的问题。

本文作者利用扩散模型的力量，提出了一种适合角色动画生成的方法Animate Anyone。为了保持参考图像中复杂外观特征的一致性，作者设计了ReferenceNet来通过空间注意力合并细节特征。为了确保可控性和连续性，作者引入了一种高效的姿势引导器来指导角色的运动，并采用了一种有效的时间建模方法来确保视频帧之间的帧间平滑过渡。通过扩展训练数据，该方法可以为任意角色设置动画，与其它图像到视频的方法相比，该方法能够生成更精准的角色动画。

09.03-Stable Video

链接-https://www.stablevideo.com/

Stable Video是一个强大的视频创作平台，它不仅支持文生视频，而且支持图生视频。Stable Video Diffusion旨在为媒体、娱乐、教育、营销等领域的广泛视频应用提供服务。它使个人能够将文本和图像输入转化为生动的场景，并将概念提升为真人电影创作。

稳定视频扩散以两种图像到视频模型的形式发布，能够以每秒3到30帧的可定制帧速率生成14帧和25帧。它当前支持生成2~5秒的短视频片段，帧率能够达到30FPS，生成视频的时间在2分钟以内！

10-图生3D

10.01-SV3D

链接-https://sv3d.github.io/

SV3D是由Stabily.ai推出的一种潜在的视频扩散模型，用于3D物体周围轨道视频的高分辨率、图像到多视图生成。最近关于3D生成的工作提出了将2D生成模型用于新颖视图合成（NVS）和3D优化的技术。然而，由于视图有限或NVS不一致，这些方法具有几个缺点，从而影响了3D对象生成的性能。

在这项工作中，作者提出了SV3D，它使图像到视频的扩散模型适应新的多视图合成和3D生成，从而利用视频模型的泛化和多视图一致性，同时进一步增加了NVS的显式相机控制。作者还提出了改进的3D优化技术，以使用SV3D及其NVS输出进行图像到3D的生成。在具有2D和3D度量的多个数据集上的大量实验结果以及用户研究表明，与先前的工作相比，SV3D在NVS和3D重建方面具有最先进的性能。

10.02-CAT3D

链接-https://cat3d.github.io/index.html

3D重建已经实现了高质量的3D捕捉，但需要用户收集数百到数千张图像来创建3D场景。本文介绍了CAT3D，这是一种通过使用多视图扩散模型模拟真实世界的捕捉过程来在3D场景中创建任何东西的方法。

给定任意数量的输入图像和一组目标新视角，该模型通过高效的并行采样策略生成多个3D一致图像。这些生成的图像随后被馈送通过鲁棒的3D重建管道，以产生可以从任何视点以交互速率渲染的3D表示。该模型可以快速生成场景的高度一致的新视图。这些生成的视图可以用作鲁棒3D重建技术的输入，从而产生可以从任何视角实时渲染的3D表示。CAT3D可以在一分钟内创建整个3D场景，并且优于现有的单图像和少视图3D场景创建方法。

10.03-KAEDIM

链接-https://www.kaedim3d.com/

Kaedim是一个商业版的用于生成高精度3D资产的工具。它同时支持文生3D和图生3D，当前已经生成了58930个3D模型，为艺术家们节省了220987个小时的时间。Kaedim针对可用的、可用于生产的3D资产进行了优化。我们与3D艺术家密切合作，确保输出达到行业标准。

这款工具以其高度自动化和用户友好的界面，极大地简化了3D模型的创建过程，使初学者也能轻松上手。KEADIM生成的3D模型具有高度详细和逼真的纹理，适用于游戏开发、动画制作、建筑可视化等多个领域。它不仅提高了3D内容制作的效率，还降低了对专业技能的依赖，推动了3D内容创造的民主化。

10.04-CSM

链接-https://www.csm.ai/?utm_source=toolify

CSM是一个强大的3D资产生成个平台，它允许用户将真实数据或想象力转化为3D 世界模型。它提供各种工具和API，用于创建沉浸式的3D模拟器、游戏和环境。你可以通过上传视频、图片或文本作为输入。然后平台将生成具有高分辨率几何、UV纹理映射以及神经辐射场的3D资源。您还可以使用他们的API将这些功能集成到自己的应用或平台中。

它具有如下特点：1）支持将真实资料或者想象力转化为3D嘅世界模型；2）支持从静态或者褪物体创建3D纹理资源同神经辐射场（NeRFs）；3）支持将单张图片转化为3D资产；4）多模态3D建置（由视频、图片或者文本创建3D资源）；5）支持构建具有高解像度几何、UV纹理对应与及神经辐射场资源。

11-虚拟试衣

虚拟试衣技术是一种革新的零售科技，它允许消费者在没有真实衣物的情况下，通过数字方式尝试穿戴服装。这项技术主要基于增强现实（AR）、人工智能（AI）和计算机视觉等先进技术，为用户提供一种互动式的购物体验。

虚拟试衣技术的核心优势在于它的便利性和效率。消费者只需通过智能手机或专用设备，就能在虚拟空间中查看衣物穿在自己身上的效果。这不仅节省了传统试衣的时间和劳力，还消除了地理位置的限制，让消费者无论身处何地，都能轻松尝试并选择服装。

此外，虚拟试衣对零售商而言也是一种创新工具。它降低了商品退换率，因为消费者可以在购买前更精确地评估服装的外观和尺寸。同时，这项技术还为零售商提供了收集客户数据、优化库存管理和提升消费者满意度的机会。

尽管虚拟试衣技术带来了许多便利，但它也面临一些挑战，比如如何提高虚拟衣物的逼真度，以及如何确保消费者的隐私安全等。随着技术的不断发展和完善，虚拟试衣未来有望成为零售行业的标准配置，彻底改变我们的购物方式。

11.01-PicCopilot

链接-https://www.piccopilot.com/create?actionType=VirtualTryOn

PicCopilot是一个强大的工具几何，它不仅包含常用的商品图工具、视频工具等，而且还包含虚拟试衣功能。用户只需要上传相关的待试衣服，例如：上装、下装、上下装、单件连体，然后选择对应的试穿模特之后，它就可以在1分钟之内快速帮你生成试穿效果，具体的效果如下图所示。

11.02-OutFit Anyone

链接-https://humanaigc.github.io/outfit-anyone/

虚拟试穿已经成为一项变革性技术，让用户无需亲自试穿衣服就可以体验自己中意的衣服。然而，现有的方法往往难以产生高保真度和细节一致的结果。扩散模型已经证明了其生成高质量和照片真实感图像的能力，但当涉及到虚拟试穿等条件生成场景时，它们在实现控制和一致性方面仍然面临挑战。

Outfit Anyone通过利用双流条件扩散模型来解决这些限制，使其能够熟练地处理服装变形，从而获得更逼真的结果。它以可扩展性（调节姿势和体型等因素）和广泛的适用性而闻名，从动漫延伸到野生图像。Outfit Anyone在各种场景中的性能突出了其实用性。

11.03-Wear-Any-Way

链接-https://mengtingchen.github.io/wear-any-way-page/

Wear Any Way是阿里近期新提出的一种可定制的虚拟试穿框架，除了能够生成高保真度的结果外，该方法还支持用户精确地操纵穿着风格。为了实现这一目标，作者首先为标准虚拟试穿构建了一个强大的框架，支持复杂场景中的单/多件衣服试穿和模型到模型设置。

为了使其可操作，作者提出了稀疏对应对准，该对准涉及基于点的控制来指导特定位置的生成。通过这种设计，Wear Any Way在标准设置中获得了最先进的性能，并为定制穿着风格提供了一种新颖的互动形式。例如，它支持用户拖动袖子使其卷起，拖动外套使其打开，并利用点击来控制褶裥的风格等。Wear Any Way使服装的表达更加自由和灵活，在时尚行业具有深远的意义。

12-大语言模型

随着ChatGPT和GPT-4的出现，它的惊艳效果彻底让人折服，很多人才开始慢慢的去接受大语言模型。之后的这段时间里，国内外的大模型如雨后春笋一般的出现，光国内现在都有几十家的公司在做大语言模型的研发，涉及大厂、独角兽、创业公司等等。

随着大模型市场的逐渐饱和，国内外的大语言模型厂商都开始做起了大模型矩阵，相继对部分大语言模型进行了降价或者免费。无论是从聊天效果还是从功能的多样性而言，今年的大语言模型各项能力明显比去年的大语言模型有了较大的提升。

当前的大语言模型主要有几个主流的派系：1) OpenAI的GPT系列，当前已经推出最新的GPT-4o；2）Anthropic的Claude系列，当前已经推出最新的Claude-3.5；3）智谱、BAAI、上海人工智能实验室等推出的国产大模型系列。

12.01-GPT-4O

链接-https://openai.com/index/hello-gpt-4o/

GPT-4O是OpenAI新推出的一个全新的大语言模型，其中的表示“Omnim odel”，即全能模型的涵义。它是一个融合了“视觉、语音与文本”的多模态大语言模型， 主要具有如下的一些核心能力：

代码理解--GPT-4O具有超强的代码理解能力，它在理解英语文本和代码上的性能媲美GPT-4 Turbo，在非英语文本上的性能得到显著性的提升！除此之外，你可以与电脑桌面版的ChatGPT用语音来进行交互。你可以使用它来解释一下某些代码中的某些函数。
语音交互--它打开了语音交互的新模式，用户只需要说下自己的问题，它就可以在毫秒级的时间内快速做出回应，平均耗时仅有320ms左右！它的语音交互功能主要由：“一个音频转文本模型”+“一个接收文本的大语言模型”+“一个文本转语音模型”3部分组成！
支持跨文本、音频与视频实时推理--GPT-4O是一个融合了大量的“文本+语音+视觉”数据训练的一个大语言模型，所有的数据都经过同一个网络架构。它开启了更自然的一种人机交互的新方式，使得人与机器，机器与机器之间的交互更加自然、更加智能、更加耐人寻味！
图像理解能力大幅提升--经过深入的优化，GPT-4O的图像理解能力得到了大幅度的提升，很多GPT-4与GPT-4 Turbo不能处理的问题，它都能完美的帮你处理。例如：让它把OpenAI的logo叠加在杯子垫上面等。
3D视觉内容生成--它很好的将文生3D能力融入其中，可以根据6张生成的图片进行高精度的3D重建任务。除此之外，它可以很好的处理复杂的排版样式问题，可以根据文字制作一组连续的漫画，可以制作一张风格化的海报等等。

12.02-Claude3.5

链接-https://www.anthropic.com/news/claude-3-5-sonnet

Claude 3.5 Sonnet是Anthropic近期新推出的一个大语言模型。它为研究生级推理（GPQA）、本科生级知识（MMLU）和编码能力（HumanEval）设定了新的行业基准。它在把握细微差别、幽默和复杂指令方面表现出了显著的进步，并且在以自然、相关的语气编写高质量内容方面表现得非常出色。

Claude 3.5 Sonnet十四行诗的运行速度是Claude 3作品的两倍。这种性能提升，再加上经济高效的定价，使Claude 3.5 Sonnet成为复杂任务的理想选择，如上下文敏感的客户支持和协调多步工作流程。

Claude 3.5 Sonnet是Anthropic迄今为止最强的视觉模型，在标准视觉基准上超过了Claude 3 Opus。这些阶跃变化的改进对于需要视觉推理的任务（如解释图表）最为明显。Claude 3.5 Sonnet还可以从不完美的图像中准确地转录文本，这是零售、物流和金融服务的核心能力，人工智能可以从图像、图形或插图中获得比仅从文本中获得更多的见解。

12.03-浦语·灵笔2.5

链接-https://github.com/InternLM/InternLM-XComposer

浦语·灵笔2.5，即InternetLM-XComposer-2.5（IXC-2.5），它是由上海人工智能实验室研发的一个国产大语言模型。这是一个支持长上下文输入和输出的通用大型视觉语言模型。IXC-2.5擅长于各种文本图像理解和合成应用程序，仅需7B LLM后端即可实现GPT-4V级别的功能。经过24K交错图像文本上下文的训练，它可以通过RoPE外推无缝扩展到96K长上下文。这种长上下文功能允许IXC-2.5在需要大量输入和输出上下文的任务中表现出色。

与之前的2.0版本相比，InternetLMXComposer-2.5在视觉语言理解方面有三个主要升级：1）超高分辨率理解；2）细粒度视频理解；3）多回合多图像对话。除了理解，IXC-2.5还扩展到两个引人注目的应用程序，使用额外的LoRA参数进行文本图像合成：制作网页和合成高质量的文本图像文章。

IXC-2.5已经在28个基准上进行了评估，在16个基准上优于现有的开源最先进的模型。它还在16项关键任务上超越或与GPT-4V和Gemini Pro竞争。

13-多模态大模型

很多人都认为多模态大语言模型才是通往AGI的终极路径。多模态大模型与大语言模型的差异主要体现在它们所支持的输入与输出类型，除了文本、图片、视频之外，它还能支持更多的不同格式的输入数据。

多模态大模型是一种先进的人工智能技术，它结合了多种数据类型（如文本、图像、声音等）的处理能力，旨在提供更全面、更深入的认知和交互体验。这种模型能够同时理解和生成多种模态的信息，打破了传统AI系统只能处理单一数据类型的局限。

多模态大模型的核心优势在于其跨模态的理解和生成能力。例如，它可以根据文本描述生成相应的图像，或从图像中提取信息并生成描述性文本。这种模型在图像识别、语音识别、自然语言处理等多个领域都有广泛的应用。

此外，多模态大模型在提升用户体验方面也显示出巨大潜力。它可以用于开发更智能的聊天机器人、创建更丰富的多媒体内容，甚至改进辅助技术，帮助有特殊需求的用户更好地理解周围世界。

尽管多模态大模型带来了许多创新的可能性，但它也面临一些挑战，包括如何确保不同模态之间的一致性、如何处理大量多模态数据的存储和处理需求等。随着技术的进一步发展，多模态大模型有潜力在多个行业带来革命性的变革。

13.01-Meta-Transformer

链接-https://kxgong.github.io/meta_transformer/

多模态学习涉及利用来自不同模态的数据来提高模型能力。尽管这个领域已经发展了多年，但由于这些不同模态之间存在重要差距，因此仍然很难设计一个统一的框架来处理自然语言、2D图像、3D点云和音频频谱。

本文提出了一种新方法，证明了一个具有冻结参数的网络可以对来自前述四个模态的数据进行编码并实现良好的性能，从而形成了一个名为 Meta Transformer 的统一框架。使用这个框架，各种模态的原始输入数据被转换为共享的标记空间，允许后续的编码器使用冻结参数提取输入数据的高层语义特征。该框架主要由三个主要组件组成：统一数据标记器、模态共享编码器和用于下游任务的任务特定头。据我们所知，Meta Transformer 是第一个用于四种模态的统一学习的框架，且数据不配对。

作者在不同模态的基准测试中评估了 Meta Transformer，例如 ImageNet 用于分类、GLUE 用于文本理解、ModelNet-40、S3DIS、ShapeNetPart 用于点云和 Speech Commands V2 用于语音频谱。这些结果表明，使用 transformers 开发统一的多模态智能具有良好的发展前景。

13.02-Unified-IO

链接-https://unified-io-2.allenai.org/

Unified-IO 2是Unified-IO算法的升级版，它在Unified-IO算法的基础上面扩展了语音、行为、视觉、自然语言等子任务。它是第一个能够同时理解和生成图像、文本、音频和动作的自回归多模式模型。为了统一不同的模态，作者首先将输入和输出（图像、文本、音频、动作、矩形框等）标记到一个共享的语义空间中，然后使用单个编码器-解码器-转换器模型进行处理。

因为训练这样的一个多模态模型极其困难，所以作者提出了多种改进思路来保证该模型可以稳定训练。作者在来自不同来源的大型多模式预训练语料库上从头开始训练该模型，该语料库具有多模式混合的去噪器目标。为了学习一套通用的技能，例如遵循多模式指令，作者通过提示和增强构建并微调了120个现有数据集。通过单一的统一模型，Unified-IO 2在GRIT基准测试中获得了最佳的效果，并在30多个基准测试中取得了优异的成绩，包括图像生成和理解、文本理解、视频和音频理解以及机器人操作。

14-Agent

自主Agents长期以来被认为是实现通用人工智能（AGI）的一种有前途的方法，预计通过自主规划和行动来完成任务。在以前的一些研究中，agents通常根据简单、启发式的策略函数行动，并在孤立和受限的环境中进行学习。

Agent的强项是它可以将现实场景中的复杂的问题的问题分解成一些比较简单的问题，然而这些简单的任务是可以通过单个模型或者算法可以来解决。那么将这一系列简单的任务连接起来之后，复杂问题也就迎刃而解了！即它采用了“分而治之”的思想！Agent在手机端和浏览器端有着广泛的应用场景。

Agent的整个架构通常包括：配置模块、记忆模块、规划模块和行动模块 4个关键模块。1）配置模块的目的是识别agent的角色；2）记忆和规划模块将agent置于一个动态环境中，使其能够回忆过去的行为并计划未来的动作；3）行动模块负责将agent的决策转化为具体的输出；4）在这些模块中，配置模块影响记忆和规划模块，而这三个模块共同影响行动模块。

14.01-LEO Agent

链接-https://embodied-generalist.github.io/

LEO是一种多模态、多任务的多面手代理，它擅长在3D世界中感知、推理、规划和行动。在两个阶段使用共享的基于LLM的模型架构、目标和权重进行训练：1）3D视觉语言对齐，2）3D视觉-语言动作-指令调整。它以自我中心的2D图像、3D点云和文本为输入，并将全面的3D任务公式转化为自回归序列预测问题。通过微调LEO，它将LLM的能力扩展到具有统一模型的多模态视觉语言动作任务中。

为了便于训练，作者精心策划并生成了一个广泛的数据集，该数据集包括规模和复杂性极高的对象级和场景级多模态任务，需要深入了解3D世界并与之互动。大量的测试结果展示了LEO在各种任务中的惊人效果，具体包括3D字幕、问答、具体推理、具体导航和机器人操作。

14.02-AutoRT

链接-https://auto-rt.github.io/

近期结合语言、视觉和行动的基础模型彻底改变了利用互联网规模的数据来推理特定任务的能力。然而，训练具体基础模型的关键挑战之一是缺乏基于物理世界的数据。在本文中，作者提出了AutoRT，这是一个利用现有基础模型在完全看不见的场景中扩大操作机器人部署的系统，只需最少的人工监督。

AutoRT利用视觉语言模型（VLM）进行场景理解和解析，并进一步使用大型语言模型（LLM）提出由机器人执行的各种新颖指令。通过挖掘基础模型的知识来指导数据收集，使AutoRT能够有效地推理自主性权衡和安全性，同时显著扩大机器人学习的数据收集规模。作者展示了AutoRT向多栋建筑中的20多个机器人提出指令，并通过远程操作和自主机器人策略收集了77k个真实机器人事件。

大量的实验表明表明：AutoRT收集的这种“野外”数据要多样化得多，并且AutoR T使用LLM允许遵循指令的数据收集机器人与人类偏好相一致。

14.03-Mobile Agent V2

链接-https://github.com/X-PLUG/MobileAgent/blob/main/Mobile-Agent-v2/

Mobile Agent是一种自主的多模式移动设备代理。Mobile Agent首先利用视觉感知工具准确识别和定位应用程序前端界面中的视觉和文本元素。基于感知的视觉上下文，它自主规划和分解复杂的操作任务，并逐步导航移动应用程序进行操作。与以前依赖应用程序的XML文件或移动系统元数据的解决方案不同，mobile Agent以视觉为中心，在不同的移动操作环境中提供了更大的适应性，从而消除了系统特定定制的必要性。Mobile Agent利用视觉感知工具进行操作本地化。它可以自我规划每一步，完成自我反思。Mobile Agent完全依赖于设备屏幕截图，而不需要任何系统代码，这是一个纯粹基于视觉的解决方案。

Mobile-Agent-v2，这是一种用于移动设备操作辅助的多智能体架构。该体系结构包括三个agent：规划agent、决策agent和纠错agent。规划agent将冗长的、交错的图像-文本历史操作和屏幕摘要浓缩为纯文本任务进度，然后将其传递给决策代理。上下文长度的减少使得决策agent更容易导航任务进度。为了保留焦点内容，作者设计了一个内存单元，通过决策agent随任务进度进行更新。

此外，为了纠正错误的操作，纠错agent会观察每个操作的结果，并快速处理任何错误。大量的实验结果表明，与单agent架构的移动代理相比，Mobile-Agent-v2的任务完成率提高了30%以上。

14.04-实在智能Agent

链接-https://www.ai-indeed.com/

Agent（智能体）就像是一个懂得很多知识和技能的小助手，它能够理解你说的话，并且根据自己的学习和经验做出回应和行动。它可以帮你回答问题、执行任务，甚至和你进行有意义的对话。就像是一个懂得很多东西的朋友一样，可以随时帮助你解决问题。

实在 Agent（智能体）是实在智能自主研发的Agent产品，它同样是拥有了强力大脑、灵活手脚、敏锐双眼的PC桌面办公好帮手。

实在 Agent（智能体）助力众多企业成功实现数字化转型升级，应用的场景包括：金融、运营商、电商零售、政府、制造、烟草、财税等多个行业。

15-RAG

RAG，即检索增强生成（Retrieval Augmented Generation），它是一种结合了检索增强和生成式人工智能技术的模型。这种模型通过在生成过程中引入检索步骤，能够更有效地利用大量外部信息，从而提高生成内容的质量和相关性。

RAG的核心思想是在生成文本、图像或其他多媒体内容时，模型会首先从大量的数据中检索出与当前任务最相关的信息，然后基于这些信息进行生成。这种方法不仅能够提升生成内容的准确度和丰富性，还能够减少重复内容的生成，提高创造性。

RAG的主要优势在于其能够处理复杂的查询和生成任务，并且能够适应不同的应用场景。例如，在对话系统中，RAG能够根据用户的提问实时检索相关信息，并生成更准确、更自然的回答。在图像生成中，RAG能够根据给定的文本描述检索相似的图像，并以此为基础创造出新的图像内容。

尽管RAG带来了许多创新的可能性，但它也面临一些挑战，包括如何确保检索和生成过程的效率，以及如何处理多模态数据的一致性等。随着技术的进一步发展，RAG有望在多个领域带来革命性的变革。

15.01-LangChain

链接-https://github.com/langchain-ai/

LangChain是一个用于开发由语言模型提供支持的应用程序的框架。它使应用程序能够：1）将语言模型连接到上下文源（提示指令、少数镜头示例、响应的基础内容等）；2）依靠语言模型推理（关于如何根据提供的上下文进行回答、采取什么行动等）。

上图展示了该框架的整体架构，这个框架由几个部分组成。1）LangChain库：Python和JavaScript库。包含无数组件的接口和集成，将这些组件组合到链和代理中的基本运行时，以及链和代理的现成实现。2）LangChain模板：一个易于部署的参考体系结构集合，用于各种任务。（仅适用于Python）3）LangServe：用于将LangChain链部署为REST API的库。（仅限Python）4）LangSmith：一个开发人员平台，允许您调试、测试、评估和监控构建在任何LLM框架上的链，并与LangChain无缝集成。

15.02-LangChain-Chatchat

链接-https://github.com/chatchat-space/Langchain-Chatchat

LangChain-Chatchat是一种利用 langchain 思想实现的基于本地知识库的问答应用，目标期望建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案。

受 GanymedeNil 的项目 document.ai 和 AlexZhangji 创建的 ChatGLM-6B Pull Request 启发，建立了全流程可使用开源模型实现的本地知识库问答应用。本项目的最新版本中可使用 Xinference、Ollama 等框架接入 GLM-4-Chat、 Qwen2-Instruct、 Llama3 等模型，依托于 langchain 框架支持通过基于 FastAPI 提供的 API 调用服务，或使用基于 Streamlit 的 WebUI 进行操作。

本项目支持市面上主流的开源 LLM、 Embedding 模型与向量数据库，可实现全部使用开源模型离线私有部署。与此同时，本项目也支持 OpenAI GPT API 的调用，并将在后续持续扩充对各类模型及模型 API 的接入。

本项目实现原理如上下图所示，整体过程包括：加载文件 -> 读取文本 -> 文本分割 -> 文本向量化 -> 问句向量化 -> 在文本向量中匹配出与问句向量最相似的 top k个 -> 匹配出的文本作为上下文和问题一起添加到 prompt中 -> 提交给 LLM生成回答。

15.03-QAnything

链接-https://github.com/netease-youdao/QAnything?tab=readme-ov-fil

QAnything (Q uestion and Answer based on Anything) 是致力于支持任意格式文件或数据库的本地知识库问答系统，可断网安装使用。您的任何格式的本地文件都可以往里扔，即可获得准确、快速、靠谱的问答体验。

目前已支持格式: PDF(pdf)，Word(docx)，PPT(pptx)，XLS(xlsx)，Markdown(md)，电子邮件(eml)，TXT(txt)，图片(jpg，jpeg，png)，CSV(csv)，网页链接(html)等格式。QAnything具有如下的特点：

数据安全，支持全程拔网线安装使用。
支持跨语种问答，中英文问答随意切换，无所谓文件是什么语种。
支持海量数据问答，两阶段向量排序，解决了大规模数据检索退化的问题，数据越多，效果越好。
高性能生产级系统，可直接部署企业应用。
易用性，无需繁琐的配置，一键安装部署，拿来就用。
支持选择多知识库问答。

16-虚拟数字人

随着扩散模型等多种技术的快速发展，使得虚拟数字人又火了起来。国内外的大厂、AI独角兽等公司基本上都有自己的一套虚拟数字人。虚拟数字人是一种基于人工智能技术构建的数字化形象，可以模拟人类的外貌、声音、语言和行为等特征。

虚拟数字人需要的核心技术包括：语音、图像、3D美术、自然语言处理等领域的技术。语音技术在智能音箱时代已经得到了快速地发展，图像与自然语言技术则伴随着大模型的出现有了质的飞跃。

随着技术的发展，虚拟数字人的应用场景越来越广泛，以下是一些常见的应用场景：

娱乐与媒体：虚拟数字人在电影、电视、音乐视频和在线视频中扮演角色，为观众提供新颖的娱乐体验。

广告与营销：企业可以使用虚拟数字人作为品牌代言人或进行产品推广，吸引消费者的注意。

教育与培训：在在线教育平台，虚拟数字人可以作为虚拟教师，为学生提供互动式学习体验。

客户服务：许多公司使用虚拟数字人作为客户服务代表，通过聊天机器人等形式为客户提供24/7的服务。

健康医疗：在医疗领域，虚拟数字人可以用于患者教育、模拟治疗场景或为患者提供心理支持。

社交与通讯：在社交媒体和通讯应用中，用户可以创建自己的虚拟形象，与朋友进行互动。

电子商务：虚拟数字人可以作为虚拟试衣模特，帮助消费者在线试穿服装或其他商品。

游戏与虚拟现实：在电子游戏和虚拟现实应用中，虚拟数字人可以作为玩家的角色或其他互动角色。

艺术与创意表达：艺术家和创作者可以使用虚拟数字人作为艺术创作的工具，探索新的表现手法。

人力资源与招聘：虚拟数字人可以用于模拟面试场景，帮助求职者练习面试技巧。

新闻与广播：虚拟数字人可以作为新闻主播或广播员，为观众提供新闻和信息。

16.01-阿里云数字人

链接-https://www.aliyun.com/product/ai/avatar

虚拟数字人以AI驱动实时渲染为核心能力，提供快速轻量的数字人构建路径。基于达摩院在语音、图像、3D美术、自然语言处理等领域的技术优势，提供以实时交互为目标的「数字人流媒体」产品、以效率化内容生产为目标的「数字人视频合成」产品，以及丰富表现力的数字人资产构建定制服务。

阿里云虚拟数字人具有多种应用场景，可用于“内容创作、数字员工、视频客服、虚拟直播”等多种场景。1）可应用于新闻播报、政策解读、课件讲解。2）创建您的专属数字员工。3）通过赋予客服机器人数字人的形象，将传统的在线/热线客服升级成为支持WebRTC或VoLTE视频客服。4）驱动数字人担任“虚拟主播”角色，智能生成播报视频流内容，实现直播间7*24小时不间断直播，帮助品牌打造独具特色的直播场景，为观众提供专业、智能、有趣的直播观看体验。

阿里云虚拟数字人依托阿里达摩院强大的AI技术能力，为阿里云客户提供了低门槛、轻量级、易集成的3D数字人、2D数字人实时和离线驱动能力，让阿里云客户能够轻松的将数字人能力接入到自己的业务中，从而体验到数字人技术带来的业务提升；同时还提供了丰富的数字人资产形象库，以及为了方便非开发人员使用和体验还提供了完善的数字人视频创作SAAS产品。

16.02-火山引擎虚拟数字人

链接-https://www.volcengine.com/product/avatar

火山引擎虚拟数字人是字节跳动推出的具备2D真人、3D卡通和3D超写实在内的全类型虚拟数字人生产管线，采用行业领先的图像生成和语音交互技术，实现唇形、语音、表情和动作的高度拟人。聚焦于播报、交互、直播3大核心场景，为各行业提供一站式数字人解决方案。

它支持API、SDK多种接入方式；可灵活落地APP、小程序、Web、大屏多端应用，提供公有云、私有化部署方式。形象类型全面，覆盖2D真人、3D卡通和3D超写实形象，口型自然、表情逼真、姿态动作拟人度高。自研算法实力行业领先，唇形准确率 98.5%，数字人整体mos 4.0，端到端延迟500ms。

它可以支持你定制不同类型的数字人，具体包括：播报型数字人、直播型数字人、交互型数字人。除此之外，它还支持轻量级定制。1）数字分身：低数据门槛，5min数据即可高度还原真人形象，7天快速交付。2）声音复刻：低数据门槛，10min录音即可复刻真人声音，音色效果自然逼真。

16.03-讯飞虚拟人

链接-https://virtual-man.xfyun.cn/

科大讯飞也推出了自己的讯飞虚拟人，运用最新的AI虚拟形象技术，结合语音识别、语义理解、语音合成、NLP、星火大模型等AI核心技术，提供虚拟人形象资产构建、AI驱动、多模态交互的多场景虚拟人产品服务。

讯飞智作是一个一站式虚拟人音视频内容生产，AIGC助力创作灵活高效；在虚拟“AI演播室”中输入文本或录音，一键完成音、视频作品的输出，3分钟内渲染出稿。

面向电商直播场景帮助客户快速搭建虚拟人直播间。具有易使用、多平台、高配置、多形象、多语种，多种直播形式等特点，能够帮助客户低门槛快速开播，降低直播成本、提升直播效果。

针对有虚拟人应用搭建和集成需求的客户提供全方位的接入服务，提供终端SDK、服务端API、公有云API及私有化部署等虚拟人服务接入方案，实现APP、Web、小程序等产品形态集成应用。

17-Gaussian Splatting

Gaussian Splatting是一种用于三维重建和渲染的光栅化技术。本质上，它是一种从图像采样中创建真实感场景的方法。3D Gaussian Splatting，即使用 3D Gaussian 球表示三维模型，并通过 Splatting 技术渲染出来。它具有“渲染速度快、生成质量高、灵活度高”等特点。

Mesh是纯离散的（虽然可以插值）、显式表达在三维空间内。Nerf是纯连续的、隐式表达在可微空间内。然而，3DGS是在离散和连续间的一个平衡：在高斯球内部是连续的、可微的；在整个空间中，每个高斯球又是离散的。

3D Gaussian Splatting具有多种应用场景，具体包括：医学成像、科学数据可视化、动画与电影制作、建筑可视化、可视化并解释气象数据、分子建模、地质探测、虚拟现实、游戏开发、工业模拟与产品设计等。

17.01-3DGS

链接-https://github.com/graphdeco-inria/gaussian-splatting

辐射场方法最近彻底改变了用多张照片或视频拍摄的场景的新颖视图合成。然而，实现高视觉质量仍然需要训练和渲染成本高昂的神经网络，而最近更快的方法不可避免地会以速度换取质量。对于无边界和完整的场景（而不是孤立的对象）和1080p分辨率的渲染，目前没有任何方法可以实现实时显示率。

本文引入了三个关键元素，使我们能够在保持有竞争力的训练时间的同时实现最先进的视觉质量，重要的是，可以在1080p分辨率下实现高质量的实时（≥100 fps）新颖视图合成。

首先，从相机校准过程中产生的稀疏点开始，作者用3D高斯表示场景，该高斯保持了连续体积辐射场的理想特性，用于场景优化，同时避免了在空白空间中进行不必要的计算；其次，作者对3D高斯进行交织优化/密度控制，特别是优化各向异性协方差以实现场景的精确表示；第三，作者开发了一种快速可见性感知渲染算法，该算法支持各向异性飞溅，既能加速训练，又能实现实时渲染。作者在几个已建立的数据集上展示了最先进的视觉质量和实时渲染。

17.02-polycam

链接-https://poly.cam/tools/gaussian-splatting

polycam提供了一个3DGS的生成工具，你可以使用它来免费创建GS。GS是一种令人兴奋的新渲染技术，擅长于创建逼真、自然的3D场景和主题等。

GS可以有效地渲染有光泽的反射对象以及细长的细节。它还擅长在不牺牲较小细节的情况下捕捉广阔的空间。使用Polycam，您可以享受其它功能，具体包括：1）功能齐全的GS编辑工具套件；2）旋转、平移和放大更精细的细节；3）使用您自己的照片或视频；4）可下载网格用于任何GS场景。

你可以在这个页面上创建GS重建！点击上面的“创建”按钮，然后按照提示设置帐户/配置文件。您的图像集应为20到200张PNG或JPG格式的图像，视频字段应为mp4格式。通常，使用更多的图像将产生更高质量的场景。来自不同角度和视点的图像越多，输出就越好。Polycam Pro用户最多可以使用2000张图像来创建GS。

18-具身智能机器人

随着AI与AIGC技术的快速发展，具身智能成为当下一个热门话题，仿生机器狗和人形机器人是两个主要的研究方向。除此之外，将大模型的能力赋能各种各样的机器人也是具身智能的一个落地方向。

巨身智能（Giant AI）是指整合了多个AI系统或模型的集成智能体，它能够处理更复杂的任务，并提供更加全面和深入的智能服务。这种集成化的AI系统通过结合不同AI模型的专长与能力，形成了更为强大的智能体，其性能和智能化程度远超单个AI系统。

巨身智能的核心优势在于其跨领域的应用潜力和强大的综合能力。例如，它能够同时处理语言理解、图像识别、数据分析等多种类型的任务，为决策支持、自动化生产、智能客服等提供高效的解决方案。此外，巨身智能在处理复杂问题时表现出更高的创新性和适应性，能够根据不同情境动态调整策略。

然而，巨身智能也面临一些挑战，包括：如何有效整合不同的AI系统、如何保证系统整体的稳定性和安全性，以及如何处理海量数据的存储和计算需求等。随着技术的进一步发展，巨身智能有望在智能交通、智慧城市、个性化医疗等多个领域发挥重要作用。

18.01-人形机器人

链接- https://www.unitree.com/cn/h1/

人形机器人无疑是今年最热门的话题及应用之一，前几天WAIC上国内外的人形机器人厂商们纷纷亮相！国内由很多知名的人形机器人厂商，例如：宇树、优必选、小米等等。

虽然人形机器人需要的很多技术得到了快速的发展，当下有各式各样的传感器、多模态大模型的交互与理解能力得到质的提升、机器人的硬件部件的生态比较成熟等，但是我认为人形机器人还有很长的路要走！

个人觉得人形机器人当前有几个难点问题仍然需要突破，具体包括：1）自主学习各种各样复杂的动作，而不是只会几种简单的固定动作；2）如何缩小模拟场景与真实场景下的数据Gap；3）进一步提升它的智能程度，往更智能、更有温度、更懂人类的方向发展；4）成本需要进一步降低，当前很多厂商的机器人完全就没有考虑成本问题，各种各样的传感器上了一大推，N卡，Origin直接用，这和真实的产品之间还存在着巨大的鸿沟！

18.02-机器狗/仿生四足机器人

机器狗使用到的很多技术其实与人形机器人很相似，因此很多做人形机器人的公司也通常会做机器狗！

上图展示了小米的CyberDog，即铁蛋2机器狗。它可以完成了简单的动作，具体包括：奔跑、跳跃、左右转体、前倾后仰、作揖、握手、打滚、后空翻等。它使用了高性能伺服电机，因而可以更好的适应多种地形。它配备了多种不同的传感器，从而获得一个强大的环境感知能力。它配备了算力为21TOPS、128GB的边缘AI超级计算机。

它更多的是一个陪伴助手，能搬运一些简单的货物。但是如果仅仅具备这些功能的话，还远远满足不了人类的实际需求！随着GPT-4O等多模态大模型的出现，可以让这些机器狗变得更加智能，它能够具备更好的感知与理解、与人类对话与交流的能力。个人认为大模型在一定程度上可以提升机器狗多方面的能力，但是它距离真正的巨神智能的距离还比较遥远，或许在一些小领域中可能会有一些应用场景。

19-总结

文生图是大家最熟悉的子领域之一，代表性的工作时SD和MJ，SD通常和ComfyUI一起配合使用。

文生图文任务更实用、更接地气一些，毕竟我们生活中到处都是图文混合的场景。

文/图生贴纸是个比较小众却很有趣、很有落地价值的子领域，很多朋友可能都没听说过。

文生动画通过运动给文本赋予了生命的艺术气息，Adobe在这方面做的很前沿。

文生视频大家应该很熟悉，可控性长视频生成才是大家应该重点关注的对象。

鉴于当前文生视频的长度比较短，文生动漫/小说/故事反而更容易落地一些。

文生3D领域有了突破性进展，但是想把它用好还是需要一些基础技能。

图像编辑领域比较成熟，它可以充当另外一种形式的ControlNet，通常会与文生图组合使用。

图生视频可以让静态的图片转化为动态的视频，它能动并不可怕，可怕的是它运行的竟然那么自然！

与传统的3D建模相比，图生3D已经将几天的工作量压缩到了几分钟之内，这或许就是技术的魅力。

基于特定模特的虚拟试衣技术比较成熟，但是真正好用的应用或者产品并不是很多。

大语言模型已经到了白热化阶段，国内外的大厂们都开始打价格战了，你恰巧可以趁免费入手了。

多模态大语言模型才是通往AGI最近的一条路，不过这条路上还布满了荆棘，需要我们披荆斩棘。

Agent采用了分而治之的思路，遇到困难的大问题不妨考虑着利用Agent将其分解为简单的子任务来解决。

RAG是一种已经被广泛使用的技术，它可以在一定程度上让大模型输出的结果更加有理有据，大量应用在一些关注隐私的场景。

虚拟数字人中利用到的很多技术已经比较成熟，它的价值更多的是赋能。当你将其应用在直播领域时，一定要先保证你的流量基础，再用它来做提升。

3DGS是一种更快、更准、更强的三维表示方式，它可以应用在多个场景中。

当下阶段的具身智能更多的是将大语言模型的能力赋能到一些硬件上面，人形机器人、机器狗、自动驾驶、扫地机器人、AI眼镜等都会从中受益。但是真正的具身智能的到来还有较长的路要走！

由于个人时间与精力有限，可能遗漏了某些更重要的子领域，欢迎大家在评论区留言一起谈论！希望以上的18个AIGC子领域对你有所启迪或者有所帮助，如果你觉得本文有帮助，欢迎转发给周围的朋友们，让你的朋友们也补齐他们的信息差，用一个全新的视角来看待AIGC，一起奔赴AIGC的浪潮。

致自己、致粉丝、致千千万万个奋斗在一线的AIGC创业者们！！！

关注我，AI热点早知道，AI算法早精通，AI产品早上线！

欢迎你的加入，让我们一起交流、讨论与成长！

若二维码失效：关注公众号--》交流分享--》联系我们（备注：AI产品汇）

禁止私自转载，需要转载请先征求我的同意！