介绍:MIDI-3D(Multi-Instance Diffusion for Single Image to 3D Scene Generation)是一种先进的 3D 场景生成技术,能够在短时间内将单张图像转化为高保真度的 3D 场景。通过智能分割输入图像,识别出场景中的独立元素,再基于多实例扩散模型,结合注意力机制,生成360度的3D场景。MIDI-3D 具有强大的全局感知能力和细节表现力,能在40秒内完成生成,对不同风格的图像具有良好的泛化能力。无论是游戏开发、虚拟现实,还是室内设计,MIDI-3D 都能提供高效的3D场景生成解决方案。
论文名称:Latte: Latent Diffusion Transformer for Video Generation Official PyTorch Implementation
开源链接:https://github.com/Vchitect/Latte
项目主页:https://maxin-cn.github.io/latte_project/
论文链接:https://arxiv.org/pdf/2401.03048v1
介绍:视频人像抠图(Video human matting)是计算机视觉的经典任务,输入一个视频(图像序列),得到对应视频中人像的alpha图,其中alpha与分割mask不同,mask将视频分为前景与背景,取值只有0和1,而alpha的取值范围是0到1之间,返回数值代表透明度。VHM模型处理1080P视频每帧计算量为10.6G,参数量只有6.3M。
介绍:SV3D基于Stable Video Diffusion模型,该模型在深度学习和计算机视觉领域具有广泛的应用。通过训练大量的数据,Stable Video Diffusion模型能够学习到从单张图片到3D视频的映射关系。SV3D作为Stable Video Diffusion的扩展,进一步提升了3D生成的质量和多视角一致性。
第十五层 Ai 动作迁移 篇
AiGC摩天大楼——第十五层 Ai 动作迁移 第一阶 之 DWPose 篇 :高效全身姿态估计的两阶段蒸馏方法
论文名称:Effective Whole-body Pose Estimation with Two-stages Distillation
论文名称:TANGO: Co-Speech Gesture Video Reenactment with Hierarchical Audio-Motion Embedding and Diffusion Interpolation
介绍:目前已经有很多面部和唇形同步的数字人项目了,但大多只支持头像和上半身,现在终于有个类Heygen的开源全身数字人项目。TANGO是由东京大学和CyberAgent AI Lab共同研发的项目,它能根据目标语音音频生成同步全身手势的视频。只需提供一段肢体动作视频和目标语音音频,TANGO就能将两者合成制作出高保真度、动作同步的视频。
AiGC摩天大楼——第十七层 数字人—— EchoMimic:让数字人说话更自然,表情更生动
论文名称:EchoMimic: Lifelike Audio-Driven Portrait Animations through Editable Landmark Conditioning