点击上方“计算机视觉life”,选择“星标”
快速获得最新干货
清华大学刘永进教授课题组提出文生3D新方法,在T3Bench数据集上达到目前最好效果。

文生3D是3D AIGC的热点研究内容,近半年以来,得到了学术界和工业界的广泛关注。最近清华大学刘永进教授课题组提出一种新的文本-图像条件扩散模型(Text-Image Conditioned Diffusion, TICD)方法,在T3Bench数据集(https://t3bench.com/)上达到目前的最好效果。论文已经发布在https://arxiv.org/abs/2312.11774,代码即将开源。
目前主流的文本生成3D方法大多使用预训练的2D扩散模型,通过得分蒸馏采样(Score Distillation Sampling, SDS)优化神经辐射场(NeRF)来生成全新的3D模型。然而,这种预训练扩散模型提供的监督仅限于输入的文本本身,并未约束多视角间的一致性,可能会出现生成几何结构较差等问题。为了在扩散模型的先验中引入多视角一致性,一些最新的研究通过使用多视角数据对2D扩散模型进行微调,但仍然缺乏细粒度的视角间连续性。为了解决这一挑战,TICD方法将多视角图像条件纳入NeRF优化的监督信号中,保证了3D物体不同视角间的强一致性,有效提升了生成3D模型的质量。
文章亮点包括:
介绍TICD方法及其在3D AIGC研究中的作用。
概述文本生成3D方法中的挑战及TICD方法提供的解决方案。
阐述将多视角图像条件整合到神经辐射场(NeRF)优化中的方法,确保了3D对象不同视角之间的强一致性。
比较分析显示TICD方法在T3Bench数据集上的卓越性能。
探讨此研究在学术和工业应用中的未来影响。

清华大学的TICD方法可以在不同层级上提升生成3D模型的质量。以文本为条件的多视角扩散模型生成符合输入文本描述的3D模型,约束3D信息的粗一致性;同时,以图像为条件的新视角扩散模型根据多个视角渲染图片之间的一致性进行3D信息的更新,使得生成3D信息具有不同视角间的强一致性。
TICD方法可以有效消除现有方法面对特定文本输入时可能产生的几何信息消失、错误几何信息过量生成、颜色混淆等问题。在T3Bench数据集上的定量测试评估结果表明,该方法在与现有文本生成3D方法比较中取得了最好的效果。

推荐阅读
3D Gaussian Splatting为什么牛啵?原理、应用场景及最新进展

