作者以 zero-shot 的方式对 NÜWA 和现有 SOTA 进行了定性的比较。与 Paint By Word 相比,NÜWA 表现出了很强的编辑能力,在不改变图像其他部分的情况下,产生了高质量的结果。这得益于通过对各种视觉任务进行多任务预训练而学到的真实世界的视觉模式。比如在第三个例子中,由 NÜWA 生成的蓝色卡车更加逼真,而且后方的建筑物也没有产生奇怪的变化。另一个优点是 NÜWA 的推理速度,只需要 50 秒就能生成一幅图像,而 Paint By Words 在推理过程中需要额外的训练,并需要大约 300 秒才能收敛。以 zero-shot 方式与现有 SOTA 进行定性比较
结论
文章提出了一种统一的预训练模型 NÜWA,这个女娲不光能补天,也能造图,可以为 8 个视觉合成任务生成新的或操作现有的图像和视频。还提出了一个通用的 3D encoder-decoder 框架,能够同时覆盖文本、图像和视频。能同时考虑空间和时序维度的 3D nearby-sparse attention 机制。这也是迈向人工智能平台的重要一步,能够让计算机拥有视觉,并辅助内容创作者生成一些人类想象力以外的事。 参考资料:https://arxiv.org/abs/2111.12417https://github.com/microsoft/NUWA 深耕Python快10年了,积累了不少好书,准备了一份Python经典电子书给广大粉丝。大家有需要的添加下方微信,暗号「py资料」,我私发给大家哈 暗号「py资料」获取哦 往期内容: GitHub 牛逼! 豆瓣9.1分!我最近在通勤地铁上啃完了这本书!GitHub 又一黑科技项目面世!网友惊呼:这也太强了...