社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Git

GitHub一周2000星!国产统一图像生成模型神器升级,理解质量双up,还学会了“反思”

量子位 • 5 天前 • 18 次点击  
允中 发自 凹非寺
量子位 | 公众号 QbitAI

国产开源统一图像生成模型,技术重大升级!

新进展来自智源研究院:

一模支持文生图、图像编辑、主题驱动图像生成的OmniGen,2.0新版本正式发布。

具体来说,OmniGen2在保持简洁架构的基础上,显著增强了上下文理解能力、指令遵循能力和图像生成质量

同时,OmniGen2全面继承了其基座多模态大模型在上下文理解与生成方面的能力,同步支持图像和文字生成,进一步打通了多模态技术生态

模型上线即引发开源社区广泛讨论,发布一周GitHub星标突破2000,X上相关话题浏览量数十万

现在科研体验版已开放,可抢先尝试图像编辑、上下文参照的图像生成等特色能力(链接见文末)

官方还承诺,OmniGen2模型权重、训练代码及训练数据将全面开源,为社区开发者提供优化与扩展的基础。

多种玩法,提示词就能解锁

OmniGen2的玩法简单,只需要输入提示词,就能解锁丰富的图像编辑与生成能力。

1. 基于自然语言指令的图像编辑

OmniGen2支持基于自然语言指令的图片编辑功能,可实现局部修改操作,包括物体增删、颜色调整、人物表情修改、背景替换等。

2. 多模态上下文参考的图像生成

OmniGen2可从输入图像中提取指定元素,并基于这些元素生成新图像。例如,将物品/人物置于新的场景中。当前OmniGen2更擅长保持物体相似度而不是人脸相似度。

3. 文生图

OmniGen2能够生成任意比例的图片。

从创新架构到图像生成反思机制

再来看看具体技术细节。

分离式架构+双编码器策略

OmniGen2采取了分离式架构解耦文本和图像,同时采用了ViT和VAE的双编码器策略。

不同于其他工作,ViT和VAE独立作用于MLLM和Diffusion Transformer中,提高图像一致性的同时保证原有的文字生成能力。

数据生成流程重构

OmniGen2也在探索解决阻碍领域发展的基础数据和评估方面的难题。

相关的开源数据集大多存在固有的质量缺陷,尤其是在图像编辑任务中,图像质量和质量准确度都不高。而对于图片上下文参考生成任务,社区中缺乏相应的大规模多样化的训练数据。这些缺陷极大地导致了开源模型和商业模型之间显著的性能差距。

为了解决这个问题,OmniGen2开发了一个从视频数据和图像数据中生成图像编辑和上下文参考数据的构造流程。

图像生成反思机制

受到大型语言模型自我反思能力的启发,OmniGen2还探索了将反思能力整合到多模态生成模型中的策略。

基于OmniGen2的基础模型构建了面对图像生成的反思数据

反思数据由文本和图像的交错序列组成,首先是一个用户指令,接着是多模态模型生成的图像,然后是针对之前生成输出的逐步反思。

每条反思都涉及两个关键方面:

  1. 对与原始指令相关的缺陷或未满足要求的分析;
  2. 为解决前一幅图像的局限性而提出的解决方案。

经过训练的模型具备初步的反思能力,未来目标是进一步使用强化学习进行训练。

新基准

OmniGen2在已有基准上取得了颇具竞争力的结果,包括文生图,图像编辑。

然而,对于图片上下文参考生成(in-context generation)任务,目前还缺乏完善的公共基准来系统地评估和比较不同模型的关键能力。

现有的上下文图像生成基准在捕获实际应用场景方面存在不足。它们不考虑具有多个输入图像的场景,并且受到上下文类型和任务类型的限制。同时,先前的基准使用CLIP-I和DINO指标来评估上下文生成的图像的质量。这些指标依赖于输入和输出之间的图像级相似性,这使得它们不适用于涉及多个主题的场景,并且缺乏可解释性。

为了解决这一限制,团队引入了OmniContext基准,其中包括8个任务类别,专门用于评估个人、物体和场景的一致性

数据的构建采用多模态大语言模型初筛和人类专家手工标注相结合的混合方法。

作为首个在该基准上接受评估的模型,OmniGen2取得了7.18的总体得分,超越了BAGEL等其他领先的开源模型,证明其能较好地平衡提示词遵循能力和主体一致性,在多种任务场景下都能稳定发挥 。

此外,OmniGen2依托智源研究院自研的大模型训练推理并行框架FlagScale,开展推理部署优化工作。通过深度重构模型推理链路,并融合TeaCache缓存加速策略,实现32%的推理效率提升,大幅缩短响应时间并强化服务效能。

同时,框架支持一键式跨机多实例弹性部署,有效提升集群资源整体利用率。团队将持续推进软硬协同优化,构建高效推理部署能力体系。

OmniGen2的模型权重、训练代码及训练数据将全面开源,为开发者提供优化与扩展的新基础,推动统一图像生成模型从构想加速迈向现实。

OmniGen2相关链接

Github: https://github.com/VectorSpaceLab/OmniGen2/
论文:https://arxiv.org/abs/2506.18871
模型:https://huggingface.co/BAAI/OmniGen2
科研体验版链接:https://genai.baai.ac.cn

*本文系量子位获授权刊载,观点仅为原作者所有。


一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🌟 点亮星标 🌟

科技前沿进展每日见


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/183918
 
18 次点击