智谱×华为：开源首个国产芯片训练的多模态SOTA模型！全流程基于昇腾NPU训练，创新模型架构，实测：ChatGPT解决不了的中文问题终于解决了

编辑 | 听雨

刚上市一星期，智谱就马不停蹄地发布新模型了！

就在刚刚，智谱联合华为开源最新图像生成模型GLM-Image，这是首个在国产芯片上完成全程训练的SOTA多模态模型。模型基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成从数据到训练的全流程。

官方给出的实测样例也相当惊艳，有内容详尽的科普插画和原理示意图：

有适合电商首页以及漫画风的多格图画：

也有适合社交媒体封面、排版较为复杂的图片：

还有各式各样的写实摄影风：

看起来各种图片风格和生成任务，GLM-Image都能驾驭。

在线体验地址也已经放出：

https://bigmodel.cn/trialcenter/modeltrial/image

开源SOTA：主打复杂文本生成能力

从实测样例可以看出，智谱这波主打的是长文本以及复杂视觉文字的生成任务。

在文字渲染的权威榜单上，GLM-Image 交出了一份相当亮眼的成绩单。不仅超越 Qwen-Image、Z-Image 达到开源SOTA水平，部分指标甚至超越了Nano Banana Pro。

在 CVTG-2K（复杂视觉文字生成）榜单中，该评测重点考察模型是否能够在同一张图像中，准确生成多处、多个区域的文字内容。结果显示，GLM-Image 在多区域文字生成准确率上表现突出，Word Accuracy 达到 0.9116，位列开源模型第一。

同时，在衡量字符级差异的 NED（归一化编辑距离）指标上，GLM-Image 以 0.9557 的成绩继续领跑，意味着其生成文字与目标文本高度一致，错字、漏字等问题显著更少。

而在更偏向“真实应用场景”的 LongText-Bench（长文本渲染）榜单中，GLM-Image 的表现也相当突出。该榜单主要考察模型在长文本、多行文字场景下的渲染能力，覆盖招牌、海报、PPT、对话框等 8 类文字密集场景 ，并同时设置中英文双语测试。

最终结果显示，GLM-Image 在英文任务中取得 0.952，中文任务中达到 0.979，双语成绩均位列开源模型第一。

GLM-Image 是怎么炼成的？

「自回归+扩散解码器」混合架构

GLM-Image 能取得这么惊艳的复杂视觉文字生成效果，离不开其背后的架构创新。

据官方介绍，GLM-Image 引入了「自回归+扩散解码器」混合架构，将9B大小的自回归模型与7B大小的DiT扩散解码器融合在一起。

这具体是在干什么呢？简单来说，如今扩散模型因其训练稳定性和强大的泛化能力，已成为图像生成的主流。但其局限性也同样明显：对复杂指令不够“听话”，对知识型内容理解不深，文本、符号、结构性信息容易失真等等。

于是智谱做了一个非常“工程导向”的选择：把“理解”和“画细节”这两件事拆开，各自交给最擅长的模型来做。

自回归模型负责“想清楚画什么”，而扩散解码器负责“把画画好”。

具体来看：

自回归模块（AR）

基于 GLM-4-9B
负责生成带有低频语义信息的视觉 token
决定整体布局、结构、文本内容、语义关系

扩散解码器（Diffusion Decoder）

基于 CogView4 的单流 DiT 架构
负责补全高频细节
生成清晰纹理、真实质感、精细文字和边缘

值得注意的是，其解码器额外引入了一个轻量级模块——Glyph-byT5。

它会对文字区域进行字符级建模，把字形 embedding 直接送进扩散解码器，从而提升了复杂文本（尤其是中文）的渲染能力，这也是它在文本生成榜单上表现突出的关键原因之一。

在自回归图像生成中，“用什么 token 表示图像”非常关键。过往方案大致有三类：

VQVAE 的视觉码：信息完整，但语义弱
语义 VQ（semantic-VQ）：语义更强，结构更清晰
一维语义向量（如 DALL·E 2）：语义抽象，但细节不足

GLM-Image 的结论很明确：

语义 VQ 在“可建模性”和“语义一致性”之间，达到了最好的平衡。

实验也验证了这一点：在相同码本规模下，语义 VQ 的训练损失显著更低，模型更容易收敛。

因此，GLM-Image 选择采用语义VQ，并基于 XOmni tokenizer，让自回归模型“真正学会理解图像语义”。

而在自回归预训练部分，GLM-Image 的 AR 部分直接初始化自 GLM-4-9B-0414，但做了几项关键改造：

冻结原有文本 embedding，避免破坏语言能力
新增视觉 token embedding
用视觉 LM head 替换原有文本 LM head
使用 MRoPE 支持图文交错输入（图像 + 文本混合生成）

同时，智谱采用了多分辨率、渐进式训练的策略，包括 256 像素、512 像素以及一个从 512 像素到 1024 像素的混合分辨率训练阶段，以便提升可控性和整体稳定性。

与华为合作，

基于国产全栈算力底座进行训练

官方透露，其自回归结构的整个训练基座，从最早期的数据预处理，到最终的大规模预训练，全部运行在昇腾 Atlas 800T A2 设备之上。

围绕昇腾 NPU 与昇思 MindSpore AI 框架，智谱对训练系统进行了深度定制，自研了一整套模型训练套件，对数据预处理、预训练、SFT 以及 RL 等关键环节进行了端到端优化。在执行层面，模型充分利用了动态图多级流水下发、高性能融合算子以及多流并行等特性，将原本容易成为瓶颈的流程拆解并重组。

具体来看，通过动态图的多级流水优化，Host 侧算子下发中的关键阶段被流水化并高度重叠，有效消除了算子下发带来的性能瓶颈；借助多流并行策略，通信与计算实现互相掩蔽，文本梯度同步、图像特征广播等高频操作不再“卡脖子”，显著降低了通信开销。在算子层面，训练过程中大量采用了 AdamW EMA、COC、RMS Norm 等昇腾亲和的高性能融合算子，在提升吞吐效率的同时，也进一步增强了整体训练的稳定性。

这套软硬件深度协同的训练体系，为 GLM-Image 的规模化训练和复杂能力打下了扎实的工程基础，使其成为首个在国产芯片上完成全流程训练的SOTA多模态模型，也验证了在国产全栈算力底座上训练高性能多模态生成模型的可行性。官方表示，希望能为社区挖掘国产算力潜力提供有价值的参考。

实测体验：中文内容很准确，

解决了ChatGPT没解决的问题

既然官方吹得这么香，我们也迫不及待地实测了一波。

先来生成一页介绍《小王子》的儿童绘本插画，提示词如下：

生成一个儿童插画绘本，体现小王子和小狐狸的友好互动，以下两位的对白：
小王子：“你是谁？你很漂亮。”
狐狸：“我是只狐狸。”
小王子：“来和我一起玩吧。我很苦恼。”
狐狸：“我不能和你一起玩。我还没有被驯服呢。”
……
狐狸：“这是已经早就被人遗忘了的事情。驯服，就是建立联系。”

大概花了2-3分钟时间，GLM-Image就给出了结果：

不得不说，生成效果还是挺不错的。GLM-Image 准确遵循了指令，插画风格统一、色彩柔和，没有出现细节模糊或画面混乱的问题。最大的看点是中文内容很准确，没有出现错字、漏字或生成火星文的现象——这也是ChatGPT一直没解决的问题。

接下来再挑战一下文本更长的任务，生成一张介绍新闻内容的图片，提示词如下：

2026年1月12日，苹果与谷歌宣布达成多年合作协议，苹果将基于谷歌的Gemini模型和云技术开发下一代基础模型，用于升级Siri及苹果智能功能。双方未公开具体财务条款，但消息称苹果每年或支付约10亿美元授权费。消息公布后，谷歌母公司Alphabet股价当日上涨1.09%，市值突破4万亿美元，成为继英伟达、微软、苹果后第四家达到此市值的公司。
帮我生成一张图片，介绍该新闻内容。

可以看到 GLM-Image 的文字渲染能力还是比较稳定可靠的，内容准确无误，与画面风格自然融合，没有出现错字、变形或排版混乱的情况。美中不足的是生成速度稍微有点慢，大概花了五六分钟的时间。

当然，这次新模型发布最大的看点，不仅仅是生成几张精美的图片，而是其完整训练链路首次建立在华为国产全栈算力底座之上，并且一举拿下了开源多模态SOTA的成绩。

这意味着国产算力不再只是“可用”的替代方案，而是真正进入了可规模训练、可持续迭代、并能支撑前沿模型能力演进的阶段。GLM-Image对于挖掘国产算力潜力提供了很有价值的参考，在这里小编不得不为国产芯片点个赞！

目前GLM-Image 已在智谱开放平台上线试用，后续也将陆续接入 Z.ai 与 智谱清言。

对于开发者而言，GLM-Image 已同步开放 API 接入，可通过智谱开放平台文档快速完成集成。

开放平台：

https://docs.bigmodel.cn/cn/guide/models/image-generation/glm-image

此外，智谱也开源了技术报告，感兴趣的朋友们可以去扒一下技术细节！

技术报告：https://z.ai/blog/glm-image

刚刚，梁文锋署名新论文深夜炸场！DeepSeek-V4 新架构曝光：提出新的稀疏化方向，与MoE互补，长上下文能力显著扩展，推理代码能力更强了

苹果×谷歌：AI世纪联姻正式宣布，谷歌一夜市值突破4万亿刀！苹果底层全上Gemini，马斯克警告：谷歌权力太集中了！网友：老马快造手机吧