试了试 ChatGPT的图片生成功能，我佩服的无话可说

今天凌晨，ChatGPT 正式发布基于 GPT- 4o 模型的原生图像生成功能，这是最近几年 ChatGPT 在图片处理能力方向的一次重要升级。

早先发布 GPT- 4o 时，OpenAI 就宣称其具备强大的多模态推理能力，能够处理语音、文本和视觉信息。但之前，ChatGPT 仅仅提供了生成和编辑文本的功能，而不能生成图像。

今天，新的图片生成功能终于到来！

很不错，看来 OpenAI 受到 DeepSeek 的影响，已经逐步把重要的功能开放给更多的免费用户。这是今年 OpenAI 一个重要的策略变化，他们会让 AI 变得更加普适和开放。

但这个图像功能对用户来说已经不陌生。因为不久之前，谷歌也为自家的旗舰模型之一 Gemini 2.0 Flash 推出了实验性原生图像输出。

2023 年 9 月，OpenAI 曾经发布过新一代作图模型 DALL·E3。今天开始，GPT-4o 图像生成功能正式在 ChatGPT 中替代 DALL·E3。相对来说，GPT- 4o 需要更长的 “思考” 时间，OpenAI 称这可以生成更准确，细节更丰富的图像。GPT- 4o 可以编辑现有图像，包括有人物的图像，能够对图像进行变形或 “修复” 细节，如前景和背景中的物体。

为了实现新的图像功能，OpenAI 告诉媒体其训练 GPT- 4o 使用了 “公开可用的数据”，以及来自 Shutterstock 等合作伙伴的专有数据。在输出方面，OpenAI 会尊重艺术家的权利，并且有策略防止生成直接模仿在世艺术家作品的图像。

话说，OpenAI 的实力不是盖的，从目前的效果看，它的能力远远超过 Google。下面是几个案例。

提示词大概描述了用手机拍摄的玻璃白板的广角图像，位于俯瞰海湾大桥的房间里。视野显示一名女性正在写作，她穿着一件带有大型 OpenAI 标志的 T 恤。笔迹看起来很自然，有点凌乱，还看到了摄影师的倒影。另外，指定了白板上的文字。

最后的生成结果非常逼真。

再进一步修改提示词：

这个，实在是太震惊了。。。。。。

继续来，让它创建两个20多岁女孩阅读路标的具备真实感的照片，你看看，是不是很难看出来瑕疵？光影，以及文字都无比逼真。

4o 图像生成从今天开始作为 ChatGPT 中的默认图像生成器向 Plus、Pro、Team 和 Free 用户推出，Enterprise 和 Edu 即将访问。它也可以在 Sora 中使用。对于那些在心中对 DALL·E，它仍然可以通过专用的 DALL·E GPT 的。

目前，这项功能已经在 ChatGPT 和 Sora 中，向所有付费和免费用户推出。API 很快也会来，已经在路上。