OpenAI深夜上线「一句话改图」，ChatGPT免费用户也能用

点击上方“图灵人工智能”，选择“星标”公众号

您想知道的人工智能干货，第一时间送达

转自学术头条，版权属于原作者，用于学术分享，如有侵权留言删除

今日凌晨，OpenAI 悄悄推出了由 GPT-4o 支持的「自由生图」功能——Images in ChatGPT。

自此，创建和定制图片就像使用 GPT-4o 聊天一样简单——你需要做的，只是描述你的需求，包括任何具体细节，如长宽比、使用十六进制代码的精确颜色或透明背景。

例如，向 GPT‑4o 输入一段描述，在描述中说明场景、主体和细节：

用手机拍摄的玻璃白板的广角图像，拍摄地点是一间俯瞰海湾大桥的房间。视野中可以看到一位女士正在写字，她身穿印有大型 OpenAI 标志的 T 恤。字迹看起来很自然，但有点凌乱，我们可以看到摄影师的倒影。

oai_image-generation_whiteboard1

同时，GPT‑4o 还可以根据提供的文字内容，在生成图片的白板上生成相应的笔记。

在输入新的指令“摄影师的自拍照，她转身和他击掌”后，图片中的人物相应的变换动作，甚至白板上的反光都能够对应上。

目前，该功能现已面向 ChatGPT 的所有订阅层级用户开放，包括免费用户，但免费用户的使用次数有限制。由于这一模型创建的图片更详细，因此图片渲染时间更长，通常需要一分钟。

OpenAI 表示，这一功能将作为 ChatGPT 的默认图像生成器，也可以在 Sora 中使用。开发人员很快就能通过 API 使用 GPT-4o 生成图像，并在未来几周内推出访问权限。

5 大改进能力

OpenAI 表示，他们根据在线图像和文本的联合分布训练模型，学习图像与语言及彼此间关系。同时，结合后训练，使得模型具备视觉流畅性，能够生成有用、一致且具上下文感知的图像。

1.文本渲染能力

GPT-4o 现在可以将精确符号与图像融合，通过自然对话优化图像，在图像中添加文字提升含义，且能在聊天中确保图像一致性。

制作两个 20 多岁的女巫（一个是白发，一个是长波浪卷发）阅读路牌的逼真图像。
背景：
纽约州威廉斯堡的一条城市街道上，一根电线杆上挂满了许多详细的路标（如：街道清扫时间、停车许可证要求、车辆分类等）、街道清扫时间、所需停车许可证、车辆分类、拖车规则），包括中间几个可笑的标志：（为了使这些路牌合法化，请转述）“C 区不允许女巫用扫帚停车”、“魔毯只能装卸（15 分钟限制）”、“驯鹿停车只能凭许可证（12 月 24-25 日），违反者将被列入淘气名单”。路标位于街道右侧。请勿重复标志。标志必须逼真。
人物：
一个女巫拿着扫帚，另一个女巫拿着卷起来的魔毯。她们位于前景，背对镜头，头微微倾斜，仔细观察标志。
从背景到前景的构图：
街道 + 停放的汽车 + 建筑物 -> 路牌 -> 女巫。人物必须离拍摄镜头最近。

2.多轮生成

用户可以通过与 GPT-4o 的自然对话来优化图像，在聊天上下文的基础上，结合图像和文本信息，确保内容的一致性。例如，当用户设计一个电子游戏角色时，在不断优化和尝试的过程中，这个角色的外观在多次迭代中都能保持连贯。例如：

你能为我制作一个可爱的简约浣熊吃草莓贴纸吗？使用白色粗边框和透明背景。

尝试不同的简约风格和灰色浣熊图案。

哦，你能不能在草莓上加上一个咀嚼的痕迹，或者在嘴巴周围加一些红色的乱七八糟的东西？

3.指令遵循

GPT‑4o 的图像生成遵循详细的提示，注重细节。其他系统在处理约 5-8 个对象时会遇到困难，而 GPT‑4o 可以处理多达 10-20 个不同的对象。对象与其特征和关系的更紧密绑定使得对图像的控制更好。

正方形图像包含一个 4 行 4 列的网格，白色背景上有 16 个物体。从左到右，从上到下。列表如下：
蓝色星星
红色三角形
绿色正方形
粉红色圆形
橙色沙漏
紫色无穷大标志
黑白圆点领结
扎眼的 "42"
一只戴着黑色棒球帽的橙色猫
一张带宝箱的地图
一双眨巴眨巴的眼睛
一个竖起大拇指的表情符号
一把剪刀
一只蓝白相间的长颈鹿
用草书书写的单词 "OpenAI"
彩虹色的闪电

4.上下文学习能力

GPT-4o 可对用户上传的图像进行分析和学习，将图像细节与上下文无缝整合，为图像生成提供信息。

5.世界知识

GPT‑4o 可分析学习用户上传图像，将其细节融入上下文指导图像生成，原生图像生成使模型更智能高效。

照片写实主义和风格

通过对多种风格图像训练，模型能创建或转换逼真图像，可按要求生成特定场景的照片。

图｜一张狗仔队风格的抓拍照片，照片中的卡尔・马克思正匆忙地走过某个地方。

图｜一只猫看着街上的一滩水，但是它在水中的倒影是一只老虎，并且两个倒影都被水中的涟漪逼真地扭曲了。

图｜一张 2006 年夏天一个周六多伦多农贸市场的逼真照片。那是六月下旬一个美丽的日子，人们在购物和吃三明治。焦点应该是一个年轻的亚洲女孩，她穿着牛仔背带裤，正在喝草莓香蕉冰沙，其余部分可以模糊处理。这张照片应该让人想起 2006 年的数码相机所拍摄的照片，要有像打印照片那样的时间戳。宽高比应为 3:2。

局限性

目前，模型还存在一些局限性，如裁剪较长图像时可能截不全；图像生成也可以虚构信息，特别是在低上下文提示的情况下。