社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

OpenAI深夜上线「一句话改图」,ChatGPT免费用户也能用

图灵人工智能 • 2 月前 • 77 次点击  
点击上方“图灵人工智能”,选择“星标”公众号

您想知道的人工智能干货,第一时间送达

                         
图片

版权声明

转自学术头条,版权属于原作者,用于学术分享,如有侵权留言删除 
图片

今日凌晨,OpenAI 悄悄推出了由 GPT-4o 支持的「自由生图」功能——Images in ChatGPT。


自此,创建和定制图片就像使用 GPT-4o 聊天一样简单——你需要做的,只是描述你的需求,包括任何具体细节,如长宽比、使用十六进制代码的精确颜色或透明背景。


例如,向 GPT‑4o 输入一段描述,在描述中说明场景、主体和细节:


用手机拍摄的玻璃白板的广角图像,拍摄地点是一间俯瞰海湾大桥的房间。视野中可以看到一位女士正在写字,她身穿印有大型 OpenAI 标志的 T 恤。字迹看起来很自然,但有点凌乱,我们可以看到摄影师的倒影。


oai_image-generation_whiteboard1


同时,GPT‑4o 还可以根据提供的文字内容,在生成图片的白板上生成相应的笔记。


在输入新的指令“摄影师的自拍照,她转身和他击掌”后,图片中的人物相应的变换动作,甚至白板上的反光都能够对应上。


oai_image-generation_whiteboard2


目前,该功能现已面向 ChatGPT 的所有订阅层级用户开放,包括免费用户,但免费用户的使用次数有限制。由于这一模型创建的图片更详细,因此图片渲染时间更长,通常需要一分钟。


OpenAI 表示,这一功能将作为 ChatGPT 的默认图像生成器,也可以在 Sora 中使用。开发人员很快就能通过 API 使用 GPT-4o 生成图像,并在未来几周内推出访问权限。



5 大改进能力


OpenAI 表示,他们根据在线图像和文本的联合分布训练模型,学习图像与语言及彼此间关系。同时,结合后训练,使得模型具备视觉流畅性,能够生成有用、一致且具上下文感知的图像。


1.文本渲染能力


GPT-4o 现在可以将精确符号与图像融合,通过自然对话优化图像,在图像中添加文字提升含义,且能在聊天中确保图像一致性。


图片

制作两个 20 多岁的女巫(一个是白发,一个是长波浪卷发)阅读路牌的逼真图像。

背景:

纽约州威廉斯堡的一条城市街道上,一根电线杆上挂满了许多详细的路标(如:街道清扫时间、停车许可证要求、车辆分类等)、街道清扫时间、所需停车许可证、车辆分类、拖车规则),包括中间几个可笑的标志:(为了使这些路牌合法化,请转述)“C 区不允许女巫用扫帚停车”、“魔毯只能装卸(15 分钟限制)”、“驯鹿停车只能凭许可证(12 月 24-25 日),违反者将被列入淘气名单”。路标位于街道右侧。请勿重复标志。标志必须逼真。

人物:

一个女巫拿着扫帚,另一个女巫拿着卷起来的魔毯。她们位于前景,背对镜头,头微微倾斜,仔细观察标志。

从背景到前景的构图:

街道 + 停放的汽车 + 建筑物 -> 路牌 -> 女巫。人物必须离拍摄镜头最近。


2.多轮生成


用户可以通过与 GPT-4o 的自然对话来优化图像,在聊天上下文的基础上,结合图像和文本信息,确保内容的一致性。例如,当用户设计一个电子游戏角色时,在不断优化和尝试的过程中,这个角色的外观在多次迭代中都能保持连贯。例如:


你能为我制作一个可爱的简约浣熊吃草莓贴纸吗?使用白色粗边框和透明背景。


图片


尝试不同的简约风格和灰色浣熊图案。


图片


哦,你能不能在草莓上加上一个咀嚼的痕迹,或者在嘴巴周围加一些红色的乱七八糟的东西?


图片


3.指令遵循


GPT‑4o 的图像生成遵循详细的提示,注重细节。其他系统在处理约 5-8 个对象时会遇到困难,而 GPT‑4o 可以处理多达 10-20 个不同的对象。对象与其特征和关系的更紧密绑定使得对图像的控制更好。


图片

正方形图像包含一个 4 行 4 列的网格,白色背景上有 16 个物体。从左到右,从上到下。列表如下:

蓝色星星

红色三角形

绿色正方形

粉红色圆形

橙色沙漏

紫色无穷大标志

黑白圆点领结

扎眼的 "42"

一只戴着黑色棒球帽的橙色猫

一张带宝箱的地图

一双眨巴眨巴的眼睛

一个竖起大拇指的表情符号

一把剪刀

一只蓝白相间的长颈鹿

用草书书写的单词 "OpenAI"

彩虹色的闪电


4.上下文学习能力


GPT-4o 可对用户上传的图像进行分析和学习,将图像细节与上下文无缝整合,为图像生成提供信息。


图片


5.世界知识


GPT‑4o 可分析学习用户上传图像,将其细节融入上下文指导图像生成,原生图像生成使模型更智能高效。


图片



照片写实主义和风格


通过对多种风格图像训练,模型能创建或转换逼真图像,可按要求生成特定场景的照片。


图片

图|一张狗仔队风格的抓拍照片,照片中的卡尔・马克思正匆忙地走过某个地方。


图片

图|一只猫看着街上的一滩水,但是它在水中的倒影是一只老虎,并且两个倒影都被水中的涟漪逼真地扭曲了。


图片

图|一张 2006 年夏天一个周六多伦多农贸市场的逼真照片。那是六月下旬一个美丽的日子,人们在购物和吃三明治。焦点应该是一个年轻的亚洲女孩,她穿着牛仔背带裤,正在喝草莓香蕉冰沙,其余部分可以模糊处理。这张照片应该让人想起 2006 年的数码相机所拍摄的照片,要有像打印照片那样的时间戳。宽高比应为 3:2。



局限性


目前,模型还存在一些局限性,如裁剪较长图像时可能截不全;图像生成也可以虚构信息,特别是在低上下文提示的情况下。


图片


当生成依赖于其知识库的图像时,它可能难以同时准确地呈现 10 到 20 多个不同的概念,例如完整的元素周期表。


图片


该模型有时在呈现非拉丁语言时会遇到困难,并且字符可能不准确或出现幻觉,尤其是在更复杂的情况下。


图片


对图像生成的特定部分进行编辑的请求(如纠正错别字)并不总是有效的,并且可能会以非预期的方式改变图像的其他部分或引入更多错误。OpenAI目前正在努力提高模型的编辑精度。


图片


另外,该模型在被要求以非常小的尺寸呈现细节信息时会遇到困难。


图片


最后,OpenAI 还强调了在新功能中实施的安全措施,以防止滥用行为。所有生成的图像都包含数字水印,标明其由 AI 生成,且用户拥有这些图像的完整使用权,但需遵守使用政策。


整理:锦鲤


图片图片


文章精选:

1.万字长文详解DeepSeek-R1模型工作原理
2.2024图灵奖颁给强化学习两位奠基人!ChatGPT、DeepSeek背后功臣戴上迟来的冠冕
3.诺奖得主、人工智能教父辛顿学术讲座:图灵相信的是另一种AI、反向传播比人脑效果好,开源模型将给世界带来致命危险
4.图灵奖得主LeCun痛批硅谷傲慢病!圈内爆火长文:DeepSeek R1-Zero比R1更重要,成AGI破局关键
5.图灵奖得主、AI 教父 Bengio:OpenAI 不会分享超级智能,而是会用它来搞垮其他人的经济
6.不用求人,DeepSeek扮演国家自然科学基金审评专家,为申请书初稿提出专业改进意见,快速提升内容质量
7.图灵奖得主Bengio预言o1无法抵达AGI!Nature权威解读AI智能惊人进化,终极边界就在眼前
8.赶紧放弃强化学习?!图灵奖得主、Meta 首席 AI 科学家杨立昆喊话:当前推理方式会“作弊”,卷大模型没有意义!
9.杨立昆GTC大会万字实录|为什么仅靠“Token”无法实现AGI?
10.图灵奖得主杰弗里·辛顿:从小语言到大语言,人工智能究竟如何理解人类?

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/180462
 
77 次点击