社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

增强版Sora生图模型发布:不仅能直接在ChatGPT用,还抢了梗图作者的饭碗

极客公园 • 1 月前 • 70 次点击  


官方带头画梗图。
作者|张勇毅

在 DeepSeek 24 小时前刚刚发布了 V3 模型 0324 版本更新之后,OpenAI 似乎真的有点「不甘示弱」的较劲感,在北京时间 3 月 26 日凌晨宣布了新产品的发布预告。

虽然在正式开始之前,有一些传言猜测本次有可能发布 GPT-5,但根据以往 OpenAI 的各种产品发布节奏来看,这次并不会是一次重磅更新,但本次直播中,发布的整合进 ChatGPT 中的新版 Sora,还是给大家带来的意料之外的「节目效果」。

目前,整合进 ChatGPT 中的 Sora,相比于独立应用版本,能力暂时被局限在了图像生成,但据 OpenAI 在直播中介绍,该模型比之前的模型有了质的飞跃。

据介绍,开发团队使用了GPT-4o「全模态」(或可以生成文本、图像、音频和视频等任何类型数据的模型)能力为基础,来开发这个版本的 Sora。因此用户可以直接说出自己的需求,甚至上传或者拍一张照片,作为提示词来使用。

比如直播现场的演示环节,就直接用手机给 Sam Altman 在内的三人来了张自拍,并要求 Sora 生成一张「动漫风格的版本」。

这还没完,他们三人甚至还现场演示了让 Sora 在图片上添加一段文本「Feel The AGI」(感受通用人工智能)。现场画了第一张新版 Sora 的表情包。

这个现场生成的表情包不仅文本准确清晰,并且准确理解了当代流行梗图中的包括粗体字等必备元素,已经能直接拿来当梗图发到各种群里了。

由于是 OpenAI 官方带头整活,评论区也有不少用户也被激发热情,尝试着把相同的提示词喂给 Grok,用相同的提示词和照片,生成同样风格的内容 ———— 但显然效果还是比新版 Sora 差了不少,反而带来了更喜感的效果。

除了带头画梗图,OpenAI 还演示了新版本 Sora 在文本渲染方面的改进,可以让在图像上生成没有拼写错误的连贯文本的成功率明显提升。

在另一个演示场景中,OpenAI 团队让 Sora 去生成一幅用于理解相对论的漫画卡片。

不同于以往生图模型中,在文本生成部分经常容易变得混乱不堪,甚至是「AI 造字」的情况发生,新版 Sora 其原生图像生成,生成的文本,已经没有任何明显错乱,甚至还在漫画生成了非常自然流畅的日文,意外的让日文社区的不少日本用户「炸锅」。

对于图片生成模型来讲,过去正确渲染文本是一个巨大的挑战。如果小标题或文本元素有拼写错误或错误,整个图像都可能变得无法使用。

此外在这个案例中,OpenAI 还演示了类似对相对论这样「世界上现有知识」的正确引用。

「如果我画一张图像,我会受到自身技能的限制……以及我积累的所有世界知识的限制,」 ChatGPT多模态产品负责人 Jackie Shannon  在接受媒体采访时解释这个功能的必要性。

「该模型将世界知识代入其中,因此当你要求生成牛顿棱镜实验的图像时,你无需解释「牛顿棱镜实验」这件事它本身是什么,就能得到准确的图像。」

除了上述这些直播中提到的模型能力改进,OpenAI 还表示新版 Sora 大幅提升了在属性和对象之间保持正确关系的能力。例如,绑定能力较差的模型可能会将要求生成蓝色星星和红色三角形的提示词,生成为红色星星而没有三角形。

据 OpenAI 介绍,现有的大多数图像模型在这方面都很容易「犯错」,尤其是当被要求渲染多个项目(通常在5到8个左右)时,经常会混淆颜色和形状。而新版 Sora 的图像生成功能,可以正确绑定15到20个对象的属性,在理解各自的复杂需求的同时,保证不会被误导,从而大幅提高成功率。

除了这些使用体验上的改进,还有一个细节是,OpenAI 已经确认,新版 Sora 生成图像的时间比以前更长,但 OpenAI 认为这是一个值得的权衡。

「虽然我们在延迟方面肯定还有改进的空间……但(我们觉得)这些生成图片的质量、功能和世界知识,确实弥补了用户需要等待的额外几秒钟,」Shannon说。

至于生图领域的安全问题 —— 从去年到今年已经出现多次伪造名人不雅图像、热点事件虚假图像,以及 Google Gemini 去除照片原水印这样的问题,OpenAI 团队强调新版 Sora 已经可以去除照片水印,同时阻止生成性深度伪造图像,并拒绝生成相关的内容请求。同时所有生成的图像都将包含标准的C2PA元数据,以标记该图像是由OpenAI创建的。

目前,新版集成在 ChatGPT 内的 Sora 图像生成模型功能,已经开放给 Pro 和 Plus 订阅套餐的用户,并且 OpenAI 承诺,新版 Sora 也会在不久的将来,提供给免费版本和 API。

现在我最想做的,就是立即让它帮我画自己的梗图了。



*头图来源:OpenAI 直播素材
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO







 

热点视频

马斯克:大家睡前听 15 分钟播客,能让人安心入睡。

点赞关注极客公园视频号
观看更多精彩视频

 

更多阅读



Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/180376
 
70 次点击