社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

OpenAI Sora 2 登场!同步推出APP,Altman称这是创意领域的「ChatGPT 时刻」

Founder Park • 1 周前 • 55 次点击  

文章转载自「新智元」。

实属没想到,Sora 2 深夜炸场!

刚刚,OpenAI直播正式官宣新一代AI视频模型——Sora 2,正面狙击谷歌Veo 3。

它在物理准确性、逼真度上,一举刷新SOTA,并在一致性、可控性上实现了巨大飞跃。

值得一提的是,Sora 2首次实现「音画同步」。

奥特曼发长文激动地表示,「创意领域的ChatGPT时刻来临」!

人类创造力即将迎来一次寒武纪大爆发,随之而来的艺术和娱乐质量,也将大幅提升。

突然间,创作天地变得无比开阔,令人印象非常深刻。

他还特意强调了一个创意玩法——把自己和朋友们放进视频里,效果好玩到炸!

这不,奥特曼拿着大话筒,直呼「10am PT.开启直播」。

而且,他还和Sora团队负责人Bill Peebles用Sora 2,直接拍了一部官宣2分钟视频,效果极其震撼。

令人意外的是,人物角色的一致性非常高,看来我们离好莱坞级大片不远了。

正如爆料所言,Sora首个App正式解禁,iOS版可在商店直接下载。安卓用户,需通过sora.com访问。


超 14000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者,飞书扫码加群: 
图片
进群后,你有机会得到:
  • 最新、最值得关注的 AI 新品资讯; 

  • 不定期赠送热门新品的邀请码、会员码;

  • 最精准的AI产品曝光渠道



01 

Sora 2出世,

视频GPT-3.5时刻来临

说到AI视频生成,过去总有种「梦里啥都有」的感觉——篮球瞬移进筐、人物刚刚还在左边,下一帧就冒出来个分身。

技术进步快没错,但「假」也总是藏不住。

直到Sora 2推出,第一次让人觉得,AI终于开始尊重物理和常识,生成世界不再是「随便编编」,而是真能照进现实。

2024年2月,Sora首次放出,堪称视频界的「GPT-1时刻」!这是首次,让所有人看到视频生成真的可用了。

过去半年,OpenAI团队死磕「如何让模型真正学会模拟实际运行」这个关键,如今终于取得重大突破。

基于海量视频数据的预训练和后训练技术,Sora 2的高光时刻降临。

正如官博所言,Sora 2开启了「视频领域的GPT-3.5 时刻」!

接下来,具体看看Sora 2历经一年多,究竟取得了哪些重大突破?

02 

AI穿帮,终于被揪出来了

最让人感慨的,是Sora 2在物理细节上的进化。

别小看这个点,比如你让它生成人投篮,旧模型为了「满足」指令,球会强行飞进篮筐(哪怕角度完全不合理);

现在的Sora 2,球打板弹开、甚至投丢都成常态,动作有惯性、受力和材质都说得通。

头顶一只猫咪并完成三周半跳?奥运冠军能否做到尚未可知,但Sora认为完全不在话下。

Prompt: figure skater performs a triple axle with a cat on her head

被业界封为「AI体操界的图灵测试」,Sora 2一次性就通过了。

Prompt: a gymnast flips on a balance beam. cinematic

就连这种不符合逻辑的奇葩操作:一名男子骑在一匹马背上,而这匹马又骑在另一匹马背上,Sora 2也能以意想不到方式完成。

Prompt: a man rides a horse which is on another horse

桨板上的后空翻也不是P上去的,而是力学能自洽地演绎。

Prompt: a man does a backflip on a paddleboard

你甚至能感受到角色的失误、尝试、挣扎,而不是一味「全都对」。

有点像在看小型纪录片——会成功,但也会失败。

Prompt: Title — Lanterns Above, Distance Between (10.0s, Live Action Black & White Festival Night)

Sora 2还能生成各类复杂环境声,效果十分惊艳,几乎听不出AI生成的痕迹。

Prompt: Two mountain explorers in bright technical shells, ice crusted faces, eyes narrowed with urgency shout in the snow, one at a time

「世界模拟器」这词,终于有点底气了。

03 

多镜头、多风格,

连贯成片不是梦

以前你让AI连续生成几个镜头,角色的衣服总莫名其妙换了、光线乱飘、道具没了。

Sora 2这次特别强调「世界状态」连续性——哪怕你让角色从厨房走到阳台,镜头切换时阳光、服饰、甚至地上洒的水都能一气呵成,不再穿帮。

你还可以像导演一样指定每个镜头的顺序、节奏、景别变化,把握故事节奏。

风格上,它已经能写实、能做电影质感;

Prompt: Vikings Go To War — North Sea Launch (10.0s, Winter cool daylight / early medieval)

甚至连日漫那种「超现实高燃」也能做得行云流水。

比如生成一场刀光剑影的动漫打斗,每一帧都能让二次元粉感叹「这比PPT流畅多了」。

还有曾经爆火全网的吉卜力风格,Sora 2在生成效果上也能拿捏。

Prompt: in the style of a studio ghibli anime, a boy and his dog run up a grassy scenic mountain with gorgeous clouds, overlooking a village in the distant background

而且音频直接跟上,不仅对白和口型对齐,连环境音、动作声效都随场景变化,给人一种「拿来即用」的感觉,省去后期剪辑音频的繁琐。

就比如,一位年长的教授可以英语无缝切换德语讲话。

Prompt: old professor talks in english then german

更多Sora 2官方惊艳Demo一览:


04

新玩法:

Sora App 让你「投影」自己进故事

除了模型本身,这次最让人感到「时代变了」的,是全新iOS 社交App——Sora。

打开App,只需要录一小段带声音的视频,系统验证身份和采集形象后,你或朋友,马上就能把你的样子和声音准确「扔进」任意生成场景:

可以让自己出现在巴黎铁塔前开派对、和熊猫打乒乓,甚至和马斯克同框唱歌(当然,公众人物暂时不支持哈)。

Sora 2可以直出一只鸵鸟叼走男子的帽子,在农场里奔跑的视频,效果非常自然,让人辨别不出这是AI生成的。

Prompt: an ostrich steals dads hat and dad chases after it

更令人惊喜的是,在Sora 2中还能赋予一个人「超能力」——飞起来,一个Prompt就可实现。

这个功能还用于Sora App,带来了一种全新的社交互动方式。

Prompt: Add @kendra except she can actually fly

「狗超人」拯救人类的剧情,在Sora 2中上演了。

Prompt: @rocket is a superpowered superhero dog, flying through the sky and saving new york city

还有更多的惊艳Demo,以第一视角带你畅玩。


这个「Cameo」功能用一次就停不下来,很多OpenAI内测员工说靠它结识了新朋友,AI不止能生成内容,还能创造社交纽带。

Sora的分发逻辑也颇有趣:推荐更偏向于「有二创价值」的视频,而不是单纯让你无脑刷时长。

你可以用自然语言告诉系统想看什么类型、什么风格、哪种故事,算法会主动调整推荐。

起步是邀请制,先在美加上线,后续很快扩展。

拿到邀请码还能上sora.com网页体验,高质量Pro版则专属ChatGPT Pro用户。

历史作品不会丢,API也在路上。

05 

全网实测震撼

提前拿到内测资格的开发者,已经放出诸多Sora 2的震撼demo。

@Miguel | AP直言,Sora是自己见过第一个,可以把动漫效果做到很到位的AI视频模型。

再来看Sora 2极致运镜效果,从近拉到远,完全没有违和感。

还有人体验后惊艳地表示,我非常确定我们已进入一个社交媒体新时代!

漫雪纷飞中,一对情侣在跳舞。

还有OpenAI研究员@gabriel,也在第一时间公开了一些「奥特曼参演剧情」的demo。

奥特曼本尊,正窃取用于Sora推理的GPU。

06 

安全与治理:

不是喊口号,是真上心

能力强了,风险也大了。

Sora 2在每一个环节都布下「安全网」:

  • 三层审核:文本提示、上传素材、视频逐帧、自动生成的场景描述和音频转写,全流程分层分类拦截。有些内容在输入就会被拦,有的生成完还要二次封堵,尤其未成年场景严上加严。

  • 肖像权与公众人物保护:刚上线时,禁止用别人的视频做「换脸」,不支持生成公众人物。只有你自己验证授权后,别人才可以用你的形象做视频,所有涉及你形象的作品你都能查到、撤回。

  • 青少年守护:青少年账号内容和Cameo权限都有限制,家长可以通过ChatGPT平台控制推荐、管理私信甚至关掉个性化推荐。

  • 可追溯性:视频下载会带动态水印,所有内容都嵌入行业标准元数据。官方还开发了检测工具,方便未来判断「是不是AI造的」。

  • 压力测试:在成人内容、极端主义、自伤、暴力、误导性政治等维度,都有专门评测和红队攻防。对违规拦截率、误杀率的数据都透明公布,核心指标大多在95-99%区间。

07 

核心团队介绍

在Sora 2官博最后,OpenAI放出了所有参与的成员名单,阵容超豪华。

在这份「电影谢幕工作人员表」中,OpenAI的几乎所有员工都被拉出来谢幕。

而为我们带来这场如梦如幻的电影的「总导演」,也就是Sora负责人Bill Peebles。

他是一名95后,本科毕业于MIT计算机专业,后于加州伯克利取得计算机博士学位。

他曾先后在英伟达、Adobe、Meta的AI岗实习,博士毕业后直接加入了OpenAI,工作的最大业绩是Created Sora(创造出了Sora)。

字越少事越大,言简意赅。

08

下一步:从玩内容到「世界模拟」

OpenAI说,Sora 2不会是终点。

OpenAI坦言它还会犯错,但路线已经明朗:继续用更多、更高质量的视频数据喂养模型,世界模拟的准确性和细节感会越逼真。

这个进化带来的不仅仅是让你玩得爽,更会影响影视广告、动画分镜、教育科普、产品演示,甚至是未来AI机器人「在现实世界里学本事」。

当然,这也意味着欺诈、非自愿肖像、青少年保护等问题会更加突出,需要靠技术、产品、社区和政策一起盯着。

你想把自己「丢」进哪个世界?

Sora 2这一波,是真正把视频生成从「像不像」推向「合不合理」,物理逻辑、镜头控制、音画同步、可玩性和安全性全线升级;

Cameo则把创作从「看别人」变成「玩自己」,让每个人都能成为主角。

不妨现在就想想:如果有30秒,让你出现在任何场景,你最想玩点啥?

是和偶像穿越打怪,还是带宠物环游地球,或者干脆做自己的动漫主角?

欢迎在评论区留言告诉我们你的第一条Sora 2创意。

下一个出圈的爆款视频,也许就来自你手里的Sora。

参考资料:
https://openai.com/index/sora-2/
https://openai.com/index/sora-2-system-card/
https://cdn.openai.com/pdf/50d5973c-c4ff-4c2d-986f-c72b5d0ff069/sora_2_system_card.pdf
https://www.youtube.com/watch?v=gzneGhpXwjU

图片
更多阅读

对话 Plaud 莫子皓:你还记得 PMF 的感觉吗?

18 年 SEO 增长经验专家:别再收藏各种 AEO 最佳攻略了,自己动手实验才是做好的关键

Nano Banana 核心团队:图像生成质量几乎到顶了,下一步是让模型读懂用户的intention

时隔 7 年,Notion 发布 3.0 版本,全面进入 Agent 时代

扒完全网最强 AI 团队的 Context Engineering 攻略,我们总结出了这 5 大方法

转载原创文章请添加微信:founderparker

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/187408