一、音视频同步生成模型 + AI短视频平台,开启视频领域的“GPT-3.5时刻”
据IT之家、AI寒武纪,10月1日凌晨,OpenAI 发布了下一代视频生成模型 Sora 2。相比初代Sora模型,Sora 2在物理世界的准确性、真实感和可控性方面都实现了巨大飞跃,并首次加入了同步对话和音效生成功能。从生成的视频质量来看,Sora 2已正式升级为音视频同步生成模型,能够更好地遵循遵守物理定律、理解和执行复杂的指令,并能够将现实世界的元素直接“注入”到视频生成中。用OpenAI自己的话说,初代Sora是视频生成的“GPT-1时刻”,而Sora 2则直接跃升至视频领域的“GPT-3.5时刻”。
同期推出的新版 App 形态为一个完全由AI来生成视频的短视频平台,用户可以通过一次性录制自己的视频和语音来完成身份验证,并体验颠覆性的社交玩法-“Cameo(客串)”的真人穿越功能,将自己一键置入AI生成的视频场景中。与现有社交媒体相似,Sora APP提供算法推荐的信息流,根据互动对象和兴趣推送个性化内容,并引入“可调节排序”功能,让用户进一步定制看到的内容。目前Sora APP只在IOS系统提供(首批上线地区为美国和加拿大,计划将迅速扩展到更多国家),应用采用邀请制进行推广,成功注册的用户将获得四个邀请码,可以分享给自己的朋友。
二、核心功能实测:精准物理交互 + 现实推理能力 + 音效生成 ,营造极高真实感
1)物理交互
Sora 2 在物理世界的模拟上达到了前所未有的高度。团队在发布中强调,新模型在运动(motion)、物理(physics)、智商(IQ)和对真实身体运动规律的精准模拟(body mechanics)方面都达到了业界顶尖水平。这意味着 Sora 2 能够更准确地理解和模拟复杂的物理交互。从生成的视频效果来看,视频中人物动作流畅自然,很难察觉AI生成的痕迹。
例如,在官方发布的花样滑冰场景中,运动员的跳跃和转体姿势非常流畅,人体形态并未发生扭曲:
在多人场景中,Sora 2 画面的物理表现同样出色,棒球的飞行轨迹逼真,击球时具有力度感,同时击打时机与音效完美同步(背景音竟然还是中文音效)。此外,我们仅仅向Sora 2提出模拟击球画面,但Sora 2还对击打后棒球的飞行轨迹进行了模拟,反映该模型除了忠实执行指令外,还具备基于物理原理的真实世界推理能力。
还有F1赛事、战争片等宏大场面:
当然Sora 2也并非完美无瑕,在跳伞场景中部分细节处理存在问题(如降落伞打开前后不一致等),在我们尝试生成的体操、烹饪等场景中,人物肢体动作也存在不自然的情况。
2)创意内容生成
创意生成领域,Sora2能够帮助我们生成更多天马行空的动画场景,例如孙悟空大战二郎神:
RPG游戏试玩中,Sora2 成功复制出与小怪进行战斗时的画面,野怪血条对应减少直至被消灭,同样展现出模型具备推理的能力。此外,游戏画面也与现实游戏的相似度极高,反映出Sora 2 基于现实游戏进行了一定量的训练并完成了信息提取。
3)添加现实内容
此外,Sora 2的一大亮点在于,可以将现实世界的元素直接“注入”到视频生成中。在生成视频界面,我们能够直接选择OpenAI的CEO Sam Altman等人物,目前全网已经产生了大量以Altman为原型的有趣视频。
官方网站中也提供了大量范例。
被鸵鸟叼走了帽子:
两个人在掰手腕:
4)测试环境
除了物理交互以外,一系列网络测试验证了Sora 2同样具备强大的模拟交互和代码能力。例如,我们让Sora 2模拟 ChatGPT对用户输入的反馈,Sora 2生成的视频不仅预测了ChatGPT的输出,甚至生成了按键音和机械音回答的音效,以视频生成的模式替代了生成式AI的功能:
在代码场景下,Sora2渲染HTML代码输出的效果与真实浏览器中渲染保持高度一致。其中,上面的图为浏览器运行html的结果;下面的图为将html转化为提示词后,Sora 2输出的结果:
5)社交APP
Sora App 的界面设计看起来非常像抖音,包括内容流、个人主页等界面,不过APP的短视频均为AI生成。在这个APP中,用户可自定义的Sora动态中浏览新视频,并通过“客串(Cameos)”功能将自己或好友引入到视频中。同时,为了保护肖像权,用户在APP中能够完全掌控自己的形象使用权,可随时撤销权限或删除含有本人 Cameo 的视频。
三、体验总结
与之前的视频生成模型相比,Sora 2在遵循物理规律、复杂的多镜头指令、音效生成等方面取得了重大飞跃,极大地重塑了内容创作领域,被称为视频领域的“GPT-3.5时刻”。
同时,OpenAI推出的Sora APP直接对标AI版本的Tiktok,依靠全新的客串功能,引领了AI时代社交互动的新范式。
体验亮点:
极高的真实感与可控性:动作衔接流畅丝滑,支持多个复杂的镜头组合。
逼真的环境音效:能够生成说话者语言、环境音等多种音效,正式升级为音视频同步生成模型。
AI版抖音打造全新社交神器:视频模型不仅提供了新的内容生成方式,还有望重塑人际沟通方式。Sora APP打造由AI生成视频的短视频平台,通过Cameo等新颖玩法吸引用户,推动模型出圈和未来的商业化探索。

资料来源:OpenAI,民生证券研究院整理
免责声明:基于公开资料和信息整理和产品实测,测试结果仅供参考,任何情况下不代表民生证券意见;或有翻译错误及信息滞后、更新不及时不全面的风险;任何情况下,不构成投资建议。
所有生成视频均由Sora 2模型AI生成,如有侵权,请联系民生证券研究院删除。