openai空降视频生成模型：一口气生成60s，风格画质尺寸灵活定制 | 最前线-云顶yd2223线路检测

·2024-02-16 16:49

关注

sora卷死模型公司。

文 | 周鑫雨

编辑 | 苏建勋

2023年4月，成立于纽约的runway ai发布了一段用ai生成的视频：模糊卡顿、物体扭曲，且仅4秒；

四个月后，runway将文生视频的视频效果拉到了4k的超逼着高度，实现了镜头的连贯稳定。而视频的最大长度也从4秒，提升到了18秒——这也是2023年文生视频的“时长天花板”。

然而，就在北京时间2024年2月16日凌晨，“天花板”又被打破——openai又出王炸，发布了可以生成60秒视频的ai模型sora。

openai官宣sora。

同样在2月16日发布的谷歌最新多模态模型gemini pro 1.5，则被sora迅速夺走了关注度。

网友为gemini和sora制作的梗图。

根据openai官方发布的推文和技术报告，sora能力的革命性可以被提炼为：最长生成60s视频、镜头的前后一致性、超逼真。

从官方发布的视频demo而言，sora只需要输入包含“构成元素、环境、行为及发生顺序、视频风格”等关键因素的prompt（提示词），就能生成不同风格的高清、连贯，且具有丰富运镜和转场的60s级视频。

比如生成包含人物和城市元素的视频：

提示词：一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子，拎着黑色钱包。她戴着太阳镜，涂着红色口红。她走路自信又随意。街道潮湿且反光，在彩色灯光的照射下形成镜面效果。许多行人走来走去。

sora生成视频（原视频为60s，文中截取20s，画质受gif大小限制有所压缩）。图源：openai

sora也能生成动物和自然风光：

提示词：几只巨大的毛茸茸的猛犸象踏着白雪皑皑的草地走近，它们长长的毛茸茸的皮毛在风中轻轻飘动，远处覆盖着积雪的树木和雄伟的雪山，午后的阳光下有缕缕云彩，太阳高高地挂在空中距离产生温暖的光芒，低相机视角令人惊叹地捕捉到大型毛茸茸的哺乳动物，具有美丽的摄影和景深。

sora生成视频（画质受gif大小限制有所压缩）。图源：openai

sora生成的视频已经能够达到逼真的效果。不过，用3d和动漫风格生成虚拟场景对sora而言也不在话下：

提示词：动画场景的特写是一个毛茸茸的小怪物跪在融化的红蜡烛旁边。艺术风格是 3d 和现实的，重点是灯光和纹理。这幅画的气氛是一种惊奇和好奇，怪物睁大眼睛、张开嘴巴凝视着火焰。它的姿势和表情传达出一种天真和俏皮的感觉，就好像它第一次探索周围的世界一样。暖色调和戏剧性灯光的使用进一步增强了图像的舒适氛围。

sora生成视频（画质受gif大小限制有所压缩）。图源：openai

突破时长和逼真的瓶颈，

sora摸着dall-e过河

在半年前，在保证生成画质的前提下时长仅仅是突破10秒，对于多数视频模型而言都是难以企及的高度。

这是由于循环网络、生成对抗网络、diffusion模型等主流视频建模范式，通常只能学习某一小类的视觉数据、较短的视频或者固定大小的视频。

这意味着，此前主流范式下的视频生成模型对训练数据有较高的要求，需要将训练数据处理为具有标准大小、裁剪尺寸的视频。

sora的技术报告显示，为了构建sora，openai创新性地采用了文生图模型dall-e 3的相关技术：将diffusion模型（可以将随机像素大致转换为图像）与transformer神经网络（支持处理长数据序列）相结合。

这意味着，sora可以像处理文字和图像数据一样，对视觉数据进行分块式地理解分析，不用进行标准化的预先处理。

比如对应大语言模型中将文本分割为最小的处理单位token，sora也通过压缩视频到较低维度，将视觉数据分割为可分块处理的补丁（patch）。并且随着训练计算量的规模式（scaling）提升，视频生成质量会显著提高。

基于基础计算量生成的样本效果。图源：openai

基于4倍计算量生成的样本效果。图源：openai

基于16倍计算量生成的样本效果。图源：openai

基于原始数据而非标准化处理数据的训练，不仅可以让sora初步拥有理解真实或虚拟世界的能力，还能灵活生成时长不同、分辨率和尺寸各异的视频（目前可生成的尺寸范围是：宽屏1920x1080p~竖屏1080x1920p），以适应不同场景和设备的使用需求。

sora生成不同尺寸下的同主题视频。图源：openai

不过，仍有不少专家以审慎的态度看待这次技术突破。伊利诺伊大学厄巴纳－尚佩恩分校信息科学教授ted underwood在华盛顿邮报的采访中表示，openai可能会挑选可以展示模型最佳表现的一些视频。

再比如，普林斯顿大学计算机科学教授 arvind narayanan在x推文中指出，sora生成的时尚女子在东京街头行走的视频中，女子的左右腿交换了位置，背景中的人物在被前进物体短暂遮挡后消失了。

arvind narayanan的推文，可仔细观察原视频14-16秒处的双腿交换。

openai官方也放出了一些“sora翻车视频”，展示了sora在理解复杂场景的物理原理、因果关系、空间细节、时间推移上的弱点。比如，它搞反了人在跑步机上跑步的方向。

sora生成的视频截图。提示词：打印一个人跑步的场景，35 毫米电影胶片。

sora杀死runway们，

伦理安全引发大众担忧

2022年，tiktok观看量top 10的视频平均时长为44.2秒，最长的一个视频长达2分16秒；

广告分析公司integral ad science的统计数据显示，移动网络展示广告和移动应用的广告平均时长分别为15.6秒和20.2秒。

这意味着，一旦文生视频模型突破了60s的时长瓶颈、画质达到商用级别，对于用户的生产和娱乐方式，都会产生巨大的影响。《马戏之王》导演michael gracey告诉华盛顿邮报：“电影制作者不再需要一个由 100 或 200 名艺术家组成的团队，在三年内制作他们的动画长片。这让我很兴奋。”

然而，他依然对ai工具可能会造成的云顶yd2223线路检测的版权争议、失业问题而感到担忧：“它（ai）剥夺了其他人的创造力、工作、想法和执行力，却没有给予他们应有的荣誉和经济报酬时，那就不好了。”

由于sora生成的视频质量远高于多数视频生成模型，尤其现实风格让人真假难辨，不少专家也表达了对视频深度伪造（deepfake）的担忧。政治竞选虚假信息识别组织true media创始人、华盛顿大学教授oren etzioni在纽约时报的采访中表示：“我非常害怕这种事情会影响一场势均力敌的选举。”

目前，openai为sora生成的视频自动添加了水印标记，以表明由ai生成。openai创始人兼ceo sam altman在x上表示，目前sora正在展开红队测试（red-teaming，一种安全评估方法），并只对少数人开放测试。

sam altman的推文。

不过，即便尚未正式对公众开放，sora的能力已经引起了不少视频模型创业者的恐慌。

“当一个质量更好、时长更长、应用场景更广泛的视频模型摆在面前，没有人还想用‘runway们’。”一名ai创业者告诉36氪，“对模型层创业者来说，当务之急还是赶紧找场景、做应用。”

本文由「周鑫雨」原创出品，转载或内容合作请点击；违规转载必究。

openai空降视频生成模型：一口气生成60s，风格画质尺寸灵活定制 | 最前线-云顶yd2223线路检测

突破时长和逼真的瓶颈，

sora摸着dall-e过河

sora杀死runway们，

伦理安全引发大众担忧

最近内容

下一篇

热门标签

openai空降视频生成模型：一口气生成60s，风格画质尺寸灵活定制 | 最前线-云顶yd2223线路检测

突破时长和逼真的瓶颈，

sora摸着dall-e过河

sora杀死runway们，

伦理安全引发大众担忧

最新文章推荐

最近内容

下一篇

热门标签