重磅消息!OpenAI推出文本生成视频模型Sora,支持生成最长1分钟视频!

北京时间2月16日凌晨,OpenAI 正式发布了其最新的文本到视频生成模型 Sora,标志着其在视频生成领域的加入,紧随 Runway、Pika、谷歌和 Meta 之后。

Sora生成视频示例

在山姆·奥特曼的消息发布后,OpenAI 工程师展示的 AI 生成视频效果引发了广泛关注,许多人感叹:好莱坞的时代是否已经结束?

Sora生成视频示例

OpenAI 声称,Sora 能够根据简短或详细的描述,甚至一张静态图片,生成类似电影的 1080p 场景,场景中包含多个角色、不同类型的动作和丰富的背景细节。

Sora的独特之处

Sora 在语言理解方面表现出色,能够准确解析用户的提示,并生成生动的角色以表达丰富的情感。此外,Sora 不仅能理解用户的要求,还能感知物理世界中的存在方式。

在官方博客中,OpenAI 提供了多个 Sora 生成的视频示例,展示了其令人印象深刻的效果,至少在与之前的文本生成视频技术相比时,效果显著提升。

Sora生成视频示例

对于初学者而言,Sora 可以生成多种风格的视频(如真实感、动画、黑白),最长可达一分钟,远超大多数文本到视频模型的时长。

这些视频保持了良好的连贯性,避免了常见的“人工智能怪异”现象,例如物体朝不可能的方向移动。

示例展示

以下是一些 Sora 生成的视频示例:

  • 中国龙年舞龙的视频生成。

舞龙示例

  • 输入提示:加州淘金热时期的历史镜头。

加州淘金热示例

  • 输入提示:玻璃球的特写视图,里面有一个禅宗花园。

玻璃球示例

  • 输入提示:一位 24 岁女性眨眼的极端特写。

女性特写示例

  • 输入提示:穿过东京郊区的火车窗外的倒影。

东京郊区示例

  • 输入提示:赛博朋克背景下机器人的生活故事。

赛博朋克示例

技术细节

在 Sora 推出后,OpenAI 迅速发布了技术报告,探讨了视频数据生成模型的大规模训练。研究人员在可变持续时间、分辨率和宽高比的视频和图像上联合训练了一个文本条件扩散模型。Sora 的最大模型能够生成长达一分钟的高质量视频。

OpenAI 认为,扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。

技术细节示例

视觉数据转为 Patches

OpenAI 从大型语言模型的成功中汲取灵感,采用了将视觉数据转化为统一表示的方法。Sora 使用视觉 patches 作为训练生成各种类型视频和图像的有效表示。

视觉数据示例

视频压缩网络

OpenAI 训练了一个降低视觉数据维度的网络,将原始视频作为输入,并输出在时间和空间上压缩的潜在表示。Sora 在这个压缩的潜在空间中接受训练,生成视频。

时空潜在 patches

给定一个压缩的输入视频,OpenAI 提取一系列时空 patches,充当 Transformer 的 tokens。这一方案同样适用于图像,因为图像可视为单帧视频。

用于视频生成的缩放 Transformer

Sora 是一个扩散模型,能够根据输入噪声 patches 和文本提示等调节信息,预测原始的“干净”patches。Sora 的扩散 Transformer 在各个领域表现出色。

扩散模型示例

可变的持续时间,分辨率,宽高比

Sora 的训练方法允许其生成不同分辨率和长宽比的视频,提供了更大的灵活性。

可变分辨率示例

语言理解

Sora 的训练需要大量带有相应文本字幕的视频,研究团队将 DALL・E 3 中的重字幕技术应用于视频生成。

以图像和视频作为提示

Sora 还可以使用已有的图像或视频作为输入,执行各种图像和视频编辑任务。

👉 野卡 | 一分钟注册,轻松订阅海外线上服务

局限性讨论

尽管 Sora 展现了许多能力,但仍存在局限性,例如无法准确模拟某些物理现象。官方主页列举了该模型的其他常见失效模式。

局限性示例

Sora 的能力证明了持续扩大视频模型的规模是一个充满希望的方向,未来将助力物理和数字世界的更精确模拟。

(0)
上一篇 2025年4月20日
下一篇 2025年4月20日

相关推荐