OpenAI Sora 视频生成模型技术报告

导读:OpenAI 最近发布了正在封闭测试的 Sora,这是一个文本生成图像的大模型产品。本文将详细介绍其生成模型技术报告。

图片

1. Sora 的技术背景

OpenAI 探索了视频数据生成模型的大规模训练。具体来说,研究人员在可变持续时间、分辨率和宽高比的视频和图像上联合训练了一个文本条件扩散图像模型。利用对视频和图像潜在代码的时空碎片进行变压器架构的操作,Sora 能够生成长达一分钟的高质量视频。

OpenAI 认为,新展示的结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有前景的途径。

2. 研究重点

本技术报告的重点包括:
1. 将所有类型的视线数据转化为统一表示,从而能够大规模生成模型的方法。
2. 对 Sora 的能力进行定性评估。

遗憾的是,OpenAI 的报告不包含模型和训练的细节。

3. 视频生成的技术进展

近年来,视频生成已成为 AI 领域的重要方向。许多研究集中在视频数据的生成建模方向,包括循环网络、生成对抗网络、自回归变压器和扩散模型。Sora 是一个通用模型,能够生成不同的时长、长宽比和分辨率的视频,最多可达一分钟的高清视频。

3.1 视窗数据转为站点

大型语言模型通过在互联网规模的数据上进行训练,获得了出色的通用能力。OpenAI 从这一点汲取了灵感,研究人员们巧妙地解决了文本的多种模式——代码、数学和各种自然语言统一的矛盾。

在这项工作中,OpenAI 考虑了动态数据模型如何继承方法的好处。Sora 通过动态补丁的方式进行训练,证明了补丁是动态数据模型的有效表示。

图片

4. 时空潜在补丁

给定一个压缩的输入视频,OpenAI 提取一系列时空补丁,充当 Transformer 的令牌。该方案也适用于图像,因为图像可视为单帧视频。Sora 能够对不同的分辨率、持续时间和长宽比的视频和图像进行训练。

5. 用于视频生成的扩展变压器

Sora 是一个扩散模型,给定输入噪声补丁(以及文本提示等调节信息),它被训练来预测原始的“干净”补丁。Sora 在多个领域展示了卓越的缩放特性,包括语言建模和计算机视觉。

图片

6. 可变的持续时间、分辨率、宽高比

Sora 可以采样宽屏 1920x1080p 视频、垂直 1080×1920 视频以及介于两者之间的所有视频。这使得 Sora 能够直接以其原生宽高比为不同设备创建内容。

图片

7. 语言理解

训练文本到视频生成系统需要大量带有相应文本字幕的视频。我们将 DALL·E 中引入的重新字幕技术应用于视频。我们发现,对高度描述性视频字幕进行训练可以提高文本保真度以及视频的整体质量。

图片

8. Sora 的图像生成能力

Sora 还能够生成图像,分辨率最高可达 2048×2048。

图片

9. 结论

Sora 的能力表明,视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有前景的道路。

👉 野卡 | 一分钟注册,轻松订阅海外线上服务

来源:专知/人工智能学家

(0)
上一篇 2025年4月11日
下一篇 2025年4月11日

相关推荐