OpenAI Sora AI视频生成工具

OpenAI Sora概览

母公司：OpenAI

发布时间：2024年12月

类型：文本转视频模型（text-to-video model）

Sora官网：https://sora.chatgpt.com/explore

OpenAI Sora简介

OpenAI Sora 是由 OpenAI 开发的一款文本到视频的生成模型。该模型能够根据用户提供的文本提示生成短视频片段，并且还可以扩展现有的短视频。Sora 于 2024 年 12 月首次公开亮相，并向 ChatGPT Plus 和 ChatGPT Pro 用户开放。

OpenAI Sora 最新动态

2025 年 5 月： OpenAI 宣布计划将 Sora 集成到 ChatGPT 中，允许用户直接从聊天机器人生成 Sora 视频。
2024 年 12 月： Sora 正式向公众发布，成为 ChatGPT Plus 和 ChatGPT Pro 用户可用的功能。
2024 年 11 月： 一组测试人员在 Hugging Face 上泄露了 Sora 访问的 API 密钥，抗议 OpenAI 将 Sora 用于“艺术洗钱”。OpenAI 在泄露事件公开三小时后撤销了所有访问权限。
2024 年 2 月： OpenAI 首次公布 Sora 模型，并分享了一些由其生成的令人印象深刻的视频示例。

OpenAI Sora 概述

Sora 是一款使用扩散模型和 Transformer 架构的文本到视频生成模型. 它首先生成一个看起来像静态噪声的视频，然后逐步去除噪声，最终生成一个与文本提示相符的视频. Sora 可以生成长达一分钟的视频，并保持视觉质量和与用户提示的准确性。

OpenAI Sora主要功能

文本到视频生成： Sora 可以根据文本描述生成视频片段。

图像到视频生成： 可以从静态图像生成动态视频。

视频编辑： 可以扩展现有视频，或填充缺失的视频帧。

高质量视频生成： 可以生成分辨率高达 1080p 的视频，最长可持续 20 秒。

逼真的场景模拟： 能够创建包含多个角色、特定动作和详细背景的复杂场景。

深刻的语言理解： 具备深入的语言理解能力，能够准确理解提示并生成具有鲜明情感表达的角色。

Sora含义

Sora是以日语中“天空”一词命名，以表示其“无限的创造潜力”。

OpenAI Sora技术实现

Sora 是一个扩散变换器——一个去噪潜在扩散模型，其中一个变换器作为去噪器。通过对 3D“块”进行去噪，在潜在空间中生成视频，然后通过视频解压缩器将其转换到标准空间。

Sora 是一种扩散模型，它从看起来像静态噪声的视频开始生成视频，然后通过多个步骤消除噪声来逐渐转换视频。Sora 以 DALL·E 和 GPT 模型的过去研究为基础。它使用了 DALL·E 3 中的重新字幕技术，该技术涉及为视觉训练数据生成高度描述性的字幕。因此，该模型能够更忠实地遵循生成的视频中用户的文本指令。

将视频和图像表示为称为块的较小数据单元的集合，每个块都类似于 GPT 中的令牌。通过统一表示数据的方式，OpenAI可以在比以前更广泛的视觉数据上训练扩散变压器，涵盖不同的持续时间、分辨率和宽高比。