OpenAI Sora概览
母公司:OpenAI
发布时间:2024年12月
类型:文本转视频模型(text-to-video model)
官网介绍:https://openai.com/index/sora/
Sora官网:https://sora.chatgpt.com/explore
OpenAI Sora简介
OpenAI Sora 是由 OpenAI 开发的一款文本到视频的生成模型。该模型能够根据用户提供的文本提示生成短视频片段,并且还可以扩展现有的短视频。Sora 于 2024 年 12 月首次公开亮相,并向 ChatGPT Plus 和 ChatGPT Pro 用户开放。
OpenAI Sora 最新动态
- 2025 年 5 月: OpenAI 宣布计划将 Sora 集成到 ChatGPT 中,允许用户直接从聊天机器人生成 Sora 视频。
- 2024 年 12 月: Sora 正式向公众发布,成为 ChatGPT Plus 和 ChatGPT Pro 用户可用的功能。
- 2024 年 11 月: 一组测试人员在 Hugging Face 上泄露了 Sora 访问的 API 密钥,抗议 OpenAI 将 Sora 用于“艺术洗钱”。OpenAI 在泄露事件公开三小时后撤销了所有访问权限。
- 2024 年 2 月: OpenAI 首次公布 Sora 模型,并分享了一些由其生成的令人印象深刻的视频示例。
OpenAI Sora 概述
Sora 是一款使用扩散模型和 Transformer 架构的文本到视频生成模型. 它首先生成一个看起来像静态噪声的视频,然后逐步去除噪声,最终生成一个与文本提示相符的视频. Sora 可以生成长达一分钟的视频,并保持视觉质量和与用户提示的准确性。
OpenAI Sora主要功能
文本到视频生成: Sora 可以根据文本描述生成视频片段。
图像到视频生成: 可以从静态图像生成动态视频。
视频编辑: 可以扩展现有视频,或填充缺失的视频帧。
高质量视频生成: 可以生成分辨率高达 1080p 的视频,最长可持续 20 秒。
逼真的场景模拟: 能够创建包含多个角色、特定动作和详细背景的复杂场景。
深刻的语言理解: 具备深入的语言理解能力,能够准确理解提示并生成具有鲜明情感表达的角色。
Sora含义
Sora是以日语中“天空”一词命名,以表示其“无限的创造潜力”。
OpenAI Sora技术实现
Sora 是一个扩散变换器——一个去噪潜在扩散模型,其中一个变换器作为去噪器。通过对 3D“块”进行去噪,在潜在空间中生成视频,然后通过视频解压缩器将其转换到标准空间。
Sora 是一种扩散模型,它从看起来像静态噪声的视频开始生成视频,然后通过多个步骤消除噪声来逐渐转换视频。Sora 以 DALL·E 和 GPT 模型的过去研究为基础。它使用了 DALL·E 3 中的重新字幕技术,该技术涉及为视觉训练数据生成高度描述性的字幕。因此,该模型能够更忠实地遵循生成的视频中用户的文本指令。
将视频和图像表示为称为块的较小数据单元的集合,每个块都类似于 GPT 中的令牌。通过统一表示数据的方式,OpenAI可以在比以前更广泛的视觉数据上训练扩散变压器,涵盖不同的持续时间、分辨率和宽高比。
OpenAI Sora 安全措施
OpenAI 采取了多项安全措施来应对 Sora 的潜在滥用风险:
- 红队测试: 与来自误导信息、仇恨内容和偏见等领域的专家合作,对模型进行对抗性测试.
- 内容检测: 开发了用于检测误导内容的工具,例如,可以识别 Sora 生成的视频的检测分类器.
- 内容筛选: 使用文本分类器来过滤和拒绝违反使用政策的文本输入提示.
- 图像分类器: 使用图像分类器来审查生成的视频的每一帧,以确保它符合使用政策.
- 水印: Sora 生成的视频将默认添加可见的水印,以指示其是由 AI 生成的
OpenAI Sora官网
官网地址:https://openai.com/index/sora/
Sora官网:https://sora.chatgpt.com/explore
暂无评论内容