AIBetas消息,11月16日,Meta宣布为 Facebook 和 Instagram 推出两款基于 AI 的图像编辑工具——Emu Edit & Emu Video,适用领域包括照片和视频。Meta表示,这是一项基于纯文本指令的受控图像编辑的新研究,实用基于扩散模型的文本到视频生成的方法。
Emu Video: 一种简单分解的方法用于高质量视频生成
通过利用Meta的Emu模型,利用Emu Video提出了一种基于扩散模型的文本到视频生成的简单方法。这是一个统一的视频生成任务架构,可以响应多种输入:仅文本,仅图像,以及文本和图像。过程分为两个步骤:首先,根据文本提示生成图像,然后根据文本和生成的图像生成视频。这种“分解”的或分割的视频生成方法能够有效地训练视频生成模型。
与之前需要深层级联模型的工作(例如,Make-A-Video需要五个模型)不同,Meta最先进方法简单易实施,仅使用两个扩散模型生成512×512分辨率、四秒长、每秒16帧的视频。在人类评估中,与之前的工作相比,视频生成被强烈偏好——实际上,基于质量和对文本提示的忠实度,这个模型分别被96%和85%的受访者偏好于Make-A-Video。同时表示,同一个模型可以根据文本提示“动画化”用户提供的图像,相较于之前的内容有很大的改善。
Emu Edit: 通过识别和生成任务进行精确的图像编辑
Emu Edit能够通过指令进行自由形式编辑,涵盖了诸如局部和全局编辑、移除和添加背景、颜色和几何变换、检测和分割等任务。当前的方法通常在各种编辑任务上过度修改或表现不佳。Meta认为,主要目标不应该仅仅是产生一个“可信”的图像。相反,模型应该专注于精确地只改变与编辑请求相关的像素。与今天许多生成性AI模型不同,Emu Edit精确地遵循指令,确保与指令无关的输入图像中的像素保持不变。例如,当在棒球帽上添加文字“Aloha!”时,帽子本身应保持不变。
据介绍,Emu Edit在执行详细编辑指令方面有巨大潜力,为了训练模型,Meta表示开发了一个包含1000万合成样本的数据集,每个样本包括一个输入图像、一个要执行的任务描述和一个目标输出图像。表示这是迄今为止同类中最大的数据集。
Emu Edit和Emu Video采用相同的基础模型,不过,Meta 公司并未透露何时发布这两款工具,仅表示目前仅用于基础研究。
Emu Video官网
官网:https://emu-video.metademolab.com/
暂无评论内容