SeedEdit 3.0

SeedEdit 3.0 是一款由字节跳动 Seed 团队开发的先进的生成式图像编辑模型。它与文本到图像模型 Seedream 3.0 协同工作，旨在提供快速、高质量的图像编辑能力，并显著提升了对编辑指令的遵循能力以及对真实图像中内容（例如 ID/IP）的保留能力。

SeedEdit 3.0 最新进展

SeedEdit 3.0 已于2025年6月6日正式发布。根据相关报告，该模型在保持图像主体细节、处理背景以及遵循编辑指令方面取得了显著进展，极大地提高了图像编辑的可用性和效率。目前，SeedEdit 3.0 的技术报告已经公开，并且已开始在 Imdream Web 平台进行测试。此外，未来还将在 DouBao 应用中上线。

SeedEdit 3.0 概述

SeedEdit 3.0 是在 Seedream 3.0 的基础上开发的。通过引入多样化的数据融合方法和特定的奖励模型，它解决了以往图像编辑模型在保持主体和背景以及遵循指令方面的不足。 SeedEdit 3.0 能够处理和生成 4K 分辨率的图像，在精细处理编辑区域的同时，高保真地保留非编辑区域的其他信息。在肖像编辑、背景改变以及透视和光影转换等复杂场景下，SeedEdit 3.0 展现出卓越的能力。例如，在移除图像中不需要的行人时，SeedEdit 3.0 不仅能准确识别和移除无关的人物，还能移除他们的阴影，展现了其强大的细节处理能力。

SeedEdit 3.0 模型

SeedEdit 3.0 模型架构包含两个主要组成部分。底层是一个视觉语言模型 (VLM)，用于推断图像的高层语义信息。顶层是一个因果扩散网络 (causal diffusion network)，它复用扩散过程作为图像编码器以捕捉精细的细节。在这两个组件之间，引入了一个连接器模块 (connector module)。其目的是将编辑意图——例如任务类型和编辑标签信息——与扩散模型进行对齐。

SeedEdit 3.0 历史与版本

SeedEdit 3.0 是 SeedEdit 系列模型的最新版本，显著优于之前的版本，尤其是在真实图像的编辑性能、面部/身份保留、文本编辑质量、提示理解、动态运动等方面。SeedEdit 1.6 是 SeedEdit 3.0 之前的版本。

SeedEdit（初代）: 最初，SeedEdit 通过将文本到图像（T2I）生成模型视为一个弱编辑模型，通过生成新图像来达到“编辑”的目的，然后将其提炼并对齐到一个图像条件编辑模型。
SeedEdit 1.6: SeedEdit 1.6 是 SeedEdit 的一个早期版本。
SeedEdit 3.0: SeedEdit 3.0 在之前版本的基础上进行了重大改进，特别是在真实图像编辑性能、面部/身份保留、文本编辑质量、prompt 理解和动态 motion 等方面。

SeedEdit 3.0 关键特性

增强的数据管理流程： 采用了增强的数据管理流程，该流程基于元信息范式和元信息嵌入策略，有助于混合来自多个数据源的图像，从而有效扩展编辑数据。
联合学习流程： 模型引入了用于计算扩散损失和奖励损失的联合学习流程，进一步增强了图像的一致性。
高可用性率： 在真实图像编辑测试基准上，SeedEdit 3.0 在多个方面实现了最佳权衡，可用性率高达56.1%，显著高于 SeedEdit 1.6 (38.4%)、GPT4o (37.1%) 和 Gemini 2.0 (30.3%)。
高分辨率图像处理： 能够处理和生成 4K 分辨率的图像。
精细和自然的编辑： 在处理编辑区域时表现出色，并高保真地保留非编辑区域的信息。
改进的文本渲染能力： 能够处理双语文本和字符级编辑。
加速推理： 通过多项加速技术，Seedream 3.0（与 SeedEdit 3.0 协同工作）能够显著降低推理成本。
高效的图像生成： Seedream 3.0 可以在大约3秒内生成 1K 分辨率的图像。

SeedEdit 3.0 技术细节

模型架构： SeedEdit 3.0 构建在 SeedEdit 模型架构的基础上，该架构结合了视觉-语言模型 (VLM) 和因果扩散网络。
与 Seedream 3.0 集成： SeedEdit 3.0 采用 Seedream 3.0 作为其文本到图像模型，这显著提升了编辑性能，特别是在保留输入图像细节方面。
任务嵌入： 引入独立的任务嵌入，以更有效地结合数据集中的任务标签和标记信息。
多纵横比训练： 修改了训练管道以支持不同纵横比和分辨率的图像批处理。
与文本到图像模型联合训练： 在编辑数据和文本到图像数据上联合训练模型，以提高高分辨率图像的编辑能力。
推理加速： 结合了多种加速技术，例如 CFG 蒸馏和自适应时间步采样，以实现更快的推理速度。