Ads

Seed LiveInterpret: 端到端同声传译技术

Seed LiveInterpret: 端到端同声传译技术

Seed LiveInterpret 概述

Seed LiveInterpret 是一项由字节 ByteDance Seed 团队开发的端到端同声传译 (SI) 技术。该系统旨在提供高保真、超低延迟的语音到语音翻译,并具备语音克隆功能。 Seed LiveInterpret 2.0 作为该技术的最新版本,通过其新颖的双工语音到语音理解-生成框架,解决了产品级自动同声传译系统长期存在的挑战。

最新进展 : Seed LiveInterpret 2.0发布

近期,ByteDance 发布了 Seed LiveInterpret 2.0,该版本在同声传译领域取得了显著突破。通过大规模预训练和强化学习,Seed LiveInterpret 2.0 在翻译准确性和延迟之间实现了显著更好的平衡。 人工翻译员验证结果显示,在复杂场景下,该模型的正确率超过了70%。

值得注意的是,Seed LiveInterpret 2.0 在翻译质量上显著优于商业同声传译解决方案,同时将克隆语音的平均延迟从近10秒缩短至接近实时的3秒,降低了约70%,大大提高了实用性。

Seed LiveInterpret 2.0 模型测评

结果显示,在语音到文本同传任务中,Seed LiveInterpret 2.0 中英互译平均翻译质量的人类评分达到 74.8(评估译文准确率,满分 100) ,较排名第二的基准系统(47.3 分)超出 58%。

在语音到语音任务中,业界仅 3 个翻译系统支持该能力,其中 Seed LiveInterpret 2.0 中英互译平均翻译质量达到 66.3 分(除评估译文准确率,还评估语音输出时延、语速、发音、流畅性等指标,满分 100),远超其他基准系统,达到接近专业真人同传的水平。同时,大部分基准系统也不支持声音复刻功能。

 Seed LiveInterpret 2.0

语音到文本 (S2T) 以及语音到语音 (S2S) 人工评测翻译质量和响应效率(部分商业翻译系统以字母指代)

在延迟表现上,Seed LiveInterpret 2.0 在语音到文本场景中,输出首字平均延迟仅 2.21 秒,在语音到语音场景中,输出延时仅 2.53 秒,做到了对翻译质量以及时延的均衡。

 Seed LiveInterpret 2.0

中译英英译中,语音到文本 (S2T) 以及语音到语音 (S2S) 人工评测翻译准确率和时延

Seed LiveInterpret 2.0主要特点

Seed LiveInterpret 2.0 的主要特点包括:

  • 端到端同声传译: 整个翻译过程从语音输入到语音输出均为自动化处理,无需人工干预。
  • 高保真语音到语音生成: 能够生成高质量的翻译语音。
  • 超低延迟: 将翻译延迟显著降低至接近实时水平,提高了用户体验。
  • 语音克隆功能: 能够复制原始说话者的声音特征,使翻译听起来更自然。
  • 双工语音到语音理解-生成框架: 创新的技术框架,有效解决了同声传译面临的挑战。
  • 大规模预训练和强化学习: 通过先进的机器学习方法,不断提升模型性能。

Seed LiveInterpret 2.0 论文

Seed LiveInterpret 2.0 体验

结论

Seed LiveInterpret 2.0 作为字节 ByteDance Seed 团队的最新成果,在同声传译技术领域展现出巨大的潜力。其高保真、超低延迟的语音到语音翻译以及语音克隆功能,使其在产品级应用中具有显著优势。 随着技术的不断发展,Seed LiveInterpret 有望为跨语言交流带来更流畅、自然的体验。

© 版权声明
THE END
喜欢就支持一下吧
分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情

    暂无评论内容