Ads

SongGeneration – 腾讯AI Lab 音乐大模型

SongGeneration – 腾讯AI Lab 音乐大模型

SongGeneration 是什么?

腾讯AI Lab推出并开源音乐生成大模型SongGeneration,专注解决AIGC音乐中音质、音乐性与生成速度这三大难题,基于LLM-DiT的融合架构,模型在保持生成速度的同时,显著提升了音质表现,生成歌曲准确度相较部分商业闭源模型表现出相当甚至更优的质量,同时在整体表现、旋律、伴奏、音质与结构等维度也优于现有多数开源模型。

SongGeneration模型还支持文本控制、多轨合成与风格跟随等功能,既满足面向C端创作者的可玩性,又兼具B端的稳定性与拓展性,构建出面向未来的音乐AI生产力工具。

图片[1] - SongGeneration – 腾讯AI Lab 音乐大模型
图片[2] - SongGeneration – 腾讯AI Lab 音乐大模型

SongGeneration 性能表现

相较于传统基于规则或小型模型的方式,基于大模型的音乐生成模型在旋律的长程连贯性、潜在风格迁移能力以及音色建模的表达维度上,展现出更强的泛化能力和生成潜力。AI音乐创作正从过去的“辅助工具”迈向“智能共创”的新阶段,被广泛应用于短视频配乐、游戏音效、虚拟人演出、商业广告以及个人音乐创作等场景。

SongGeneration预期目标分为技术与应用两个层面:在技术层面,致力于实现业内领先的音质表现、音乐性与生成速度,支持多语种歌词输入、一键式歌曲生成、风格迁移等任务,全面适配中英文流行、嘻哈、古风、电子等多样化曲风;在应用层面,推出面向开源社区的友好版本,广泛赋能内容创作平台、虚拟人项目、游戏厂商以及音乐人创作流程,构建开放、灵活、可持续的音乐AI生态系统。SongGeneration音乐大模型的推出不仅代表着技术能力的跃升,更是对“人人皆可创作”这一音乐未来愿景的坚实回应与有力推动。

相较于传统基于规则或小型模型的方式,基于大模型的音乐生成模型在旋律的长程连贯性、潜在风格迁移能力以及音色建模的表达维度上,展现出更强的泛化能力和生成潜力。AI音乐创作正从过去的“辅助工具”迈向“智能共创”的新阶段,被广泛应用于短视频配乐、游戏音效、虚拟人演出、商业广告以及个人音乐创作等场景。

SongGeneration预期目标分为技术与应用两个层面:在技术层面,致力于实现业内领先的音质表现、音乐性与生成速度,支持多语种歌词输入、一键式歌曲生成、风格迁移等任务,全面适配中英文流行、嘻哈、古风、电子等多样化曲风;在应用层面,推出面向开源社区的友好版本,广泛赋能内容创作平台、虚拟人项目、游戏厂商以及音乐人创作流程,构建开放、灵活、可持续的音乐AI生态系统。

SongGeneration音乐大模型的推出不仅代表着技术能力的跃升,更是对“人人皆可创作”这一音乐未来愿景的坚实回应与有力推动。

SongGeneration 主要功能

  • 文本控制:用户仅需输入关键词文本(如“开心 流行”、“激烈 摇滚”)即可实现风格与情绪控制,SongGeneration会基于输入文本生成高质量的完整音乐作品。
  • 风格跟随:用户可自行上传10秒以上的参考音频,SongGeneration会自动生成风格一致的全长新曲,覆盖流行、摇滚、中国风、“神曲”等多种流派。生成歌曲在保持风格一致性的同时,拥有较好的音乐性表现。
  • 多轨生成:SongGeneration能够自动生成分离的人声与伴奏轨道,同时保证旋律、结构、节奏与配器的高度匹配。
  • 音色跟随:SongGeneration支持基于参考音频的音色跟随功能,生成歌曲具备“音色克隆”级别的人声表现,听感自然、音质出众的同时,兼具卓越的情感表现力。

SongGeneration 技术方案

SongGeneration训练架构包含数据管线和生成模型两部分。首先SongGeneration搭建了一套包含了音伴分离、结构分析、歌词识别等模块的音乐数据管线,通过管线可以从原始音频中得到准确的歌词数据,同时获得结构、曲风、音质等标签数据,然后把这些数据送入到生成模型中进行训练。

图片[3] - SongGeneration – 腾讯AI Lab 音乐大模型

SongGeneration训练架构包含数据管线和生成模型两部分。首先SongGeneration搭建了一套包含了音伴分离、结构分析、歌词识别等模块的音乐数据管线,通过管线可以从原始音频中得到准确的歌词数据,同时获得结构、曲风、音质等标签数据,然后把这些数据送入到生成模型中进行训练。

图片[4] - SongGeneration – 腾讯AI Lab 音乐大模型

SongGeneration 特点

1、低比特率音乐编解码

Token 作为音乐生成系统的核心桥梁,不仅承担着语言模型的预测目标,还直接决定了高质量双通道音乐的还原效果。鉴于语言模型在长序列预测过程中容易产生幻觉现象,并且预测误差会随序列长度的增加而累积,因此,编解码器的设计需在保证音乐信息高质量重建的前提下,尽可能降低码率和比特率,从而减轻语言模型的预测难度,并提升音乐还原的整体质量。

2、低比特率音乐编解码

Token 作为音乐生成系统的核心桥梁,不仅承担着语言模型的预测目标,还直接决定了高质量双通道音乐的还原效果。鉴于语言模型在长序列预测过程中容易产生幻觉现象,并且预测误差会随序列长度的增加而累积,因此,编解码器的设计需在保证音乐信息高质量重建的前提下,尽可能降低码率和比特率,从而减轻语言模型的预测难度,并提升音乐还原的整体质量。

3、低比特率音乐编解码

Token 作为音乐生成系统的核心桥梁,不仅承担着语言模型的预测目标,还直接决定了高质量双通道音乐的还原效果。鉴于语言模型在长序列预测过程中容易产生幻觉现象,并且预测误差会随序列长度的增加而累积,因此,编解码器的设计需在保证音乐信息高质量重建的前提下,尽可能降低码率和比特率,从而减轻语言模型的预测难度,并提升音乐还原的整体质量。

4、低比特率音乐编解码

Token 作为音乐生成系统的核心桥梁,不仅承担着语言模型的预测目标,还直接决定了高质量双通道音乐的还原效果。鉴于语言模型在长序列预测过程中容易产生幻觉现象,并且预测误差会随序列长度的增加而累积,因此,编解码器的设计需在保证音乐信息高质量重建的前提下,尽可能降低码率和比特率,从而减轻语言模型的预测难度,并提升音乐还原的整体质量。

SongGeneration 评测结果

● 客观工具评测(第三方开源模型评测):

  • 制作质量(PQ):侧重于音频的技术质量,而非主观感受。评估要素包括清晰度与保真度、动态范围、频率分布以及空间化表现等。
  • 制作复杂度(PC):关注音频场景的复杂性,通常通过音频成分的数量来衡量。
  • 内容欣赏度(CE):涉及音频的情感冲击力、艺术技巧、艺术表现力以及听众体验等方面。
  • 内容实用性(CU):评估该音频作为内容创作素材的可用性或使用可能性。

● 主观人工评测:

  • 旋律(MEL):评估旋律的动听程度、情感表达能力以及音乐线条感,是否与整体风格或预期相一致。
  • 伴奏(HAM):伴奏的色彩丰富度、配器的多样性与协调性,以及与主旋律之间的融合程度。
  • 结构(SSC):乐句起止与过渡是否自然清晰、段落结构的可识别性、相似段落的合理重复,以及节奏的稳定性。
  • 音质(AQ):音频是否饱满、清晰,是否存在杂音或底噪,同时考察人声与各类乐器的辨识度及其音色还原程度。
  • 歌词准确度(LYC):歌词与演唱内容的匹配度,包括是否存在多字、少字、歌词错配等问题,以及音乐段落中是否出现不自然的重复或机械循环。
  • 整体表现(OVL):综合感知旋律、伴奏、音乐结构、音质表现与歌词准确度等多个要素后,对音乐作品产生的总体喜爱程度。
图片[5] - SongGeneration – 腾讯AI Lab 音乐大模型
图片[6] - SongGeneration – 腾讯AI Lab 音乐大模型

SongGeneration 体验方式和地址

SongGeneration 使用指南

图片[7] - SongGeneration – 腾讯AI Lab 音乐大模型
© 版权声明
THE END
喜欢就支持一下吧
分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情

    暂无评论内容