腾讯AI Lab重磅开源SongGeneration：AI音乐生成大模型，多轨合成、风格克隆，媲美商业模型

💡 站外导读：在AI音乐生成领域，音质、音乐性与生成速度的平衡一直是核心挑战。随着短视频、游戏及广告产业对高质量、个性化音乐内容需求的激增，传统生成模型在音轨分离、风格一致性及商用稳定性上显得力不从心。行业亟需能同时实现高保真、多轨可控且支持复杂指令的解决方案，以推动音乐创作从“辅助工具”向“智能共创”演进。腾讯AI Lab开源的SongGeneration大模型，正是在这一背景下应运而生，旨在通过技术创新突破现有瓶颈。

SongGeneration是什么

SongGeneration是腾讯AI Lab推出的AI音乐生成大模型。模型支持解决音乐AIGC领域中的音质、音乐性与生成速度等关键问题，SongGeneration基于LLM-DiT融合架构，显著提升音质表现和生成速度，生成歌曲的质量在多个维度上优于多数开源模型，部分指标媲美商业闭源模型。SongGeneration支持文本控制、多轨合成、风格跟随等功能，满足创作者的可玩性，具备商业应用的稳定性和拓展性。SongGeneration广泛应用在短视频配乐、游戏音效、虚拟人演出、商业广告及个人音乐创作等场景，推动AI音乐创作从“辅助工具”迈向“智能共创”的新阶段。

阅读目录

SongGeneration是什么
SongGeneration的主要功能
SongGeneration的技术原理
SongGeneration的项目地址
SongGeneration的核心优势
SongGeneration的性能表现
SongGeneration的应用场景

📝 站长洞察 (Editor’s Insight)

SongGeneration

SongGeneration的主要功能

文本控制：输入关键词文本，如“开心流行”，AI快速生成对应风格和情绪的完整音乐作品。
风格跟随：上传10秒以上参考音频，支持生成风格一致的全长新曲，涵盖多种流派。
多轨生成：自动生成分离的人声与伴奏轨道，保证旋律、结构、节奏与配器高度匹配。
音色跟随：基于参考音频的音色跟随，实现“音色克隆”级别的人声表现，自然且有情感。

SongGeneration的技术原理

LeLM（Language Model）：混合标记（Mixed Tokens）代表人声和伴奏的组合音频，用在捕捉歌曲的整体结构和节奏，确保人声与伴奏的和谐。双轨标记（Dual-Track Tokens）分别编码人声和伴奏，用在生成高质量的音频细节。LeLM 能并行预测混合标记和双轨标记，避免不同标记类型之间的干扰，提高生成质量和效率。
音乐编解码器（Music Codec）：编码器（Encoder）将音乐音频提取为混合标记和双轨标记。解码器（Decoder）将双轨标记重建为高保真的音乐音频，确保生成的歌曲具有高质量的音频表现。
多偏好对齐（Multi-Preference Alignment）：直接偏好优化（DPO）基于半自动数据构建和 DPO 后训练，处理多样化的人类偏好，提高模型在音乐性、指令遵循和人声与伴奏和谐方面的表现。多维度偏好支持歌词对齐、提示一致性、音乐性等多个维度的偏好对齐，提升生成歌曲的整体质量。
三阶段训练范式：
- 预训练（Pre-training）：在大规模音乐数据上进行预训练，对齐不同输入模态和混合标记。
- 模块扩展训练（Modular Extension Training）：进一步训练 AR 解码器，建模双轨标记，提升音质和音乐性。
- 多偏好对齐（Multi-Preference Alignment）：基于 DPO 后训练，优化模型在多维度偏好上的表现。

SongGeneration的项目地址

GitHub仓库：https://github.com/tencent-ailab/SongGeneration
HuggingFace模型库：https://huggingface.co/tencent/SongGeneration
arXiv技术论文：https://arxiv.org/pdf/2506.07520
在线体验Demo：https://huggingface.co/spaces/tencent/SongGeneration

SongGeneration的核心优势

低比特率音乐编解码：实现25Hz极低码率和0.35kbps超低比特率下的高质量音乐重建，减轻语言模型建模负担。
多类别token并行预测：基于“混合优先，双轨其次”策略，避免token相互干扰，提升音质和音乐性。
多维度人类偏好对齐：对齐音乐性、歌词对齐、提示一致性偏好，提升模型效果和鲁棒性。
三阶段训练范式：预训练、模块化扩展训练、多偏好对齐训练，优化音乐生成效果。

SongGeneration的性能表现

主客观整体测评：在与三款商业模型（Suno v4.5、海绵音乐、Mureka O1）和四款开源模型（YuE、DiffRhythm、ACE-Step、SongGen）的全方位主客观评测对比中，SongGeneration在开源模型中稳居第一，在商业模型中位列前茅，展现出显著的竞争优势。
客观测评（第三方开源模型评测）：在客观测评横向对比中中，SongGeneration在内容欣赏度（CE）、内容实用性（CU）和制作质量（PQ）三个关键维度上均位列榜首，制作复杂度（PC）处于领先位置。
主观评测（普通用户 + 专业音乐人评测）：在主观评测中，SongGeneration在歌词准确度上超越包括Suno在内的众多大模型，体现模型在语音与文本对齐能力上的显著优势，及在内容生成细节处理方面的成熟度。

SongGeneration

SongGeneration的应用场景

音乐创作：SongGeneration为音乐人和制作人提供高质量歌曲草稿，节省创作时间，助力专注核心创作，激发创意。
娱乐产业：在影视、游戏、广告等娱乐领域，SongGeneration快速生成契合需求的配乐，增强作品沉浸感与吸引力，丰富音乐内容。
教育领域：作为音乐教育工具，SongGeneration帮助学生理解音乐基础知识，激发创造力，辅助在线课程提供示例歌曲，提升教学效果。
广告和营销：SongGeneration为广告和品牌生成贴合主题的音乐，提升广告吸引力和品牌认同感，助力品牌营销。
个人娱乐：普通用户用SongGeneration创作个性化歌曲，表达情感，分享社交平台，增添娱乐互动乐趣。

📝 站长洞察 (Editor’s Insight)

SongGeneration的发布标志着AI音乐生成进入“精调商用”新阶段。其核心突破在于将LLM的序列建模能力与DiT的扩散生成优势融合，并通过“混合-双轨”token并行预测策略，在25Hz极低码率下仍保持高保真，这解决了长期以来音质与效率的权衡难题。更值得关注的是其三阶段训练范式：预训练奠定基础，模块化扩展强化细节，最终通过多偏好对齐（DPO）直接优化人类对音乐性、歌词对齐等多维度的主观体验——这使模型不仅“像音乐”，更“懂人心”。从产业视角看，它正降低专业音乐制作门槛，将赋能从广告、游戏到个人创作的长尾场景。随着AIGC从文本、图像迈向音频与视频，腾讯此举或将催化一个更完整、可落地的AI内容生成生态闭环。

腾讯AI Lab重磅开源SongGeneration：AI音乐生成大模型，多轨合成、风格克隆，媲美商业模型

SongGeneration是什么

SongGeneration的主要功能

SongGeneration的技术原理

SongGeneration的项目地址

SongGeneration的核心优势

SongGeneration的性能表现

SongGeneration的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

sCM – OpenAI推出连续时间一致性模型，两步采样生成高质量图像

Moonshine – 实时转录场景、低延时高准确的语音识别模型

Time-MoE – 基于MoE架构的时间序列基础模型

SynthID – DeepMind推出能嵌入数字水印和检测AI生成内容的工具

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

SongGeneration是什么

SongGeneration的主要功能

SongGeneration的技术原理

SongGeneration的项目地址

SongGeneration的核心优势

SongGeneration的性能表现

SongGeneration的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复