Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 腾讯AI Lab重磅开源SongGeneration:AI音乐生成大模型,多轨合成、风格克隆,媲美商业模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 腾讯AI Lab重磅开源SongGeneration:AI音乐生成大模型,多轨合成、风格克隆,媲美商业模型
AI 工具AIGC 资讯

腾讯AI Lab重磅开源SongGeneration:AI音乐生成大模型,多轨合成、风格克隆,媲美商业模型

站外新闻
最近更新: 2026年6月7日 下午8:25
AIGC AI音乐生成 SongGeneration 腾讯AI Lab
SHARE

💡 站外导读:在AI音乐生成领域,音质、音乐性与生成速度的平衡一直是核心挑战。随着短视频、游戏及广告产业对高质量、个性化音乐内容需求的激增,传统生成模型在音轨分离、风格一致性及商用稳定性上显得力不从心。行业亟需能同时实现高保真、多轨可控且支持复杂指令的解决方案,以推动音乐创作从“辅助工具”向“智能共创”演进。腾讯AI Lab开源的SongGeneration大模型,正是在这一背景下应运而生,旨在通过技术创新突破现有瓶颈。

SongGeneration是什么

SongGeneration是腾讯AI Lab推出的AI音乐生成大模型。模型支持解决音乐AIGC领域中的音质、音乐性与生成速度等关键问题,SongGeneration基于LLM-DiT融合架构,显著提升音质表现和生成速度,生成歌曲的质量在多个维度上优于多数开源模型,部分指标媲美商业闭源模型。SongGeneration支持文本控制、多轨合成、风格跟随等功能,满足创作者的可玩性,具备商业应用的稳定性和拓展性。SongGeneration广泛应用在短视频配乐、游戏音效、虚拟人演出、商业广告及个人音乐创作等场景,推动AI音乐创作从“辅助工具”迈向“智能共创”的新阶段。

阅读目录
  • SongGeneration是什么
  • SongGeneration的主要功能
  • SongGeneration的技术原理
  • SongGeneration的项目地址
  • SongGeneration的核心优势
  • SongGeneration的性能表现
  • SongGeneration的应用场景
      • 📝 站长洞察 (Editor’s Insight)

SongGeneration

SongGeneration的主要功能

  • 文本控制:输入关键词文本,如“开心 流行”,AI快速生成对应风格和情绪的完整音乐作品。
  • 风格跟随:上传10秒以上参考音频,支持生成风格一致的全长新曲,涵盖多种流派。
  • 多轨生成:自动生成分离的人声与伴奏轨道,保证旋律、结构、节奏与配器高度匹配。
  • 音色跟随:基于参考音频的音色跟随,实现“音色克隆”级别的人声表现,自然且有情感。

SongGeneration的技术原理

  • LeLM(Language Model):混合标记(Mixed Tokens)代表人声和伴奏的组合音频,用在捕捉歌曲的整体结构和节奏,确保人声与伴奏的和谐。双轨标记(Dual-Track Tokens)分别编码人声和伴奏,用在生成高质量的音频细节。LeLM 能并行预测混合标记和双轨标记,避免不同标记类型之间的干扰,提高生成质量和效率。
  • 音乐编解码器(Music Codec):编码器(Encoder)将音乐音频提取为混合标记和双轨标记。解码器(Decoder)将双轨标记重建为高保真的音乐音频,确保生成的歌曲具有高质量的音频表现。
  • 多偏好对齐(Multi-Preference Alignment):直接偏好优化(DPO)基于半自动数据构建和 DPO 后训练,处理多样化的人类偏好,提高模型在音乐性、指令遵循和人声与伴奏和谐方面的表现。多维度偏好支持歌词对齐、提示一致性、音乐性等多个维度的偏好对齐,提升生成歌曲的整体质量。
  • 三阶段训练范式:
    • 预训练(Pre-training):在大规模音乐数据上进行预训练,对齐不同输入模态和混合标记。
    • 模块扩展训练(Modular Extension Training):进一步训练 AR 解码器,建模双轨标记,提升音质和音乐性。
    • 多偏好对齐(Multi-Preference Alignment):基于 DPO 后训练,优化模型在多维度偏好上的表现。

SongGeneration的项目地址

  • GitHub仓库:https://github.com/tencent-ailab/SongGeneration
  • HuggingFace模型库:https://huggingface.co/tencent/SongGeneration
  • arXiv技术论文:https://arxiv.org/pdf/2506.07520
  • 在线体验Demo:https://huggingface.co/spaces/tencent/SongGeneration

SongGeneration的核心优势

  • 低比特率音乐编解码:实现25Hz极低码率和0.35kbps超低比特率下的高质量音乐重建,减轻语言模型建模负担。
  • 多类别token并行预测:基于“混合优先,双轨其次”策略,避免token相互干扰,提升音质和音乐性。
  • 多维度人类偏好对齐:对齐音乐性、歌词对齐、提示一致性偏好,提升模型效果和鲁棒性。
  • 三阶段训练范式:预训练、模块化扩展训练、多偏好对齐训练,优化音乐生成效果。

SongGeneration的性能表现

  • 主客观整体测评:在与三款商业模型(Suno v4.5、海绵音乐、Mureka O1)和四款开源模型(YuE、DiffRhythm、ACE-Step、SongGen)的全方位主客观评测对比中,SongGeneration在开源模型中稳居第一,在商业模型中位列前茅,展现出显著的竞争优势。
  • 客观测评(第三方开源模型评测):在客观测评横向对比中中,SongGeneration在内容欣赏度(CE)、内容实用性(CU)和制作质量(PQ)三个关键维度上均位列榜首,制作复杂度(PC)处于领先位置。
  • 主观评测(普通用户 + 专业音乐人评测):在主观评测中,SongGeneration在歌词准确度上超越包括Suno在内的众多大模型,体现模型在语音与文本对齐能力上的显著优势,及在内容生成细节处理方面的成熟度。

SongGeneration

SongGeneration的应用场景

  • 音乐创作:SongGeneration为音乐人和制作人提供高质量歌曲草稿,节省创作时间,助力专注核心创作,激发创意。
  • 娱乐产业:在影视、游戏、广告等娱乐领域,SongGeneration快速生成契合需求的配乐,增强作品沉浸感与吸引力,丰富音乐内容。
  • 教育领域:作为音乐教育工具,SongGeneration帮助学生理解音乐基础知识,激发创造力,辅助在线课程提供示例歌曲,提升教学效果。
  • 广告和营销:SongGeneration为广告和品牌生成贴合主题的音乐,提升广告吸引力和品牌认同感,助力品牌营销。
  • 个人娱乐:普通用户用SongGeneration创作个性化歌曲,表达情感,分享社交平台,增添娱乐互动乐趣。

📝 站长洞察 (Editor’s Insight)

SongGeneration的发布标志着AI音乐生成进入“精调商用”新阶段。其核心突破在于将LLM的序列建模能力与DiT的扩散生成优势融合,并通过“混合-双轨”token并行预测策略,在25Hz极低码率下仍保持高保真,这解决了长期以来音质与效率的权衡难题。更值得关注的是其三阶段训练范式:预训练奠定基础,模块化扩展强化细节,最终通过多偏好对齐(DPO)直接优化人类对音乐性、歌词对齐等多维度的主观体验——这使模型不仅“像音乐”,更“懂人心”。从产业视角看,它正降低专业音乐制作门槛,将赋能从广告、游戏到个人创作的长尾场景。随着AIGC从文本、图像迈向音频与视频,腾讯此举或将催化一个更完整、可落地的AI内容生成生态闭环。

GLM-Z1-32B – 智谱开源的新一代推理模型
DeepCoder-14B-Preview – Agentica 联合 Together AI 开源的代码生成模型
商汤开源空间智能大模型SenseNova-SI:超越GPT-5,定义AI理解三维世界新标准
Almowafir Gift Hunter
Etcetera AI
TAGGED:AIGCAI音乐生成SongGeneration腾讯AI Lab
分享
Email 复制链接 打印
Share
上一篇 快手OneRec:颠覆传统推荐!端到端生成式AI系统引爆观看时长与GMV
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

快手OneRec:颠覆传统推荐!端到端生成式AI系统引爆观看时长与GMV
AI 工具 AIGC 资讯
Kimi-Researcher:月之暗面端到端强化学习Agent,深度研究基准测试超Claude 4 Opus
AI 工具 AIGC 资讯
华为盘古大模型5.5震撼发布:7180亿参数Ultra MoE领衔,五大模型重塑产业智能
AI 工具 AIGC 资讯
腾讯清华重磅开源MindOmni:强化学习驱动的多模态推理生成模型,重塑视觉AI边界
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

OpenAI发布GPT-5.3 Instant:免费轻量模型,告别啰嗦说教,联网搜索、专业咨询体验大升级

站外新闻
chatgpt GPT-5.3 Instant openai 轻量级模型
AIGC 资讯

FlexiAct – 清华联合腾讯推出的动作迁移模型

站外新闻
AIGC 资讯

Chat2SVG – 文本描述实现高质量矢量图形的生成框架

站外新闻
AIGC 资讯

SepLLM – 基于分隔符压缩加速大语言模型的高效框架

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.