SongGen – 上海 AI Lab 和北航、港中文推出的歌曲生成模型

最近更新: 2026年6月8日下午12:40

SongGen是什么

SongGen是上海AI Lab、北京航空航天大学和香港中文大学推出的单阶段自回归Transformer模型，用在从文本生成歌曲。SongGen基于歌词和描述性文本（如乐器、风格、情感等）作为输入，支持混合模式和双轨模式两种输出方式，分别用于直接生成人声与伴奏的混合音频，及分别合成人声和伴奏方便后期编辑。SongGen基于创新的音频标记化策略和训练方法，显著提升生成歌曲的自然度和人声清晰度，解决传统多阶段方法中训练和推理流程繁琐的问题。SongGen的开源性和高质量数据集为未来音乐生成研究提供了新的基准。

阅读目录

SongGen是什么
SongGen的主要功能
SongGen的技术原理
SongGen的项目地址
SongGen的应用场景

SongGen

SongGen的主要功能

细粒度控制：用户基于歌词、描述性文本（如乐器、风格、情感等）对生成的歌曲进行控制。
声音克隆：支持基于三秒参考音频实现声音克隆，使生成的歌曲具有特定歌手的音色。
两种生成模式：提供“混合模式”（直接生成人声和伴奏的混合音频）和“双轨模式”（分别合成人声和伴奏，便于后期编辑）。
高质量音频输出：基于优化的音频标记化和训练策略，生成具有高自然度和清晰人声的歌曲。

SongGen的技术原理

自回归生成框架：基于自回归Transformer解码器，将歌词和描述性文本编码为条件输入，用交叉注意力机制引导音频标记的生成。
音频标记化：用X-Codec将音频信号编码为离散的音频标记，基于代码本延迟模式处理多代码序列，支持高效生成。
混合模式与双轨模式：
- 混合模式：直接生成混合音频标记，引入辅助人声音频标记预测目标（Mixed Pro），增强人声清晰度。
- 双轨模式：基于平行或交错模式分别生成人声和伴奏标记，确保两者在帧级别上的对齐，提升生成质量。
条件输入编码：
- 歌词编码：VoiceBPE分词器将歌词转换为音素级标记，基于小型Transformer编码器提取关键发音信息。
- 声音编码：MERT模型提取参考音频的音色特征，支持声音克隆。
- 文本描述编码：FLAN-T5模型将描述性文本编码为特征向量，提供音乐风格、情感等控制。
训练策略：
- 多阶段训练：包括模态对齐、无参考声音支持和高质量微调，逐步提升模型性能。
- 课程学习：逐步调整代码本损失权重，优化模型对音频细节的学习。
- 数据预处理：开发自动化数据预处理管道，从多个数据源收集音频，分离人声和伴奏，生成高质量的歌词和描述性文本数据集。

SongGen的项目地址

GitHub仓库：https://github.com/LiuZH-19/SongGen
arXiv技术论文：https://arxiv.org/pdf/2502.13128

SongGen的应用场景

音乐创作：快速生成歌曲雏形，探索不同风格，为歌词生成伴奏，加速创作流程。
视频配乐：为短视频、广告、电影生成背景音乐，根据内容调整风格，提升视觉效果。
教育辅助：帮助学生理解音乐创作，通过生成歌曲学习语言发音，激发创造力。
个性化体验：根据用户输入生成定制歌曲，用声音克隆实现“个人专属歌手”，增强娱乐性。
商业应用：为品牌生成专属音乐，替代版权受限的音乐素材，用于广告和推广。

Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型

Cua – 专为 MacOS 推出的开源 AI Agent项目

发表评价

SongGen – 上海 AI Lab 和北航、港中文推出的歌曲生成模型

SongGen是什么

SongGen的主要功能

SongGen的技术原理

SongGen的项目地址

SongGen的应用场景

发表评价取消回复

最近更新

MiniCPM-V – 面壁智能推出的开源多模态大模型

VideoDoodles – Adobe推出的AI视频编辑框架

CharacterFactory – 大连理工推出的AI角色创作工具

UniBench – Meta推出的视觉语言模型(VLM)评估框架

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

SongGen是什么

SongGen的主要功能

SongGen的技术原理

SongGen的项目地址

SongGen的应用场景

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复