YuE – 港科大联合 M-A-P 推出的开源AI音乐生成模型

YuE是什么

YuE 是香港科技大学和 Multimodal Art Projection 团队联合开发的开源 AI 音乐生成模型。能将歌词转化为完整的歌曲，支持多种音乐风格，包括流行、金属、爵士、嘻哈等，并且支持英语、中文、日语和韩语等多种语言。YuE 通过语义增强音频分词器、双分词技术、歌词链式思维生成和三阶段训练方案，解决了音乐生成中的长上下文、复杂音乐信号、语言内容失真等挑战，生成的歌曲具有连贯的音乐结构和吸引人的声乐旋律。模型完全开源，用户可以自由使用和修改代码。提供了灵活的生成选项，用户可以通过简单的命令行参数调整生成歌曲的风格、声乐类型等细节。

阅读目录

YuE是什么
YuE的主要功能
YuE的技术原理
YuE的项目地址
YuE的应用场景

YuE

YuE的主要功能

歌词转歌曲：能将输入的歌词转化为完整的歌曲，包含主唱和伴奏。
多种音乐风格支持：支持流行、金属、爵士、嘻哈等多种音乐风格。
高质量生成：通过多种技术优化，确保生成的歌曲连贯且高质量。
多语言支持：支持英语、中文、日语和韩语等多种语言。
长时间音乐创作：可以生成长达 5 分钟的完整歌曲。
开源与可定制：代码和模型完全开源，用户可以自由使用和修改。
情感和风格匹配：能根据歌词的情感基调生成匹配的音乐风格。
跨模态应用：可以与其他多模态模型结合，用于多媒体艺术创作。

YuE的技术原理

语义增强音频分词器：YuE 使用语义增强音频分词器来降低训练成本并加速收敛。能更好地理解歌词的语义信息，与音乐信号相结合，生成更符合歌词内容的音乐。
双分词技术：YuE 提出了一种双分词技术，用于在不修改 LLaMa 解码器-only 架构的情况下实现音轨同步的声乐-乐器建模。模型可以在生成主唱部分的同时，同步生成合适的伴奏，确保两者在节奏和旋律上的协调性。
歌词链式思维生成：YuE 引入了歌词链式思维生成技术，支持模型在遵循歌词条件的情况下逐步生成整首歌曲。使模型能更好地处理长上下文信息，确保生成的歌曲在整体结构上保持连贯性。
三阶段训练方案：YuE 采用了三阶段训练方案，确保更好的可扩展性、音乐性和歌词可控性。具体来说：
- 第一阶段：基础模型训练，学习音乐生成的基本模式。
- 第二阶段：风格和情感对齐，通过大量样本来调整模型，能生成特定风格和情感的音乐。
- 第三阶段：偏好纠正，通过强化学习等技术进一步优化生成结果，确保生成的音乐更符合人类的审美标准。