Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: SongGen – 上海 AI Lab 和北航、港中文推出的歌曲生成模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > SongGen – 上海 AI Lab 和北航、港中文推出的歌曲生成模型
AIGC 资讯

SongGen – 上海 AI Lab 和北航、港中文推出的歌曲生成模型

站外新闻
最近更新: 2026年6月8日 下午12:40
SHARE

SongGen是什么

SongGen是上海AI Lab、北京航空航天大学和香港中文大学推出的单阶段自回归Transformer模型,用在从文本生成歌曲。SongGen基于歌词和描述性文本(如乐器、风格、情感等)作为输入,支持混合模式和双轨模式两种输出方式,分别用于直接生成人声与伴奏的混合音频,及分别合成人声和伴奏方便后期编辑。SongGen基于创新的音频标记化策略和训练方法,显著提升生成歌曲的自然度和人声清晰度,解决传统多阶段方法中训练和推理流程繁琐的问题。SongGen的开源性和高质量数据集为未来音乐生成研究提供了新的基准。

阅读目录
  • SongGen是什么
  • SongGen的主要功能
  • SongGen的技术原理
  • SongGen的项目地址
  • SongGen的应用场景

SongGen

SongGen的主要功能

  • 细粒度控制:用户基于歌词、描述性文本(如乐器、风格、情感等)对生成的歌曲进行控制。
  • 声音克隆:支持基于三秒参考音频实现声音克隆,使生成的歌曲具有特定歌手的音色。
  • 两种生成模式:提供“混合模式”(直接生成人声和伴奏的混合音频)和“双轨模式”(分别合成人声和伴奏,便于后期编辑)。
  • 高质量音频输出:基于优化的音频标记化和训练策略,生成具有高自然度和清晰人声的歌曲。

SongGen的技术原理

  • 自回归生成框架:基于自回归Transformer解码器,将歌词和描述性文本编码为条件输入,用交叉注意力机制引导音频标记的生成。
  • 音频标记化:用X-Codec将音频信号编码为离散的音频标记,基于代码本延迟模式处理多代码序列,支持高效生成。
  • 混合模式与双轨模式:
    • 混合模式:直接生成混合音频标记,引入辅助人声音频标记预测目标(Mixed Pro),增强人声清晰度。
    • 双轨模式:基于平行或交错模式分别生成人声和伴奏标记,确保两者在帧级别上的对齐,提升生成质量。
  • 条件输入编码:
    • 歌词编码:VoiceBPE分词器将歌词转换为音素级标记,基于小型Transformer编码器提取关键发音信息。
    • 声音编码:MERT模型提取参考音频的音色特征,支持声音克隆。
    • 文本描述编码:FLAN-T5模型将描述性文本编码为特征向量,提供音乐风格、情感等控制。
  • 训练策略:
    • 多阶段训练:包括模态对齐、无参考声音支持和高质量微调,逐步提升模型性能。
    • 课程学习:逐步调整代码本损失权重,优化模型对音频细节的学习。
    • 数据预处理:开发自动化数据预处理管道,从多个数据源收集音频,分离人声和伴奏,生成高质量的歌词和描述性文本数据集。

SongGen的项目地址

  • GitHub仓库:https://github.com/LiuZH-19/SongGen
  • arXiv技术论文:https://arxiv.org/pdf/2502.13128

SongGen的应用场景

  • 音乐创作:快速生成歌曲雏形,探索不同风格,为歌词生成伴奏,加速创作流程。
  • 视频配乐:为短视频、广告、电影生成背景音乐,根据内容调整风格,提升视觉效果。
  • 教育辅助:帮助学生理解音乐创作,通过生成歌曲学习语言发音,激发创造力。
  • 个性化体验:根据用户输入生成定制歌曲,用声音克隆实现“个人专属歌手”,增强娱乐性。
  • 商业应用:为品牌生成专属音乐,替代版权受限的音乐素材,用于广告和推广。
百川智能Baichuan-M3开源发布:医疗AI大模型问诊能力超GPT-5.2及人类医生,医疗幻觉率全球最低
Step 3.7 Flash 重磅开源发布:198B MoE架构实现400TPS推理,Agent效率与可靠性新时代已至
WebLI-100B – 谷歌 DeepMind 推出的1000亿视觉语言数据集
LDGen – 理想汽车推出的多语言文本到图像生成技术
Step-Video-T2V – 阶跃星辰开源的文本到视频模型
分享
Email 复制链接 打印
Share
上一篇 Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型
下一篇 Cua – 专为 MacOS 推出的开源 AI Agent项目
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Self Forcing: Adobe与德克萨斯大学联合推出实时视频生成模型,单GPU实现17FPS,告别传统AI视频生成延迟
AI 工具 AIGC 资讯
腾讯AI Lab重磅开源SongGeneration:AI音乐生成大模型,多轨合成、风格克隆,媲美商业模型
AI 工具 AIGC 资讯
快手OneRec:颠覆传统推荐!端到端生成式AI系统引爆观看时长与GMV
AI 工具 AIGC 资讯
Kimi-Researcher:月之暗面端到端强化学习Agent,深度研究基准测试超Claude 4 Opus
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

BrowseComp – OpenAI 开源的 AI Agent 网络浏览能力基准

站外新闻
AI 工具AIGC 资讯

谷歌Gemini 3 DeepThink:ARC-AGI-2测试准确率45.1%,并行推理能力碾压GPT-5.1

站外新闻
AGI ARC-AGI-2 Gemini 3 DeepThink 推理模型 谷歌DeepMind
AIGC 资讯

Agentic Reasoning – 牛津大学推出增强LLM推理能力的框架

站外新闻
AIGC 资讯

COMET – 字节开源的通信优化系统

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.