Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: SongGen – 上海 AI Lab 和北航、港中文推出的歌曲生成模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > SongGen – 上海 AI Lab 和北航、港中文推出的歌曲生成模型
AIGC 资讯

SongGen – 上海 AI Lab 和北航、港中文推出的歌曲生成模型

站外新闻
最近更新: 2026年6月8日 下午12:40
SHARE

SongGen是什么

SongGen是上海AI Lab、北京航空航天大学和香港中文大学推出的单阶段自回归Transformer模型,用在从文本生成歌曲。SongGen基于歌词和描述性文本(如乐器、风格、情感等)作为输入,支持混合模式和双轨模式两种输出方式,分别用于直接生成人声与伴奏的混合音频,及分别合成人声和伴奏方便后期编辑。SongGen基于创新的音频标记化策略和训练方法,显著提升生成歌曲的自然度和人声清晰度,解决传统多阶段方法中训练和推理流程繁琐的问题。SongGen的开源性和高质量数据集为未来音乐生成研究提供了新的基准。

阅读目录
  • SongGen是什么
  • SongGen的主要功能
  • SongGen的技术原理
  • SongGen的项目地址
  • SongGen的应用场景

SongGen

SongGen的主要功能

  • 细粒度控制:用户基于歌词、描述性文本(如乐器、风格、情感等)对生成的歌曲进行控制。
  • 声音克隆:支持基于三秒参考音频实现声音克隆,使生成的歌曲具有特定歌手的音色。
  • 两种生成模式:提供“混合模式”(直接生成人声和伴奏的混合音频)和“双轨模式”(分别合成人声和伴奏,便于后期编辑)。
  • 高质量音频输出:基于优化的音频标记化和训练策略,生成具有高自然度和清晰人声的歌曲。

SongGen的技术原理

  • 自回归生成框架:基于自回归Transformer解码器,将歌词和描述性文本编码为条件输入,用交叉注意力机制引导音频标记的生成。
  • 音频标记化:用X-Codec将音频信号编码为离散的音频标记,基于代码本延迟模式处理多代码序列,支持高效生成。
  • 混合模式与双轨模式:
    • 混合模式:直接生成混合音频标记,引入辅助人声音频标记预测目标(Mixed Pro),增强人声清晰度。
    • 双轨模式:基于平行或交错模式分别生成人声和伴奏标记,确保两者在帧级别上的对齐,提升生成质量。
  • 条件输入编码:
    • 歌词编码:VoiceBPE分词器将歌词转换为音素级标记,基于小型Transformer编码器提取关键发音信息。
    • 声音编码:MERT模型提取参考音频的音色特征,支持声音克隆。
    • 文本描述编码:FLAN-T5模型将描述性文本编码为特征向量,提供音乐风格、情感等控制。
  • 训练策略:
    • 多阶段训练:包括模态对齐、无参考声音支持和高质量微调,逐步提升模型性能。
    • 课程学习:逐步调整代码本损失权重,优化模型对音频细节的学习。
    • 数据预处理:开发自动化数据预处理管道,从多个数据源收集音频,分离人声和伴奏,生成高质量的歌词和描述性文本数据集。

SongGen的项目地址

  • GitHub仓库:https://github.com/LiuZH-19/SongGen
  • arXiv技术论文:https://arxiv.org/pdf/2502.13128

SongGen的应用场景

  • 音乐创作:快速生成歌曲雏形,探索不同风格,为歌词生成伴奏,加速创作流程。
  • 视频配乐:为短视频、广告、电影生成背景音乐,根据内容调整风格,提升视觉效果。
  • 教育辅助:帮助学生理解音乐创作,通过生成歌曲学习语言发音,激发创造力。
  • 个性化体验:根据用户输入生成定制歌曲,用声音克隆实现“个人专属歌手”,增强娱乐性。
  • 商业应用:为品牌生成专属音乐,替代版权受限的音乐素材,用于广告和推广。
谷歌Veo 3.1 Lite发布:成本直降50%的AI视频生成模型,1080p高性价比解决方案
OpenAI Codex重磅更新:Mac锁屏也能自动执行任务,开发者生产力迎来颠覆式提升
腾讯发布首个智能体行业应用LearnBuddy,打造专家同行的AI自主学习平台
谷歌DeepMind重磅开源TIPSv2:多模态模型SOTA,零样本分割领先,参数效率极高
OpenAI重磅发布ChatGPT for PowerPoint插件:一句话生成PPT,智能分析揪出逻辑Bug,彻底重塑职场效率
分享
Email 复制链接 打印
Share
上一篇 Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型
AIGC 资讯
Kimi Latest – Kimi推出的实时更新AI模型,与Kimi智能助手同步
AIGC 资讯
MineWorld – 微软研究院开源的实时交互式世界模型
AIGC 资讯
AvatarGO – 南洋理工联合上海 AI Lab 等推出的4D人体与物体交互生成框架
AIGC 资讯

相关推荐

AI 工具AIGC 资讯

Qwen3.6-Max-Preview深度评测:六大编程基准登顶,Agent编程能力超越Claude 4.5 Opus

站外新闻
AIGC Qwen3.6 大模型 智能体编程 阿里通义千问
量子芯片科技感占位特色图
AI 工具AIGC 资讯

AI颠覆开店选址!高德×钉钉悟空发布智能助手,告别‘蹲点’时代

站外新闻
AI选址 商业决策 钉钉悟空 高德
AIGC 资讯

腾讯云发布音视频 AI 品牌 WAND:内置六大自研模型与60+项AI能力

站外新闻
AIGC 资讯

ChatTS-14B – 字节开源的时间序列理解和推理大模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.