Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Muyan-TTS – 开源文本转语音模型,零样本语音合成
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Muyan-TTS – 开源文本转语音模型,零样本语音合成
AIGC 资讯

Muyan-TTS – 开源文本转语音模型,零样本语音合成

站外新闻
最近更新: 2026年6月7日 下午8:03
SHARE

Muyan-TTS是什么

Muyan-TTS 是为播客场景设计的开源文本转语音(TTS)模型。模型预训练超过10万小时的播客音频数据,能实现零样本语音合成,无需大量目标说话人的语音数据可生成高质量语音。模型支持说话人适配,进行个性化语音定制。Muyan-TTS 合成速度快,0.33秒能生成1秒音频,适合实时应用。Muyan-TTS 能自然连贯地合成长篇内容,如播客、有声书等,支持本地部署和API使用,方便集成到各种应用中。

阅读目录
  • Muyan-TTS是什么
  • Muyan-TTS的主要功能
  • Muyan-TTS的技术原理
  • Muyan-TTS的项目地址
  • Muyan-TTS的应用场景

Muyan-TTS

Muyan-TTS的主要功能

  • 零样本语音合成:无需大量目标说话人数据,用少量参考语音和文本生成高质量语音。
  • 说话人适配:基于少量目标说话人语音数据微调,实现个性化语音定制。
  • 快速生成:0.33秒生成1秒音频,适合实时和批量生成长语音内容。
  • 长内容连贯合成:支持自然连贯地合成长篇内容,如播客、有声书等。
  • 离线部署友好:支持本地推理,确保数据隐私和低延迟。

Muyan-TTS的技术原理

  • 框架设计:基于 GPT-SoVITS 框架,用预训练的 Llama-3.2-3B 作为语言模型(LLM),结合 SoVITS 模型进行音频解码。LLM 负责将文本和音频 token 对齐,生成中间表示,SoVITS 模型将中间表示解码为音频波形。
  • 数据处理:数据集包含超过10万小时的播客音频数据,经过多阶段处理,包括数据收集、清洗和格式化,确保高质量和多样性。用自动语音识别(ASR)模型将音频转录为文本,将音频嵌入量化为离散 token,形成平行语料库。
  • 预训练与微调:LLM 在平行语料库上进行预训练,学习文本和音频 token 之间的关系。基于监督微调(SFT),用少量目标说话人的语音数据进一步优化模型,提高语音合成的自然度和相似度。
  • 解码器优化:基于 VITS 基础模型作为解码器,减少幻觉问题,提高语音生成的稳定性和自然度。解码器在高质量音频数据上进行微调,进一步提升合成语音的保真度和表现力。
  • 推理加速:高效的内存管理和并行推理技术,提高推理速度,降低延迟。支持 API 模式,自动启用加速功能,适合实时应用。

Muyan-TTS的项目地址

  • GitHub仓库:https://github.com/MYZY-AI/Muyan-TTS
  • HuggingFace模型库:https://huggingface.co/MYZY-AI/Muyan-TTS
  • arXiv技术论文:https://arxiv.org/pdf/2504.19146

Muyan-TTS的应用场景

  • 播客和有声书:生成长篇内容,自然连贯,节省录制时间。
  • 视频配音:快速合成英文脚本配音,适配不同角色。
  • AI 角色和语音助手:生成特色角色语音,提供自然交互体验。
  • 新闻播报:高效将文本转语音,适合智能设备播报。
  • 教育和游戏:生成教学语音和游戏旁白,提升学习和娱乐体验。
MHA2MLA – 复旦、上海AI Lab等推出优化LLM推理效率的方法
OctoTools – 斯坦福推出解决复杂推理任务的开源智能体框架
pdf-craft – 开源 PDF 转 Markdown 工具
IronClaw:Rust驱动的本地安全AI助手,WASM沙盒隔离+加密保险柜,彻底解决数据隐私难题
万相首尾帧模型 – 阿里通义开源的首尾帧生视频模型
分享
Email 复制链接 打印
Share
上一篇 Cosmos – 英伟达推出的生成式世界基础模型平台
下一篇 Sky-T1 – NovaSky 开源的推理 AI 模型,可从零开始复现该模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

智源发布RoboCOIN:18万条演示数据,打造具身智能研究的开源基石
AI 工具 AIGC 资讯
NewBieAi Lab 开源3.5B动漫大模型:Next-DiT架构,8×H200训练4个月,专攻高质量动漫生成
AI 工具 AIGC 资讯
腾讯混元2.0震撼发布:4060亿参数MoE架构大模型,256K上下文,国内推理能力登顶
AI 工具 AIGC 资讯
美团开源LongCat-Image:6B参数逼平闭源模型,8105汉字渲染+图像编辑全搞定
AI 工具

相关推荐

AI 工具AIGC 资讯最新趋势

苹果AI图像生成迎来史诗级升级:Image Playground依托Gemini与私有云,OS27能否重塑用户口碑?

站外新闻
Gemini Image Playground 基础模型 苹果 隐私AI
AI 工具AIGC 资讯

SoulX-FlashTalk:Soul App 14B参数开源模型,0.87秒延迟实现7×24小时实时数字人直播

站外新闻
AIGC SoulX-FlashTalk 实时数字人 开源模型
AI 工具AIGC 资讯

科大讯飞星火X2-Flash MoE大模型发布:30B参数对标万亿级性能,Agent时代性价比之王

站外新闻
MoE大模型 华为昇腾 星火X2-Flash 智能体Agent 科大讯飞
AI 工具AIGC 资讯

Seed Prover 1.5:字节跳动AI数学推理新突破,IMO金牌水平背后的核心技术解析

站外新闻
Agentic RL Seed Prover 1.5 字节跳动 形式化证明 数学推理模型
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程工具 AI视频 AI视频生成 AI设计 AI音乐生成 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek Gemini GPT-5.4 GPT-5.5 MCP协议 meta Midjourney MiniMax MoE架构 NVIDIA openai OpenClaw prompt stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大模型推理 大语言模型 字节跳动 家居 小红书 展台 开源 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 教程 早报 智能体编程 智谱AI 月之暗面 本地AI 海报设计 清华大学 生成式AI 科幻 端侧AI 端侧大模型 端侧部署 网络安全 腾讯 腾讯混元 英伟达 蚂蚁集团 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 边缘计算 通义千问 长上下文 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.