Muyan-TTS – 开源文本转语音模型，零样本语音合成

Muyan-TTS是什么

Muyan-TTS 是为播客场景设计的开源文本转语音（TTS）模型。模型预训练超过10万小时的播客音频数据，能实现零样本语音合成，无需大量目标说话人的语音数据可生成高质量语音。模型支持说话人适配，进行个性化语音定制。Muyan-TTS 合成速度快，0.33秒能生成1秒音频，适合实时应用。Muyan-TTS 能自然连贯地合成长篇内容，如播客、有声书等，支持本地部署和API使用，方便集成到各种应用中。

阅读目录

Muyan-TTS是什么
Muyan-TTS的主要功能
Muyan-TTS的技术原理
Muyan-TTS的项目地址
Muyan-TTS的应用场景

Muyan-TTS

Muyan-TTS的主要功能

零样本语音合成：无需大量目标说话人数据，用少量参考语音和文本生成高质量语音。
说话人适配：基于少量目标说话人语音数据微调，实现个性化语音定制。
快速生成：0.33秒生成1秒音频，适合实时和批量生成长语音内容。
长内容连贯合成：支持自然连贯地合成长篇内容，如播客、有声书等。
离线部署友好：支持本地推理，确保数据隐私和低延迟。

Muyan-TTS的技术原理

框架设计：基于 GPT-SoVITS 框架，用预训练的 Llama-3.2-3B 作为语言模型（LLM），结合 SoVITS 模型进行音频解码。LLM 负责将文本和音频 token 对齐，生成中间表示，SoVITS 模型将中间表示解码为音频波形。
数据处理：数据集包含超过10万小时的播客音频数据，经过多阶段处理，包括数据收集、清洗和格式化，确保高质量和多样性。用自动语音识别（ASR）模型将音频转录为文本，将音频嵌入量化为离散 token，形成平行语料库。
预训练与微调：LLM 在平行语料库上进行预训练，学习文本和音频 token 之间的关系。基于监督微调（SFT），用少量目标说话人的语音数据进一步优化模型，提高语音合成的自然度和相似度。
解码器优化：基于 VITS 基础模型作为解码器，减少幻觉问题，提高语音生成的稳定性和自然度。解码器在高质量音频数据上进行微调，进一步提升合成语音的保真度和表现力。
推理加速：高效的内存管理和并行推理技术，提高推理速度，降低延迟。支持 API 模式，自动启用加速功能，适合实时应用。

Muyan-TTS的项目地址

GitHub仓库：https://github.com/MYZY-AI/Muyan-TTS
HuggingFace模型库：https://huggingface.co/MYZY-AI/Muyan-TTS
arXiv技术论文：https://arxiv.org/pdf/2504.19146

Muyan-TTS的应用场景

播客和有声书：生成长篇内容，自然连贯，节省录制时间。
视频配音：快速合成英文脚本配音，适配不同角色。
AI 角色和语音助手：生成特色角色语音，提供自然交互体验。
新闻播报：高效将文本转语音，适合智能设备播报。
教育和游戏：生成教学语音和游戏旁白，提升学习和娱乐体验。

Muyan-TTS – 开源文本转语音模型，零样本语音合成

Muyan-TTS是什么

Muyan-TTS的主要功能

Muyan-TTS的技术原理

Muyan-TTS的项目地址

Muyan-TTS的应用场景

发表评价取消回复

最近更新

Pixar 3D Style Character Storyboard

AI让漏洞发现速度飙升，今年安全缺陷数量预计翻番，黑客也在加速跟上

Luxury personal color profile layout

从万亿开源到国产算力协同：Kimi K3 与摩尔线程智算卡完成全栈适配

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

Muyan-TTS是什么

Muyan-TTS的主要功能

Muyan-TTS的技术原理

Muyan-TTS的项目地址

Muyan-TTS的应用场景

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复