清华实验室重磅开源！MOSS-TTSD：百万小时数据训练的口语对话语音生成模型，支持零样本克隆与中英双语

💡 站外导读：当前AI语音技术虽进步显著，但在多人对话语音生成上仍面临挑战：音色切换不自然、双语支持有限、长音频拼接痕迹明显。MOSS-TTSD的开源，正是针对这些行业痛点而来。它由顶尖实验室打造，基于超大规模数据训练，旨在彻底改变AI播客、访谈等内容生产方式，标志着AIGC在音频领域进入新阶段。

MOSS-TTSD是什么

MOSS-TTSD（Text to Spoken Dialogue）是开源的口语对话语音生成模型，由清华大学语音与语言实验室（Tencent AI Lab）开发。能将文本对话脚本转化为自然流畅、富有表现力的对话语音，支持中英文双语生成。模型基于先进的语义-音学神经网络音频编解码器和大规模预训练语言模型，结合了超过100万小时的单人语音数据和40万小时的对话语音数据进行训练。支持零样本语音克隆，能根据对话脚本生成准确的对话者切换语音，适用于AI播客、访谈、新闻报道等多种场景。

阅读目录

MOSS-TTSD是什么
MOSS-TTSD的主要功能
MOSS-TTSD的技术原理
MOSS-TTSD的项目地址
MOSS-TTSD的应用场景

📝 站长洞察 (Editor’s Insight)

MOSS-TTSD

MOSS-TTSD的主要功能

高表现力对话语音生成：能将对话脚本转换为自然、富有表现力的对话语音，准确捕捉对话中的韵律、语调等特性。
零样本多说话人音色克隆：支持根据对话脚本生成准确的对话者切换语音，无需额外样本即可实现两位对话者的音色克隆。
中英双语支持：可在中文和英文两种语言中生成高质量的对话语音。
长篇语音生成：基于低比特率编解码器和优化的训练框架，能一次性生成超长语音，避免拼接语音片段的不自然过渡。
完全开源且商业就绪：模型权重、推理代码和API接口均已开源，支持免费商业使用。

MOSS-TTSD的技术原理

基础模型架构：MOSS-TTSD 基于 Qwen3-1.7B-base 模型进行续训练，采用离散化语音序列建模方法。模型通过八层 RVQ（Residual Vector Quantization）码本对语音进行离散化处理，将连续的语音信号转换为离散的 token 序列。这些 token 序列通过自回归加 Delay Pattern 的方式生成，最后通过 Tokenizer 的解码器将 token 还原为语音。
语音离散化与编码器创新：核心创新之一是 XY-Tokenizer，是专门设计的语音离散化编码器。XY-Tokenizer 采用双阶段多任务学习方式训练：
- 第一阶段：训练自动语音识别（ASR）任务和重建任务，让编码器在编码语义信息的同时保留粗粒度的声学信息。
- 第二阶段：固定编码器和量化层，仅训练解码器部分，通过重建损失和 GAN 损失补充细粒度声学信息。 XY-Tokenizer 在 1kbps 的比特率和 12.5Hz 的帧率下，能同时建模语义和声学信息，性能优于其他同类 Codec。
数据处理与预训练：MOSS-TTSD 使用了约 100 万小时的单说话人语音数据和 40 万小时的对话语音数据进行训练。团队设计了高效的数据处理流水线，从海量原始音频中筛选出高质量的单人语音和多人对话语音，进行标注。模型进行了 TTS 预训练，使用 110 万小时的中英文 TTS 数据显著增强了语音韵律和表现力。
长语音生成能力：基于超低比特率的 Codec，MOSS-TTSD 支持最长 960 秒的音频生成，能一次性生成超长语音，避免了拼接语音片段之间的不自然过渡。

MOSS-TTSD的项目地址

项目官网：https://www.open-moss.com/en/moss-ttsd/
Github仓库：https://github.com/OpenMOSS/MOSS-TTSD
HuggingFace模型库：https://huggingface.co/fnlp/MOSS-TTSD-v0.5
在线体验Demo：https://huggingface.co/spaces/fnlp/MOSS-TTSD

MOSS-TTSD的应用场景

AI 播客制作：MOSS-TTSD 能生成自然流畅的对话语音，特别适合用于 AI 播客的制作。可以模拟真实的对话场景，生成高质量的播客内容。
影视配音：模型支持中英双语的高表现力对话语音生成，能进行零样本音色克隆，适用于影视作品中的对话配音。
长篇访谈：MOSS-TTSD 支持最长 960 秒的音频生成，能一次性生成超长语音，避免了拼接语音片段之间的不自然过渡，非常适合长篇访谈的语音生成。
新闻报道：在新闻报道中，MOSS-TTSD 可以生成自然的对话式语音，用于播报新闻内容，提升新闻的吸引力。
电商直播：模型可以用于数字人对话带货等电商直播场景，通过生成自然的对话语音来吸引观众。

📝 站长洞察 (Editor’s Insight)

MOSS-TTSD的发布，绝非单一模型的更新，它揭示了AIGC语音合成正从单人播报向复杂场景对话演进的关键趋势。其核心突破在于：1）利用百万小时级数据与超低比特率Codec，解决了长音频生成的连贯性难题；2）将大语言模型（如Qwen3）的文本理解能力与创新的XY-Tokenizer语音编码结合，实现了语义与声学的精准对齐。这标志着语音生成正式迈入“剧情化”时代。对于开发者而言，其完全开源、商业就绪的策略将极大降低构建有声内容（如有声书、互动叙事）的门槛。未来，结合虚拟形象，此类技术或将催生全新的沉浸式交互媒介。站长应密切关注其开源生态的演进与垂直场景的应用落地。

清华实验室重磅开源！MOSS-TTSD：百万小时数据训练的口语对话语音生成模型，支持零样本克隆与中英双语

MOSS-TTSD是什么

MOSS-TTSD的主要功能

MOSS-TTSD的技术原理

MOSS-TTSD的项目地址

MOSS-TTSD的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

MotionCLR – AI动作编辑模型，根据文本提示生成相应的动作序列

DocMind – 司马阅推出的文档智能大模型

DistilQwen2 – 阿里推出基于Qwen2优化的轻量级语言模型

Hunyuan3D-1.0 – 腾讯推出的3D生成模型，支持文生3D和图生3D

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

MOSS-TTSD是什么

MOSS-TTSD的主要功能

MOSS-TTSD的技术原理

MOSS-TTSD的项目地址

MOSS-TTSD的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复