💡 站外导读:当前AI语音技术虽进步显著,但在多人对话语音生成上仍面临挑战:音色切换不自然、双语支持有限、长音频拼接痕迹明显。MOSS-TTSD的开源,正是针对这些行业痛点而来。它由顶尖实验室打造,基于超大规模数据训练,旨在彻底改变AI播客、访谈等内容生产方式,标志着AIGC在音频领域进入新阶段。
MOSS-TTSD是什么
MOSS-TTSD(Text to Spoken Dialogue)是开源的口语对话语音生成模型,由清华大学语音与语言实验室(Tencent AI Lab)开发。能将文本对话脚本转化为自然流畅、富有表现力的对话语音,支持中英文双语生成。模型基于先进的语义-音学神经网络音频编解码器和大规模预训练语言模型,结合了超过100万小时的单人语音数据和40万小时的对话语音数据进行训练。支持零样本语音克隆,能根据对话脚本生成准确的对话者切换语音,适用于AI播客、访谈、新闻报道等多种场景。

MOSS-TTSD的主要功能
-
高表现力对话语音生成:能将对话脚本转换为自然、富有表现力的对话语音,准确捕捉对话中的韵律、语调等特性。
-
零样本多说话人音色克隆:支持根据对话脚本生成准确的对话者切换语音,无需额外样本即可实现两位对话者的音色克隆。
-
中英双语支持:可在中文和英文两种语言中生成高质量的对话语音。
-
长篇语音生成:基于低比特率编解码器和优化的训练框架,能一次性生成超长语音,避免拼接语音片段的不自然过渡。
-
完全开源且商业就绪:模型权重、推理代码和API接口均已开源,支持免费商业使用。
MOSS-TTSD的技术原理
-
基础模型架构:MOSS-TTSD 基于 Qwen3-1.7B-base 模型进行续训练,采用离散化语音序列建模方法。模型通过八层 RVQ(Residual Vector Quantization)码本对语音进行离散化处理,将连续的语音信号转换为离散的 token 序列。这些 token 序列通过自回归加 Delay Pattern 的方式生成,最后通过 Tokenizer 的解码器将 token 还原为语音。
-
语音离散化与编码器创新:核心创新之一是 XY-Tokenizer,是专门设计的语音离散化编码器。XY-Tokenizer 采用双阶段多任务学习方式训练:
-
第一阶段:训练自动语音识别(ASR)任务和重建任务,让编码器在编码语义信息的同时保留粗粒度的声学信息。
-
第二阶段:固定编码器和量化层,仅训练解码器部分,通过重建损失和 GAN 损失补充细粒度声学信息。 XY-Tokenizer 在 1kbps 的比特率和 12.5Hz 的帧率下,能同时建模语义和声学信息,性能优于其他同类 Codec。
-
-
数据处理与预训练:MOSS-TTSD 使用了约 100 万小时的单说话人语音数据和 40 万小时的对话语音数据进行训练。团队设计了高效的数据处理流水线,从海量原始音频中筛选出高质量的单人语音和多人对话语音,进行标注。模型进行了 TTS 预训练,使用 110 万小时的中英文 TTS 数据显著增强了语音韵律和表现力。
-
长语音生成能力:基于超低比特率的 Codec,MOSS-TTSD 支持最长 960 秒的音频生成,能一次性生成超长语音,避免了拼接语音片段之间的不自然过渡。
MOSS-TTSD的项目地址
- 项目官网:https://www.open-moss.com/en/moss-ttsd/
- Github仓库:https://github.com/OpenMOSS/MOSS-TTSD
- HuggingFace模型库:https://huggingface.co/fnlp/MOSS-TTSD-v0.5
- 在线体验Demo:https://huggingface.co/spaces/fnlp/MOSS-TTSD
MOSS-TTSD的应用场景
-
AI 播客制作:MOSS-TTSD 能生成自然流畅的对话语音,特别适合用于 AI 播客的制作。可以模拟真实的对话场景,生成高质量的播客内容。
-
影视配音:模型支持中英双语的高表现力对话语音生成,能进行零样本音色克隆,适用于影视作品中的对话配音。
-
长篇访谈:MOSS-TTSD 支持最长 960 秒的音频生成,能一次性生成超长语音,避免了拼接语音片段之间的不自然过渡,非常适合长篇访谈的语音生成。
-
新闻报道:在新闻报道中,MOSS-TTSD 可以生成自然的对话式语音,用于播报新闻内容,提升新闻的吸引力。
-
电商直播:模型可以用于数字人对话带货等电商直播场景,通过生成自然的对话语音来吸引观众。
📝 站长洞察 (Editor’s Insight)
MOSS-TTSD的发布,绝非单一模型的更新,它揭示了AIGC语音合成正从单人播报向复杂场景对话演进的关键趋势。其核心突破在于:1)利用百万小时级数据与超低比特率Codec,解决了长音频生成的连贯性难题;2)将大语言模型(如Qwen3)的文本理解能力与创新的XY-Tokenizer语音编码结合,实现了语义与声学的精准对齐。这标志着语音生成正式迈入“剧情化”时代。对于开发者而言,其完全开源、商业就绪的策略将极大降低构建有声内容(如有声书、互动叙事)的门槛。未来,结合虚拟形象,此类技术或将催生全新的沉浸式交互媒介。站长应密切关注其开源生态的演进与垂直场景的应用落地。
