Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 清华实验室重磅开源!MOSS-TTSD:百万小时数据训练的口语对话语音生成模型,支持零样本克隆与中英双语
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 清华实验室重磅开源!MOSS-TTSD:百万小时数据训练的口语对话语音生成模型,支持零样本克隆与中英双语
AI 工具AIGC 资讯

清华实验室重磅开源!MOSS-TTSD:百万小时数据训练的口语对话语音生成模型,支持零样本克隆与中英双语

站外新闻
最近更新: 2026年6月7日 下午8:24
AIGC MOSS-TTSD 清华大学 语音生成模型 零样本语音克隆
SHARE

💡 站外导读:当前AI语音技术虽进步显著,但在多人对话语音生成上仍面临挑战:音色切换不自然、双语支持有限、长音频拼接痕迹明显。MOSS-TTSD的开源,正是针对这些行业痛点而来。它由顶尖实验室打造,基于超大规模数据训练,旨在彻底改变AI播客、访谈等内容生产方式,标志着AIGC在音频领域进入新阶段。

MOSS-TTSD是什么

MOSS-TTSD(Text to Spoken Dialogue)是开源的口语对话语音生成模型,由清华大学语音与语言实验室(Tencent AI Lab)开发。能将文本对话脚本转化为自然流畅、富有表现力的对话语音,支持中英文双语生成。模型基于先进的语义-音学神经网络音频编解码器和大规模预训练语言模型,结合了超过100万小时的单人语音数据和40万小时的对话语音数据进行训练。支持零样本语音克隆,能根据对话脚本生成准确的对话者切换语音,适用于AI播客、访谈、新闻报道等多种场景。

阅读目录
  • MOSS-TTSD是什么
  • MOSS-TTSD的主要功能
  • MOSS-TTSD的技术原理
  • MOSS-TTSD的项目地址
  • MOSS-TTSD的应用场景
      • 📝 站长洞察 (Editor’s Insight)

MOSS-TTSD

MOSS-TTSD的主要功能

  • 高表现力对话语音生成:能将对话脚本转换为自然、富有表现力的对话语音,准确捕捉对话中的韵律、语调等特性。
  • 零样本多说话人音色克隆:支持根据对话脚本生成准确的对话者切换语音,无需额外样本即可实现两位对话者的音色克隆。
  • 中英双语支持:可在中文和英文两种语言中生成高质量的对话语音。
  • 长篇语音生成:基于低比特率编解码器和优化的训练框架,能一次性生成超长语音,避免拼接语音片段的不自然过渡。
  • 完全开源且商业就绪:模型权重、推理代码和API接口均已开源,支持免费商业使用。

MOSS-TTSD的技术原理

  • 基础模型架构:MOSS-TTSD 基于 Qwen3-1.7B-base 模型进行续训练,采用离散化语音序列建模方法。模型通过八层 RVQ(Residual Vector Quantization)码本对语音进行离散化处理,将连续的语音信号转换为离散的 token 序列。这些 token 序列通过自回归加 Delay Pattern 的方式生成,最后通过 Tokenizer 的解码器将 token 还原为语音。
  • 语音离散化与编码器创新:核心创新之一是 XY-Tokenizer,是专门设计的语音离散化编码器。XY-Tokenizer 采用双阶段多任务学习方式训练:
    • 第一阶段:训练自动语音识别(ASR)任务和重建任务,让编码器在编码语义信息的同时保留粗粒度的声学信息。
    • 第二阶段:固定编码器和量化层,仅训练解码器部分,通过重建损失和 GAN 损失补充细粒度声学信息。 XY-Tokenizer 在 1kbps 的比特率和 12.5Hz 的帧率下,能同时建模语义和声学信息,性能优于其他同类 Codec。
  • 数据处理与预训练:MOSS-TTSD 使用了约 100 万小时的单说话人语音数据和 40 万小时的对话语音数据进行训练。团队设计了高效的数据处理流水线,从海量原始音频中筛选出高质量的单人语音和多人对话语音,进行标注。模型进行了 TTS 预训练,使用 110 万小时的中英文 TTS 数据显著增强了语音韵律和表现力。
  • 长语音生成能力:基于超低比特率的 Codec,MOSS-TTSD 支持最长 960 秒的音频生成,能一次性生成超长语音,避免了拼接语音片段之间的不自然过渡。

MOSS-TTSD的项目地址

  • 项目官网:https://www.open-moss.com/en/moss-ttsd/
  • Github仓库:https://github.com/OpenMOSS/MOSS-TTSD
  • HuggingFace模型库:https://huggingface.co/fnlp/MOSS-TTSD-v0.5
  • 在线体验Demo:https://huggingface.co/spaces/fnlp/MOSS-TTSD

MOSS-TTSD的应用场景

  • AI 播客制作:MOSS-TTSD 能生成自然流畅的对话语音,特别适合用于 AI 播客的制作。可以模拟真实的对话场景,生成高质量的播客内容。
  • 影视配音:模型支持中英双语的高表现力对话语音生成,能进行零样本音色克隆,适用于影视作品中的对话配音。
  • 长篇访谈:MOSS-TTSD 支持最长 960 秒的音频生成,能一次性生成超长语音,避免了拼接语音片段之间的不自然过渡,非常适合长篇访谈的语音生成。
  • 新闻报道:在新闻报道中,MOSS-TTSD 可以生成自然的对话式语音,用于播报新闻内容,提升新闻的吸引力。
  • 电商直播:模型可以用于数字人对话带货等电商直播场景,通过生成自然的对话语音来吸引观众。

📝 站长洞察 (Editor’s Insight)

MOSS-TTSD的发布,绝非单一模型的更新,它揭示了AIGC语音合成正从单人播报向复杂场景对话演进的关键趋势。其核心突破在于:1)利用百万小时级数据与超低比特率Codec,解决了长音频生成的连贯性难题;2)将大语言模型(如Qwen3)的文本理解能力与创新的XY-Tokenizer语音编码结合,实现了语义与声学的精准对齐。这标志着语音生成正式迈入“剧情化”时代。对于开发者而言,其完全开源、商业就绪的策略将极大降低构建有声内容(如有声书、互动叙事)的门槛。未来,结合虚拟形象,此类技术或将催生全新的沉浸式交互媒介。站长应密切关注其开源生态的演进与垂直场景的应用落地。

GPT-Realtime-Translate:OpenAI 实时语音翻译模型,70+语言端到端直译,成本仅为人类同传万分之一
阶跃星辰Step 3发布:321B参数多模态推理模型,效率提升300%并即将开源
蚂蚁开源Ming-Flash-Omni 2.0:100B参数全模态大模型,端到端理解与生成一体化
3DV-TON – 阿里达摩院联合浙大等推出的视频虚拟试穿框架
Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型
TAGGED:AIGCMOSS-TTSD清华大学语音生成模型零样本语音克隆
分享
Email 复制链接 打印
Share
上一篇 Agent Zero:开源AI智能体框架,让AI助手像人一样学习成长与协作
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Agent Zero:开源AI智能体框架,让AI助手像人一样学习成长与协作
AI 工具 AIGC 资讯
NativeMind:开源本地AI助手,隐私优先的浏览器智能对话、内容分析与写作增强工具
AI 工具 AIGC 资讯
阿里开源WebSailor网络智能体:SailorFog-QA与DUPO算法突破复杂任务极限,登顶开源榜首
AI 工具 AIGC 资讯
Furion:释放.NET生产力,一款颠覆性AI开发框架如何让企业级应用开发效率倍增?
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

WorldSense – 小红书联合上海交大推出的多模态全面评测新基准

站外新闻
AIGC 资讯

GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型

站外新闻
AI 工具

Eddy AI

remaker
AI 工具AIGC 资讯

快手Kwaipilot开源KAT-Dev-32B:SWE-Bench排名第五,62.4%解决率重塑AI编程

站外新闻
KAT-Dev-32B SWE-Bench 代码大模型 强化学习 快手Kwaipilot
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.