💡 站外导读:在AIGC浪潮下,长内容创作效率成为瓶颈。SoulX-Podcast应运而生,专为解决生成长篇、多角色、高自然度语音对话的核心痛点。它不仅能突破传统TTS模型在时长和说话人切换上的限制,更支持方言与副语言控制,为播客、有声书等内容创作打开了新的自动化之门。
SoulX-Podcast是什么
SoulX-Podcast 是 Soul AI Lab 推出的多说话人文本到语音(TTS)模型,专为生成长篇播客对话设计。模型参数为1.7B,支持普通话、英语及多种汉语方言(如四川话、河南话、粤语等),具备跨方言提示功能,可通过普通话提示生成目标方言语音。模型支持副语言控制(如笑声、叹气等),增强语音合成的真实感。SoulX-Podcast 能生成超过 90 分钟的连贯对话,保持稳定的音色和情感连续性,适用于播客、有声读物等场景。
阅读目录

SoulX-Podcast的主要功能
- 多说话人支持::支持多个说话人之间的对话生成,能自然地切换不同说话人的语音,适用播客、有声读物等场景。
- 多语言和方言支持::支持普通话、英语以及多种汉语方言(如四川话、河南话、粤语等),具备跨方言提示功能,可通过普通话提示生成目标方言语音。
- 副语言控制::支持非语言信息(如笑声、叹气、清嗓等),增强语音合成的真实感,使生成的语音更加自然和生动。
- 长篇对话生成::能生成超过90分钟的连贯对话,保持稳定的音色和情感连续性,适用长篇播客内容的生成。
- 零样本语音克隆:支持零样本语音克隆,在没有目标说话人语音样本的情况下,能生成高质量的个性化语音。
SoulX-Podcast的技术原理
- 基础模型架构:基于 Qwen3-1.7B 的架构,一个强大的预训练语言模型,经过微调适应多说话人对话生成任务。
- 多说话人建模:通过引入说话人嵌入(Speaker Embedding)技术,模型能区分不同说话人的语音特征,在生成过程中自然地切换说话人。
- 跨方言生成:用方言引导提示(Dialect-Guided Prompting, DGP)方法,模型能根据普通话提示生成目标方言的语音,支持多种方言的零样本生成。
- 副语言控制:通过在文本输入中加入特定的副语言标记(如
<|laughter|>、<|sigh|>等),模型能在生成的语音中加入相应的非语言信息,增强语音的真实感。 - 长篇生成稳定性:通过优化模型的注意力机制和解码器结构,确保在长篇对话生成中保持稳定的音色和情感连续性,避免音色漂移和情感不连贯的问题。
- 数据处理和训练:用大规模的多说话人对话数据进行训练,数据处理流程包括语音增强、音频分割、说话人日志、文本转录和质量过滤,确保模型能学习到丰富的对话特征。
SoulX-Podcast的项目地址
- 项目官网:https://soul-ailab.github.io/soulx-podcast/
- GitHub仓库:https://github.com/Soul-AILab/SoulX-Podcast
- HuggingFace模型库:https://huggingface.co/collections/Soul-AILab/soulx-podcast
- arXiv技术论文:https://arxiv.org/pdf/2510.23541
SoulX-Podcast的应用场景
- 播客制作:模型能生成超过90分钟的连贯对话,适合制作科技、文化、娱乐等各类播客内容。
- 有声读物:模型能生成多个角色的对话,使有声读物更加生动有趣,适合小说、故事等长篇内容。
- 教育内容:生成多角色对话,增强语言学习、历史故事讲解等教育内容的互动性和趣味性。
- 娱乐和游戏:为游戏、动画和视频制作生成自然的多角色语音,提升内容的沉浸感。
- 企业培训:生成模拟对话,帮助员工进行沟通技巧和客户服务培训。
📝 站长洞察 (Editor’s Insight)
SoulX-Podcast的发布,标志着语音合成从短句工具向长内容自动化生产平台的范式跃迁。其1.7B参数与90分钟生成能力的结合,体现了当前AI模型‘小而精’的发展趋势——通过精巧的架构设计(如方言引导提示、副语言标记)实现强大功能,而非单纯堆砌参数。这背后是AIGC技术从‘辅助创作’向‘自主生产’演进的必然路径。未来,结合智能剪辑与内容策划,此类模型有望彻底重塑音频内容产业的成本结构和产出效率,是AI赋能实体经济、提升数字内容生产力的又一重要里程碑。
