💡 站外导读:随着AI语音技术的飞速发展,行业对实时、多语言、多说话人交互的需求日益迫切。传统的语音合成系统常面临延迟高、音质不稳定、跨语言能力弱等痛点,难以满足播客、智能客服等复杂场景。在此背景下,小红书FireRedTTS-2应运而生,它不仅是一次技术迭代,更代表了流式语音合成向更高效率、更强表现力、更广泛应用的范式转移。
FireRedTTS-2是什么
FireRedTTS-2 是先进的长格式流式文本转语音(TTS)系统,专注于多说话人对话生成。采用12.5Hz流式语音分词器和双Transformer架构,能实现低延迟、高保真、多语言的语音合成。支持英语、中文、日语、韩语、法语、德语和俄语等多种语言,具备零样本跨语言及语码转换语音克隆能力。目前支持4个说话人的3分钟对话生成,可以通过扩展训练语料进一步延长对话时长和增加说话人数量。在播客生成和聊天机器人集成方面表现出色,提供稳定、自然的语音输出,可以根据上下文生成富有情感的语音。
阅读目录

FireRedTTS-2的主要功能
-
长对话语音生成:支持4个说话人的3分钟对话生成,可扩展训练语料以增加对话时长和说话人数量。
-
多语言支持:涵盖英语、中文、日语、韩语、法语、德语、俄语等,具备零样本跨语言及语码转换语音克隆能力。
-
低延迟与高保真:在L20 GPU环境下,首次数据包延迟低至140毫秒,适合实时交互场景,同时保证高质量音频输出。
-
稳定语音输出:在独白与对话测试中,生成语音与目标说话人相似度高,语音识别错误率低,能维持稳定的音质与韵律。
-
随机音色生成:可生成随机特征的语音,适用于构建语音识别模型训练数据或为语音交互系统提供多样化测试素材。
-
情感韵律生成:在聊天机器人集成中,能根据上下文生成富有情感的语音,提升交互体验。
-
实时流式生成:采用12.5Hz流式语音分词器,支持高保真流式解码,适合实时应用。
FireRedTTS-2的技术原理
-
12.5Hz流式语音分词器:以低帧率运行,能编码更丰富的语义信息,缩短语音序列,稳定文本到分词的建模,支持高保真流式解码,适合实时应用。
-
双Transformer架构:采用文本-语音交错格式,将标记了说话人的文本与对齐的语音分词按时间顺序连接起来,用双Transformer进行建模。一个大型的解码器仅Transformer预测第一层的分词,而一个较小的Transformer完成后续层。
-
多语言建模:通过多语言预训练,支持多种语言的语音生成,具备零样本跨语言及语码转换语音克隆能力,能适应不同语言的对话场景。
-
低延迟设计:优化了模型架构和推理流程,确保在L20 GPU环境下,首次数据包延迟可低至140毫秒,满足实时交互的需求。
-
长对话支持:通过高效的分词和建模机制,支持4个说话人的3分钟对话生成,并可通过扩展训练语料进一步延长对话时长和增加说话人数量。
-
上下文感知韵律:在生成语音时,能够根据上下文信息调整韵律和情感,使语音输出更加自然和富有表现力。
FireRedTTS-2的项目地址
- 项目官网:https://fireredteam.github.io/demos/firered_tts_2/
- Github仓库:https://github.com/FireRedTeam/FireRedTTS2
- arXiv技术论文:https://arxiv.org/pdf/2509.02020v1
FireRedTTS-2的应用场景
-
播客生成:能生成多说话人的播客内容,支持多种语言,提供稳定且自然的语音输出,适合制作多语言播客节目。
-
聊天机器人:可以集成到聊天框架中,根据上下文生成富有情感的语音,提升交互体验,适用于各种聊天机器人应用。
-
语音克隆:支持零样本跨语言及语码转换语音克隆,能生成与目标说话人相似度高的语音,适用于语音克隆相关应用。
-
语音交互系统:可用于构建语音交互系统,提供多样化的测试素材,支持随机音色生成,满足不同场景的需求。
-
语音识别模型训练:能生成随机特征的语音,适用于构建语音识别模型训练数据,减少对真实录音数据的依赖。
-
多语言语音合成:支持多种语言的语音合成,适用于需要多语言支持的语音应用,如国际会议、多语言客服等场景。
📝 站长洞察 (Editor’s Insight)
FireRedTTS-2的发布,标志着大模型驱动的语音合成从“单点突破”迈向“系统整合”的新阶段。其核心创新在于将低延迟流式分词器与双Transformer架构结合,在工程上解决了长对话生成与实时性的矛盾,这比单纯追求模型参数量更具现实意义。它支持多达7种语言的零样本克隆,直接回应了全球化内容创作与跨语言智能交互的刚性需求。从行业趋势看,AIGC正从文本、图像向音视频全模态深化,语音作为最自然的交互载体,其技术壁垒的降低将极大催化播客、虚拟主播、智能硬件等场景的商业化。小红书此举,不仅展现了其技术实力,更预示着内容平台正从“消费场景”向“创作基础设施”延伸,未来结合其社区生态,可能在“AI原生内容生产”上开辟独特路径。
