Llasa TTS – 香港科技大学开源的文本转语音模型

最近更新: 2026年6月8日上午10:01

Llasa TTS是什么

Llasa TTS 是香港科技大学基于 LLaMA 架构推出的开源文本转语音（TTS）模型，支持高质量语音合成和克隆。Llasa TTS 基于单层向量量化（VQ）编解码器和单个 Transformer 架构，与标准 LLaMA 模型完全对齐，生成自然流畅的语音，支持情感表达和音色克隆等功能。Llasa TTS 在训练和推理阶段均表现出色，基于扩展训练时间和推理时间的计算资源，提升语音的自然度、韵律准确性和情感表达能力。Llasa TTS 提供 1B、3B 和 8B 参数规模的模型，支持多语言合成。

阅读目录

Llasa TTS是什么
Llasa TTS的主要功能
Llasa TTS的技术原理
Llasa TTS的项目地址
Llasa TTS的应用场景

Llasa TTS

Llasa TTS的主要功能

高质量语音合成：生成自然流畅的语音，支持中英文双语，适用于多种应用场景。
情感表达：注入情感信息，生成带有快乐、愤怒、悲伤等情感色彩的语音，增强语音的自然度和表现力。
语音克隆：仅需少量音频样本（如15秒），克隆特定人声的音色和情感，实现个性化语音合成。
长文本支持：支持处理长文本输入，生成连贯的语音输出，适用于有声读物、语音播报等场景。
零样本学习：支持对未见过的说话者或情感进行语音合成，无需额外的微调。

Llasa TTS的技术原理

基于 Transformer 的架构：基于单个 Transformer 架构，与标准的大型语言模型完全对齐。用单层向量量化（VQ）编解码器将语音波形转换为离散的语音标记，基于 Transformer 进行建模。
语音分词器：
- 编码：将语音信号分解为语义特征和声学特征，分别基于预训练的 Wav2Vec2-BERT 和卷积模块提取。
- 量化：用改进的向量量化（VQ）技术将特征编码为离散标记。
- 解码：将离散标记解码回高质量的语音波形，支持语义和声学信息的重建。
训练与推理扩展：
- 训练时间扩展：基于增加模型规模（如 1B、3B、8B 参数）或训练数据量（如 250k 小时语音数据），提升语音自然度和韵律准确性。
- 推理时间扩展：在推理阶段引入语音理解模型作为验证器，用复杂的搜索策略（如束搜索、最佳候选选择）优化生成结果，增强情感表达和音色一致性。
自回归生成：基于自回归生成方式，逐个生成语音标记，确保生成的语音在语义和韵律上与输入文本一致。

Llasa TTS的项目地址

GitHub仓库：https://github.com/zhenye234/LLaSA_training
HuggingFace模型库：https://huggingface.co/collections/HKUSTAudio/llasa
arXiv技术论文：https://arxiv.org/pdf/2502.04128
在线体验Demo：https://huggingface.co/spaces/srinivasbilla/llasa-3b-tts

Llasa TTS的应用场景

智能语音助手：为智能设备或软件提供自然流畅的语音交互功能，提升用户体验。
有声读物与在线教育：将文字内容转化为生动的语音，为用户或学生提供听觉学习体验。
语音播报与客服：用于新闻播报、交通信息提示或客服系统，提供高效的信息传递。
游戏与娱乐：为游戏角色或虚拟形象赋予个性化语音，增强沉浸感。
语音克隆与内容创作：克隆特定人声，用于广告配音、视频制作或个性化语音内容创作。

Gemini 2.0 Flash – Google推出的多模态 AI 模型

Gemma 3 QAT – 谷歌推出的最新开源模型，Gemma 3 量化版

发表评价

Llasa TTS – 香港科技大学开源的文本转语音模型

Llasa TTS是什么

Llasa TTS的主要功能

Llasa TTS的技术原理

Llasa TTS的项目地址

Llasa TTS的应用场景

发表评价取消回复

最近更新

Retinex-Diffusion – AI图像照明控制框架，让图像明暗更自然、细腻

EXAONE 3.0 – LG 推出的开源 AI 模型，专为英语和韩语设计

[AI生图咒语] 直播界面设计图

[AI生图咒语] 界面交互设计图

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

Llasa TTS是什么

Llasa TTS的主要功能

Llasa TTS的技术原理

Llasa TTS的项目地址

Llasa TTS的应用场景

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复