Higgs Audio V2：李沐团队开源语音大模型，1000万小时数据训练，支持实时多人对话与语音克隆

最近更新: 2026年6月7日下午8:23

💡 站外导读：在当前AI语音技术飞速发展的浪潮中，高质量、多功能的语音合成与交互模型正成为行业焦点。然而，许多模型仍存在对话不自然、缺乏情感、难以处理多人场景等痛点。Higgs Audio V2的发布，正是为了解决这些核心挑战。作为由知名AI专家李沐及其团队Boson AI开发的开源语音大模型，它基于海量数据训练，旨在重新定义AI语音生成的自然度与交互深度，推动音频内容创作的革新。

Higgs Audio V2是什么

Higgs Audio V2 是李沐及其团队 Boson AI 开发的开源语音大模型。基于超过1000万小时的音频数据训练而成，具备多语言对话生成、自动韵律调整、语音克隆和歌声合成等功能。模型能模拟自然流畅的多人对话，自动匹配说话者的情绪和语调，支持低延迟的实时语音交互。支持零样本语音克隆，用户只需提供简短语音样本，即可复制特定人物的声音特征，可以合成歌声。Higgs Audio V2 能同时生成语音和背景音乐，为音频内容创作提供强大支持。

阅读目录

Higgs Audio V2是什么
Higgs Audio V2的主要功能
Higgs Audio V2的技术原理
Higgs Audio V2的项目地址
Higgs Audio V2的应用场景

📝 站长洞察 (Editor’s Insight)

Higgs Audio V2

Higgs Audio V2的主要功能

多语言对话生成：支持多语言对话生成，能模拟多人互动场景，自动匹配说话者的情绪和能量水平，使对话自然流畅。
自动韵律调整：在长文本朗读中，能根据内容自动调整语速、停顿和语调，无需人工干预，生成自然流畅的语音。
语音克隆与歌声合成：用户只需提供简短的语音样本，模型即可实现零样本语音克隆，复制特定人物的声音特征，能让克隆的声音哼唱旋律。
实时语音交互：支持低延迟响应，能理解用户情绪并做出情感化表达，提供接近人类的交互体验。
语音与背景音乐同步生成：能同时生成语音和背景音乐，实现“写一首歌并唱出来”的创作流程。

Higgs Audio V2的技术原理

AudioVerse 数据集：开发了一套自动化标注流程，结合多个语音识别模型、声音事件分类模型以及自研的音频理解模型，清洗并标注了 1000 万小时的音频数据。
统一音频分词器：从零开始训练了一个统一的音频分词器，能同时捕捉语义和声学特征。
DualFFN 架构：在几乎不增加计算开销的前提下，显著增强了大语言模型对声学 token 的建模能力。
零样本语音克隆：模型融入了上下文学习，能通过简单的提示（如简短的参考音频样本）进行零样本语音克隆，匹配说话风格。

Higgs Audio V2的项目地址

Github仓库：https://github.com/boson-ai/higgs-audio
在线体验Demo：https://huggingface.co/spaces/smola/higgs_audio_v2

Higgs Audio V2的应用场景

实时语音交互：适用于虚拟主播、实时语音助手等场景，提供低延迟和情感表达的自然互动。
音频内容创作：能生成自然对话和旁白，为有声读物、互动培训及动态故事讲述等提供强大支持。
娱乐和创意领域：语音克隆功能可复制特定人物的声音，开启娱乐和创意领域的新可能性。

📝 站长洞察 (Editor’s Insight)

主编点评：Higgs Audio V2的发布，不仅是一个新模型的亮相，更是AI语音技术向“多模态原生”与“极致自然交互”演进的一个标志性事件。李沐团队选择开源，体现了推动行业生态共建的远见。其核心突破在于：一，统一音频分词器与DualFFN架构，巧妙地在计算效率与建模能力间取得平衡，这为未来构建更强大的‘语音原生’大模型铺平了道路；二，集成多人对话、情感匹配、语音克隆与音乐合成于一体，正朝向‘全能型音频创作助手’迈进，预示着AIGC正从单一模态（文本、图像）向复杂、多模态的‘场景化内容生成’深度演化。对于开发者与创作者而言，这意味着可以更低门槛地构建具有高度沉浸感和个性化的音频应用，例如下一代虚拟主播、互动叙事游戏或个性化有声内容。这不仅是工具的升级，更是创作范式的革新。

TAGGED:AIGC Boson AI 李沐语音大模型

阿里Qwen3开源推理模型震撼发布：2350亿参数刷新AIME数学与LiveCode编程双料纪录

阶跃星辰Step 3发布：321B参数多模态推理模型，效率提升300%并即将开源

发表评价

Higgs Audio V2：李沐团队开源语音大模型，1000万小时数据训练，支持实时多人对话与语音克隆

Higgs Audio V2是什么

Higgs Audio V2的主要功能

Higgs Audio V2的技术原理

Higgs Audio V2的项目地址

Higgs Audio V2的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

GPT-5. 6 智商首破 130 天才线，比99%人类都聪明，实测干活能力同样炸裂

WebRL – 清华联合智谱AI推出的自进化在线课程强化学习框架

灵光App“灵光圈”社区焕新:上线热榜、关注等功能，PC端支持导入文档及音视频素材

OpenAI 开启 AI 安全飞轮：GPT-Red 如何重新定义模型鲁棒性

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

Higgs Audio V2是什么

Higgs Audio V2的主要功能

Higgs Audio V2的技术原理

Higgs Audio V2的项目地址

Higgs Audio V2的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复