Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: OpenBMB重磅开源VoxCPM2:2B参数TTS模型首创声音设计,支持30种语言与实时克隆
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > OpenBMB重磅开源VoxCPM2:2B参数TTS模型首创声音设计,支持30种语言与实时克隆
AI 工具AIGC 资讯

OpenBMB重磅开源VoxCPM2:2B参数TTS模型首创声音设计,支持30种语言与实时克隆

站外新闻
最近更新: 2026年5月25日 下午10:28
AIGC OpenBMB TTS VoxCPM2 声音克隆 语音合成
SHARE

💡 站外导读:随着AI生成内容的爆发式增长,高质量、个性化且可控的语音合成需求日益迫切。传统TTS模型往往局限于固定音色库或基础克隆,难以满足创意产业对声音多样性和情感表达的精细要求。OpenBMB团队最新推出的VoxCPM2模型,正是针对这一核心痛点,旨在通过革命性的无分词器扩散自回归架构,为开发者提供一个强大、灵活且易于商用的语音生成基础设施。

VoxCPM2是什么

VoxCPM2是OpenBMB开源的2B参数语音合成模型。模型采用无分词器扩散自回归架构,支持30种语言及中文方言,输出48kHz录音室级音质。VoxCPM2首创Voice Design功能,可通过文字描述凭空创造声音;支持可控声音克隆,在保留参考音色的同时调节情感语速;更有终极克隆模式还原每一处声音细节。模型训练数据达236万小时,实时率0.13,Apache-2.0协议可商用,是新一代多语言TTS的标杆之作。

阅读目录
  • VoxCPM2是什么
  • VoxCPM2的主要功能
  • 如何使用VoxCPM2
  • VoxCPM2的关键信息和使用要求
  • VoxCPM2的核心优势
  • VoxCPM2的项目地址
  • VoxCPM2的同类竞品对比
  • VoxCPM2的应用场景
      • 📝 站长洞察 (Editor’s Insight)

VoxCPM2

VoxCPM2的主要功能

  • Voice Design(声音设计):通过自然语言描述(如”温柔的女声,30岁左右,语速缓慢”)从零创建虚拟声音,无需任何参考音频。
  • 可控声音克隆(Controllable Cloning):上传参考音频克隆音色,同时可通过文本指令(如”更欢快、语速稍快”)实时调节情感、语速和说话风格。
  • 终极克隆(Ultimate Cloning):提供参考音频及其转录文本,实现音频延续式克隆,完美复刻原声的音色、节奏、气息和情感细节。
  • 多语言合成:支持30种语言及9种中文方言(粤语、四川话等),可直接输入任意支持语言的文本合成,无需指定语言标签。
  • 实时流式生成:支持流式输出音频片段,RTF低至0.13(Nano-VLLM加速),适用实时对话场景。
  • 个性化微调:支持SFT全参数微调和LoRA高效微调,仅需5-10分钟音频即可定制专属声音。

如何使用VoxCPM2

  • 环境准备:通过 pip 安装 voxcpm 库确保 Python 环境满足 3.10 以上版本、PyTorch 2.5 以上和 CUDA 12.0 以上的硬件要求。
  • 模型加载:用 from_pretrained 方法加载 OpenBMB 发布的 VoxCPM2 预训练模型到显存中供后续调用。
  • 基础合成:调用模型的 generate 方法传入目标文本内容生成基础语音,将返回的音频数组保存为 48kHz 采样率的音频文件。
  • 声音设计:在待合成文本前添加括号包裹的自然语言描述来实现 Voice Design 功能,无需任何参考音频可凭空创造出符合描述的虚拟声音。
  • 声音克隆:传入参考音频文件路径和目标文本实现基础声音克隆,模型会提取参考音频的说话人音色特征用于合成新内容。
  • 可控克隆:在参考音频克隆的基础上于文本前添加括号内的风格指令来实现可控克隆,在保留原音色的同时调节情感、语速和说话风格。
  • 终极克隆:同时传入参考音频、其对应的转录文本以及目标合成文本实现终极克隆,模型通过音频延续方式完美复刻原声的音色、节奏和气息细节。
  • 流式生成:调用 generate_streaming 方法启用流式生成模式,模型逐块返回音频数据片段,适用实时对话和低延迟场景。
  • 命令行工具:在终端使用 voxcpm 命令行工具执行 design 或 clone 子命令,快速完成语音合成和声音克隆任务无需编写脚本。
  • Web 界面:运行项目提供的 app.py 文件启动基于 Gradio 的 Web 可视化界面,在浏览器中通过图形界面交互式地完成语音合成操作。
  • 生产部署:安装 nano-vllm-voxcpm 扩展库并使用其提供的 VoxCPM 类加载模型以实现生产级部署,获得低至 0.13 的实时率和并发请求处理能力。

VoxCPM2的关键信息和使用要求

  • 发布背景:VoxCPM2 由 OpenBMB(面壁智能)团队发布,是 VoxCPM 系列的最新主力版本,采用 Apache-2.0 协议完全开源且可商用。
  • 技术核心:基于 MiniCPM-4 架构的 2B 参数扩散自回归模型,训练数据达 236 万小时,采用无分词器设计直接在连续语音空间生成音频,支持 30 种语言及 9 种中文方言,输出 48kHz 录音室级音质。
  • 核心能力:首创 Voice Design 功能通过文字描述凭空创造声音;支持可控声音克隆保留参考音色并调节情感语速;终极克隆模式配合转录文本实现音频延续式完美复刻;实时流式生成 RTF 低至 0.13。
  • 硬件环境:Python 需 3.10 及以上版本,PyTorch 需 2.5.0 及以上,CUDA 需 12.0 及以上,显存需求约 8GB,首次使用需下载约 4GB 模型权重文件。
  • 安装部署:通过 pip install voxcpm 完成基础安装,支持 Python API 编程调用、voxcpm 命令行工具、本地 Web 可视化界面三种交互方式,生产环境建议安装 nano-vllm-voxcpm 实现高性能并发服务。

VoxCPM2的核心优势

  • 无分词器端到端架构:摒弃传统离散音频 token,采用扩散自回归直接在连续语音表征空间生成音频,避免 tokenization 带来的信息损失,实现更自然的韵律和更丰富的细节表达。
  • 原生声音设计能力:全球首创仅通过自然语言描述(如”温柔的中年女性,略带沙哑”)可凭空创造虚拟声音,无需任何参考音频,突破传统 TTS 必须依赖真人录音的限制。
  • 深度可控的克隆体系:支持三级克隆精度:基础克隆保留音色;可控克隆在保留音色的基础上通过文本指令实时调节情感、语速和风格;终极克隆结合转录文本实现音频延续式完美复刻。
  • 录音室级音质输出:采用 AudioVAE V2 非对称编解码技术(16kHz 编码→48kHz 解码),原生输出 48kHz 采样率音频,内置超分辨率能力,无需外部上采样器即可获得广播级音质。
  • 超大规模多语言覆盖:支持 30 种主流语言及 9 种中文方言(粤语、四川话等),基于 236 万小时多语言数据训练,跨语言音色迁移自然流畅,无需指定语言标签即可自动识别合成。

VoxCPM2的项目地址

  • GitHub仓库:https://github.com/OpenBMB/VoxCPM
  • HuggingFace模型库:https://huggingface.co/openbmb/VoxCPM2

VoxCPM2的同类竞品对比

对比维度 VoxCPM2 Fish Audio S2 CosyVoice3
参数规模 2B 4B 0.5B / 1.5B
技术架构 无分词器扩散自回归
(连续空间生成)
Dual-AR + DAC
(离散编解码)
AR + Flow Matching
+ HiFi-GAN
输出音质 48kHz 原生录音室级 24kHz 16kHz
Voice Design
(文字描述生声音)
✅ 首创支持 ❌ 不支持 ❌ 不支持
可控克隆
(调节情感/语速)
✅ 文本标签控制 ⚠️ 有限支持 ✅ 情感指令控制
发音准确度
(Seed-TTS-Eval)
中文CER 0.97%
英文WER 1.84%
中文CER 0.54%
英文WER 0.99%
中文CER 1.12%
英文WER 2.02%
语言覆盖 30种 + 9种中文方言 80+种语言 9种 + 多种中文方言
首包延迟 ~150ms(标准)
~80ms(加速)
— ~100ms
实时率(RTF)
RTX 4090
0.30(标准)
0.13(Nano-VLLM)
— 0.15
显存需求 ~8GB ~8GB ~4-6GB

VoxCPM2的应用场景

  • 内容创作与媒体制作:适用有声读物、播客及短视频配音,通过 Voice Design 快速生成分角色多语言内容,无需真人演员即可沉淀品牌声音资产。
  • 智能客服与语音助手:凭借低实时率和流式生成能力,可部署于智能客服与智能硬件交互场景,支持 30 种语言无缝切换并支持企业专属音色微调。
  • 游戏与虚拟偶像:为游戏角色提供多语言本地化配音与实时情感调节,适用于虚拟主播和元宇宙社交等需要即时生成个性化语音的娱乐场景。
  • 广告与品牌营销:通过声音克隆复刻品牌代言人音色批量生成广告语音,或设计符合品牌调性的虚拟发言人以降低长期代言成本。
  • 影视与后期制作:用于影视多语言版本制作与配音修复,终极克隆模式可精确复刻演员原声细节,实现补录对白与原始素材的声学一致性。

📝 站长洞察 (Editor’s Insight)

VoxCPM2的发布标志着语音合成技术进入了一个新的范式。其‘无分词器’的连续空间生成架构,是对传统离散token方法的根本性突破,有望解决韵律不自然、细节丢失等长期难题。更值得关注的是其‘Voice Design’功能,这不仅是技术炫技,更可能催生全新的内容创作流程——从“寻找声音”到“设计声音”。结合其三级克隆精度和强大的多语言能力,VoxCPM2正在将TTS从一个“转换”工具,提升为“生成”引擎。这呼应了AIGC领域的核心趋势:从对真实数据的模仿,转向对概念和创意的直接表达。其开源及可商用策略,将极大加速其在虚拟人、有声读物、游戏、跨境客服等场景的渗透,可能重塑相关产业链的成本结构和创意边界。

Staccato
ProductBot
ClipDrop
Vercel Labs 推出 find-skill:AI Agent 时代的 Skill 市场入口,一句话搞定开发工具安装
StockImg AI
TAGGED:AIGCOpenBMBTTSVoxCPM2声音克隆语音合成
分享
Email 复制链接 打印
Share
上一篇 月之暗面 Kimi K2.6 开源旗舰模型发布:性能对标GPT-5.4,支持300个Agent并行协作与5天自主运行
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

月之暗面 Kimi K2.6 开源旗舰模型发布:性能对标GPT-5.4,支持300个Agent并行协作与5天自主运行
AI 工具 AIGC 资讯
英伟达开源Lyra 2.0:单图生成可探索3D世界,打造具身智能新引擎
AI 工具 AIGC 资讯
yoyo:200行Rust启动的自我进化AI编程智能体,47天零人类提交破4万行代码|开源MIT
AI 工具 AIGC 资讯
阿里通义重磅开源AgentScope Tuner:一站式自动优化引擎,让AI智能体越用越聪明
AI 工具 AIGC 资讯

相关推荐

AI 工具

Replika

remaker
AI 工具

百度作家AI助手

remaker
AI 工具

Re.Art AI 图像生成器

remaker
AI 工具

Artificial Art

remaker
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

3D Agent AI AI Agent AIGC AI工具 AI智能体 AI生成内容 AI绘画 AI编程 AI编程工具 AI视频 AI设计 Anthropic chatgpt Claude Claude Code DALL-E3 DeepSeek Gemini GPT-5.5 meta Midjourney MoE MoE架构 NVIDIA openai Pika prompt runway Stability AI stable diffusion 世界模型 丛林 乐高 人像 人工智能 人物 具身智能 办公自动化 动物 咒语 图像生成模型 多模态 多模态大模型 大模型 大模型API 大语言模型 女性 字节跳动 室内设计 家居 局部重绘 展台 建筑 建筑设计 开发者工具 开源 开源工具 开源平台 开源框架 开源模型 强化学习 微摄影 微软 怪物 提示词 摄影 教程 新加坡 新闻 早报 智能体 月之暗面 水果 海报设计 清华大学 游戏 游戏美术 玻璃 破碎 科幻 窗 美食 背景 腾讯混元 芭比 英伟达 视频编辑 语音合成 赛博朋克 超现实主义 运动 阶跃星辰 阿里通义 阿里通义千问 风景 食物 香水 马斯克
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.