Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 腾讯开源Covo-Audio:70亿参数端到端语音大模型,挑战GPT-4o的实时对话新标杆
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 腾讯开源Covo-Audio:70亿参数端到端语音大模型,挑战GPT-4o的实时对话新标杆
AI 工具AIGC 资讯

腾讯开源Covo-Audio:70亿参数端到端语音大模型,挑战GPT-4o的实时对话新标杆

站外新闻
最近更新: 2026年6月7日 下午8:04
Covo-Audio 全双工交互 端到端语音模型 腾讯开源 语音大模型
SHARE

💡 站外导读:传统语音AI依赖ASR-LLM-TTS的级联架构,存在延迟高、误差累积的行业痛点,严重制约了实时交互体验。随着GPT-4o等端到端模型的出现,行业迎来范式变革,但闭源特性限制了应用与创新。在此背景下,腾讯开源Covo-Audio——一款70亿参数的端到端语音大模型,以统一架构直接处理音频输入输出,旨在为开发者与研究者提供一个高性能、可定制的开源基座方案,推动语音AI技术的普及与突破。

Covo-Audio是什么

Covo-Audio 是腾讯开源的70亿参数端到端语音大模型,可直接处理连续音频输入并生成音频输出。模型核心创新包括分层三模态语音-文本交错架构、智能与说话人解耦技术,以及原生全双工交互能力。模型基于Qwen2.5-7B和Whisper构建,在口语对话、语音理解、音频理解等任务达到SOTA性能。作为统一架构的语音AI,模型避免了传统级联系统的延迟与误差累积,是GPT-4o语音能力的强有力开源替代方案。

阅读目录
  • Covo-Audio是什么
  • Covo-Audio的主要功能
  • Covo-Audio的关键信息和使用要求
  • Covo-Audio的核心优势
  • 如何使用Covo-Audio
  • Covo-Audio的项目地址
  • Covo-Audio的同类竞品对比
  • Covo-Audio的应用场景
      • 📝 站长洞察 (Editor’s Insight)

Covo-Audio

Covo-Audio的主要功能

  • 口语对话:支持端到端语音输入与语音输出的自然多轮对话交互。
  • 语音理解:模型深度融合声学特征与语义内容,实现高保真语音信号的全面解析。
  • 音频理解:模型支持扩展至非语音场景,具备对环境音、音乐等广义音频的综合感知能力。
  • 全双工交互:原生支持低延迟实时双向语音通信,允许自然打断与即时响应。

Covo-Audio的关键信息和使用要求

  • 开发者:腾讯(Tencent)
  • 模型规模:70亿参数(7B)
  • 架构类型:端到端统一音频语言模型
  • 开源版本:Covo-Audio-Chat
  • 基础模型:Qwen2.5-7B(LLM主干)+ Whisper(音频编码器)
  • 模型格式:Safetensors,BF16精度
  • 论文:arXiv:2602.09823
  • 开源协议:专用License(需查看仓库)
  • 适用场景:研究及实验用途
  • Python版本:≥ 3.11(推荐)
  • 依赖安装:通过 requirements.txt 一键安装
  • 核心依赖:Transformers、BigVGAN、huggingface-hub
  • 硬件资源:需支持BF16推理的GPU(建议显存充足),本地部署或云端推理均可

Covo-Audio的核心优势

  • 端到端统一架构:模型打破传统ASR→LLM→TTS级联模式,实现音频到音频的直接映射,消除误差累积并显著降低推理延迟。
  • 三模态深度融合:通过连续声学特征、离散语音token与自然语言文本的分层交错,建立高保真韵律与鲁棒语义的有效对齐。
  • 智能与音色解耦:模型借助多说话人训练分离对话智能与说话人特征,支持高质量语音的灵活迁移与个性化定制。
  • 原生全双工能力:模型用低延迟流式处理实现实时双向交互,支持自然打断与即时响应,逼近人类对话体验。
  • 开源生态价值:模型用70亿参数规模平衡性能与成本,完整技术栈开放降低应用门槛,为中文语音AI提供自主可控的基座方案。

如何使用Covo-Audio

  • 环境准备:创建Python 3.11环境并安装依赖,执行 conda create -n covoaudio python=3.11 和 conda activate covoaudio,通过 pip install -r requirements.txt 完成依赖安装。
  • 获取代码:克隆官方GitHub仓库至本地,运行 git clone https://github.com/Tencent/Covo-Audio.git 并进入项目目录 cd Covo-Audio。
  • 下载模型:安装HuggingFace工具并下载预训练权重,执行 pip install huggingface-hub 和 hf download tencent/Covo-Audio-Chat –local-dir ./covoaudio,模型将自动覆盖或存入指定目录。
  • 配置路径:如需自定义模型存储位置,修改 example.sh 中的 model_dir 和 decode_load_path 参数匹配实际路径。
  • 运行推理:执行一键推理脚本 bash example.sh,或修改 example.py 中的音频文件路径实现自定义输入交互。
  • 自定义使用:替换 example.py 中的输入音频路径为自有文件,即可与模型进行端到端语音对话交互。

Covo-Audio的项目地址

  • GitHub仓库:https://github.com/Tencent/Covo-Audio
  • HuggingFace模型库:https://huggingface.co/tencent/Covo-Audio-Chat
  • arXiv技术论文:https://arxiv.org/pdf/2602.09823

Covo-Audio的同类竞品对比

维度 Covo-Audio GPT-4o (Voice) Mini-Omni
开发方 腾讯 OpenAI 开源社区
模型规模 7B参数 未公开(估计数百B) 2B参数
架构 端到端统一 端到端原生 端到端统一
开源状态 完全开源 闭源API 开源
全双工支持 原生低延迟 原生支持 有限支持
中文优化 深度优化 通用多语言 基础支持
部署成本 中等(单卡可行) 高(API调用) 低(轻量级)

Covo-Audio的应用场景

  • 智能客服:模型支持端到端低延迟交互与全双工打断能力,实现自然流畅的实时语音问答与多音色个性化服务。
  • 智能硬件:模型能为智能音箱、车载系统、家居中控提供离线或端云结合的语音助手能力。
  • 内容创作:支持高效生成多角色对话配音、播客内容及实时语音翻译服务。
  • 教育培训:深度理解语音情感与韵律细节,构建口语陪练、虚拟讲师等沉浸式个性化教学交互系统。
  • 无障碍服务:以自然语音交互替代视觉界面,为视障群体、老年人提供免打字、免触屏的便捷信息获取与设备操控方式。

📝 站长洞察 (Editor’s Insight)

Covo-Audio的开源标志着语音AI从“拼接组件”迈向“原生感知”的关键一跃。其三模态分层架构与音色解耦技术,直指行业核心矛盾:如何在统一模型中平衡语义理解的精度与声学生成的自然度。这不仅是技术迭代,更是对交互范式的重新定义——全双工能力使AI从“一问一答”的工具,进化为可自然打断的对话伙伴。从产业视角看,70B级参数规模在性能与部署成本间取得了务实平衡,为智能硬件、客服等落地场景提供了关键选择。腾讯此次开源,不仅贡献了GPT-4o的强大开源替代品,更将中文语音AI的自主可控基座向前推进了一步,其生态影响或将在未来一年内集中显现。

TripoSR – Stability AI 联合 VAST 开源的 3D 生成模型
Cube 3D – Roblox 推出的 AI 3D 生成模型
RebeccAI
微软Build大会重磅出击:自研代码AI平价替代Claude,多场景模型矩阵挑战OpenAI
VideoReward – 港中文、清华、快手等联合推出的视频生成偏好数据集及奖励模型
TAGGED:Covo-Audio全双工交互端到端语音模型腾讯开源语音大模型
分享
Email 复制链接 打印
Share
上一篇 Mistral AI开源Leanstral:120B参数仅$18,重新定义AI代码智能体与形式化证明
下一篇 英伟达重磅开源NemoClaw!企业级AI Agent安全框架,深度适配RTX/DGX硬件,赋能GaaS新时代
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

斯坦福重磅开源OpenJarvis:本地AI智能体框架,隐私、成本、延迟全优化
AI 工具 AIGC 资讯
智谱AI发布GLM-5-Turbo:专为龙虾Agent优化,深度解决大模型工具调用与长任务失速难题
AI 工具 AIGC 资讯
清华重磅开源!OpenMAIC:一键将任意文档转为AI多智能体交互课堂,备课成本仅为传统MOOC千分之一
AI 工具 AIGC 资讯
阿里开源影视级配音模型Fun-CineForge:精准口型同步+情绪克隆,重新定义多模态AI配音
AI 工具 AIGC 资讯

相关推荐

AI 工具

Transvribe

remaker
AI 工具

Bloony

remaker
AIGC 资讯

GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型

站外新闻
AI 工具AIGC 资讯

Star Office UI:开源AI可视化看板,实时监控Agent工作状态与多智能体协作

站外新闻
AI Agent 可视化看板 多智能体协作 开源工具 桌面宠物
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI绘画 AI编程 AI编程工具 AI编程智能体 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax Mistral AI MoE MoE架构 NVIDIA openai OpenClaw OpenRouter Pika prompt stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源AI工具 开源大模型 开源工具 开源框架 开源模型 强化学习 形式化验证 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.