Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 腾讯开源Covo-Audio:70亿参数端到端语音大模型,挑战GPT-4o的实时对话新标杆
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 腾讯开源Covo-Audio:70亿参数端到端语音大模型,挑战GPT-4o的实时对话新标杆
AI 工具AIGC 资讯

腾讯开源Covo-Audio:70亿参数端到端语音大模型,挑战GPT-4o的实时对话新标杆

站外新闻
最近更新: 2026年6月7日 下午8:04
Covo-Audio 全双工交互 端到端语音模型 腾讯开源 语音大模型
SHARE

💡 站外导读:传统语音AI依赖ASR-LLM-TTS的级联架构,存在延迟高、误差累积的行业痛点,严重制约了实时交互体验。随着GPT-4o等端到端模型的出现,行业迎来范式变革,但闭源特性限制了应用与创新。在此背景下,腾讯开源Covo-Audio——一款70亿参数的端到端语音大模型,以统一架构直接处理音频输入输出,旨在为开发者与研究者提供一个高性能、可定制的开源基座方案,推动语音AI技术的普及与突破。

Covo-Audio是什么

Covo-Audio 是腾讯开源的70亿参数端到端语音大模型,可直接处理连续音频输入并生成音频输出。模型核心创新包括分层三模态语音-文本交错架构、智能与说话人解耦技术,以及原生全双工交互能力。模型基于Qwen2.5-7B和Whisper构建,在口语对话、语音理解、音频理解等任务达到SOTA性能。作为统一架构的语音AI,模型避免了传统级联系统的延迟与误差累积,是GPT-4o语音能力的强有力开源替代方案。

阅读目录
  • Covo-Audio是什么
  • Covo-Audio的主要功能
  • Covo-Audio的关键信息和使用要求
  • Covo-Audio的核心优势
  • 如何使用Covo-Audio
  • Covo-Audio的项目地址
  • Covo-Audio的同类竞品对比
  • Covo-Audio的应用场景
      • 📝 站长洞察 (Editor’s Insight)

Covo-Audio

Covo-Audio的主要功能

  • 口语对话:支持端到端语音输入与语音输出的自然多轮对话交互。
  • 语音理解:模型深度融合声学特征与语义内容,实现高保真语音信号的全面解析。
  • 音频理解:模型支持扩展至非语音场景,具备对环境音、音乐等广义音频的综合感知能力。
  • 全双工交互:原生支持低延迟实时双向语音通信,允许自然打断与即时响应。

Covo-Audio的关键信息和使用要求

  • 开发者:腾讯(Tencent)
  • 模型规模:70亿参数(7B)
  • 架构类型:端到端统一音频语言模型
  • 开源版本:Covo-Audio-Chat
  • 基础模型:Qwen2.5-7B(LLM主干)+ Whisper(音频编码器)
  • 模型格式:Safetensors,BF16精度
  • 论文:arXiv:2602.09823
  • 开源协议:专用License(需查看仓库)
  • 适用场景:研究及实验用途
  • Python版本:≥ 3.11(推荐)
  • 依赖安装:通过 requirements.txt 一键安装
  • 核心依赖:Transformers、BigVGAN、huggingface-hub
  • 硬件资源:需支持BF16推理的GPU(建议显存充足),本地部署或云端推理均可

Covo-Audio的核心优势

  • 端到端统一架构:模型打破传统ASR→LLM→TTS级联模式,实现音频到音频的直接映射,消除误差累积并显著降低推理延迟。
  • 三模态深度融合:通过连续声学特征、离散语音token与自然语言文本的分层交错,建立高保真韵律与鲁棒语义的有效对齐。
  • 智能与音色解耦:模型借助多说话人训练分离对话智能与说话人特征,支持高质量语音的灵活迁移与个性化定制。
  • 原生全双工能力:模型用低延迟流式处理实现实时双向交互,支持自然打断与即时响应,逼近人类对话体验。
  • 开源生态价值:模型用70亿参数规模平衡性能与成本,完整技术栈开放降低应用门槛,为中文语音AI提供自主可控的基座方案。

如何使用Covo-Audio

  • 环境准备:创建Python 3.11环境并安装依赖,执行 conda create -n covoaudio python=3.11 和 conda activate covoaudio,通过 pip install -r requirements.txt 完成依赖安装。
  • 获取代码:克隆官方GitHub仓库至本地,运行 git clone https://github.com/Tencent/Covo-Audio.git 并进入项目目录 cd Covo-Audio。
  • 下载模型:安装HuggingFace工具并下载预训练权重,执行 pip install huggingface-hub 和 hf download tencent/Covo-Audio-Chat –local-dir ./covoaudio,模型将自动覆盖或存入指定目录。
  • 配置路径:如需自定义模型存储位置,修改 example.sh 中的 model_dir 和 decode_load_path 参数匹配实际路径。
  • 运行推理:执行一键推理脚本 bash example.sh,或修改 example.py 中的音频文件路径实现自定义输入交互。
  • 自定义使用:替换 example.py 中的输入音频路径为自有文件,即可与模型进行端到端语音对话交互。

Covo-Audio的项目地址

  • GitHub仓库:https://github.com/Tencent/Covo-Audio
  • HuggingFace模型库:https://huggingface.co/tencent/Covo-Audio-Chat
  • arXiv技术论文:https://arxiv.org/pdf/2602.09823

Covo-Audio的同类竞品对比

维度 Covo-Audio GPT-4o (Voice) Mini-Omni
开发方 腾讯 OpenAI 开源社区
模型规模 7B参数 未公开(估计数百B) 2B参数
架构 端到端统一 端到端原生 端到端统一
开源状态 完全开源 闭源API 开源
全双工支持 原生低延迟 原生支持 有限支持
中文优化 深度优化 通用多语言 基础支持
部署成本 中等(单卡可行) 高(API调用) 低(轻量级)

Covo-Audio的应用场景

  • 智能客服:模型支持端到端低延迟交互与全双工打断能力,实现自然流畅的实时语音问答与多音色个性化服务。
  • 智能硬件:模型能为智能音箱、车载系统、家居中控提供离线或端云结合的语音助手能力。
  • 内容创作:支持高效生成多角色对话配音、播客内容及实时语音翻译服务。
  • 教育培训:深度理解语音情感与韵律细节,构建口语陪练、虚拟讲师等沉浸式个性化教学交互系统。
  • 无障碍服务:以自然语音交互替代视觉界面,为视障群体、老年人提供免打字、免触屏的便捷信息获取与设备操控方式。

📝 站长洞察 (Editor’s Insight)

Covo-Audio的开源标志着语音AI从“拼接组件”迈向“原生感知”的关键一跃。其三模态分层架构与音色解耦技术,直指行业核心矛盾:如何在统一模型中平衡语义理解的精度与声学生成的自然度。这不仅是技术迭代,更是对交互范式的重新定义——全双工能力使AI从“一问一答”的工具,进化为可自然打断的对话伙伴。从产业视角看,70B级参数规模在性能与部署成本间取得了务实平衡,为智能硬件、客服等落地场景提供了关键选择。腾讯此次开源,不仅贡献了GPT-4o的强大开源替代品,更将中文语音AI的自主可控基座向前推进了一步,其生态影响或将在未来一年内集中显现。

AnimaTensor:基于V-Prediction技术的二次元图像生成模型|吐司AI发布Pro/Regular版本
Gen CLI:国内开发者福音!开源 Gemini-CLI 平替,基于 DeepSeek 的智能命令行编程助手
FoxBrain – 鸿海研究院推出的推理大语言模型
Zapt AI
Knowing.dev
TAGGED:Covo-Audio全双工交互端到端语音模型腾讯开源语音大模型
分享
Email 复制链接 打印
Share
上一篇 Mistral AI开源Leanstral:120B参数仅$18,重新定义AI代码智能体与形式化证明
下一篇 英伟达重磅开源NemoClaw!企业级AI Agent安全框架,深度适配RTX/DGX硬件,赋能GaaS新时代
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

OpenAI发布GPT-5.3 Instant:轻量级模型免费用,AI对话更自然、幻觉率显著降低
AI 工具 AIGC 资讯
GPT-5.4重磅发布:OpenAI旗舰模型首次在电脑操作上超越人类,专业工作效率提升83%
AI 工具 AIGC 资讯
蚂蚁集团发布Ming-flash-omni-2.0:开源全模态大模型,引领AI理解与生成一体化新范式
AI 工具 AIGC 资讯
OpenAI发布GPT-5.3-Codex-Spark:1000+ tokens/s实时编程模型,速度提升80%的开发神器
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

上海交大ML-Master登顶MLE-bench:AI专家Agent如何用“探索-推理融合”范式超越微软、OpenAI?

站外新闻
AI专家智能体 ML-Master MLE-bench 上海交通大学 探索-推理深度融合
AIGC 资讯

AgentSociety – 清华大学推出的社会模拟器

站外新闻
AI 工具AIGC 资讯

Firesearch:Mendable AI推出AI深度研究利器,GPT-4o驱动实时验证,精准文献与市场洞察一网打尽

站外新闻
AI研究工具 GPT-4o Mendable AI 信息提取 深度搜索
AI 工具

Winchat

remaker
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 知识管理 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.