Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Mega-ASR – NTU、NUS、上海AI Lab开源的语音识别模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Mega-ASR – NTU、NUS、上海AI Lab开源的语音识别模型
AIGC 资讯

Mega-ASR – NTU、NUS、上海AI Lab开源的语音识别模型

站外新闻
最近更新: 2026年6月7日 下午6:50
SHARE

Mega-ASR是什么

Mega-ASR 是南洋理工大学(NTU)、新加坡国立大学(NUS)与上海人工智能实验室联合开源的全场景鲁棒语音识别基座模型,模型以 Qwen3-ASR 1.7B 为底层架构,针对真实世界中复杂声学环境(如噪音、远场、回声、遮挡、传输丢包等复合场景)下的语音识别难题,提出了可扩展的复合数据构建与渐进式声学到语义优化框架。

阅读目录
  • Mega-ASR是什么
  • Mega-ASR的主要功能
  • Mega-ASR的技术原理
  • 如何使用Mega-ASR
  • Mega-ASR的核心优势
  • Mega-ASR的项目地址
  • Mega-ASR的同类竞品对比
  • Mega-ASR的应用场景

Mega-ASR

Mega-ASR的主要功能

  • 全场景鲁棒语音识别:覆盖 7 种原子声学效应(噪音、远场、遮挡、回声混响、录音染色、电子失真、传输丢包)及 54 种物理合理的复合声学场景,实现单一模型应对多种真实环境。
  • 渐进式声学到语义优化(A2S-SFT):三阶段渐进训练,先训练编码器与对齐器适应中等退化语音(WER<<30%→50%→70%),再激活大语言模型的语义恢复能力,最后进行端到端联合微调,解决”声学感知”与”语义重建”两大耦合瓶颈。
  • 双粒度动态奖励优化(DG-WGPO):针对 WER>30% 时模型错误模式从”词级混淆”突变为”句级幻觉/丢句”的问题,引入 Token 级精修奖励与句子级重构奖励,通过 WER 门控动态融合,强化极端条件下的语义保持能力。
  • 环境感知即插即用路由:内置轻量级音频质量分类器(单层 Transformer),自动判断输入音频为”干净”或”退化”状态,干净语音走原始 Qwen3-ASR backbone,退化语音走 Mega-ASR 鲁棒 LoRA 分支,实现零侵入式增强。
  • 开源数据集 Voices-in-the-Wild-2M:发布包含 240 万条合成音频及 5,000 条评测音频(含 1,500 条真实录音)的大规模鲁棒 ASR 数据集,覆盖 7 大元场景与 54 种混合场景,难度分布经过可控实验校准。

Mega-ASR的技术原理

  • Voices-in-the-Wild-2M 数据构建:采用频谱级代码仿真,先独立模拟 7 种原子声学效应作为基础,再通过智能体验证物理合理性(如”教堂=远场+回声”),组合生成 54 种复合场景;通过统一严重程度参数 k∈[0,1] 控制难度分布,并剔除 WER>70% 的不稳定样本。
  • A2S-SFT 三阶段训练:第一阶段仅训练音频编码器与对齐器,按 WER<<30%、<<50%、<<70% 的课程逐步扩展;第二阶段冻结声学模块,单独微调大语言模型以激活语义先验;第三阶段联合训练所有模块,实现声学证据与语义推理的端到端对齐。
  • DG-WGPO 动态奖励机制:静态奖励由 WER 奖励与反重复惩罚组成;动态奖励核心包含 Token 级精修奖励(区分软/硬替换错误)和句子级重构奖励(基于最长公共子序列与长度惩罚),通过 WER 门控(阈值 τ=0.3)镜像融合,低 WER 时侧重局部精修,高 WER 时侧重整体语义保持。
  • 环境感知路由模型:基于 80 维 log-Mel 特征,采用轻量级卷积前端 + 单层 Transformer 编码器 + 注意力池化结构,二分类准确率超过 99.5%,推理开销极低,实现清洁/退化语音的自动分流。

如何使用Mega-ASR

  • 环境准备与依赖安装:基于 Qwen3-ASR 开源生态搭建运行环境,安装相关音频处理库及模型推理依赖(如 transformers、torchaudio 等),确保支持 80 维 log-Mel 谱特征提取与模型权重加载。
  • 加载双模型权重:同时加载两个组件,原始 Qwen3-ASR 1.7B backbone 作为基座模型,以及 Mega-ASR 的鲁棒性 LoRA 权重;另外需加载轻量级环境感知路由模型(单层 Transformer,隐藏维度 128,基于 LoRA 微调)。
  • 音频预处理后送入路由模型:对输入音频提取 80 维 log-Mel 谱特征,经过轻量级卷积前端编码后,送入路由模型的单层 Transformer 进行二分类判断,自动识别当前音频属于”干净语音”还是”退化语音”(准确率超 99.5%)。
  • 自动分流推理:路由模型判定为干净语音时,直接调用原始 Qwen3-ASR backbone 进行标准识别,保证 LibriSpeech 等干净域性能不受损;判定为退化语音时,自动切换至 Mega-ASR 鲁棒 LoRA 分支,激活复合声学场景下的强抗噪与语义恢复能力。
  • 获取识别结果:模型输出文本转写结果,在极端退化场景(如远场峰值 -5.2dB、NOIZEUS 0dB)下仍能避免空白输出或语义幻觉,保持高完整度的语音识别结果。

Mega-ASR的核心优势

  • 复合场景性能领先:在 Voices-in-the-Wild-Bench 混合退化场景下,WER 达到 2.73/4.57,相对 Whisper-Large-v3 降低 65.8%/69.1%,相对 Gemini-3-Flash 降低 65.8%;在 NOIZEUS 0dB 极端条件下,WER 降至 19.80,相对 Qwen3-ASR 降低 17.4%,相对 Gemini-3-Flash 降低 64.5%。
  • 语义恢复能力突出:在远场峰值 -5.2dB 的极端案例中,Qwen3-ASR 输出空白(WER 100%),Gemini-3-Pro 产生流畅但无关的幻觉内容(WER 86.1%),而 Mega-ASR 精确恢复参考文本(WER 0.0%)。
  • 干净域性能无损:通过环境感知路由,LibriSpeech 等干净基准 WER 从 1.78/3.57 进一步优化至 1.63/3.37,热词识别、流式推理等原有能力不受影响。
  • 训练稳定性高:数据集构建过程中过滤 WER>70% 的不可学习样本,A2S-SFT 采用课程学习策略逐步扩展难度,避免模型在极端退化条件下训练崩溃。
  • 完全开源可复现:模型权重、训练代码、数据集构建流程及评测基准均开源,基于成熟的 Qwen3-ASR 生态,社区接入门槛低。

Mega-ASR的项目地址

  • 项目主页:https://xzf-thu.github.io/Mega-ASR/
  • GitHub仓库:https://github.com/xzf-thu/Mega-ASR
  • Hugging Face 模型库:https://huggingface.co/zhifeixie/Mega-ASR
  • arXiv技术论文:https://arxiv.org/pdf/2605.19833

Mega-ASR的同类竞品对比

对比维度 Mega-ASR Whisper Large-v3 Qwen3-ASR 1.7B Gemini-3-Flash
开源状态 完全开源 完全开源 完全开源 闭源
底层架构 Qwen3-ASR 1.7B Whisper Qwen3-ASR 1.7B Gemini
复合场景覆盖 7种原子+54种复合 有限 有限 有限
NOIZEUS 0dB WER 19.80 ~55.78 23.97 55.78
VOiCES R4-B-F WER 45.69% ~60%+ 54.01% ~50%+
干净语音性能 1.63/3.37 (LibriSpeech) 1.78/3.53 1.78/3.57 1.52/3.29
语义恢复能力 强(极端条件下WER可降至0%) 弱(易丢句/幻觉) 中等 弱(易产生幻觉)
即插即用增强 支持(环境感知路由) 不支持 不支持 不支持

Mega-ASR的应用场景

  • 车载语音交互:应对发动机噪音、风噪、多人交谈等复合声学环境,提升导航与指令识别准确率。
  • 远场会议/课堂转写:解决会议室回声、距离衰减、设备录音染色等问题,实现高质量自动纪要。
  • 户外采访与直播字幕:在街道噪音、风声、遮挡等恶劣条件下保持字幕生成的完整性与准确性。
  • 智能家居语音控制:提升远距离、多房间混响环境下的唤醒词与指令识别鲁棒性。
  • 电话客服与 VoIP 通话分析:针对传输丢包、码率压缩、电子失真等信道退化问题,保障通话内容识别质量。
Mistral AI开源Voxtral TTS:40亿参数语音克隆模型,90ms延迟碾压ElevenLabs
Anthropic 深耕韩国:前 Snowflake 高管挂帅首尔办公室,Claude 成全球最活跃 AI 市场核心引擎
Cosmos 3 – 英伟达开源的全模态物理 AI 基础大模型
PixVerse C1:全球首个影视行业大模型,多宫格分镜一键成片与工业级动作引擎深度解析
Claude Code 实战宝典:开源指南含86+技巧与10+工作流对比,从氛围编程到智能体工程
分享
Email 复制链接 打印
Share
上一篇 CodeGraph – 开源代码知识图谱工具,加速代码理解和分析
下一篇 Reasonix – 专为 DeepSeek 推出的开源终端编程 Agent
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Software Copyright Materials Skill – 开源软著资料生成Skill
AIGC 资讯
Dulus – 开源的 CLI AI Agent,可驱动多模型工具调用
AIGC 资讯
Reasonix – 专为 DeepSeek 推出的开源终端编程 Agent
AIGC 资讯
CodeGraph – 开源代码知识图谱工具,加速代码理解和分析
AIGC 资讯

相关推荐

AI 工具AIGC 资讯

MiniCPM-V 4.6发布:1.3B参数模型性能越级,重新定义端侧多模态AI天花板

站外新闻
AIGC MiniCPM-V 4.6 智能密度 端侧多模态大模型 面壁智能
AIGC 资讯

DataBuddy – 腾讯云推出的大数据智能体工作台

站外新闻
量子芯片科技感占位特色图
AI 工具AIGC 资讯

日本Datasection携手OpenAI:TAIZA云平台深度整合API,赋能亚太企业智能工作流

站外新闻
Datasection OpenAI API TAIZA AI云平台 企业智能化转型 智能工作流
流光脑波AI大脑占位特色图
AIGC 资讯最新趋势

AI生成内容反超人类:互联网一半文章已非人造,我们正面临‘精神断粮’危机

站外新闻
AIGC AI生成内容 Slop 大语言模型 认知退化
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 支付宝 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.