💡 站外导读:随着企业数字化进程加速,传统语音识别工具在专业术语、复杂环境及个性化需求上捉襟见肘,导致会议纪要出错、沟通效率低下。行业呼唤更智能、更懂业务的语音解决方案。在此背景下,钉钉联合通义实验室推出的Fun-ASR应运而生,旨在通过海量行业数据训练与上下文推理优化,直击企业语音转写的核心痛点,为金融、家装、畜牧等多个垂直领域提供精准、可靠的语音识别服务。
Fun-ASR是什么
Fun-ASR 是钉钉与通义实验室语音团队联合推出的新一代语音识别大模型。经过海量音频数据训练,能精准识别互联网、科技、家装、畜牧等十多个行业的专业术语,能听懂“黑话”。例如,在保险行业,准确率较以往提升18%,在家装、畜牧等行业也实现了15%-20%的提升。模型能结合钉钉内的企业信息进行推理优化,减少幻觉问题,提供更可靠的转写结果。Fun-ASR支持企业专属模型定制训练,可利用企业的真实语音数据进一步优化算法,提升专属词汇的识别准确率,支持最多1000+热词导入。
如今,Fun-ASR已深度融入钉钉的多个核心功能,包括会议字幕生成、智能纪要整理以及语音助手等,为各类企业应用场景构建了一套稳定可靠、高效流畅且易于扩展的语音识别体系。
通义实验室对Fun-ASR 的核心能力进行了全面升级,噪声场景下的识别准确率提升至 93%,支持 31 种语言自由混说、歌词与说唱识别,将流式识别模型的首字延迟降低到 160ms,显著提升在复杂环境下的语音识别性能。此外,轻量化版本 Fun-ASR-Nano-0.8B 正式开源,总参数量压缩至 0.8B,推理成本更低,同时支持本地部署与定制化微调,为开发者提供高效且灵活的语音识别解决方案。

Fun-ASR的主要功能
-
多行业术语识别:Fun-ASR 经过海量音频数据训练,能精准识别互联网、科技、家装、畜牧、汽车等十多个行业的专业术语,实测在保险行业准确率较以往提升 18%,在家装、畜牧等行业提升 15%-20%,支持最多 1000+ 热词导入,进一步优化生僻词汇识别。
-
上下文感知优化:模型可结合钉钉内的企业信息(如通讯录、日程、知识库等)进行推理优化,有效缓解大模型可能出现的幻觉问题,提供更可靠的转写结果,且需企业授权后生效。
-
企业专属定制训练:基于高效的端到端训练架构,Fun-ASR 能基于企业提供的真实场景语音数据进行算法优化,提升品牌名、项目代号、产品名、人名等专属词汇的识别准确率。
-
多场景集成应用:Fun-ASR 已集成到钉钉的会议字幕与同传、智能纪要、语音助手等多个功能模块,为企业级语境提供稳定、高效、易扩展的语音识别基座,满足企业对语音识别的高要求。
Fun-ASR的技术原理
-
海量数据训练:Fun-ASR 经过上亿小时音频数据的训练,涵盖多种行业和场景,能准确理解不同领域的专业术语。
-
行业共创优化:结合钉钉多行业客户的真实场景共创,模型在互联网、科技、家装、畜牧、汽车等十多个领域表现出色,显著提升了专业术语的识别准确率。
-
上下文推理优化:模型可结合企业在钉钉内的已有信息(如通讯录、日程、知识库等)进行推理优化,有效缓解大模型可能产生的幻觉问题,提供更可靠的转写结果。
-
端到端训练架构:基于高效的端到端训练架构,Fun-ASR 能利用企业提供的真实场景语音数据进一步优化算法,提升专属词汇的识别准确率,支持企业专属模型定制训练。
-
自定义热词支持:提供企业自定义热词能力,最多可支持 1000+ 热词导入,进一步优化对生僻词汇和专属术语的识别。
Fun-ASR的项目地址
- GitHub仓库:https://github.com/FunAudioLLM/Fun-ASR
- HuggingFace模型库:https://huggingface.co/FunAudioLLM/Fun-ASR-Nano-2512
Fun-ASR的应用场景
-
会议字幕与同传:Fun-ASR 能实时转写会议内容,为会议提供精准的字幕和同传服务,帮助参会者更好地理解和记录会议要点。
-
智能纪要:模型可以自动生成会议纪要,提取关键信息和行动项,节省人工整理的时间,提高会议效率。
-
语音助手:支持语音指令和交互,用户可以通过语音命令完成各种操作,如查询信息、安排日程等,提升使用体验。
-
家装与畜牧行业:在顾家家居等家装企业中,模型能准确识别专业表述,如“比利时进口 Pulse 脉冲乳胶”等,为后续分析客户需求提供可靠依据。在畜牧行业,也能精准识别相关术语,助力企业高效运营。
-
保险行业:Fun-ASR 在保险行业的应用显著提升了语音识别的准确率,帮助保险企业更好地处理客户咨询和业务流程。
📝 站长洞察 (Editor’s Insight)
Fun-ASR的发布,标志着语音识别技术正从通用走向深度行业化。它不再满足于‘听清’,而是追求‘听懂’,尤其是理解企业内部的‘黑话’和业务逻辑。通过与钉钉生态的深度融合,它将ASR从一个孤立功能,升级为可感知企业上下文(如通讯录、知识库)的智能节点,有效缓解了大模型常见的‘幻觉’问题。其开源轻量版Fun-ASR-Nano-0.8B更是战略性一步,降低了技术门槛,让开发者能快速定制,这预示着未来企业级AI工具将更强调‘开箱即用’与‘深度定制’的结合。在AIGC浪潮下,语音作为核心人机交互入口,其精准度和场景适应性将成为竞争关键,Fun-ASR的多行业共创模式或成行业新范式。
