Fun-ASR：钉钉×通义实验室发布行业级语音识别大模型，多场景准确率飙升20%！

💡 站外导读：随着企业数字化进程加速，传统语音识别工具在专业术语、复杂环境及个性化需求上捉襟见肘，导致会议纪要出错、沟通效率低下。行业呼唤更智能、更懂业务的语音解决方案。在此背景下，钉钉联合通义实验室推出的Fun-ASR应运而生，旨在通过海量行业数据训练与上下文推理优化，直击企业语音转写的核心痛点，为金融、家装、畜牧等多个垂直领域提供精准、可靠的语音识别服务。

Fun-ASR是什么

Fun-ASR 是钉钉与通义实验室语音团队联合推出的新一代语音识别大模型。经过海量音频数据训练，能精准识别互联网、科技、家装、畜牧等十多个行业的专业术语，能听懂“黑话”。例如，在保险行业，准确率较以往提升18%，在家装、畜牧等行业也实现了15%-20%的提升。模型能结合钉钉内的企业信息进行推理优化，减少幻觉问题，提供更可靠的转写结果。Fun-ASR支持企业专属模型定制训练，可利用企业的真实语音数据进一步优化算法，提升专属词汇的识别准确率，支持最多1000+热词导入。

阅读目录

Fun-ASR是什么
Fun-ASR的主要功能
Fun-ASR的技术原理
Fun-ASR的项目地址
Fun-ASR的应用场景

📝 站长洞察 (Editor’s Insight)

如今，Fun-ASR已深度融入钉钉的多个核心功能，包括会议字幕生成、智能纪要整理以及语音助手等，为各类企业应用场景构建了一套稳定可靠、高效流畅且易于扩展的语音识别体系。

通义实验室对Fun-ASR 的核心能力进行了全面升级，噪声场景下的识别准确率提升至 93%，支持 31 种语言自由混说、歌词与说唱识别，将流式识别模型的首字延迟降低到 160ms，显著提升在复杂环境下的语音识别性能。此外，轻量化版本 Fun-ASR-Nano-0.8B 正式开源，总参数量压缩至 0.8B，推理成本更低，同时支持本地部署与定制化微调，为开发者提供高效且灵活的语音识别解决方案。

Fun-ASR

Fun-ASR的主要功能

多行业术语识别：Fun-ASR 经过海量音频数据训练，能精准识别互联网、科技、家装、畜牧、汽车等十多个行业的专业术语，实测在保险行业准确率较以往提升 18%，在家装、畜牧等行业提升 15%-20%，支持最多 1000+ 热词导入，进一步优化生僻词汇识别。
上下文感知优化：模型可结合钉钉内的企业信息（如通讯录、日程、知识库等）进行推理优化，有效缓解大模型可能出现的幻觉问题，提供更可靠的转写结果，且需企业授权后生效。
企业专属定制训练：基于高效的端到端训练架构，Fun-ASR 能基于企业提供的真实场景语音数据进行算法优化，提升品牌名、项目代号、产品名、人名等专属词汇的识别准确率。
多场景集成应用：Fun-ASR 已集成到钉钉的会议字幕与同传、智能纪要、语音助手等多个功能模块，为企业级语境提供稳定、高效、易扩展的语音识别基座，满足企业对语音识别的高要求。

Fun-ASR的技术原理

海量数据训练：Fun-ASR 经过上亿小时音频数据的训练，涵盖多种行业和场景，能准确理解不同领域的专业术语。
行业共创优化：结合钉钉多行业客户的真实场景共创，模型在互联网、科技、家装、畜牧、汽车等十多个领域表现出色，显著提升了专业术语的识别准确率。
上下文推理优化：模型可结合企业在钉钉内的已有信息（如通讯录、日程、知识库等）进行推理优化，有效缓解大模型可能产生的幻觉问题，提供更可靠的转写结果。
端到端训练架构：基于高效的端到端训练架构，Fun-ASR 能利用企业提供的真实场景语音数据进一步优化算法，提升专属词汇的识别准确率，支持企业专属模型定制训练。
自定义热词支持：提供企业自定义热词能力，最多可支持 1000+ 热词导入，进一步优化对生僻词汇和专属术语的识别。

Fun-ASR的项目地址

GitHub仓库：https://github.com/FunAudioLLM/Fun-ASR
HuggingFace模型库：https://huggingface.co/FunAudioLLM/Fun-ASR-Nano-2512

Fun-ASR的应用场景

会议字幕与同传：Fun-ASR 能实时转写会议内容，为会议提供精准的字幕和同传服务，帮助参会者更好地理解和记录会议要点。
智能纪要：模型可以自动生成会议纪要，提取关键信息和行动项，节省人工整理的时间，提高会议效率。
语音助手：支持语音指令和交互，用户可以通过语音命令完成各种操作，如查询信息、安排日程等，提升使用体验。
家装与畜牧行业：在顾家家居等家装企业中，模型能准确识别专业表述，如“比利时进口 Pulse 脉冲乳胶”等，为后续分析客户需求提供可靠依据。在畜牧行业，也能精准识别相关术语，助力企业高效运营。
保险行业：Fun-ASR 在保险行业的应用显著提升了语音识别的准确率，帮助保险企业更好地处理客户咨询和业务流程。

📝 站长洞察 (Editor’s Insight)

Fun-ASR的发布，标志着语音识别技术正从通用走向深度行业化。它不再满足于‘听清’，而是追求‘听懂’，尤其是理解企业内部的‘黑话’和业务逻辑。通过与钉钉生态的深度融合，它将ASR从一个孤立功能，升级为可感知企业上下文（如通讯录、知识库）的智能节点，有效缓解了大模型常见的‘幻觉’问题。其开源轻量版Fun-ASR-Nano-0.8B更是战略性一步，降低了技术门槛，让开发者能快速定制，这预示着未来企业级AI工具将更强调‘开箱即用’与‘深度定制’的结合。在AIGC浪潮下，语音作为核心人机交互入口，其精准度和场景适应性将成为竞争关键，Fun-ASR的多行业共创模式或成行业新范式。

Fun-ASR：钉钉×通义实验室发布行业级语音识别大模型，多场景准确率飙升20%！

Fun-ASR是什么

Fun-ASR的主要功能

Fun-ASR的技术原理

Fun-ASR的项目地址

Fun-ASR的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

FeyNoBg – Feyn Labs 开源的自动背景去除模型

Qwen-Audio-3.0-ASR-Flash – 阿里千问推出的语音识别大模型

微软云端隐忧：千亿营收背后的增速换挡与杠杆风险

微信公众号推出 AI”一键排版”：自动分段、生成小标题、匹配配图三步到位

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

Fun-ASR是什么

Fun-ASR的主要功能

Fun-ASR的技术原理

Fun-ASR的项目地址

Fun-ASR的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复