Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 阿里通义Fun-ASR1.5重磅发布:单模型支持30语言+方言识别,MoE架构引领ASR新纪元
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 阿里通义Fun-ASR1.5重磅发布:单模型支持30语言+方言识别,MoE架构引领ASR新纪元
AI 工具AIGC 资讯

阿里通义Fun-ASR1.5重磅发布:单模型支持30语言+方言识别,MoE架构引领ASR新纪元

站外新闻
最近更新: 2026年5月23日 上午9:30
Fun-ASR1.5 MoE架构 方言识别 语音识别大模型 阿里通义
SHARE

💡 站外导读:在跨境商务、智能家居、在线教育等领域,传统语音识别面临多语言切换繁琐、方言识别不准、古文转写困难等痛点。随着全球数字化进程加速,市场对高精度、多场景、智能化的语音识别需求激增。阿里通义团队推出的Fun-ASR1.5正是瞄准这些核心挑战,通过端到端大模型技术,试图解决语音识别从‘能用’到‘好用’的关键跨越。

Fun-ASR1.5是什么

Fun-ASR1.5是阿里通义团队推出的端到端语音识别大模型的新一代版本,单模型支持30种语言高精度识别,覆盖中文七大方言体系及二十余种地方口音,专项优化古诗词诵读识别。模型基于MoE架构实现自动语种切换,无需预设标签。Fun-ASR1.5让后处理支持智能标点预测与文本归一化,让语音转写从能用走向好用。

阅读目录
  • Fun-ASR1.5是什么
  • Fun-ASR1.5的主要功能
  • Fun-ASR1.5的技术原理
  • 如何使用Fun-ASR1.5
  • Fun-ASR1.5的关键信息和使用要求
  • Fun-ASR1.5的核心优势
  • Fun-ASR1.5的同类竞品对比
  • Fun-ASR1.5的应用场景
      • 📝 站长洞察 (Editor’s Insight)

Fun-ASR1.5

Fun-ASR1.5的主要功能

  • 多语言识别:单模型覆盖中、英、日、韩、法、德、西、葡、俄、阿拉伯语等30种语言。
  • 自动语种切换:无需预设语种标签,自动识别并切换Code-Switching场景下的多语言混合语音。
  • 方言识别:覆盖七大方言体系及二十余种地方口音,重点优化15种高需求方言。
  • 古诗词识别:构建先秦至近代古诗词语音-文本对齐语料库,支持文言诵读精准转写。
  • 智能标点预测:基于上下文语义自动插入逗号、句号、问号等标点符号。
  • 文本归一化:自动将口语中的数字、日期、金额、电话等转换为规范书面格式。

Fun-ASR1.5的技术原理

  • MoE架构:采用混合专家架构,听到特定语言时仅激活相关部分进行处理,提升多语言处理灵活性与效率。
  • 分级分阶段训练:在训练阶段分级、分阶段使用精准数据,提升真实世界复杂语音场景的应对能力。
  • 方言数据驱动:基于数十万小时真实方言语音数据训练,平均字错误率(CER)相比上一版本下降56.2%。
  • 古诗词语料库:构建涵盖《诗经》《楚辞》、李白杜甫诗集、苏轼辛弃疾词作等经典文本的真人诵读录音语料库。

如何使用Fun-ASR1.5

  • 阿里云百炼平台:访问阿里云百炼官网,进入模型体验中心语音板块调用API。
  • 魔搭社区:访问 https://modelscope.cn/studios/iic/FunAudio-ASR 直接在线体验。

Fun-ASR1.5的关键信息和使用要求

  • 产品定位:端到端语音识别大模型。
  • 支持语言:30种语言(覆盖欧洲、东亚、东南亚、南亚及中东主流语种)。
  • 方言覆盖:七大方言体系,重点优化上海话、粤语、四川话等15种高需求方言。
  • 古诗词准确率:内部评测集字符级准确率达97%。
  • 使用方式:API调用或在线体验。
  • 无需预设:多语言混合场景下无需提前指定语种标签。

Fun-ASR1.5的核心优势

  • 单模型多语言:一个模型无缝切换30种语言,减少多模型部署与维护成本。
  • 方言识别领先:基于数十万小时方言数据,CER较上版下降56.2%,支持原汁原味方言文字还原。
  • 自动Code-Switching:无需预设即可处理同一段对话中的多语言混合场景。
  • 文化场景专项优化:针对古诗词诵读进行专项训练,字符准确率达97%,助力文化传承。
  • 后处理智能化:自动标点与文本归一化大幅降低会议纪要、法律笔录等场景的后期人工编辑成本。

Fun-ASR1.5的同类竞品对比

维度 Fun-ASR1.5 Seed-ASR Tencent-ASR
语言覆盖 30种语言,单模型覆盖 多语言支持 多语言支持
方言支持 七大方言体系,15种重点优化,CER降56.2% 基础支持 基础支持
Code-Switching 无需预设标签,自动识别切换 支持 支持
古诗词识别 专项优化,97%字符准确率 未明确 未明确
智能后处理 自动标点+文本归一化(数字/日期/金额/电话) 基础标点能力 基础标点能力
架构特点 MoE混合专家架构 未公开 未公开
开放体验 阿里云百炼API + 魔搭社区 火山引擎 腾讯云

Fun-ASR1.5的应用场景

  • 跨国会议:在跨国会议场景中,Fun-ASR1.5可实时精准转写多语言混合对话内容,无需参会者提前预设语种或在多个翻译工具间来回切换。
  • 智能音箱:在智能家居与车载语音交互场景中,Fun-ASR1.5能精准识别各类方言指令,让智能音箱真正”听得懂乡音”。
  • 在线教育:在国学在线教育场景中,Fun-ASR1.5支持古诗词诵读的精准转写,以97%的字符级准确率助力传统文化数字化传承。
  • 新闻采访:在新闻采访与内容生产场景中,Fun-ASR1.5可自动添加标点符号并将口语中的数字、日期归一化为规范格式,大幅减少后期人工整理时间。

📝 站长洞察 (Editor’s Insight)

Fun-ASR1.5的发布,标志着语音识别正从‘通用化工具’向‘深度场景化引擎’演进。其MoE架构不仅是技术亮点,更代表了行业趋势——用高效、灵活的专家系统应对全球语言多样性。方言识别的56.2% CER下降和古诗词97%的准确率,显示出AI正从‘工具’转向‘文化传承与生活服务’的深度赋能者。结合行业背景,这预示着ASR的竞争已从基础准确率,升级为对方言保护、文化数字化、跨语种无缝交互等长尾场景的覆盖能力。Fun-ASR1.5的单模型多语言设计,为企业降低了集成复杂度,可能推动语音交互在跨境电商、国际会议、下沉市场等场景的普及。未来,结合端侧部署与隐私计算,类似技术或将更深嵌入每个人的生活。

机器人告别逐帧学动作!全球首个事件级具身智能世界模型WALL-WM重磅发布
AutoAgents – AI Agent 生成框架,自然语言创建和部署LLM智能体
COMET – 字节开源的通信优化系统
FastVLM – 苹果推出的高效视觉语言模型
支付宝AI支付破3亿笔:全球首个AI原生支付基建落地,Token Pay与AI钱包重塑智能体交易
TAGGED:Fun-ASR1.5MoE架构方言识别语音识别大模型阿里通义
分享
Email 复制链接 打印
Share
上一篇 PPT Master:开源AI PPT生成工作流,一键将PDF/Word转为原生可编辑PPTX
下一篇 商汤开源 SenseNova-Skills:20+ 模块化 AI 办公技能,一键驱动 Agent 完成 PPT/Excel/信息图全流程
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

VerseCrafter:复旦腾讯联手开源,4D几何控制重塑动态视频生成新范式
AI 工具 AIGC 资讯
英伟达开源PersonaPlex全双工语音AI模型:同时听和说,角色可定制,重新定义人机交互
AI 工具 AIGC 资讯
智谱开源GLM-4.7-Flash:300亿参数免费调用,编程中文写作翻译全面超越同类模型
AI 工具 AIGC 资讯
COTA:超参数科技发布全球首款「白盒」游戏AI智能体,LLM驱动实现百毫秒响应与真人级战术决策
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

Cloudflare 作为 AI 领域的新动向:与 CEO Matthew Prince 的专访 [译]

宝玉的分享
AI 工具AIGC 资讯

字节跳动Mamoda2.5重磅发布:25B参数MoE统一多模态模型,视频生成编辑速度提升12-18倍

站外新闻
MoE稀疏激活 多模态大模型 字节跳动AI 文生视频 视频编辑
量子芯片科技感占位特色图
AI 工具AIGC 资讯

育碧《孤岛惊魂7》秘密测试生成式AI遭曝光!曝料人称效果“烂透了”,押注NPC智能交互能否翻盘?

站外新闻
AI游戏开发 NPC智能交互 孤岛惊魂7 生成式AI 育碧
AI 工具

Aimerce

remaker
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI绘画 AI编程 AI视频 AI视频生成 AI设计 AI音乐生成 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 Midjourney MiniMax Mistral AI MoE架构 NVIDIA openai OpenClaw OpenRouter prompt SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大模型推理 大语言模型 字节跳动 家居 小米 小红书 展台 开源 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 教程 早报 昆仑万维 智能体编程 智谱AI 月之暗面 本地AI 海报设计 清华大学 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 端侧部署 网络安全 腾讯 腾讯混元 英伟达 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 边缘计算 通义千问 长上下文 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.