Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 阿里通义Fun-ASR1.5重磅发布:单模型支持30语言+方言识别,MoE架构引领ASR新纪元
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 阿里通义Fun-ASR1.5重磅发布:单模型支持30语言+方言识别,MoE架构引领ASR新纪元
AI 工具AIGC 资讯

阿里通义Fun-ASR1.5重磅发布:单模型支持30语言+方言识别,MoE架构引领ASR新纪元

站外新闻
最近更新: 2026年5月23日 上午9:30
Fun-ASR1.5 MoE架构 方言识别 语音识别大模型 阿里通义
SHARE

💡 站外导读:在跨境商务、智能家居、在线教育等领域,传统语音识别面临多语言切换繁琐、方言识别不准、古文转写困难等痛点。随着全球数字化进程加速,市场对高精度、多场景、智能化的语音识别需求激增。阿里通义团队推出的Fun-ASR1.5正是瞄准这些核心挑战,通过端到端大模型技术,试图解决语音识别从‘能用’到‘好用’的关键跨越。

Fun-ASR1.5是什么

Fun-ASR1.5是阿里通义团队推出的端到端语音识别大模型的新一代版本,单模型支持30种语言高精度识别,覆盖中文七大方言体系及二十余种地方口音,专项优化古诗词诵读识别。模型基于MoE架构实现自动语种切换,无需预设标签。Fun-ASR1.5让后处理支持智能标点预测与文本归一化,让语音转写从能用走向好用。

阅读目录
  • Fun-ASR1.5是什么
  • Fun-ASR1.5的主要功能
  • Fun-ASR1.5的技术原理
  • 如何使用Fun-ASR1.5
  • Fun-ASR1.5的关键信息和使用要求
  • Fun-ASR1.5的核心优势
  • Fun-ASR1.5的同类竞品对比
  • Fun-ASR1.5的应用场景
      • 📝 站长洞察 (Editor’s Insight)

Fun-ASR1.5

Fun-ASR1.5的主要功能

  • 多语言识别:单模型覆盖中、英、日、韩、法、德、西、葡、俄、阿拉伯语等30种语言。
  • 自动语种切换:无需预设语种标签,自动识别并切换Code-Switching场景下的多语言混合语音。
  • 方言识别:覆盖七大方言体系及二十余种地方口音,重点优化15种高需求方言。
  • 古诗词识别:构建先秦至近代古诗词语音-文本对齐语料库,支持文言诵读精准转写。
  • 智能标点预测:基于上下文语义自动插入逗号、句号、问号等标点符号。
  • 文本归一化:自动将口语中的数字、日期、金额、电话等转换为规范书面格式。

Fun-ASR1.5的技术原理

  • MoE架构:采用混合专家架构,听到特定语言时仅激活相关部分进行处理,提升多语言处理灵活性与效率。
  • 分级分阶段训练:在训练阶段分级、分阶段使用精准数据,提升真实世界复杂语音场景的应对能力。
  • 方言数据驱动:基于数十万小时真实方言语音数据训练,平均字错误率(CER)相比上一版本下降56.2%。
  • 古诗词语料库:构建涵盖《诗经》《楚辞》、李白杜甫诗集、苏轼辛弃疾词作等经典文本的真人诵读录音语料库。

如何使用Fun-ASR1.5

  • 阿里云百炼平台:访问阿里云百炼官网,进入模型体验中心语音板块调用API。
  • 魔搭社区:访问 https://modelscope.cn/studios/iic/FunAudio-ASR 直接在线体验。

Fun-ASR1.5的关键信息和使用要求

  • 产品定位:端到端语音识别大模型。
  • 支持语言:30种语言(覆盖欧洲、东亚、东南亚、南亚及中东主流语种)。
  • 方言覆盖:七大方言体系,重点优化上海话、粤语、四川话等15种高需求方言。
  • 古诗词准确率:内部评测集字符级准确率达97%。
  • 使用方式:API调用或在线体验。
  • 无需预设:多语言混合场景下无需提前指定语种标签。

Fun-ASR1.5的核心优势

  • 单模型多语言:一个模型无缝切换30种语言,减少多模型部署与维护成本。
  • 方言识别领先:基于数十万小时方言数据,CER较上版下降56.2%,支持原汁原味方言文字还原。
  • 自动Code-Switching:无需预设即可处理同一段对话中的多语言混合场景。
  • 文化场景专项优化:针对古诗词诵读进行专项训练,字符准确率达97%,助力文化传承。
  • 后处理智能化:自动标点与文本归一化大幅降低会议纪要、法律笔录等场景的后期人工编辑成本。

Fun-ASR1.5的同类竞品对比

维度 Fun-ASR1.5 Seed-ASR Tencent-ASR
语言覆盖 30种语言,单模型覆盖 多语言支持 多语言支持
方言支持 七大方言体系,15种重点优化,CER降56.2% 基础支持 基础支持
Code-Switching 无需预设标签,自动识别切换 支持 支持
古诗词识别 专项优化,97%字符准确率 未明确 未明确
智能后处理 自动标点+文本归一化(数字/日期/金额/电话) 基础标点能力 基础标点能力
架构特点 MoE混合专家架构 未公开 未公开
开放体验 阿里云百炼API + 魔搭社区 火山引擎 腾讯云

Fun-ASR1.5的应用场景

  • 跨国会议:在跨国会议场景中,Fun-ASR1.5可实时精准转写多语言混合对话内容,无需参会者提前预设语种或在多个翻译工具间来回切换。
  • 智能音箱:在智能家居与车载语音交互场景中,Fun-ASR1.5能精准识别各类方言指令,让智能音箱真正”听得懂乡音”。
  • 在线教育:在国学在线教育场景中,Fun-ASR1.5支持古诗词诵读的精准转写,以97%的字符级准确率助力传统文化数字化传承。
  • 新闻采访:在新闻采访与内容生产场景中,Fun-ASR1.5可自动添加标点符号并将口语中的数字、日期归一化为规范格式,大幅减少后期人工整理时间。

📝 站长洞察 (Editor’s Insight)

Fun-ASR1.5的发布,标志着语音识别正从‘通用化工具’向‘深度场景化引擎’演进。其MoE架构不仅是技术亮点,更代表了行业趋势——用高效、灵活的专家系统应对全球语言多样性。方言识别的56.2% CER下降和古诗词97%的准确率,显示出AI正从‘工具’转向‘文化传承与生活服务’的深度赋能者。结合行业背景,这预示着ASR的竞争已从基础准确率,升级为对方言保护、文化数字化、跨语种无缝交互等长尾场景的覆盖能力。Fun-ASR1.5的单模型多语言设计,为企业降低了集成复杂度,可能推动语音交互在跨境电商、国际会议、下沉市场等场景的普及。未来,结合端侧部署与隐私计算,类似技术或将更深嵌入每个人的生活。

Fobizz
Sticky
DeepCuts
Microsoft Designer
LogoCreatorAI
TAGGED:Fun-ASR1.5MoE架构方言识别语音识别大模型阿里通义
分享
Email 复制链接 打印
Share
上一篇 PPT Master:开源AI PPT生成工作流,一键将PDF/Word转为原生可编辑PPTX
下一篇 商汤开源 SenseNova-Skills:20+ 模块化 AI 办公技能,一键驱动 Agent 完成 PPT/Excel/信息图全流程
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

上海AI Lab开源Intern-S2-Preview:35B参数科学大模型,比肩万亿参数,首次实现晶体结构生成
AI 工具 AIGC 资讯
OpenHuman:开源AI桌面助手革命,主动感知工作上下文,集成118+应用构建你的私人知识网络
AI 工具 AIGC 资讯
开源AI视频翻译神器!牛津大学Violin:33种语言配音+口型同步,免费商用
AI 工具
MemPrivacy:记忆张量与荣耀AI联合开源,端云协同隐私保护框架,如何为Agent长期记忆筑牢安全防线?
AI 工具 AIGC 资讯

相关推荐

AI 工具

Forefront AI

remaker
AI 工具

Press Hook AI Press Release Generator

remaker
AI 工具

Alpha3D

remaker
AI 工具

ElevenLabs

remaker
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

3D AI AI Agent AIGC AI人像 AI工具 AI换脸 AI海报设计 AI生成视频 AI绘画 AI编程 AI编程工具 AI视频 AI设计 Andrej Karpathy app图标 b站 chatgpt DALL-E3 excel GPT meta Midjourney openai Pika prompt runway SDXL Stability AI stable diffusion UI设计 专业 丛林 乐高 人像 人工智能 人物 动物 吉卜力 咒语 图像生成 图标设计 圣诞 壁纸 多模态大模型 大模型 大模型API 大语言模型 女性 字节跳动 实验室 室内设计 家居 局部重绘 展台 帅哥 建筑 建筑设计 开源工具 开源模型 微摄影 微软 怪物 提示词 摄影 教程 新闻 日本排放核污水 早报 智能体 智谱AI 水果 海报 海报设计 游戏 游戏美术 玻璃 矢量插画 破碎 科幻 穿搭 窗 美食 背景 腾讯混元 节日 芭比 花 表情包 视频编辑 语音合成 赛博朋克 超现实主义 软件 运动 阿里通义 阿里通义千问 风景 食物 香水
Prompt 语宙Prompt 语宙
Follow US
© 2009-2023 Prompt 语宙. Paooo.com. All Rights Reserved.