Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 小米开源MiMo-Audio:首个端到端语音大模型发布,性能超越GPT-4o与Gemini
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 小米开源MiMo-Audio:首个端到端语音大模型发布,性能超越GPT-4o与Gemini
AI 工具AIGC 资讯

小米开源MiMo-Audio:首个端到端语音大模型发布,性能超越GPT-4o与Gemini

站外新闻
最近更新: 2026年6月7日 下午8:17
AIGC 小米 开源AI 端到端模型 语音大模型
SHARE

💡 站外导读:当前语音AI领域面临两大核心瓶颈:一是对海量高质量标注数据的过度依赖,推高了研发成本与迭代门槛;二是多数模型在复杂推理与跨任务泛化上能力有限。小米此次开源MiMo-Audio,正是针对这些痛点推出的破局之作。它标志着语音模型正从“识别工具”向具备理解、推理与生成能力的“智能体”快速演进,为行业带来新的技术范式与商业化想象空间。

Xiaomi-MiMo-Audio是什么

Xiaomi-MiMo-Audio是小米开源的首个原生端到端语音大模型。模型基于创新预训练架构和上亿小时训练数据,首次在语音领域实现了基于 In-Context Learning(ICL)的少样本泛化能力,打破了语音领域依赖大规模标注数据的瓶颈。Xiaomi-MiMo-Audio 在多项标准评测基准中大幅超越同参数量的开源模型,取得7B最佳性能。在音频理解基准 MMAU 的标准测试集上超过了 Google 的 Gemini-2.5-Flash,在音频复杂推理基准 Big Bench Audio S2T 任务中超越了 OpenAI 的 GPT-4o-Audio-Preview。

阅读目录
  • Xiaomi-MiMo-Audio是什么
  • Xiaomi-MiMo-Audio的主要功能
  • Xiaomi-MiMo-Audio的技术原理
  • Xiaomi-MiMo-Audio的项目地址
  • Xiaomi-MiMo-Audio的应用场景
      • 📝 站长洞察 (Editor’s Insight)

小米已经将预训练模型 MiMo-Audio-7B-Base 和指令微调模型 MiMo-Audio-7B-Instruct 向社区开源,同时开放的还有拥有12亿参数的 Tokenizer 模型。这一系列模型能够支持音频重建与音频转文本等关键任务。

Xiaomi-MiMo-Audio

Xiaomi-MiMo-Audio的主要功能

  • 少样本泛化能力:首次在语音领域实现基于 In-Context Learning(ICL)的少样本泛化,可快速适应新任务,见证语音领域的“GPT-3时刻”。
  • 跨模态对齐能力:后训练激发了智商、情商、表现力与安全性等跨模态对齐能力,语音对话在自然度、情感表达和交互适配上呈现极高的拟人化水准。
  • 语音理解和生成:在通用语音理解及对话等多项标准评测基准中大幅超越同参数量的开源模型,取得7B最佳性能,还超过了一些闭源语音模型。
  • 音频复杂推理:在面向音频复杂推理的基准 Big Bench Audio S2T 任务中表现出色,展现了强大的音频复杂推理能力。
  • 语音续写能力:预训练模型 MiMo-Audio-7B-Base 是目前开源领域第一个有语音续写能力的语音模型。
  • 支持混合思考:是首个把 Thinking 同时引入语音理解和语音生成过程中的开源模型,支持混合思考。
  • 音频转文本任务:Tokenizer 模型支持音频转文本(A2T)任务,覆盖超过千万小时语音数据。

Xiaomi-MiMo-Audio的技术原理

  • 创新预训练架构:采用创新的预训练架构,基于上亿小时的训练数据进行训练,使模型能更好地处理语音数据。
  • 少样本泛化能力:首次在语音领域实现了基于 In-Context Learning(ICL)的少样本泛化能力,通过少量样本即可快速适应新任务。
  • 跨模态对齐能力:后训练进一步激发了模型的智商、情商、表现力与安全性等跨模态对齐能力,使语音对话在自然度、情感表达和交互适配上达到极高的拟人化水准。
  • 无损压缩预训练:通过语音无损压缩预训练,实现了跨任务的泛化性,证明了语音领域的“涌现”行为。
  • Tokenizer 模型:采用1.2B参数量的 Transformer 架构 Tokenizer 模型,从头开始训练,覆盖超过千万小时语音数据,支持音频重建任务和音频转文本(A2T)任务。
  • 轻量后训练:通过轻量级的后训练(SFT),进一步优化模型性能,使其在语音理解和生成方面表现出色。
  • 混合思考机制:将 Thinking 机制同时引入语音理解和语音生成过程中,支持混合思考,提升了模型的复杂推理能力。

Xiaomi-MiMo-Audio的项目地址

  • 项目官网:https://xiaomimimo.github.io/MiMo-Audio-Demo/
  • Github仓库:https://github.com/XiaomiMiMo/MiMo-Audio
  • HuggingFace模型库
    • MiMo-Audio-7B-Base:https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Base
    • MiMo-Audio-7B-Instruct:https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Instruct
    • Tokenizer:https://huggingface.co/XiaomiMiMo/MiMo-Audio-Tokenizer
  • 技术论文:https://github.com/XiaomiMiMo/MiMo-Audio/blob/main/MiMo-Audio-Technical-Report.pdf

Xiaomi-MiMo-Audio的应用场景

  • 语音交互:可用于智能语音助手,提供更自然、更智能的语音交互体验,支持多种语言和方言的对话。
  • 语音生成:能生成高质量的语音内容,适用于有声读物、语音播报、语音导航等场景。
  • 语音转文本:支持语音转文本(A2T)任务,可应用于会议记录、语音输入、语音搜索等场景。
  • 音频内容创作:帮助内容创作者生成音频脚本或语音内容,提升创作效率。
  • 情感表达:在语音对话中展现丰富的情感表达,适用于情感陪伴机器人、客服系统等需要情感交互的场景。
  • 语音识别与理解:在音频理解基准测试中表现出色,可用于语音识别、语音指令控制等场景。

📝 站长洞察 (Editor’s Insight)

小米发布MiMo-Audio,绝非仅是一次技术开源,更是对语音AI竞争格局的一次重要重塑。其核心突破在于‘端到端’与‘少样本泛化’,这直接指向了当前大模型发展的关键瓶颈——数据效率与任务迁移成本。这意味着,开发者能以更低成本、更快速度构建复杂的语音应用。更深远看,模型展现的‘跨模态对齐’与‘混合思考’能力,预示着语音交互正从简单的指令执行,向具备情感、推理与创造力的‘类人交互’阶段跨越。结合小米庞大的硬件生态与场景数据,MiMo-Audio有望率先在智能家居、车载系统、具身智能等领域催生‘杀手级应用’,加速AI从数字世界向物理世界的渗透。这不仅是技术的胜利,更是生态协同与场景落地能力的集中体现,值得所有从业者深度关注。

开源免费!肉包Roubao:豆包手机助手平替,AI自动点外卖、发消息,无需Root
Perception-as-Control – 阿里通义实验室推出的图像动画框架
omp – 开源的 AI 终端编程智能体,能与 IDE 深度联动
Mistral AI重磅发布Voxtral Transcribe 2:实时语音转文本延迟低至200ms,支持13种语言,性能全面超越GPT-4o mini
PrompTune
TAGGED:AIGC小米开源AI端到端模型语音大模型
分享
Email 复制链接 打印
Share
上一篇 Decart AI开源Lucy Edit Dev:一句话指令即可编辑视频,保留原生运动与构图的革命性AI模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Decart AI开源Lucy Edit Dev:一句话指令即可编辑视频,保留原生运动与构图的革命性AI模型
AI 工具 AIGC 资讯
阿里通义开源Wan2.2-Animate:AI动作生成模型实现视频角色替换与表情驱动
AI 工具 AIGC 资讯
小米开源Lego-Edit:基于MLLM的下一代图像编辑框架,三阶段强化学习实现SOTA性能
AI 工具 AIGC 资讯
Codexia:革新AI编码体验的开源桌面神器,多会话管理与实时流式响应一网打尽
AI 工具

相关推荐

AI 工具

Taskade

remaker
AI 工具

Riffusion

remaker
AI 工具AIGC 资讯最新趋势

谷歌强推AI搜索遭反噬,DuckDuckGo下载量飙升30%:隐私搜索如何逆势崛起?

站外新闻
AI Overviews DuckDuckGo 用户选择权 谷歌AI搜索 隐私保护
AI 工具

Glow AI

remaker
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.4 GPT-5.5 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 NVIDIA openai OpenClaw prompt SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型应用 大模型推理 大语言模型 字节跳动 家居 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 智谱AI 月之暗面 本地AI 清华大学 生成式AI 知识管理 科大讯飞 端侧AI 端侧部署 美团 腾讯混元 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 赛博朋克 通义千问 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.