MiniCPM-o 4.5开源发布：9B参数全模态模型，实时看听说，端侧运行超越GPT-4o

💡 站外导读：在AI多模态模型的发展浪潮中，一个核心瓶颈正困扰着行业：当前主流模型依然被“回合制”的交互模式所束缚，用户说完一句，AI才能回应一句，效率低下且体验割裂。与此同时，强大的多模态能力往往依赖云端算力，难以在隐私敏感和实时响应的端侧场景落地。

MiniCPM-o 4.5是什么

MiniCPM-o 4.5 是面壁智能开源的 9B 参数全模态旗舰模型，采用端到端架构融合 SigLip2、Whisper、CosyVoice2 与 Qwen3-8B。作为行业首个支持「即时自由对话」的模型，模型实现了全双工交互——能边看、边听、边说，告别传统回合制”对讲机”模式。模型具备领先的视觉理解、超拟人语音生成及声音克隆能力，支持主动交互与实时流媒体处理，在端侧设备即可运行，已适配昇腾、海光等多种国产芯片，通过 llama.cpp、vLLM 等框架实现高效部署。

阅读目录

MiniCPM-o 4.5是什么
MiniCPM-o 4.5的主要功能
MiniCPM-o 4.5的技术原理
MiniCPM-o 4.5的项目地址
MiniCPM-o 4.5的应用场景

📝 站长洞察 (Editor’s Insight)

MiniCPM-o 4.5

MiniCPM-o 4.5的主要功能

全双工实时交互：模型能同时处理视觉、音频输入和生成语音输出，实现边看、边听、边说的并行感知与表达。
主动智能交互：模型以每秒一次的频率自主监测环境变化，主动判断何时发言，实现主动提醒、实时评论等类人化的交互行为。
超拟人语音合成：支持情感饱满、音色自然的端到端语音生成，可基于几秒音频样本克隆定制声音，且长语音合成保持稳定一致。
领先视觉理解：在OpenCompass评测中以9B参数超越GPT-4o和Gemini 2.0 Pro，支持高分辨率图像解析与高帧率视频实时理解。
端到端文档解析：在OmniDocBench基准上达到业界最佳水平，能高效处理复杂版式的英文文档理解与结构化提取任务。

MiniCPM-o 4.5的技术原理

端到端全模态架构设计：MiniCPM-o 4.5将SigLip2视觉编码器、Whisper-medium音频编码器、CosyVoice2语音解码器与Qwen3-8B语言模型通过稠密特征连接进行端到端联合训练，紧密耦合的设计使各模态信息能在模型内部自由流转，避免传统流水线架构中的信息损耗与误差累积，实现更精准的多模态理解与生成控制。
全双工多模态实时流机制：模型将离线的模态编解码器改造为支持流式输入输出的在线版本，语音解码器采用文本与语音token交错建模的方式实现全双工生成。在推理过程中，时分复用机制将并行的多模态数据流划分为毫秒级时间片内的顺序信息组，使语言模型主干能统一调度处理，在单一架构内高效完成实时音视频流的同步感知与响应。
主动交互决策机制：语言模型模块持续监控输入的视频流与音频流，以1Hz的频率自动触发发言决策，高频决策能力结合全双工特性，使模型能根据环境动态变化自主选择最合适的时机与内容进行回复，突破传统模型被动等待用户指令的局限。
可配置语音建模设计：模型延续多模态系统提示词的设计范式，同时支持文本系统提示词与音频系统提示词的双重输入，音频系统提示词用于指定目标音色特征。这种设计使模型在推理阶段仅需提供简短的参考音频样本，可完成声音克隆与角色扮演。

MiniCPM-o 4.5的项目地址

GitHub仓库：https://github.com/OpenBMB/MiniCPM-o
HuggingFace模型库：https://huggingface.co/openbmb/MiniCPM-o-4_5
在线体验Demo：https://huggingface.co/spaces/openbmb/minicpm-omni

MiniCPM-o 4.5的应用场景

智能助手与陪伴：模型作为全能型AI助手，可实时感知用户环境与情绪，主动提供提醒、建议或情感陪伴，支持个性化声音克隆，打造专属交互体验。
实时视频交互：适用视频监控分析、直播实时解说、远程教学辅导等场景，能同步理解画面内容与语音指令，即时作出语音反馈。
智能客服与导购：在电商、金融、政务等领域提供自然流畅的语音服务，支持多轮对话与主动推荐，提升用户服务体验与业务转化效率。
教育与培训：用于语言学习陪练、虚拟教师、技能培训等，通过视觉演示与语音讲解的结合，实现沉浸式互动教学。
内容创作与娱乐：支持有声读物生成、虚拟角色配音、游戏NPC交互等，声音克隆功能可快速复刻特定人物音色进行角色扮演。

📝 站长洞察 (Editor’s Insight)

MiniCPM-o 4.5的发布，标志着AI交互从“对讲机”时代正式迈向“自由对话”的全新范式。其“边看、边听、边说”的全双工能力，本质上是通过端到端的架构革命，将离散的感知与生成模块进行了深度耦合，这比简单的Pipeline串联要复杂和深刻得多。更值得关注的是其“主动交互”机制，这不再是被动的问答机器，而是一个能主动观察环境、自主决策发言的“智能体”雏形。结合其对昇腾、海光等国产芯片的适配，这不仅是技术上的突破，更是中国AI在关键基础设施上实现自主可控的一次重要实践。它预示着下一代AI助手将从“工具”进化为更自然的“环境智能伙伴”。

MiniCPM-o 4.5开源发布：9B参数全模态模型，实时看听说，端侧运行超越GPT-4o

MiniCPM-o 4.5是什么

MiniCPM-o 4.5的主要功能

MiniCPM-o 4.5的技术原理

MiniCPM-o 4.5的项目地址

MiniCPM-o 4.5的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

OpenAI扩大ChatGPT家长通知，青少年暴力违规将触发提醒

GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型

YouTube 收紧政策，严打低质 AI 内容

小鹏甩出TuringViT视觉编码器：只用十分之一数据，却把SOTA基线甩在身后

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

MiniCPM-o 4.5是什么

MiniCPM-o 4.5的主要功能

MiniCPM-o 4.5的技术原理

MiniCPM-o 4.5的项目地址

MiniCPM-o 4.5的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复