MOCR：3B参数开源文档解析模型，图形重建能力超越Gemini 3 Pro

💡 站外导读：传统OCR技术长期局限于文字识别，无法有效处理文档中的图表、公式等复杂视觉元素，导致大量信息在数字化过程中丢失。随着AI技术在文档理解、数据提取等场景的需求激增，行业亟需能“解析一切”的下一代文档AI工具。MOCR模型的推出，正旨在解决这一核心痛点，通过多模态解析能力，实现文档全要素的结构化输出。

MOCR是什么

MOCR（Multimodal OCR）是华中科技大学与小红书hi lab联合推出的多模态文档解析模型，仅3B参数在文档解析和图形重建上实现突破性表现。模型打破传统OCR只识别文字的局限，将图表、公式、流程图等视觉元素解析为可编辑的SVG代码，实现”解析一切”的新范式。在开源模型中排名第一，图形重建能力更超越Gemini 3 Pro，为文档AI领域带来范式转变。

阅读目录

MOCR是什么
MOCR的主要功能
MOCR的关键信息和使用要求
MOCR的核心优势
如何使用MOCR
MOCR的项目地址
MOCR的同类竞品对比
MOCR的应用场景

📝 站长洞察 (Editor’s Insight)

MOCR

MOCR的主要功能

文档全要素解析：支持识别文字、表格、公式、图表等所有页面元素，输出结构化数据并保持阅读顺序。
图形转SVG代码：将统计图表、科学插图、UI布局等视觉内容重建为可编辑的SVG代码。
多格式输入支持：支持PDF、网页截图、扫描件、手机拍照等多种文档类型的解析。
通用视觉能力：模型具备视觉问答、视觉定位、图像描述等通用多模态理解能力。
双版本模型：提供均衡版dots.mocr和SVG优化版dots.mocr-svg，满足不同场景需求。

MOCR的关键信息和使用要求

开发团队：华中科技大学 × 小红书hi lab
模型参数：3B（1.2B视觉编码器 + 1.5B语言解码器）
模型版本：dots.mocr（均衡版）、dots.mocr-svg（SVG增强版）
核心创新：将图形解析为SVG代码，实现”解析一切”的新范式
性能表现：文档解析开源第一，图形重建超越Gemini 3 Pro
GPU：支持CUDA的NVIDIA显卡（推荐用于推理加速）
内存：根据输入分辨率调整，高分辨率文档需要更大显存

MOCR的核心优势

小参数大能力：仅3B参数，性能却超越众多大模型，文档解析开源第一，图形重建反超Gemini 3 Pro。
全要素解析：模型打破传统OCR只识文字的局限，将图表、公式、流程图等视觉元素统一解析为结构化代码。
图形可编辑化：将图形转换为SVG代码，实现无损重建和二次编辑，非简单裁剪为像素图片。
数据引擎创新：支持构建PDF、网页、SVG资产等多源数据管道，解决图形监督信号稀缺难题。
评估方法革新：模型提出OCR Arena框架，用强VLM作裁判进行可靠对比评估。

如何使用MOCR

环境准备：创建Python 3.12虚拟环境，克隆GitHub仓库并安装依赖。
下载模型：运行下载脚本获取模型权重，注意保存路径不要包含英文句点。
启动服务：使用vLLM部署模型服务，支持GPU加速推理。
文档解析：调用解析脚本处理图片或PDF文件，输出结构化结果。
图形转换：使用SVG专用脚本将图表转换为可编辑的SVG代码。
获取结果：获取生成包含边界框的JSON文件、Markdown文本和可视化标注图。

MOCR的项目地址

GitHub仓库：https://github.com/rednote-hilab/dots.mocr
arXiv技术论文：https://arxiv.org/pdf/2603.13032
在线体验Demo：https://dotsocr.xiaohongshu.com/

MOCR的同类竞品对比

维度	MOCR	Gemini 3 Pro	PaddleOCR-VL
开发方	华中科大×小红书	谷歌	百度
参数规模	3B	未公开（大得多）	0.9B
开源状态	完全开源	闭源API	开源
核心定位	文档全要素解析+图形重建	通用多模态大模型	传统文字识别
文档解析Elo	1125（开源第一）	1211（业界第一）	920.5
olmOCR-Bench	83.9	未公开	80.0
图形处理能力	转为SVG代码（可编辑）	基础识别	不支持
部署方式	vLLM/Transformers本地部署	API调用	本地部署
核心优势	小参数大能力、图形可编辑化	通用能力极强、生态完善	轻量快速、中文优化好

MOCR的应用场景

学术科研：解析论文PDF、提取公式、重建图表，将扫描论文转为可编辑LaTeX，复现科研图表数据。
金融财经：分析财报、提取数据报表、数字化图表，把PDF财报中的柱状图折线图转为Excel可用数据。
法律政务：审查合同、数字化卷宗、识别证件，结构化提取多页合同关键信息并保持格式完整。
教育出版：数字化教材、建设试题库、识别板书，将印刷教材中的复杂公式和图表转为电子资源。
医疗健康：解析病历、提取检验报告、标注医学影像，处理包含化学分子式和医学示意图的文档。

📝 站长洞察 (Editor’s Insight)

MOCR的发布标志着文档AI从“文字识别”迈向“全要素理解”的范式跃迁。其核心突破在于将复杂的视觉图表转换为可编辑的SVG代码，这不仅是技术的优化，更是对文档数字化工作流的重构。在参数效率上，仅3B参数便在关键指标上超越参数量远大于它的闭源巨头Gemini，体现了“小模型大能力”的明确趋势，这对降低企业部署成本、推动技术普惠意义重大。更值得关注的是其开源策略与“OCR Arena”评估框架的提出，这为行业建立了可复现、可对比的基准，将加速整个领域的创新迭代。我们预见，以MOCR为代表的“可解析、可编辑、可计算”的文档智能，将成为AI落地企业服务（如金融、法律）的关键基础设施，其影响力将远超传统OCR工具。

MOCR：3B参数开源文档解析模型，图形重建能力超越Gemini 3 Pro

MOCR是什么

MOCR的主要功能

MOCR的关键信息和使用要求

MOCR的核心优势

如何使用MOCR

MOCR的项目地址

MOCR的同类竞品对比

MOCR的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

Claude Opus 5 – Anthropic 最新发布的旗舰级模型

MineExplorer – 美团推出的开放世界分钟级长程任务评测基准

WorkBuddy Bench – 腾讯开源的编码智能体评测套件

[AI生图咒语] 严肃职业肖像摄影提示词 (LinkedIn/商务高管头像)

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

MOCR是什么

MOCR的主要功能

MOCR的关键信息和使用要求

MOCR的核心优势

如何使用MOCR

MOCR的项目地址

MOCR的同类竞品对比

MOCR的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复