Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: MOCR:3B参数开源文档解析模型,图形重建能力超越Gemini 3 Pro
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > MOCR:3B参数开源文档解析模型,图形重建能力超越Gemini 3 Pro
AI 工具AIGC 资讯

MOCR:3B参数开源文档解析模型,图形重建能力超越Gemini 3 Pro

站外新闻
最近更新: 2026年5月25日 下午10:30
SVG代码生成 华中科技大学 多模态OCR 小红书hi lab 文档解析模型
SHARE

💡 站外导读:传统OCR技术长期局限于文字识别,无法有效处理文档中的图表、公式等复杂视觉元素,导致大量信息在数字化过程中丢失。随着AI技术在文档理解、数据提取等场景的需求激增,行业亟需能“解析一切”的下一代文档AI工具。MOCR模型的推出,正旨在解决这一核心痛点,通过多模态解析能力,实现文档全要素的结构化输出。

MOCR是什么

MOCR(Multimodal OCR)是华中科技大学与小红书hi lab联合推出的多模态文档解析模型,仅3B参数在文档解析和图形重建上实现突破性表现。模型打破传统OCR只识别文字的局限,将图表、公式、流程图等视觉元素解析为可编辑的SVG代码,实现”解析一切”的新范式。在开源模型中排名第一,图形重建能力更超越Gemini 3 Pro,为文档AI领域带来范式转变。

阅读目录
  • MOCR是什么
  • MOCR的主要功能
  • MOCR的关键信息和使用要求
  • MOCR的核心优势
  • 如何使用MOCR
  • MOCR的项目地址
  • MOCR的同类竞品对比
  • MOCR的应用场景
      • 📝 站长洞察 (Editor’s Insight)

MOCR

MOCR的主要功能

  • 文档全要素解析:支持识别文字、表格、公式、图表等所有页面元素,输出结构化数据并保持阅读顺序。
  • 图形转SVG代码:将统计图表、科学插图、UI布局等视觉内容重建为可编辑的SVG代码。
  • 多格式输入支持:支持PDF、网页截图、扫描件、手机拍照等多种文档类型的解析。
  • 通用视觉能力:模型具备视觉问答、视觉定位、图像描述等通用多模态理解能力。
  • 双版本模型:提供均衡版dots.mocr和SVG优化版dots.mocr-svg,满足不同场景需求。

MOCR的关键信息和使用要求

  • 开发团队:华中科技大学 × 小红书hi lab
  • 模型参数:3B(1.2B视觉编码器 + 1.5B语言解码器)
  • 模型版本:dots.mocr(均衡版)、dots.mocr-svg(SVG增强版)
  • 核心创新:将图形解析为SVG代码,实现”解析一切”的新范式
  • 性能表现:文档解析开源第一,图形重建超越Gemini 3 Pro
  • GPU:支持CUDA的NVIDIA显卡(推荐用于推理加速)
  • 内存:根据输入分辨率调整,高分辨率文档需要更大显存

MOCR的核心优势

  • 小参数大能力:仅3B参数,性能却超越众多大模型,文档解析开源第一,图形重建反超Gemini 3 Pro。
  • 全要素解析:模型打破传统OCR只识文字的局限,将图表、公式、流程图等视觉元素统一解析为结构化代码。
  • 图形可编辑化:将图形转换为SVG代码,实现无损重建和二次编辑,非简单裁剪为像素图片。
  • 数据引擎创新:支持构建PDF、网页、SVG资产等多源数据管道,解决图形监督信号稀缺难题。
  • 评估方法革新:模型提出OCR Arena框架,用强VLM作裁判进行可靠对比评估。

如何使用MOCR

  • 环境准备:创建Python 3.12虚拟环境,克隆GitHub仓库并安装依赖。
  • 下载模型:运行下载脚本获取模型权重,注意保存路径不要包含英文句点。
  • 启动服务:使用vLLM部署模型服务,支持GPU加速推理。
  • 文档解析:调用解析脚本处理图片或PDF文件,输出结构化结果。
  • 图形转换:使用SVG专用脚本将图表转换为可编辑的SVG代码。
  • 获取结果:获取生成包含边界框的JSON文件、Markdown文本和可视化标注图。

MOCR的项目地址

  • GitHub仓库:https://github.com/rednote-hilab/dots.mocr
  • arXiv技术论文:https://arxiv.org/pdf/2603.13032
  • 在线体验Demo:https://dotsocr.xiaohongshu.com/

MOCR的同类竞品对比

维度 MOCR Gemini 3 Pro PaddleOCR-VL
开发方 华中科大×小红书 谷歌 百度
参数规模 3B 未公开(大得多) 0.9B
开源状态 完全开源 闭源API 开源
核心定位 文档全要素解析+图形重建 通用多模态大模型 传统文字识别
文档解析Elo 1125(开源第一) 1211(业界第一) 920.5
olmOCR-Bench 83.9 未公开 80.0
图形处理能力 转为SVG代码(可编辑) 基础识别 不支持
部署方式 vLLM/Transformers本地部署 API调用 本地部署
核心优势 小参数大能力、图形可编辑化 通用能力极强、生态完善 轻量快速、中文优化好

MOCR的应用场景

  • 学术科研:解析论文PDF、提取公式、重建图表,将扫描论文转为可编辑LaTeX,复现科研图表数据。
  • 金融财经:分析财报、提取数据报表、数字化图表,把PDF财报中的柱状图折线图转为Excel可用数据。
  • 法律政务:审查合同、数字化卷宗、识别证件,结构化提取多页合同关键信息并保持格式完整。
  • 教育出版:数字化教材、建设试题库、识别板书,将印刷教材中的复杂公式和图表转为电子资源。
  • 医疗健康:解析病历、提取检验报告、标注医学影像,处理包含化学分子式和医学示意图的文档。

📝 站长洞察 (Editor’s Insight)

MOCR的发布标志着文档AI从“文字识别”迈向“全要素理解”的范式跃迁。其核心突破在于将复杂的视觉图表转换为可编辑的SVG代码,这不仅是技术的优化,更是对文档数字化工作流的重构。在参数效率上,仅3B参数便在关键指标上超越参数量远大于它的闭源巨头Gemini,体现了“小模型大能力”的明确趋势,这对降低企业部署成本、推动技术普惠意义重大。更值得关注的是其开源策略与“OCR Arena”评估框架的提出,这为行业建立了可复现、可对比的基准,将加速整个领域的创新迭代。我们预见,以MOCR为代表的“可解析、可编辑、可计算”的文档智能,将成为AI落地企业服务(如金融、法律)的关键基础设施,其影响力将远超传统OCR工具。

Fama.one
Loukoum AI
秘塔写作猫
Circleback
Ora AI
TAGGED:SVG代码生成华中科技大学多模态OCR小红书hi lab文档解析模型
分享
Email 复制链接 打印
Share
上一篇 Star Office UI:开源AI可视化看板,实时监控Agent工作状态与多智能体协作
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Star Office UI:开源AI可视化看板,实时监控Agent工作状态与多智能体协作
AI 工具 AIGC 资讯
AnyClaw 开源发布:专为AI Agent打造的「万能转接头」,一键将传统API、脚本转为MCP/Skills/CLI工具
AI 工具 AIGC 资讯
快手KAT-Coder-Pro V2重磅发布:SWE-Bench追平GPT-5,前端美学生成断层领先,国产AI编程模型新标杆
AI 工具 AIGC 资讯
昆仑万维Matrix-Game 3.0发布:720p@40FPS实时交互世界模型,开启AI游戏新纪元
AI 工具 AIGC 资讯

相关推荐

全息流体渐变通用占位特色图
AIGC 资讯

全球AI监管转向:多国强推『上线前安检』,大模型安全评估新机制如何落地?

站外新闻
AI安全 AI监管 发布前评估 红队测试
AI 工具AIGC 资讯

北大开源One-Eval:告别繁琐配置,自然语言驱动大模型评测,NL2Eval实现全链路自动化

站外新闻
Agent驱动 NL2Eval 北大OpenDCAI 大模型评测 自动化评测框架
AI 工具

Dog Identifier狗狗品种识别器

remaker
AI 工具

Buzzr

remaker
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent Agentic Coding AI AI Agent AIGC AI安全 AI工具 AI智能体 AI生成内容 AI绘画 AI编程 AI编程工具 AI编程智能体 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos DALL-E3 DeepSeek Gemini GPT-5.5 MCP协议 meta Midjourney MoE MoE架构 MoE模型 NVIDIA openai Pika prompt Qwen3.7-Max stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 办公自动化 华为昇腾 命令行工具 咒语 商汤科技 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 室内设计 家居 展台 建筑 建筑设计 开发者工具 开源 开源大模型 开源工具 开源平台 开源框架 开源模型 强化学习 微软 提示词 教程 新闻 早报 智能体 智能体编程 智谱AI 月之暗面 海报设计 清华大学 游戏 生成式AI 破碎 科幻 端侧AI 网络安全 背景 腾讯混元 英伟达 视频生成模型 视频编辑 语音合成 赛博朋克 阶跃星辰 阿里通义 阿里通义千问 风景 马斯克
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.