智谱AI开源GLM-OCR：0.9B参数登顶SOTA，轻量级多模态OCR模型革新文档解析

💡 站外导读：在AI技术加速落地的今天，文档数字化与智能解析成为企业提效的关键瓶颈。传统OCR模型在面对手写体、复杂表格、多语言混排等真实场景时，往往精度不足或部署成本高昂。智谱AI开源的GLM-OCR模型，以仅0.9B的轻量级参数，在权威基准OmniDocBench V1.5上刷新SOTA记录，标志着轻量级多模态OCR技术进入新阶段。它通过创新的视觉编码、跨模态融合与强化学习训练，为教育、金融、物流等行业提供了高效、精准的文档处理方案。

GLM-OCR是什么

GLM-OCR是智谱AI开源的轻量级多模态OCR模型，仅0.9B参数在OmniDocBench V1.5榜单以94.6分登顶SOTA。模型基于GLM-V架构，集成自研CogViT视觉编码器与轻量跨模态连接层，引入多Token预测损失和强化学习训练，在手写体、复杂表格、代码文档、印章、多语言混排等高难场景表现卓越。模型支持HTML表格、JSON结构化输出，推理速度达1.86页/秒，兼容vLLM/SGLang/Ollama部署，适用文档解析、票据提取、RAG等商业场景。

阅读目录

GLM-OCR是什么
GLM-OCR的主要功能
GLM-OCR的技术原理
GLM-OCR的项目地址
GLM-OCR的应用场景

📝 站长洞察 (Editor’s Insight)

GLM-OCR

GLM-OCR的主要功能

通用文本识别：支持照片、截图、扫描件、PDF，识别印刷体、手写体、印章、代码等特殊文字。
复杂表格解析：精准理解合并单元格、多层表头等结构，直接输出HTML代码，无需二次制表。
信息结构化提取：从卡证、票据、表格中智能提取关键字段，输出标准JSON格式，对接业务系统。
公式与代码识别：支持准确识别数学公式、程序代码等专业技术内容。
多语言与混排支持：支持处理竖排文字、多语言混排等复杂版式。
批量文档处理：支持大批量文档识别，输出规整格式，为RAG提供高质量数据基础。

GLM-OCR的技术原理

整体架构：GLM-OCR采用经典的”编码器-解码器”架构设计，整体继承自GLM-V系列。架构由三大核心模块组成：视觉侧的CogViT视觉编码器（400M参数规模）、负责跨模态信息融合的轻量连接层，和后端的GLM-0.5B语言解码器。
视觉编码：视觉编码器采用智谱自研的CogViT架构，在数十亿级别的图文对数据上引入CLIP对比学习策略进行大规模预训练。使模型具备强大的文字检测与版面语义理解能力，能有效处理复杂文档中的多栏布局、图文混排、旋转文字等挑战。
跨模态融合：为实现视觉与语言信息的高效融合，GLM-OCR设计了轻量高效的连接层结构。融合SwiGLU激活机制，引入4倍下采样策略，能精准筛选并保留关键视觉Token，将高密度的视觉语义信息高效压缩传递至后端语言解码器，支撑高精度的OCR识别输出。
训练优化：GLM-OCR在训练策略上率先将多Token预测损失（MTP）引入OCR模型训练，通过同时预测多个未来Token增强损失信号密度，显著提升模型学习效率。通过持续且稳定的全任务强化学习训练，进一步优化模型在复杂文档场景下的整体识别精度与跨领域泛化能力。
推理流程：系统层面，GLM-OCR采用”版面分析→并行识别”的两阶段技术范式。基于PP-DocLayout-V3进行文档版面分析，精准定位文本、表格、图片等区域；并行执行OCR识别，最终在版式多样、结构复杂的文档场景下实现稳定、高质量且高效率的解析效果。

GLM-OCR的项目地址

GitHub仓库：https://github.com/zai-org/GLM-OCR
HuggingFace模型库：https://huggingface.co/zai-org/GLM-OCR
在线体验：https://ocr.z.ai/

GLM-OCR的应用场景

教育科研：模型能精准识别手写笔记、数学公式、学术论文、教材扫描件，支持复杂排版和多语言文献处理，助力知识整理与学术研究。
企业办公：模型能自动解析合同、发票、报销单、会议纪要等各类文档，实现纸质文件数字化归档，大幅提升信息录入效率。
金融保险：支持智能提取银行卡、身份证、保单、票据中的关键字段，输出结构化JSON数据，无缝对接核心业务系统，降低人工审核成本。
物流海关：快速识别报关单、运单、装箱单等专业单据，准确提取商品信息、收发货人、金额等数据，加速通关与结算流程。
软件开发：模型能准确识别代码截图、技术文档、API手册，支持多种编程语言，方便开发者整理代码片段与构建技术知识库。

📝 站长洞察 (Editor’s Insight)

GLM-OCR的发布，精准切中了当前AI落地中“高精度”与“轻量化”难以兼得的核心痛点。在通用大模型参数不断膨胀的背景下，智谱选择在垂直场景打磨高效小模型，体现了极强的工程化思维与商业嗅觉。其“版面分析-并行识别”的两阶段范式，将传统CV技术与现代多模态模型巧妙结合，保证了在复杂文档上的鲁棒性。更重要的是，它支持HTML/JSON结构化输出，直接打通了从文档图像到业务数据的“最后一公里”，为RAG（检索增强生成）等应用提供了高质量、结构化的知识源。这不仅是OCR技术的进步，更是AI如何深度赋能产业数字化的一个优秀范本——用更小的模型，解决更实际的问题，创造更大的价值。

智谱AI开源GLM-OCR：0.9B参数登顶SOTA，轻量级多模态OCR模型革新文档解析

GLM-OCR是什么

GLM-OCR的主要功能

GLM-OCR的技术原理

GLM-OCR的项目地址

GLM-OCR的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

小鹏甩出TuringViT视觉编码器：只用十分之一数据，却把SOTA基线甩在身后

消息称阿里将推出千问办公，整合三款智能体布局AI办公市场

K3引发访问热潮:月之暗面回应资源紧张，优先保障付费用户

Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

GLM-OCR是什么

GLM-OCR的主要功能

GLM-OCR的技术原理

GLM-OCR的项目地址

GLM-OCR的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复