💡 站外导读:在AI技术加速落地的今天,文档数字化与智能解析成为企业提效的关键瓶颈。传统OCR模型在面对手写体、复杂表格、多语言混排等真实场景时,往往精度不足或部署成本高昂。智谱AI开源的GLM-OCR模型,以仅0.9B的轻量级参数,在权威基准OmniDocBench V1.5上刷新SOTA记录,标志着轻量级多模态OCR技术进入新阶段。它通过创新的视觉编码、跨模态融合与强化学习训练,为教育、金融、物流等行业提供了高效、精准的文档处理方案。
GLM-OCR是什么
GLM-OCR是智谱AI开源的轻量级多模态OCR模型,仅0.9B参数在OmniDocBench V1.5榜单以94.6分登顶SOTA。模型基于GLM-V架构,集成自研CogViT视觉编码器与轻量跨模态连接层,引入多Token预测损失和强化学习训练,在手写体、复杂表格、代码文档、印章、多语言混排等高难场景表现卓越。模型支持HTML表格、JSON结构化输出,推理速度达1.86页/秒,兼容vLLM/SGLang/Ollama部署,适用文档解析、票据提取、RAG等商业场景。

GLM-OCR的主要功能
- 通用文本识别:支持照片、截图、扫描件、PDF,识别印刷体、手写体、印章、代码等特殊文字。
- 复杂表格解析: 精准理解合并单元格、多层表头等结构,直接输出HTML代码,无需二次制表。
- 信息结构化提取:从卡证、票据、表格中智能提取关键字段,输出标准JSON格式,对接业务系统。
- 公式与代码识别:支持准确识别数学公式、程序代码等专业技术内容。
- 多语言与混排支持:支持处理竖排文字、多语言混排等复杂版式。
- 批量文档处理:支持大批量文档识别,输出规整格式,为RAG提供高质量数据基础。
- GitHub仓库:https://github.com/zai-org/GLM-OCR
- HuggingFace模型库:https://huggingface.co/zai-org/GLM-OCR
- 在线体验:https://ocr.z.ai/
GLM-OCR的应用场景
- 教育科研:模型能精准识别手写笔记、数学公式、学术论文、教材扫描件,支持复杂排版和多语言文献处理,助力知识整理与学术研究。
- 企业办公:模型能自动解析合同、发票、报销单、会议纪要等各类文档,实现纸质文件数字化归档,大幅提升信息录入效率。
- 金融保险:支持智能提取银行卡、身份证、保单、票据中的关键字段,输出结构化JSON数据,无缝对接核心业务系统,降低人工审核成本。
- 物流海关:快速识别报关单、运单、装箱单等专业单据,准确提取商品信息、收发货人、金额等数据,加速通关与结算流程。
- 软件开发:模型能准确识别代码截图、技术文档、API手册,支持多种编程语言,方便开发者整理代码片段与构建技术知识库。
📝 站长洞察 (Editor’s Insight)
GLM-OCR的发布,精准切中了当前AI落地中“高精度”与“轻量化”难以兼得的核心痛点。在通用大模型参数不断膨胀的背景下,智谱选择在垂直场景打磨高效小模型,体现了极强的工程化思维与商业嗅觉。其“版面分析-并行识别”的两阶段范式,将传统CV技术与现代多模态模型巧妙结合,保证了在复杂文档上的鲁棒性。更重要的是,它支持HTML/JSON结构化输出,直接打通了从文档图像到业务数据的“最后一公里”,为RAG(检索增强生成)等应用提供了高质量、结构化的知识源。这不仅是OCR技术的进步,更是AI如何深度赋能产业数字化的一个优秀范本——用更小的模型,解决更实际的问题,创造更大的价值。
