Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 智谱AI开源GLM-OCR:0.9B参数登顶SOTA,轻量级多模态OCR模型革新文档解析
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 智谱AI开源GLM-OCR:0.9B参数登顶SOTA,轻量级多模态OCR模型革新文档解析
AI 工具AIGC 资讯

智谱AI开源GLM-OCR:0.9B参数登顶SOTA,轻量级多模态OCR模型革新文档解析

站外新闻
最近更新: 2026年6月7日 下午8:06
GLM-OCR 多模态OCR 文档解析 智谱AI 轻量级模型
SHARE

💡 站外导读:在AI技术加速落地的今天,文档数字化与智能解析成为企业提效的关键瓶颈。传统OCR模型在面对手写体、复杂表格、多语言混排等真实场景时,往往精度不足或部署成本高昂。智谱AI开源的GLM-OCR模型,以仅0.9B的轻量级参数,在权威基准OmniDocBench V1.5上刷新SOTA记录,标志着轻量级多模态OCR技术进入新阶段。它通过创新的视觉编码、跨模态融合与强化学习训练,为教育、金融、物流等行业提供了高效、精准的文档处理方案。

GLM-OCR是什么

GLM-OCR是智谱AI开源的轻量级多模态OCR模型,仅0.9B参数在OmniDocBench V1.5榜单以94.6分登顶SOTA。模型基于GLM-V架构,集成自研CogViT视觉编码器与轻量跨模态连接层,引入多Token预测损失和强化学习训练,在手写体、复杂表格、代码文档、印章、多语言混排等高难场景表现卓越。模型支持HTML表格、JSON结构化输出,推理速度达1.86页/秒,兼容vLLM/SGLang/Ollama部署,适用文档解析、票据提取、RAG等商业场景。

阅读目录
  • GLM-OCR是什么
  • GLM-OCR的主要功能
  • GLM-OCR的技术原理
  • GLM-OCR的项目地址
  • GLM-OCR的应用场景
      • 📝 站长洞察 (Editor’s Insight)

GLM-OCR

GLM-OCR的主要功能

  • 通用文本识别:支持照片、截图、扫描件、PDF,识别印刷体、手写体、印章、代码等特殊文字。
  • 复杂表格解析: 精准理解合并单元格、多层表头等结构,直接输出HTML代码,无需二次制表。
  • 信息结构化提取:从卡证、票据、表格中智能提取关键字段,输出标准JSON格式,对接业务系统。
  • 公式与代码识别:支持准确识别数学公式、程序代码等专业技术内容。
  • 多语言与混排支持:支持处理竖排文字、多语言混排等复杂版式。
  • 批量文档处理:支持大批量文档识别,输出规整格式,为RAG提供高质量数据基础。

GLM-OCR的技术原理

  • 整体架构:GLM-OCR采用经典的”编码器-解码器”架构设计,整体继承自GLM-V系列。架构由三大核心模块组成:视觉侧的CogViT视觉编码器(400M参数规模)、负责跨模态信息融合的轻量连接层,和后端的GLM-0.5B语言解码器。
  • 视觉编码:视觉编码器采用智谱自研的CogViT架构,在数十亿级别的图文对数据上引入CLIP对比学习策略进行大规模预训练。使模型具备强大的文字检测与版面语义理解能力,能有效处理复杂文档中的多栏布局、图文混排、旋转文字等挑战。
  • 跨模态融合:为实现视觉与语言信息的高效融合,GLM-OCR设计了轻量高效的连接层结构。融合SwiGLU激活机制,引入4倍下采样策略,能精准筛选并保留关键视觉Token,将高密度的视觉语义信息高效压缩传递至后端语言解码器,支撑高精度的OCR识别输出。
  • 训练优化:GLM-OCR在训练策略上率先将多Token预测损失(MTP)引入OCR模型训练,通过同时预测多个未来Token增强损失信号密度,显著提升模型学习效率。通过持续且稳定的全任务强化学习训练,进一步优化模型在复杂文档场景下的整体识别精度与跨领域泛化能力。
  • 推理流程:系统层面,GLM-OCR采用”版面分析→并行识别”的两阶段技术范式。基于PP-DocLayout-V3进行文档版面分析,精准定位文本、表格、图片等区域;并行执行OCR识别,最终在版式多样、结构复杂的文档场景下实现稳定、高质量且高效率的解析效果。

GLM-OCR的项目地址

  • GitHub仓库:https://github.com/zai-org/GLM-OCR
  • HuggingFace模型库:https://huggingface.co/zai-org/GLM-OCR
  • 在线体验:https://ocr.z.ai/

GLM-OCR的应用场景

  • 教育科研:模型能精准识别手写笔记、数学公式、学术论文、教材扫描件,支持复杂排版和多语言文献处理,助力知识整理与学术研究。
  • 企业办公:模型能自动解析合同、发票、报销单、会议纪要等各类文档,实现纸质文件数字化归档,大幅提升信息录入效率。
  • 金融保险:支持智能提取银行卡、身份证、保单、票据中的关键字段,输出结构化JSON数据,无缝对接核心业务系统,降低人工审核成本。
  • 物流海关:快速识别报关单、运单、装箱单等专业单据,准确提取商品信息、收发货人、金额等数据,加速通关与结算流程。
  • 软件开发:模型能准确识别代码截图、技术文档、API手册,支持多种编程语言,方便开发者整理代码片段与构建技术知识库。

📝 站长洞察 (Editor’s Insight)

GLM-OCR的发布,精准切中了当前AI落地中“高精度”与“轻量化”难以兼得的核心痛点。在通用大模型参数不断膨胀的背景下,智谱选择在垂直场景打磨高效小模型,体现了极强的工程化思维与商业嗅觉。其“版面分析-并行识别”的两阶段范式,将传统CV技术与现代多模态模型巧妙结合,保证了在复杂文档上的鲁棒性。更重要的是,它支持HTML/JSON结构化输出,直接打通了从文档图像到业务数据的“最后一公里”,为RAG(检索增强生成)等应用提供了高质量、结构化的知识源。这不仅是OCR技术的进步,更是AI如何深度赋能产业数字化的一个优秀范本——用更小的模型,解决更实际的问题,创造更大的价值。

Ideogram 4 – Ideogram 开源的文本到图像生成模型
GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型
BioEmu – 微软推出的生成式深度学习系统
Rask AI 视频编辑
HeyGen开源HyperFrames:AI原生HTML视频渲染框架,用代码秒变AI视频生产力
TAGGED:GLM-OCR多模态OCR文档解析智谱AI轻量级模型
分享
Email 复制链接 打印
Share
上一篇 玄武CLI:5分钟部署国产大模型,一键激活华为昇腾、沐曦芯片算力,清昴智能开源利器破解“能用不好用”难题
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

玄武CLI:5分钟部署国产大模型,一键激活华为昇腾、沐曦芯片算力,清昴智能开源利器破解“能用不好用”难题
AI 工具 AIGC 资讯
SoulX-FlashTalk:Soul App 14B参数开源模型,0.87秒延迟实现7×24小时实时数字人直播
AI 工具 AIGC 资讯
Qwen3-Coder-Next:阿里通义千问开源80B参数MoE编程智能体,SWE-Bench解决率超70%!自动写代码、修Bug、部署测试,开启AI编程新范式
AI 工具 AIGC 资讯
ACE-Step 1.5:消费级硬件跑出商业级音乐生成!ACE Studio联合StepFun开源模型,4步推理2秒生成4分钟歌曲
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

D-DiT – 耶鲁大学联合字节Seed等机构推出的多模态扩散模型

站外新闻
AI 工具AIGC 资讯

Claude Code 实战宝典:开源指南含86+技巧与10+工作流对比,从氛围编程到智能体工程

站外新闻
AIGC Claude Code 开发者工作流 开源工具 智能体工程
AI 工具

Chatmap

remaker
AIGC 资讯

豆包1.5·UI-TARS – 字节豆包推出的 GUI Agent 模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI绘画 AI编程 AI编程工具 AI视频 AI视频生成 AI设计 AI音乐生成 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 NVIDIA openai OpenClaw OpenRouter Pika prompt stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 小红书 展台 建筑 开源 开源AI工具 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 本地AI 海报设计 清华大学 生成式AI 科幻 端侧AI 网络安全 腾讯 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 边缘计算 通义千问 长上下文 阶跃星辰 阿里通义 阿里通义千问 面壁智能 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.