Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 智谱AI开源GLM-OCR:0.9B参数登顶SOTA,轻量级多模态OCR模型革新文档解析
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 智谱AI开源GLM-OCR:0.9B参数登顶SOTA,轻量级多模态OCR模型革新文档解析
AI 工具AIGC 资讯

智谱AI开源GLM-OCR:0.9B参数登顶SOTA,轻量级多模态OCR模型革新文档解析

站外新闻
最近更新: 2026年6月7日 下午8:06
GLM-OCR 多模态OCR 文档解析 智谱AI 轻量级模型
SHARE

💡 站外导读:在AI技术加速落地的今天,文档数字化与智能解析成为企业提效的关键瓶颈。传统OCR模型在面对手写体、复杂表格、多语言混排等真实场景时,往往精度不足或部署成本高昂。智谱AI开源的GLM-OCR模型,以仅0.9B的轻量级参数,在权威基准OmniDocBench V1.5上刷新SOTA记录,标志着轻量级多模态OCR技术进入新阶段。它通过创新的视觉编码、跨模态融合与强化学习训练,为教育、金融、物流等行业提供了高效、精准的文档处理方案。

GLM-OCR是什么

GLM-OCR是智谱AI开源的轻量级多模态OCR模型,仅0.9B参数在OmniDocBench V1.5榜单以94.6分登顶SOTA。模型基于GLM-V架构,集成自研CogViT视觉编码器与轻量跨模态连接层,引入多Token预测损失和强化学习训练,在手写体、复杂表格、代码文档、印章、多语言混排等高难场景表现卓越。模型支持HTML表格、JSON结构化输出,推理速度达1.86页/秒,兼容vLLM/SGLang/Ollama部署,适用文档解析、票据提取、RAG等商业场景。

阅读目录
  • GLM-OCR是什么
  • GLM-OCR的主要功能
  • GLM-OCR的技术原理
  • GLM-OCR的项目地址
  • GLM-OCR的应用场景
      • 📝 站长洞察 (Editor’s Insight)

GLM-OCR

GLM-OCR的主要功能

  • 通用文本识别:支持照片、截图、扫描件、PDF,识别印刷体、手写体、印章、代码等特殊文字。
  • 复杂表格解析: 精准理解合并单元格、多层表头等结构,直接输出HTML代码,无需二次制表。
  • 信息结构化提取:从卡证、票据、表格中智能提取关键字段,输出标准JSON格式,对接业务系统。
  • 公式与代码识别:支持准确识别数学公式、程序代码等专业技术内容。
  • 多语言与混排支持:支持处理竖排文字、多语言混排等复杂版式。
  • 批量文档处理:支持大批量文档识别,输出规整格式,为RAG提供高质量数据基础。

GLM-OCR的技术原理

  • 整体架构:GLM-OCR采用经典的”编码器-解码器”架构设计,整体继承自GLM-V系列。架构由三大核心模块组成:视觉侧的CogViT视觉编码器(400M参数规模)、负责跨模态信息融合的轻量连接层,和后端的GLM-0.5B语言解码器。
  • 视觉编码:视觉编码器采用智谱自研的CogViT架构,在数十亿级别的图文对数据上引入CLIP对比学习策略进行大规模预训练。使模型具备强大的文字检测与版面语义理解能力,能有效处理复杂文档中的多栏布局、图文混排、旋转文字等挑战。
  • 跨模态融合:为实现视觉与语言信息的高效融合,GLM-OCR设计了轻量高效的连接层结构。融合SwiGLU激活机制,引入4倍下采样策略,能精准筛选并保留关键视觉Token,将高密度的视觉语义信息高效压缩传递至后端语言解码器,支撑高精度的OCR识别输出。
  • 训练优化:GLM-OCR在训练策略上率先将多Token预测损失(MTP)引入OCR模型训练,通过同时预测多个未来Token增强损失信号密度,显著提升模型学习效率。通过持续且稳定的全任务强化学习训练,进一步优化模型在复杂文档场景下的整体识别精度与跨领域泛化能力。
  • 推理流程:系统层面,GLM-OCR采用”版面分析→并行识别”的两阶段技术范式。基于PP-DocLayout-V3进行文档版面分析,精准定位文本、表格、图片等区域;并行执行OCR识别,最终在版式多样、结构复杂的文档场景下实现稳定、高质量且高效率的解析效果。

GLM-OCR的项目地址

  • GitHub仓库:https://github.com/zai-org/GLM-OCR
  • HuggingFace模型库:https://huggingface.co/zai-org/GLM-OCR
  • 在线体验:https://ocr.z.ai/

GLM-OCR的应用场景

  • 教育科研:模型能精准识别手写笔记、数学公式、学术论文、教材扫描件,支持复杂排版和多语言文献处理,助力知识整理与学术研究。
  • 企业办公:模型能自动解析合同、发票、报销单、会议纪要等各类文档,实现纸质文件数字化归档,大幅提升信息录入效率。
  • 金融保险:支持智能提取银行卡、身份证、保单、票据中的关键字段,输出结构化JSON数据,无缝对接核心业务系统,降低人工审核成本。
  • 物流海关:快速识别报关单、运单、装箱单等专业单据,准确提取商品信息、收发货人、金额等数据,加速通关与结算流程。
  • 软件开发:模型能准确识别代码截图、技术文档、API手册,支持多种编程语言,方便开发者整理代码片段与构建技术知识库。

📝 站长洞察 (Editor’s Insight)

GLM-OCR的发布,精准切中了当前AI落地中“高精度”与“轻量化”难以兼得的核心痛点。在通用大模型参数不断膨胀的背景下,智谱选择在垂直场景打磨高效小模型,体现了极强的工程化思维与商业嗅觉。其“版面分析-并行识别”的两阶段范式,将传统CV技术与现代多模态模型巧妙结合,保证了在复杂文档上的鲁棒性。更重要的是,它支持HTML/JSON结构化输出,直接打通了从文档图像到业务数据的“最后一公里”,为RAG(检索增强生成)等应用提供了高质量、结构化的知识源。这不仅是OCR技术的进步,更是AI如何深度赋能产业数字化的一个优秀范本——用更小的模型,解决更实际的问题,创造更大的价值。

VITRON – Skywork AI 联合新加坡国立、南洋理工推出的像素级视觉大型语言模型
阿里Wan2.7-Video:全模态AI视频创作模型,支持5角色控制与电影级运镜
阿里Qwen团队重磅开源WebWorld:百万级真实网页世界模型,三大版本赋能下一代智能体
Nexus-Gen – 魔搭联合华东师范等机构开源的全模态图像生成模型
GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型
TAGGED:GLM-OCR多模态OCR文档解析智谱AI轻量级模型
分享
Email 复制链接 打印
Share
上一篇 玄武CLI:5分钟部署国产大模型,一键激活华为昇腾、沐曦芯片算力,清昴智能开源利器破解“能用不好用”难题
下一篇 优必选开源具身智能大模型Thinker:4B参数9项基准全球第一,工业场景准确率99.99%
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

流光脑波AI大脑占位特色图
2026年3月美国AI榜单巨变:Claude单月狂飙130%紧追ChatGPT,格局突变信号已现
AIGC 资讯 最新趋势
得物实战揭秘:AI Coding工具如何突破数仓开发’失忆’痛点,Harness工程引领新范式
AI 工具 AIGC 资讯
全息流体渐变通用占位特色图
历史性和解!Meta妥协规避审判,美国首例学校诉社交媒体成瘾案落幕,揭示行业司法风向
AIGC 资讯
量子芯片科技感占位特色图
Spotify与环球音乐联手:AI翻唱混音工具上线,正版版权终结Suno野蛮生长
AI 工具 AIGC 资讯 最新趋势

相关推荐

AIGC 资讯

混元图生视频 – 腾讯混元开源的图生视频模型

站外新闻
AIGC 资讯

Mobile-Agent – 阿里开源的自主多模态移动设备智能体

站外新闻
AIGC 资讯

OpenMath-Nemotron – 英伟达开源的数学推理系列模型

站外新闻
AI 工具AIGC 资讯

开源免费!肉包Roubao:豆包手机助手平替,AI自动点外卖、发消息,无需Root

站外新闻
AI手机助手 开源项目 自动化脚本 视觉语言模型(VLM) 豆包替代
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 知识管理 美团 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 轻量级模型 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.