Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: DeepSeek-OCR 2 开源:二代模型以91.09%综合得分重塑文档解析范式,引领语义级OCR技术突破
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > DeepSeek-OCR 2 开源:二代模型以91.09%综合得分重塑文档解析范式,引领语义级OCR技术突破
AI 工具

DeepSeek-OCR 2 开源:二代模型以91.09%综合得分重塑文档解析范式,引领语义级OCR技术突破

站外新闻
最近更新: 2026年6月7日 下午8:07
DeepSeek-OCR OCR大模型 开源模型 文档解析 视觉Token
SHARE

💡 站外导读:在企业数字化与知识管理浪潮中,传统OCR技术对复杂版式、多栏文档的识别常出现错乱与重复,成为信息处理的效率瓶颈。DeepSeek团队此次发布的DeepSeek-OCR 2,通过架构创新直击这些痛点,标志着文档智能识别正从“像素匹配”迈向“语义理解”的新阶段,为自动化办公、学术研究等领域带来颠覆性工具。

DeepSeek-OCR 2 是什么

DeepSeek-OCR 2 是 DeepSeek 团队推出的第二代 OCR 模型,通过引入 DeepEncoder V2 架构,实现从固定扫描到语义推理的范式转变。模型采用因果流查询和双流注意力机制,能动态重排视觉 Token,更精准地还原复杂文档的自然阅读逻辑。在 OmniDocBench v1.5 评测中,模型综合得分达到 91.09%,较前代提升显著,同时显著降低了 OCR 识别结果的重复率,为未来构建全模态编码器提供新路径。

阅读目录
  • DeepSeek-OCR 2 是什么
  • DeepSeek-OCR 2 的主要功能
  • DeepSeek-OCR 2 的技术原理
  • DeepSeek-OCR 2 的项目地址
  • DeepSeek-OCR 2 的应用场景
      • 📝 站长洞察 (Editor’s Insight)

DeepSeek-OCR 2

DeepSeek-OCR 2 的主要功能

  • 复杂文档解析:模型能精准解析带表格、公式和多栏布局的复杂文档,还原自然阅读逻辑。
  • 高效视觉压缩:仅需 256 到 1120 个视觉 Token 即可覆盖复杂文档页面,显著降低计算开销。
  • 动态语义重排:模型通过因果流查询,根据图像语义动态调整视觉 Token 的顺序,打破传统固定扫描限制。
  • 高精度识别:在 OmniDocBench v1.5 评测中,综合得分达到 91.09%,较前代显著提升,在阅读顺序识别方面表现出色。

DeepSeek-OCR 2 的技术原理

  • DeepEncoder V2 架构:视觉分词器将图像离散化为视觉 Token,采用 SAM-base 和两层卷积层,输出维度为 896。引入因果流查询(causal flow queries),视觉 Token 使用双向注意力,因果流查询使用因果注意力,实现语义重排。
  • 因果推理机制:通过因果流查询动态重排视觉 Token,使编码器能根据图像语义动态调整 Token 的顺序。这种机制与 LLM 的单向注意力模式高度一致,能更好地贴合连续的视觉语义。
  • 解码器:继续沿用 DeepSeek-OCR 的 DeepSeek-MoE Decoder,参数规模为 30 亿,约 5 亿参数在推理时激活。
  • 训练流程:分为编码器预训练、查询增强和解码器专门化三个阶段,通过多阶段优化提升模型性能。

DeepSeek-OCR 2 的项目地址

  • GitHub仓库:https://github.com/deepseek-ai/DeepSeek-OCR-2
  • HuggingFace模型库:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
  • 技术论文:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

DeepSeek-OCR 2 的应用场景

  • 文档处理与数字化:模型能将纸质文档快速转化为可编辑的电子文档,支持复杂布局和多语言内容的高精度识别,适用于图书馆、档案馆等机构的数字化工作。
  • 学术与科研:高效解析学术论文中的公式、图表和多栏文本,辅助研究人员快速提取关键信息,提升文献整理和数据分析效率。
  • 企业办公自动化:模型能自动识别合同、报表等文件中的关键信息,支持企业文档的快速审核、归档和检索,提高办公效率。
  • 教育领域:将教材、试卷等文档快速数字化,支持在线教学和电子化考试,辅助师生整理学术资料,提升教学与学习效率。
  • 出版与媒体:模型快速解析杂志、报纸的复杂排版,支持电子版制作和内容分发,助力媒体行业实现高效内容创作与管理。

📝 站长洞察 (Editor’s Insight)

DeepSeek-OCR 2的发布,不仅是单一模型的迭代,更揭示了多模态AI发展的一个关键趋势:编码器正在从“感知工具”进化为“认知桥梁”。其提出的“因果流查询”机制,巧妙地将LLM的因果推理范式注入视觉编码,使视觉Token的组织更贴近人类语义逻辑,这为构建下一代全模态(Omni-modal)大模型提供了极具启发性的技术路径。该模型在压缩视觉Token数量的同时提升精度,完美契合了产业界对高效率、低算力AI解决方案的核心诉求。随着开源生态的完善,它有望成为文档智能领域的“新基建”,加速金融、法律、医疗等专业知识的自动化提取与结构化进程,其影响远超工具本身,正在重塑人机交互与知识流转的底层逻辑。

Taskade
腾讯开源手机端离线翻译模型:1.8B参数压缩至440MB,支持33种语言,性能超越谷歌翻译
HeadshotPro
Kodif
daVinci-MagiHuman: 150亿参数音视频生成模型,H100上2秒出片,架构与性能全面超越Ovi、LTX
TAGGED:DeepSeek-OCROCR大模型开源模型文档解析视觉Token
分享
Email 复制链接 打印
Share
上一篇 蚂蚁灵波重磅开源LingBot-Depth:攻克透明物体深度感知难题,具身智能落地新突破
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

蚂蚁灵波重磅开源LingBot-Depth:攻克透明物体深度感知难题,具身智能落地新突破
AI 工具 AIGC 资讯
Vidu Q2参考生Pro发布:万物可参考,小白一键生成专业级特效视频的AI创作引擎
AI 工具 AIGC 资讯
Decart AI发布Lucy 2:实时视频生成模型实现1080p/30fps零延迟编辑,重塑AIGC内容创作与机器人训练
AI 工具 AIGC 资讯
NVIDIA Earth-2开源:AI气象预测革命,千倍提速万倍能效!
AI 工具 AIGC 资讯

相关推荐

AI 工具

腾讯混元开源HY-WU:实时生成个性化LoRA参数,破解AI大模型定制化难题

站外新闻
HY-WU LoRA 功能性神经记忆 大模型个性化 腾讯混元
AI 工具

AI World Today

remaker
AI 工具AIGC 资讯

港大重磅开源CLI-Anything:一键将GIMP、Blender等软件代码库转为AI Agent原生工具,彻底告别脆弱GUI自动化

站外新闻
AI Agent CLI-Anything 开源软件 自动化工具 香港大学
AI 工具

Landing AI

remaker
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI绘画 AI编程 AI视频 AI视频生成 AI设计 AI音乐生成 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 NVIDIA openai OpenClaw OpenRouter Pika prompt stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 小红书 展台 建筑 开源 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 教程 早报 昆仑万维 智能体编程 智谱AI 本地AI 海报设计 清华大学 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 腾讯混元 英伟达 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 边缘计算 通义千问 长上下文 阶跃星辰 阿里通义 面壁智能 风景 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.