Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: PaddleOCR-VL-1.6 – 百度推出的文档解析视觉语言模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > PaddleOCR-VL-1.6 – 百度推出的文档解析视觉语言模型
AIGC 资讯

PaddleOCR-VL-1.6 – 百度推出的文档解析视觉语言模型

站外新闻
最近更新: 2026年6月7日 下午6:03
SHARE

PaddleOCR-VL-1.6是什么

PaddleOCR-VL-1.6 是百度飞桨团队推出的文档解析视觉语言模型(VLM),是 PaddleOCR-VL 系列的最新升级版本。模型仅 0.9B 参数,在 OmniDocBench v1.6 权威基准测试中达到 96.33% 的全新 SOTA 成绩,同时在 OmniDocBench v1.5 和 Real5-OmniDocBench 上刷新纪录,文本、公式、表格识别全面领先开源与闭源方案。模型架构与 1.5 版本完全一致,支持零成本即插即用迁移。

阅读目录
  • PaddleOCR-VL-1.6是什么
  • PaddleOCR-VL-1.6的主要功能
  • PaddleOCR-VL-1.6的技术原理
  • 如何使用PaddleOCR-VL-1.6
  • PaddleOCR-VL-1.6的核心优势
  • PaddleOCR-VL-1.6的项目地址
  • PaddleOCR-VL-1.6的同类竞品对比
  • PaddleOCR-VL-1.6的应用场景

PaddleOCR-VL-1.6

PaddleOCR-VL-1.6的主要功能

  • 文本识别:通用文本识别,支持 109 种语言,OmniDocBench v1.6 文本得分 96.8。
  • 公式识别:数学公式 LaTeX 识别,得分 97.5,超越 GLM-OCR 和 MinerU。
  • 表格识别:复杂表格结构解析(含合并单元格、多层表头),TEDS 得分 94.8。
  • 古籍识别:中文古籍、竖排文字识别能力大幅提升。
  • 生僻字识别:罕见汉字识别显著增强。
  • 印章识别:公章/印章文字提取与定位。
  • 图表识别:饼图、折线图等 11 类图表解析为结构化数据。
  • 文本检测(Spotting):自然场景文字检测。
  • 结构化输出:支持 Markdown、JSON、DOCX 格式导出。
  • 跨页表格合并:自动识别并合并跨页表格。

PaddleOCR-VL-1.6的技术原理

  • 两阶段解耦架构:模型采用”版面分析+VLM识别”的两阶段设计:第一阶段由 PP-DocLayoutV3 检测 25 类文档元素并输出阅读顺序与坐标;第二阶段由 0.9B 参数的 VLM 逐元素识别。VLM 内部使用 NaViT 动态分辨率视觉编码器自适应处理不同尺寸图像,配合 ERNIE-4.5-0.3B 语言模型生成结构化输出,避免固定分辨率导致的小字信息丢失。
  • 零架构改动的数据驱动升级:1.6 版本与 1.5 模型结构完全一致,性能飞跃完全来自数据与训练策略优化。团队通过分析 1.5 在 OmniDocBench 各子项的薄弱区域,对古籍、生僻字、印章、复杂表格等场景实施定向数据增强。
  • 区域感知数据增强:针对薄弱区域引入 CV 模拟失真技术,在公式、文本等训练数据中模拟扫描、倾斜、光照、屏幕拍摄等真实物理畸变;同时扩展文本发现任务的最大分辨率至 2048×28×28 像素,注入大规模印章、古籍专项数据,显著提升真实场景鲁棒性。
  • 渐进式三阶段训练:采用”预训练→SFT→强化学习”的渐进方案:预训练数据从 2900 万扩至 4600 万图像-文本对;SFT 阶段在原有 OCR、表格、公式基础上新增印章识别和文本发现任务;最后通过 GRPO 强化学习进一步对齐输出质量,实现多任务统一。

如何使用PaddleOCR-VL-1.6

  • 本地安装(Python):安装 paddlepaddle-gpu==3.2.1(CUDA 12.6),执行 pip install -U "paddleocr[doc-parser]",完成环境配置后可使用。
  • 命令行使用:安装后运行 paddleocr doc_parser -i your_document.png 或 paddleocr doc_parser -i document.pdf,直接输出解析结果,支持单张图片和 PDF 批量处理。
  • Python API:导入 PaddleOCRVL 类初始化 pipeline,调用 predict() 传入图片路径,结果可通过 print() 查看,或使用 save_to_json()、save_to_markdown() 保存为结构化文件。
  • Docker 部署(生产环境):拉取官方镜像 ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddleocr-vl:latest-nvidia-gpu,启动容器后直接在容器内运行,适合服务器部署。
  • 推理服务部署:执行 paddleocr genai_server 一键启动 HTTP 服务,支持 vLLM、SGLang、FastDeploy、Transformers、llama.cpp 等多种后端,适合高并发 API 调用场景。

PaddleOCR-VL-1.6的核心优势

  • SOTA 精度:OmniDocBench v1.6 达 96.33%,文本、公式、表格全维度第一
  • 极致轻量:0.9B 参数,远小于 Qwen3-VL-235B、GPT-5.2 等通用大模型
  • 零成本迁移:架构与 1.5 完全一致,直接替换权重即可
  • 真实场景鲁棒:在扫描、扭曲、屏幕拍摄、光照变化、倾斜 5 大场景均刷新 SOTA
  • 多硬件支持:NVIDIA GPU(含 Blackwell)、Apple Silicon、昆仑芯、昇腾、AMD、Intel

PaddleOCR-VL-1.6的项目地址

  • GitHub仓库:https://github.com/PaddlePaddle/PaddleOCR
  • HuggingFace模型库:https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.6

PaddleOCR-VL-1.6的同类竞品对比

对比维度 PaddleOCR-VL-1.6 GLM-OCR MinerU 2.5
开发方 百度飞桨 智谱 AI 上海 AI Lab / 清华
参数规模 0.9B 0.9B 1.2B
OmniDocBench v1.6 96.33% 95.22% 95.75%
文本识别 96.8 94.0 –
公式识别 97.5 96.5 –
表格识别 (TEDS) 94.8 85.2 88.4
真实场景鲁棒性 ✅ SOTA ⚠️ 基础 ⚠️ 基础
古籍/生僻字 ✅ 显著增强 ✅ 支持 ⚠️ 一般
印章识别 ✅ 增强 ✅ 支持 ❌ 未提及
部署成本 极低 极低 中等
开源协议 开源免费 开源免费 开源免费

PaddleOCR-VL-1.6的应用场景

  • 文档数字化:将纸质档案、书籍、论文扫描件转换为 Markdown 或 JSON 结构化电子文档,支持批量处理。
    企业办公:自动提取合同、发票、报表、审批单中的关键信息,对接 ERP 或 OA 系统实现流程自动化。
    教育科研:识别学术论文中的复杂公式(LaTeX 输出)和表格数据,辅助文献整理与知识提取。
    金融服务:解析银行票据、财务报表、对账单,实现数据自动录入与合规审计。
    医疗健康:结构化录入病历、检查报告、处方单,支持医院信息化系统对接。
斯坦·李AI声音重磅登陆ElevenLabs!漫威之父经典嗓音赋能创作者,AI语音合成迎来新纪元
Meta全面押注订阅经济:Meta One品牌整合三大应用Plus,AI升级方案引爆付费用户增长
AI创投Q1狂飙1100亿:大模型与具身智能引领技术迭代新风暴
一站式AI创作终端来了!开源ListenHub CLI用命令行生成音乐、播客、PPT,解放生产力
米哈游蔡浩宇押注!17B参数LPM 1.0:实时全双工、无限时长、跨风格数字人新标杆
分享
Email 复制链接 打印
Share
上一篇 OpenClacky – 李亚飞团队开源的低成本 AI Agent
下一篇 Gamma-World – 英伟达推出的多智能体世界模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Dynamic Workflows – Claude Code 推出的动态工作流
AIGC 资讯
阿里云百炼 CLI – 阿里云开源的 AI Agent 命令行工具
AIGC 资讯
Qwen3.7-Plus – 阿里通义推出的智能体多模态大模型
AIGC 资讯
Bernini – 字节跳动开源的统一视频生成与编辑框架
AIGC 资讯

相关推荐

AI 工具AIGC 资讯

InternSVG:上海AI Lab统一SVG建模套件发布,覆盖理解、编辑与生成,性能全面超越GPT-4o

站外新闻
AIGC InternSVG SVG建模 上海人工智能实验室 多模态大模型
全息流体渐变通用占位特色图
AIGC 资讯

美国 269 页AI立法草案出炉:巨头面临“半年一审”,各州监管权被“冻结”三年

站外新闻
流光脑波AI大脑占位特色图
AIGC 资讯最新趋势

DeepSeek V4永久降价75%:碾压GPT-5.5与Claude Opus,登顶全球AI性价比之王

站外新闻
AI性价比 DeepSeek V4 人工智能 开源模型
AI 工具AIGC 资讯

开源免费!肉包Roubao:豆包手机助手平替,AI自动点外卖、发消息,无需Root

站外新闻
AI手机助手 开源项目 自动化脚本 视觉语言模型(VLM) 豆包替代
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 支付宝 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.