Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: PaddleOCR-VL-1.6 – 百度推出的文档解析视觉语言模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > PaddleOCR-VL-1.6 – 百度推出的文档解析视觉语言模型
AIGC 资讯

PaddleOCR-VL-1.6 – 百度推出的文档解析视觉语言模型

站外新闻
最近更新: 2026年6月7日 下午6:03
SHARE

PaddleOCR-VL-1.6是什么

PaddleOCR-VL-1.6 是百度飞桨团队推出的文档解析视觉语言模型(VLM),是 PaddleOCR-VL 系列的最新升级版本。模型仅 0.9B 参数,在 OmniDocBench v1.6 权威基准测试中达到 96.33% 的全新 SOTA 成绩,同时在 OmniDocBench v1.5 和 Real5-OmniDocBench 上刷新纪录,文本、公式、表格识别全面领先开源与闭源方案。模型架构与 1.5 版本完全一致,支持零成本即插即用迁移。

阅读目录
  • PaddleOCR-VL-1.6是什么
  • PaddleOCR-VL-1.6的主要功能
  • PaddleOCR-VL-1.6的技术原理
  • 如何使用PaddleOCR-VL-1.6
  • PaddleOCR-VL-1.6的核心优势
  • PaddleOCR-VL-1.6的项目地址
  • PaddleOCR-VL-1.6的同类竞品对比
  • PaddleOCR-VL-1.6的应用场景

PaddleOCR-VL-1.6

PaddleOCR-VL-1.6的主要功能

  • 文本识别:通用文本识别,支持 109 种语言,OmniDocBench v1.6 文本得分 96.8。
  • 公式识别:数学公式 LaTeX 识别,得分 97.5,超越 GLM-OCR 和 MinerU。
  • 表格识别:复杂表格结构解析(含合并单元格、多层表头),TEDS 得分 94.8。
  • 古籍识别:中文古籍、竖排文字识别能力大幅提升。
  • 生僻字识别:罕见汉字识别显著增强。
  • 印章识别:公章/印章文字提取与定位。
  • 图表识别:饼图、折线图等 11 类图表解析为结构化数据。
  • 文本检测(Spotting):自然场景文字检测。
  • 结构化输出:支持 Markdown、JSON、DOCX 格式导出。
  • 跨页表格合并:自动识别并合并跨页表格。

PaddleOCR-VL-1.6的技术原理

  • 两阶段解耦架构:模型采用”版面分析+VLM识别”的两阶段设计:第一阶段由 PP-DocLayoutV3 检测 25 类文档元素并输出阅读顺序与坐标;第二阶段由 0.9B 参数的 VLM 逐元素识别。VLM 内部使用 NaViT 动态分辨率视觉编码器自适应处理不同尺寸图像,配合 ERNIE-4.5-0.3B 语言模型生成结构化输出,避免固定分辨率导致的小字信息丢失。
  • 零架构改动的数据驱动升级:1.6 版本与 1.5 模型结构完全一致,性能飞跃完全来自数据与训练策略优化。团队通过分析 1.5 在 OmniDocBench 各子项的薄弱区域,对古籍、生僻字、印章、复杂表格等场景实施定向数据增强。
  • 区域感知数据增强:针对薄弱区域引入 CV 模拟失真技术,在公式、文本等训练数据中模拟扫描、倾斜、光照、屏幕拍摄等真实物理畸变;同时扩展文本发现任务的最大分辨率至 2048×28×28 像素,注入大规模印章、古籍专项数据,显著提升真实场景鲁棒性。
  • 渐进式三阶段训练:采用”预训练→SFT→强化学习”的渐进方案:预训练数据从 2900 万扩至 4600 万图像-文本对;SFT 阶段在原有 OCR、表格、公式基础上新增印章识别和文本发现任务;最后通过 GRPO 强化学习进一步对齐输出质量,实现多任务统一。

如何使用PaddleOCR-VL-1.6

  • 本地安装(Python):安装 paddlepaddle-gpu==3.2.1(CUDA 12.6),执行 pip install -U "paddleocr[doc-parser]",完成环境配置后可使用。
  • 命令行使用:安装后运行 paddleocr doc_parser -i your_document.png 或 paddleocr doc_parser -i document.pdf,直接输出解析结果,支持单张图片和 PDF 批量处理。
  • Python API:导入 PaddleOCRVL 类初始化 pipeline,调用 predict() 传入图片路径,结果可通过 print() 查看,或使用 save_to_json()、save_to_markdown() 保存为结构化文件。
  • Docker 部署(生产环境):拉取官方镜像 ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddleocr-vl:latest-nvidia-gpu,启动容器后直接在容器内运行,适合服务器部署。
  • 推理服务部署:执行 paddleocr genai_server 一键启动 HTTP 服务,支持 vLLM、SGLang、FastDeploy、Transformers、llama.cpp 等多种后端,适合高并发 API 调用场景。

PaddleOCR-VL-1.6的核心优势

  • SOTA 精度:OmniDocBench v1.6 达 96.33%,文本、公式、表格全维度第一
  • 极致轻量:0.9B 参数,远小于 Qwen3-VL-235B、GPT-5.2 等通用大模型
  • 零成本迁移:架构与 1.5 完全一致,直接替换权重即可
  • 真实场景鲁棒:在扫描、扭曲、屏幕拍摄、光照变化、倾斜 5 大场景均刷新 SOTA
  • 多硬件支持:NVIDIA GPU(含 Blackwell)、Apple Silicon、昆仑芯、昇腾、AMD、Intel

PaddleOCR-VL-1.6的项目地址

  • GitHub仓库:https://github.com/PaddlePaddle/PaddleOCR
  • HuggingFace模型库:https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.6

PaddleOCR-VL-1.6的同类竞品对比

对比维度 PaddleOCR-VL-1.6 GLM-OCR MinerU 2.5
开发方 百度飞桨 智谱 AI 上海 AI Lab / 清华
参数规模 0.9B 0.9B 1.2B
OmniDocBench v1.6 96.33% 95.22% 95.75%
文本识别 96.8 94.0 –
公式识别 97.5 96.5 –
表格识别 (TEDS) 94.8 85.2 88.4
真实场景鲁棒性 ✅ SOTA ⚠️ 基础 ⚠️ 基础
古籍/生僻字 ✅ 显著增强 ✅ 支持 ⚠️ 一般
印章识别 ✅ 增强 ✅ 支持 ❌ 未提及
部署成本 极低 极低 中等
开源协议 开源免费 开源免费 开源免费

PaddleOCR-VL-1.6的应用场景

  • 文档数字化:将纸质档案、书籍、论文扫描件转换为 Markdown 或 JSON 结构化电子文档,支持批量处理。
    企业办公:自动提取合同、发票、报表、审批单中的关键信息,对接 ERP 或 OA 系统实现流程自动化。
    教育科研:识别学术论文中的复杂公式(LaTeX 输出)和表格数据,辅助文献整理与知识提取。
    金融服务:解析银行票据、财务报表、对账单,实现数据自动录入与合规审计。
    医疗健康:结构化录入病历、检查报告、处方单,支持医院信息化系统对接。
Google开源gws:Rust编写、支持AI Agent的Workspace命令行利器,动态API发现引领效率革命
卢宗青团队重磅开源Being-H0.5:通用机器人模型突破,实现跨形态策略迁移与真实部署
Gemini Coder – AI 应用生成工具,文本描述实时生成代码和预览
美团LongCat开源:音频驱动数字人视频生成模型,超逼真口型同步、长视频稳定生成
OpenAI 发布 GPT-5.3-Codex-Spark:轻量级编程模型,推理速度破1000 tokens/秒,定义实时协作新范式
分享
Email 复制链接 打印
Share
上一篇 OpenClacky – 李亚飞团队开源的低成本 AI Agent
下一篇 Gamma-World – 英伟达推出的多智能体世界模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

华为盘古大模型5.5震撼发布:7180亿参数Ultra MoE领衔,五大模型重塑产业智能
AI 工具 AIGC 资讯
腾讯清华重磅开源MindOmni:强化学习驱动的多模态推理生成模型,重塑视觉AI边界
AI 工具 AIGC 资讯
联影智能发布‘元智’医疗大模型:多模态融合,一次CT扫描诊断37种疾病
AI 工具 AIGC 资讯
Dive3D重磅发布:北大x小红书联手破解文本生成3D多样性难题,SIM损失取代KL散度实现模式突破
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

可灵O1模型发布:全球首个统一多模态视频生成AI,支持文生视频、图生视频、720p模式与自由叙事

站外新闻
AIGC AI视频模型 MVL架构 可灵O1 多模态视频生成
AIGC 资讯

PawBench – 阿里通义推出的通用智能体评测基准

站外新闻
AI 工具AIGC 资讯

斯坦福重磅开源OpenJarvis:本地AI智能体框架,隐私、成本、延迟全优化

站外新闻
AI智能体 开源框架 斯坦福大学 本地化AI 隐私计算
AIGC 资讯

零乐理基础男子利用AI写歌实现月入十几万40秒可生成全曲风歌曲

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.