OCRmyPDF – 专为 PDF 文件转换为可搜索、可复制的文档AI工具

OCRmyPDF是什么

OCRmyPDF 是开源的命令行工具，专为将扫描的 PDF 文件转换为可搜索、可复制的文档。通过添加 OCR 文本层，将无法直接编辑的扫描 PDF 文件能被搜索和编辑。工具支持超过 100 种语言，基于 Tesseract OCR 引擎实现高效的文字识别。 OCRmyPDF 能优化图像质量，识别前对图像进行纠偏和清洁，提升识别准确率。支持多核处理，充分利用系统资源，快速处理大量文件。OCRmyPDF 支持批量处理，结合 GNU 并行工具，可以处理多个 PDF 文件。

阅读目录

OCRmyPDF是什么
OCRmyPDF的主要功能
OCRmyPDF的技术原理
OCRmyPDF的项目地址
OCRmyPDF的应用场景

OCRmyPDF

OCRmyPDF的主要功能

生成可搜索的 PDF/A 文件：从普通 PDF 文件生成可搜索的 PDF/A 文件，同时保持原始嵌入图像的分辨率。
多语言支持：支持超过 100 种语言，用户可以根据文档的语言选择合适的语言包，提高 OCR 的准确率。
图像优化：OCRmyPDF 可以优化 PDF 中的图像，包括调整分辨率、压缩图像大小等，生成更小的文件，保持图像质量。
纠偏和清洁：在执行 OCR 之前，OCRmyPDF 可以对图像进行纠偏（纠正倾斜）和清洁（去除污点、噪点等），提高 OCR 的准确率。
旋转页面：自动检测页面的方向并旋转页面，确保所有页面的方向一致，便于阅读和处理。
多核处理：默认利用所有可用的 CPU 核心进行处理，提高了处理速度，适合处理大型文件或批量任务。
批量处理：可以结合 GNU 并行工具或其他脚本，批量处理多个 PDF 文件，提高工作效率。
数据安全性：OCRmyPDF 完全离线运行，数据存在用户的本地设备，确保数据安全和隐私。
灵活的命令行选项：提供丰富的命令行选项，用户可以根据需求调整 OCR 的行为，例如跳过已包含文本的页面、设置图像质量等。

OCRmyPDF的技术原理

预处理：在正式进行 OCR 识别之前，OCRmyPDF 会对输入的 PDF 文件进行预处理。包括对图像进行去噪、锐化、纠偏等操作，提高后续字符识别的准确性。
图像提取与分割：OCRmyPDF 使用 Poppler 库将 PDF 文件中的页面转换为图像。然后，程序会将图像中的文字区域分割出来，分别对待每一个可能包含字符的部分。
OCR 识别：OCRmyPDF 基于 Tesseract OCR 引擎进行字符识别。Tesseract 会提取字符图像的关键特征，如形状、边缘等信息，将这些特征与数据库中存储的标准字符模板进行比对，确定每个字符的具体内容。