OCRmyPDF 是一款开源的命令行工具,用于将扫描的 PDF 文件转换为可搜索、可复制的文档。它通过叠加 OCR 文本层来实现这一功能,从而让原本无法编辑或搜索的 PDF 文件变得可编辑和可搜索 。OCRmyPDF 支持多种语言,包括超过 100 种语言,并且能够修复旋转错误的页面、校正倾斜的 PDF,以及更改输出元数据 。该工具使用 Tesseract OCR 引擎进行文字识别,支持多语言处理,并且能够生成 PDF/A 格式的文件,以确保文档的长期保存和可访问性 。
- OCRmyPDF官网入口网址:https://ocrmypdf.readthedocs.io/
- OCRmyPDF开源项目地址:https://github.com/ocrmypdf/OCRmyPDF
OCRmyPDF 的安装和使用相对简单,用户只需安装 Python、Tesseract OCR 和 Ghostscript,然后通过命令行安装 OCRmyPDF 即可 。该工具支持 Linux、macOS 和 Windows 系统,并且可以通过多种方式安装,包括包管理器或 Docker 镜像 。OCRmyPDF 的许可遵循 Mozilla Public License 2.0(MPL-2.0),允许与其他代码集成,但要求发布源代码级修改 。
OCRmyPDF 的主要功能包括:将扫描的 PDF 文件转换为可搜索的 PDF 文件,支持多语言处理,优化 PDF 图像,保持原始图像分辨率,以及支持批量处理和多核处理以提高处理速度 。OCRmyPDF 还支持插件和自定义处理步骤,以满足不同用户的需求。
OCRmyPDF 是一个强大且易于使用的工具,适用于个人用户、学术研究者和法律专业人士,能够显著提升文档处理和搜索的效率 。OCRmyPDF 的 GitHub 仓库提供了详细的文档和社区支持,用户可以通过 GitHub 问题页面报告问题并获得响应 。
OCRmyPDF 是一款功能强大、开源且易于使用的工具,能够帮助用户将扫描的 PDF 文件转换为可搜索、可复制的文档,提高文档处理和搜索的效率。
数据统计
相关导航
软件安全领域论坛
百度开发者中心
专注于为开发者打造一个有温度的技术交流社区
HelloGitHub
专注于分享 GitHub 上有趣且适合编程初学者和开源社区新手的开源项目
awesome-selfhosted
Awesome-Selfhosted 是一个专注于自托管(Self-Hosted)开源软件的精选列表项目,托管在 GitHub 上,旨在帮助用户发现和部署可以自主掌控的替代方案,替代依赖云服务的专有软件。
ScanPDF
将普通的 PDF 文件转换成具有扫描效果的文件,让PDF看起来像扫描件
BillionMail
BillionMail 为你带来开源邮件服务器、邮件订阅与邮件营销——完全自托管,开发者友好,无需月费。
JetBrains
JetBrains 是一家专注于创建智能开发工具的前沿软件公司,产品包括领先的 Java IDE IntelliJ IDEA 和 Kotlin 编程语言。
threejs
Three.js 是一个功能强大、灵活且开源的 JavaScript 3D 图形库,用于在网页浏览器中创建和渲染高性能的 3D 内容。
暂无评论...