PDF Craft:告别“死”PDF——将扫描件转化为可编辑文本!
你遇到过这种情况吗?手里拿到一份 PDF 文档,或者更糟——一整本扫描版书籍?文字无法复制、搜索功能失效、在电子书阅读器上阅读简直是折磨。这可能是每个处理过学术文献或旧数字化文档的人都曾面对的问题。就在这时,一位英雄登场了,它能让这些“死”文件重获新生——这就是 PDF Craft。
它是什么,为什么你需要它?
PDF Craft 是一款功能强大的 Python 工具,专为一个非常重要但简洁的目的而设计:将 PDF 文件(尤其是扫描版书籍)转换为更便捷、更易于编辑的格式,如 Markdown 和 EPUB。想象一下,你有一本珍贵但年代久远的 PDF 书籍,曾经被人简单扫描过。有了 PDF Craft,你可以将它转换成一本完整的电子书在你的阅读器上阅读,或者转换成 Markdown 文件,像处理普通文本一样:搜索、复制、编辑、重新排版。对于学生、研究人员、开发人员,以及任何重视处理信息时的时间和便利性的人来说,这都是天赐之物。
令我印象深刻的核心功能
这个项目不仅仅是“提取”文本。它运用尖端技术智能处理。
智能识别与结构保留
PDF Craft 的核心是 DeepSeek OCR——一种强大的光学字符识别技术。这不仅仅是输出字符集合的 OCR。DeepSeek OCR 可以识别复杂内容:表格、公式、脚注、脚注中的图片。它不仅仅扫描文本,还会分析文档结构,将正文与页眉页脚分离,保留重要元素的完整性。
顺便说一句,你还记得从 PDF 复制时表格会变得一团糟、公式会变成一堆看不懂的符号吗?PDF Craft 通过尽可能保留这些元素来解决这个问题,无论是 HTML 表格还是 MathML 公式。
本地运行且速度极快
1.0.0 及以上版本的主要亮点是完全放弃了大型语言模型(LLM)进行文本校正。这意味着整个转换过程都在本地完成,无需将数据发送到任何地方,也不会有网络请求带来的延迟。如果你有 GPU,由于硬件加速,处理速度将快如闪电。告别漫长等待和网络中断!
不过,如果你仍然需要 LLM 校正功能,开发者贴心地保留了使用旧版 v0.2.8 的选项。
你可以现在就通过试用 在线演示 来评估速度和效果。

输出灵活性:Markdown 和 EPUB,自动生成目录
PDF Craft 允许你将 PDF 转换为两种流行格式:Markdown 和 EPUB。
-
Markdown:非常适合想要简单、结构化文本的人,便于集成到笔记、文档或博客中。在这种情况下,图片会保存在单独的文件夹中。

-
EPUB:如果你想创建一本适合在电子书阅读器上舒适阅读的完整电子书,这是你的选择。PDF Craft 会自动生成目录,在书中导航非常方便。

按需微调
该项目提供了许多参数来微调转换过程。你可以选择 OCR 模型大小(从 tiny 到 gundam)、指定模型缓存路径、启用或禁用脚注处理、设置表格渲染方式(TableRender.HTML 或 TableRender.CLIPPING——仅图片)和公式(LaTeXRender.MATHML、LaTeXRender.SVG 或 LaTeXRender.CLIPPING)。这让你对最终结果拥有完全控制权。
顺便说一句,甚至有一种模式可以忽略单个 PDF 页面的渲染错误,以免中断整个过程(ignore_pdf_errors=True)。对于“损坏”的文件非常有用!
底层工作原理
正如我提到的,OCR 引擎的核心是 DeepSeek OCR。模型会在首次运行时自动从 Hugging Face 下载,但你也可以预先加载或指定自己的缓存路径,这对于生产环境或离线工作特别方便。
对于解析 PDF 文件,pdf-craft 使用 Poppler(通过 pdf2image 库)。如果 Poppler 不在你的 PATH 中,你可以随时手动指定路径:
很高兴看到这个项目采用 MIT 许可证,这使得它在各种项目中的使用非常灵活。
实际应用:PDF Craft 会在哪里派上用场?
- 图书馆数字化:你有一堆扫描版书籍或旧文档想让它们可搜索、可编辑?PDF Craft 是你最好的帮手。
- 跨设备阅读:将枯燥的 PDF 转换成便捷的 EPUB,在 Kindle、PocketBook 或任何其他电子书阅读器上阅读。自动生成的目录让导航变得愉快。
- 数据分析提取:需要从几十篇科学论文中快速提取文本、表格或公式?这个工具可以帮你完成,同时保留结构。
- 创建教学材料:将 PDF 教科书转换为可编辑格式,用于创建讲义或按需改编。
- 与其他工具结合:开发者甚至提到了与 epub-translator 项目结合使用的可能性,该项目可以在保留格式的同时自动翻译 EPUB 书籍。想象一下:扫描版书籍 -> EPUB -> 翻译后的双语 EPUB。简直是魔法!
结论:值得一试吗?
毫无疑问,是的!如果你曾经面临处理扫描版 PDF 的问题,PDF Craft 可以成为你的救星。它不仅仅是一个转换器,而是一个理解文档结构并努力保留它的智能工具。
它非常适合:
- 经常处理学术文本和扫描文档的人。
- 需要自动化 PDF 处理工作流程的开发人员。
- 想把纸质图书馆迁移到数字格式的电子书爱好者。
顺便说一句,如果你不想安装任何东西,可以试试 在线演示。这是快速评估项目能力的好方法。
在 GitHub 上试用 PDF Craft,给你的“死”PDF 注入新生命!
相关项目