Qingwa
(青小蛙)
1
原始链接在: PDF Craft - 基于 DeepSeek OCR,实现扫描版 PDF 的高保真电子书转换 - 小众软件
先看图1:
再看图2:
这两个效果,均是使用基于 DeepSeek OCR 的 PDF Craft 实现,非常的赞。
还有图3
群里的小伙伴推荐:
PDF Craft 是什么?
PDF Craft 是工作流 IDE 软件 OOMOL Studio 使用 MIT 授权开源的项目,只做一件事:
将 PDF 文件转换为各种其他格式,并且专注于处理扫描版书籍的 PDF 文件。
由于代码开源,所以你可以使用自己的硬件,完全本地化操作,无需联网。
PDF Craft 的工作原理
PDF Craft 使用 DeepSeek OCR 进行 PDF 文档的内容识别,并能准确提取正文内容、脚注、公式、图片、表格等内容,同时过滤页眉、页脚等干扰信息。最终将 PDF 格式转换为 Markdown 或 EPUB 格式,尤其是扫描版 PDF,即保持了原书的内容完整性,又提升了可读性。
PDF Craft 专门针对数学公式做了很多细节处理,对科研人员、学生、常读论文的人群会有很大帮助。
转换为 LaTeX
下图是转换带数学公式的 PDF 到 Markdown 格式后的样子,注意左边的 .md 文件源码,是标准的 LaTeX 语法:
基于 DeepSeek OCR
这里就不得不说一下 DeepSeek OCR 了,这是 DeepSeek 在两个月发布一种基于多模态大模型的光学字符识别技术,它能够像人类一样“阅读”并理解图片中的文字、表格和复杂版面,将其转化为可编辑的高质量结构化数据。
如何使用 PDF Craft
有两种方式使用 PDF Craft:
- 自己部署
- 直接使用在线演示平台。
自托管安装指南
完整的安装过程非常技术化了,有官方说明书。
青小蛙在这里列一下必备条件吧:
- Python >= 3.10, < 3.14(推荐 3.11.16)
- Poppler(用于 PDF 解析和渲染)
- NVIDIA GPU,支持 CUDA 11.8 或 12.1
- 显存 16 GB 以上(推荐 24 GB 或更高)
主要流程:配置 CUDA、安装 PyTorch、安装 pdf-craft、安装 Poppler,然后就能使用了。
嫌麻烦的同学,可以直接:
PDF Craft 在线演示平台
这个就简单易用,直接用浏览器打开上面的网址就行了。(需要注册)
我也没有扫描版 PDF 呀,你们快去试试,记得回来告诉我效果如何。
这有几个邀请码可以领:
每个人只能生成5个邀请码。
另外由于是演示目的,所以这个站点会有额度限制,用的多需要付费(也支持 API)。
如果常用,还是推荐自托管(如果你有硬件的话 😂)
原文:https://www.appinn.com/pdf-craft/
1 个赞
感觉有用,注册了,顺便发一个邀请码:019b31d0-e2a9-7000-bea0-0372fc9f8550
感谢,裂变:
019b31f1-7cc5-7000-bc53-a8c4c71a5b1b
019b31f1-bb9b-7000-9eff-09656155218b
019b31f1-ff17-7000-9a82-762c3ce49884
019b31f2-1269-7000-9d95-94bc4e3fa3a5
019b31f2-237f-7000-a3c5-d74404851fee
mlk225
5
我也发一个邀请码:019b3262-c9d9-7000-bafb-90ba64e40925
感谢楼上的朋友!
继续裂变:
019b3217-7bae-7000-94d3-f4def75dfe2f
019b3217-816c-7000-9faa-846c6323647d
019b3217-857d-7000-93f6-bf050271aa1c
019b3217-88e9-7000-8290-87fa75f2c3e2
019b3217-8cbf-7000-8ad8-46f855acc372
019b32b6-5c9e-7000-a568-39b244f37d5c
019b32b6-5856-7000-a55a-a1391531347c
019b32b6-5431-7000-8c9d-8910d96b5469
019b32b6-504e-7000-aff4-74586ab626bc
019b32b6-43d6-7000-aa27-06520f348305
用掉了,感谢,019b33fd-f56c-7000-8280-2f332e40160f
全新未用邀请码:
019b3442-0aa8-7000-8fee-4c23d696d72b
019b3442-6c08-7000-919e-25774fd0932b
019b3442-710b-7000-aa35-47409d60361a
019b3442-7515-7000-badd-05c8af650438
019b3442-791e-7000-adbe-64c1468809fc
同有此疑问?
MinerU提取文本的效果相当好,但是转成其他电子书格式的时候,排版和格式是更难解决的问题。
Baiyssy
(Baiyssy)
14
效果还没体会到,速度是体会到了,比MinerU慢得多,估计两个数量级
yazii
(Yazii!)
15
一开始还以为是清晰化的新项目,用了一下才发现还是ocr的老路子,并且排版全靠ai并且不能保持pdf原有的排版.
qinshou
(秦寿)
17
太好了,我作为伸手党,以后就可以直接看识别后的文字版电子书了。哈哈哈
编辑电子书实在是太累了。
Baiyssy
(Baiyssy)
18
一个小时前传上去一本五百多页五十多万字的书,现在才只转换到30%。
还 请不要关闭此页面
还是用MinerU吧
再发新的邀请码:
019b3565-8c97-7000-9649-cde5b83cda2d
019b3565-a1f0-7000-a8e4-d71c31d4b8ef
019b3565-a5e3-7000-b604-69d412cec332
019b3565-a906-7000-843b-a8b7ee562028
019b3565-ac08-7000-84e6-43556ae86e7f