2023.01.08更新:
我没说明清楚。我得需求是有个pdf文件,但是可能里面都是图片,搜不了文字。
比如我附图的,是供应商提供的pdf(好几个JG连接器厂商手册都是这样),当我要找寻某个型号,不仅没有书签,那就得一页一页看慢慢翻,就比较麻烦。
底下那个软件“ocrmypdf”可以将pdf在OCR试别后加一层文字层,就变成可以搜索的,而且我看体积也有减小,很方便了。
今天下午有时间折腾了下,发现已经解决了问题。就是软件版本在ubuntu清华院内的tesserat版本是4.0,但github上最新版本已经是5.3了,更新了版本就解决了这个问题。附图也是测试效果,很不错。@小青蛙 可以推荐。
----以下原文—
发现这个软件,但自己使用发现不是很准确。处理后对不上文字内容。
它使用 Tesseract OCR 引擎,将 PDF 的内容识别成文本,然后给 PDF 文件增加 OCR 文本层。从而实现可搜索和复制 PDF 的内容,已支持 100 多种语言。
(GitHub - ocrmypdf/OCRmyPDF: OCRmyPDF adds an OCR text layer to scanned PDF files, allowing them to be searched)