2023.01.08更新:
我没说明清楚。我得需求是有个pdf文件,但是可能里面都是图片,搜不了文字。
比如我附图的,是供应商提供的pdf(好几个JG连接器厂商手册都是这样),当我要找寻某个型号,不仅没有书签,那就得一页一页看慢慢翻,就比较麻烦。
底下那个软件“ocrmypdf”可以将pdf在OCR试别后加一层文字层,就变成可以搜索的,而且我看体积也有减小,很方便了。
今天下午有时间折腾了下,发现已经解决了问题。就是软件版本在ubuntu清华院内的tesserat版本是4.0,但github上最新版本已经是5.3了,更新了版本就解决了这个问题。附图也是测试效果,很不错。@小青蛙 可以推荐。
----以下原文—
发现这个软件,但自己使用发现不是很准确。处理后对不上文字内容。
它使用 Tesseract OCR 引擎,将 PDF 的内容识别成文本,然后给 PDF 文件增加 OCR 文本层。从而实现可搜索和复制 PDF 的内容,已支持 100 多种语言。
(GitHub - ocrmypdf/OCRmyPDF: OCRmyPDF adds an OCR text layer to scanned PDF files, allowing them to be searched)
1 个赞
gsdg
2
要么就是acrobat自带的ocr识别,要么就是QQ的截图识别啊,基本够用了吧
不是,他是能覆盖个文本层。就把只是图片得变成可以搜索了。
可以试试PDF-XChange Editor带的ocr,用的ABBYY的引擎,423有盗版,中文翻译库可能要挂代理
nick-tru
(Nick Tru)
7
SwifDoo PDF,支持多语言OCR,简体中文识别准确率挺高的,虽然是收费功能,但时不时有会员半年限免,可以不断累加,目前羊毛已经攒到26年6月。
福昕高级PDF编辑器是支持的,如果所在企业或者高校买了直接用就好,个人买可能不太划算。
vuszjbg
(vuszjbg)
11
Acrobat 就可以识别呀,还有最强的 ABBY,这个是专业处理文档和OCR程序。有破解版
1 个赞
jack_w
12
对比过acrobat和abbyy,abbyy识别准确性和排版更好(只指文字层),但是如果要导出word、excel的话acrobat吊打abbyy。
还有就是不知道是不是我操作方法不对,abbyy我只能单个文档识别,不像acrobat可以多个文档批量识别。