背景
我手头有一个数字版和影印版混合的pdf文档(前半段是数字版,后半段是扫描件)。
因此我每次搜索都只能搜到前半段的内容。自行OCR后效果一般情况(正确率90%以上,但排版变成了一坨,搜索也是一坨),图片清晰度可。
问题
都2026年了,有没有啥软件或者服务能便捷地帮我把pdf在最大化保留格式的前提下转成word?
或者退而求其次,只加一个隐形文字层?(但是隐形文字层要求和影印版文字一一对应,不要出现在扫描件上选了一行,结果复制的是下一行的内容这种影印版和数字ocr层错位的情况)
附件
https://www.kdocs.cn/l/clChynfjuUKH
其他情况补充
我有wps会员。电脑配置差,无法本地运行大模型。有尝试分别对文档内容ai识别,效果好,但文档过大,且插图内含较多文字,我用的几个ai无法将插图与正文明确区分