【自荐】PDFMathTranslate - 完整保留排版的 PDF 全文翻译器

项目介绍

功能介绍

  • 基于 AI 布局分析和 PDF 指令流分析实现对文档排版的完整保留
  • 保留行内/行间公式和图表样式,对 Latex 文献进行特殊优化
  • 保留文档可索引目录结构
  • 支持 Google 和 Ollama 等多种翻译服务

项目演示

官方网站

12 Likes

我看了还能用ollma翻译,挺好的,但我在想,能不能出这样两个功能

  • 即批量翻译几十上百个pdf(这个实现应该比较简单)。
  • 生成一个简易的本地UI,对翻译后的内容进行检索,检索的时候,呈现中英对照的句子,然后点击来源可以跳转到对应的PDF文件。(为什么这么做?因为这样就可以很方便地对照,看翻译的内容有没有偏差和错误,也可以很方便地检索、确认和仿写)

效果比沉浸式翻译好,谢谢作者

1 Like

请问一下,目前可以处理行间的公式不被翻译,怎么处理行内的公式呢

1 Like

一般 PDF 文件里面公式的字体和 tex 包名是绑定的,所以可以直接按字体名用正则过滤出来,但是少数文档不在默认规则里就需要人工加参数指定了

1 Like

好的,谢谢作者;我看项目里面有使用mineru,那是不是也可以解析成其他的文本格式,比如markdown和html?

不是有一个中英对照的文件么,最大的那个

对的,有些翻译器直接用 minerU/marker 转换成 md 再翻译,不过这样会丢掉一部分格式

1 Like

它这个是左右对照吧,不清楚是不是默认有窗口可以这样打开,但不便于在不同文件之间进行检索

这个确实是的

命令行支持批量翻译,直接填进去多个文件就可以了

需要查询的话可以用 PDF 工具把生成的双语文件合并起来,然后直接放到 WPS 等阅读器里面搜索就可以了

有批量翻译好评! 但你这个把PDF合并起来查询的思路我不敢苟同,其实我说的更像是一个双语的语料库,那如果停留在这一步,跟划词翻译的差距就不大了呀。

作者好,工具非常好,不过请问有其他接口的想法么,目前是谷歌和Ollama,不过其他的模型服务商也挺多的,就不一定需要本地的ollma跑了

epub等格式,以后有份支持么?

嗯嗯有的,昨天还有佬来 PR 加了个 DeepLX 的接口

其实加翻译服务非常简单,只需要继承 BaseTranslator 就可以了

这个主要是看你想要接入哪个平台,要是把有知名度的服务一下都加进来,对于个人来说工程量可能有点点大…

1 Like

对于 epub 目前有个比较类似的翻译项目

好的,明白了

个人想加硅基流动,因为这上面有一些免费的模型可以用,虽然免费的是一些小模型,7B左右的,不过对于文本翻译应该是够的,本地ollma 一般也跑不动大模型。

大概是这样

PixPin_2024-11-09_23-29-26.png

可以的,安排上了!

1 Like

好的,感谢作者