项目介绍
- PDFMathTranslate 是一个免费开源的 PDF 文档全文双语翻译工具
- Github: Byaidu/PDFMathTranslate
- 在线演示: https://pdf2zh.com/
功能介绍
- 基于 AI 布局分析和 PDF 指令流分析实现对文档排版的完整保留
- 保留行内/行间公式和图表样式,对 Latex 文献进行特殊优化
- 保留文档可索引目录结构
- 支持 Google 和 Ollama 等多种翻译服务
我看了还能用ollma翻译,挺好的,但我在想,能不能出这样两个功能
效果比沉浸式翻译好,谢谢作者
请问一下,目前可以处理行间的公式不被翻译,怎么处理行内的公式呢
一般 PDF 文件里面公式的字体和 tex 包名是绑定的,所以可以直接按字体名用正则过滤出来,但是少数文档不在默认规则里就需要人工加参数指定了
好的,谢谢作者;我看项目里面有使用mineru,那是不是也可以解析成其他的文本格式,比如markdown和html?
不是有一个中英对照的文件么,最大的那个
对的,有些翻译器直接用 minerU/marker 转换成 md 再翻译,不过这样会丢掉一部分格式
它这个是左右对照吧,不清楚是不是默认有窗口可以这样打开,但不便于在不同文件之间进行检索
这个确实是的
命令行支持批量翻译,直接填进去多个文件就可以了
需要查询的话可以用 PDF 工具把生成的双语文件合并起来,然后直接放到 WPS 等阅读器里面搜索就可以了
有批量翻译好评! 但你这个把PDF合并起来查询的思路我不敢苟同,其实我说的更像是一个双语的语料库,那如果停留在这一步,跟划词翻译的差距就不大了呀。
作者好,工具非常好,不过请问有其他接口的想法么,目前是谷歌和Ollama,不过其他的模型服务商也挺多的,就不一定需要本地的ollma跑了
epub等格式,以后有份支持么?
嗯嗯有的,昨天还有佬来 PR 加了个 DeepLX 的接口
其实加翻译服务非常简单,只需要继承 BaseTranslator 就可以了
这个主要是看你想要接入哪个平台,要是把有知名度的服务一下都加进来,对于个人来说工程量可能有点点大…
对于 epub 目前有个比较类似的翻译项目
好的,明白了
个人想加硅基流动,因为这上面有一些免费的模型可以用,虽然免费的是一些小模型,7B左右的,不过对于文本翻译应该是够的,本地ollma 一般也跑不动大模型。
大概是这样
可以的,安排上了!
好的,感谢作者