有没有pdf论文转word最优解

我想要的不是硬转就完了,而是:
1.能够根据哪些是正文,哪些是摘要,哪里是引用文献,哪些是页脚,好好地对应地方。
2.一级标题二级标题三级标题能够正确标上
3.避免意外的符号

有现成的方案吗,看论文会用到

看论文直接看PDF不香么

读完了,只需要再看看框架了,所以

PDF 转 Word 文档基本无解。不过您可以换个思路:

  1. 通过文献的 DOI 号,找出版商提供的在线版论文。
  2. 利用 MarkDownload 等插件,将论文保存为 Markdown 格式。Markdown 的好处是只保留内容和一些基本的格式,没有其他啰嗦。

不过这个插件遇到数学公式时会出问题。

4 Likes

谢谢您,确实不应该用pdf转word这种麻烦的方式

pdf其实没很好的方式,本质上是一个出版打印格式,所以会有很离谱的布局数据。

比如,有些是一段字在页面的某个坐标;有些是一个字在某个坐标。然后像pdf的目录本质上是书签,而不是像word那样的一级二级三级标题。

完全一对一的转换有点难,但我干过直接丢给Qwen VL的模型,然后让它总结和转换文本。部分地方会有大模型特有的总结归纳,但整体质量还可以。

2 Likes

目前还没有软件能一步做到,可以考虑:
转纯文本后让ai加上markdown的标题等级、摘要、引用符号,最后md转word

doc2x可以试试

thetawave.ai

我想起了用 LLM 来转为 Markdown,Markdown 也支持用标注(Footnotes),但格式如果复杂点我觉得未必可以,之后再把 markdown 转为 docx