我想要的不是硬转就完了,而是:
1.能够根据哪些是正文,哪些是摘要,哪里是引用文献,哪些是页脚,好好地对应地方。
2.一级标题二级标题三级标题能够正确标上
3.避免意外的符号
有现成的方案吗,看论文会用到
我想要的不是硬转就完了,而是:
1.能够根据哪些是正文,哪些是摘要,哪里是引用文献,哪些是页脚,好好地对应地方。
2.一级标题二级标题三级标题能够正确标上
3.避免意外的符号
有现成的方案吗,看论文会用到
看论文直接看PDF不香么
读完了,只需要再看看框架了,所以
PDF 转 Word 文档基本无解。不过您可以换个思路:
不过这个插件遇到数学公式时会出问题。
谢谢您,确实不应该用pdf转word这种麻烦的方式
pdf其实没很好的方式,本质上是一个出版打印格式,所以会有很离谱的布局数据。
比如,有些是一段字在页面的某个坐标;有些是一个字在某个坐标。然后像pdf的目录本质上是书签,而不是像word那样的一级二级三级标题。
完全一对一的转换有点难,但我干过直接丢给Qwen VL的模型,然后让它总结和转换文本。部分地方会有大模型特有的总结归纳,但整体质量还可以。
目前还没有软件能一步做到,可以考虑:
转纯文本后让ai加上markdown的标题等级、摘要、引用符号,最后md转word
doc2x可以试试
thetawave.ai
我想起了用 LLM 来转为 Markdown,Markdown 也支持用标注(Footnotes),但格式如果复杂点我觉得未必可以,之后再把 markdown 转为 docx