有什么模型或者应用可以将扫描的书籍转为markdown文件

请问是否有什么大模型或者应用可以将扫描书籍形成的PDF文件转为可读的markdown文件或者word文件,收费或者免费的都行。

我以前收集的

markdownify

Python 工具

llama_parse

支持广泛的文件类型,包括, pdf、.pptx、.docx、.xlsx、.html 等可以准确地解析嵌入的表格,提取视觉元素(图像/图表),并且可以根据自定义的提示指令来定制输出

nv-ingest

MinerU

将PDF转换成Markdown和JSON格式

docling

持多种文档格式解析与导出(PDF, DOCX, PPTX, XLSX, 图片, HTML, AsciiDoc & Markdown),导出格式包括HTML、Markdown和JSON(含嵌入或引用的图片)

marker

把 PDF 转成 markdown + JSON

感谢汇总,哪个最佳?

没有实验过