请问是否有什么大模型或者应用可以将扫描书籍形成的PDF文件转为可读的markdown文件或者word文件,收费或者免费的都行。
我以前收集的
markdownify
Python 工具
llama_parse
支持广泛的文件类型,包括, pdf、.pptx、.docx、.xlsx、.html 等可以准确地解析嵌入的表格,提取视觉元素(图像/图表),并且可以根据自定义的提示指令来定制输出
nv-ingest
- 功能: 一个用于解析大量复杂、非结构化PDF及其他企业文档的微服务集合,提取元数据和文本以嵌入下游生成应用。
- 支持文档类型: PDF、Word、PowerPoint 和图像。
- 核心技术: 使用 NVIDIA NIM 微服务进行文本、表格、图表和图像的上下文提取和分类。
- 输出格式: 提取内容通过 OCR 处理后,输出为 JSON 格式。
- 可选功能: 支持生成嵌入向量并存储到向量数据库 Milvus。
- GitHub - NVIDIA/nv-ingest: NeMo Retriever extraction is a scalable, performance-oriented document content and metadata extraction microservice. NeMo Retriever extraction uses specialized NVIDIA NIM microservices to find, contextualize, and extract text, tables, charts and images that you can use in downstream generative applications.
MinerU
将PDF转换成Markdown和JSON格式
docling
持多种文档格式解析与导出(PDF, DOCX, PPTX, XLSX, 图片, HTML, AsciiDoc & Markdown),导出格式包括HTML、Markdown和JSON(含嵌入或引用的图片)
marker
把 PDF 转成 markdown + JSON
感谢汇总,哪个最佳?
没有实验过