GPTPDF——把PDF文件通过视觉大模型变成Markdown文件。

官方的介绍:

使用视觉大语言模型(如 GPT-4o)将 PDF 解析为 markdown。

我们的方法非常简单(只有293行代码),但几乎可以完美地解析排版、数学公式、表格、图片、图表等。

每页平均价格:0.013 美元

我们使用 GeneralAgent lib 与 OpenAI API 交互。

GitHub页没有实际的效果图,我自己也设置环境实验。感兴趣的可以去试试。

听起来挺炫的。

2 个赞

Cool
但是目前openai的api不对大陆开放,所以这使用起来还是比较麻烦的。

微软云服务可以部署4o模型使用