官方的介绍:
使用视觉大语言模型(如 GPT-4o)将 PDF 解析为 markdown。
我们的方法非常简单(只有293行代码),但几乎可以完美地解析排版、数学公式、表格、图片、图表等。
每页平均价格:0.013 美元
我们使用 GeneralAgent lib 与 OpenAI API 交互。
GitHub页没有实际的效果图,我自己也设置环境实验。感兴趣的可以去试试。
听起来挺炫的。
官方的介绍:
使用视觉大语言模型(如 GPT-4o)将 PDF 解析为 markdown。
我们的方法非常简单(只有293行代码),但几乎可以完美地解析排版、数学公式、表格、图片、图表等。
每页平均价格:0.013 美元
我们使用 GeneralAgent lib 与 OpenAI API 交互。
GitHub页没有实际的效果图,我自己也设置环境实验。感兴趣的可以去试试。
听起来挺炫的。
Cool
但是目前openai的api不对大陆开放,所以这使用起来还是比较麻烦的。
微软云服务可以部署4o模型使用