昨天
有5万多个pdf文件, 文件名都是顺序号, 而且内容多数都是图片格式.
我需要找出其中的图集文件, 通过观察发现, 图集文件长宽比是横页模式. 而普通pdf都是竖版a4格式.
所以我就用ai 写了2个python:
第一个py, 实现了"把所有首页都是横页的pdf文件挑选并复制到单独的文件夹"
结果发现还是很多, 挨个打开查看依旧效率不高.
我又让ai 写了一个 把 pdf 首页转换成 同名图片的代码.
然后用看图软件快速浏览图片即可.
基本上, 5w个文件, 用了半小时就筛选出需要的pdf 了.
效率提高非常明显.