dog
(荒废千年)
1
软件名称
案记索图 0.1版
应用平台
Windows
推荐类型
【开发者自荐】
一句简介
「案记索图」让你根据图片里的文本来搜索本地图片,就像微信、ios图库、谷歌图库一般,但不用联网。
应用简介
「案记索图」是一段autohotkey所写的小工具,将开源软件:
Umi-OCR: OCR图片转文字识别软件,完全离线。截屏/批量导入图片,支持多国语言、合并段落、竖排文字。可排除水印区域,提取干净的文本。基于 PaddleOCR 。
与老牌搜索软件
Everything:基于名称快速定位文件和文件夹。
进行了逻辑连接,实现了根据图片内文本内容查找图片的功能。
官方网站
当前页面
下载
- 下载Umi-OCR 1.3.4 、 Everything。
- 下载案记索图,解压。
地址: dogbean.ysepan.com
配置
- 打开Umi-OCR,按照如下进行设置
(按需勾选递归子文件夹设置。)
-
将目标图片文件夹拖入批量处理页面,导入完毕后,点击开始任务,放到后台耐心等待。
-
等待识别结束,将其他图片文件夹进行同样的操作。这时,可以发现图片文件夹下每个有字的图片都有一个同名的txt文件。
-
用记事本打开 案记索图 文件夹下的setting.ini,将所有的图片文件夹路径添加到其中,并在头部添加0或者1。
1代表递归查找该文件夹,0代表只查找该文件夹而不查找内部文件夹。
- 运行收集txt.exe,将之前所有生成的txt收集到“案记”文件夹中。
- 配置结束
使用
- 运行 案记索图.exe
- 打开everything,设置视图为大图标(更方便)。
- 按下快捷键 ctrl + alt +f,跳出搜索框,输入关键词,按下回车,哦了~
9 个赞
@dog
提个建议,你可以用这个代替Umi-OCR,这样更简单。
可以实现自动化。
这是个命令行工具,与Umi-OCR是一个作者
Umi-OCR就是调用的PaddleOCR_json
摘抄一点
简单试用
双击打开 PaddleOCR_json.exe
。等程序初始化完毕输出OCR init completed.
后,直接输入图片路径,回车。(此时不允许输入中文路径,通过API调用时可以。)
…
返回值说明
通过API调用一次OCR,无论成功与否,都会返回一个字典。
字典中,根含两个元素:状态码code
和内容data
。在设置了热更新的回合,还会含有额外元素:更新日志hotUpdate
。
状态码code
为整数,每种状态码对应一种情况:
100
识别到文字
- data内容为数组。数组每一项为字典,含三个元素:
text
:文本内容,字符串。
box
:文本包围盒,长度为4的数组,分别为左上角、右上角、右下角、左下角的[x,y]
。整数。
score
:识别置信度,浮点数。
- 例:
{'code':100,'data':[{'box':[[13,5],[161,5],[161,27],[13,27]],'score':0.9996442794799805,'text':'飞舞的因果交流'}]}
更多去作者 github 看吧
1 个赞
dog
(荒废千年)
5
额,打包了错误版本,我重新打包一下zip。。。
没关系,发往everything的文件名是带路径的,不光是文件名
dog
(荒废千年)
6
之前打包的收集txt.exe错误了,缺了个括号。。。
请下载新打包的版本
@all users
syun
7
目前有个问题,我是杂项文件夹,那么文件夹内已有的txt文件也会被移动到索引目录中,导致文件被异常移动,可不可以添加个限制,移动指定时间范围内的txt文件,过滤掉以前的文件
syun
9
我有一大堆图片资料需要查找 以前是依靠文件名和路径 现在简单了 这个小脚本挺好的
1 个赞
dog
(荒废千年)
13
其实也好办,
把软件改一改,
让txt保留在图片文件夹里而不是统一移动到案记文件夹里。
并且每次识别的时候如果已经有对应txt的话,就跳过,只识别新增的图片文件。
之后版本我把这功能做上
vebee
(Vivian9315)
14
相当的高级呀 这是~~~~~~~~~~~~~~~~
索引流程也太手动了,不应该是“在案记索图中添加文件夹→在UmiOCR中识别目录中的图片→收集TXT(创建符号链接)→运行案记索图.exe”这个顺序吗。
dog
(荒废千年)
17
现在欠缺一体化 话说umi ocr支持命令行模式 我之后试试通过命令行调用一体化一下
syun
20
这个方案有个问题,大批量的图片识别会占用比较高的系统资源,而且是长时间占用,真一体化的话没有进度条会很焦躁,如此说来还不如首次手动索引,后面添加增量索引就行了