用5G的磁盘空间换OCR(图片识别文本)自由,你愿意吗?

这几天将百度的飞桨程序结合到我自己的python的API化项目,实现在OCR自由,个人觉得很满意。
这个项目致力于将python脚本安装到服务器,并提供API接口,供各种程序调用。普通的非程序员可以通过手头的软件(比如excel)调用。

  1. 可以excel批量执行脚本获取输出结果;
  2. 可以通用网页在线执行
  3. 可以用get方式实现脚本(这个不合适,但可以发邮件);
  4. 可以用ahk等程序来调用,比如截图并识别
  5. docker安装,可以自建服务器,真永久免费。
    docker 地址:Docker Hub

放一下网页调用及Excel批量调用的效果图

1 Like

额。。。。有没有使用说明?这个是只能浏览器打开页面操作的么?
还是均可以通过get请求直接返回结果???那个二维码识别。。直接点开页面就是显示执行出错

有一个天若OCR开源本地版好像就是用的百度飞浆模型

如果真的好用,5G空间不是问题。。。。。
只是为什么不能做成便携/绿色版本?分包压缩,解压到一个子目录,最多执行一个bat/reg就行了。。。。既然是win下的

上次看aardio的介绍时看到它实现一个ocr系统只需要几行代码,于是真的试试了,
结果ocr效果非常弱。。。。便携/绿色倒是真的

1 Like

只能浏览器使用的话,那n多软件把我秒杀了,我把其它说明都删了吧,好好写写OCR的使用说明。

他是本地化的个人使用,最关键估计还是环境很难配置起来。

我不仅可以个人使用,还能局域网、全世界的人一起使用。

OCR只是我要实现的万千功能之一,我是构建了一个网络API,然后通过网页或Excel来调用。
以后大家会看到几行代码的版本。

1 Like

原理不一样,aardio调用的是一个非常精简的OCR识别模块,效果不太好,纯文字估计好点,楼主这个是用的模型,不在一个档次的工具。

这个模型我编译的c++版本,最后所有文件汇总起来也不超过1g啊

ocr我还是用qq的,大批量ocr,直接用的模拟按键批处理。qq的识别率很高,而且现在这种做法基本没有成本。识别一本二百页的文字大概个把小时,能看好几天。

为啥要受制于人呢,我现在的直接提供了API,只要提供5g磁盘装个docker,就可以永远免费一直用。

至于速度,就上面gif的批量识别,差不多6秒一次吧,主要受限于CPU的性能。

这要分怎么看,呵呵。在我看来,我这是薅羊毛。

docker Python ,算了吧
完全本地也还有这个啊,包含了c语言还java的多端实现 GitHub - DayBreak-u/chineseocr_lite: 超轻量级中文ocr,支持竖排文字识别, 支持ncnn、mnn、tnn推理 ( dbnet(1.8M) + crnn(2.5M) + anglenet(378KB)) 总模型仅4.7M

1 Like

真的好用500G 我都愿意
这个支持日文么
随便删一部看过的电影动漫一部下载了但是永远不会玩的游戏都大于5G
5G 电脑硬盘空间啥都干不了

百度飞桨很强大,支持很多语言,我改几句话就行了。
你有兴趣可以下载docker装起来试试

晚上试用了一下,发现这个效果识别效果与飞桨差不多,感觉更胜一点点。


不过找了半天,只找到web版本的,没找到命令版,没法改造,放弃了。

是在回复我嘛? 首页就有其他实现的链接啊
这个就是贵在开源 本地化 轻量
要说效果和商用API比 可以碰一碰 但是不能稳赢

I do。但是咋搞没说啊。。。好歹测测?

就是采用docker来安装一个ocr的服务端,然后就可以网页识别、excel批量识别、截图识别等。
服务端可以用很多功能,理想是上万个功能。

autohotkey的ocr我在用这个,只有不到400m。
telppa/PaddleOCR-AutoHotkey: PaddleOCR AutoHotkey Version.PaddleOCR AHK 版。 (github.com)