“深度识别”—— OCR文字识别中的黑科技

软件名称

深度识别

应用平台

  • iOS

推荐类型

【开发者自荐】

一句简介

轻量级的文字识别工具

应用简介

“深度识别”其实是一款有点年头的APP了,iOS版本在2016年底就已经上线。目前在app store综合评分4.8分。但是由于开发者已经人到中年,性格也比较低调,所以之前一直没怎么推广。不过,最近app大改更新了好几个核心功能,所以出来冒个泡跟大家分享一下。

基础功能 图片转文字

这个只是基础功能,很多同类的app都可以做到。唯一值得一提的就是实现了批量识别,最多一次性识别9张图片为文字。可以查看每一张图片的识别结果,也能查看合并的识别结果。

特色功能一 识别表格图片并还原为excel表格。

这才是开发者掉了好多头发才做出来的核心功能。通过原创算法,可以还原各种奇形怪状的表格的样式到excel文件,前提是表格线要清晰。如果图中有多个表格,就保留最大的一个表格。如果表格有轻微的倾斜,能自动旋转矫正(目前测试,正负旋转15°到20°都是可用的)。如果表格内的文字跟表格像素粘连,照样可以识别。

大家有兴趣可以下载APP实际测试一下,跟使用百度表格识别接口识别出来的效果是不同的。

特别功能二 是识别图片并还原为word文件。

这个功能是开发者当年使用abbyy reader时一直很羡慕的,也是折腾了很久才实现。基本思想是使用绝对定位+文档流模式结合还原文本样式。转换为word文档后能尽可能还原文字在图片中的字体和位置。这个主要用于识别书籍并还原格式。

特色功能三 提取PDF文件文字

通过ocr功能提取PDF中的文字,包括图片型和文字型PDF。但是目前由于服务器配置还不够高,仅限于PDF提取txt格式文本。以后有money了服务器高配了,再考虑实现PDF转word的功能。

后记

目前深度识别提供了iOS版和android版,iOS版最新版(10.0.0)拥有上述所有功能;android版暂时比较糙,目前还是只是单纯的图片转文字,最新版(2.9.8)可以在酷安市场下载。所以,本文的应用平台上只写了"iOS"一个平台。后面会把表格识别和word识别的功能移植到android上。

官方网站 && 应用商店地址

App store上的“深度识别”

OCR 的识别算法是放在云端做的,还是在手机端做的?

这个自我评价很有意思啊

10.1.5
实现了公式识别功能,能把公式图片转换为latex公式

其实就是一直闷头做技术,不怎么懂做推广的意思 :sweat_smile:

OCR调用百度api,构造excel和docx是使用自己的服务器

是的。而且一个很诡异的事实是:给不给用户免费试用次数都不会增加下载量和日活。不给,收入反而上去了。

了解了,谢谢 :smiley:

所以是使用的免费 API 额度么。

我错了,原来是一款纯付费软件啊。

哈哈哈哈是这样的。试用就是白票。