[求助] 2026年Windows系统OCR软件选型求助讨论

[求助] 2026年Windows系统OCR软件选型求助讨论

  • 环境:Windows 11 25H2

使用过一些OCR软件,能用但是不太满意,个人希望的软件特点如下:

  • 小,准,支持AI大模型,只要OCR功能;
  • 不要翻译功能,翻译全用AI客户端工具了;
  • 每天OCR数量不多,用大模型接口足够,不需要本地OCR引擎;

各种遇到问题如下:

序号 软件名称 问题 备注
1 Umi-OCR_Paddle_v2 字符和换行经常不准,体积太大,AI插件不好用
2 STranslate AI大模型接口少,多了翻译多余功能
3 PandaOCR.Pro 收费的,免费版用不了大模型AI接口
4 ScreenOCR 小也准,但作者不再维护了,有时英文单词丢失空格连成一串 中文版叫识字精灵

有无一种OCR软件,具备如下特点:

  1. 大小:10-50 MB左右;
  2. 支持各种大模型AI接口;
  3. 不需要本地OCR引擎;
  4. 没有翻译、转语音等附加功能;
1 个赞

win11现在自带的截图工具就有ocr功能了

1 个赞

感觉可以转换思路,从“找一款软件”变成“找一条工具链”。

比如,我能想到的应该可行的方案是:

  1. 用 ShareX 截图,它支持截图完毕以后执行各种自动化的动作
  2. 用胶水(Quicker,AHK等)把上一步和下一步自动连起来
  3. URL Scheme 触发 Chatwise ,支持上传文件(图片)

Chatwise 我测试下来本地内存占用 15MB 左右,非常轻量,支持的 AI 接口也多。
这条链路应该满足你列的全部 1-4。Quicker 的动作库可能还能代替第一步。

1 个赞

试了一下截图发给AI聊天窗口,效果还不错

扔给豆包就行了。

ai视觉模型效果确实相比传统ocr好一些,但是一般没有持久的免费额度吧

POT 支持OCR 支持大模型OCR 但是同时也支持多语言翻译。 而且开源的。
不想用翻译可以只用OCR

1 个赞

国外的AI识别打印的表格里面的汉字还是有一点不准

25H2?

最晚今年1月份的版本就有了

使用过程中,多个文字识别成近似字形文字,精度不是非常高,无法和大模型比。

最多一天只识别少于30次,长期看可以充值很便宜,主要精度极高,且大模型不断进化,实时使用最新版。

两个方案对比:

  • 豆包等大模型:右击 → 截图 → 点击切换大模型 → 粘贴 → 点发送 → 输入提示词 → 识别。
  • 集成大模型的工具:右击 → 截图 → 识别。

还是期待出现一个用大模型的极简OCR软件。

找到了一键快速解决方案:
使用工具:

  1. Cherry Studio v1.7.2(免费)
  2. 智谱glm-4.6v-flash(免费)

操作办法:

  1. Cherry Studio中新建一个助手,助手名称:文本识别OCR助手

  2. 助手提示词:

请对我发送的图片进行纯文字识别。严格按照图片中出现的文字原样输出,包括换行、空格、标点符号和版式结构。不得添加任何解释、注释、提示语、前缀、后缀、标题、编号、额外字符或格式修饰。不得推测缺失内容,只能输出图片中实际存在的文字。输出内容必须与图中文字布局一致,仅包含图片中的文字本身。

  1. 默认模型:glm-4.6v-flash

使用办法:

  1. 任意图片或截图,一步/一键粘贴到Cherry Studio对话框,回车发送;
  2. 1秒不到,自动给出严格按图片排版的文字,精确度非常高。

优点:

  1. Cherry Studio每天已在大量使用,现成,无需额外增加其他软件;
  2. 大模型常用常新,几个月一个新版,随意切换;
  3. 粘贴-发送,一键出结果,好又快;

STranslate 2.0版本识别率还不错啊

他用的微信OcR的效果确实不错,不过题主明显想用的就是单单的OCR一个功能。
如果只是想简简单用OCR一个功能的话,我一嗯目前在用的是Quiker的一个动作。

鼠标中键呼出界面,选择功能,截屏,OCR识别。

PixPin_2025-12-15_10-26-57