CapsWriter-Offline,可能是最好用的 PC 端语音输入工具(离线识别)

CapsWriter-Offline

按住 CapsLock 或 鼠标X2 说话,松开就上屏。就这么简单。

CapsWriter-Offline 是一个专为 Windows 打造的完全离线语音输入工具。

视频教程:CapsWriter-Offline 电脑端离线语音输入工具

:sparkles: 核心特性

  • 语音输入:按住 CapsLock键鼠标侧键X2 说话,松开即输入,超低延迟,默认去除末尾逗句号。支持对讲机模式和单击录音模式。
  • 文件转录:音视频文件往客户端 exe 一丢,字幕 (.srt)、文本 (.txt)、时间戳 (.json) 统统都有。
  • 数字 ITN:自动将「十五六个」转为「15~16个」,支持各种复杂数字格式。
  • 热词替换:在 hot.txt 记下偏僻词,通过音素模糊匹配,相似度大于阈值则强制替换。
  • 正则替换:在 hot-rule.txt 用正则或简单等号规则,精准强制替换。
  • LLM 角色:预置了润色、小助理等角色,当识别结果的开头匹配任一角色名字时,将交由该角色处理。
  • 托盘菜单:右键托盘图标即可添加热词、复制结果、清除LLM记忆。
  • C/S 架构:服务端与客户端分离,虽然 Win7 老电脑跑不了服务端模型,但最少能用客户端输入。
  • 日记归档:按日期保存你的每一句语音及其识别结果。
  • 录音保存:所有语音均保存为本地音频文件,隐私安全,永不丢失。

CapsWriter-Offline 的精髓在于:完全离线(不受网络限制)、响应极快高准确率高度自定义。我追求的是一种「如臂使指」的流畅感,让它成为一个专属的一体化输入利器。无需安装,一个U盘就能带走,随插随用,保密电脑也能用。

以下为支持的模型:

引擎名 准确性 速度 格式 显卡加速
Paraformer ★★★☆☆ ★★★★★ ONNX :cross_mark:
SenseVoice-Small ★★★☆☆ ★★★★★ ONNX :white_check_mark:
Fun-ASR-Nano ★★★★☆ ★★★★☆ ONNX + GGUF :white_check_mark:
Qwen3-ASR ★★★★★ ★★★☆☆ ONNX + GGUF :white_check_mark:

性能参考(20s 音频转录延迟):

模型 CPU U9-285H GPU RTX5050
Paraformer 0.6s -
SenseVoice-Small 0.6s 0.15s
Fun-ASR-Nano 2.0s 0.5s
Qwen3-ASR-1.7B 4.0s 1.0s

功能文档:

下载地址:

25 个赞

大佬啊,capswriter真是好使,特地登录来捧场。不过这个离线版,安装要求对很多普通用户来说好像高了一点。

另外问一下大佬,capswriter还有没有更新计划呢?比如将来有没有可能自定义快捷键?

2 个赞

比起注册阿里云的 API 已经很低了。下载 Python 、下载项目、下载模型、安装依赖,然后双击就可以用了。

你可以动手操作一下,看见哪里也会有问题不会做。而且在脚本里边也可以直接修改快捷键。

CapsWriter 的最终目标是完全离线化的实时语音输入,还在等合适 Windows 端开源的离线模型工具(实时识别)。

大佬,配置Python等等一系列操作对父母长辈来说实在太难。啥时候能出个exe的安装包

是不是也不支持Windows7?

大佬,服务端01-sherpa-onnx-server.py跑不起来


看起来是里面的路径不太对 但是py文件里没有设置路径的地方,是不是编译的时候,sherpa-onnx-offline-websocket-server里面写死了?

你是没下载模型,只下载了脚本吧,模型要放到 paraformer-offline-zh 文件夹

不知道用Whisper.cpp改写一个有没有戏,之前试用过WhisperDesktop,编译后的exe文件体积还是很小的

更新了,出 Win10-64打包版的了。

没戏,对算力要求太高,延迟太大

需要从源码运行。Python3.8 可以用。我没有精力去做 win7 的打包。

出打包版了,可以编辑 py 文件修改快捷键

2 个赞


我好像看到个实时的?

实时的暂时没有 onnx 实现,速度很慢,也上不了 Linux 端。

好的,现在也很好用了,期待大佬的gui版本

好东西啊,先谢谢大佬。抽时间下载试试。

请问支持音频文件的转录吗?

2 个赞

安装个虚拟声卡应该可以支持转录

@Qingwa 邀请你来试用试用,我觉得这个质量能上首页

来了来了

感谢大佬提供的这个软件。已经测试成功。开始一直启动不了客户端,窗口弹一下就消失了。经过调试,发现是加载音频流失败。最后把麦克风孔插上,再次运行就正常了。其实麦克风孔上插的是一个耳机,并没有麦克风,但同样能录入打字。这个帖子就是用语音输入实现的。

现在有一个问题就是,无法在每一段话后面加上句号,中间好像可以自动加逗号。两句话之间也没有加入空隙。用语音说句号,结果出来的是句号两个字。建议可以在每一段录音文字的后面加一个空格,这样便于后期人工加标点。或者说一段语音文字最后两个号是句号时,转换成标点。

1 个赞

编辑客户端配置,配置方法看 Readme