Caps Wirter，电脑端最好用的语音输入工具：按住大写锁定键，进行语音识别输入

HaujetZhao · 2020 年7 月 11 日 05:49

软件名称

Caps Writer

应用平台

Windows
MacOS
Linux

只有 Windows 有打包好的 exe 文件。

利益于 python 的跨平台特性，其它平台只需要自行安装依赖，再运行 python 脚本使用。

一句简介

一款语音输入工具，下载运行后，把它最小化，按下大写锁定键超过 0.3 秒后，开始语音识别，松开按键之后，自动输入识别文字。

应用简介

本工具（Caps Writer）是一个电脑端的语音输入工具，使用了阿里云的一句话识别 API

（有兴趣的可以修改源代码改成百度、腾讯、讯飞的 API 试试）。

使用方法很简单：运行程序后，按下 Caps Lock （也就是大写锁定键）超过 0.3 秒后，就会开始用阿里云的 API 进行语音识别，松开按键后，会将识别结果自动输入。（不用担心会启用大写锁定，在松开的时候，大写锁定状态会自动恢复）

因为使用了阿里云的 API，所以需要用户自己到阿里云申请，再填到 token.ini 中才能正常使用。

对于聊天时候进行快捷输入、写代码时快速加入中文注释非常的方便。

开发动机

我就气抖冷，为什么直到现在，仍然没有开发者做过一个好用的语音输入工具？

有人建议用搜狗输入法、讯飞输入法的语音输入，但这几个方面是真让人受不了：

广告太多，拒绝安装
我主力五笔，不使用搜狗输入法、讯飞输入法，顶多临时用下微软拼音
就以搜狗输入法为例，它的语音输入快捷键只能是 Ctrl + Shift + A/B/C…… ，有以下槽点：
- 这个快捷键会和许多软件的快捷键冲突，且不好记
- 打字时，按这样三个快捷键，手指很别扭，不爽
- 它的逻辑是按下快捷键后，启用语音输入，你一停顿一下，要说下一名，语音输入却结束了，不能让用户决定什么时候结束语音输入。

为了在电脑上语音输入，我之前是用的 Quicker 的手机端进行语音识别，输入到电脑上，需要两个设备，非常麻烦。今天终于做好我心目中最好用的电脑端语音输入工具了！

视频演示

作者为这个工具录制了使用视频演示、申请 api 的教程视频

请到 HacPai 帖子中进行查看：Caps Wirter 发布：按住大写锁定键，进行语音识别输入

或者到 Bilibili 查看： Caps Writer（电脑端语音输入工具）使用教程

官方网站 && 应用商店地址

Github

dms · 2020 年7 月 11 日 05:52

那个，讯飞输入法是可以的，没广告，快捷键 F6，安装后可以不使用其输入法（也不把输入法加入选单），只使用语音悬浮窗，开启长文本输入模式可以一直说一直说，直到按快捷键停止。

Eliauk · 2020 年7 月 11 日 08:08

推荐，
讯飞语音输入，打开就是一个悬浮窗，可以连续输入，大小6兆，免安装，我这段话就是用讯飞语音输入的，

dms · 2020 年7 月 11 日 10:18

我上面说了

所以并没有影响，除了不是绿色版。

就不是很有必要，因为用 AHK 的话，可以很小巧，也很隐蔽的处理这个问题。

但讯飞用在短句输入上并不是很舒适，我没有测试，但从视频上看，你的工具在这方面应该具有明显的速度优势。

讯飞的长语音很厉害，尤其现在会对整句进行反复调整，这准确率太舒服了。我现在写文章都喜欢用他口头输入。（不过这些回复还是手动打字的

HaujetZhao · 2020 年7 月 11 日 10:51

明白了。

我现在是安装上的讯飞输入法，然后将它从输入法选择列表中移除了。在他的目录中单独启用了语音识别那个小程序。然后隐藏到的托盘区。

这样我就有两种语音输入可以使用了。在不同情况下根据需求进行互补。

AHK 我知道他很强大，不过看他的学习成本有点高，感觉就像是学一门新的编程语言一样，现在还没有去接触。

dms · 2020 年7 月 11 日 10:55

别那样，就先读它的按键映射部分，差不多就是写规则 A 对应 B 的样子。仅这一部分，就能解决很多小问题。其他的，用到再查，它的语法规则挺另类的，很难习惯，如果不打算用它正经开发软件，不建议深究、

反正写个简单的判断啥的，对于程序猿不会有难度，就够用了。

Eliauk · 2020 年7 月 11 日 14:48

应该是提取了语音输入功能

DANO · 2023 年10 月 18 日 11:56

最新版我用了段时间了，现在这个回复就在用这个软件写的。
下载即用，不需要太配置。
我测试下来最好的方式是用右边的shift,因为capps lock被用作别的事情。

长句可能识别有点问题，但是短句没有太大问题。

几点改进意见？

一个是提高速度，
另外一个是它的客户端服务器窗口需要手动去开启和关闭，而且不能最小化.
还有一个是当我用蓝牙耳机进行输入，但是蓝牙离线的时候,可能是他检测不到，输入设备，他会跳bug，但这个客户端不会自己重启，必须手动关掉，再重启。

感谢这么好的工具，我觉得这个比讯飞的好，至少它是绿色的.

我买过讯飞的正版的录音笔，会议的时候换功能转换出来简直是一坨屎

dms · 2020 年7 月 11 日 06:46

这个倒是用 AHK 写个脚本，按住某键启动语音悬浮窗，松开就 kill 掉就好。

真同道中人，省的来回切换中英文，贼方便，可惜现在语音识别不够实时，然后个别错字也很恼人。

HaujetZhao · 2020 年7 月 11 日 06:41

F6 快捷键离正常打字的范围远，如果是正在打代码，要用下语音输入加注释，还要伸出手指老远，不舒服。

其次，按一次开始识别，再按一次停止识别这种方式我不喜欢。我更喜欢像对讲机那样，按住一个键说话，松开出结果。

还有在很多专业软件里，F6 这样的快捷键会有冲突。

长按大写锁定键说话，松手上屏就不会有上述这些烦恼。

dms · 2020 年7 月 11 日 07:16

开始我觉得你让用户自己去申请 API，我觉得有点麻烦。甚至读这段文字的时候我还想说：为什么不弄一个公共 API 。但现在我明白了，自己的 API 就相当于训练自己的词库。这个不错的。

这让我有试用的欲望了。

也推荐您试用一下讯飞，他的 PC 版应该是升级了。长文本的识别也是几乎逐字进行的，不过每个字识别完之后会对整句话进行调整，这样整体的识别率提高不少。（但输入和自动调整的过程太让人眼瞎了

HaujetZhao · 2020 年7 月 11 日 09:07

使用了一下讯飞输入法的语音输入，感触最大的是它的离线语音输入。可以使用离线引擎。在没有网的时候也能进行语音输入。虽然结果比不上在线输入，但是识别率还是挺可以的。

最大的槽点就是它的快捷键吧，现在只能够选择 F6 F7 F8 这些快捷键，上面密密麻麻一排，如果盲按的话，比较容易按错，而且可能在不同的软件中，与软件的快捷键冲突。如果讯飞输入法的快捷键也可以设置成大写锁定长按识别的话，就非常完美了。

HaujetZhao · 2020 年7 月 11 日 09:27

应该是后续处理占用了太多的时间。

他家明明电脑输入法都已经支持离线引擎了，但是开发者平台离线引擎的sdk只有安卓的。用拼音输入法的用户用这个倒是挺可以的。

只是我主力是5笔输入，再加一个输入法，看着有些别扭，目前还是我这个工具用着比较舒服一些，感觉松开按键之后，输入的速度灵敏不少。

其实我也可以将引擎换成讯飞的，只是他的收费不适合这样的应用。讯飞的api可以让个人开发者免费使用一年，一年之后只能用它的商用版本，商用版本的最便宜也只有1000元一年有效期20万次调用。

阿里云好歹还有1000次调用3.5元的商用版本，个人用得起。

百度的引擎，每个开发者有20万次调用的免费额度，只不过他只能将整个录音上传上去再返回。结果不能像阿里云这样实时听写。

目前阿里云的免费调用也足够个人使用，速度尚可，识别率也能接受。所以就先使用它了。

谷歌是有免费公共api的，但是做出来在大陆用不了，所以也就没有做。

HaujetZhao · 2020 年7 月 11 日 09:29

话说也可以把我这个工具改一下，长按大写锁定键的时候控制按下 f6，松开大写锁定键的时候，也松开f6。间接的使用讯飞的语音引擎。哈哈。

HaujetZhao · 2020 年7 月 11 日 06:58

速度方面，我这个工具很快，因为说话是和识别同步进行的，不是录完音再上传，然后识别。所以在松开按键了一瞬间，识别结果已经出来了，可以立刻打上去。

而精准度方面，如果你是在某一个行业方面有一些专业的词，经常语音不够合格，这就是使用开发者api进行语音识别输入的优势所在了：自学习。

以下文字摘自阿里云文档：

自学习平台训练模型的语料格式为小于20M的 UTF-8格式TXT文本 文件。训练语料应基于您历史生产出的标注文本，或者应用场景的专业术语的文本集合构成。

识别语料应该 一句一行 。
针对要识别的重点内容，如专有名词、人名地名等，需要在语料中反复出现，才可以提高识别的权重。

某地即将召开一场红学研究会，为了记录会场嘉宾的讲话，主办方选择接入阿里云智能语音服务来进行会议转写。首先开发人员注册并开通阿里云智能语音服务，为了提高会议发言的识别率，考虑采用自学习平台进行模型训练优化：

选择基础模型：采用通用模型。
训练语料采集：由于会议核心是讨论红楼梦相关的议题，开发人员将红楼梦小说的原文进行处理，根据标点做裁剪，将原文每句话保存为训练文本中的一行。
操作训练模型：通过自学习平台提交语料和训练之后，采用训练出的模型，可以有效识别出『贾宝玉』等红楼梦中的词汇，获得理想的识别效果。

dms · 2020 年7 月 11 日 08:32

这个应该是讯飞语音输入法的提取版吧（我没下载，不过我专门找过，好像讯飞自己并没发布这样的工具）。

dms · 2020 年7 月 11 日 09:16

他家不肯在 PC 上发力，偶尔能更新一次都是奇迹，但是一直能用。

我的想法是用 AHK 去辅助操作，可以映射在鼠标或者其他按键上。需要就启动悬浮窗，不需要就杀死，避免误操作和悬浮窗的遮挡（他的悬浮窗只能放在主显示器，而无法移动到其他显示器上也很恼人），反正启动速度也很快，就可以接受，

但目测你的工具识别速度更快。不排除是因为讯飞反复修正，追求准确率的缘故。

话题		回复	浏览量
【Caps Writer 2.0】电脑语音输入工具（图形界面版）发布：按住大写锁定键说话，松开后文字上屏发现频道 appinned , windows	11	4744	2025 年2 月 25 日
求一个电脑端的语音输入法问题求助输入法	34	4601	2021 年10 月 23 日
CapsWriter-Offline，可能是最好用的 PC 端语音输入工具（离线识别）发现频道 appinned	76	11579	2025 年2 月 25 日
用ahk的capslock实现中文标点符号的方案讨论分享 autohotkey	6	2950	2022 年2 月 23 日
英文状态怎么输入中文问题求助 windows	2	2024	2022 年4 月 24 日