Caps Wirter,电脑端最好用的语音输入工具:按住大写锁定键,进行语音识别输入

软件名称

Caps Writer

应用平台

  • Windows
  • MacOS
  • Linux

只有 Windows 有打包好的 exe 文件。

利益于 python 的跨平台特性,其它平台只需要自行安装依赖,再运行 python 脚本使用。

推荐类型

【开发者自荐】

一句简介

一款语音输入工具,下载运行后,把它最小化,按下大写锁定键超过 0.3 秒后,开始语音识别,松开按键之后,自动输入识别文字。

应用简介

本工具(Caps Writer)是一个电脑端的语音输入工具,使用了阿里云的一句话识别 API

(有兴趣的可以修改源代码改成百度、腾讯、讯飞的 API 试试)。

使用方法很简单:运行程序后,按下 Caps Lock (也就是大写锁定键)超过 0.3 秒后,就会开始用阿里云的 API 进行语音识别,松开按键后,会将识别结果自动输入。(不用担心会启用大写锁定,在松开的时候,大写锁定状态会自动恢复)

因为使用了阿里云的 API,所以需要用户自己到阿里云申请,再填到 token.ini 中才能正常使用。

对于聊天时候进行快捷输入、写代码时快速加入中文注释非常的方便。

开发动机

我就气抖冷,为什么直到现在,仍然没有开发者做过一个好用的语音输入工具?

有人建议用搜狗输入法、讯飞输入法的语音输入,但这几个方面是真让人受不了:

  • 广告太多,拒绝安装
  • 我主力五笔,不使用搜狗输入法、讯飞输入法,顶多临时用下微软拼音
  • 就以搜狗输入法为例,它的语音输入快捷键只能是 Ctrl + Shift + A/B/C…… ,有以下槽点:
    • 这个快捷键会和许多软件的快捷键冲突,且不好记
    • 打字时,按这样三个快捷键,手指很别扭,不爽
    • 它的逻辑是按下快捷键后,启用语音输入,你一停顿一下,要说下一名,语音输入却结束了,不能让用户决定什么时候结束语音输入。

为了在电脑上语音输入,我之前是用的 Quicker 的手机端进行语音识别,输入到电脑上,需要两个设备,非常麻烦。今天终于做好我心目中最好用的电脑端语音输入工具了!

视频演示

作者为这个工具录制了使用视频演示、申请 api 的教程视频

请到 HacPai 帖子中进行查看:Caps Wirter 发布:按住大写锁定键,进行语音识别输入

或者到 Bilibili 查看: Caps Writer(电脑端语音输入工具)使用教程

官方网站 && 应用商店地址

Github

1赞

那个,讯飞输入法是可以的,没广告,快捷键 F6,安装后可以不使用其输入法(也不把输入法加入选单),只使用语音悬浮窗,开启长文本输入模式可以一直说一直说,直到按快捷键停止。

F6 快捷键离正常打字的范围远,如果是正在打代码,要用下语音输入加注释,还要伸出手指老远,不舒服。

其次,按一次开始识别,再按一次停止识别这种方式我不喜欢。我更喜欢像对讲机那样,按住一个键说话,松开出结果。

还有在很多专业软件里,F6 这样的快捷键会有冲突。

长按大写锁定键说话,松手上屏就不会有上述这些烦恼。

这个倒是用 AHK 写个脚本,按住某键启动语音悬浮窗,松开就 kill 掉就好。

真同道中人,省的来回切换中英文,贼方便,可惜现在语音识别不够实时,然后个别错字也很恼人。

速度方面,我这个工具很快,因为说话是和识别同步进行的,不是录完音再上传,然后识别。所以在松开按键了一瞬间,识别结果已经出来了,可以立刻打上去。

而精准度方面,如果你是在某一个行业方面有一些专业的词,经常语音不够合格,这就是使用开发者api进行语音识别输入的优势所在了:自学习。

以下文字摘自阿里云文档:

自学习平台训练模型的语料格式为小于20M的 UTF-8格式TXT文本 文件。训练语料应基于您历史生产出的标注文本,或者应用场景的专业术语的文本集合构成。

  • 识别语料应该 一句一行
  • 针对要识别的重点内容,如专有名词、人名地名等,需要在语料中反复出现,才可以提高识别的权重。

某地即将召开一场红学研究会,为了记录会场嘉宾的讲话,主办方选择接入阿里云智能语音服务来进行会议转写。首先开发人员注册并开通阿里云智能语音服务,为了提高会议发言的识别率,考虑采用自学习平台进行模型训练优化:

  • 选择基础模型:采用 通用 模型。
  • 训练语料采集:由于会议核心是讨论红楼梦相关的议题,开发人员将红楼梦小说的原文进行处理,根据标点做裁剪,将原文每句话保存为训练文本中的一行。
  • 操作训练模型:通过自学习平台提交语料和训练之后,采用训练出的模型,可以有效识别出『贾宝玉』等红楼梦中的词汇,获得理想的识别效果。

开始我觉得你让用户自己去申请 API,我觉得有点麻烦。甚至读这段文字的时候我还想说:为什么不弄一个公共 API 。但现在我明白了,自己的 API 就相当于训练自己的词库。这个不错的。

这让我有试用的欲望了。

也推荐您试用一下讯飞,他的 PC 版应该是升级了。长文本的识别也是几乎逐字进行的,不过每个字识别完之后会对整句话进行调整,这样整体的识别率提高不少。(但输入和自动调整的过程太让人眼瞎了

推荐, 讯飞语音输入,打开就是一个悬浮窗,可以连续输入,大小6兆,免安装,我这段话就是用讯飞语音输入的,

1赞

这个应该是讯飞语音输入法的提取版吧(我没下载,不过我专门找过,好像讯飞自己并没发布这样的工具)。

使用了一下讯飞输入法的语音输入,感触最大的是它的离线语音输入。可以使用离线引擎。在没有网的时候也能进行语音输入。虽然结果比不上在线输入,但是识别率还是挺可以的。

最大的槽点就是它的快捷键吧,现在只能够选择 F6 F7 F8 这些快捷键,上面密密麻麻一排,如果盲按的话,比较容易按错,而且可能在不同的软件中,与软件的快捷键冲突。如果讯飞输入法的快捷键也可以设置成大写锁定长按识别的话,就非常完美了。

他家不肯在 PC 上发力,偶尔能更新一次都是奇迹,但是一直能用。

我的想法是用 AHK 去辅助操作,可以映射在鼠标或者其他按键上。需要就启动悬浮窗,不需要就杀死,避免误操作和悬浮窗的遮挡(他的悬浮窗只能放在主显示器,而无法移动到其他显示器上也很恼人),反正启动速度也很快,就可以接受,

但目测你的工具识别速度更快。不排除是因为讯飞反复修正,追求准确率的缘故。

应该是后续处理占用了太多的时间。

他家明明电脑输入法都已经支持离线引擎了,但是开发者平台离线引擎的sdk只有安卓的。用拼音输入法的用户用这个倒是挺可以的。

只是我主力是5笔输入,再加一个输入法,看着有些别扭,目前还是我这个工具用着比较舒服一些,感觉松开按键之后,输入的速度灵敏不少。

其实我也可以将引擎换成讯飞的,只是他的收费不适合这样的应用。讯飞的api可以让个人开发者免费使用一年,一年之后只能用它的商用版本,商用版本的最便宜也只有1000元一年有效期20万次调用。

阿里云好歹还有1000次调用3.5元的商用版本,个人用得起。

百度的引擎,每个开发者有20万次调用的免费额度,只不过他只能将整个录音上传上去再返回。结果不能像阿里云这样实时听写。

目前阿里云的免费调用也足够个人使用,速度尚可,识别率也能接受。所以就先使用它了。

谷歌是有免费公共api的,但是做出来在大陆用不了,所以也就没有做。

话说也可以把我这个工具改一下,长按大写锁定键的时候控制按下 f6,松开大写锁定键的时候,也松开f6。间接的使用讯飞的语音引擎。哈哈。

我上面说了

所以并没有影响,除了不是绿色版。

就不是很有必要,因为用 AHK 的话,可以很小巧,也很隐蔽的处理这个问题。


但讯飞用在短句输入上并不是很舒适,我没有测试,但从视频上看,你的工具在这方面应该具有明显的速度优势。

讯飞的长语音很厉害,尤其现在会对整句进行反复调整,这准确率太舒服了。我现在写文章都喜欢用他口头输入。(不过这些回复还是手动打字的

明白了。

我现在是安装上的讯飞输入法,然后将它从输入法选择列表中移除了。在他的目录中单独启用了语音识别那个小程序。然后隐藏到的托盘区。

这样我就有两种语音输入可以使用了。在不同情况下根据需求进行互补。

AHK 我知道他很强大,不过看他的学习成本有点高,感觉就像是学一门新的编程语言一样,现在还没有去接触。

别那样,就先读它的按键映射部分,差不多就是写规则 A 对应 B 的样子。仅这一部分,就能解决很多小问题。其他的,用到再查,它的语法规则挺另类的,很难习惯,如果不打算用它正经开发软件,不建议深究、

反正写个简单的判断啥的,对于程序猿不会有难度,就够用了。

应该是提取了语音输入功能