CapsWriter-Offline,可能是最好用的 PC 端语音输入工具(离线识别)

我看到有个ahk 脚本,似乎可以把这个软件生成的 Windows terminal窗口给隐藏掉

我现在用这个软件来当会议,笔记记录使用,隔几分钟重新按一次
可能是因为笔记本性能的原因,似乎偶尔情况下它的按键会失效,需要多按一次

有人在里面发了自己更新的模型,在hanging face 上下载替换一下就行,我已经更新了

阿里云的是不是失效了啊。

emm 你可以让蓝牙耳机仅作为放声音。

咋操作的 有没有教程 教教我 ~

在这个issue里

我试验了一下,最后还是识别不了 , 换回来了。 这个issue里面写的有点乱。

我就是直接用的其他人上传的模型,然后下载替换之后可以正常使用。
确实是挺乱的,当时看了挺长时间的

这里请教一个问题,如果我想用它来做语音的命令输入,我会需要把“空格”转换为真正的“ “,回车转变为{Enter}而非\r。
目前的模型rule规则似乎做不到这点,是否有什么合适的转移字符可以做到?

我也在用,应该出个gui版。不知道模式还有更新升级计划没有。总感觉还是个90分的产品,没有做到100分。

有gui版,我记得在issue里面有人分叉了。

1 个赞

去看到那个gui分支了,但是不会用,好像是lu系统的不是win系统的吧。主要是不会用分支的文件。也没有整合包下载。

我一直在用,已经离不开了,关键是也没有什么其他代替产品。那个使用 api 的版本只能使用阿里的 api 也不更新。豆包升级的功能里面也加入语音云识别,但是没有这个好用。 :joy:

谢谢大佬,反馈一个问题:文件转录无法应用热词替换呃。我看issue175也反映了这个问题,但仍然没有解决……

以前使用正常,最近使用识别不了。不知是电流声音还是什么
得到的结果类似这样:

───────────现在可以开始识别了─────────────────────────────────────────

识别结果:好的好的好的好的
录音时长: 2.40s
识别时长: 0.23s
Real Time Factor: 0.09

识别结果:被告的的的的是是是是的的的的的这是没有没的
录音时长: 5.55s
识别时长: 0.44s
Real Time Factor: 0.08

因为无法上传图片,直接复制文字上来了。

是要升级还是要重新安装呢

很喜欢这个离线版的

对啊 不知道怎么设置声音响度的阈值

人听着是空白的语音 经常识别出来奇奇怪怪的东西

soundswitch + EarTrumpet,
保证麦克风链接正常即可。
我也有这种情况,多半是选择的录音设备不对。

对的。可以查看一下输出音源是否被其它程序或软件替换了,我之前也经常出现同样的问题,重启也无效。后来发现是因为使用的 NVIDIA Broadcast,导致把我的原生麦克风输出给替换了,关闭后就再也没有遇到这样的问题。

应该是麦克风有问题了。录个音试试呢。

csukuangfj更新了新的sherpa-onnx-paraformer-zh了

同时也提供了int8版本,

但是我下载了int8版本后替换模型,结果无法识别任何文字,输出结果是一片空白,既不是语音输入设备出问题(录音正常,有录音文件生成),也不是识别成「对,嗯,没有,我们」之类的噪音结果。

不知道是不是不能直接替换模型,还是需要别的什么操作之类的才能更新新的模型?