CapsWriter-Offline,可能是最好用的 PC 端语音输入工具(离线识别)

谢谢这么快的回复。在看到你的回复之前,刚刚看了说明发现可以配置。原来是配置中把末尾的句号去掉了。改了配置重新运行后可以了。这个软件太好了。

确实好用,只是可惜了我的 8g 小内存。
相比微软自带的,准确率高,延迟小。

难以置信,之前竟然错过了这么好用的语音输入工具! :100:

感觉可以配合quicker,来做到需要语音输入的时候就载入的感觉。

作者,您好。
我在使用源码运行时,服务端可以正常运行,但客户端client运行后,按caps键无反应,不会显示开始录音,请问可能是什么原因呢,非常感谢

这个已经变成我必备工具了.
有时候会比较慢,但总体来说可以接受我把它和鼠标手势软件 MouseGestureL结合,用第四键或者第五键,触发它的语音输入,然后释放。
基本做到了一只鼠标就可以进行输入,前提是你有个比较好的话筒。

现在唯一的遗憾是他只能够读入我的语音并不能够把会议录音转为文字。
我试过现场去录线,但是节奏掌握很牵扯精力。还是先录音,事后的整理比较方便一点,但是不知道有没有什么好的办法,比如命令行,可以把比如说一小时的语音给录进来,中间可以适当的间断。

虚拟声卡是个方法,但感觉比较繁琐

新版支持文件转录了 CapsWriter-Offline 电脑端离线语音输入工具_哔哩哔哩_bilibili

有一个不是开发者的问题,这个模型对于前后鼻音等模回音支持其是不太好

我简单测试了一下.

对比了 微软office365, 搜狗输入法, 百度输入法. 这三家的语音听写能力.

基本上, 单就中文听写能力.

搜狗>百度=CapsWriter>微软

搜狗: 完全正确. 包括法规名称<反有组织犯罪法>
百度和Capwriter : 听写成了 凡有组织犯罪法
微软: <反有组织犯罪法>写对了.但是标点停顿很差, 而且把"在常态化"听写成了"蔡华"

如果长期大量使用, 通过录入特殊名词库, 应该就是第一位的水平.

而且 搜狗和百度 都是联网识别, 所以 CapsWriter 的离线能力还是很牛逼的.

而且楼主打包后, 用起来很方便.
:+1: :+1: :+1:

试用了新版本,出来一个奇怪的错误
载入标点模型的时候:
Process Process-2:
Traceback (most recent call last):
File “multiprocessing\process.py”, line 315, in bootstrap
File “multiprocessing\process.py”, line 108, in run
File "D:\tool\Language
__\CapsWriter-Offline\util\server_init_recognizer.py", line 44, in init_recognizer
punc_model = CT_Transformer(ModelPaths.punc_model_dir, quantize=True)
File “funasr_onnx\punc_bin.py”, line 69, in init
File “funasr_onnx\utils\utils.py”, line 209, in init
File “onnxruntime\capi\onnxruntime_inference_collection.py”, line 419, in init
File “onnxruntime\capi\onnxruntime_inference_collection.py”, line 452, in _create_inference_session
onnxruntime.capi.onnxruntime_pybind11_state.Fail: [ONNXRuntimeError] : 1 : FAIL : Load model from models\punc_ct-transformer_cn-en\model_quant.onnx failed:bad allocation

小青蛙不把这个发到首页上?
我用了一下这个超级好用的!
而且它是本地的,而且速度特别快!
@ 小青蛙

我还特意在主站搜了一下,主站只有一个比较老的,是调 api 的,这个是纯本地的

我发现在 VS Code 中会失效,以及在 Quicker 也会失效,有人知道这是什么原因吗?

可能的原因不是唯一的,我能想到的有两种:

  • 你的VSCode和Quicker安装在C:\Program Files\路径下,启动时如无特殊处理将会使用管理员权限,而CapsWriter的Client放在普通路径,这可能会导致Client无法响应当VSCode等处于前台窗口时的按键操作(如果你使用按键宏类的工具,可能会比较熟悉)。如果属于此类情况,在你认为Client没有正确响应的时候,应该能看到Client的窗口对你按下热键毫无反应,不会出现开始识别的提示语。 解决方法是也用管理员权限启动Client(如果嫌右键启动麻烦,可以在属性→兼容性选项卡中勾选)。此外MS去年也推出过降权工具,在那之前也有第三方做过类似的尝试,如果有需要的话可以找找为VSCode降权的办法(未必顺利,如果选择这条路线请做好心理准备);至于Quicker,我想这类工具你一定不会考虑降权。 @Ultrasonicer 可能是这种情况。

  • 程序本身的bug。由于Windows弃用旧有的输入接口,并且众多输入法跟进了inline模式,不同开发者之间的分歧导致接收输入的程序与输入法程序之间长久以来存在兼容性问题(已达六年之久),这可能导致作者使用的库与VSCode使用的库之间不完全兼容。如果属于这种情况的话,那么未必每次VSCode冷启动之后输入都是无效的。 此类情况没有解决方案,只能通过退出接收输入的程序和使用多种输入法来缓解。

管理员权限运行

麦克风和耳机在原理上是一样的,所以这样的用法没有问题,只是灵敏度可能未必达标。我经常使用耳机充当麦克风来应急。

1 个赞

已经用这个方法解决问题了。此外我非常喜欢您的这个项目,真的帮到了我很多,非常感谢。

非常感谢如此有建设性的解惑。根据你的建议,已经解决问题了。

用了这么长时间,这个软件有两个小遗憾.
一个是内存占用有点大,反应有点慢,尤其在8g 内存小机器上会有这样的问题
另外一个是,如果外接了麦克风,当 USB 麦克风被拔掉的时候,接收端会停止工作。
这两个有什么解决办法吗?

按下开始松开结束,可以设为按下开始,再按下结束吗?