【AHK】实现语音输入法

技术

偶然看到必应搜索可以语音输入,想到是否可以用ahk调用这个接口,经过ahk群友讨论,发现已经有大佬实现了demo。
用htlm+js调用接口,然后借助webview2返回结果给ahk。
然后用ahk实现桌面端实时语音输入打字。

效果

已经把这个技术应用到了我的打字翻译工具,识别速度和效果真惊艳。

链接: sxzxs/Real-time-translation-typing: 实时打字翻译软件 (github.com)

5 个赞

好东西要试用一下才知道。观看楼主说的会怀疑可用性,直到我试用一下这个识别速度和识别成功率。都是非常OK的。现在这段话就是用它打的感觉非常的流畅快速。包括翻译在内都是非常快的。

:+1:

想问一下,如果只想用语音中文输入,不需要实时翻译功能,可以关闭吗?

我现在正在测试这个语音输入法。它的响应速度虽然跟不上我说话的速度。但是整个体验还是很好的。识别能力目前看也不错。

目前没有开放配置,可以直接改代码

你只管快速说,虽然实时识别跟不上,但是最终会全部识别

打开文本编辑器界面,盯了半天:eye_in_speech_bubble:,脑袋里一片迷茫。大佬,求助,可否修改个无翻译版,或者给个修改的指导(代码仅能看懂基本语法的程度)


把这两个地方改成空

就这?无丝竹乱耳,无案牍劳形,轻轻松松,搞掂
感谢:pray:

:cow:
我之前还弄了个类似的。不同点是语音输入的终端是手机。

和win11的win+h语音输入法比,区别大不,win+h好像也是网络识别的。
如果区别不大,感觉也可以拦截win+h,然后整合到Real-time-translation-typing

Win+H 在说话的时候,如果出现了停顿,语音识别会自动停止:zzz:。而这个工具不会。也就是说,用这个说话没有压力,可以说一句话稍作思考,再说下一句

微软新发布的插件 VS Code Speech 支持流式语音输入,而且也是离线的

目前是只能在 vscode 中使用,离线,多语言,流式,识别准确率还挺不错,能跟 paraformer 非流式打得有来有回

拆开 VS Code Speech 中文包看了下,

模型是量化的 onnx 格式:

从配置文件可以看到,流式语音识别模型是 RNN-Transducer :

它用的是微软的 Azure / AI Services / Speech Service / Embedded Speech

文档:Embedded Speech - Speech service - Azure AI services | Microsoft Learn

也就是说,是微软的语音识别服务嵌入版,需要审核后下发 model key,才能用它的 api 和 sdk 使用模型,key 应该是嵌入到了 VS Code 的代码中。

能不能试下调用这个?离线、多语言、低 CPU 占用、高准确率。

VS Code 最新版 1.87

安装上如下的插件:

用 Ctrl + Alt + V 即可开启

1 个赞

已应用到LOL游戏中
实时语音打字交流,不影响操作
lol 实时语音打字交流不影响操作 (bilibili.com)

1 个赞

怎么部署啊,直接 做成exe不可以吗?

本来就是exe,没看到?

在官方页面那里看到一堆东西,所以不知道具体用哪个。

image
alt+i触发语音
LOL游戏中是鼠标侧键1触发语音,鼠标侧键2触发发送