「ahk咏唱术」——通过声音操纵电脑~

缘起

一直一来就想要通过语音来操纵电脑。
现有的方案有这5个:盘点支持用语音控制PC的软件
但是普遍中文识别不佳,操纵可玩性不高。

因此,我就想,如果能够把“语音”和“autohotkey”连结起来就好了。
这样一来,通过声音就能对电脑进行为所欲为的操作。
再加上一些关键词分类处理,更是可以实现一丢丢小智能。

终于,我看到了这个软件 LiveCaption https://gitee.com/641453620/livecaption 我发现,给这个软件用一小段ahk代码作个桥接,就可以完美实现我想要的功能啦。

适合用户

会autohotkey 基础。【ahk 1.0】

效果展示

示例通过语音打开小众软件和知乎

8
(字幕栏也可以最小化到任务栏,鼠标附近也会有提示)

示例通过语音打开文件(“打开XX”指令联动listary)

8

其他玩法举例

通过“浏览XX”指令联动浏览器打开特定网站。
通过“运行XX”指令联动listary运行特定软件。
通过“请打开XX”指令,联动listary查找但不打开XX文件【显示候选】
通过第一/第二。。。指令打开listary搜索的第N个候选项。


在文字编辑/绘图软件中,通过声音切换笔刷、字体等。
在游戏中,通过语言来攻击对手。
录制网课/教程的时候装大逼用~
快速插入常用字符串/时间日期等。
等等等等。

配置方法

  1. 首先在此处下载livecaption ,并按照说明进行配置(其中有哔哩哔哩链接):
    LiveCaption : LiveCaption 是一款支持使用第三方公共云接口,实时将系统或麦克风的声音识别显示为桌面字幕的Windows软件,支持其他语种的同步翻译。
  2. 如图进行设置,标画出的地方需要特别注意
  3. 下载“ahk咏唱术”,修改代码中第十六行的路径为livecaption\文档记录 所在目录。
    地址:http://dogbean.ysepan.com/
    图片
WatchFolder("C:\miniapp\livecaption-windows-1.0.8-x64\文档记录", "myFunc", SubTree :=1, Watch := 1) 
  1. 按照格式增加自己需要的功能,预设有四种情况
;以下是主要代码区域,修改下面部分的代码实现自定义功能

;这部分通过识别开头两个字,实现分情况“智能”操纵
Switch headword
{
Case "打开":
	sendinput,^#{Numpad0}
	sleep,300
	send,%mainword%
	sleep,300
	send,^1
	return
Case "访问", "浏览":
	return
Default:
}

;这部分通过识别开头两个字(拼音),实现分情况“智能”操纵
Switch headword
{
Case "dakai":
	sendinput,^#{Numpad0}
	sleep,300
	send,%py_mainword%
	sleep,300
	send,^1
	return
Case "fangwen", "liulan":
	return
Default:
}

;这部分通过识别整个句子,进行特定操纵
Switch realtimewords
{
Case "知乎":
	run www.zhihu.com
	return
Case "小众", "小众论坛","小众软件":
	run https://meta.appinn.net
	return
Default:
}

;这部分通过识别整个句子(拼音),进行特定操纵
Switch py_realtimewords
{
Case "zhihu":
	run www.zhihu.com
	return
Case "xiaozhong", "xiaozhongluntan","xiaozhongruanjian":
	run https://meta.appinn.net
	return
Default:
}
5 个赞

这个项目我罗永浩投了!!!

不知道怎么能看到你写的所有脚本,目前看到的几个都很喜欢。

之后我出个合集吧,我也自己整理整理,乱七八糟的。

配置方法和下载链接已更新~

另外推荐两个,『ahk咏唱术』 的装逼好搭档:

『ahk符箓术』和 『ahk结手印术』:

LiveCaption 识别率怎么样啊?控制HTPC的话,有没有合适的硬件推荐的?
我之前发的这个帖子,也是通过语音控制电脑 (逃
手机语音控制电脑 - 讨论分享 - 小众软件官方论坛 (appinn.net)
虽然不是在电脑端将语音识别成文字,而是利用手机端语音输入法将语音转化成文字。
但这个方法有一个很便利的地方就是,在识别有问题时,可以方便更改。

阿里云的语音引擎,识别率挺高的,而且我添加了个汉字转拼音的库,通过拼音识别可以规避错别字。

小众软件推荐过一个叫wo mic 的,可以用手机当电脑麦克风,挺好用。

Wo mic 我试过了。可能是跟防火墙有关的原因。并没有成功。
总体上我认为还是分场景吧。
如果是控制家里面公用的HTTPC。我认为基于Python定义的一个HTTP server,安装在htpc上,在局域网环境内任意终端打开浏览器就能控制。还是最便捷的方案了。
如果是控制私人的电脑。你的这个方案还包括语音鼠标,这些方案都是挺好的。

你加一个特殊的标签就行了,很容易,比如我才创建了一个 如何

然后,还可以加一些文字描述,比如 appinned 的边栏状态。

软件配置好了,使用正常,ahk 咏唱术打开小众都没有反应 ::不会搞

要自己改代码部分的case

试试喊一句 小众软件
喊打开xx不行,那个得自己改代码适配自己电脑

哈哈哈,这个感觉和之前那个符篆术是个姊妹篇 :joy:

1 个赞

1.08 版下载地址打不开,下载了 1.06 版,软件设置界面和你的不一样,无法设置 AutoHotkey 为「语音引擎」

可否分享一个 1.08 版

我传了一份在我的网盘 dogbean.ysepan.com
image

你需要按照bilibili视频自己新建一个引擎,我只是随便给它起了个名字叫autohotkey

感谢,我正在跟着视频教程配置阿里云智能语音交互,你的文件来得非常及时:smiley:


LiveCaption配置好了,但「ahk咏唱术」运行报错:sob:

这个是autohotkey1.x 的代码,你如果在用2.0 就得改一点。

ahk 是 1.0,我还没安装 2.0

顺便吐槽一下,阿里云的语音识别正确率比讯飞差远了:sweat: