利用 Chrome Live Caption 给系统级任何应用加字幕

Chrome 去年年中加入了一个很赞的新功能「Live Caption」(实时字幕),在本地运行了一个语音识别引擎,可以识别任何页面中的人声(英文限定)。于是我在想,能否绕过这个限制,使其可以识别系统中的其他声音,而不是限于浏览器内可以展现的内容。

实现上的原理很简单:想办法把系统的声音重定向到某个网页,用 Chrome 打开这个网页,保持字幕窗口开启,然后在系统的「音量合成器」里把 Chrome 静音。

本来打算自己写一个这样的工具,但是开始前搜了一下,发现已经有人造好轮子了:SoundIt。这个工具正合我意,其原始意图是在电脑上静音,把音频流通过网页传输,在手机上打开网页,连上耳机收听,从而避免外接电视时影响他人。技术上似乎走的是 WebRTC。

然后就很简单了,根据之前的思路试了试,基本上没啥问题,延迟大概只有0.5秒,几乎是完全实时的。唯一的不爽是字幕窗口限定在了 Chrome 窗口内,没法拖出来。

https://soundit.app/

2 Likes