BHznJNs
(BHznJNs)
1
这是个什么样的应用?
这个应用可以接收你说的话,将其转换成文字后逐字展示在直播画面中,且每个字出现时伴有音效。
为什么做这个应用?
我有时会直播写代码,由于社恐、对自己的声音不自信、在意隐私等原因,我不会在直播时开麦。
但是有时会有观众发评论,如果打字发送评论回复的话,会打断当前的编码工作,并且观感也不好。
于是我开发了这个软件,它能够让你在不直接开麦的情况下,让你能够很自然地通过语音与观众互动,而不用打断当前手头的直播活动(比如玩游戏、写代码等)。
FAQs
软件如何实现语音转文字?
软件会在首次启动时下载 AI 模型到本地,调用该模型实现语音转文字。
软件会不会很吃性能?
不会,软件使用的模型经过优化,软件运行时内存占用约 800 兆左右。同时,即使在没有独显的电脑上运行,模型处理速度也很快。
同时软件也支持调用 Groq、硅基流动等免费的云端模型,方便不希望本地运行模型的用户使用。
下载地址
目前仅支持 Windows,软件为一次性付费,价格九元,有免费试用。
视频演示
BHznJNs
(BHznJNs)
3
我没有尝试过外接音频输入设备,不过应该可以通过修改电脑默认音频输入设备来切换?
快捷键这一点会马上更改
BHznJNs
(BHznJNs)
5
你如果想要更好的效果,可以尝试在模型设置界面启用使用 LLM 优化的选项,然后配置 API key 和模型,一般来说,用免费的 gemini 2.5 flash 效果就足够
使用硅基流动这个问题我会尽快修复
tjsky
(去年夏天)
6
我试过本地模型+LLM优化,
LLM的介入可以很好的修复漏字和重复字。但偶尔AI会对过于口语的说法,篡改原意。
- 我想说的;‘确实是这样的说’、‘知道的话我肯定答应’
- 本地模型识别到的可能是;‘确是是这样说’、‘知道的话我肯定答应’
- 传递给LLM优化后‘确认是这样说’‘知道的话我肯定答应你’
不过这已经不是软件本身能解决的问题了,至于改改提示词能不能解决,我感觉也悬,
这算目前的AI还不够‘聪明’的吧。
客观说,本地模型即使不用LLM也比系统自带的那个实时字幕(辅助功能,字幕,实时辅助字幕,包括麦克风音频)强不少,那个是灾难性的语音识别效果,必须非常字正腔圆的说话才能保证正确率。
之前我有类似需求都是电脑大号+手机小号,开个2人的腾讯会议然后开实时字幕解决问题,但缺点就是;这东西太重了,我其实只是需要一个字幕功能。而且还需要占用着手机
tjsky
(去年夏天)
7
哦,对了,有个重要的功能缺失;置顶字幕窗口
我目前是使用PowerToys置顶的窗口
BHznJNs
(BHznJNs)
8
额,如果是在直播场景的话是不需要置顶的。因为 OBS 在窗口不置顶的情况下也能捕获到窗口。不过我不知道你是不是用在直播上
tjsky
(去年夏天)
9
我明白你的意思了,
你是用OBS捕获这多个窗口,然后排好直播时的显示位置
我是直接采集了整个屏幕
BHznJNs
(BHznJNs)
10
在 OBS 中:
选择 Window Capture → 在选项中,选择对应的窗口(gibberish-ui.exe),capture method 选择 Windows 10(1903 and up)