【开发者自荐】狸语字幕助手 —— 不开麦也能“开口”互动的直播小工具

这是个什么样的应用?

这个应用可以接收你说的话,将其转换成文字后逐字展示在直播画面中,且每个字出现时伴有音效。

为什么做这个应用?

我有时会直播写代码,由于社恐、对自己的声音不自信、在意隐私等原因,我不会在直播时开麦。
但是有时会有观众发评论,如果打字发送评论回复的话,会打断当前的编码工作,并且观感也不好。
于是我开发了这个软件,它能够让你在不直接开麦的情况下,让你能够很自然地通过语音与观众互动,而不用打断当前手头的直播活动(比如玩游戏、写代码等)。

FAQs

软件如何实现语音转文字?

软件会在首次启动时下载 AI 模型到本地,调用该模型实现语音转文字。

软件会不会很吃性能?

不会,软件使用的模型经过优化,软件运行时内存占用约 800 兆左右。同时,即使在没有独显的电脑上运行,模型处理速度也很快。
同时软件也支持调用 Groq、硅基流动等免费的云端模型,方便不希望本地运行模型的用户使用。

下载地址

目前仅支持 Windows,软件为一次性付费,价格九元,有免费试用。

视频演示

这倒是个有趣的应用,试了一下有两个小问题

  • 没有输入源的切换吗?我使用蓝牙耳机时程序无法正确处理音频输入(也就是无反应)只有使用笔记本默认麦克风才能程序才能正确工作。
  • 快捷键能加个修改功能嘛,很多人的右shift还是有使用需求的,不能被占用。
1 Like

我没有尝试过外接音频输入设备,不过应该可以通过修改电脑默认音频输入设备来切换?
快捷键这一点会马上更改

尝试用了一晚上,还不错有几点问题

  • 本地模型的识别能力,还是有点让人纠结,说话较快时会出现吞字的情况。
  • 是否可以明确显示目前使用的模型类型,因为保存时显示《部分设置需重启后生效》从界面上很难判断是否切换成功。
  • 使用硅基流动模型启动时会提示这个
    _20250814160833.png
  • 偶尔会提示硅基流动的密钥无效,但明显是有效的,因为我可以将相同的密钥放到其他服务里正常使用。
1 Like

你如果想要更好的效果,可以尝试在模型设置界面启用使用 LLM 优化的选项,然后配置 API key 和模型,一般来说,用免费的 gemini 2.5 flash 效果就足够

使用硅基流动这个问题我会尽快修复

我试过本地模型+LLM优化,
LLM的介入可以很好的修复漏字和重复字。但偶尔AI会对过于口语的说法,篡改原意。

  • 我想说的;‘确实是这样的说’、‘知道的话我肯定答应’
  • 本地模型识别到的可能是;‘确是是这样说’、‘知道的话我肯定答应’
  • 传递给LLM优化后‘确认是这样说’‘知道的话我肯定答应你’

不过这已经不是软件本身能解决的问题了,至于改改提示词能不能解决,我感觉也悬,
这算目前的AI还不够‘聪明’的吧。

客观说,本地模型即使不用LLM也比系统自带的那个实时字幕(辅助功能,字幕,实时辅助字幕,包括麦克风音频)强不少,那个是灾难性的语音识别效果,必须非常字正腔圆的说话才能保证正确率。

之前我有类似需求都是电脑大号+手机小号,开个2人的腾讯会议然后开实时字幕解决问题,但缺点就是;这东西太重了,我其实只是需要一个字幕功能。而且还需要占用着手机

哦,对了,有个重要的功能缺失;置顶字幕窗口
我目前是使用PowerToys置顶的窗口

额,如果是在直播场景的话是不需要置顶的。因为 OBS 在窗口不置顶的情况下也能捕获到窗口。不过我不知道你是不是用在直播上

我明白你的意思了,
你是用OBS捕获这多个窗口,然后排好直播时的显示位置
我是直接采集了整个屏幕

在 OBS 中:

选择 Window Capture → 在选项中,选择对应的窗口(gibberish-ui.exe),capture method 选择 Windows 10(1903 and up)

话说你的使用场景是什么样的,也是直播吗?