xxhhlk
2025 年11 月 27 日 16:14
1
各位好,我的系统是Windows 10,暂不考虑升级,想找个识别电脑正在播放的声音,然后转文字,开箱即用的软件。(也可以称作是实时字幕?)
听播客有时候不专心可以看字幕偷懒(
具体要求
0、免费无限制,或者较低价格可以买断
1、要求识别正确率高 不限制所用的模型(我听的播客会有中英夹杂的情况)
2、有图形界面 能显示字幕、配置文字大小就可以
3、有标点恢复
4、最好能区分说话人
5、不要对接在线API的,除非接口是免费不限量的并且效果能赶上Whisper。
目前在用TMSpeech,但是识别效果有点差,里面两个模型都试了,所以想看看有没有更好的
尝试了WhisperLiveKit,识别效果可以,但是只可以识别麦克风。用了官方给的chrome扩展,还是只能识别标签页的声音。并且使用的时候要点击扩展图标,弹出的窗口如果点到其他地方就没了,很不方便。 我知道用虚拟audio cable可以将电脑声音作为麦克风输入,但是这样我觉得……怎么说呢,不够优雅?
chrome自带的识别正确率更低
win10系统没有自带实时字幕功能
注意不是录音/音频文件转字幕
搜了几天没找到合适的 可能我搜索能力下降了
先看看大家有没有推荐的成品 国产软件也可以
没有的话只能找ai写一个了
如果是单纯的语音识别,可以试试LazyTyper或闪电说,他们都有本地模型。
至于字幕方面就不太清楚了。
1 个赞
Nosub
或者
CapsWriter-Offline
这两个都比Whisper模型更好. 而且都是本地免费开源的.
xxhhlk
2025 年11 月 28 日 07:25
5
谢谢Colin5887推荐的:
phongthanhbuiit/whisper-realtime-gui:这个是录麦克风的 实际测试也无法识别播放的声音 界面上没有地方设置 pass
ufal/whisper_streaming: 非GUI?先pass 后续看情况尝试
谢谢Aquamarine推荐的 LazyTyper和闪电说:这俩是语音输入法 先pass 后续看情况尝试
谢谢小恐龙推荐的:
patui/Nosub: 这个前几天找的时候已经下载了,看着是处理视频/音频文件的,没找到实时识别在哪里
HaujetZhao/CapsWriter-Offline: 这个也是录麦克风的 实际测试也无法识别播放的声音 也像是语音输入方向 要按住快捷键才能识别 emmm
知道大家推荐软件要花时间精力,正因为这份用心特别宝贵,麻烦大家一定要仔细看看我的需求哇
其实帖子第一句话提过“需要支持识别电脑正在播放的声音”,但分点要求里忘列了,大家可能没注意到,还有个说法是:内录
麻烦根据这个关键功能推荐,再次感谢每一位推荐的朋友们
Colin5887
(Colin5887)
2025 年11 月 28 日 08:12
6
作为一个搞音乐的,表示,内录的话,你去买USB声卡吧,普通的电脑,根本获取不到正在播放的声音,得借助外部硬件了。这个就不是一个纯靠软件能解决的问题。
至于解决了内录问题,剩下的,似乎大家推荐的软件都能解决问题了
如果只是实时识别:
Win11的实时字幕能力已经非常强了, 而且免费.
如果不想升级到win11
可以使用豆包pc版, 豆包也有类似的字幕, 而且可以对会议等进行AI总结
但豆包肯定是在线的.
另外, 我帮你编辑了一下标题.
xxhhlk
2025 年11 月 28 日 08:24
8
你说的可能不太正确,因为TMSpeech就可以做到。
xxhhlk
2025 年11 月 28 日 08:32
9
感谢二次推荐以及帮忙编辑标题。确实不想升级win11,在线也可以接受,毕竟听的也是公开的内容,只要免费不限量,或者说正常使用情况下不会触发限制即可。豆包客户端还没用过,晚些会试一下看看是什么效果。
xxhhlk
2025 年11 月 29 日 07:11
10
闲着没事把剩下几款也看了 只有豆包基本符合预期 就是电脑上又多了一款浏览器 目前来看没有更好的推荐 先采纳了 再次感谢小恐龙的推荐
xxhhlk
2025 年11 月 29 日 15:54
12
这个项目的本地模型效果一般,在线的又收费。要用效果好的本地模型还得自己开发,有点折腾,暂时先不考虑了,感谢推荐
w568w
(w568w)
2025 年11 月 29 日 18:34
13
可以试试
Offline real-time captioning software written in Flutter and Rust, powered by Whisper and LLM.
技术栈是:前端 Flutter + Rust,推理框架 ONNX + Candle,主要支持 Whisper,面向的也是内录字幕 + 实时翻译场景
认识的网友做的项目,友情推荐
1 个赞
xxhhlk
2025 年11 月 30 日 07:33
14
谢谢推荐,试用了现在的预发布版本,整体体验符合预期
有两个小问题想反馈,不太爱发issue,可以的话麻烦转达一下:
一是输出中文时简繁不稳定,可以增加固定输出简体/繁体的设置选项
二是仅能显示当前识别的句子,无法回顾历史内容,建议增加历史字幕功能
核心功能很稳定,希望能优化一下上述问题,期待后续更新
harry888
(Harry)
2025 年12 月 23 日 02:32
15
可以试试 FlashVoice (闪录(FlashVoice)- 本地离线语音输入法,实时语音转文字,隐私优先 )
1,免费,本地离线
2,识别率高
3,有标点恢复
4,不需要对接在线 API
5,可以实时显示字幕
Lean
2025 年12 月 23 日 05:46
16
内录还不简单,虚拟声卡就行,虚拟扬声器可以直连虚拟麦克风。
要我说的话,楼主提到的 virtual audio cable 并非不优雅,为什么不用呢?现在似乎还有了更强大的 Voicemeeter?虚拟扬声器作为默认设备,实体扬声器监听虚拟麦克风(或者实体作为默认设备,浏览器单独设置虚拟扬声器作为输出设备)。这样扩大了识别软件的选择面,语音转文字的同时又不影响你收听节目。虽然声音输出可能会有轻微延迟和质量损失,但在此使用场景下可以忽略不计。
当年我上网课想要实时翻译,最开始就是用的上面这套方案,但 Google 翻译网页版语音翻译上限只有几百字。后来换了一套方案,会议输出使用板载声卡 3.5mm 输出口,插入一条双公头 3.5mm 音频线,另一头连接手机 3.5 mm 口,利用手机的 Google 翻译来实时翻译电脑声音。另外电脑上接了一个蓝牙耳机作为耳麦来进行正常听讲。当然怎么同时进行双扬声器输出我已经忘了(好像是立体声混音?)。