求推荐 Windows 10 本地实时字幕(语音转文字)软件

xxhhlk · 2025 年11 月 27 日 16:14

各位好，我的系统是Windows 10，暂不考虑升级，想找个识别电脑正在播放的声音，然后转文字，开箱即用的软件。（也可以称作是实时字幕？）

听播客有时候不专心可以看字幕偷懒（

具体要求

0、免费无限制，或者较低价格可以买断

1、要求识别正确率高不限制所用的模型（我听的播客会有中英夹杂的情况）

2、有图形界面能显示字幕、配置文字大小就可以

3、有标点恢复

4、最好能区分说话人

5、不要对接在线API的，除非接口是免费不限量的并且效果能赶上Whisper。

目前在用TMSpeech，但是识别效果有点差，里面两个模型都试了，所以想看看有没有更好的

尝试了WhisperLiveKit，识别效果可以，但是只可以识别麦克风。用了官方给的chrome扩展，还是只能识别标签页的声音。并且使用的时候要点击扩展图标，弹出的窗口如果点到其他地方就没了，很不方便。我知道用虚拟audio cable可以将电脑声音作为麦克风输入，但是这样我觉得……怎么说呢，不够优雅？

chrome自带的识别正确率更低

win10系统没有自带实时字幕功能

注意不是录音/音频文件转字幕

搜了几天没找到合适的可能我搜索能力下降了

先看看大家有没有推荐的成品国产软件也可以

没有的话只能找ai写一个了

Colin5887 · 2025 年11 月 27 日 19:24

理所当然是Whisper，毕竟，不管是什么软件，用的都是他…..哦，开箱既用

搜了一下，看到了这些：

GitHub - phongthanhbuiit/whisper-realtime-gui: A modern, real-time speech recognition application built with OpenAI's Whisper and PySide6. This application provides a beautiful, native-looking interface for transcribing audio in real-time with support for multiple languages.
GitHub - ufal/whisper_streaming: Whisper realtime streaming for long speech-to-text transcription and translation

Aquamarine · 2025 年11 月 28 日 00:46

如果是单纯的语音识别，可以试试LazyTyper或闪电说，他们都有本地模型。
至于字幕方面就不太清楚了。

xiaokonglong · 2025 年11 月 28 日 01:23

Nosub

或者

CapsWriter-Offline

这两个都比Whisper模型更好. 而且都是本地免费开源的.

xxhhlk · 2025 年11 月 28 日 07:25

谢谢Colin5887推荐的：
phongthanhbuiit/whisper-realtime-gui：这个是录麦克风的实际测试也无法识别播放的声音界面上没有地方设置 pass
ufal/whisper_streaming: 非GUI？先pass 后续看情况尝试

谢谢Aquamarine推荐的 LazyTyper和闪电说：这俩是语音输入法先pass 后续看情况尝试

谢谢小恐龙推荐的：
patui/Nosub: 这个前几天找的时候已经下载了，看着是处理视频/音频文件的，没找到实时识别在哪里
HaujetZhao/CapsWriter-Offline: 这个也是录麦克风的实际测试也无法识别播放的声音也像是语音输入方向要按住快捷键才能识别 emmm

知道大家推荐软件要花时间精力，正因为这份用心特别宝贵，麻烦大家一定要仔细看看我的需求哇
其实帖子第一句话提过“需要支持识别电脑正在播放的声音”，但分点要求里忘列了，大家可能没注意到，还有个说法是：内录
麻烦根据这个关键功能推荐，再次感谢每一位推荐的朋友们

Colin5887 · 2025 年11 月 28 日 08:12

作为一个搞音乐的，表示，内录的话，你去买USB声卡吧，普通的电脑，根本获取不到正在播放的声音，得借助外部硬件了。这个就不是一个纯靠软件能解决的问题。

至于解决了内录问题，剩下的，似乎大家推荐的软件都能解决问题了

xiaokonglong · 2025 年11 月 28 日 08:18

如果只是实时识别:

Win11的实时字幕能力已经非常强了, 而且免费.

如果不想升级到win11

可以使用豆包pc版, 豆包也有类似的字幕, 而且可以对会议等进行AI总结

但豆包肯定是在线的.

另外, 我帮你编辑了一下标题.

xxhhlk · 2025 年11 月 28 日 08:24

你说的可能不太正确，因为TMSpeech就可以做到。

xxhhlk · 2025 年11 月 28 日 08:32

感谢二次推荐以及帮忙编辑标题。确实不想升级win11，在线也可以接受，毕竟听的也是公开的内容，只要免费不限量，或者说正常使用情况下不会触发限制即可。豆包客户端还没用过，晚些会试一下看看是什么效果。

xxhhlk · 2025 年11 月 29 日 07:11

闲着没事把剩下几款也看了只有豆包基本符合预期就是电脑上又多了一款浏览器目前来看没有更好的推荐先采纳了再次感谢小恐龙的推荐

yuyan · 2025 年11 月 29 日 15:36

可以试下这个 auto-caption

xxhhlk · 2025 年11 月 29 日 15:54

这个项目的本地模型效果一般，在线的又收费。要用效果好的本地模型还得自己开发，有点折腾，暂时先不考虑了，感谢推荐

w568w · 2025 年11 月 29 日 18:34

可以试试

技术栈是：前端 Flutter + Rust，推理框架 ONNX + Candle，主要支持 Whisper，面向的也是内录字幕 + 实时翻译场景

认识的网友做的项目，友情推荐

xxhhlk · 2025 年11 月 30 日 07:33

谢谢推荐，试用了现在的预发布版本，整体体验符合预期
有两个小问题想反馈，不太爱发issue，可以的话麻烦转达一下：
一是输出中文时简繁不稳定，可以增加固定输出简体/繁体的设置选项
二是仅能显示当前识别的句子，无法回顾历史内容，建议增加历史字幕功能
核心功能很稳定，希望能优化一下上述问题，期待后续更新

harry888 · 2025 年12 月 23 日 02:32

可以试试 FlashVoice (闪录（FlashVoice）- 本地离线语音输入法，实时语音转文字，隐私优先)
1，免费，本地离线
2，识别率高
3，有标点恢复
4，不需要对接在线 API
5，可以实时显示字幕

Lean · 2025 年12 月 23 日 05:46

内录还不简单，虚拟声卡就行，虚拟扬声器可以直连虚拟麦克风。

要我说的话，楼主提到的 virtual audio cable 并非不优雅，为什么不用呢？现在似乎还有了更强大的 Voicemeeter？虚拟扬声器作为默认设备，实体扬声器监听虚拟麦克风（或者实体作为默认设备，浏览器单独设置虚拟扬声器作为输出设备）。这样扩大了识别软件的选择面，语音转文字的同时又不影响你收听节目。虽然声音输出可能会有轻微延迟和质量损失，但在此使用场景下可以忽略不计。

当年我上网课想要实时翻译，最开始就是用的上面这套方案，但 Google 翻译网页版语音翻译上限只有几百字。后来换了一套方案，会议输出使用板载声卡 3.5mm 输出口，插入一条双公头 3.5mm 音频线，另一头连接手机 3.5 mm 口，利用手机的 Google 翻译来实时翻译电脑声音。另外电脑上接了一个蓝牙耳机作为耳麦来进行正常听讲。当然怎么同时进行双扬声器输出我已经忘了（好像是立体声混音？）。

dshuiewhui · 2025 年12 月 23 日 06:10

电影？电视剧？干脆直接下载字幕

话题		回复	浏览量
简易的 Whisper 客户端，使用 OpenAI API 进行语音转文字青蛙的应用	5	2105	2023 年12 月 20 日
免费浏览器端语音识别网站讨论分享	3	154	2025 年10 月 7 日
利用 Windows 10/11 原生语音输入功能，实现无限量、免费「语音转文字」青蛙的应用	18	5233	2023 年5 月 17 日
请问有没有将视频声音同步转字幕的黑科技？问题求助 windows	11	2856	2022 年10 月 4 日
Buzz：离线语音转文字（字幕），实时语音识别，基于 OpenAI Whisper 发现频道 appinned , windows , ai , stt	33	23907	2024 年2 月 28 日

求推荐 Windows 10 本地实时字幕(语音转文字)软件

相关话题