【FlashVoice】我做了一个完全离线的免费桌面语音输入工具

为什么要再做一个语音输入工具?

按住全局快捷键说话,松开就能把识别到的文字插入到任意输入框中,比如 Word 文档、微信聊天、邮件回复、vibe coding 等等。

说实话,现在语音转文字已经不算新鲜了。
但我在实际使用中,一直有几个痛点没被很好解决:

  1. 对隐私和数据去向的不确定感
    很多工具默认把语音上传云端,哪怕声明“不会保存”,但心理负担始终存在。

  2. 延迟与打断感
    说一句、等一下、再回来改格式,这种割裂感会打断思路。

  3. “转写”而不是“输入”
    不少产品更像是录音转写工具,而不是能真正融入日常写作、聊天、记笔记的输入方式。

我想做的,是一个更像输入法,而不是录音工具的东西。


FlashVoice 在设计上的一些取舍

简单说几个核心思路:

  • 完全本地运行(这个是我最看重的)
    所有语音识别都在本机完成,不上传音频、不依赖云服务,断网也能用。完全不用担心隐私问题。

  • 即说即输,光标在哪里就输到哪里
    按住快捷键说话,松开就把文字插入当前输入框,用完即走,不打断流程。

  • 尽量“安静”地存在
    没有复杂的工作流,不需要打开主界面,适合写文档、回消息、做笔记时随手用。

  • 后处理而不是“强 AI 感”
    不追求一上来就给你总结、改写,而是先把原始输入做好,再在需要的时候做校对。


适合哪些人群?

如果你符合下面几条,可能会对你有用:

  • 经常写文档 / 回消息 / 记想法,但打字跟不上思路
  • 对隐私比较在意,不太想把语音交给云端
  • 想要的是“输入效率”,而不是会议纪要那一套复杂功能
  • 使用 macOS 或 Windows 桌面环境

如果你感兴趣

官网:
:backhand_index_pointing_right: https://flashvoices.com

界面截图

主界面

记录你每次的语音输入历史,可以方便地查看和管理。

语音输入设置界面

可以同时录制麦克风和系统声音,实现“听写”功能。

本地模型管理界面

当前支持阿里的 SenseVoice 模型,后续会支持更多本地模型。

AI 校对设置界面

可以启用 AI 校对功能,对识别结果进行润色和纠错。

离线文件转型

可以批量处理音频文件,实现离线转写功能。

离线文件转写结果预览界面

可以查看转写结果,并导出为文本文件或 srt 字幕文件。

3 个赞

音频存储位置应该可以变更,一直在C盘很难受,而且全数字下可以不加句。这条信息就是用。 语音输入的确实很厉害。发现只能CPU处理,能增加GPU或者全都丢给GPU应该可以更快

感谢反馈,我优化一下 :+1:

是不是只支持普通话录入?

下来试试玩玩先。。。

暂时支持普通话和粤语,后面会加入各地方言

傲软出品的?

是的呀,傲软出品的

和微软自带的win+h有什么区别?