为什么要再做一个语音输入工具?
按住全局快捷键说话,松开就能把识别到的文字插入到任意输入框中,比如 Word 文档、微信聊天、邮件回复、vibe coding 等等。
说实话,现在语音转文字已经不算新鲜了。
但我在实际使用中,一直有几个痛点没被很好解决:
-
对隐私和数据去向的不确定感
很多工具默认把语音上传云端,哪怕声明“不会保存”,但心理负担始终存在。 -
延迟与打断感
说一句、等一下、再回来改格式,这种割裂感会打断思路。 -
“转写”而不是“输入”
不少产品更像是录音转写工具,而不是能真正融入日常写作、聊天、记笔记的输入方式。
我想做的,是一个更像输入法,而不是录音工具的东西。
FlashVoice 在设计上的一些取舍
简单说几个核心思路:
-
完全本地运行(这个是我最看重的)
所有语音识别都在本机完成,不上传音频、不依赖云服务,断网也能用。完全不用担心隐私问题。 -
即说即输,光标在哪里就输到哪里
按住快捷键说话,松开就把文字插入当前输入框,用完即走,不打断流程。 -
尽量“安静”地存在
没有复杂的工作流,不需要打开主界面,适合写文档、回消息、做笔记时随手用。 -
后处理而不是“强 AI 感”
不追求一上来就给你总结、改写,而是先把原始输入做好,再在需要的时候做校对。
适合哪些人群?
如果你符合下面几条,可能会对你有用:
- 经常写文档 / 回消息 / 记想法,但打字跟不上思路
- 对隐私比较在意,不太想把语音交给云端
- 想要的是“输入效率”,而不是会议纪要那一套复杂功能
- 使用 macOS 或 Windows 桌面环境
如果你感兴趣
界面截图
主界面
记录你每次的语音输入历史,可以方便地查看和管理。
语音输入设置界面
可以同时录制麦克风和系统声音,实现“听写”功能。
本地模型管理界面
当前支持阿里的 SenseVoice 模型,后续会支持更多本地模型。
AI 校对设置界面
可以启用 AI 校对功能,对识别结果进行润色和纠错。
离线文件转型
可以批量处理音频文件,实现离线转写功能。
离线文件转写结果预览界面
可以查看转写结果,并导出为文本文件或 srt 字幕文件。






