做 macOS 开发的,平时也会用语音输入。但市面上的语音识别 App 基本都是订阅制,用得不多的话感觉亏,就想着自己做一个买断的。
正好 Apple 的 MLX 框架支持在 Swift 里直接跑模型,用 Metal GPU 做了些优化(算子融合、量化之类的),速度和 Python 实现差不多,有几个还快一点。
最后移植了 5 个模型:
-
Parakeet v3 (NVIDIA) — 英语贼快,M1 上 25 倍实时
-
Whisper Turbo (OpenAI) — 老牌,啥语言都行
-
Voxtral 4B (Mistral) — 边说边出字
-
Qwen3-ASR (阿里) — 中文日文最准
-
Apple SpeechAnalyzer — macOS 26 自带的,不用下东西
没有用 whisper.cpp 或 Python,全是 Swift 原生写的。
自己用得最多的两个功能:
-
系统声音捕获 — 浏览器的视频、Zoom 开会都能直接转文字,不只是麦克风
-
文字直接打到当前 App — 不走剪贴板,不用 Cmd+V
Mac App Store,$9.99 买断。