FireRedASR2S 据称是当前(截止2026年3月初)开源的ASR模型SOTA,仅支持中文(含多种方言)与英文,可针对音频生成字幕和纯文本。
受够了whisper的我准备自己搓一版,于是:
FireRedASR2S-cli 是本人基于上述项目开发的命令行版,历时两周,做了很多算法上的核心优化,简单几行命令,就能轻松上手。
以本人6G RTX3060开启游戏模式,RTF能到0.03左右,速度很快。(triton_tensorrt版会更快,但显存占用太高,无缘普通消费级显卡)
开发新人,可以求个GitHub Star 吗?