语音转录工具,类似青小蛙之前推的buzz,但是使用GPU速度更快

功能:

  • 输出四种格式:.txt .txt(带时间戳) .srt .vtt
  • 实时转录
  • 翻译成英语:rofl:

测试速度:

image

1 Like

翻译成英语。

官方给的转录错误率表。得分越低,转录效果越好。

确实,英语口语不好的人很抓瞎。
不过也能从侧面练习英语的吧

可以可以。

看起来,GPU 真的是居家必备啊,不然…AI 和你说再见 :joy:

2 Likes

简单拿双截棍测试了下。

只能说这个翻译目前很迷。如果是普通语音,是可以翻译出一些文本的。不知道为什么歌词里面全部变成[Music]

youtube的翻译也是音乐直接显示music,感觉可能是用的同一种逻辑:音乐就是音乐,不需要翻译

这个我也调试通了,只不过只会命令行,用python就不会输出了。本想搞成接口分享给大家的。
效果还是不错了,但还有改进的空间,用large模型跑真是太慢了

大概测试了一下

识别一个 30 分钟的英文音频
两个都选择的最高质量(Buzz High/WhisperDesktop ggml-large.bin)

buzz 耗时 15 分钟,CPU 占用 70%
WhisperDesktop 耗时 3 分 55 秒,快 3.8 倍左右,GPU 占用 95%
质量上,大概瞅两眼,差不太多.但是 WhisperDesktop 可能有 BUG,后面有 5 分钟识别出来的全是重复的错误结果

配置是四五年前配的算半老爷机吧 CPU 9900K GPU 2070S

作者说只测试了medium版本。不过我用medium有时也遇到重复结果。

有没软件支持声纹识别的,就是区分不同的人发言。 国内都是要在线上传,比如字节跳动那款,想要离线的。

中文还是比较弱

字幕组应该很喜欢,可以生成带时间轴的文本,省了不少事情呀

集成显卡也能用,当然很慢,不过好处是不占用CPU,机子不会卡

准确度还可以,居然对粤语识别也还行。只是为什么我转换出的全是繁体中文,语言里没有简体可以选。

命令行是中文,python是繁体。

也可能是我没找对命令。

离线语音识别现在真的还需要这么大的算力吗?为什么在12核的i5-12500上跑的还是这么费劲呢?讯飞输入法的离线语音识别在小小的手机上就可以跑得很准确,OpenAI的Whisper模型在PC上跑出来的效果也并没有好多少。