语音转录工具,类似青小蛙之前推的buzz,但是使用GPU速度更快

功能:

  • 输出四种格式:.txt .txt(带时间戳) .srt .vtt
  • 实时转录
  • 翻译成英语:rofl:

测试速度:

image

2 个赞

翻译成英语。

官方给的转录错误率表。得分越低,转录效果越好。

确实,英语口语不好的人很抓瞎。
不过也能从侧面练习英语的吧

可以可以。

看起来,GPU 真的是居家必备啊,不然…AI 和你说再见 :joy:

2 个赞

简单拿双截棍测试了下。

只能说这个翻译目前很迷。如果是普通语音,是可以翻译出一些文本的。不知道为什么歌词里面全部变成[Music]

youtube的翻译也是音乐直接显示music,感觉可能是用的同一种逻辑:音乐就是音乐,不需要翻译

这个我也调试通了,只不过只会命令行,用python就不会输出了。本想搞成接口分享给大家的。
效果还是不错了,但还有改进的空间,用large模型跑真是太慢了

作者说只测试了medium版本。不过我用medium有时也遇到重复结果。

有没软件支持声纹识别的,就是区分不同的人发言。 国内都是要在线上传,比如字节跳动那款,想要离线的。

中文还是比较弱

字幕组应该很喜欢,可以生成带时间轴的文本,省了不少事情呀

1 个赞

集成显卡也能用,当然很慢,不过好处是不占用CPU,机子不会卡

准确度还可以,居然对粤语识别也还行。只是为什么我转换出的全是繁体中文,语言里没有简体可以选。

命令行是中文,python是繁体。

也可能是我没找对命令。

离线语音识别现在真的还需要这么大的算力吗?为什么在12核的i5-12500上跑的还是这么费劲呢?讯飞输入法的离线语音识别在小小的手机上就可以跑得很准确,OpenAI的Whisper模型在PC上跑出来的效果也并没有好多少。

实时转写怎么弄,有弄过吗?

你这个题目难度也忒高了点儿
我强烈怀疑如果周杰伦没唱过这个,他自己也听不懂