功能:
- 输出四种格式:.txt .txt(带时间戳) .srt .vtt
- 实时转录
- 翻译成英语
测试速度:
确实,英语口语不好的人很抓瞎。
不过也能从侧面练习英语的吧
可以可以。
看起来,GPU 真的是居家必备啊,不然…AI 和你说再见
youtube的翻译也是音乐直接显示music,感觉可能是用的同一种逻辑:音乐就是音乐,不需要翻译
这个我也调试通了,只不过只会命令行,用python就不会输出了。本想搞成接口分享给大家的。
效果还是不错了,但还有改进的空间,用large模型跑真是太慢了
作者说只测试了medium版本。不过我用medium有时也遇到重复结果。
有没软件支持声纹识别的,就是区分不同的人发言。 国内都是要在线上传,比如字节跳动那款,想要离线的。
中文还是比较弱
字幕组应该很喜欢,可以生成带时间轴的文本,省了不少事情呀
集成显卡也能用,当然很慢,不过好处是不占用CPU,机子不会卡
准确度还可以,居然对粤语识别也还行。只是为什么我转换出的全是繁体中文,语言里没有简体可以选。
命令行是中文,python是繁体。
也可能是我没找对命令。
离线语音识别现在真的还需要这么大的算力吗?为什么在12核的i5-12500上跑的还是这么费劲呢?讯飞输入法的离线语音识别在小小的手机上就可以跑得很准确,OpenAI的Whisper模型在PC上跑出来的效果也并没有好多少。
实时转写怎么弄,有弄过吗?
你这个题目难度也忒高了点儿
我强烈怀疑如果周杰伦没唱过这个,他自己也听不懂