Buzz:离线语音转文字(字幕),实时语音识别,基于 OpenAI Whisper

试了下,不会调用显卡加速,直接CPU硬顶的。
驱动也是新的,CDUA一套都有

1个小时的mp4格式视频,使用high模式,识别了两三个小时,确实效率有点低,但是准确性挺高。全靠CPU硬解,全程CPU占满。电脑配置cpu是4790k,4.0GHZ主频。要是能提高一些效率就更好了。更推荐在线的“飞书妙记”免费还不限制时长。

1 个赞

看下官方文档吧,我用的 Mac 没有 CUDA 可用。

我试了“毛不易 - 想你想你.flac”,也出现了“词曲 李宗盛” :sweat_smile:

1 个赞

大佬,请问中文视频有时候输出的繁体的中文要怎么解决

用别的工具解决,比如 opencc(开源命令行工具)、文本编辑(macOS 自带 app)。

用word转一下

下载模型时间好长,能不能单独下载

1 个赞

抱脸上有个可以直接运行的,速度非常快,但是单次限制时长两小时。
外行问一下,这个算力是抱脸支付的,还是这个作者Sanchit Gandhi支付的?

很长时间没看了,现在支持faster Whisper,快了几倍,但是还是没法和云端的专业设备比。
除非你是专门干这个的,不然各种模型其实都不适合本地部署,云端效率高、成本低。

1 个赞

faster Whisper 最大模型可以分享吗 下载几次都失败

使用fast whisper时会闪退不知道怎么回事,cpu是amd 7735hs

不知道在哪调用GPU,CPU快跑满了,32G内存全吃了,我还特意用uvr5提取纯人声来着,不好用。半天没搞好带字幕的jav

0.8.5 Windows版本 模型存储路径 C:\Users<username>.cache\whisper\