请问如何将大段音频转化为文字?
自己托管一个 whisper?
然后让 CPU 或者 GPT 慢慢跑呗(实际上 potplayer 就行![]()
通义听悟免费使用
我测试过很多办法.
免费的, 收费的.
收费的话, 会有一些短时间的免费试用. 比如讯飞等等。
免费的话, 最常见的就是whisper, 但是它的数据不好, 不论是小模型还是大模型, 中文效果都不好.
目前, 我主要是用的 CapsWriter . 这应该目前自建模型里速度/质量相对比较好的.
直接用 Gemini,AI Studio 的免费 Gemini 2.5 Pro
从别的地方收集的信息
官网注册赠送200刀额度,据说效果是第一梯队
还有qwen3-asr,阿里云百炼有免费额度
调用B站和剪映接口的
elevenlabs
硅基流动提供SenseVoiceSmall模型的API,并且免费访问,甚至还没有用量限制。因为通义千问做的,所以中文要比whisper强一些
唯一的问题是在GitHub上显然热度没有whisper高,甚至没有一个像样的gui
你甚至可能需要翻API文档然后手动写个Python来调用。
一直在用BUZZ,作者一直没更新,但Whisper好像也没更新,我就这么一直将就着用
这个是我之前在GitHub找的软件ArsTools,你可以试试:WEIFENG2333/AsrTools:
AsrTools: Smart Voice-to-Text Tool | Efficient Batch Processing | User-Friendly Interface | No GPU Required | Supports SRT/TXT Output | Turn your audio into accurate text in an instant!
如果有订阅 Microsft 365,那么网页版的 Word 里就自带誊写功能,可以自己上传音频然后转为文字档,带时间码。