请问如何将大段音频转化为文字?

请问如何将大段音频转化为文字?

自己托管一个 whisper?

然后让 CPU 或者 GPT 慢慢跑呗(实际上 potplayer 就行:joy:

通义听悟免费使用

2 个赞

我测试过很多办法.

免费的, 收费的.

收费的话, 会有一些短时间的免费试用. 比如讯飞等等。
免费的话, 最常见的就是whisper, 但是它的数据不好, 不论是小模型还是大模型, 中文效果都不好.

目前, 我主要是用的 CapsWriter . 这应该目前自建模型里速度/质量相对比较好的.

直接用 Gemini,AI Studio 的免费 Gemini 2.5 Pro

从别的地方收集的信息

官网注册赠送200刀额度,据说效果是第一梯队

还有qwen3-asr,阿里云百炼有免费额度

调用B站和剪映接口的

elevenlabs

硅基流动提供SenseVoiceSmall模型的API,并且免费访问,甚至还没有用量限制。因为通义千问做的,所以中文要比whisper强一些

唯一的问题是在GitHub上显然热度没有whisper高,甚至没有一个像样的gui

你甚至可能需要翻API文档然后手动写个Python来调用。

一直在用BUZZ,作者一直没更新,但Whisper好像也没更新,我就这么一直将就着用

这个是我之前在GitHub找的软件ArsTools,你可以试试:WEIFENG2333/AsrTools: :sparkles: AsrTools: Smart Voice-to-Text Tool | Efficient Batch Processing | User-Friendly Interface | No GPU Required | Supports SRT/TXT Output | Turn your audio into accurate text in an instant!

如果有订阅 Microsft 365,那么网页版的 Word 里就自带誊写功能,可以自己上传音频然后转为文字档,带时间码。