请问如何将大段音频转化为文字?

我测试过很多办法.

免费的, 收费的.

收费的话, 会有一些短时间的免费试用. 比如讯飞等等。
免费的话, 最常见的就是whisper, 但是它的数据不好, 不论是小模型还是大模型, 中文效果都不好.

目前, 我主要是用的 CapsWriter . 这应该目前自建模型里速度/质量相对比较好的.