请问如何将大段音频转化为文字？

0000 · 2025 年10 月 22 日 04:32

请问如何将大段音频转化为文字？

Qingwa · 2025 年10 月 22 日 05:36

自己托管一个 whisper？

然后让 CPU 或者 GPT 慢慢跑呗（实际上 potplayer 就行

taoran · 2025 年10 月 22 日 05:50

jingouwangzi · 2025 年10 月 22 日 06:37

通义听悟免费使用

xiaokonglong · 2025 年10 月 22 日 06:59

我测试过很多办法.

免费的, 收费的.

收费的话, 会有一些短时间的免费试用. 比如讯飞等等。
免费的话, 最常见的就是whisper, 但是它的数据不好, 不论是小模型还是大模型, 中文效果都不好.

目前, 我主要是用的 CapsWriter . 这应该目前自建模型里速度/质量相对比较好的.

CapsWriter-Offline，可能是最好用的 PC 端语音输入工具（离线识别）

发现频道

CapsWriter-Offline [image] 这是 CapsWriter-Offline ，一个 PC 端的语音输入工具。运行后，只要按下键盘上的大写锁定键，就会开始录音，当你松开大写锁定键时，就会识别你的录音，并将识别结果立刻输入。视频教程：CapsWriter-Offline 电脑端离线语音输入工具特性完全离线、低延迟、高准确率、中英混输、自动阿拉伯数字、自动调整中英间隔热词功能：可以在 hot-en.txt hot-zh.txt hot-rule.txt 中添加三种热词，客户端动态载入日记功能：默认每次录音识别后，识别结果记录在年份/月份/日期.md ，录音文件保存在年份/月份/assets 关键词日记：识别结果若以关键词开头，会被额外记录在年份/月份/日期-关键词.md，关键词在 keywords.txt 中定义服务端、客户端分离，可以让一台主机为局域网内的电脑提供识别服务用文本编辑器打开 core_client.py ，可以编辑服务端地址、快捷键、录音开关…… 懒人包对于 Windows10 64 位用户，我打包了 exe …

BHznJNs · 2025 年10 月 22 日 07:08

直接用 Gemini，AI Studio 的免费 Gemini 2.5 Pro

shadows · 2025 年10 月 22 日 07:25

从别的地方收集的信息

官网注册赠送200刀额度，据说效果是第一梯队

还有qwen3-asr，阿里云百炼有免费额度

调用B站和剪映接口的

elevenlabs

kero990 · 2025 年10 月 22 日 13:34

硅基流动提供SenseVoiceSmall模型的API，并且免费访问，甚至还没有用量限制。因为通义千问做的，所以中文要比whisper强一些

唯一的问题是在GitHub上显然热度没有whisper高，甚至没有一个像样的gui

你甚至可能需要翻API文档然后手动写个Python来调用。

Balding · 2025 年10 月 22 日 15:26

一直在用BUZZ，作者一直没更新，但Whisper好像也没更新，我就这么一直将就着用

xulixiangz1 · 2025 年10 月 23 日 06:03

zane-ng · 2025 年10 月 23 日 07:30

如果有订阅 Microsft 365，那么网页版的 Word 里就自带誊写功能，可以自己上传音频然后转为文字档，带时间码。

话题		回复	浏览量
请问如何免费批量将一个文件夹的MP3转化为文字？问题求助	5	131	2026 年3 月 23 日
有没有本地视频生成ai字幕的本地软件问题求助	15	1024	2024 年10 月 15 日
【Win】寻求更好的生成视频字幕并且可修正的工具、根据视频声音生成字幕问题求助 windows	15	670	2024 年11 月 9 日
有没有简单而大用量的视频or音频文字识别软件问题求助	3	192	2024 年9 月 18 日
几款开源的视频生成字幕、字幕翻译项目讨论分享字幕	7	1657	2025 年3 月 2 日

请问如何将大段音频转化为文字？

相关话题