工具名称
VideoTranscript API GitHub - zj1123581321/VideoTranscriptAPI: 基于 Python 3.11+ FastAPI 的异步音视频转录服务,支持 YouTube、小宇宙、Bilibili 等多平台解析,本地部署可实现说话人区分转录,调用 LLM 完成文本智能校对与内容总结,配套网页端查看 / 导出功能,支持企业微信消息推送 · GitHub
应用平台
- 推荐 docker 部署
- win、mac、linux 开发环境也行,但麻烦。
一句话简介:
多平台音视频下载=》本地转录成文字=》调用 LLM 总结=》生成网页版 & 推送到企业微信群在微信查看。
核心特性:
- 贴链接就能用:支持 YouTube / B站 / 抖音 / 小红书 / 小宇宙 / 通用直链,不用自己下载视频
- 全流程自动化:下载 → 本地 ASR 转录 → LLM 校对错别字 → 生成内容总结,一个请求全部搞定
- 标准 API 接口:天然适合接入各种自动化平台。比如 iOS 捷径在 Safari 里分享链接直接转录,Android 用 Fv 悬浮球一键触发,Windows 用 Quicker
选中链接就出文字稿,也可以接飞书/Slack 机器人给团队用 - 有网页版查看页面:转录结果生成独立网页,带一键复制按钮,方便直接丢进 ChatGPT、豆包、Kimi 等 LLM 工具里继续追问
- 本地 ASR,不走第三方:语音识别跑在自己机器上,没有敏感词审查、没有内容风控、没有按分钟计费,爱转什么转什么
- 说话人识别:自动区分"谁在说话",再用 LLM 把 说话人1 说话人2 还原成真实姓名,播客/访谈类内容阅读体验好很多
相比商用转录服务的优势:
- 不按量收费:ASR 跑在本地,转 100 条和转 1 条的成本一样,重度用户友好
- 没有内容审查:不存在"该内容无法处理"的情况,政治、财经、医疗话题都能转
- 数据不出本地:音视频文件不上传到任何第三方服务器
- 结果直接能用:不是给你一坨没有标点的语音识别原文,而是经过 LLM 校对 + 总结的成品文稿


