开源自荐:自部署的多平台(YouTube/B站/抖音/小红书/播客)音视频转文字+总结服务

工具名称

VideoTranscript API GitHub - zj1123581321/VideoTranscriptAPI: 基于 Python 3.11+ FastAPI 的异步音视频转录服务,支持 YouTube、小宇宙、Bilibili 等多平台解析,本地部署可实现说话人区分转录,调用 LLM 完成文本智能校对与内容总结,配套网页端查看 / 导出功能,支持企业微信消息推送 · GitHub

应用平台

  • 推荐 docker 部署
  • win、mac、linux 开发环境也行,但麻烦。

一句话简介:

多平台音视频下载=》本地转录成文字=》调用 LLM 总结=》生成网页版 & 推送到企业微信群在微信查看。

核心特性:

  • 贴链接就能用:支持 YouTube / B站 / 抖音 / 小红书 / 小宇宙 / 通用直链,不用自己下载视频
  • 全流程自动化:下载 → 本地 ASR 转录 → LLM 校对错别字 → 生成内容总结,一个请求全部搞定
  • 标准 API 接口:天然适合接入各种自动化平台。比如 iOS 捷径在 Safari 里分享链接直接转录,Android 用 Fv 悬浮球一键触发,Windows 用 Quicker
    选中链接就出文字稿,也可以接飞书/Slack 机器人给团队用
  • 有网页版查看页面:转录结果生成独立网页,带一键复制按钮,方便直接丢进 ChatGPT、豆包、Kimi 等 LLM 工具里继续追问
  • 本地 ASR,不走第三方:语音识别跑在自己机器上,没有敏感词审查、没有内容风控、没有按分钟计费,爱转什么转什么
  • 说话人识别:自动区分"谁在说话",再用 LLM 把 说话人1 说话人2 还原成真实姓名,播客/访谈类内容阅读体验好很多

相比商用转录服务的优势:

  • 不按量收费:ASR 跑在本地,转 100 条和转 1 条的成本一样,重度用户友好
  • 没有内容审查:不存在"该内容无法处理"的情况,政治、财经、医疗话题都能转
  • 数据不出本地:音视频文件不上传到任何第三方服务器
  • 结果直接能用:不是给你一坨没有标点的语音识别原文,而是经过 LLM 校对 + 总结的成品文稿

截图