【开源自荐】一个全程免费的音频转录+校准+摘要工具，支持API调用

buyann · 2025 年6 月 9 日 04:15

一个可以全程免费 ~~(bai piao)~~ 的语音转文字应用，支持多种语音识别 API 接入进行音频转录、校准优化、生成摘要，支持客户端调用。

白嫖状态下：使用硅基免费模型转录、Gemini免费模型校准+摘要。
实测转录、校准、摘要的质量都很不错。

如果你的客户端支持的话，甚至可以直接在客户端上传音频，通过API调用的形式来接入服务了。~~问就是套娃~~

功能特点

支持上传音频文件进行转写
支持多种语音识别服务
支持对转录结果进行校准优化
支持一键生成摘要
支持docker部署
支持 API 调用
简洁的 Web 界面
通过环境变量配置 API 信息

界面预览

项目部署

构建镜像:
```
docker build -t speech-to-text .
```

部署容器:

version: '3.8'
services:
  speech-to-text:
    image: speech-to-text:latest
    container_name: speech-to-text
    environment:
      - S2T_API_URL = your-speech-to-text-api-endpoint-url
      # 语音转录 API 地址，可选配置，默认是硅基(https://api.siliconflow.cn/v1/audio/transcriptions)
      - S2T_API_KEY = your-speech-to-text-api-key
      # 语音转录 API Key，必须配置
      - S2T_MODEL = your-speech-to-text-model
      # 语音转录模型，可选配置，默认是 FunAudioLLM/SenseVoiceSmall
      - OPT_API_URL = your-text-optimizing-api-endpoint-url
      # 文本校准优化 API 地址，可选配置，不配置不启用优化，直接转出转录结果
      - OPT_API_KEY = your-text-optimizing-api-key
      # 文本校准优化 API Key
      - OPT_MODE = your-text-optimizing-model
      # 文本校准优化模型
      - API_ACCESS_TOKEN = your-api-auth-key
      # API 密钥
    ports:
      - "your-port:5000"

项目地址

能不能点个星星

话题		回复	浏览量
开源自荐：自部署的多平台（YouTube/B站/抖音/小红书/播客）音视频转文字+总结服务发现频道	0	701	2026 年4 月 3 日
一个离线运行的本地语音识别工具讨论分享 openai	2	977	2024 年1 月 2 日
请问如何将大段音频转化为文字？问题求助	10	481	2025 年10 月 23 日
【开源自荐】 Whisper Flow调用浏览器WebGPU本地语音转文字发现频道	1	286	2025 年11 月 18 日
简易的 Whisper 客户端，使用 OpenAI API 进行语音转文字青蛙的应用	5	2216	2023 年12 月 20 日

【开源自荐】一个全程免费的音频转录+校准+摘要工具，支持API调用

功能特点

界面预览

项目部署

项目地址

相关话题