一个可以全程免费 (bai piao) 的语音转文字应用,支持多种语音识别 API 接入进行音频转录、校准优化、生成摘要,支持客户端调用。
白嫖状态下:使用硅基免费模型转录、Gemini免费模型校准+摘要。
实测转录、校准、摘要的质量都很不错。
如果你的客户端支持的话,甚至可以直接在客户端上传音频,通过API调用的形式来接入服务了。问就是套娃
功能特点
支持上传音频文件进行转写
支持多种语音识别服务
支持对转录结果进行校准优化
支持一键生成摘要
支持docker部署
支持 API 调用
简洁的 Web 界面
通过环境变量配置 API 信息
界面预览

项目部署
-
构建镜像:
docker build -t speech-to-text . -
部署容器:
version: '3.8' services: speech-to-text: image: speech-to-text:latest container_name: speech-to-text environment: - S2T_API_URL = your-speech-to-text-api-endpoint-url # 语音转录 API 地址,可选配置,默认是硅基(https://api.siliconflow.cn/v1/audio/transcriptions) - S2T_API_KEY = your-speech-to-text-api-key # 语音转录 API Key,必须配置 - S2T_MODEL = your-speech-to-text-model # 语音转录模型,可选配置,默认是 FunAudioLLM/SenseVoiceSmall - OPT_API_URL = your-text-optimizing-api-endpoint-url # 文本校准优化 API 地址,可选配置,不配置不启用优化,直接转出转录结果 - OPT_API_KEY = your-text-optimizing-api-key # 文本校准优化 API Key - OPT_MODE = your-text-optimizing-model # 文本校准优化模型 - API_ACCESS_TOKEN = your-api-auth-key # API 密钥 ports: - "your-port:5000"
项目地址
![]()
能不能点个星星 ![]()
![]()