【开源自荐】一个全程免费的音频转录+校准+摘要工具,支持API调用

一个可以全程免费 (bai piao) 的语音转文字应用,支持多种语音识别 API 接入进行音频转录、校准优化、生成摘要,支持客户端调用。

白嫖状态下:使用硅基免费模型转录、Gemini免费模型校准+摘要。
实测转录、校准、摘要的质量都很不错

如果你的客户端支持的话,甚至可以直接在客户端上传音频,通过API调用的形式来接入服务了。问就是套娃

功能特点

  • :microphone: 支持上传音频文件进行转写
  • :electric_plug: 支持多种语音识别服务
  • :black_nib: 支持对转录结果进行校准优化
  • :bookmark_tabs: 支持一键生成摘要
  • :rocket: 支持docker部署
  • :ok_hand: 支持 API 调用
  • :globe_with_meridians: 简洁的 Web 界面
  • :locked: 通过环境变量配置 API 信息

界面预览

image.png

项目部署

  1. 构建镜像:

    docker build -t speech-to-text .
    
  2. 部署容器:

    version: '3.8'
    services:
      speech-to-text:
        image: speech-to-text:latest
        container_name: speech-to-text
        environment:
          - S2T_API_URL = your-speech-to-text-api-endpoint-url
          # 语音转录 API 地址,可选配置,默认是硅基(https://api.siliconflow.cn/v1/audio/transcriptions)
          - S2T_API_KEY = your-speech-to-text-api-key
          # 语音转录 API Key,必须配置
          - S2T_MODEL = your-speech-to-text-model
          # 语音转录模型,可选配置,默认是 FunAudioLLM/SenseVoiceSmall
          - OPT_API_URL = your-text-optimizing-api-endpoint-url
          # 文本校准优化 API 地址,可选配置,不配置不启用优化,直接转出转录结果
          - OPT_API_KEY = your-text-optimizing-api-key
          # 文本校准优化 API Key
          - OPT_MODE = your-text-optimizing-model
          # 文本校准优化模型
          - API_ACCESS_TOKEN = your-api-auth-key
          # API 密钥
        ports:
          - "your-port:5000"
    

项目地址

:star::star: 能不能点个星星 :star::star: