使用Gemini转写音频视频文件并保证时间轴准确

Gemini AI 1.5/2.0 flash模型可以快速、准确地将音视频内容转录为文字,并且提供了可观的每日免费额度,足以满足日常的音视频转录需求。

但是,直接将完整的音视频文件发送给 Gemini 转写后,时间轴往往不够精确,尤其在需要转写为字幕场景压根不可用。

为了解决这个问题,搞了一个简单的小工具,主要自动完成以下操作:

  1. 智能切片: 利用 VAD模型,将音视频文件智能切分成小片段。
  2. 逐片转录: 将每个片段单独发送给 Gemini AI 进行转录。
  3. 精准组装: 将转录结果按时间顺序重新组装成一个完整的 SRT 字幕文件,确保时间轴的准确性。

开源地址

UI截图

gemini.gif

我就问你一个问题:有没有测试过日文?

另外大佬啊,你的这个产品在论坛里多次被提及,以及口碑也不错。

为啥不发到 发现频道 :mag_right: 呢…