Gemini AI 1.5/2.0 flash模型可以快速、准确地将音视频内容转录为文字,并且提供了可观的每日免费额度,足以满足日常的音视频转录需求。
但是,直接将完整的音视频文件发送给 Gemini 转写后,时间轴往往不够精确,尤其在需要转写为字幕场景压根不可用。
为了解决这个问题,搞了一个简单的小工具,主要自动完成以下操作:
- 智能切片: 利用 VAD模型,将音视频文件智能切分成小片段。
- 逐片转录: 将每个片段单独发送给 Gemini AI 进行转录。
- 精准组装: 将转录结果按时间顺序重新组装成一个完整的 SRT 字幕文件,确保时间轴的准确性。