使用Gemini转写音频视频文件并保证时间轴准确

jameon512 · 2025 年1 月 10 日 15:56

Gemini AI 1.5/2.0 flash模型可以快速、准确地将音视频内容转录为文字,并且提供了可观的每日免费额度，足以满足日常的音视频转录需求。

但是，直接将完整的音视频文件发送给 Gemini 转写后，时间轴往往不够精确，尤其在需要转写为字幕场景压根不可用。

为了解决这个问题，搞了一个简单的小工具，主要自动完成以下操作：

开源地址

Qingwa · 2025 年1 月 11 日 02:31

我就问你一个问题：有没有测试过日文？

Qingwa · 2025 年1 月 11 日 02:34

另外大佬啊，你的这个产品在论坛里多次被提及，以及口碑也不错。

为啥不发到发现频道呢…

话题		回复	浏览量
智谱AI/GeminiAI用来做视频硬字幕识别提取发现频道 windows	11	518	2024 年12 月 25 日
想做一个利用多模态大模型实现的 AI 视频总结，不知道现在有没有这样的应用了？闲聊灌水 ai	4	163	2025 年8 月 21 日
Chatgpt怎么变成傻瓜了闲聊灌水	3	205	2025 年12 月 8 日
Google 发布了「他们规模最大、能力最强的 AI 模型」 Gemini 青蛙的应用	4	1145	2023 年12 月 12 日
[自荐] [开源] 开源作业帮 - Gemini AI 驱动免费不需要注册发现频道	4	1663	2025 年10 月 15 日