智谱AI免费glm-4v-flash模型用来做硬字幕识别

jameon512 · 2024 年12 月 23 日 14:04

智谱 AI 的 glm-4v-flash 模型不仅免费（仅限制调用频率，不限制次数），而且具备强大的图像理解能力，可以作为 OCR 工具使用。虽然目前仅支持中英文识别，但对于大多数场景已经足够。

基于此开发了一个硬字幕提取软件

使用步骤：

视频切帧： 首先，使用 FFmpeg 工具将视频按 1 秒间隔切分为图像帧。选择 1 秒间隔而非逐帧提取，一方面可以大幅减少需识别的图像数量，另一方面考虑到字幕通常持续时间不会低于 1 秒，过多的帧数也会增加去重的难度。
OCR 识别： 将切分后的图像帧发送给智谱 AI 的 GLM-4V-FLASH 模型，进行 OCR 识别，提取图像中的文字。
字幕去重： 由于连续的图像帧可能包含相同的字幕内容，为了避免重复，我们使用 sentence-transformers 模型计算当前识别出的字幕与前一句字幕的相似度。如果相似度超过 60%，则认为两条字幕内容相同，进行去重。
生成字幕文件： 最后，将去重后的字幕文本按照对应的时间戳进行拼接，并保存为 SRT 格式的字幕文件。

a523084467 · 2024 年12 月 23 日 18:47

本地识别也搞起来吧，我这3080，1080p png不到2秒，360p只需要0.8秒

shadows · 2024 年12 月 24 日 02:14

与OCR方案有啥优势？还是只能应对单个字幕的情况吧，也不能把样式也复原吧…

我希望能实现简单ass字幕(含屏幕字注释)的生成…

sicifus · 2024 年12 月 24 日 06:10

不错不错，以前一直在用video-subtitle-extractor（也是github上的）做硬字幕提取，但时间比较长，
现在有新的工具可以试试看了。

提一个小小的建议，关于字幕的位置，能否弄一个可选择上下左右和大小的框，以便精确定位？

Qingwa · 2024 年12 月 24 日 08:41

这不带模型咋这么大

jameon512 · 2024 年12 月 24 日 08:45

有一个模型，用于文字相似度判断的，1s截一张图，肯定有非常多重复但又有细微差别的的字幕，尤其是字幕渐隐渐现时

Qingwa · 2024 年12 月 24 日 08:46

能支持本地么

jameon512 · 2024 年12 月 24 日 08:48

本地的大模型么，例如ollama搭建的？这个后边可以增加，不过本地受限于显卡，效果应该不怎么好。

如果是本地的OCR模型，例如百度飞桨的，这个不打算加，体积庞大、部署困难，也有据此实现的开源项目 video-subtitle-extractor

Qingwa · 2024 年12 月 24 日 09:02

对呀，开个接口，直接填就行嘛

yanyu2015 · 2024 年12 月 24 日 12:43

本地的话你会发现还不如ocr后trans的方案呢，当然也可以用API或者本地提取字幕后大模型trans，这样成本更可控

sailing168 · 2024 年12 月 24 日 13:46

在测试“我不想活了”！是什么逼得一位少女绝望高呼？（答案请看简介）.mp4”时遇到了【字幕画面不同步、字幕缺漏、政治敏感提示等问题】

话题		回复	浏览量
【自荐】VideoCaptioner - 基于 LLM 的智能视频字幕助手，支持生成、断句、优化、翻译全流程，一键高质量字幕视频合成！发现频道 🔎	12	467	2024 年11 月 15 日
想提取MP4中的硬字幕除了手抄之外还有其他方法嘛，比如字幕软件中带OCR这种。问题求助❓	16	1348	2023 年11 月 10 日
【STranslate】WPF 开发的一款即开即用、即用即走的翻译OCR软件发现频道 🔎 appinned , windows	51	8197	2024 年12 月 18 日
有没有本地视频生成ai字幕的本地软件问题求助❓	15	487	2024 年10 月 15 日
外部软件获取到扩展属性还是蛮爽的讨论分享	8	540	2023 年11 月 21 日