最简单粗暴的让 Claude Code 理解视频|Claude Code Video Vision

原始链接在: 最简单粗暴的让 Claude Code 理解视频|Claude Code Video Vision - 小众软件

我们能看懂视频,是因为我们生活在现实世界中,而视频只是现实世界的一种数字化呈现方式。
AI 则不同,它只读的懂数字、向量,最后猜一个结果给你。@Appinn

如果想要让 AI 理解视频怎么办?

有开发者用最简单粗暴的方式创建了一个 Claude Code 插件,让它能够理解视频(包括声音)。

通过 ffmpeg 提取视频帧,然后使用另外的后端模型(Gemini API、本地 Whisper 或 OpenAI API)处理音频。

最终 Claude Code 接收到图像帧,和带有时间戳的音频转文本,理解了视频。

是不是很粗暴 😂

项目地址:https://github.com/jordanrendric/claude-video-vision

开发者给了一个简单的例子:

/watch-video tutorial.mp4 "本教程中使用的是什么语言?"
"看一下 ~/videos/bug-report.mov 的第一秒"
"为我分析这段视频:~/Downloads/demo.mp4"

Claude Code 会自动调整参数:

  • “第一秒”→从 00:00:00 到 00:00:01 以原始帧速率进行提取
  • “总结这 1 小时的讲座”→ 低帧频,完整持续时间
  • “1:30 时屏幕上有什么文字?→ 高分辨率,窄时间窗口

支持 MCP、可使用第三方 API。

流程大概是这样的:

在 Claude Code 中使用 DeepSeek V4

是的,虽然不一定能用到 Claude 模型,但可以在 Claude Code 中使用 DeepSeek V4 呀,现在官方的价格,量大管饱嘛。


原文:https://www.appinn.com/claude-code-video-vision/

别让盲人演这个 :rofl:

记得有视频关键帧提取的算法把,这个玩意会有这个吗?

token消耗器的感觉

转BASE64?可行吗?


DS:我是说我自己

Gemini:看我胡扯

千问:你随意问,我随便答

Kimi:累觉不爱

(执行了两次Python程序想转码成图片,均失败,且转嘛的程序代码内含的BASE64编码得逐个再生成出来,非常非常费劲……这么小的图像过一遍编码都这么艰辛苦,可想而知把视频帧输入去的话……)

Kimi第二次尝试

第二次几乎能跑完,但还是中断了,诡异的是,其使用tesseract识别出错(橙色框),但莫名其妙又能蹦出正确的结果放进下一步流程中(蓝色框)……

元宝:俺是种田滴

(元宝可以直接输入图像,上面的原图片提供给它是可以正常识别出文字的)(所以它说自己“无法直接查看……图片”是错的)

——总结:Kimi真的在想办法干活,元宝真的自知之明,其他“我不管反正我干活了”……

看起来目前AI间还没有群。

DS并不是多模啊,可以理解视频?

这种需要解码的实现不了吧,毕竟没法通过思考推理出来原始内容:joy:

还不能

所以我说