最简单粗暴的让 Claude Code 理解视频｜Claude Code Video Vision

Qingwa · 2026 年5 月 7 日 09:26

我们能看懂视频，是因为我们生活在现实世界中，而视频只是现实世界的一种数字化呈现方式。
AI 则不同，它只读的懂数字、向量，最后猜一个结果给你。@Appinn

如果想要让 AI 理解视频怎么办？

有开发者用最简单粗暴的方式创建了一个 Claude Code 插件，让它能够理解视频（包括声音）。

通过 ffmpeg 提取视频帧，然后使用另外的后端模型（Gemini API、本地 Whisper 或 OpenAI API）处理音频。

最终 Claude Code 接收到图像帧，和带有时间戳的音频转文本，理解了视频。

是不是很粗暴 😂

开发者给了一个简单的例子：

/watch-video tutorial.mp4 "本教程中使用的是什么语言?"
"看一下 ~/videos/bug-report.mov 的第一秒"
"为我分析这段视频：~/Downloads/demo.mp4"

Claude Code 会自动调整参数：

支持 MCP、可使用第三方 API。

流程大概是这样的：

是的，虽然不一定能用到 Claude 模型，但可以在 Claude Code 中使用 DeepSeek V4 呀，现在官方的价格，量大管饱嘛。

原文：https://www.appinn.com/claude-code-video-vision/

dearxixi · 2026 年5 月 7 日 09:34

别让盲人演这个

SmallPackage · 2026 年5 月 7 日 09:54

记得有视频关键帧提取的算法把，这个玩意会有这个吗？

shadows · 2026 年5 月 7 日 13:08

token消耗器的感觉

hzhbest · 2026 年5 月 8 日 06:28

转BASE64？可行吗？

DS：我是说我自己

Gemini：看我胡扯

千问：你随意问，我随便答

Kimi：累觉不爱

（执行了两次Python程序想转码成图片，均失败，且转嘛的程序代码内含的BASE64编码得逐个再生成出来，非常非常费劲……这么小的图像过一遍编码都这么艰辛苦，可想而知把视频帧输入去的话……）

Kimi第二次尝试

第二次几乎能跑完，但还是中断了，诡异的是，其使用tesseract识别出错（橙色框），但莫名其妙又能蹦出正确的结果放进下一步流程中（蓝色框）……

元宝：俺是种田滴

（元宝可以直接输入图像，上面的原图片提供给它是可以正常识别出文字的）（所以它说自己“无法直接查看……图片”是错的）

——总结：Kimi真的在想办法干活，元宝真的自知之明，其他“我不管反正我干活了”……

Qingwa · 2026 年5 月 8 日 06:36

看起来目前AI间还没有群。

starmoon · 2026 年5 月 9 日 09:34

DS并不是多模啊，可以理解视频？

dearxixi · 2026 年5 月 9 日 17:23

这种需要解码的实现不了吧，毕竟没法通过思考推理出来原始内容

dearxixi · 2026 年5 月 9 日 17:23

还不能

所以我说

话题		回复	浏览量
[教程]在 Claude Code 中使用 Kimi K2 大模型青蛙的应用	19	1297	2025 年11 月 9 日
DeepClaude - 双引擎开源 AI 项目：让 DeepSeek-R1 与 Claude 3.5 Sonnet 一起工作青蛙的应用	3	654	2025 年2 月 12 日
Claude 3.7实测讨论分享 ai , claude	14	790	2025 年7 月 18 日
三天使用Claude Code完成王者荣耀强化学习项目讨论分享	0	336	2025 年11 月 16 日
笑死我了，完全由 Claude Code 生成的代码，运行情况如何？闲聊灌水	13	569	2026 年1 月 22 日