想做一个利用多模态大模型实现的 AI 视频总结,不知道现在有没有这样的应用了?

现在部分大模型(比如 Gemini 2.5)已经具备了视觉能力,我在想能不能做一个一站式地,下载 B 站和油管视频,利用多模态模型基于画面和音频进行总结。

已经有类似的,chrome应用商店有个叫Sider的

豆包的电脑版在部分视频网站可以提供总结;

bilibili 自己有提供 AI 总结的功能,在电脑网页版视频下方的三个点的左侧,有一个标着测试版的小按钮。

你说的是这种不 https://bibigpt.co/
咋说呢,除非有相关工作,只是偶尔用一下不想承担这种会员费用,下载后传给比如gemini就行了。

不过,可能对于搞不定下载,也不太会用模型人,或者不在乎随手充几百块的人会有需求,那你就需要调研一下这类人群数量了。

目前很多的还是对声音的识别总结而不是纯视频切帧到多模态里总结。

最大的问题其实就是成本和切帧逻辑之间怎么平衡。