想做一个利用多模态大模型实现的 AI 视频总结，不知道现在有没有这样的应用了？

BHznJNs · 2025 年8 月 15 日 03:51

现在部分大模型（比如 Gemini 2.5）已经具备了视觉能力，我在想能不能做一个一站式地，下载 B 站和油管视频，利用多模态模型基于画面和音频进行总结。

sudo2 · 2025 年8 月 17 日 00:14

已经有类似的，chrome应用商店有个叫Sider的

tiger · 2025 年8 月 17 日 02:55

豆包的电脑版在部分视频网站可以提供总结；

bilibili 自己有提供 AI 总结的功能，在电脑网页版视频下方的三个点的左侧，有一个标着测试版的小按钮。

kmoui · 2025 年8 月 19 日 19:15

你说的是这种不 https://bibigpt.co/
咋说呢，除非有相关工作，只是偶尔用一下不想承担这种会员费用，下载后传给比如gemini就行了。

不过，可能对于搞不定下载，也不太会用模型人，或者不在乎随手充几百块的人会有需求，那你就需要调研一下这类人群数量了。

clf · 2025 年8 月 21 日 01:31

目前很多的还是对声音的识别总结而不是纯视频切帧到多模态里总结。

最大的问题其实就是成本和切帧逻辑之间怎么平衡。

话题		回复	浏览量
【开源自荐】浏览器插件:白嫖gemini网页写代码或文档讨论分享 chrome	0	96	2026 年1 月 13 日
【自荐】B 站长视频救星：AI 问答 + 导图梳理 + 精准跳点发现频道 chrome	0	201	2025 年11 月 3 日
AI画皮骗局讨论分享	2	437	2024 年5 月 22 日
请问有没有各类AI软件教程的网站？问题求助	3	223	2025 年2 月 10 日
【自荐】体感半月刊：独立内容分享刊物讨论分享	0	118	2024 年8 月 15 日