【开发者自荐】一句话可自动搜索素材并剪辑的开源Agent

现在的AI生成视频,其实很多时候还是比较偏向"AI提供原材料 + 人类手搓剪辑"。特别是遇到很麻烦的剪辑环节:找素材难,而且 AI 生成素材由于幻觉或奇奇怪怪的 BUG(特性),体感上和"抽卡"非常类似。

例如,某个场景你想做个融合了很多元素的视频,往往需要先用 LLM 写脚本,再用 MJ 出图,接着用 Runway 或 Sora 生成视频片段,最后还要辛辛苦苦拖进 PR 里去剪辑。一旦中间某个环节出错,比如人物换了衣服或者场景不连贯,整个流程往往就要推倒重来。

不管怎么说,目前的体验就是一种"碎片化"的工具生态。这让大家感觉到,现在的 AI 还是在扮演"单一生成器"的角色,缺乏一个能够像人类导演一样思考、规划、执行的"智能体"去降低极高的剪辑负担。虽然能生成,但就像是"最后一公里"没有打通…使用起来还是很难受。那能不能让ai自己找素材,自己去剪辑??期间可以手动纠错主动完善。

Crayotter 是一个真正意义上的多模态、Agent 驱动的视频自动编辑系统。使用起来也是很AI项目把一条文本需求(比如:“制作一个1分钟校园主题宣传片,节奏轻快,旁白积极”),直接转化为一条完整成片。

添加图片注释,不超过 140 字(可选)

它最大的解决痛点说玄乎点就是可观测性Observability,相比把所有的过程塞进一个无法控制的"黑盒"里,其把"自动化剪辑"拆成了三个完全可观察、可复盘、可调试的阶段工作流:

Phase 1:不急着剪,先做好"素材规划"

第一阶段是 Planner + Executor。 类似于渐进式披露的想法,让视频 Agent直接一步到位,在长链路任务里很容易跑偏。所以 Crayotter 的第一阶段只做素材准备:

  • 它会根据你的需求去搜索视频素材,并从中筛选出最优的候选库。

  • 下载完成后,会对所有视频做多模态深度理解分析。

  • 确认素材丰富度是否足够支撑目标视频的时长。

Phase 2:最核心的"剪辑研究"(Editing Research)

这个阶段,类似于人脑看到素材后进行分析,这里它不调用任何处理工具,而是进行深度的叙事推理。 它会读取上一阶段的所有素材分析结果,然后输出一份极度详尽的结构化"剪辑蓝图"。包含:

  • 情绪曲线的起承转合怎么安排?

  • 开场用什么镜头?中间如何衔接?结尾怎么收?

  • 旁白该在哪个时间点切入,什么地方该"留白"?

也就是说,在动手之前,先生成了一份专业的导演分镜与剪辑策略。如果最后成片出现问题,你可以随时回放这份蓝图,看看是哪一步逻辑没盘明白,避免了盲目试错。

Phase 3:ReAct Editor 把蓝图变成现实

第三阶段,ReAct Editor 开始操作。 它会基于 Phase 2 的蓝图和 Phase 1 的素材,熟练调用超过 20 个模块化的视频工具。

  • 从精确裁剪、合并、转场设计,到字幕对齐。

  • 以及在配音之前,Crayotter 会对合好的画面再做一次多模态复分析。它通过重新理解当前时间轴的画面,确保生成的旁白和当前成片严丝合缝,彻底告别脱节的尴尬感!

可视化的工作流

LLM毕竟是个概率生成,翻车是难免的,但是最好翻车翻的让人有迹可循,而不是让人毫无头绪。 Crayotter 会详细记录从素材准备、剪辑研究到各种动作执行的工具轨迹,并提供极其完整的日志与可视化追踪。

添加图片注释,不超过 140 字(可选)

目前项目代码和完整 Demo 已经全面开源发布!感兴趣的同学可以直接去把玩一下:

看了演示视频 视频有点不连贯是只能剪辑10多秒的视频吗?

剪辑长度可以通过Prompt指定,连贯问题是因为演示视频的素材来自B站搜索,通过本地素材实现的剪辑不存在不连贯问题