【开发者自荐】一句话可自动搜索素材并剪辑的开源Agent

Ko_Yua · 2026 年4 月 18 日 16:42

在线演示（交互版 Demo）： https://idwts.github.io/Crayotter
GitHub 源码传送门： https://github.com/idwts/Crayotter
最新版本 Release： v0.1.0-demo
“为什么现在没有能自动剪辑视频的AI？”，确实是我之前遇到一些麻烦的感想。

现在的AI生成视频，其实很多时候还是比较偏向"AI提供原材料 + 人类手搓剪辑"。特别是遇到很麻烦的剪辑环节：找素材难，而且 AI 生成素材由于幻觉或奇奇怪怪的 BUG（特性），体感上和"抽卡"非常类似。

例如，某个场景你想做个融合了很多元素的视频，往往需要先用 LLM 写脚本，再用 MJ 出图，接着用 Runway 或 Sora 生成视频片段，最后还要辛辛苦苦拖进 PR 里去剪辑。一旦中间某个环节出错，比如人物换了衣服或者场景不连贯，整个流程往往就要推倒重来。

不管怎么说，目前的体验就是一种"碎片化"的工具生态。这让大家感觉到，现在的 AI 还是在扮演"单一生成器"的角色，缺乏一个能够像人类导演一样思考、规划、执行的"智能体"去降低极高的剪辑负担。虽然能生成，但就像是"最后一公里"没有打通…使用起来还是很难受。那能不能让ai自己找素材，自己去剪辑？？期间可以手动纠错主动完善。

Crayotter 是一个真正意义上的多模态、Agent 驱动的视频自动编辑系统。使用起来也是很AI项目把一条文本需求（比如：“制作一个1分钟校园主题宣传片，节奏轻快，旁白积极”），直接转化为一条完整成片。

添加图片注释，不超过 140 字（可选）

它最大的解决痛点说玄乎点就是可观测性Observability，相比把所有的过程塞进一个无法控制的"黑盒"里，其把"自动化剪辑"拆成了三个完全可观察、可复盘、可调试的阶段工作流：

Phase 1：不急着剪，先做好"素材规划"

第一阶段是 Planner + Executor。类似于渐进式披露的想法，让视频 Agent直接一步到位，在长链路任务里很容易跑偏。所以 Crayotter 的第一阶段只做素材准备：

它会根据你的需求去搜索视频素材，并从中筛选出最优的候选库。
下载完成后，会对所有视频做多模态深度理解分析。
确认素材丰富度是否足够支撑目标视频的时长。

Phase 2：最核心的"剪辑研究"（Editing Research）

这个阶段，类似于人脑看到素材后进行分析，这里它不调用任何处理工具，而是进行深度的叙事推理。它会读取上一阶段的所有素材分析结果，然后输出一份极度详尽的结构化"剪辑蓝图"。包含：

情绪曲线的起承转合怎么安排？
开场用什么镜头？中间如何衔接？结尾怎么收？
旁白该在哪个时间点切入，什么地方该"留白"？

也就是说，在动手之前，先生成了一份专业的导演分镜与剪辑策略。如果最后成片出现问题，你可以随时回放这份蓝图，看看是哪一步逻辑没盘明白，避免了盲目试错。

Phase 3：ReAct Editor 把蓝图变成现实

第三阶段，ReAct Editor 开始操作。它会基于 Phase 2 的蓝图和 Phase 1 的素材，熟练调用超过 20 个模块化的视频工具。

从精确裁剪、合并、转场设计，到字幕对齐。
以及在配音之前，Crayotter 会对合好的画面再做一次多模态复分析。它通过重新理解当前时间轴的画面，确保生成的旁白和当前成片严丝合缝，彻底告别脱节的尴尬感！

可视化的工作流

LLM毕竟是个概率生成，翻车是难免的，但是最好翻车翻的让人有迹可循，而不是让人毫无头绪。 Crayotter 会详细记录从素材准备、剪辑研究到各种动作执行的工具轨迹，并提供极其完整的日志与可视化追踪。

添加图片注释，不超过 140 字（可选）

目前项目代码和完整 Demo 已经全面开源发布！感兴趣的同学可以直接去把玩一下：

在线演示（交互版 Demo）： https://idwts.github.io/Crayotter
GitHub 源码传送门： https://github.com/idwts/Crayotter
最新版本 Release： v0.1.0-demo

William927 · 2026 年4 月 19 日 02:21

看了演示视频视频有点不连贯是只能剪辑10多秒的视频吗?

Ko_Yua · 2026 年4 月 19 日 05:58

剪辑长度可以通过Prompt指定，连贯问题是因为演示视频的素材来自B站搜索，通过本地素材实现的剪辑不存在不连贯问题

renmu123 · 2026 年4 月 22 日 07:16

agent能正确理解视频吗？多少钱一秒

话题		回复	浏览量
我开发了款低成本的AI Agent本地视频生成软件！讨论分享	4	169	2026 年6 月 17 日
【开源自荐】AI-Media2Doc: 一键将音视频转化为小红书/知识笔记/思维导图/视频字幕等各种风格的文档。发现频道 web , ai	9	566	2025 年8 月 1 日
【开源】开源agent框架Cellium-Agent,微内核+决策环+贝叶斯 Bandit 自适应策略优化+实时自状态感知发现频道 linux , windows , macos	5	498	2026 年6 月 24 日
【自荐】AutoClip-一键将文稿转为配音视频发现频道 windows	0	110	2026 年6 月 26 日
【自荐】VideoCaptioner - 基于 LLM 的智能视频字幕助手，支持生成、断句、优化、翻译全流程，一键高质量字幕视频合成！发现频道	12	1571	2024 年11 月 15 日

【开发者自荐】一句话可自动搜索素材并剪辑的开源Agent

Phase 1：不急着剪，先做好"素材规划"

Phase 2：最核心的"剪辑研究"（Editing Research）

Phase 3：ReAct Editor 把蓝图变成现实

可视化的工作流

相关话题