小龙虾(OpenClaw)究竟能做点什么

本篇只是理性分析,也是我折腾了这么多天之后的思考,希望能对大家有所启发。

先说成本

凡事都要讲个投入产出比,产出现在不太好估量,但投入上还是比较好计算的。想干活肯定要尽量用最先进的模型,然后因为每次携带的上下文长度是很高的,所以 token 消耗量巨大,按量计费过于昂贵所以肯定是要买套餐的。按照日常聊天的请求次数看,一般使用至少也要中档的套餐才能够满足,也就是每个月的成本起码也得上百块,我们简单按照每月 200 块钱计算。

当然实际上为了能够让他更好的工作可能会选择更好更昂贵的模型,或者多个模型协同工作以获得更完美的效果,这都非常合理但在这里我们先取一个下限(200元/月)。毕竟上限就难以计量了,我们甚至可以让他开多个子智能体进行同步工作。

它值吗?

这个价格乍一听不算低,但假设我们开发出了它的实际应用场景,对于现在的办公党,我觉得大部分人是愿意花钱购买的。毕竟日常为了办公买的各种会员也不算少。如果有一个能帮自己干活能够提升效率的工具,那可能是必须得买的,虽然他未必能够帮自己做得更好但如果是同事买了而自己没买,可能更容易凸显自己的效率低下。

无论是主动的还是被迫的,这件事情都是很容易卷起来的。

他能做点什么?

但能做的事情很多,但是在成本上未必划算。一方面我们需要用尽可能好的模型,一方面我们要花时间和精力去对它进行调教。

他能帮你敲一颗钉子,但如果成本是为他买一个专用的榔头,并且花半个小时教会他,这究竟值不值得呢?如果教会他之后他就能够自己去敲1万颗钉子那大概也是划算的吧,然而他使用的榔头又是易损耗材。

所以如果一件事情要重复许多次,可能还是写一个程序更加划算,当然也许我们可以让他去帮我们写这个程序。于是又回到了用 AI 写代码的命题,这和小龙虾又有多大关系呢?

当然有一些场景下确实用死板的程序很难处理,如果加入 AI 的灵活判断会获得更好的效果,但是小龙虾自身携带大量的上下文,导致 token 的消耗量巨大,直接让他去做这种事情肯定是不划算的,不如我们让他去调用一个具有很少上下文的子智能体来参与处理。忽然发现这和编程调用AI也没什么区别,所以就又转回来了。

显然,如果一件事情需要重复许多次,用编程的方法解决是性价比最高的。即便需要 AI 参与也是使用编程的方式进行调用。

反向思考

所以它更适合去处理的可能是,用到次数比较少的,比如偶尔接到一个临时的任务,可能只是做一次或者重复三五下,反正写一个程序肯定是不值当的,手动处理一下可能是在时间上最划算的方法。这种也许是最适合交给 AI 的。当然太复杂的他可能做不好,太简单的可能也不值得交给他,所以应该是一个难度适中的。

总结:偶发性,低重复,侧重主观,难度适中的任务。

所以实际上现在AI的应用场景还是比较狭窄的。好像在名词上这叫做 ANI。但是,如果放到工作场景中去思考,你会发现这样的任务有时候还是蛮多的:领导忽然交代你把那几份文件去处理一下……

总结上面两点

这就是我们常常觉得这些工具似乎能够提升效率,但是在真正使用的时候又常常无法提升效率。在某些单次的难度适中的任务上它确实能够提升效率,给我们惊喜。但是当你想将一个流程进行复用的时候,却又常常因为他的跑偏而陷入泥潭,也就是在用 AI 去处理本应该程序处理的流程。

又或者你交给他一个复杂的任务之后,发现自己教他去做这件事情的成本比自己去做这件事情的成本还高。任务难度没控制好,导致投入产出比失衡。

所以这里需要一个对任务的评估机制,来筛选出真正适合交给他去做的任务。这不合理,我们使用 AI 就是希望把任务丢给他然后不去思考,但是现在他还没有发展到这个程度所以我们只好……然而这种判断又是很困难的,对于不同的模型有不同的阀值,很难一概而论。

所以非常容易在调教过程中产生了过量的投入,而很难获得预期的产出。

而且每一次模型升级、工具迭代,我们都需要重新去适应,很难获得一个舒适的稳定态。

也就是说

它确实是生产力,但是目前场景非常狭窄,如果你的工作场景恰好对应了它的应用范围,那将会获得非常好的体验。否则在寻找适应调教的过程中很难把控投入产出比,以及获得稳定的效果。

但是问题不大

给他一点时间(也许两年?也许半年),让他再发展一下。当现代 AI 越接近 AGI 的时候,我们所能获得的体验就越符合预期了。

[!important] 为我家的小龙虾求点口粮
。°(°¯᷄◠¯᷅°)°。
Token 消耗量巨大,小龙虾要断粮了
希望大家留点猫粮 投喂小龙虾

7 个赞

有种类似的感觉,chatgpt 最早爆火的那个春节,它最大的作用是被拿来(ota 了)

过了一阵子,经过用户的真实实践,才逐渐认识到它底应该怎么用。


最近我向很多有 openclaw 的用户询问它能做什么,却很少有人给出最正面、直接的回答,全是大段的分析。

1 个赞

说实话感觉还是没啥用(

我平时写的小工具vscode配GitHub coplit就能搞定,不需要这么高档的,专业科技公司(字节阿里腾讯)这类肯定公司内部直接配高端的

个人开发者的话感觉会入不敷出……

所以总的来说还是没啥用

1 个赞

也不算是完全没用。但场景十分狭窄。就是需要凑齐一些特定条件,才能真正发挥它的价值。有一点鸡肋。但如果真的条件恰好凑齐,又不得不说,这东西真香。

胡乱举几个例子,不一定恰当,只做抛砖引玉:

比较忙的时候,领导又给你一个不大不小的任务。比如整理几个表格,也不算困难,只是真做的话,起码也得折腾半天儿。平时一直也都会做这样的任务,但现在恰好几个任务同时要结果,这个任务就不太好安排,但也不是很好拒绝。但如果丢给小龙虾这样的工具,即便是消耗 10 元钱的 token,那也是很值得的。比起求其他同事帮忙来,可能更加划算。

我现在已经躺在床上了。但是忽然想到明天想写一些关于小龙虾的文章。让他自己去搜索一些资料,并总结好,放在特定的位置下,明天写的时候,我就不需要自己去搜集资料了。

笔记里有一些细碎的数据记录,格式比较复杂,每次添加,即便是有表单去填写,也是很麻烦的事情。反正笔记都同步到 NAS,索性让 NAS 里的小龙虾做处理。只需要预先培养一下技能,然后在使用的时候只需要用自然语言告诉他信息,它就能够将信息整理好并添加入对应的笔记中。

上述内容用其他工具其实也能做,用小龙虾也没显得带来特别大的方便。但毕竟他把框架搭建好了,多少还是简单一些,尤其是已经布置好之后,相当于手边的工具,可以随时抓起来用。

只是这些场景依然比较狭窄。以及像笔记的例子,投入产出比可能并不算划算。

3 个赞

感觉那时候token的消耗量更是天文数字了 :xk:

我不太敢直接把一个任务交给LLM,因为大语言模型天生自带不确定性,哪怕Temperature=0依旧是不稳定的。

对于简单的工作,如果是一次性的,那么偶尔做一次我觉得不算太耗时。如果经常重复,那么我倾向于自己写个小工具,然后用工具托拉拽完成操作。

目前,文件整理,邮箱整理,数据整理,都有一堆的工具,用起来很方便。

至于LLM,我让他做完了活,我一定得耗时仔细检查。因为不信任。所以慢慢的,简单的工作我就不给他了。而目前的LLM又做不了非常复杂的工作。

于是GPT基本上在我这里成了便携的Wiki,或者头脑风暴提示器。

检查是必然要检查的。

在写代码的时候,可以让他自己写单元测试并跑通,也就是用一些方法让他做检查。这样就可以降低自己检查的工作量了。

比如上面的例子,按照特定格式书写笔记内容。我会给清楚格式和事例,这样跑偏的可能性就很低了。而且这个格式主要是自己书写起来比较麻烦,但检查起来只需要扫一眼。

以及有一些脚本,真的就是能跑就行。能跑就意味着正确。

然后对于一些事情,尽量先备份后操作,比如让他修改配置文件,一定要先备份一份,然后再做修改。这样改错了,直接把备份恢复回去就行。

本地的Agent特别喜欢宣传的是,他可以帮忙整理本地文件。

我这里有98个游戏中的资源素材,需要按照某个规则进行重命名,然后,理论上可以交由AI完成。但是,这里是完全不能出任何错误的,否则程序直接就报错了。

与其先让AI干活,然后写个单元测试,不如我直接用工具完成命名,可以确保正确。而且,这种活还真不是扫一眼就能知道AI有没有出错的。所以就,不是很信任AI。

所以,我更倾向于让AI提供信息,比方说游戏的设计文稿给他,让它给我反馈,亦或者看看我的代码,有没有问题什么的。

至于先备份再修改…….git可以完成备份…..不对,这些资源刚添加进来,还没有添加到git上,那就得手动备份。可是将近一百个资源,硬盘空间占据的也不小,都是模型和它的贴图…….怎么看都是手动更方便一些

显然的,你的使用方法有问题。

如果是规则严苛的改名,且数量较多,显然是要用工具或者脚本去完成的。即便用 AI,也应该让 AI 先写脚本,检查脚本的正确性之后再执行。

如果需要备份,也应该是记录文件信息以及对应的文件名,而不是对于文件进行全量备份。

这些和我前面的观点并没有冲突。目前 AI 的可应用场景是很狭窄的。而我只是在努力发现这些场景,然后评估它们的价值。

火车发明的初期也没多大用,并且被很多人嘲笑。如果他有潜力,那就想办法去发现它嘛。

我使用它改文件名,不是因为我有这个需求,而是因为这个功能是很多本地AI助手都在宣传的功能。我不知道他能干什么,但是,能够被各种助手拿出来作为宣传的功能,应该,不会差,吧

至于火车有没有用,我并不关心。我不是火车/AI利息相关者,我也不在乎火车/AI之后能发展到什么程度,我关心的是它能给我有什么帮助。如果连它放到宣传页上的功能都做不好,那么,说明目前阶段,他没什么用。至于以后有没有用,那也得等到以后才知道。不是所有东西都能发展起来的,毕竟,VR,元宇宙当年吹的那么多,一样没有起来。

我不看好AI,我不看衰AI,我希望的是一个工具,很明显,目前,AI的叙事价值远远超过他的实际价值。所以,持币观望就好。

2 个赞

另外,那些AI助手的宣传视频里,可没有任何一次提到,用他改名之前需要用它写脚本,还得先做备份。视频里就是,简单的在窗口中用自然语言描述了“请帮我整理桌面上的文件”,然后,AI助手就完成了所有的工作。

我严格遵守了宣传视频的做法,并且拒绝使用脚本,因为宣传页和商品描述页都没有提到这一点。

AI或许很好,但是,目前阶段的AI商品大概率不怎么样

我认为他对个人的作用可能不大
但是对大模型的厂商来说挺有用

客观上是这谁大模型厂商续了一波命
虽然市场上那么多大模型
以当前的市场来讲
可能容不下那么多大模型,市场没那么大,现在所有厂商都在硬烧钱,回报没想象中的大
现在出了这么个玩意
个人帮助大模型厂商消耗了巨量的token,还能顺便帮对方提供实验数据
这波实在是太赚了

6 个赞

对花钱找过外包的人有用,能便宜很多。大部分外包做的也不是什么高大上的独创性的工作,花钱买的就是省心。
但是日常生活中的很多活,不是钱多钱少的问题,而是只要让我花钱,就不如自己上了。

mp.weixin.qq.com/s/w8VnWJcUp5VkD5J-fYCUrg

感受差不多。前期验证流程可以拿 agent 工具来做,长期用追求稳定结果和高并发还是得工程化掉,也降低了 token 的消耗成本。

好牛的大佬啊,把俺想要的都做出来了。这就是未来已来吧。祝您发掘更多的灵感。
新的工具总是要拿来暴打原始人才会显得突出吧

差不多是这意思。

这玩意儿可能有个60分,但被炒作成了120分,然而实际上它目前只是一个玩意儿而已。

1 个赞

一般,叙事价值是商品的实际价值的三倍以上的时候,泡沫就会破裂。

如果仅仅是60分的东西被炒到了120分,说明叙事价值仅仅是实际价值的1倍级别,这说明距离泡沫破裂还早。

所以,等到什么时候60分的东西被炒到240分。这才是真的要爆炸的时候。

1 个赞

这东西体制内用不了一点

1 个赞

感觉噱头大于实际了

2 个赞