让AI以盲人的方式操作计算机

今天花了一天时间部署OmniParser,网上宣传是“为deepseek加上操作计算机的能力”实际上远未达到此程度。
智谱清言和清华大学联合新出的GLM-PC识别效果稍好,但是说实话好不到哪里去。
最近又看到claude支持自动操作计算机,虽然任务完成率达到惊人的15%,但是一个是价格昂贵,一个是这个完成率还是很低…

感觉为了识别屏幕而训练一个视觉模型实在是杀鸡焉用牛刀。AI需要眼睛,但是现在眼睛(视觉模型)还不够成熟的时候,有没有什么工具可以让大模型利用无障碍功能,直接读取屏幕上控件的原始文本信息,让大语言模型用最熟悉的文本分析和操作计算机?
可惜没找到,最后自己写了一个,视频中是输入
使用Edge浏览器下载安装ShotCut
自动执行的全过程,耗时6min 53s成功完成任务
无障碍识别用了uiautomation库,大模型用的是官网的DeepSeek V3

原帖在隔壁L站

今天花了一整天时间,疯狂cursor赶出来的,还有很多地方不完善…目前大概只能单双击和键盘输入。小细节调试可能还要花我一两天时间,但是明天要上学啊啊啊(打滚)

8 个赞

牛,再加个语音识别,以后就可以动动嘴让电脑干活了,罗永浩都后悔 TNT 发布太早了……

用这个来刷L站活跃度会被始皇咔嚓吗

2 个赞

有坛友问过了,暂时没有这方面打算

顶,这下软件原生支持无障碍很有必要了

1 个赞

不错的思路