让AI以盲人的方式操作计算机

3_5105 · 2025 年4 月 13 日 14:27

今天花了一天时间部署OmniParser，网上宣传是“为deepseek加上操作计算机的能力”实际上远未达到此程度。
智谱清言和清华大学联合新出的GLM-PC识别效果稍好，但是说实话好不到哪里去。
最近又看到claude支持自动操作计算机，虽然任务完成率达到惊人的15%，但是一个是价格昂贵，一个是这个完成率还是很低…

感觉为了识别屏幕而训练一个视觉模型实在是杀鸡焉用牛刀。AI需要眼睛，但是现在眼睛（视觉模型）还不够成熟的时候，有没有什么工具可以让大模型利用无障碍功能，直接读取屏幕上控件的原始文本信息，让大语言模型用最熟悉的文本分析和操作计算机？
可惜没找到，最后自己写了一个，视频中是输入
使用Edge浏览器下载安装ShotCut
自动执行的全过程，耗时6min 53s成功完成任务
无障碍识别用了uiautomation库，大模型用的是官网的DeepSeek V3

原帖在隔壁L站

今天花了一整天时间，疯狂cursor赶出来的，还有很多地方不完善…目前大概只能单双击和键盘输入。小细节调试可能还要花我一两天时间，但是明天要上学啊啊啊（打滚）

xiaoguai945yeah · 2025 年4 月 13 日 14:51

牛，再加个语音识别，以后就可以动动嘴让电脑干活了，罗永浩都后悔 TNT 发布太早了……

hxia · 2025 年4 月 14 日 03:34

~~用这个来刷L站活跃度会被始皇咔嚓吗~~

3_5105 · 2025 年4 月 14 日 04:20

有坛友问过了，暂时没有这方面打算

a523084467 · 2025 年4 月 14 日 04:46

顶，这下软件原生支持无障碍很有必要了

PandaFiredoge · 2025 年4 月 14 日 09:53

不错的思路

话题		回复	浏览量
全局按钮点击工具的思路讨论分享 windows	17	1993	2022 年5 月 13 日
【AI悬浮工具箱】让一个不会编程的人能用python编程解决问题讨论分享	18	639	2025 年3 月 21 日
各位有尝试过用 AI 自动化操作手机吗？讨论分享 ai	5	296	2025 年10 月 7 日
关于用眼球控制电子设备稻米鼠的频道	11	1549	2022 年1 月 27 日
DeepSeek-R1 发布，MIT 授权，性能对标 OpenAI o1 正式版青蛙的分享	32	1904	2025 年4 月 28 日

让AI以盲人的方式操作计算机

相关话题