【我的 AI 观察报告】2026-01-23(编程模型天梯榜:纯属娱乐版)

以下测试不规范,不严谨,不准确。我将规范严谨准确地依照此三不原则进行评测。结果纯属娱乐,请勿轻信。如果本测评结果给您带来任何损失,建议您给小青蛙打钱,因为他是秦始皇。

以下模型默认为服务商当前的最强模型。

Claude

我使用的是 Antigravity 抠出来版,受内部提示词影响。

人狠话不多,干活是真的强,几乎不用操心,对用户的输出几乎没有,纯粹闷油瓶。如果重点关注代码质量,希望节省生命,提升效率,目前他肯定是第一。

评价:真大佬

GPT

我使用的是 Codex 抠出来第三方中转版,受内部提示词影响。

代码质量还行,但试错次数要比 Claude 多,但能得出正确(正确)结果,耗时处于可接受范围内。这货会说话,而且很好交流,对于代码的 review 能力也不错,确实能看出一些问题,有全局观的同时又不丢失细节。

评价:最平衡

如果只能订阅一家,目前看来这个可能会用得最舒服。

国产

Kimi K2、GLM-4.7、MIniMax M2.1 这些坐一桌。连续写代码的能力差一些,如果你让它自己试错可能得到永久的原地转圈。但稍微盯着点干活能力还是不错的。

  • Kimi K2 的工具调用能力不错,放到各种工具下都比较容易自动调用相应工具
  • MIniMax M2.1 文档写的清楚好看,主观感觉能甩 GPT 一两条街
  • GLM-4.7 可能属于上面两者中间

如果想省钱,或者你不希望 AI 独立工作(而你难以及时了解他们做了什么),用这些就很合适,相较于过去纯人工的编程方式可以获得很大提升。

还缺谁?!

珍爱生命,远离狗迷你。虽然他们都说这家伙前端能力强,但是我这个前端小项目中它基本主要负责捣乱的。在我的 Party 中,它连和上面三个坐一桌的资格都木有

评价:最可气

性能问题

我似乎讲过,最近电脑很不稳定,我两个操作系统都遭遇了崩溃,非常难受,我都考虑硬件问题了,甚至开始检测排查。后来观察到似乎是 OpenCode 吃爆了内存……

其实我这个电脑如果只是它自己跑的话也是够用的。所以我用 SSH 连上来干活从来没遇到过状况。但是我对着电脑的时候就还想开浏览器查点东西,开 VS Code 看看代码变化,开个视频打发等待的时间什么的……非常坏老板行为(挤占员工 的办公资源,还希望员工把活做的又快又好

大概是它启动背景任务查资料的时候开了无头浏览器,不知道多少个标签页,就非常地小青蛙。

建了个群

用来一起探讨 AI 相关的内容,当然观察报告依旧会更新,因为我需要汇总成长文来记录自己的思想

2 个赞

我觉得原生的 codex 在 shell 下最省心,前提是不降智。
claude 自动驾驶很强,但是边界情况考虑不足,经常会自作主张产生一些弱智问题而不作质疑。
gemini 3 现在降智严重,经常陷入死循环,基本没法使用。但是用来重构界面还行

gpt 规则的遵循效果最好。如果规则中要求现在是计划模式,即不修改文件,即便是给了权限,他也要用户确认之后才会对文件进行操作。这种严格的规则遵循甚至近乎烦人。我今天早晨确认了 3 轮才驱动他正经工作起来

我订阅了codex, 少量的通过cursor用claude的Opus和sonnet; opencode配置的是GLM; 之前趁着双11还尝了几口kimi和minimax

感觉codex使用体验其实是挺好的, 反馈速度和质量都还不错, 其他几家经常闷头干半天才有动静;

国内几个模型,
k2没整明白, 感觉我用法不对,就不评价了, 订阅的最早过期的最早,所以经验不足;
GLM感觉代码能力还行,就是 “大局观"不太行, 但如果给出明确的要求干的还挺好的;
minimax确实感觉很和"积极”, 但是其实代码能力还是差一点, 而且主要没有GLM快, 应该是thinking环节比较长.

cursor感觉都可以淘汰了, auto模型几乎不可用, 指定调用还不如直接买api, agent速度明显比其他人慢不少. 可能只剩下编辑器集成方便审核微调了

我比较喜欢 codex 这种不停的确认,claude 的自动执行容易跑偏,plan 写得再详细也可能会有歧义的。

K2 必须是特定的模型,而且还需要工具和它正好的契合度,才能有不错的表现,否则感觉就特别平平无奇

这个需要用工具和规范去进行各种约束,不然任何模型都有跑偏的可能性。

我目前用下来是 OpenCode,然后加上 oh my OpenCode,推动 AI 持续执行,加上 superpowers 进行流程监督控制,实现自我约束。昨天晚上好像连续跑了 4 个小时左右,当然很大程度上的原因都是 API 的输出太慢。但最后的效果还可以,因为他肯定会保证跑通的

Antigravity这周没用,昨晚疯狂出错。换过节点,还是模型调用过程长时间无输出最后挂了。
相比较而言,长上下文Opus和sonnet短上下文用Gemini

trea调用国内模型经常出现死循环,重复输出一句话一直到把token占满。而且修改bug喜好在死胡同里钻,已经告诉他试过这些方法了还在重复试

限额限的太狠了,我看了一下儿,我大概也就请求了 1200 次,实际可能还不到,就给我周限额了。

Trae 我个人感受是,他压了上下文,可能对上下文的长度限制的极狠。这样的好处是成本可以显著降低,但放在编程的场景里,也会让 AI 显得笨笨的

也不是限额,是直接错误。
如果只是限额,可以充值变强。这出现报错就很难顶了

额,好像这两天也确实看到了类似的消息。

trea感觉做的不是很好,还不如其实并不是很适配的Claude code。(同样的国内模型)

真的用起来,roo code, cline,opencode等效果都会好得多