【我的 AI 观察报告】2026-01-23（编程模型天梯榜：纯属娱乐版）

dms · 2026 年1 月 23 日 00:27

以下测试不规范，不严谨，不准确。我将规范严谨准确地依照此三不原则进行评测。结果纯属娱乐，请勿轻信。如果本测评结果给您带来任何损失，建议您给小青蛙打钱，因为他是秦始皇。

以下模型默认为服务商当前的最强模型。

Claude

我使用的是 Antigravity 抠出来版，受内部提示词影响。

人狠话不多，干活是真的强，几乎不用操心，对用户的输出几乎没有，纯粹闷油瓶。如果重点关注代码质量，希望节省生命，提升效率，目前他肯定是第一。

评价：真大佬

GPT

我使用的是 Codex 抠出来第三方中转版，受内部提示词影响。

代码质量还行，但试错次数要比 Claude 多，但能得出正确（正确）结果，耗时处于可接受范围内。这货会说话，而且很好交流，对于代码的 review 能力也不错，确实能看出一些问题，有全局观的同时又不丢失细节。

评价：最平衡

如果只能订阅一家，目前看来这个可能会用得最舒服。

国产

Kimi K2、GLM-4.7、MIniMax M2.1 这些坐一桌。连续写代码的能力差一些，如果你让它自己试错可能得到永久的原地转圈。但稍微盯着点干活能力还是不错的。

Kimi K2 的工具调用能力不错，放到各种工具下都比较容易自动调用相应工具
MIniMax M2.1 文档写的清楚好看，主观感觉能甩 GPT 一两条街
GLM-4.7 可能属于上面两者中间

如果想省钱，或者你不希望 AI 独立工作（而你难以及时了解他们做了什么），用这些就很合适，相较于过去纯人工的编程方式可以获得很大提升。

还缺谁？！

珍爱生命，远离狗迷你。虽然他们都说这家伙前端能力强，但是我这个前端小项目中它基本主要负责捣乱的。在我的 Party 中，它连和上面三个坐一桌的资格都木有

评价：最可气

性能问题

我似乎讲过，最近电脑很不稳定，我两个操作系统都遭遇了崩溃，非常难受，我都考虑硬件问题了，甚至开始检测排查。后来观察到似乎是 OpenCode 吃爆了内存……

其实我这个电脑如果只是它自己跑的话也是够用的。所以我用 SSH 连上来干活从来没遇到过状况。但是我对着电脑的时候就还想开浏览器查点东西，开 VS Code 看看代码变化，开个视频打发等待的时间什么的……非常坏老板行为（挤占员工的办公资源，还希望员工把活做的又快又好

大概是它启动背景任务查资料的时候开了无头浏览器，不知道多少个标签页，就非常地小青蛙。

建了个群

用来一起探讨 AI 相关的内容，当然观察报告依旧会更新，因为我需要汇总成长文来记录自己的思想

Hoothin · 2026 年1 月 23 日 01:01

我觉得原生的 codex 在 shell 下最省心，前提是不降智。
claude 自动驾驶很强，但是边界情况考虑不足，经常会自作主张产生一些弱智问题而不作质疑。
gemini 3 现在降智严重，经常陷入死循环，基本没法使用。但是用来重构界面还行

dms · 2026 年1 月 23 日 02:00

gpt 规则的遵循效果最好。如果规则中要求现在是计划模式，即不修改文件，即便是给了权限，他也要用户确认之后才会对文件进行操作。这种严格的规则遵循甚至近乎烦人。我今天早晨确认了 3 轮才驱动他正经工作起来

SmallPackage · 2026 年1 月 23 日 02:14

我订阅了codex, 少量的通过cursor用claude的Opus和sonnet; opencode配置的是GLM; 之前趁着双11还尝了几口kimi和minimax

感觉codex使用体验其实是挺好的, 反馈速度和质量都还不错, 其他几家经常闷头干半天才有动静;

国内几个模型,
k2没整明白, 感觉我用法不对,就不评价了, 订阅的最早过期的最早,所以经验不足;
GLM感觉代码能力还行,就是 “大局观"不太行, 但如果给出明确的要求干的还挺好的;
minimax确实感觉很和"积极”, 但是其实代码能力还是差一点, 而且主要没有GLM快, 应该是thinking环节比较长.

cursor感觉都可以淘汰了, auto模型几乎不可用, 指定调用还不如直接买api, agent速度明显比其他人慢不少. 可能只剩下编辑器集成方便审核微调了

Hoothin · 2026 年1 月 23 日 03:19

我比较喜欢 codex 这种不停的确认，claude 的自动执行容易跑偏，plan 写得再详细也可能会有歧义的。

dms · 2026 年1 月 23 日 03:29

K2 必须是特定的模型，而且还需要工具和它正好的契合度，才能有不错的表现，否则感觉就特别平平无奇

dms · 2026 年1 月 23 日 03:32

这个需要用工具和规范去进行各种约束，不然任何模型都有跑偏的可能性。

我目前用下来是 OpenCode，然后加上 oh my OpenCode，推动 AI 持续执行，加上 superpowers 进行流程监督控制，实现自我约束。昨天晚上好像连续跑了 4 个小时左右，当然很大程度上的原因都是 API 的输出太慢。但最后的效果还可以，因为他肯定会保证跑通的

yazii · 2026 年1 月 23 日 05:57

Antigravity这周没用，昨晚疯狂出错。换过节点，还是模型调用过程长时间无输出最后挂了。
相比较而言，长上下文Opus和sonnet短上下文用Gemini

trea调用国内模型经常出现死循环，重复输出一句话一直到把token占满。而且修改bug喜好在死胡同里钻，已经告诉他试过这些方法了还在重复试

dms · 2026 年1 月 23 日 06:14

限额限的太狠了，我看了一下儿，我大概也就请求了 1200 次，实际可能还不到，就给我周限额了。

Trae 我个人感受是，他压了上下文，可能对上下文的长度限制的极狠。这样的好处是成本可以显著降低，但放在编程的场景里，也会让 AI 显得笨笨的

yazii · 2026 年1 月 23 日 09:44

也不是限额，是直接错误。
如果只是限额，可以充值变强。这出现报错就很难顶了

dms · 2026 年1 月 23 日 09:58

额，好像这两天也确实看到了类似的消息。

SmallPackage · 2026 年1 月 24 日 08:09

trea感觉做的不是很好，还不如其实并不是很适配的Claude code。（同样的国内模型）

真的用起来，roo code， cline，opencode等效果都会好得多

话题		回复	浏览量
【我的 AI 观察报告】2026-01-25（琐碎）稻米鼠的频道	0	115	2026 年1 月 25 日
【我的 AI 观察报告】2026-01-22（控制力）稻米鼠的频道	0	63	2026 年1 月 22 日
【我的 AI 观察报告】2026-01-21（工具和模式）稻米鼠的频道	0	114	2026 年1 月 21 日
求解答minimax2.5比GLM4.7对比应该怎么选问题求助	15	808	2026 年2 月 14 日
【我的 AI 观察报告】2025-12-31 （付费编程时代）稻米鼠的频道	9	321	2026 年1 月 3 日

【我的 AI 观察报告】2026-01-23（编程模型天梯榜：纯属娱乐版）

Claude

GPT

国产

还缺谁？！

性能问题

建了个群

相关话题