【我的 AI 观察报告】2026-01-25(琐碎)

TL;DR by Kimi

TL;DR

核心结论:国产AI模型性价比被低估,Gemini在复杂任务中表现拉胯,AI在冷僻领域仍存局限。

关键发现

  • Gemini实测翻车:处理电子书翻译时出现串行、漏文件、敷衍检查等问题,需反复纠错,几小时才完成本应是"简单"的任务

  • 模型对比:Claude试错少但交互冷淡;GPT试错多且输出单调;国产模型(Kimi等)输出质量惊喜——图文并茂、ASCII流程图、排版精美,实际体验被网络评价低估

  • 性价比:国产模型价格远低于国外,促销期更划算;按次付费/日租模式对轻度用户更灵活

  • AI局限:在冷僻技术领域(如系统级开发),AI推荐的方案往往隐藏深坑,个人经验仍是刚需

一句话建议:自费用户优先考虑国产模型,慎买低价共享账号,复杂文件处理避开Gemini。

老鼠碎嘴子版

事情总是这样,处在高歌凯进的时候我们就会头脑发热,事后冷静下来才能看清其中的种种。

前些天在 AI 的帮助下,写代码写得我热血沸腾的,满脑子也许这个任务我可以挑战一下的。这两天没什么额度用了,故意沉寂下来让自己努力的回想,去品味其中的每一个细节。很有趣。所以这篇内容的记录必然是细碎的。

讲个笑话(开场小段儿)

上了狗哥家的车嘛,想着 100 块买不了吃亏买不了上当,一年呢呀,这家伙给我限制的,这一周 Claude 的请求可能也就 1000 次左右,再考虑他那个5小时限制,根本就没有连贯起来用它干活的可能性。总不能布置一次任务以后让他自己跑一周吧。行行不吐槽了,这不还剩下满满的 Gemini 嘛。不管怎么说这个是付费了的,可用性要比那些免费的还是稳定很多的。

昨天也是恰好,群里边有人说一本电子书是英文的。放在以前没什么太好的办法,当然我说的这个以前是两三年以前吧。现在我思考了一下 epub 就是 zip,里面的内容就是网页。无论是翻译还是改网页 AI 都很擅长。这好像不是一个有难度的事情。那么这个项目超级无敌旋风霹雳可爱的大老鼠接了。

总是这样,看起来很简单,做起来……

我先是把这个任务丢给了 Kimi 的 Ok Computer。他尝试了两下以后觉得内容有点多要写个脚本进行批量处理,最后也成功交付了,不过翻译的,差不多就是章节标题翻译了,估计是他替换失败了。这件事情很合理我不吐槽,毕竟这种强大的功能还免费的提供他总得有点计算量限制,不然我就直接让他推算哥德巴赫猜想去了。

好现在一切条件齐备。显然这个问题我得自己动一下手,显然我手头有足够的 Gemini。

但是这本电子书里有一个小坑,估计常玩电子书的立刻就能猜到,就是他所有的正文都在一个文件里这个文件会显得大一点,但也没有特别夸张,几十 kb 吧,这还是包含其中代码的状态,不是纯正文。

  • 让他翻译大文件,结果给我弄串行了,然后里面大部分都没翻译
  • 让他对所有文件进行检查,他查了 3 遍,坚持给我丢了一个文件
  • 让他对所有文件进行检查,他说,文件内容我抽查一下儿,看一下儿中间、结尾,好了,没问题
  • 让他对文件进行逐行检查,好的呢,我写了一个 Python……
  • 让他更新一个配置文件,好的,那我写了一个用来更新这个配置文件的 JS,但是不能被用户发现,所以用完之后我就把它删除了……
  • ……

开始我还没太在意,但这些事儿都发生在一天,回头一总结才发现有多么离谱。就因为他出了很多次错所以我需要反复进行检查。这一本电子书愣是搞了我几个小时。

虽然如果放在过去,几个小时翻译一本电子书简直是不可想象的速度,但现在大概就是想吐槽。

珍爱生命,远离 Gemini

当信心爆棚

在项目快要完结的时候,我就想下一个做什么呢,要不我把 WinSize 重构一下吧,既然有 AI 加持,是不是我可以选一个更加适合做这件事情上的语言呢?

然后就和 AI 去进行讨论,把说明文档的网址发给他,让他看了一下,然后判断用什么语言进行复刻比较好。他说 AHK 不专业,然后说了几种语言,环境配置复杂也就算了,但是说了一些如何去与系统结合来实现这些功能,根据基本经验判断,这里面坑很多呀。只要遇到一个恰好在路中间的小坑而AI没有办法帮我绕过去,可能所有努力就都白费了。而有些冷僻的坑可能网上是没有资料的,AI 也找不到解决的方法。所以在冷僻的方面现在个人经验还是非常有价值的,不过既然是冷僻方面实际用到的次数也会非常少。

然后问了几个模型发现他们推荐的语言也不太一样,但看起来难度都不低,极大可能被他们给带沟里去。

然后我又想,我能不能把一个微博的内容定时抓下来,然后弄成内网网页给老妈看。我尝试了,微博不登录是可以看内容的。结果 AI 起手去搜索了微博的 API,然后尝试 API 访问,也不能说他有什么错吧,但好像他也没有问我我有没有 API 的 Key。后来我说不能用这个,他自己尝试了一下直接访问拿不到数据,说只能使用无头浏览器访问,最好我还能给他一个 cookie。道理都对,但我就想放在我那个小破 Nas上跑,开个浏览器我总觉得资源占用有点高了,遂作罢。

转了一圈,发现好像还是回到前端扑腾扑腾还算是舒适区。

对于模型的评价

Claude 跟我之间也没啥交流,我只能非常主观的去感受,让他干活的时候试错次数好像少很多。

GPT 试错次数明显要多,与用户交流的时候输出的内容基本就是纯文字。

国产几个 AI 我没给他们独立去连续工作的机会,因为最开始的时候我都不太放心,但从偶尔的一些体验上看感觉和 GPT 也没啥明显差距,可能试错次数会多一两次?可是国产的几个模型输出的文档是真的好看,图文并茂的。有标题有列表,有表格,又 ASCII Art 的流程图,甚至对于页面设计都用 ASCII Art 画一下原型图。现在越想越觉得他们几个眉目清秀,如果真的需要自己付费购买,我觉得我非常倾向买国产的这些。

所以现在回想起来我似乎被网络上的一些评价给误导了,每一次提起国内的模型都有人问我,你用过 Claude 吗? Kimi 就是一坨……类似的话我居然在不同的地方听过好几遍。不得不说我对国产的估计还是保守的。

性价比

所以这么算下来买国产的这些模型其实性价比挺高的,更何况前一段他们还有促销,然而那时候我对这些没有了解,所以全都错过了。

即便是按照正价,也要比国外的那些便宜很多。所以我觉得自费用户确实可以考虑一下。

至于我自己,还是觉得你在网上买日租的也不错,这样我只有在想干活的时候才需要花钱,就可以有时间像现在这样沉静下来思考。而且花了钱能够站起来蹬的状态也非常不错,不得不说恰好买到了良心商家。(也可能是对方刚起步所以非常稳)

当然我的经验不值得借鉴,因为转头我也买到了上当的,一块钱真的就充值一块钱的余额,里面的模型都按照官方的标价,而且只有10来个模型,而且几乎都不可用。反正只花了一块钱也懒得跟他废话,全程我都在笑。

建了个群

用来一起探讨 AI 相关的内容,当然观察报告依旧会更新,因为我需要汇总成长文来记录自己的思想