TL;DR by Kimi
TL;DR
核心结论:国产AI模型性价比被低估,Gemini在复杂任务中表现拉胯,AI在冷僻领域仍存局限。
关键发现:
-
Gemini实测翻车:处理电子书翻译时出现串行、漏文件、敷衍检查等问题,需反复纠错,几小时才完成本应是"简单"的任务
-
模型对比:Claude试错少但交互冷淡;GPT试错多且输出单调;国产模型(Kimi等)输出质量惊喜——图文并茂、ASCII流程图、排版精美,实际体验被网络评价低估
-
性价比:国产模型价格远低于国外,促销期更划算;按次付费/日租模式对轻度用户更灵活
-
AI局限:在冷僻技术领域(如系统级开发),AI推荐的方案往往隐藏深坑,个人经验仍是刚需
一句话建议:自费用户优先考虑国产模型,慎买低价共享账号,复杂文件处理避开Gemini。
老鼠碎嘴子版
事情总是这样,处在高歌凯进的时候我们就会头脑发热,事后冷静下来才能看清其中的种种。
前些天在 AI 的帮助下,写代码写得我热血沸腾的,满脑子也许这个任务我可以挑战一下的。这两天没什么额度用了,故意沉寂下来让自己努力的回想,去品味其中的每一个细节。很有趣。所以这篇内容的记录必然是细碎的。
讲个笑话(开场小段儿)
上了狗哥家的车嘛,想着 100 块买不了吃亏买不了上当,一年呢呀,这家伙给我限制的,这一周 Claude 的请求可能也就 1000 次左右,再考虑他那个5小时限制,根本就没有连贯起来用它干活的可能性。总不能布置一次任务以后让他自己跑一周吧。行行不吐槽了,这不还剩下满满的 Gemini 嘛。不管怎么说这个是付费了的,可用性要比那些免费的还是稳定很多的。
昨天也是恰好,群里边有人说一本电子书是英文的。放在以前没什么太好的办法,当然我说的这个以前是两三年以前吧。现在我思考了一下 epub 就是 zip,里面的内容就是网页。无论是翻译还是改网页 AI 都很擅长。这好像不是一个有难度的事情。那么这个项目超级无敌旋风霹雳可爱的大老鼠接了。
总是这样,看起来很简单,做起来……
我先是把这个任务丢给了 Kimi 的 Ok Computer。他尝试了两下以后觉得内容有点多要写个脚本进行批量处理,最后也成功交付了,不过翻译的,差不多就是章节标题翻译了,估计是他替换失败了。这件事情很合理我不吐槽,毕竟这种强大的功能还免费的提供他总得有点计算量限制,不然我就直接让他推算哥德巴赫猜想去了。
好现在一切条件齐备。显然这个问题我得自己动一下手,显然我手头有足够的 Gemini。
但是这本电子书里有一个小坑,估计常玩电子书的立刻就能猜到,就是他所有的正文都在一个文件里这个文件会显得大一点,但也没有特别夸张,几十 kb 吧,这还是包含其中代码的状态,不是纯正文。
- 让他翻译大文件,结果给我弄串行了,然后里面大部分都没翻译
- 让他对所有文件进行检查,他查了 3 遍,坚持给我丢了一个文件
- 让他对所有文件进行检查,他说,文件内容我抽查一下儿,看一下儿中间、结尾,好了,没问题
- 让他对文件进行逐行检查,好的呢,我写了一个 Python……
- 让他更新一个配置文件,好的,那我写了一个用来更新这个配置文件的 JS,但是不能被用户发现,所以用完之后我就把它删除了……
- ……
开始我还没太在意,但这些事儿都发生在一天,回头一总结才发现有多么离谱。就因为他出了很多次错所以我需要反复进行检查。这一本电子书愣是搞了我几个小时。
虽然如果放在过去,几个小时翻译一本电子书简直是不可想象的速度,但现在大概就是想吐槽。
珍爱生命,远离 Gemini
当信心爆棚
在项目快要完结的时候,我就想下一个做什么呢,要不我把 WinSize 重构一下吧,既然有 AI 加持,是不是我可以选一个更加适合做这件事情上的语言呢?
然后就和 AI 去进行讨论,把说明文档的网址发给他,让他看了一下,然后判断用什么语言进行复刻比较好。他说 AHK 不专业,然后说了几种语言,环境配置复杂也就算了,但是说了一些如何去与系统结合来实现这些功能,根据基本经验判断,这里面坑很多呀。只要遇到一个恰好在路中间的小坑而AI没有办法帮我绕过去,可能所有努力就都白费了。而有些冷僻的坑可能网上是没有资料的,AI 也找不到解决的方法。所以在冷僻的方面现在个人经验还是非常有价值的,不过既然是冷僻方面实际用到的次数也会非常少。
然后问了几个模型发现他们推荐的语言也不太一样,但看起来难度都不低,极大可能被他们给带沟里去。
然后我又想,我能不能把一个微博的内容定时抓下来,然后弄成内网网页给老妈看。我尝试了,微博不登录是可以看内容的。结果 AI 起手去搜索了微博的 API,然后尝试 API 访问,也不能说他有什么错吧,但好像他也没有问我我有没有 API 的 Key。后来我说不能用这个,他自己尝试了一下直接访问拿不到数据,说只能使用无头浏览器访问,最好我还能给他一个 cookie。道理都对,但我就想放在我那个小破 Nas上跑,开个浏览器我总觉得资源占用有点高了,遂作罢。
转了一圈,发现好像还是回到前端扑腾扑腾还算是舒适区。
对于模型的评价
Claude 跟我之间也没啥交流,我只能非常主观的去感受,让他干活的时候试错次数好像少很多。
GPT 试错次数明显要多,与用户交流的时候输出的内容基本就是纯文字。
国产几个 AI 我没给他们独立去连续工作的机会,因为最开始的时候我都不太放心,但从偶尔的一些体验上看感觉和 GPT 也没啥明显差距,可能试错次数会多一两次?可是国产的几个模型输出的文档是真的好看,图文并茂的。有标题有列表,有表格,又 ASCII Art 的流程图,甚至对于页面设计都用 ASCII Art 画一下原型图。现在越想越觉得他们几个眉目清秀,如果真的需要自己付费购买,我觉得我非常倾向买国产的这些。
所以现在回想起来我似乎被网络上的一些评价给误导了,每一次提起国内的模型都有人问我,你用过 Claude 吗? Kimi 就是一坨……类似的话我居然在不同的地方听过好几遍。不得不说我对国产的估计还是保守的。
性价比
所以这么算下来买国产的这些模型其实性价比挺高的,更何况前一段他们还有促销,然而那时候我对这些没有了解,所以全都错过了。
即便是按照正价,也要比国外的那些便宜很多。所以我觉得自费用户确实可以考虑一下。
至于我自己,还是觉得你在网上买日租的也不错,这样我只有在想干活的时候才需要花钱,就可以有时间像现在这样沉静下来思考。而且花了钱能够站起来蹬的状态也非常不错,不得不说恰好买到了良心商家。(也可能是对方刚起步所以非常稳)
当然我的经验不值得借鉴,因为转头我也买到了上当的,一块钱真的就充值一块钱的余额,里面的模型都按照官方的标价,而且只有10来个模型,而且几乎都不可用。反正只花了一块钱也懒得跟他废话,全程我都在笑。
建了个群
用来一起探讨 AI 相关的内容,当然观察报告依旧会更新,因为我需要汇总成长文来记录自己的思想

