Google AI Studio是一个提示开发工具,不过作为一个类似ChatGPT的对话式AI也有过之而无不及。最强模型、百万tokens多模态输入、高度灵活的操作、结构化提示、丰富的教程和社区、移动友好的界面,近乎完美。
-
最强模型
Google的产品当然是基于Gemini,目前有三个基础模型可用:1.5 Pro、1.5 Flash、1.0 Pro。Gemini 1.5 Pro是普通用户可以免费无限量使用的最强LLM。
虽说只要定语足够多,谁都是天下第一,但免费、无限量两个定语应该不算刻意。
LMSYS Chatbot Arena Leaderboard上,现在排名第一的LLM是GPT-4o,第二就是Gemini Advanced和Gemini 1.5 Pro,已经超过了GPT-4 Turbo和Claude 3 Opus。中文榜单上,Gemini 1.5 Pro和GPT-4o、Gemini Advanced、零一万物的yi-large并列第一,分数是四个模型中最高的。(号称很厉害的Claude 3.5 Sonnet还没加入榜单。)
上述模型,GPT-4o可以免费使用,但是限制三个小时内20个对话左右,超限之后就落回到实在不够看的3.5(排名40位左右);零一万物的万知没有说明用的是哪个版本的模型;Gemini Advanced、Claude 3 Opus免费用户都是用不了的。
还是Google财大气粗,Gemini 1.5 Pro在Google AI Studio里免费不限量。
GPT-4o超限的时候,Google AI Studio是我的第一备选。(或许现在该先尝试Claude 3.5了?)
-
1M tokens多模态输入
别忘了Gemini 1.5的杀手锏——百万tokens上下文,你甚至可以一次丢几本书进去(可惜不支持epub),或者几个小时的录音。没错,他还是多模态的,文本、图像、音频、视频都能懂,不过输出只有文本。建议使用1.5 Pro,速度并不比Flash慢太多,但是输出质量明显高很多。
Google AI Studio是我的首席伴读,整本书丢给他,他可以整理提纲、人物经历和事件脉络,凭模糊记忆找出原文,对比不同版本(比如原文、译文,原版、删节版),整理格式等等。超过百万tokens的书极其罕见,但是我上传的最大的两本书,73万的三国演义和91万的古拉格群岛都报错了,51万的蘇東坡新傳、53万的三国志、55万的人类简史三部曲英文版没问题。
国内的服务,比如Kimi理论上也支持这样的操作,但是动不动就“尊敬的用户您好,让我们换个话题再聊聊吧”你能忍?几十万字的书,哪能保证没几个敏感词呢?最离谱的情况是问个没有现实场景的小学纯数学题也要换个话题。(说句离题的,Kimi如果在说了一段之后突然变成换个话题,可以尝试点微信小程序里的复制按钮,有惊喜。)
-
高度灵活
作为一个开发工具,Google AI Studio非常灵活,你可以随时修改提示,甚至还能直接修改模型的输出、调整提示和回答的顺序、调节温度。
-
结构化提示
Google AI Studio还有对话式AI 没有的Structured pompt,翻译过来应该是结构化提示。它可以用很清晰的表格形式提交大量输入-输出对示例,让模型模仿这些示例来输出。这对需要重复使用的、难以用文字准确表达的复杂提示词非常有效,比如规定某种语言风格,输出格式等等,比如要模仿以前的风格给学生作文写评语。
可以提交的输入-输出对不限于一对一,还可以多对多,比如输入学生的年级、各科平时和考试成绩,输出综合评级、评语和建议等(当然这个例子是有点草率了)。不过从经验来看,只有一对一的输出比较稳定,否则输出很可能出问题。
-
教程和社区
Getting started, Documentation, Prompt gallery, Gemini cookbook, Discourse forum,各种教程、文档、示例、社区就在左手边。值得一提的是,Build with Google AI Forum很眼熟,和小众论坛一模一样。
-
移动友好
作为对话式AI的标配特性,移动友好本不值一提。但作为一个老用户,我还清楚地记得,之前Google AI Studio在手机上几乎是无法操作的,毕竟功能比对话式AI复杂得多。五月一次更新终于有了移动界面,我又少了一个开电脑的理由。