浏览器里跑 Gemma 4:不用 API、不花钱,无限量生成 Excalidraw 流程图

原始链接在: https://www.appinn.com/urboquant-wasm-draw-gemma-4/

手机上能跑 Gemma 4 大模型已经不新鲜了(iPhone、安卓现在就能跑 Gemma 4 了),现在浏览器也可以了。@Appinn

有开发者利用 Google 新提出的 TurboQuant 算法,把 Gemma 4 放进浏览器里运行。

直接打开网页,就能在 Excalidraw 里用 AI 画图,而且整个过程都在本地完成,不需要调用在线模型,也不消耗任何 Token。

唯一代价:需要下载 3.1GB 的 Gemma 4 E2B 大模型。另外需要桌面版 Chrome 134+ 版本。

如何使用?

直接打开网页用:

直接输入中文用:

32.9秒,就能生成一张完整的流程图,不需要自己画框、连线。

跑起来怎么样?

  • 速度:每秒生成约 24 个 token
  • 端到端速度(end-to-end):每秒约 22.7 个 token(包括准备、计算等)
  • 输出长度:这次一共生成了 747 个 token
  • 总耗时:32.9 秒
  • KV Cache:15.5MB / 37.0MB
  • 当前上下文长度:2106 pos(模型已经“记住”的 token 数量)

KV Cache 从原本约 37MB,压缩到约 15MB 左右(约 2.4 倍压缩)。

不过这样一个简单的例子需要 37MB 的 KV Cache,青小蛙也是第一次感受到。

TurboQuant 是什么?

TurboQuant 是 Google 最近推出的新算法,它可以将 KV Cache 里的向量压缩 6 倍,并可以直接搜索压缩数据,无需解压缩。

这样大模型就可以记住更长的上下文,回答更长的对话,也更不容易“忘记前面说过的话”。

  • KV Cache:大模型在对话时用来“记住前面内容”的一块临时记忆。
  • 向量:大模型理解文字的方式:我们对AI说话,会先被转换成一串数字,然后才能让大模型理解,这些数字,就是向量。

意味着什么?

Excalidraw 这样的应用,以前如果接入 AI,一般都需要调用在线大模型,按 token 付费。

现在换一种方式:

  • 下载一个模型,在本地浏览器里运行
  • 不需要联网调用模型
  • 不消耗 Token,可以无限量使用

就,还挺省钱的。


原文:https://www.appinn.com/urboquant-wasm-draw/

问题来了,类似 Excalidraw 这样轻量调用 AI 的服务,还有哪些呢?

别的先不说,所以这算是官方宣布了,对于Excalidraw这样的应用,只要4B级别的模型,就足够操作它了?

哪个官方?

诶?这不是…哦,不是谷歌官方出的插件…

好吧,所以结果什么的,并没有什么质量上的保证,更多只是一个实验性质的东西…明白了