AI 正在“矿机化”:成本降 10 倍,GPU 会被淘汰吗?

原始链接在: https://www.appinn.com/ai-mining-machine-era-gpu-obsolete/

几天前,一家公司把大模型直接写入芯片(ASIC),推理速度为 17000 Token/s,相当于1秒生成30页A4纸的内容,但耗电量和使用成本比英伟达显卡降低 10 倍!
比特币的故事,正在 AI 身上重演。


比特币矿工的军备竞赛

2009 年,比特币刚诞生时,使用 CPU 挖矿,大家在同一起跑线。

很快,显卡挖矿软件出现,算力暴涨,CPU 被淘汰。

2012 年,第一批 ASIC 矿机问世,显卡矿工几乎一夜之间失去优势。

从此,CPU 与显卡从比特币挖矿市场退出,只剩下了 ASIC 矿机。


ASIC 到底是什么?

ASIC,全称是 Application-Specific Integrated Circuit——专用集成电路。

在原理上,他们的区别是这样的:

  • CPU:告诉我怎么做,我一步步运行指令,重复一万次
  • GPU:告诉我怎么做,我把一条指令同时运行一万次
  • ASIC:不用告诉我怎么做,电流流过,结果自然产生

因为 ASIC 把“怎么做”这件事,直接刻进了芯片结构里。它只做一件事,也只能做一件事。它不再运行程序。它本身,就是程序。

就像 CPU 的加法器一样,当两个数字输入进去,电路自动给出结果。


AI 大模型的 ASIC 时刻

比特币挖矿,从一开始就是一件高度重复、结构固定的计算任务。
而今天的大模型,本质上也是如此。

几天前,Taalas 发布了一款能运行 Llama 3.1 8B 的 ASIC 芯片,他们没有让 GPU 去加载模型,而是直接将模型,变成了电路。

这就无需将大模型放入内存再去运行,因为它已经在芯片中了。

英伟达显卡如何处理大模型的数据?

Llama 3.1 8B 模型为例,它由 32 层处理流程叠起来,即 32 道工序处理用户输入的内容。

每一道工序,都在对输入内容做一次加工。当你输入一句话时,会先转换成一串数字(向量),然后这串数字要依次通过 32 道工序(读取参数、计算、写回内存,来回 32 次),最终输出结果。

这个过程就像美化照片:

  • 第一步调亮度
  • 第二步调对比度
  • 第三步增强边缘

最终生成一张精修后的照片。

Taalas 如何将大模型写入芯片?

如果这 32 道工序已经是固定的,能不能把它直接做成电路?

答案是可以。

Taalas 将 32 层 Llama 3.1 按顺序刻在芯片上,并发明了一种硬件方案:神奇乘法器(Magic Multiplier)。可以存储 4 位数据并使用单个晶体管执行与其相关的乘法。

现在,当用户输入时,它先转换为向量,并流入构成第 1 层的物理晶体管。它通过神奇乘法器进行乘法,而不用将结果保存在显存中。

电信号只是沿着物理线路流入第 2 层晶体管…直到生成最终的输出 Token。

模拟 DeepSeek R1-671B:单块芯片装不下怎么办?

对于像 DeepSeek R1-671B 这样的大模型,一块 ASIC 根本装不下。

为了解决这个问题,Taalas 设想用大约 30 块定制 ASIC,把模型参数按模块分布在不同芯片上协同推理。每块芯片依然是“硬连线”的专用设计,只负责模型的一部分。

模拟结果依然惊人:

  • 单用户推理速度约 12,000 token/秒
  • 每 100 万 token 成本约 7.6 美分
  • 成本大约是同等 GPU 方案的一半

未来是 ASIC 的吗?

不一定。

ASIC 的代价,是极端专用。模型一旦升级,可能就要重新流片。

  • GPU 可以运行任何模型。
  • ASIC 只能运行被刻进去的那个模型

如果 AI 推理变成一个标准化、规模化的产品,那么未来可能是这样的:

用户应用层面,直接使用 ASIC 进行大模型输出,成本低廉、速度很快、能耗降低,堪称完美。

而开发层面,GPU 会重回训练、实验和通用计算领域,去训练新的大模型。

但有一件事可以确定:

当“智能”被刻进硅片,算力的战争,进入了新的阶段。

这到底是不是 AI 的矿机时刻?

当年显卡矿工不愿相信 ASIC 会赢,但利润足够大时,效率终究战胜通用性。

今天,大模型推理正在变成一种标准化、规模化的重复计算。

历史告诉我们:当计算足够标准化,它终究会被刻进硅片。

这一次,轮到 AI。

一连串的疑问?

如果模型被刻进芯片,那么:

  • 算力会更集中吗?
  • 小公司还能参与吗?
  • 开源模型还有空间吗?
  • 算力是否会再次集中到少数巨头手中?

参考内容:

  1. How Taalas “prints” LLM onto a chip?
  2. Taalas Specializes to Extremes for Extraordinary Token Speed
3 个赞

赶紧的,赶紧的,我还等着买白菜价的显卡和内存呢 :doge:

2 个赞

确实有当年那味,如果某大模型真能asic化,必然会有很多卖给个人用,一台NAS内插张asic本地跑模型会有多省

1 个赞

这段话我用理性没看懂,用感性能看懂…

(这难道是 ai 影响人类阅读能力的一种体现?)

应该是这样的:

  • CPU:我这里有各种乐高块,你给我图,我给你一块一块拼出你想要的画
  • GPU:我这里有一帮可以专门挑出各种颜色的乐高高手,你给我图,他们就会把各种乐高色块拼成你想要的画
  • ASIC:我这就有拼好的透明乐高板,你就告诉我你想要将什么颜色涂到哪些乐高块上
1 个赞

GPU通用性会更好.

ASIC 短期成本会更低.

长期成本会更低吧?

长期使用电费都省了那么多

将来模型可能会拉长支持周期,一个长期支持版,会做成芯片,提供一个能用但低价的模型。一个短期支持版,提供一个高性能新特性但昂贵的模型。

类似chatgpt的网页服务,免费版能用不限量的长期模型,订阅用户可以用短期模型。

asic是不是每种模型都要设计一种对应的电路,比如不同参数量的模型?

是的,不过并不需要重头开始设计,应该是类似乐高那种模块的拼接。

具有一定程度通用性的加速器不就是cuda core, npu 之流吗?其实是一回事。矿机也不是专精一种的

长期不好说. 主要是现在ai迭代的速度太快了.

这种固化的模型有可能半年或1年就淘汰了…

期待能每秒画144张4k图片的矿机

我这么说是因为你说短期成本更低,而我不认可。

我的意思是,相较而言,ASIC主要优势在于节约用电,缺点就是不能复用,每换一次模型就要重新采购,因此短期成本肯定是更高的,长期成本相较会更低一点。

不过现在想一下,你的意思应该是对于一个初创公司,没有GPU储备的前提下,采购ASIC比GPU短期成本更低。

与其说是像矿机,倒是更像视频硬解

版本答案的時代終有落幕的一天

CPU → GPU → APU → TPU → LPU
反正一定會出現更多的PU,每個晶片都有各自專精和獨門架構
最後就會變成哪家可以一力降十會,那個零件就會成為時代新寵

不過先被淘汰的大概不是GPU

@Qingwa 比特币是什么?

只要使用 chiplet 技术,再大的模型也可以做出来。所以人人拥有自己的 Agent 在五年内不是梦。

CPU:打印机,想打什么打什么,就是慢一点。

GPU:喷码机,成本高,速度快,不灵活

ASIC:雕板印刷,成本低,速度快,完全没有灵活性。

2 个赞