可视化的 LLM,帮助理解大语言模型的工作机制

这个就有点厉害了,里面还有 GPT-2、GPT-3

该内容介绍了一个名为nano-gpt的小型大型语言模型,拥有85,000个参数。模型的任务是将六个字母序列按字母顺序排序,如将“CBABBC”排序成“ABBBCC”。每个字母被视为一个token,并通过索引转换成数字输入模型,数字经过嵌入层和多个Transformer层处理,最终预测序列中下一个token的概率。该过程通过3D动画进行可视化展示,帮助理解模型的工作机制。

但我还是看不太懂。

Screen-20250905111658@2x.png

Screen-20250905111647@2x.png