请用自己的话解释 Transformer 是什么?注意力机制的直觉是怎样的?它为什么能成为大模型的基石?
模型架构
口语版讲法(约2分钟)
- 一句话定义:完全基于注意力机制的序列架构
- 注意力直觉:每个词看所有词,按相关性加权
- 并行化是取代 RNN 的关键,训练效率提升数量级
- 并行 + 可扩展催生 Scaling Law 和大模型
- 埋钉子:Q/K/V 和多头注意力的细节可以展开
Transformer 是一种完全基于注意力机制来处理序列的神经网络架构,2017 年 Google 在《Attention Is All You Need》这篇论文里提出,现在几乎所有主流大模型,GPT、LLaMA、Qwen,底层用的都是它。 它最核心的想法是自注意力机制。直觉上很好理解:一个词的含义要看上下文才能确定,所以在计算每个词的表示时,让它去「看一眼」句子里所有其他的词,相关性高的词就分配更高的权重。举个例子,「苹果发布了新手机」和「我吃了一个苹果」,同样是「苹果」,前一句它会重点关注「发布」「手机」,后一句会重点关注「吃」,于是同一个词在不同句子里得到了不同的理解。这就是注意力在做的事:动态地决定该关注谁。 那它为什么能成为大模型的基石?我认为最关键的是并行化。在 Transformer 之前主流是 RNN,也就是循环神经网络,它必须逐词串行处理,第一个词算完才能算第二个,GPU 再强也只能干等。Transformer 把整句话的注意力计算变成一次大的矩阵乘法,所有词同时算,GPU 的并行算力被完全吃满,训练速度一下提升了几个数量级。正因为训练效率上去了,「用海量数据训练超大参数模型」这件事才从不可行变成可行;后来大家又发现模型越大、数据越多效果越好,也就是 Scaling Law,才有了今天的大模型。另外它对长距离依赖也更友好,任意两个词之间一步直达,不像 RNN 距离越远信息丢得越多。 最后补充一点容易混淆的:Transformer 只是架构,不等于大模型本身,大模型是架构加海量数据加大规模预训练的产物。而且 GPT 其实只用了 Transformer 的解码器部分。至于注意力里 Q、K、V 三个矩阵具体怎么算权重、多头注意力为什么要分成多个头,这些展开还有很多细节,可以往下聊。
关键一句:注意力的直觉是每个词计算表示时都能看到句子里所有词并按相关性加权;并行化是它取代 RNN、成为大模型基石的关键。
面试官可能的追问
- 【概念辨析】很多人把 Transformer 和大模型画等号,你觉得这两个概念是什么关系?GPT 和 BERT 用的 Transformer 一样吗?
- 【追问边界】你说 Transformer 靠并行化取代了 RNN,那注意力机制有没有代价?句子变长的时候,它的计算量会怎么变化?