什么是 Transformer 架构

一句话先切成词块。每个词块带着位置，一起进入模型。

先别急着看公式：把 Transformer 想成一个会同时读整句话的“理解工作台”。

Transformer 不排队读，它让所有词块同时上桌。

传统顺序模型像一位读者从左到右扫过去；Transformer 更像把整句话摊开，让每个词同时和其他词交流。

一次只看一个词，前面的信息要一步步传到后面。

小猫坐在垫子

所有词块同时被处理，关系用注意力来连接。

小猫坐在垫子上。

粗光束表示“更该看谁”。模型不是平均看所有词，而是给关系分配权重。

“这句话里，哪些词和我最有关？”

Q 我正在寻找什么线索？

K 我能提供什么线索？

V 如果被关注，我贡献什么信息？

注意力的结果，是让每个词变成“带上下文的新表示”。

一个头可能关注主谓关系，另一个头关注代词指代，还有头关注时间顺序或语义线索。

谁在做动作，动作落到哪里。

“它”“这个”到底指向谁。

先发生什么，后发生什么。

哪些词一起决定真正意思。

输入先变成向量并加上位置；注意力负责找关系；前馈网络负责把每个词的信息再加工。这样的块会重复堆很多层。

输入词块 文字切成可计算的小单位

向量 + 位置 词义和顺序一起进入模型

注意力层 让词块互相交换线索

前馈网络 逐个词块做深加工

输出表示 带上下文的新词块表示

01

整句话同时处理，速度快，也方便看到全局。

02

每个词决定该从哪些词那里借信息。

03

一层层重复，让表示从字面走向语义。

Transformer 的本质：让每个词带着上下文，重新理解自己。