AI 架构直觉课
00:00 / 01:20

什么是 Transformer 架构

一句话先切成词块。每个词块带着位置,一起进入模型。

先别急着看公式:把 Transformer 想成一个会同时读整句话的“理解工作台”。

Transformer reading workshop illustration
第一层直觉
00:10 / 01:20

Transformer 不排队读,它让所有词块同时上桌。

传统顺序模型像一位读者从左到右扫过去;Transformer 更像把整句话摊开,让每个词同时和其他词交流。

顺序阅读

一次只看一个词,前面的信息要一步步传到后面。

并行阅读

所有词块同时被处理,关系用注意力来连接。

核心机制
00:22 / 01:20
Self-attention beams between tokens
粗光束表示“更该看谁”。模型不是平均看所有词,而是给关系分配权重。

Self-Attention:每个词都问一句话。

“这句话里,哪些词和我最有关?”

Q 我正在寻找什么线索?
K 我能提供什么线索?
V 如果被关注,我贡献什么信息?

注意力的结果,是让每个词变成“带上下文的新表示”。

多头注意力
00:37 / 01:20

Multi-Head:不是一束灯,是几束灯从不同角度看。

一个头可能关注主谓关系,另一个头关注代词指代,还有头关注时间顺序或语义线索。

语法关系

谁在做动作,动作落到哪里。

指代关系

“它”“这个”到底指向谁。

时间顺序

先发生什么,后发生什么。

语义线索

哪些词一起决定真正意思。

架构拼装
00:51 / 01:20

一个 Transformer Block,就是“看关系 + 整理信息”的小工厂。

输入先变成向量并加上位置;注意力负责找关系;前馈网络负责把每个词的信息再加工。这样的块会重复堆很多层。

Transformer architecture pipeline
输入词块 文字切成可计算的小单位
向量 + 位置 词义和顺序一起进入模型
注意力层 让词块互相交换线索
前馈网络 逐个词块做深加工
输出表示 带上下文的新词块表示
一句话总结
01:06 / 01:20

记住三个词,就抓住了 Transformer 的骨架。

01

并行

整句话同时处理,速度快,也方便看到全局。

02

注意力

每个词决定该从哪些词那里借信息。

03

堆叠

一层层重复,让表示从字面走向语义。

Transformer 的本质:让每个词带着上下文,重新理解自己。