一句话先切成词块。每个词块带着位置,一起进入模型。
先别急着看公式:把 Transformer 想成一个会同时读整句话的“理解工作台”。
传统顺序模型像一位读者从左到右扫过去;Transformer 更像把整句话摊开,让每个词同时和其他词交流。
一次只看一个词,前面的信息要一步步传到后面。
所有词块同时被处理,关系用注意力来连接。
“这句话里,哪些词和我最有关?”
注意力的结果,是让每个词变成“带上下文的新表示”。
一个头可能关注主谓关系,另一个头关注代词指代,还有头关注时间顺序或语义线索。
谁在做动作,动作落到哪里。
“它”“这个”到底指向谁。
先发生什么,后发生什么。
哪些词一起决定真正意思。
输入先变成向量并加上位置;注意力负责找关系;前馈网络负责把每个词的信息再加工。这样的块会重复堆很多层。
整句话同时处理,速度快,也方便看到全局。
每个词决定该从哪些词那里借信息。
一层层重复,让表示从字面走向语义。