transformer补充细节-526互联

transformer补充细节

transformer补充细节

https://juejin.cn/post/7152002993204756487

注意力机制细节

第一步：计算自我注意力的第一步是根据编码器的每个输入向量（每个词的嵌入）创建三个向量。

创建一个Query向量、一个Key向量和一个Value向量。

embedding和编码器输入/输出向量的维数是512, 一般情况下设置多头数为8，所以每个向量的维数是64 （工程上采用创建一个512的整体,切分再合并操作）

第二步：计算一个分数（score）

比如我们要计算本例中第一个词 “Thinking”的自我注意力。我们需要对输入句子中的每个词与这个词进行评分。分数决定了当我们在某个位置对一个词进行编码时，要对输入句子的其他部分给予多大的关注。

分数的计算方法是将查询向量 Q 与我们要打分的各个单词的关键向量 K 进行点积。因此，如果我们正在处理1号位置的单词的自注意时，第一个分数将是q1和k1的点积。第二个分数将是q1和k2的点积。

第三和第四步是将分数除以8

8的来源是关键向量维度的平方根，也就是64。这使得拥有更稳定的梯度。

然后将结果通过softmax操作。Softmax将分数归一化，所有分值，加起来是1。这个softmax分数决定了每个词在这个位置的表达量。

第五步将每个Value向量乘以softmax分数

第六步是对加权向量进行求和

为什么对点积注意力进行缩放

样本维度$d_k $越大，点积增长的幅度越大，会将Softmax函数推入梯度极小的区域，从而使训练难度增大。

构建缩放点积注意力，对$ QK^T $的点积乘以 1/np.sqt(dk) ，进行点积的缩放

多头带来的好处

它扩大了模型对不同位置的关注能力
给了注意层多个 “表征子空间(representation subspaces)”

数据流

训练时数据流

1、编码器：输入：输入文本包含文本编码和文本位置编码

2、编码器：输出：编码器进过6层堆叠处理，输出 K V 编码表示

3、解码器：输入：目标序列文本包含文本编码和文本位置编码

4、解码器：自注意力输入：输入来个编码器的 K V 和本身生成的 Q

5、解码器：输出：输出层将其转换为词的概率，生成最终的输出序列。

Transformer的目标是通过同时使用输入序列和目标序列来学习如何输出目标序列。

推理时数据流

1、编码器：输入：输入文本包含文本编码和文本位置编码

2、编码器：输出：编码器进过6层堆叠处理，输出 K V 编码表示

3、解码器：输入：不使用目标序列，使用一个只包含句子起始token的空序列，带文字位置编码

4、解码器：自注意力输入：输入来个编码器的 K V 和本身生成的 Q

5、解码器：输出：输出层将其转换为词的概率，生成的输出序列。

6、解码器：输入：将输出序列的最后一个词作为预测词。这个词现在填充到我们的解码器输入序列的第二个位置，其中包含一个句子起始token和第一个词。

7、重复3，4，5，6 过程。

解码器中注意力的不同

decoder的QKV的Q是自己提供的，K和V都是来自encoder。从流程上encoder就是为了提供K,V

在decoder的输入中，K和V都是从encoder最后一个堆叠模块中输出得到。

Decoder的Q向量是由Decoder自身的前一个时间步的隐藏状态计算得到的。在Decoder中，每个位置的Q向量会与Encoder的所有位置的K向量进行注意力计算，用来捕捉输入序列中不同位置之间的依赖关系。

Decoder的第一个多头注意力机制和普通注意力机制不同

Decoder 的第一个多头注意力机制和普通注意力机制不同，需要确保模型只能依赖于已经生成的前面的单词，而不能直接访问后面的单词。这个步骤就是通过掩码（隐藏）未来的单词来实现的。

我们需要确保模型只能依赖于已经生成的前面的单词，而不能直接访问后面的单词。这个步骤就是通过掩码（隐藏）未来的单词来实现的。

还有一个作用：让padding (不够长的补0) 部分不参与attention操作。

带掩码的注意力机制

每个批次输入序列长度是不一样的，因此我们需要对不同长度的序列进行对齐，具体来说，就是给在较短的序列后面填充 0，为了使得decoder看不见未来的信息，对于一个序列，在 time_step 为 t 的时刻，我们的解码输出应该只能依赖于 t 时刻之前的输出，而不能依赖 t 时刻之后的输出。因此我们通过增加Mask的方法，把 t 时刻之后的信息给隐藏起来。

实际操作时候：在计算注意力得分时，我们会加上负无穷大，这将使得在下一阶段softmax函数会将这些负数变为0。这种技术确保了模型在没有访问权限的情况下无法访问下一个单词。