一、自注意力机制
它之所以被称为“自注意力”,是因为它的查询和键来自同一组元素,即查询和键都是同一序列(如一句话中的词元或同一张图像中的不同patch)的特征,彼此之间进行注意力计算。
二、注意力分数
三、QKV矩阵运算
Q、K、V计算过程是什么?对于输入序列的每个单词,通过计算其Query与所有单词Key的点积得到注意力分数,经Softmax归一化后得到注意力权重,再用这些权重对Value向量进行加权求和,以得到包含丰富上下文信息的新单词表示。