GCGP:Global Context and Geometric Priors for Effective Non-Local Self-Attention加入了上下文信息和几何先验的注意力

发布时间 2023-12-18 12:35:17作者: InunI

Global Context and Geometric Priors for Effective Non-Local Self-Attention

* Authors: [[Woo S]]


初读印象

comment:: (GCGP)提出了一个新的关系推理模块,它包含了一个上下文化的对角矩阵和二维相对位置表示。

动机

普通注意力的缺点:

  1. 单独处理输入图像中的每个特征,并在整个输入中执行注意力。因此,在计算元素之间的关系时没有考虑上下文信息。
  2. 位置信息的表示是缺失的,因此不能很好地利用图像中固有的空间相关性。(注意力是没有计算顺序的,特征向量变换位置对它来说完全没有影响)

方法

普通注意力

输入:
Pasted image 20221019185406
经过三个1×1卷积:Pasted image 20221019185430

输出特征维度为\(\hat{C}\)
计算亲和力矩阵\(A\in N\times \hat{N},N=H\times W\)

Pasted image 20221019185534
得到最终输出Pasted image 20221019185737

上下文先验

在注意力计算中融入对角线上下文矩阵\(c\in \hat{C}\times \hat{C}\):

Pasted image 20221019185929其中c为:Pasted image 20221019185940

即对X做全局平均池化、1×1卷积(\(C\to \hat{C}\))、sigmoid,并将其放到矩阵的对角线上。
\(q^T c\)相当于加强\(q^T\)上对应通道的点并屏蔽其他点,其实相当于\(q^T\)的每一行乘没有对角化之前的c。
lALPJxRxTTu9mKLNAanNA-w_1004_425 2

几何先验

在亲和力矩阵计算的过程中加入相对位置先验r:

Pasted image 20221019190538Pastedimage 20221019190553

其中\(R_X\in \frac{C}{2}\times W\times \hat{W},R_Y \in \frac{C}{2}\times H\times\hat{H}\),它们是一维的相对位置信息。W是输出通道为\(\hat{C}\)的1×1卷积,Transpose是将第0维和第1维调换。
\(R_{X,i,j}\)\(R_X\)中第i行第j列的向量,其中每个元素的计算方法如下:

Pasted image 20221019191243其中Pasted image 20221019191416

在一维相对位置信息的计算中,i和j是固定的,(i-j)决定了余弦和正弦函数的计算范围,分母意味在这段范围内的函数中以固定比例采样,那么同一个(i-j),只能采样出一个独一无二的向量。
lALPJxf-y_6WE0vNAh3NBVA_1360_541

最后计算2D相对位置信息
Pasted image 20221019191601先将\(q^T\)reshape成\(W\timesH\times \hat{C}\),然后取出后面两维与\(r_x\)相乘:
Pasted image 20221019192845

lALPJx8ZySsqOoXNAhbNBig_1576_534 1

\(r_y\)同理:
Pasted image 20221019192950\(q^Tr_x\)\(q^Tr_y\)以广播的形式相加最后一维,得到\(q^Tr\inH\times W\times \hat{H}\times \hat{W}\)也就是\(N\times \hat{N}\)

整体架构

Pasted image 20221019204446

其他

使用了多头注意力和对亲和力矩阵使用了dropout。

表现

Pasted image 20221019193511

局限性

对角线上下文矩阵太暴力了,直接把其他通道的信息给屏蔽了。
位置编码的方式太复杂且可解释性不强。

启示

使用了多头注意力,在注意力中嵌入了相对位置编码。