A Deformable Attention Network for High-Resolution Remote Sensing Images Semantic Segmentation

* Authors: [[Renxiang Zuo]], [[Guangyun Zhang]], [[Rongting Zhang]], [[Xiuping Jia]]

DOI: 10.1109/TGRS.2021.3119537

初读印象

comment:: （MDANet）提出了可变形注意力，结合了稀疏空间采样策略和长程关系建模能力。

动机

高分辨率遥感图像的特点：

由于成像特点，它们往往呈现出冗余和噪声的地物细节。
HRRS图像中的多个地物由于类内方差高(例如,低矮植被和树木)、类间可分性低(例如,建筑)而难以区分。
多地物阴影和多尺度现象增加了空间扰动的多样性。
人类视觉系统human visual system (HVS)只降注意力分配给图像中感兴趣的区域。一个简单的理解是，HVS将计算资源分配给最有价值和信息的特征区域。例如，当快速扫描整幅HRRS图像时，人类自动观察整体空间结构，关注任务相关区域的最有效信息，抑制其他冗余信息。在HVS的指导下，最近的DL模型对HVS进行编码，允许网络通过成对交互灵活地将有限的计算资源控制到与任务最相关的信息，而不管空间距离如何。
自注意力机制通过对输入信号进行两两点积来学习权重，然后用相应的权重对所有信号求和。然而，自注意力机制存在两个局限性。
1. 内存限制：注意力机制的原理是获取任意两个像素之间的相似度矩阵。然而，语义分割任务需要在像素级别进行密集预测。不可接受的\(O(n^2)\)内存和计算复杂度抑制了在HRRS图像上直接建模全局关系。
2. 局部不敏感：对于HRRS图像，很自然地，相邻的空间像素通常是高度相关的，大部分依赖关系与像素的附近邻域有关。然而，自注意力对局部上下文不敏感，并且可能由于加权和操作而分散注意力权重。该现象导致感兴趣的范围超出了物体的边界，带来了嘈杂的注意力权重。因此，有效地结合全局和局部信息可能更有效。
特征提取存在较为普遍的多尺度现象。多尺度现象概括了来自多个层次的对象和特征的尺度显著变化。不同的物体在不同类别之间和相同类别之间以各种尺度和不规则形状奇特地呈现。此外，冗余的物体细节(例如,建筑物阴影和树枝)导致复杂的边界。具有大尺度变化的复杂物体的多尺度现象可能导致仅依靠单一大小的固定感受野来区分各种目标物体的挑战。具体来说，过大的感受野会引入大量无关信息，且对小物体不可见。相比之下，过小的感受野会忽略像素之间的全局关系。因此，需要捕获多尺度表示，以实现准确和鲁棒的视觉识别。

方法

可变形空间注意力

提出了一个新的模块，使网络能够聚焦于任意参考像素周围的一组高度相关的小像素。新模块背后的直觉类似于空间自相关的原理，即假设距离较近的像素比距离较远的像素更相似。通过学习目标像素附近像素的特征，来加强目标像素的上下文表达能力。

Pasted image 20230212155512 模块的输入输出尺寸一致，DAM可以嵌入在任意网络层。#### 空间采样部分
为每个像素计算K个带偏移量的近邻。
像素\(p_q\)处于位置\((x,y)\)，有内容\(p_q(x,y)\in R^{1\times 1\times C}\)。每个像素的偏移\((\Delta p_x, \Delta p_y)\)通过输出通道为2的\(1\times 1\)卷积层得到。

Pasted image 20230212150228

对于该像素的k个近邻，则用k个\(1\times 1\)卷积产生k个\((\Delta p_x, \Delta p_y)\)，其集合\((\Delta P_x, \Delta P_y)=(p_q(x,y)w^k _x,p_q(x,y)w^k _y)^K _{k=1}\)，第k个\((w^k _x, w^k _y)\)产生第k组偏移量。
通过偏移量获得不规则采样点（以其中一个为例）
由于偏移量为小数，因此通过非线性插值获得具体值。其中\((x_k , y_k)\)表示任意位置，\(τ\)枚举输入特征图中\(p_q\)附近的所有整数空间位置团，线性插值核G( · , ·)在x和y方向上进行分解。
然后，将k个相邻采样像素进行拼接，生成对应的采样特征图\(S∈R^{K × C。}\)
空间采样模块可以自动适应对象的几何变化，并对每个像素的重要局部结构进行编码。然而，单独的1 × 1 × C卷积不考虑相邻像素之间的信息交互，得到只对输入敏感的二维空间偏移。为此，引入注意力模块来建模参考像素与对应采样像素之间的相互作用。

空间分布函数

二维空间采样模块提取的像素包含更多关于各种几何变换的信息。此外，还集成了空间注意力模块来提取和表达参考像素和采样像素之间的依赖关系。
将原像素\(p_q\)转换为Q，将采样得到的像素\(p_k\)转换为K和V，得到相容性矩阵
Pasted image 20230212154315 ####细粒度融合
为了有选择地聚合上下文并在全局视图中保留更多的语义信息，我们通过将所有采样像素\(p_v\)与相应的注意力权重\(A_{qk}\)相加来提取上下文信息。最后，将上下文信息与原始参考像素相结合，保留一定的初始特征。