526互联

Dual Attention Network for Scene Segmentation：双线并行的注意力

发布时间 2023-12-18 19:25:00作者: InunI

Dual Attention Network for Scene Segmentation

* Authors: [[Jun Fu]], [[Jing Liu]], [[Haijie Tian]], [[Yong Li]], [[Yongjun Bao]], [[Zhiwei Fang]], [[Hanqing Lu]]

DOI: 10.1109/CVPR.2019.00326

初读印象

comment:: (DANet)提出了一个双注意力网络（空间+通道）来自适应地将局部特征与其全局依赖关系集成。

Why

用卷积来上下文融合有助于捕获不同尺度的对象，但它不能在全局视图中利用对象或事物之间的关系，这对于场景分割也是必不可少的。
用RNN来捕获远程依赖的有效性很大程度上取决于长期学习的记忆结果。

How

在FCN 之上附加了两个并行的注意力模块。一个是空间注意力模块，另一个是通道注意力模块。

What

空间注意力模块

Pasted image 20220927104408

给定特征\(A\in R^{C\times H\times W}\)，分别通过三个卷积形成\(B,C,D\in R^{C\times H\times W}\)。
reshape \(B\)和\(C\)变为\(C\times HW\),\(S=softmax(B^TC)\in R^{HW\times HW}\)。其中S为空间注意力矩阵，\(s_{ij}\)代表j像素对i像素的作用。
\(S=DS^T\),reshape回\(C\times H\times W\)，与A做个像素级的带权重的加法得到E，E中的每个位置的特征是所有位置的特征和原始特征的加权和。完整过程如下（）：
####通道注意力模块

Pasted image 20220927115400

该过程是不经过卷积直接进行计算的(以保持不同通道间的关系)。reshape A to \(R^{C\times HW}\)，\(X=softmax(AA^T)\)。其中S为空间注意力矩阵，\(s_{ij}\)代表j像素对i像素的作用。
\(X=X^TA\),将Xreshape为\(C\times H\times W\)，加权每个元素相加,每个通道的最终特征是所有通道的特征和原始特征的加权和，.完整过程如下：
####网络总体

Pasted image 20220927121435

Conclusion

很简单地用两个不同方向的注意力模块结合了一下。

segmentation注意力attention network

pyramid parsing network scene

convolutional segmentation rethinking attention

segmentation criss-cross attention semantic

segmentation attentional semantic network

heterogeneous attention network graph

segmentation注意力asymmetric non-local

self-attention注意力attention机制

high-resolution segmentation注意力deformable

双向注意力point-wise attention