Dual Attention Network for Scene Segmentation:双线并行的注意力

发布时间 2023-12-18 19:25:00作者: InunI

Dual Attention Network for Scene Segmentation

* Authors: [[Jun Fu]], [[Jing Liu]], [[Haijie Tian]], [[Yong Li]], [[Yongjun Bao]], [[Zhiwei Fang]], [[Hanqing Lu]]


初读印象

comment:: (DANet)提出了一个双注意力网络(空间+通道)来自适应地将局部特征与其全局依赖关系集成。

Why

  • 用卷积来上下文融合有助于捕获不同尺度的对象,但它不能在全局视图中利用对象或事物之间的关系,这对于场景分割也是必不可少的。
  • 用RNN来捕获远程依赖的有效性很大程度上取决于长期学习的记忆结果。

How

在FCN 之上附加了两个并行的注意力模块。一个是空间注意力模块,另一个是通道注意力模块。

What

空间注意力模块

Pasted image 20220927104408

  1. 给定特征\(A\in R^{C\times H\times W}\),分别通过三个卷积形成\(B,C,D\in R^{C\times H\times W}\)
  2. reshape \(B\)\(C\)变为\(C\times HW\),\(S=softmax(B^TC)\in R^{HW\times HW}\)。其中S为空间注意力矩阵,\(s_{ij}\)代表j像素对i像素的作用。
  3. \(S=DS^T\),reshape回\(C\times H\times W\),与A做个像素级的带权重的加法得到E,E中的每个位置的特征是所有位置的特征和原始特征的加权和。完整过程如下():
    Pasted image 20220927110404####通道注意力模块

Pasted image 20220927115400

  1. 该过程是不经过卷积直接进行计算的(以保持不同通道间的关系)。reshape A to \(R^{C\times HW}\)\(X=softmax(AA^T)\)。其中S为空间注意力矩阵,\(s_{ij}\)代表j像素对i像素的作用。
  2. \(X=X^TA\),将Xreshape为\(C\times H\times W\),加权每个元素相加,每个通道的最终特征是所有通道的特征和原始特征的加权和,.完整过程如下:
    Pasted image 20220927121340####网络总体

Pasted image 20220927121435

Conclusion

很简单地用两个不同方向的注意力模块结合了一下。