Asymmetric Non-Local Neural Networks for Semantic Segmentation 非对称注意力

发布时间 2023-12-18 19:14:38作者: InunI

Asymmetric Non-Local Neural Networks for Semantic Segmentation

* Authors: [[Zhen Zhu]], [[Mengdu Xu]], [[Song Bai]], [[Tengteng Huang]], [[Xiang Bai]]


初读印象

comment:: (A Nonlocal)提出非对称非本地神经网络,包含非对称金字塔非本地块(APNB)和非对称融合非本地块(AFNB)。APNB可以减少运算量。AFNB融合不同级别的特征。

Why

卷积无法捕捉长距离依赖。nonlocal耗费计算资源。

What

只要key分支和value分支的尺寸一样,输出尺寸就不会变化。所以只要在key分支和value分支中只采样几个重要的点,就能在不牺牲性能的前提下节省计算资源。
Pasted image 20220923103037###How

动机

减少key向量和value向量的数量,就能大大减少矩阵运算的计算量。
前:
Pasted image 20220923133950

后:
Pasted image 20220923134001减少这两个向量的数量,可以看作只从原特征图中采样了几个重要的点。#### 解决方法

Pasted image 20220923134903

原注意力机制产生的三个张量:

Pasted image 20220923134428使用两个采样模块对其进行采样,使\(\theta_P\)\(\gamma_P\)都是\(\tildeC×S\)的矩阵。

Pasted image 20220923134807

产生相似度矩阵(N×S):
Pasted image 20220923135027\(V_P\)正则化后,产生注意力矩阵:Pasted image 20220923135624

最终输出是\(O_P\)经过1×1卷积再与输入拼接:
Pasted image 20220923145205####Asymmetric Pyramid Non-local Block
将向量数量减少到S的确显著减少了计算量,但是如何选择S的大小?是否会因为信息丢失导致性能下降?为了解决这些问题,引入金字塔模块以增强全局表示。

Pasted image 20220923140229

\(\theta\)\(\gamma\)后多个平均池化层,每个池化层的输出尺寸是\(n×n\),则最后得到的S大小为:
Pasted image 20220923141051Pastedimage 20220923145716
用池化得到的向量进行注意力运算。

Asymmetric Fusion Non-local Block

AFNB需要输入两个图:高层特征图和底层特征图。

lALPJxDjzTuJESvNBAzNBmo_1642_1036

同样,\(O_F\)也要经过经过1×1卷积再与输入拼接。

Pasted image 20220923150212####网络总体架构

Pasted image 20220923150301

backbone:ResNet-101,最后两个stage不下采样并使用膨胀卷积。
使用AFNB融合stage4和stage5的输出,然后将其输入至APNB计算注意力。

Experiment

网络细节

辅助损失:stage4后有一个分支损失函数(\(\lambda=0.4\))
Pasted image 20220923152245

学习率策略:SGD,poly
初始学习率:0.01 for Cityscapes and PASCAL Context and 0.02 for ADE20K
数据增强:随机缩放(0.5-2.0),随机翻转,随机亮度。
batchsize:8 in Cityscapes experiments and 16 in the other datasets.

效率比较

单个模块的效率比较

Pasted image 20220923154651整个网络的效率比较,尽管推理时间和参数数量大于DenseAspp,但GPU存储器职业显然较小。Pasted image 20220923154844

性能比较

Pasted image 20220923155306####消融实验

  • 在FCN-like ResNet-101上增加各种模块。

Pasted image 20220923155426

Conclusion

减少了non-local中key和value向量的数量以减少运算量。同时又使用了金字塔池化结构来弥补损失的性能。在此基础上,还以注意力的形式融合了resnet中stage4和stage5之间的多尺度信息。
如果说EMANet是故事讲的有理有据,这篇就是缝合的天衣无缝,在某种程度上,是更适合模仿的论文。