PIDNet: A Real-time Semantic Segmentation Network Inspired by PID Controllers

发布时间 2023-12-18 19:14:38作者: InunI

PIDNet: A Real-time Semantic Segmentation Network Inspired by PID Controllers

* Authors: [[Jiacong Xu]], [[Zixiang Xiong]], [[Shankar P. Bhattacharyya]]


初读印象

comment:: 提出了一种新颖的三分支网络结构:PIDNet 包含三个分支,分别用于解析细节信息、上下文信息和边界信息,并采用边界注意力来指导细节分支和上下文分支的融合。 PIDNet在推理速度和准确性之间实现了最佳权衡,其准确性在 Cityscapes 和 CamVid 数据集上超过了所有推理速度相近的现有模型。

Why

主要是为了提出一个实时的分割网络。
过去的工作:

  • 轻量级解码器和编码器:
    • SwiftNet采用一个低分辨率输入来获取高级语义,另一个高分辨率输入则为其轻量级解码器提供足够的细节。DFANet 通过修改基于深度可分离卷积的 Xception的架构,引入了轻量级骨干网,并减小了输入大小以提高推理速度。ShuffleSeg采用了 ShuffleNet ,将信道洗牌和分组卷积结合起来,作为其骨干网,以降低计算成本。
    • 问题:编码器解码器结构的正向传播和反向传播费时间,不实时;深度可分离卷积在GPU的实现不成熟。
  • 双分支网络架构:
    • 语境依赖性可以通过大感受野提取,而空间细节对于边界划分和小范围物体识别至关重要。为了兼顾这两个方面,BiSeNet 提出了一种双分支网络(TBN)架构,其中包含两个深度不同的分支,分别用于上下文嵌入和细节解析,以及一个特征融合模块(FFM),用于融合上下文和细节信息。DDRNet 引入了双边连接来加强上下文和细节分支之间的信息交换。
    • 问题:直接融合原始的详细语义和低频上下文信息有可能导致物体边界被周围像素过度侵蚀,小物体被相邻的大物体淹没(overshoot)。

How

Pasted image 20230920163110为了缓解overshoot问题,在TBN 上附加了辅助导数分支 (ADB),以便在空间上模拟 PID 控制器,并突出高频语义信息。每个物体内部像素的语义是一致的,只有在相邻物体的边界处才会变得不一致,因此只有在物体边界处语义差值才不为零,而 ADB 的目标就是边界检测。建立了一种新的三分支实时语义分割架构,即比例-积分-派生网络PIDNet。

  • 比例分支(Proportional):比例(P)分支解析并保存高分辨率特征图中的详细信息(细节信息)
  • 积分分支(Integral):汇总局部和全局的上下文信息,以解析长程依赖关系(语义信息)
  • 导数分支(Derivative):提取高频特征,以预测边界区域(边界信息)

损失函数

Pasted image 20230920164703

其中这四个超参数分别设置为 0.4、20、1 和 1,
Pasted image 20230920164716其中Pasted image 20230920164729
分别是边界分割头的输出,第i个像素对c类的GT和预测结果,这个损失函数的大致意思就是,惩罚边界分割头上预测错误的像素。

Pag: Learning High-level Semantics Selectively

Pixel-attention-guided fusion module (Pag)为P分支有选择地学习语义信息,并保证P分支中的细节信息不被淹没。

Pasted image 20230920165446将P 支路和 I 支路特征图中相应像素的向量分别定义为\(\vec{v_p}\)\(\vec{v_i}\),那么 Sigmoid 函数的输出可以表示为
Pasted image 20230920165730

其为这两个像素属于同一类的可能性,如果它很高,就相信该向量属于I分支,否则属于P分支,Pag的输出为:
Pasted image 20230920165820####PAPPM: Fast Aggregation of Contexts
一个类似PPM的结构,减少通道数,增加并行性。

Pasted image 20230920180126

Bag: Balancing the Details and Contexts

Boundary-attention-guided fusion module (Bag):融合细节P和上下文I

Pasted image 20230920180726迫使模型在边界区域更多地信任细节分支,并利用上下文特征来填充其他区域。Pasted image 20230920180917

分别是P,I,D中的像素向量。
Pasted image 20230920181018

light_bag中\(1\times 1\)卷积代替了\(3\times 3\)卷积。

启发

边界分支的损失函数
边界上用细节代替具体语义