PIDNet: A Real-time Semantic Segmentation Network Inspired by PID Controllers

* Authors: [[Jiacong Xu]], [[Zixiang Xiong]], [[Shankar P. Bhattacharyya]]

初读印象

comment:: 提出了一种新颖的三分支网络结构：PIDNet 包含三个分支，分别用于解析细节信息、上下文信息和边界信息，并采用边界注意力来指导细节分支和上下文分支的融合。 PIDNet在推理速度和准确性之间实现了最佳权衡，其准确性在 Cityscapes 和 CamVid 数据集上超过了所有推理速度相近的现有模型。

Why

主要是为了提出一个实时的分割网络。
过去的工作：

轻量级解码器和编码器：
- SwiftNet采用一个低分辨率输入来获取高级语义，另一个高分辨率输入则为其轻量级解码器提供足够的细节。DFANet 通过修改基于深度可分离卷积的 Xception的架构，引入了轻量级骨干网，并减小了输入大小以提高推理速度。ShuffleSeg采用了 ShuffleNet ，将信道洗牌和分组卷积结合起来，作为其骨干网，以降低计算成本。
- 问题：编码器解码器结构的正向传播和反向传播费时间，不实时；深度可分离卷积在GPU的实现不成熟。
双分支网络架构：
- 语境依赖性可以通过大感受野提取，而空间细节对于边界划分和小范围物体识别至关重要。为了兼顾这两个方面，BiSeNet 提出了一种双分支网络（TBN）架构，其中包含两个深度不同的分支，分别用于上下文嵌入和细节解析，以及一个特征融合模块（FFM），用于融合上下文和细节信息。DDRNet 引入了双边连接来加强上下文和细节分支之间的信息交换。
- 问题：直接融合原始的详细语义和低频上下文信息有可能导致物体边界被周围像素过度侵蚀，小物体被相邻的大物体淹没（overshoot)。

How

Pasted image 20230920163110 为了缓解overshoot问题，在TBN 上附加了辅助导数分支 (ADB)，以便在空间上模拟 PID 控制器，并突出高频语义信息。每个物体内部像素的语义是一致的，只有在相邻物体的边界处才会变得不一致，因此只有在物体边界处语义差值才不为零，而 ADB 的目标就是边界检测。建立了一种新的三分支实时语义分割架构，即比例-积分-派生网络PIDNet。