Pyramid Scene Parsing Network

* Authors: [[Hengshuang Zhao]], [[Jianping Shi]], [[Xiaojuan Qi]], [[Xiaogang Wang]], [[Jiaya Jia]]

DOI: 10.1109/CVPR.2017.660
Local library

初读印象

comment:: (PspNet)用金字塔池化模块和金字塔场景解析([[cv不同方向]])网络来聚合不同层的上下文以利用全局上下文信息。

Why

提出一种聚合不同区域的上下文以利用全局上下文信息以产生pixel-wise预测的框架。

复杂多样的场景下需要解决的问题：

语境不符：语境下不能出现错误的词汇（车不应出现在河上）
类别混淆：同一对象不能预测为不同的相似类别（一个对象同时预测为建筑和摩天大厦）
类别不显眼：太小的类别容易被忽略。太大的类别容易超出感受野导致非连续预测。

过去的方法：

把全连接层换成卷积层(FCN等)
使用膨胀卷积或带有反卷积的[[coarse-to-fine]]扩大感受野
使用CRF来调整语义分割结果
用带FCN的全局平均池化能够加强语义分割的结果，但是在复杂数据集上不适用。

What

用金字塔池化模块提取多尺寸的局部上下文并融合为全局场景先验，

How

Pasted image 20220808233234

金字塔池化模块：融合四种来自不同金字塔规模的特征(pdf) 得到全局先验（比全局池化更有代表性）
- 经过CNN得到的feature map，每层将原始输入分成不同子区域（区域大小可变，汇聚层大小根据区域大小改变，论文中使用如下配置），子区域做平均池化。
  1. 全局池：最粗糙，大小为生成（1×1×N）输出
  2. 剩下几层分别输出（2×2×N)（3×3×N)（6×6×N)
- 对每层的结果分别做（1×1×1）的卷积并用双线性插值上采样，所有结果与CNN得到的feature做拼接。
金字塔场景解析网络 (PSPNet)
1. 预训练的ResNet（使用膨胀卷积），得到原图\(\frac{1}{8}\)大小的feature map。
2. 用金字塔池化模块得到全局先验并与（1）中得到的feature map拼接。
3. 经过卷积层、上采样得到预测结果。
实现细节
- “poly”学习率：“Inspired by [4], we use the “poly” learning rate policy where current learning rate equals to the base one multiplying (1 − iter maxiter )power.” (Zhao 等。, 2017, p. 5) 学习率
- 动量和权重衰退“Momentum and weight decay are set to 0.9 and 0.0001 respectively.” (Zhao 等。, 2017, p. 5) (pdf)
- 数据增强：镜像，缩放，旋转，高斯模糊
- 使用辅助损失函数训练
消融实验的结论：
- 平均池化表现优于最大池化
- 金字塔池化由于全局池化
- 池化后有卷积优于没有卷积
- 辅助损失函数为0.4时效果最好
- resnet越深效果越好