Pyramid Vision Transformer | 2023人工智能大会青年科学家论坛

王文海香港中文大学

首次将多层次金字塔结构引入视觉变化网络
研究动机
- | 方法 | 感受野，模型权重->表征能力 | 结构输出->适用面 |
  | ---- | -------------------------- | ---------------- |
  | CNN | 局部固定 | 金字塔多尺度 |
  | ViT | 全局自适应 | 柱状单尺度 |
  | PVT | 全局自适应 | 金字塔多尺度 |
关键点
- 金字塔结构：分辨率由大到小，特征维度从小到大
- 四段式结构：每个阶段存在独立patch 和 transformer
- 空间压缩注意力机制：解决分辨率高导致的资源消耗大的问题
如何控制每个阶段分辨率大小
- \(H\times W\times C\to H/P\times W/P\times CP^2\to H/P\times W/P\times C'\to\mathrm{Decoder}\)
如何减小高分辨率特征图上注意力算子的计算消耗
- 空间压缩注意力层
- 处理后复杂度仅有原先复杂度的\(1/R_i^2\)
如何搭建模型结构
- 参考ResNet模型搭建规则
  - 随层数加深特征图分辨率减小，维度加大
  - 主要计算量集中在第三层
优点汇总
- 可以输出多尺度高分辨率特征图
- 结合纯transformer的解码器实现检测和分割

2023-8-24 Pyramid Vision Transformer 2023人工智能大会青年科学家论坛