Segformer: 高效自注意力/MIT encoder-526互联

NIPS21 SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers

网络架构：轻量化decoder，各层只经过MLP和上采样到同一分辨率；主要依靠较重的encoer来获取特征，作者认为较大的感受野是提升性能的关键；encoder由四层transformer block组成，输入特征分辨率为1/4.

transformer block包含patch merging+N组（self-attention+Mix-feed-forward）

实验

感受野可视化