CARAFE: Content-Aware ReAssembly of FEatures 可学习的上采样

发布时间 2023-12-18 19:19:49作者: InunI

CARAFE: Content-Aware ReAssembly of FEatures

* Authors: [[Jiaqi Wang]], [[Kai Chen]], [[Rui Xu]], [[Ziwei Liu]], [[Chen Change Loy]], [[Dahua Lin]]


初读印象

comment:: (CARAFE)提出了一种新的上采样方法。

动机

特征上采样是深度神经网络中最基本的操作之一。
过去方法:

  1. 最近邻和双线性插值:仅考虑了亚像素邻域,未能捕捉密集预测任务所需的丰富语义信息。
  2. 反卷积:反卷积算子在整幅图像中应用相同的核,而不考虑内容,这限制了其应对局部变异的能力。参数量和计算量大。

方法

提出了内容感知的特征重组CARAFE,有以下优点

  1. 大感受野:不同于以往仅利用亚像素邻域的工作(例如双线性插值),CARAFE可以在较大的感受野内聚合上下文信息。
  2. 内容感知处理:CARAFE不对所有样本使用固定的内核(例如反卷积),而是支持特定于实例的内容感知处理,从而实时生成自适应的内核。
  3. 轻量、快速计算。

内容感知的特征重组

Pasted image 20230113171311

给定一个大小为\(C × H × W\)的特征图\(X\)和一个上采样比率\(σ\) (假设\(σ\)是一个整数),CARAFE将产生一个新的大小为\(C × σH × σ W\)的特征图\(X'\)
对于输出X′的任意目标位置\(l'=(i', j')\),在输入\(X\)处有相应的源位置\(l = ( i , j)\),其中\(i = [i'/ σ],j = [j'/ σ]\)。用\(N(X_l, k)\)来代指\(X\)中以位置\(l\)为中心的\(k×k\)子区域。

  1. 根据每个目标位置的内容预测一个重组核:预测核模块\(ψ\)根据\(X_l\)的近邻预测每个位置\(l'\)的位置核\(W_{l'}\)
    Pasted image 20230113160357

  2. 用预测的核对特征进行重组:\(φ\)是内容感知的重组模块,它将\(X_l\)的邻居与内核\(W_{l'}\)进行重组。
    Pasted image 20230113160513

Kernel Prediction Module

目标:\(X\)中一个位置对应\(X'\)\(σ^2\)个位置,每个目标位置要一个\(k_{up}\times k_{up}\)大小的核,所以该模块最终生成的核大小为\(C_{up}*H \times W\),其中\(C_{up}=σ^2{k_{up}}^2\)
有三个部分:

  1. 通道压缩器减少了输入特征图的通道。
  2. 内容编码器将压缩后的特征图作为输入,对内容进行编码,生成重组核。
  3. 核正规化器对每个重组核应用一个softmax函数。
Channel Compressor

使用\(1\times 1\)卷积将维度压缩到\(C_m\)

Content Encoder

使用输入通道为\(C_m\),输出通道为\(C_{up}\),大小为\(k_{encoder}\times k_{encoder}\)的卷积核,经验公式\(k_{encoder}=k_{up}-2\)。得到的特征图的大小为\(C_{up}\times H\times W\)

Kernel Normalizer

Pasted image 20230113172542

\(C_{up}\)个通道分为\(σ^2\)个块,块有\(k_{up}^2\)层。将这\(σ^2\)个块进行重排列,得到\(σH\times σW\)大小的特征图,通道数为\(k_{up}^2\),位置\(l'=(i',j')\)上的\(k_{up}^2\)个数就是对应\(X'\)\(l'\)位置的重组核。
对每一个\(k_{up}\times k_{up}\)大小的重组核,使用softmax对其正则化,归一化步骤迫使核值之和为1,这是一个跨越局部区域的软选择。

Content-aware Reassembly Module

4f7432e9787d36f362891086fd6e89a

\(X'\)中每个点使用相应的重组核进行权重聚合
Pasted image 20230113180407

启发

带权重的上采样,还展示了在目标内容不变的情况下,如何生成不同的权重以产生不同的值。