CARAFE: Content-Aware ReAssembly of FEatures

* Authors: [[Jiaqi Wang]], [[Kai Chen]], [[Rui Xu]], [[Ziwei Liu]], [[Chen Change Loy]], [[Dahua Lin]]

DOI: 10.1109/ICCV.2019.00310
Local library

初读印象

comment:: (CARAFE)提出了一种新的上采样方法。

动机

特征上采样是深度神经网络中最基本的操作之一。
过去方法：

最近邻和双线性插值：仅考虑了亚像素邻域，未能捕捉密集预测任务所需的丰富语义信息。
反卷积：反卷积算子在整幅图像中应用相同的核，而不考虑内容，这限制了其应对局部变异的能力。参数量和计算量大。

方法

提出了内容感知的特征重组CARAFE，有以下优点

大感受野：不同于以往仅利用亚像素邻域的工作(例如双线性插值)，CARAFE可以在较大的感受野内聚合上下文信息。
内容感知处理：CARAFE不对所有样本使用固定的内核(例如反卷积)，而是支持特定于实例的内容感知处理，从而实时生成自适应的内核。
轻量、快速计算。

内容感知的特征重组

Pasted image 20230113171311

给定一个大小为\(C × H × W\)的特征图\(X\)和一个上采样比率\(σ\) (假设\(σ\)是一个整数)，CARAFE将产生一个新的大小为\(C × σH × σ W\)的特征图\(X'\)。
对于输出X′的任意目标位置\(l'=(i', j')\)，在输入\(X\)处有相应的源位置\(l = ( i , j)\)，其中\(i = [i'/ σ]，j = [j'/ σ]\)。用\(N(X_l, k)\)来代指\(X\)中以位置\(l\)为中心的\(k×k\)子区域。

根据每个目标位置的内容预测一个重组核：预测核模块\(ψ\)根据\(X_l\)的近邻预测每个位置\(l'\)的位置核\(W_{l'}\)。
用预测的核对特征进行重组:\(φ\)是内容感知的重组模块，它将\(X_l\)的邻居与内核\(W_{l'}\)进行重组。

Kernel Prediction Module

目标：\(X\)中一个位置对应\(X'\)中\(σ^2\)个位置，每个目标位置要一个\(k_{up}\times k_{up}\)大小的核，所以该模块最终生成的核大小为\(C_{up}*H \times W\),其中\(C_{up}=σ^2{k_{up}}^2\)。
有三个部分：

通道压缩器减少了输入特征图的通道。
内容编码器将压缩后的特征图作为输入，对内容进行编码，生成重组核。
核正规化器对每个重组核应用一个softmax函数。

Channel Compressor

使用\(1\times 1\)卷积将维度压缩到\(C_m\)

Content Encoder

使用输入通道为\(C_m\)，输出通道为\(C_{up}\)，大小为\(k_{encoder}\times k_{encoder}\)的卷积核，经验公式\(k_{encoder}=k_{up}-2\)。得到的特征图的大小为\(C_{up}\times H\times W\)

Kernel Normalizer

Pasted image 20230113172542

\(C_{up}\)个通道分为\(σ^2\)个块，块有\(k_{up}^2\)层。将这\(σ^2\)个块进行重排列，得到\(σH\times σW\)大小的特征图，通道数为\(k_{up}^2\)，位置\(l'=(i',j')\)上的\(k_{up}^2\)个数就是对应\(X'\)中\(l'\)位置的重组核。
对每一个\(k_{up}\times k_{up}\)大小的重组核，使用softmax对其正则化，归一化步骤迫使核值之和为1，这是一个跨越局部区域的软选择。