Adaptive Sparse Convolutional Networks with Global Context Enhancement for Faster Object Detection on Drone Images

* Authors: [[Bowei Du]], [[Yecheng Huang]], [[Jiaxin Chen]], [[Di Huang]]

初读印象

comment:: 提出了一种新型全局上下文增强自适应稀疏卷积网络（CEASC）。首先开发了一个上下文增强组归一化层（CE-GN），用全局上下文统计取代基于稀疏采样特征的统计，然后设计了一种自适应多层掩码策略，在不同尺度上生成最佳掩码比，以实现紧凑的前景覆盖，从而提高了准确性和效率。

Why

现有的研究热衷于设计复杂的模型，以在高分辨率无人机图像上达到微小目标的高精度，这在计算上很不划算的。
无人机配备的硬件往往受到资源限制，这对轻量级部署模型提出了快速推理和低延迟的迫切需求。

过去解决方案：

稀疏卷积：通过可学习Mask仅在稀疏采样的区域或通道上操作卷积来限制计算。但其结果在很大程度上取决于有意义区域的选择，无人机图像中，物体尺寸小，不足的mask会导致在背景上浪费计算资源。

What

上下文加强的稀疏卷积

稀疏卷积

给定 FPN 第 i 层的特征图 \(X_i ∈ R^{B×C×H×W}\)，SC 采用由共享内核 \(W_{mask} ∈ R^{C×1×3×3}\) 组成的掩码网络。根据\(W_{mask}\) 对 \(X_i\)进行卷积，生成软特征\(S_i ∈ R^{B×1×H×W}\) ，再通过 Gumbel-Softmax 将其转化为掩码矩阵\(H_i∈ {\{0, 1\}}^{B×1×H×W}\) ：

Pasted image 20230906162325
其中，\(g_1,g_2∈ R^{B×1×H×W}\) 表示两个随机噪声，σ 指 sigmoid 函数，τ 是 Gumbel-Softmax 中相应的温度参数。在推理过程中，只有掩码值为 1 的区域涉及卷积，从而降低了整体计算成本。

上下文增强

SC 只对前景进行卷积，而放弃了包含有用信息的背景，这可能会降低整体精度，尤其是在无人机图像中普遍存在微小物体的情况下。本文提出了一种轻量级的 CESC 模块，它可以联合使用焦点信息和全局上下文进行增强，同时提高后续计算的稳定性。

Pasted image 20230906163248

Pasted image 20230906164553

\(L_{i,j}\)是对特征图使用SC后的结果，\(w,b\)是可学习参数。

Pasted image 20230913160856

优化了损失函数，对输入的特征图使用一个密集卷积得到\(C_{i,j}\)。

Adaptive Multi-layer Masking(AMM)

在没有任何额外约束的情况下，稀疏检测器会倾向于以较大的激活比（或较小的掩码比）生成掩码，以获得更高的精度，从而增加整体计算成本。为了解决这个问题，现有的大多数尝试都使用固定的激活比。然而，由于航空图像的前景会出现剧烈波动，固定比率容易导致计算量大幅增加，或因前景区域覆盖不足而降低精度。
提出AMM以自适应的计算激活比。
对于第 i 层 FPN，得到地面实况分类结果 \(C_i ∈ R^{h_i×w_i×c}\)，其中 c 表示包括背景在内的类别数；\(h_i\) 和 \(w_i\) 分别表示特征图的高度和宽度。最佳的激活比为

Pasted image 20230913161712