Adaptive Sparse Convolutional Networks with Global Context Enhancement for Faster Object Detection on Drone Images

发布时间 2023-12-18 19:09:25作者: InunI

Adaptive Sparse Convolutional Networks with Global Context Enhancement for Faster Object Detection on Drone Images

* Authors: [[Bowei Du]], [[Yecheng Huang]], [[Jiaxin Chen]], [[Di Huang]]


初读印象

comment:: 提出了一种新型全局上下文增强自适应稀疏卷积网络(CEASC)。首先开发了一个上下文增强组归一化层(CE-GN),用全局上下文统计取代基于稀疏采样特征的统计,然后设计了一种自适应多层掩码策略,在不同尺度上生成最佳掩码比,以实现紧凑的前景覆盖,从而提高了准确性和效率。

Why

  1. 现有的研究热衷于设计复杂的模型,以在高分辨率无人机图像上达到微小目标的高精度,这在计算上很不划算的。
  2. 无人机配备的硬件往往受到资源限制,这对轻量级部署模型提出了快速推理和低延迟的迫切需求。

过去解决方案:

  • 稀疏卷积:通过可学习Mask仅在稀疏采样的区域或通道上操作卷积来限制计算。但其结果在很大程度上取决于有意义区域的选择,无人机图像中,物体尺寸小,不足的mask会导致在背景上浪费计算资源。

What

上下文加强的稀疏卷积

稀疏卷积

给定 FPN 第 i 层的特征图 \(X_i ∈ R^{B×C×H×W}\),SC 采用由共享内核 \(W_{mask} ∈ R^{C×1×3×3}\) 组成的掩码网络。根据\(W_{mask}\)\(X_i\)进行卷积,生成软特征\(S_i ∈ R^{B×1×H×W}\) ,再通过 Gumbel-Softmax 将其转化为掩码矩阵\(H_i∈ {\{0, 1\}}^{B×1×H×W}\)

Pasted image 20230906162325
其中,\(g_1,g_2∈ R^{B×1×H×W}\) 表示两个随机噪声,σ 指 sigmoid 函数,τ 是 Gumbel-Softmax 中相应的温度参数。在推理过程中,只有掩码值为 1 的区域涉及卷积,从而降低了整体计算成本。

上下文增强

SC 只对前景进行卷积,而放弃了包含有用信息的背景,这可能会降低整体精度,尤其是在无人机图像中普遍存在微小物体的情况下。本文提出了一种轻量级的 CESC 模块,它可以联合使用焦点信息和全局上下文进行增强,同时提高后续计算的稳定性。

Pasted image 20230906163248

Pasted image 20230906164553

\(L_{i,j}\)是对特征图使用SC后的结果,\(w,b\)是可学习参数。

Pasted image 20230913160856

优化了损失函数,对输入的特征图使用一个密集卷积得到\(C_{i,j}\)

Adaptive Multi-layer Masking(AMM)

在没有任何额外约束的情况下,稀疏检测器会倾向于以较大的激活比(或较小的掩码比)生成掩码,以获得更高的精度,从而增加整体计算成本。为了解决这个问题,现有的大多数尝试都使用固定的激活比。然而,由于航空图像的前景会出现剧烈波动,固定比率容易导致计算量大幅增加,或因前景区域覆盖不足而降低精度。
提出AMM以自适应的计算激活比。
对于第 i 层 FPN,得到地面实况分类结果 \(C_i ∈ R^{h_i×w_i×c}\),其中 c 表示包括背景在内的类别数;\(h_i\)\(w_i\) 分别表示特征图的高度和宽度。最佳的激活比为

Pasted image 20230913161712

其中,\(Pos(C_i)\)\(Numel(C_i)\) 分别表示属于正面(前景)实例的像素数量和所有像素的数量。并采用以下损失

Pasted image 20230913161916

其中 \(Pos(H_i) ,Numel(H_i)\)表示掩码 \(H_i\) 的激活率。 \(H_i\) 被迫遵守与地面实况前景比率 \(P_i\)相同的激活比率,从而有助于生成适当的掩码比率。
最终的损失:

Pasted image 20230913162052

启示

AMM的损失函数十分简单,但是设定最优值、设定损失逼近最优值的方法具有参考价值。