Scale-Prior Deformable Convolution for Exemplar-Guided Class-Agnostic Counting

初读印象

comment:: （计数用的一个网络）提出了一个标度优先的可变形卷积，将典范的信息，例如标度，整合到计数网络主干中。

动机

本文考虑的是类别无关的计数，其中计数模型预测由一组查询图像中的少数物体典范所表示的物体的数量和分布。在训练过程中，图像和典范都被输入到计数模型中，然后在预测的密度图和人类注释的点图之间计算损失。
为了利用尺度信息，设计了一个尺度优先可变形卷积网络（SPDCN）来提取特定尺寸的物体的特征。SPDCN将尺度信息嵌入到可变形卷积中，这样它的感受野就会自动调整，并提取与给定样本的尺度相对应的特征。
香草的广义损失不适合于阶级无关的计数，因为它的成本函数假定所有的对象（人）都是相同的大小，而在阶级无关的计数中，不同的对象类别有不同的尺度。我们提出了一种对尺度敏感的广义损失，其中成本函数是根据物体尺度自适应调整的。实验表明，使用我们的自适应损失函数可以进一步提高性能。

方法

Pasted image 20230316225704 由于ImageNet预训练的VGG-19网络在从图像中提取计数特征方面具有很强的表示能力，保留了VGG-19的前十个卷积层和三个池化层。在骨干网中，一些特定的层被转换为尺度优先的可变形卷积，以利用典范所提供的关键尺度信息。backbone提取的特征图F被两个线性函数编码为Fc和Fd，分别代表分割和密度信息。
在分割分支中，应用ROIAlign层，根据给定的箱体坐标提取语义向量来代表每个示例。对这些向量进行平均，得到一个特定类别的表示向量，并计算与整个特征图的每个局部特征向量之间的余弦相似度。