Relation Networks for Object Detection

发布时间 2023-12-18 19:25:00作者: InunI

Relation Networks for Object Detection

* Authors: [[Han Hu]], [[Jiayuan Gu]], [[Zheng Zhang]], [[Jifeng Dai]], [[Yichen Wei]]

初读印象

comment:: 提出了一个对象关系模块。它通过物体的外观特征和几何形状之间的相互作用来同时处理一组物体,从而允许对它们之间的关系进行建模。

动机

现有的目标检测算法都把图像中的物体看成一个个独立的个体去检测,没有利用不同物体间的相关性。本文提出目标关联模块(object relation module),用来建模物体间的相关性,包括外观(appearance)相关性和几何(geometry)相关性,并把它们插入到两阶段检测器的检测头和后处理中,不仅取得了sota的效果,还实现了端到端,方便更好地部署。

方法

输入:N个对象,每个对象由几何特征(geometric feature)\(f_G\)和外观特征(appearance feature)\(f_A\)组成。

  • 第n个对象的关联特征\(f_R(n)\),计算过程中,n不变,m会遍历所有对象:
    Pasted image 20221017194829

    • \(W_V\)是一个不改变维度的线性变换。
    • \(\omega^{mn}\)是第m个对象和第n个对象的相关性,其计算可分为以下几步:
      1. 外观权重\(w^{mn}_{A}\):
        Pasted image 20221017195150

        • \(W_K\)\(W_Q\)都是线性变换,\(d_k\)是维度。
      2. 计算几何权重\(\omega^{mn}_{G}\)
        Pasted image 20221017205104*第n个对象的几何特征为\(f^m_G = {w_m,h_m,x_m,y_m}\),分别为box的宽、高和中心坐标点。

        • \(\varepsilon\)为保持平衡不变性所作的操作,得到一个4-D向量:
          Pasted image 20221017205840

        • \(W_G\)是一个输出为标量的线性变换。

        • 最后再做个ReLU以在0处做修剪。

      3. \(\omega^{mn}_G·exp(\omega^{mn}_A)\)做softmax:
        Pasted image 20221017210426*以上是第n个目标在目标关联模块中的计算全过程,本文使用了多头自注意力(multi-head self-attention),将输入的外观特征划分为\(N_r\)等份,经过\(N_r\)个目标关联子模块,每个的输出特征向量维度都为\(1/N_r\),因此最终的输出为:
        Pasted image 20221018091824

模型表现

Pasted image 20221018093637

启发

在注意力中计算一个特征和两个特征之间的相关度,而非计算两个特征之间的相关度。可以借鉴这一点,构造另一个特征(如全局类特征)并将其运用到相关度的计算过程中。同时使用了多头注意力模块,可以借鉴这一点。