Relation Networks for Object Detection

* Authors: [[Han Hu]], [[Jiayuan Gu]], [[Zheng Zhang]], [[Jifeng Dai]], [[Yichen Wei]]

DOI: 10.1109/CVPR.2018.00378

初读印象

comment:: 提出了一个对象关系模块。它通过物体的外观特征和几何形状之间的相互作用来同时处理一组物体，从而允许对它们之间的关系进行建模。

动机

现有的目标检测算法都把图像中的物体看成一个个独立的个体去检测，没有利用不同物体间的相关性。本文提出目标关联模块(object relation module)，用来建模物体间的相关性，包括外观(appearance)相关性和几何(geometry)相关性，并把它们插入到两阶段检测器的检测头和后处理中，不仅取得了sota的效果，还实现了端到端，方便更好地部署。

方法

输入：N个对象，每个对象由几何特征（geometric feature）\(f_G\)和外观特征（appearance feature）\(f_A\)组成。

第n个对象的关联特征\(f_R(n)\)，计算过程中，n不变，m会遍历所有对象:
- \(W_V\)是一个不改变维度的线性变换。
- \(\omega^{mn}\)是第m个对象和第n个对象的相关性，其计算可分为以下几步：
  1. 外观权重\(w^{mn}_{A}\):
    - \(W_K\)和\(W_Q\)都是线性变换，\(d_k\)是维度。
  2. 计算几何权重\(\omega^{mn}_{G}\)：
    *第n个对象的几何特征为\(f^m_G = {w_m,h_m,x_m,y_m}\)，分别为box的宽、高和中心坐标点。
    - \(\varepsilon\)为保持平衡不变性所作的操作，得到一个4-D向量：
    - \(W_G\)是一个输出为标量的线性变换。
    - 最后再做个ReLU以在0处做修剪。
  3. 对\(\omega^{mn}_G·exp(\omega^{mn}_A)\)做softmax：
    *以上是第n个目标在目标关联模块中的计算全过程，本文使用了多头自注意力(multi-head self-attention)，将输入的外观特征划分为\(N_r\)等份，经过\(N_r\)个目标关联子模块，每个的输出特征向量维度都为\(1/N_r\)，因此最终的输出为：