Transformer Tracking

相关性在跟踪领域起着关键作用，特别是在最近流行的暹罗跟踪器中。相关操作是考虑模板与搜索区域之间相似性的一种简单的融合方式。然而，相关操作本身是一个局部线性匹配过程，导致语义信息的丢失并容易陷入局部最优，这可能是设计高精度跟踪算法的瓶颈。还有比相关性更好的特征融合方法吗？为了解决这一问题，受变形器的启发，提出了一种新的基于注意力的特征融合网络，有效地将模板和搜索区域特征相结合。具体来说，该方法包括一个基于自我注意的自我情境增强模块和一个基于交叉注意的交叉特征增强模块。最后，我们提出了一种基于暹罗样特征提取主干、设计的基于注意力的融合机制以及分类和回归头的变压器跟踪（称为TransT）方法。实验表明，我们的TransT在6个具有挑战性的数据集上取得了非常有希望的结果，特别是在大规模的LaSOT、跟踪网和GOT-10k基准测试上。我们的跟踪器在GPU上以大约50帧每秒的速度运行。代码和模型可以在https://github上找到。com/chenxindlut/TransT.

创新点

我们提出了一种新的变压器跟踪框架，由特征提取、类变压器融合和头部预测模块组成。变形融合结合了模板和搜索区域特征，没有相关性。
我们开发了基于具有自我注意的自我情境增强模块和具有交叉注意的交叉特征增强模块的特征融合网络。与基于相关的特征融合相比，我们的基于注意力的方法自适应地关注有用的信息，如边缘和相似的目标，并建立远距离特征之间的关联，使跟踪器获得更好的分类和回归结果。
在许多基准测试上的大量实验结果表明，所提出的跟踪器的性能明显优于最先进的算法，特别是在大规模的LaSOT、跟踪网、GOT10k数据集上。此外，我们的跟踪器在GPU中以约50 fps的速度运行，满足了实时要求。

本节介绍了所提出的变压器跟踪方法，称为TransT。如图2所示，我们的TransT非常简洁，由主干网络、特征融合网络和预测头三个组成部分组成。主干网络分别提取模板和搜索区域的特征。然后，利用特征融合网络对特征进行增强和融合。最后，预测头对增强的特征进行二值分类和边界盒回归，生成跟踪结果。
首先，两个自我上下文增强（ECA）模块通过多头自注意自适应地关注有用的语义上下文，以增强特征表示。然后，两个交叉特征增强（CFA）模块同时接收到它们自己和另一个分支的特征图，并通过多头交叉注意将其融合为这两个特征图。以这种方式，两个eca和两个CFAs形成了一个融合层，如图2中的虚线框所示。融合层重复N次，然后再增加一个CFA来融合两个分支的特征图，解码一个特征图f∈Rd×HxWx（我们在这项工作中使用了N个=4）。非洲经委会和非洲金融协会的详细资料模块将在第3.2节中进行介绍。预测头网络。预测头由一个分类分支和一个回归分支组成，其中每个分支都是一个隐藏维数为d的三层感知器和一个ReLU激活函数。对于f∈R的特征图d×HxWx由特征融合网络生成，头部对每个向量进行预测，得到HxWx前景/背景分类结果，和HxWx相对于搜索区域大小的标准化坐标。我们的跟踪器直接预测标准化坐标，而不是调整锚点或锚盒，基于先验知识完全丢弃锚点或锚盒，从而使跟踪框架更加简洁。

跨功能增强（CFA）。CFA的结构如图3右侧所示。CFA通过以残差的形式使用多头交叉注意来融合来自两个输入的特征向量。与ECA类似，CFA也用于空间位置编码。此外，使用一个FFN模块来增强模型的拟合能力，这是一个完全连接的前馈网络，由两个线性变换组成，中间有一个ReLU。
预测磁头接收到Hx× Wx特征向量，并输出Hx× Wx二元分类和回归结果。我们选择地面真值边界框中像素对应的特征向量的预测作为正样本，其余均为负样本。所有样本都导致分类损失，而只有正样本导致回归损失。为了减少正样本和负样本之间的不平衡，我们将负样本产生的损失降低了16倍。我们采用标准的二值交叉熵损失进行分类，其定义为