DETR基于Transformer目标检测-526互联

DETR基于Transformer目标检测

DETR基于Transformer目标检测

DETR首次将Transformer应用到了目标检测任务中。图像会先经过一个传统的CNN抽出图像特征来，然后再将CNN的输出直接送到Transformer网路中，Transformer会直接输出一组预测的集合，每个预测包含框的中心点坐标、宽高以及框的类别，然后通过一个二分图匹配策略将预测框和GT框一一匹配用来计算Loss。

论文原文： https://arxiv.org/pdf/2005.12872.pdf

源码地址：https://github.com/facebookresearch/detr

DETR是第一个使用transformer编码器-解码器架构的端到端对象检测器

现有的目标检测算法是将GT进行正匹配作为一种启发式方法，需要对近似重复预测进行非极大值抑制 (NMS) 后处理。

传统目标检测算法的缺点：

在每个像素点上枚举预定义的anchor，照成大量候选框的是无效的

RPN输出了太多冗余的框需要NMS来删除

DETR通过基于集合的目标消除了对NMS后处理的需要，引入了完全端到端的检测器DETR。训练目标采用匈牙利算法设计，既考虑分类成本，又考虑回归成本，并获得极具竞争力的性能。

DETR网络结构

从DETR中的论文原图，DETR 网络主要由三部分组成 backbone layers、transformer layers、prediction layers。

整体结构分为3部分：

1、传统CNN，用于提取图片局部特征

2、Transformer 结构，Encoder提取图片全局特征和 Decoder 做预测

3、Bipartite Matching Loss 来训练网络

backbone
DETR整个过程就是使用CNN提取特征后编码解码得到预测输出
在神经网络里backbone结构可以理解为一个预处理器或者一个特征提取器。作为神经网络的底层结构，该部分主要用于提取数据的features。backbone通常采用网络上现有的经过预训练的网络结构,backbone有vggnet，resnet，谷歌的inception等。在DETR的源代码code里，使用了resnet50的预训练模型作为特征提取器，一方面缩短训练模型的时间，另一方面特征提取效果更好。
输入原始图像为 B x C × H × W 输出低分辨率特征B x C x H x W一般 C=2048，H=1/32，W=1/32也就是32倍下采样

然后 H，W 维度拉平 B, C, H*W 再加上位置编码信息一起送入encoder中。进一步提取全局的特征

经过 Backbone 后，将输出特征图 reshape 为 C × H W ，因为 C = 2048 是每个 token 的维度，还是比较大，所以先经过一个 1 × 1 的卷积进行降维，然后再输入 Transformer Encoder 会更好。

为了体现图像在x和y的信息，分别计算两个维度的 positional encoding，然后cat 到一起，基础方法话还是采用了原版 transformer结构的位置编码，用周期函数保证在一定范围内的编码差异不依赖于序列的长度，这样长序列的相对次序关系不会被稀释。

Transformer

该部分的网络结构与原本attention all need 中提出的模型相比基本没变，

DETR中关于Transformer部分在原有的网络基础上，修改了三个地方

encoder里是一个自注意力机制，输入为Image Feature和位置编码，这里和NLP中Transformer Encoder是一样的，只不过NLP输入的是文本Embedding。

Decoder里首先是一个Self Attention, Key Value Query是都是decoder embedding + object queries ，Value没有加object queries

Decoder embedding是decoder每一层的输出，在第一层初始为一个全0的向量；然后是一个Cross-Attention，在cross attention中 decoder embedding + learnable queries作为Query， Encoder的输出作为Key和Value，这里和NLP中transformer的结构是一致的。

Transformers decoder 部分是输入是 100 个 Object queries,比如说我们数据集总共有100个类别的物体需要预测,那么这 100 object queries 经过Transformers decoder 之后会预测出若干类别的物体和位置信息.

和NLP Transformer对比

在Encoder 中

Key： Image Features + Positonal Embeding==上面图的Spatial positional encoding（空间位置编码）

Query：Image Features + Positonal Embeding==上面图的Spatial positional encoding（空间位置编码）

Value： Image Feature

在Decoder Cross-Attention 中

Key： Image Features + Positonal Embeding==上面图的Spatial positional encoding（空间位置编码）

Value：Image Features

Query：可学习的query + Decoder Embeddings（初始化为全0）

在 Decoder Self-Attention

Key：可学习的query + Decoder Embeddings（初始化为全0）

Value：可学习的query + Decoder Embeddings（初始化为全0）

Query：可学习的query + Decoder Embeddings（初始化为全0）

参考：https://juejin.cn/post/7283691376649338916?searchId=20231214134247AA97C08F24DD7135C234#heading-1

Object Query

object queries是可学习的embedding，与当前输入图像的内容无关
object query可以看成是CNN 中动态的、可变的自适应anchor，每个query对应图像中的一个物体实例。因此，object query的数量一般设置要远大于数据库中一张图像内包含的最多物体数。论文设置的为100，使用COCO数据集
object query通过cross-attention(decoder)从编码器输出的序列中对特定物体实例的特征做聚合（即让该可学习object queries中的每个元素可以捕获原图像中不同位置与大小特征等的物体信息），又通过self-attention(encoder)建模该物体实例域其他物体实例之间的关系。

FFN

DETR在每个解码器层之后添加预测FFN和Hungarian loss，所有预测FFN共享其参数。

FFN 是一个最简单的多层感知机模块,对 Transformers decoder 的输出预测每个 object query的类别和位置信息.在实际训练的过程中,通过匈牙利算法匹配预测和标签最小的损失,仅适用配对上的query 计算 loss回传梯度.

二分图匹配

由于之前object queries 设置的为100。所以DETR 预测了一组固定大小的 N = 100 个边界框，这比图像中感兴趣的对象的实际数量大得多。为了解决这个问题，第一步是将 ground-truth 也扩展成 N = 100 个检测框。使用了一个额外的特殊类标签代表未检测到目标。得到预测和真实都是两个100 个元素的集合。

怎样判别预测框和真实框之间的差异？

采用匈牙利算法进行二分图匹配，即对预测集合和真实集合的元素进行一一匹配，使得匹配损失最小。

匹配成功之后，对预测框的分数、类别、中心点坐标和宽高进行损失值的计算。