Fine-grained Visual Classification with High-temperature Refinement and Background Suppression

发布时间 2023-12-05 19:41:31作者: 橘崽崽啊

摘要

细粒度视觉分类是一项具有挑战性的任务,因为类别之间的相似性很高,单个类别中数据之间的差异不同。为了应对这些挑战,以前的策略侧重于定位类别之间的细微差异并理解其中的判别特征。然而,背景还提供了重要信息,可以告诉模型哪些特征对于分类是不必要的甚至有害,并且过于依赖细微特征的模型可能会忽略全局特征和上下文信息。在本文中,我们提出了一种新的网络,称为“高温细化和背景抑制”(HERBS),它由两个模块组成,分别是高温细化模块和背景抑制模块,分别用于提取鉴别特征和抑制背景噪声。高温细化模块允许模型通过细化不同尺度的特征图并改进不同特征的学习来学习合适的特征尺度。背景抑制模块首先使用分类置信度分数将特征图分割成前景和背景,并在增强判别特征的同时抑制低置信度区域的特征值。实验结果表明,所提出的HERBS有效地融合了不同尺度的特征,抑制了背景噪声,在适当的尺度上区分特征,用于细粒度视觉分类。所提出的方法在CUB-200-2011和NABirds基准测试中实现了最先进的性能,在两个数据集上都超过了 93% 的准确率。因此,HERBS 是一种很有前途的解决方案,可以提高细粒度视觉分类任务的性能。代码开源于:chou141253/FGVC-HERBS: Pytorch implementation of "Fine-grained Visual Classification with High-temperature Refinement and Background Suppression" (github.com)

引言

细粒度视觉分类(FINE-GRAINED Visual Classification / FGVC)是计算机视觉中一项具有挑战性的任务,涉及将图像分类为非常具体和详细的类别,如不同种类的鸟类[1]、狗[2]、车辆模型[3]和医学图像[4]。如图1所示,这四种麻雀看起来几乎相同,但从不同的角度来看,相同类型的麻雀看起来也非常不同。与粗粒度分类(包括识别“动物”或“车辆”等广泛类别相比,细粒度分类需要能够识别视觉特征的细微差异,例如颜色、纹理、形状和模式,这些特征通常存在于小区域。这些区域被称为判别区域或前景区域。通过将对象分为眼睛、脚等部分,比较相应的区域以便于识别[5][6][7][8][9][10][11],可以实现细粒度识别。然而,这些方法需要手动注释,成本高,甚至需要专家注释(expert annotation)。为了克服这一问题,提出了弱监督方法[12][13][14][15][16][17][18],通过类激活映射(CAM)[19][20]来寻找判别区域,在没有标签的特征图中通过更高的响应区域来训练网络。此外,提出了基于注意的方法[21][22][23][24][25],通过识别特征图中常见的高响应区域来定位判别区域。此外,Vision Transformer (ViT)在图像分类方面的成功导致了它在细粒度视觉识别任务中的实现。这些方法[26][27][28][29][30][31]使用自我注意图来获取前景区域的信息。主要的努力集中在增强判别区域的区分,而忽略了未选择的区域。然而,在模型无法获得足够的判别区域的情况下,首先排除不重要的区域(称为背景)很有用。受这个概念的启发,我们提出了背景抑制 (BS) 模块。

7505a0170c5355183a6c30406a0b5831_1_Figure_1_-1122003960.png

图1所示。粗粒度类别和细粒度类别的视觉分类示例。

所提出的 BS 模块在 FGVC 任务中表现出更好的性能。在 BS 模块的第一步中,输出置信度分数用于将区域分类为前景和背景。前景代表判别区域,背景是指未选择或嘈杂的部分。随后,BS模块抑制低置信度区域的特征值,增强判别特征,从而提高目标物体的细节,降低噪声。因此,BS 模块可能会有所帮助,尤其是在难以区分前景和背景区域的情况下。

从判别区域中提取特征的算法对于 FGVG 任务很重要。然而,由于过度使用单一或少数特定类别的特征,这可能会导致丢失上下文信息的问题。因此,我们提出了一个高温细化模块来增强各种特征的学习,包括各种对象类别的纹理、形状和外观。具体来说,该模块最初使用更高的温度来学习特征图,以便可以捕获更多的全局上下文信息和上下文信息。随后,使用低温对特征图进行细化,以捕获更精细的细节。这种方法允许获得更丰富的特征,以更好地对相似的对象进行分类并提高准确性。需要注意的是,高温细化模块可以看作是知识蒸馏的一种形式[32]

高温细化模块还保持了区分区域的适当大小,这有利于FGVC任务。如果特征大小太小,该算法可能无法捕获对象的整体特征,导致分类不正确。相反,如果特征尺度太大,由于噪声和冗余信息过多,FGVC任务的准确性可能会降低。

在本文中,所提出的高温细化和背景抑制(HERBS)可以提取判别特征并抑制背景噪声。本文有两个主要贡献:

  • 所提出的 HERBS 可以集成到各种主干中,例如基于 CNN 的网络和基于转换器的网络。它还允许执行端到端训练。
  • 所提出的HERBS优于最先进的方法,在CUB200-2011[1:1]和NABirds[33]上的准确率分别提高了93.1%和93.0%。

相关工作

细粒度视觉分类

在FGVC领域,有两种从细微区域中提取鉴别特征的方法,大致分为基于对象部分的方法和基于注意的方法。

基于对象部分的方法旨在通过使用模型生成候选区域来找到用于识别的对象局部区域,然后从中提取判别特征。MACNN[21:1]通过将特征映射聚类到对象部分,同时训练定位和分类精度。这种无监督分类通过将模式划分为对象部分来增强特征学习。该方法允许同时学习判别特征和位置。S3N[16:1]在特征图上找到每个类别的响应的局部极值以增强特征。此外,WS-DAN[15:1]通过切断局部极值来发现其他判别特征来增强数据。

另一方面,基于注意力的方法使用注意力机制来增强特征学习并定位对象细节。MAMC[34]通过注意机制增强了多组特征,Cross-X[35]使用来自多激励模型的注意图来学习来自不同迎合的特征。API-Net[23:1] 和 PCA-Net[24:1] 使用两幅图像作为输入来计算特征图之间的注意力,从而产生判别表示。CAP[36]计算输出特征的自我注意图来表示特征像素之间的关系,SR-GNN[37]使用图卷积神经网络来描述各部分之间的关系。CAL[38]对注意力图添加了一个反事实干预来预测类别。随着 Transformer[39] 在计算机视觉领域的发展,已经提出了许多改进的 Vision Transformer 架构,例如 FFVT[29:1]、SIM-Trans[27:1]、TransFG[28:1] 和 AFTrans[40],这些方法利用 Transformer 层中的自注意力图来增强特征学习并定位对象细节。

对象检测

监督对象检测方法已显示出显着的结果。有监督的YOLOv7[41]可以实现快速、高精度的检测。然而,对对象位置的手动标记要求限制了其对细粒度视觉识别任务的适用性。

弱监督目标检测(WSOD)被引入作为克服局限性的替代方案。该方法只需要分类标签,通过算法生成伪边界框目标。例如,WCCN[42]生成类激活映射来识别感兴趣的区域,然后将其输入分类器并通过多实例学习进行校正。WSOD2[43] 通过 Top-Down 和 Bottom-Up 方法对虚拟候选框进行评分,得分最高的虚拟框作为下一层的目标输出。MIST[44]通过自我训练细化感兴趣的区域,而WSCL[45]通过数据增强和对比学习提高了感兴趣区域的特征。这些方法通过细化过程逐渐发现整个对象,利用前一阶段的输出作为虚拟目标。

方法

在图2中,提出的高温细化和背景抑制(HERBS)网络由骨干网、自顶向下特征融合模块、自底向上特征融合模块和HERBS组成。该主干网络可以是基于 Transformer 的模型(例如 Swin Transformer)或基于卷积的模型(例如 ResNet)。自顶向下和自底向上的特征融合模块类似于路径聚合网络(PA)[46],它可以被视为具有额外自底向上路径的特征金字塔网络(FPN)[47]

7505a0170c5355183a6c30406a0b5831_1_Figure_2_716998803.png

图2所示。模型结构示意图如图所示,左边的蓝色方块代表骨干块,可以是基于卷积的,也可以是基于变压器的。中间部分的圆圈表示多尺度特征融合模块,例如特征金字塔网络(FPN)或路径聚合(PA)。右侧的分类器、选择器和组合器描述了 HERBS 模块。

所提出的 HERBS 网络旨在学习多样化和有区别的特征并提高几个 FGVC 任务的准确性。HERBS包含两个模块:背景抑制(BS)模块和高温细化模块。在以下部分中,我们将这两个融合模块称为自上而下的路径和自下而上的路径。所提出的 HERBS,我们将全面描述 BS 模块和高温模块的设计,包括对损失函数的使用和 HERBS 模块与各种框架的集成的详细描述。

背景抑制

令 hsi 表示第 i 个主干块生成的特征图,其中image.png。这里,Ci 表示通道数,Hi 是高度,Wi 是特征图的宽度。背景抑制(BS)模块的第一步是从这些特征图生成分类图,可以表示为:
image.png
其中 Wi 是第 i 层分类器的权重,bi 是它的偏差,Yi 是分类图,维度为 image.png
,其中 Cgt 是目标类别的数量。然后从分类图计算最大分数图。该过程可以表示为:
image.png
其中 Pmax,i 表示第 i 层的最大分数图。接下来,选择所有预测中具有 top-Ki 分数的特征。Ki 的数量是根据当 i < j 时 Ki > Kj 的原则选择的。具体来说,我们将 K1 设置为 256,K2 设置为 128,K3 设置为 64,K4 设置为 32。我们根据早期层可以限制后续层的性能的原则来选择这个值,我们的实验表明,如果遵循这一原则,准确度对该参数的变化相对不敏感。

其中 Pmax,i 表示第 i 层的最大分数图。接下来,选择所有预测中具有 top-Ki 分数的特征。Ki 的数量是根据当 i < j 时 Ki > Kj 的原则选择的。具体来说,我们将 K1 设置为 256,K2 设置为 128,K3 设置为 64,K4 设置为 32。我们根据早期层可以限制后续层的性能的原则来选择这个值,我们的实验表明,如果遵循这一原则,准确度对该参数的变化相对不敏感。

然后使用图卷积模块合并所选特征并根据合并的特征进行预测。在这个阶段,BS 模块具有未选择的分类图,称为丢弃的映射,表示为 Yd ,合并的分类预测表示为 Ym。该过程通过选择器和组合器组件来描述,如图 2 所示。

合并分类预测的目标函数是一个标准分类,使用交叉熵来计算预测分布 P 和真实标签 y 之间的相似度。合并损失计算如下:
image.png
image.png

这里,yci 是第 i 个类别的基本事实,Pm,ci 是第 i 个类别的预测概率。求和是在目标类别 Cgt 的数量上执行的。这增强了所选区域中的判别特征。
BS模块的另一个目标是抑制丢弃映射中的特征,增加前景和背景之间的差距。双曲正切函数 tanh 应用于丢弃的映射 Yd ,如公式 (5) 所示:

image.png
然后,丢弃的损失 lossd 计算为预测和 -1 的伪目标之间的均方误差,如公式(6)所示:
image.png
请注意,方程式中的双曲正切函数。 (5) 将预测的值映射到不限于概率的范围。这是因为即使背景有一些其他类的外观,我们真的想要分离前景和背景特征。

为了防止所有块的特征图在同一位置只有高响应,我们还将每一层的预测合并到训练目标中,如下所示:

image.png
image.png
其中Avgpool函数聚合每个通道上的所有Hi和Wi,主干中的块数用n表示。

总 BS 目标由合并损失(lossm)、丢弃损失(lossd)和平均层损失(lossl)的加权和给出,如公式(9)所示:

image.png
其中 λm、λd 和 λl 分别是合并损失、丢弃损失和平均层损失的权重。具体来说,我们将 λm 设置为 1,λd 设置为 5,λl 设置为 0.3。这些值设置为平衡前景和背景损失,并根据前三个时期的训练损失确定。

高温细化

图 2 中的分类器 k1 和分类器 k2 后跟第 k 个块特征图,分类器 k1 位于自上而下的路径中,而分类器 k2 位于自下而上的路径中。目标是使分类器 k1 学习分类器 k2 的输出分布。我们将分类器 k1 的输出定义为 Yi1,分类器 k2 的输出定义为 Yi2。细化目标函数有助于模型在较早的层中学习更多样化和更强的表示,同时允许后面的层专注于更精细的细节。换句话说,高温细化模块使分类器 k1 能够发现更广泛的区域和分类器 k2 专注于学习细粒度和判别特征。细化损失使用以下公式计算:
image.png
其中 Te 表示训练时期 e 的温度。Te 的值随着训练时期的增加而减少,遵循定义为的衰减函数:
image.png
与知识蒸馏方法相比,我们将初始温度 T 设置为高值,例如 64 或 128。目的是鼓励模型探索各种特征,即使初始预测不准确。然后,随着训练的进行,温度逐渐降低,允许模型更多地关注目标类并学习更多的判别特征。通过使用这种衰减策略,模型可以获得多样化和精细的表示并做出准确的预测。

The total loss of HERBS can be formulated as:
image.png
其中 λr 是细化损失的权重,设置为 1。 HERBS 网络的最终输出是九个分类器结果总和的 softmax,由自顶向下方法的四个、自底向上方法四个和组合器中的一个组成。

请注意,在 HERBS 网络中,Wi 和 bi 在 i 等于 k 时属于分类器 k2。我们分别描述了它们,因为 BS 模块和高温细化模块可以单独应用于主干,非常灵活。实验结果表明,两个模块都可以提高准确性。当然,当使用整个 HERBS 网络时,模型的能力将导致更好的性能。

image.png

在两个基准、CUB-200-2011 和 NA-BIRDS 上,TOP-1 准确度(%) 与最先进方法的比较。

image.png

不同模块添加到 SWIN TRANSFORM TRANSFORMER 的 CUB-200-2011 上TOP-1 准确度(%) 的比较。

在本文中,我们提出了 HERBS 模块,由第一个背景抑制 (BS) 和高温细化模块组成。这两个组件都可以提高骨干模型在FGVC任务中的准确性。我们分别在图3(a)和(b)中展示了最基本的BS和高温细化模块。将最基本的BS模块添加到最终块的输出中,实现方程(1)-(9)。并将最基本的高温细化模块应用于最后两个块。最终的分类器将被视为分类器 n2,另一个分类器视为分类器 n1。在等式 12 之后,我们计算它们的 KL 散度作为目标函数。

实验

数据集和实现细节

本研究使用的数据集是CUB200-2011[1:2]和NA-Birds[33:1],两个细粒度的鸟类分类数据集。CUB200-2011 数据集共有 200 个鸟类类别,包括 5,994 个训练图像和 5,794 个测试数据。每个类别包含大约 30 个训练和测试数据。NA-Birds 大于 CUB200-2011,有 555 种鸟类、23、929 个训练图像和 24,633 个测试图像。这两个数据集都提供了图像级的注释和关键点位置,但本文只使用图像级注释。当使用ResNet-50[48]作为骨干网络时,输入图像为448×448彩色图像,当使用Swin-Transformer[49]时,输入图像为384×384彩色图像。数据增强方法如下。如果输入图像大小为384×384,第一步是将图像缩放到510×510,如果输入图像大小为448×448,则将其缩放到600×600。在训练短语中,数据增强是通过Randon Crop、Random Horizon Flip、Random GaussianBlur和Normalizarion进行的,而在测试时使用中心裁剪和Normalizarion。在训练期间,学习率设置为 0.0005,余弦衰减和权重衰减设置为 0.0005。使用的优化器是 SGD,批量大小为 8,梯度累积步骤设置为 4,模型总共训练了 80 个 epoch。所有实验均在单个Nvidia GeForce RTX 3090上完成,Pytorch工具箱作为主要实现基板。完成CUB200-2011 的训练大约需要 5 小时,NA-Birds 大约需要 16 小时。
image.png

不同模块添加到RESNET-50的CUB-200-2011上TOP-1准确率(%)的比较。

消融实验

在表 I 中,我们将我们提出的 HERBS 与 CUB200-2011 和 NA-Birds 数据集上的最先进方法进行了比较。表 I 的中间列显示,所提出的 HERBS 在 Top-1 准确度上可以达到 93.1%,比之前的最佳方法高 0.7%。表 I 最后一列显示,所提出的 HERBS 在 NABirds 数据集上的 Top-1 准确度可以达到 93.0%,超过了之前最先进的方法。这些结果表明,所提出的 HERBS 可以有效地过滤掉背景噪声并提取适当大小的判别特征,从而能够准确识别细粒度类别。

为了更好地理解HERBS中提出的每个模块的影响,我们将PA、Refinement和BS模块分别添加到分类主干中。首先,使用 Swin Transformer Base (Swin-Base) 和 Swin Transformer Large (Swin-Large) 作为测试主干。如表II所示,Swin-Base和Swin-Large的原始准确率分别为91.3%和92.0%。在添加 PA、Refinement 或 BS 模块后,准确率略有提高。仅添加 PA 的结构如图 4(b) 所示,仅添加细化如图 4(b) 所示,仅添加 BS 如图 4(a) 所示。表 2 中的最后一行显示 HERBS 模块将主干的准确度提高了约 1%,证明了模块的有效性。

HERBS 模块不仅可以用于变压器结构,还可以用于基于卷积的方法。我们选择 ResNet-50 作为测试主干,添加不同模块的结果如表 III 所示。有趣的是,HERBS 模块比 Swin Transformer (+1.1) 提高了 ResNet-50 (+1.6) 的准确性。这种差异可能归因于输入图像分辨率的差异,ResNet-50 适应 448×448,而 Swin Transformer 只适应 384×384。解决问题将是未来讨论的主题,因为它仍然需要在这项工作中解决。一般来说,HERBS 模块在不同类型的骨干网上表现出有希望的结果。

image.png

GENERIC CLASSES 的数量 (NUM.) (%) 和 CUB-200-2011 中的FINE-CLASSES 的数量 (FP)。 SYMBOL ↑ 表示值越高越好,WHILE ↓ 表示 OPPOSITE。我们提供包含更多种类的分类学。

关于不同模型结构的能力。我们进一步调查了感受野的“增长”和“下降”,并展示了我们实验的五个阶段。首先,我们测试了原始主干,如图4(a)所示,对应的热图如图5(b)所示。据观察,该模型关注大量的背景区域,表明原始主干不是为检测细粒度数据中的细节而设计的。

其次,我们将特征融合模块PA添加到主干中,对应的热图如图5(c)所示,结构如图4(b)所示。从热图中,我们推断仅使用最后一个结果,标签的响应可以集中在一个小区域。然而,与原始模型相比,这种改进仍然有一个狭窄的焦点。接下来,我们将分类器添加到先前结构的每个块中,如图 4(c) 所示。这种结构扩大了注意力区域,如图5(d)所示,有效地利用了多尺度特征。

在第四步中,我们向模型添加了另外四个分类器,如图 4(d) 所示。这八个分类器限制了注意力区域,但精度下降。最后,我们将HERBS模块添加到主干上,对应的热图如图5(f)所示。该模块在捕获广泛的信息的同时保持细节,注意区域大致在图5(d)和图5(e)之间。结果表明,HERBS 实现了更好的准确性。

在这个例子中,只有 HERBS 正确地预测了图像,而其他模型将图像预测为错误但视觉上相似的类。这表明细粒度的视觉分类需要详细的特征,而不是太窄的特征。

HERBS 在精细类上的性能如何。我们评估了 HERBS 在 CUB-200-2011 数据集中的真实精细类上的性能,该数据集包含大约 70 个通用类,每个类别有 1 到 25 个子类别,包括 9 个具有多个 6 个类别的通用类。表 IV 列出了这 9 个通用类,我们评估了模型的性能。

结果表明,HERBS在精度和假阳性数(FP)方面都优于Swin Transformer基线。FP 是指模型预测不属于正确通用类的类的情况。较低的 FP 数意味着错误的预测发生在相似的类别中,这表明该模型不会犯严重的错误。例如,医生可以信任细粒度模型的结果,只需要检查类似的情况,减少了双重检查所需的工作量。

BS模块如何抑制背景。我们测试了从 0 到 9 的抑制强度 λd,并在图 6(a)(蓝线)中绘制了它们对应的 top-1 精度。不同 λd 值的相应热图如图 7 所示。从热图中,我们观察到当 λd 设置为 0 时,这意味着仅使用合并损失(选定区域)来约束特征图,模型仍然关注一些背景区域。将 λd 在 0、5 和 9 处的热图进行比较,我们观察到浓度水平随着抑制强度 λd 的增加而增加,这表明 BS 模块可以有效地抑制背景值。

image.png

图4。模型的结构,(a)原始主干,蓝色框表示主干blokcs。(b) 主干 + 路径聚合模块。(c) 主干 + PA 模块,最后一个自下而上的路径上有四个分类器。(d) 主干 + PA 模块,在自上而下和自下而上的路径上有八个分类器。(e)骨干+ HERBS

image.png

图5所示。不同模型生成的热图的可视化。(a) 原始彩色图像,(b) Swin Transformer 主干,(c) 主干 + PA,(d) 具有四个分类器的骨干 + PA,(e) 具有八个分类器的骨干 + PA。(f) 主干 + HERBS。图像顶部的数字表示相应模型的准确性。

如前所述,tanh 函数用于映射分类结果而不是 softmax 函数。在图6(a)中,蓝线表示基于tanh的方法,绿线表示基于softmax的方法。在基于 softmax 的方法中,伪目标将是 1Cgt。然而,这可能会导致训练不稳定,因为即使我们将嘈杂或未选择的区域称为“背景”,它也不一定与天空、树木或海洋等背景元素相同。一些未选择的区域可能仍然出现在鸟的身体上,可以出现在其他类别的外观中。因此,通过特征值而不是类概率将它们分开是至关重要的。抑制强度的影响如图7所示。

高温提供什么。我们强调高温的使用是基于我们的实验结果,如图6(b)所示,我们发现最好的top-1精度和top-3精度发生在64的温度下。高温会导致分布变得非常平坦,这意味着模型对错误分类具有更高的容忍度。这种容忍度允许模型发现更多样化的特征并使用多类特征来增强其能力。

image.png

图6所示。不同超参数的top-1精度比较。(a) 显示了从 0 到 9 的不同 λd 值的前 1 个准确度。蓝线表示 tanh 函数的使用,绿线表示使用 softmax 函数来映射分类结果。(b) 显示了不同温度下的 top-1 准确度,范围从 0.5 到 256。

image.png

图7所示。不同λd值的热图可视化。

为了进一步解释这一点,我们在图 8 中展示了错误真实率的影响。在这里,false-true 表示自上而下路径中错误预测的数量,但在自下而上的路径中是正确的。假真率使用以下公式计算:
image.png

较高的错误率意味着模型不仅专注于一个目标。我们发现 top-1 和 top-3 准确度以及精细类的 F1 分数与此略有相关。图8中8cls点中使用的结构如图4(d)所示,其他结构为不同温度下的HERBS。

image.png

图 8. False-True 率及其与 (a) CUB-200-2011 top-1 准确度的关系,(b) top-3 准确度,(c) 精细类的召回,(d) 精细类的 f1 分数。

总结

在本文中,我们提出了具有 BS 模块的 HERBS 和可以轻松应用于流行骨干网络的高温细化模块。该方法有效地过滤掉了背景噪声,并专注于判别特征,同时保持适当的注意力区域尺度。我们对细粒度视觉分类任务的实验表明,HERBS 显着提高了准确性,并且在 CUB-200-2011 和 NA-Birds 基准数据集上优于最先进的方法。未来的工作可以探索使用自适应策略来选择温度或抑制强度,并研究基于这项工作的低计算成本方法。总体而言,所提出的 HERBS 可以达到高达 93% 的高精度,为提高细粒度视觉分类任务的性能提供了有希望的解决方案。

引用


  1. C. Wah, S. Branson, P. Welinder, P. Perona, and S. Belongie. The Caltech-UCSD Birds-200-2011 Dataset. Technical Report CNS-TR2011-001, California Institute of Technology, 2011. 1, 2, 4 ↩︎ ↩︎ ↩︎

  2. Aditya Khosla, Nityananda Jayadevaprakash, Bangpeng Yao, and Fei fei Li. L.: Novel dataset for fine-grained image categorization. In First Workshop on Fine-Grained Visual Categorization, CVPR (2011, 2011. 1 ↩︎

  3. Jonathan Krause, Michael Stark, Jia Deng, and Li Fei-Fei. 3d object representations for fine-grained categorization. In 2013 IEEE International Conference on Computer Vision Workshops, pages 554–561, 2013. 1 ↩︎

  4. Y. Zhou, B. Wang, L. Huang, S. Cui, and L. Shao. A benchmark for studying diabetic retinopathy: Segmentation, grading, and transferability.IEEE Transactions on Medical Imaging, 40(3):818–828, 2021. 1 ↩︎

  5. Lingxi Xie, Qi Tian, Richang Hong, Shuicheng Yan, and Bo Zhang. Hierarchical part matching for fine-grained visual categorization. In2013 IEEE International Conference on Computer Vision, pages 1641– 1648, 2013. 1 ↩︎

  6. E. Gavves, B. Fernando, C.G.M. Snoek, A.W.M. Smeulders, and T. Tuytelaars. Fine-grained categorization by alignments. In 2013 IEEE International Conference on Computer Vision, pages 1713–1720, 2013. 1 ↩︎

  7. Omkar M Parkhi, Andrea Vedaldi, C. V. Jawahar, and Andrew Zisser-man. The truth about cats and dogs. In 2011 International Conference on Computer Vision, pages 1427–1434, 2011. 1 ↩︎

  8. Ning Zhang, Jeff Donahue, Ross Girshick, and Trevor Darrell. Partbased r-cnns for fine-grained category detection. In David Fleet, Tomas Pajdla, Bernt Schiele, and Tinne Tuytelaars, editors, Computer Vision – ECCV 2014, pages 834–849, Cham, 2014. Springer International Publishing. 1 ↩︎

  9. Shaoli Huang, Zhe Xu, Dacheng Tao, and Ya Zhang. Part-stacked cnn for fine-grained visual categorization. In 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1173–1182, 2016. 1 ↩︎

  10. Steve Branson, Grant Van Horn, Pietro Perona, and Serge Belongie. Improved bird species recognition using pose normalized deep convolutional nets. In Proceedings of the British Machine Vision Conference. BMVA Press, 2014. 1 ↩︎

  11. Han Zhang, Tao Xu, Mohamed Elhoseiny, Xiaolei Huang, Shaoting Zhang, Ahmed Elgammal, and Dimitris Metaxas. Spda-cnn: Unifying semantic part detection and abstraction for fine-grained recognition. In2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1143–1152, 2016. 1 ↩︎

  12. Lianbo Zhang, Shaoli Huang, Wei Liu, and Dacheng Tao. Learning a mixture of granularity-specific experts for fine-grained categorization. In2019 IEEE/CVF International Conference on Computer Vision (ICCV), pages 8330–8339, 2019. 1 ↩︎

  13. Shaokang Yang, Shuai Liu, Cheng Yang, and Changhu Wang. Re-rank coarse classification with local region enhanced features for fine-grained image recognition. CoRR, abs/2102.09875, 2021. 1 ↩︎

  14. Tuong Do, Huy Tran, Erman Tjiputra, Quang D. Tran, and Anh Nguyen. Fine-grained visual classification using self assessment classifier, 2022. 1, 4 ↩︎

  15. Tao Hu and Honggang Qi. See better before looking closer: Weakly supervised data augmentation network for fine-grained visual classification. CoRR, abs/1901.09891, 2019. 1, 2 ↩︎ ↩︎

  16. Yao Ding, Yanzhao Zhou, Yi Zhu, Qixiang Ye, and Jianbin Jiao. Selective sparse sampling for fine-grained image recognition. In 2019 IEEE/CVF International Conference on Computer Vision (ICCV), pages 6598–6607, 2019. 1, 2 ↩︎ ↩︎

  17. Yu Zhang, Xiu-Shen Wei, Jianxin Wu, Jianfei Cai, Jiangbo Lu, Viet-Anh Nguyen, and Minh N. Do. Weakly supervised fine-grained categorization with part-based image representation. IEEE Transactions on Image Processing, 25(4):1713–1725, 2016. 1 ↩︎

  18. Zhihui Wang, Shijie Wang, Shuhui Yang, Haojie Li, Jianjun Li, and Zezhou Li. Weakly supervised fine-grained image classification via guassian mixture model oriented discriminative learning. In 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 9746–9755, 2020. 1 ↩︎

  19. Bolei Zhou, Aditya Khosla, Agata Lapedriza, Aude Oliva, and Antonio Torralba. Learning deep features for discriminative localization. In 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2921–2929, 2016. 1 ↩︎

  20. Ramprasaath R. Selvaraju, Michael Cogswell, Abhishek Das, Ramakrishna Vedantam, Devi Parikh, and Dhruv Batra. Grad-cam: Visual explanations from deep networks via gradient-based localization. In2017 IEEE International Conference on Computer Vision (ICCV), pages 618–626, 2017. 1 ↩︎

  21. Heliang Zheng, Jianlong Fu, Tao Mei, and Jiebo Luo. Learning multi-attention convolutional neural network for fine-grained image recognition. In 2017 IEEE International Conference on Computer Vision (ICCV), pages 5219–5227, 2017. 1, 2 ↩︎ ↩︎

  22. Haowei Zhu, Wenjing Ke, Dong Li, Ji Liu, Lu Tian, and Yi Shan. Dual cross-attention learning for fine-grained visual categorization and object re-identification. In 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 4682–4692, 2022. 1, 4 ↩︎

  23. Peiqin Zhuang, Yali Wang, and Yu Qiao. Learning attentive pairwise interaction for fine-grained classification. Proceedings of the AAAI Conference on Artificial Intelligence, 34(07):13130–13137, Apr. 2020. 1, 2 ↩︎ ↩︎

  24. Tian Zhang, Dongliang Chang, Zhanyu Ma, and Jun Guo. Progressive co-attention network for fine-grained visual classification. CoRR, abs/2101.08527, 2021. 1, 2 ↩︎ ↩︎

  25. Ruyi Ji, Longyin Wen, Libo Zhang, Dawei Du, Yanjun Wu, Chen Zhao, Xianglong Liu, and Feiyue Huang. Attention convolutional binary neural tree for fine-grained visual categorization. In 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 10465–10474, 2020. 1 ↩︎

  26. Yuan Zhang, Jian Cao, Ling Zhang, Xiangcheng Liu, Zhiyi Wang, Feng Ling, and Weiqian Chen. A free lunch from vit: adaptive attention multiscale fusion transformer for fine-grained visual recognition. In ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 3234–3238, 2022. 1 ↩︎

  27. Hongbo Sun, Xiangteng He, and Yuxin Peng. Sim-trans: Structure information modeling transformer for fine-grained visual categorization. InProceedings of the 30th ACM International Conference on Multimedia, MM '22, page 5853–5861, New York, NY, USA, 2022. Association for Computing Machinery. 1, 2, 4 ↩︎ ↩︎

  28. Ju He, Jie-Neng Chen, Shuai Liu, Adam Kortylewski, Cheng Yang, Yutong Bai, and Changhu Wang. Transfg: A transformer architecture for fine-grained recognition. Proceedings of the AAAI Conference on Artificial Intelligence, 36(1):852–860, Jun. 2022. 1, 2, 4 ↩︎ ↩︎

  29. Jun Wang, Xiaohan Yu, and Yongsheng Gao. Feature fusion vision transformer for fine-grained visual categorization. In 32nd British Machine Vision Conference 2021, BMVC 2021, Online, November 22-25, 2021, page 170. BMVA Press, 2021. 1, 2, 4 ↩︎ ↩︎

  30. Xinda Liu, Lili Wang, and Xiaoguang Han. Transformer with peak suppression and knowledge guidance for fine-grained image recognition.Neurocomputing, 492:137–149, 2022. 1 ↩︎

  31. Yunqing Hu, Xuan Jin, Yin Zhang, Haiwen Hong, Jingfeng Zhang, Yuan He, and Hui Xue. Rams-trans: Recurrent attention multi-scale transformer for fine-grained image recognition. In Proceedings of the 29th ACM International Conference on Multimedia, MM '21, page 4239–4248, New York, NY, USA, 2021. Association for Computing Machinery. 1 ↩︎

  32. Geoffrey E. Hinton, Oriol Vinyals, and Jeffrey Dean. Distilling the knowledge in a neural network. CoRR, abs/1503.02531, 2015. 1, 4 ↩︎

  33. Grant Van Horn, Steve Branson, Ryan Farrell, Scott Haber, Jessie Barry, Panos Ipeirotis, Pietro Perona, and Serge Belongie. Building a bird recognition app and large scale dataset with citizen scientists: The fine print in fine-grained dataset collection. In 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 595–604, 2015. 2, 4 ↩︎ ↩︎

  34. Ming Sun, Yuchen Yuan, Feng Zhou, and Errui Ding. Multi-attention multi-class constraint for fine-grained image recognition. In Vittorio Ferrari, Martial Hebert, Cristian Sminchisescu, and Yair Weiss, editors,Computer Vision – ECCV 2018, pages 834–850, Cham, 2018. Springer International Publishing. 2 ↩︎

  35. Wei Luo, Xitong Yang, Xianjie Mo, Yuheng Lu, Larry S. Davis, Jun Li, Jian Yang, and Ser-Nam Lim. Cross-x learning for fine-grained visual categorization. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), pages 8241–8250, 2019. 2 ↩︎

  36. Ardhendu Behera, Zachary Wharton, Pradeep Hewage, and Asish Bera. Context-aware attentional pooling (cap) for fine-grained visual classification. In The Thirty-Fifth AAAI Conference on Artificial Intelligence. AAAI, 2021. 2, 4 ↩︎

  37. Asish Bera, Zachary Wharton, Yonghuai Liu, Nik Bessis, and Ardhendu Behera. Sr-gnn: Spatial relation-aware graph neural network for finegrained image categorization. IEEE Transactions on Image Processing, 31:6017–6031, 2022. 2, 4 ↩︎

  38. Yongming Rao, Guangyi Chen, Jiwen Lu, and Jie Zhou. Counterfactual attention learning for fine-grained visual categorization and reidentification. In 2021 IEEE/CVF International Conference on Computer Vision, ICCV 2021, Montreal, QC, Canada, October 10-17, 2021, pages 1005–1014. IEEE, 2021. 2 ↩︎

  39. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Ł ukasz Kaiser, and Illia Polosukhin. Attention is all you need. In I. Guyon, U. Von Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and R. Garnett, editors, Advances in Neural Information Processing Systems, volume 30. Curran Associates, Inc., 2017. 2 ↩︎

  40. Yuan Zhang, Jian Cao, Ling Zhang, Xiangcheng Liu, Zhiyi Wang, Feng Ling, and Weiqian Chen. A free lunch from vit: adaptive attention multiscale fusion transformer for fine-grained visual recognition. ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 3234–3238, 2021. 2 ↩︎

  41. Chien-Yao Wang, Alexey Bochkovskiy, and Hong-Yuan Mark Liao. Yolov7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors, 2022. 2 ↩︎

  42. Ali Diba, Vivek Sharma, Ali Mohammad Pazandeh, Hamed Pirsiavash, and Luc Van Gool. Weakly supervised cascaded convolutional networks.2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 5131–5139, 2016. 2 ↩︎

  43. Zhaoyang Zeng, Bei Liu, Jianlong Fu, Hongyang Chao, and Lei Zhang. Wsod2: Learning bottom-up and top-down objectness distillation for weakly-supervised object detection. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), pages 8291–8299, 2019. 2 ↩︎

  44. Zhongzheng Ren, Zhiding Yu, Xiaodong Yang, Ming-Yu Liu, Yong Jae Lee, Alexander G. Schwing, and Jan Kautz. Instance-aware, contextfocused, and memory-efficient weakly supervised object detection. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2 ↩︎

  45. Jinhwan Seo, Wonho Bae, Danica J. Sutherland, Junhyug Noh, and Daijin Kim. Object discovery via contrastive learning for weakly supervised object detection. In Shai Avidan, Gabriel Brostow, Moustapha Cissé, Giovanni Maria Farinella, and Tal Hassner, editors, Computer Vision – ECCV 2022, pages 312–329, Cham, 2022. Springer Nature Switzerland. 2 ↩︎

  46. Shu Liu, Lu Qi, Haifang Qin, Jianping Shi, and Jiaya Jia. Path aggregation network for instance segmentation. In 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8759– 8768, 2018. 3 ↩︎

  47. Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. In 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 936–944, 2017. 3 ↩︎

  48. Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 770–778, 2016. 5 ↩︎

  49. Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), pages 9992–10002, 2021. 5 ↩︎