1.9 Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation 基于语义分割遥感图像的模型

发布时间 2024-01-10 17:33:55作者: Lorenzo不爱吃香菜

Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation

参考遥感图像分割的旋转多尺度交互网络

参考遥感图像分割 (RRSIS)是一个新的挑战,它结合了计算机视觉和自然语言处理,通过文本查询描述了航空图像中的特定区域。传统的参考图像分割(RIS)方法受到了航空图像中复杂的空间尺度和方向的阻碍,导致分割结果不理想。为了解决这些挑战,我们引入了旋转多尺度交互网络 (RMSIN),这是一种针对RRSIS的独特需求而设计的创新方法。RMSIN集成了一个尺度内交互模块(IIM) 来有效地解决多个尺度所需的细粒度细节,以及一个跨尺度交互模块(CIM),用于跨网络一致地集成这些细节。此外,RMSIN采用了自适应旋转卷积 (ARC来解释对象的不同方向,这是一个显普提高分割精度的新贡献。为了评估RMSIN的有效性,我们策划了一个包合17,402个图像-标题-掩模三联体的广泛数据集,这在规模和多样性方面是无与伦比的。该数据集不仅为模型提供了广泛的空间和旋转场景,而且还为RRSIS任务建立了一个严格的基准测试,确保了对性能的严格评估。我们的实验评估证明了RMSIN的特殊性能,超过了现有的最先进的模型的显誓优势。
代码:https://github.com/Lsan2401/RMSIN

RMSIN模型

image

Compounded Scale Interaction Encoder CSIE(contain IIM & CIM)

为了在参考文本的指导下有效地定位不同的目标,多尺度的信息与参考表达式同样重要。给定的语言特征F和输入图像I。复合尺度交互编码器(CSIE) 以多阶段的内部和内部视角的方式实现了视觉语言模式的融合。具体来说,CSIE由尺度内交互模块 (IIM) 和跨尺度交互模块 (CIM)两个组件组成。

Intra-scale Interaction Module(IIM)

IIM模块旨在进一步挖掘每个尺度的丰富信息,促进视觉和语言模式之间的交互。基于四个阶段的层次结构。

Cross-scale Interaction Module(CIM)

IIM在语言特征引导下充分提取局部多尺度信息,作者还设计了一个跨尺度交互模块(CIM)来进一步增强粗阶段和精细阶段之间的交互,特别是在航空图像中观察到的尺度变化挑战。具体来说,该模块采用从IIM的每个阶段收集到的特征作为输入,并执行多阶段交互。
首先执行多阶段特征组合,随后实现了多尺度注意层。为了更好地保存局部细节,在HRViT的启发下,引入了一种名为LRC的局部关系来补偿来调节多尺度注意力的输出。前馈层遵循与标准注意块相同的多尺度注意层功能Fc是被分为四个部分,以恢复到F的大小,通过上采样,随后输入到尺度感知门,以获得最终输出采用尺度感知门来缓解多尺度注意前后的语义差距。具体来说,对于F中的每个部分c,我们实现了F中的相应部分e来测量跨尺度相互作用的权重。这个重量被认为是辅助残差为来自IIM的特性。尺度感知门的输出被用于后续的解码器中进行最终的掩码预测。

Oriented-aware Decoder

使用从CSIE中获得的特征集来生成分割。考虑到航空图像中的对象实例往往表现出不同的方句,使用静态水平卷积核来生成掩模可能会导致精度的损失。受面向自标检测的启发,我们将自适应旋转卷积 (ARC)合并到分割解码器中,针对RRSIS任务的特定需求,以实现更好的掩码预测。

Adaptive Rotated Convolution 自适应旋转卷积

ARC从输入特征中捕获角度信息,并动态地重新参数化权值,以过滤掉冗余特征,静态卷积核权值可以看作是来自二维核空间地特定采样点,因此,卷积核的旋转是旋转重采样的过程。值得注意的是,一半的卷积层被ARC取代,以利用特征空间中的方向信息,从而消除冗余,提高边界细节的精度。

Experiment

作者在实验中,视觉主干使用了ImigineNet224k上预先训练的Swin Transformer,而语言主干使用了来自HuggingFace’s library的基本BERT模型。使用AdamW对模型进行了40周期的训练,权重衰减未0.01,起始学习率为0.0001,图像的大小为480*480 像素。
使用oIoU、mIoU、准确度@X作为评价指标。oIoU测量预测的和地面真实掩模之间的相交面积与联合面积的总比率。mIoU计算所有图像区域对的平均精度,确保对物体进行无论大小如何的公平评估。P@X在特定的IoU阈值下评估精度,反映该方法在目标目标中的准确性。

image

在验证子集上的每个指标上都优于所有比较的方法。值得注意的是,它比最近表现最好的方法LAVT的mIoU提高了3.54%。这种显著的增强在处理复杂的情况下尤其明显例如非常小或旋转的物体,在P@O.5、P@O.6和P@O.7中的增加分别为5.12%、4.71%和4.25%。这些结果突出了RMSIN捕获详细的局部和方向特定的信息的能力,从而导致更准确的分割。

Ablation study 消融研究

image

IIM和CIM的有效性 为了验证提出的双尺度交互模块在CSIE中的有效性,我们对所有组合的IIM和CIM。IIM的引入在较低的IOU闽值下带来了明显的精度提高,而CIM的加入进一步细化了不同IOU水平的预测。这两个模块的联合效应显示了协同增强在所有评估指标中产生了最高的性能,特别是在P@O.5P@0.7和mIoU中,利润率在3.5%到4.5%之间。这些发现证实了IIM和CIM在从图像中捕捉多尺度特征方面发挥的关键作用,从而证实了它们在推进模型的整体分割能力方面的有效性。

image

CIM的设计 为了进一步证实CIM的有效性,作者对CIM的设计选项其主要成分进行了详细的分析,在包含完整的模块后,观察到最显著的增强,显示最高的度量增强超过4.14%。这证实了CIM在保存局部细节和提取多尺度信息方面的作用。

image

解码器的设计 解码器的设计选项。作者探索了分割解码器结构的设计。CIM产生具有健壮语义和复杂空间细节的输出特性。因此,提出的定向感知解码器直接连接特征,并通过ARC提取角度信息,以获得更适合更准确的RS任务的预测。作者还实验了两种不同的解码器结构提出的解码器的特殊结果,在所有指标上都超过了其他指标,强调了在解码过程中合并角度信息的重要性。这一结果坚定地重由了文中的方法在为遥感应用定制掩模预测方面的有效性,其中包含精确的角度信息是优化分割精度的一个关键因素。

image

ARC的设计 作者进一步研究了自适应旋转卷积(ARC)替代策略对结果的影响,如图所示,逐步替换在解码器的每个阶段的卷积层,结果显示一个一致的向上趋势。因此选择替换解码器的所有三层。此外作者还探讨了ARC预测角度数的便哈对所示的预测结果的影响,当预测的角度数量设置为4时,解码器显示了其最佳的性能,与使用1个角度相比,其性能提高了1%,从而模型设置为4.

可视化结果

image

作者将预测结果与基线进行了定性比较,并可视化。作者的模型表现出了显薯的精确识别不同尺度上出现的目标的能力。此外,它还能熟练地定位噪声晋景中的小尺度物体,并稳健地预测以不同角度出现的物体。相比之下,由基线模型生成的预测掩模表现出缺陷,包括缺失的部分和明显的变化。

Visualization of Features from Encoder

image

如图所示,在ARC和CSIE消融术下训练时可视化RMSIN的特征图。很明显,RMSIN可以在尺度交互和旋转卷积的帮助下准确地捕获边界信息。通过CSIE的尺度交互作用和ARC的方向提取,RMSIN可以更深入地关注参考目标。与第一行相比,CSIE在更深的层中提供了更准确的语义,ARC提供了空间先验,这对于旋转对象分割非常重要。这些定性比较强调了文中的方法在解决与规模变化和方向鲁棒性相关的挑战方面的有效性,肯定了其在不同场景中的能力。

conclusion

在文章中介绍了一个旋转多尺度交瓦网终 (RMSIN),这是一种新的解决方案,解决在RRSIS中发现的复杂空间尺度和方向。尺度内交互模块的引入和RMSIN中的跨尺度交互模块专门解决了航空图像中不同空间尺度的挑战。此外,RMSIN中自适应旋转卷积的集成为有效处理此类图像的不同方向特征提供了个稳健的解决方案。对新开发的、全面的RRSIS-D数据集的广泛验证不仅证明了RMSIN的优越的性能,而且为未来的研究奠定了一个新的基准。