Object detection in optical remote sensing images: A survey and a new benchmark

光学遥感图像中的目标检测：调查和新基准

最近人们投入了大量的精力来提出光学遥感图像中物体检测的各种方法。然而，目前对光学遥感图像中目标检测的数据集和基于深度学习的方法的调查还不够。此外，大多数现有数据集都存在一些缺点，例如图像和对象类别的数量规模较小，图像多样性和变化不足。这些限制极大地影响了基于深度学习的目标检测方法的发展。在本文中，我们全面回顾了计算机视觉和地球观测领域最近基于深度学习的目标检测进展。然后，我们提出了一个大规模的、公开可用的光学遥感图像中物体检测基准，我们将其命名为 DIOR。该数据集包含 23,463 张图像和 192,472 个实例，涵盖 20 个对象类别。所提出的 DIOR 数据集（1）在对象类别、对象实例数和总图像数上都是大规模的； (2) 对象尺寸变化范围大，不仅体现在空间分辨率方面，还体现在对象之间的类间和类内尺寸变异性方面； (3)由于成像条件、天气、季节、图像质量的不同，所获得的图像存在较大差异； (4)具有较高的类间相似性和类内多样性。提出的基准可以帮助研究人员开发和验证他们的数据驱动方法。最后，我们评估了 DIOR 数据集上的几种最先进的方法，为未来的研究建立基线。

1 introduction

遥感技术的快速发展，使得遥感影像的数量和质量显着提高，可用于表征地球表面的各种物体，如机场、飞机、建筑物等，这自然对通过自动化手段实现智能化对地观测提出了强烈要求。分析和理解卫星或航空图像。目标检测在图像解读中起着至关重要的作用，对于智能监控、城市规划、精准农业和地理信息系统（GIS）更新等广泛应用也非常重要。在这一需求的推动下，过去几年人们做出了巨大的努力来开发各种光学遥感图像中的目标检测方法。
最近，基于深度学习的算法一直主导着各种视觉识别任务的最高准确度基准因为它们具有强大的特征表示能力。受益于此以及一些公开的自然图像数据集，例如 Microsoft Common Objects in Context (MSCOCO)和 PASCAL Visual Object Classes (VOC)，许多深度学习基于目标检测的方法在自然场景图像中取得了巨大成功。

然而，尽管在自然图像方面取得了巨大的成功，将基于深度学习的目标检测方法直接迁移到光学遥感图像是很困难的。众所周知，高质量和大规模的数据集对于训练基于深度学习的目标检测方法非常重要。然而，遥感图像和自然场景图像之间的差异是显着的。如图1所示，遥感图像通常捕捉地理空间物体的屋顶信息，而自然场景图像通常捕捉物体的轮廓信息。因此，从自然场景图像中学习的对象检测器不容易转移到遥感图像也就不足为奇了。尽管一些流行的目标检测数据集，例如 NWPU VHR-10 、UCAS-AOD 、COWC和 DOTA ，这些都是在地球观测界提出的，但还远远不能满足深度学习算法的要求。
迄今为止，已经做出了重大努力已被用于遥感图像中的目标检测。然而，目前有关数据集和基于深度学习的目标检测方法的文献调查仍然不够。此外，大多数现有的公开数据集都存在一些缺点，例如图像和对象类别的数量规模较小，图像多样性和变化也不足。这些限制极大地阻碍了基于深度学习的目标检测方法的发展。
为了解决上述问题，我们尝试全面回顾基于深度学习的目标检测方法的最新进展。然后，我们提出了一个大规模、公开可用的光学遥感图像中物体检测基准，我们将其命名为 DIOR。我们提出的数据集由 23,463 张图像组成，涵盖 20 个对象类别，每个类别包含约 1200 张图像。在与其他现有的对象检测数据集进行比较时，我们强调了所提出的 DIOR 数据集的四个关键特征。首先，图像总数、对象类别和对象实例的数量都很大。其次，对象具有很大的尺寸变化范围，不仅在空间分辨率方面，而且在对象之间的类间和类内尺寸变异性方面。第三，我们的数据集存在很大的变化，因为图像是在不同的成像条件、天气、季节和图像质量下获得的。第四，具有较高的类间相似性和类内多样性。图 2 显示了我们提出的 DIOR 数据集中的一些示例图像及其注释。

我们的主要贡献总结如下：（1）全面综述基于深度学习的目标检测进展。我们回顾了计算机视觉和地球观测领域现有数据集和基于深度学习的代表性目标检测方法的最新进展，涵盖 110 多篇论文。
(2)大规模基准数据集的创建。本文提出了一个用于光学遥感图像中物体检测的大规模、公开可用的数据集。据我们所知，所提出的 DIOR 数据集在对象类别数量和图像总数上都是规模最大的。该数据集使社区能够验证和开发数据驱动的对象检测方法。
(3) 在所提出的 DIOR 数据集上进行性能基准测试。
我们在 DIOR 数据集上对几种具有代表性的基于深度学习的对象检测方法进行了基准测试，以便为未来的研究工作提供最先进性能的概述。
本文的其余部分安排如下。第 2 节和第 3 节分别回顾了计算机视觉和地球观测领域基准数据集和深度学习方法的最新目标检测进展。第 4 节详细描述了拟议的 DIOR 数据集。第 5 节在所提出的数据集上对几种代表性的基于深度学习的对象检测方法进行了基准测试。