FUTR3D一种用于三维检测的统一传感器融合框架

发布时间 2023-12-28 05:54:45作者: 吴建明wujianming

FUTR3D一种用于三维检测的统一传感器融合框架

 

图1. 不同的自动驾驶汽车有不同的传感器组合和设置。FUTR3D是用于3D检测的统一端到端传感器融合框架,可用于任何传感器配置,包括2D相机、3D激光雷达、3D雷达和4D成像雷达。

摘要

传感器融合是自动驾驶和机器人等许多感知系统中的一个重要课题。现有的多模态3D检测模型通常涉及取决于传感器组合或设置的定制设计。在这项工作中,提出了第一个用于3D检测的统一端到端传感器融合框架,名为FUTR3D,它可以用于(几乎)任何传感器配置。FUTR3D采用了基于查询的模态识别特征采样器(MAFS),以及具有用于3D检测的集对集损失的变换器解码器,从而避免了使用后期融合启发式和后处理技巧。在相机、低分辨率激光雷达、高分辨率激光雷达和雷达的各种组合上验证了框架的有效性。在NuScenes数据集上,FUTR3D在不同传感器组合中实现了比专门设计的方法更好的性能。

此外,FUTR3D通过不同的传感器配置实现了极大的灵活性,并实现了低成本的自动驾驶。例如,仅使用带相机的4束激光雷达,FUTR3D(58.0mAP)就超过了使用32束激光雷达的最先进的3D检测模型(56.6mAP)。代码可以在项目页面上找到。

引论

传感器融合是对来自不同信息源的传感数据进行集成的过程。它是自动驾驶、物联网和机器人等自动感知系统不可或缺的一部分。通过不同传感器捕获的互补信息,融合有助于降低状态估计的不确定性,并做出更全面、更准确的预测。例如,在自动驾驶汽车上,激光雷达可以有效地检测和定位障碍物,而相机更能识别障碍物的类型。

然而,多感官系统通常具有不同的传感器设置。如图1所示,每个自动驾驶汽车系统都有专有的传感器配置和放置设计。

例如,自动驾驶出租车通常在顶部有360度激光雷达和全景摄像头,以及车辆周围的周边激光雷达或雷达;机器人卡车通常在拖车头上有两个或多个激光雷达,以及用于远程感知的长焦距相机;乘用车依靠车辆周围的摄像头和雷达来执行驾驶员辅助。为不同的传感器配置定制专门的算法需要付出巨大的工程努力。因此,设计一个统一有效的传感器融合框架具有重要的价值。先前的研究工作已经为激光雷达和相机融合提出了几种复杂的设计。基于提议的方法要么从激光雷达点云中提出边界框,然后从相机图像中提取相应的特征,要么从图像中提出截头体,并根据截头体中的点云进一步细化边界框。

基于特征投影的方法通过将点特征投影到图像特征图上或用颜色绘制点云来关联模态。由于雷达信号的稀疏性,进行相机-雷达融合通常涉及更复杂的特征对准技术。

工作介绍了第一个端到端的3D检测框架,名为FUTR3D(3D检测的融合转换器),它可以与任何传感器组合和设置一起工作,例如相机-激光雷达融合、相机-雷达融合和相机-激光达达雷达融合。FUTR3D首先对每个模态的特征进行单独编码,然后使用基于查询的模态不可知特征采样器(MAFS),该采样器在统一的域中工作,并从不同模态中提取特征。最后,转换器解码器对一组3D查询进行操作,并执行目标的集合预测。MAFS和转换器解码器的设计使模型端到端并且固有地与模态无关。

工作贡献如下:

•据所知,FUTR3D是第一个统一的传感器融合框架,可以以端到端的方式与任何传感器配置配合使用。

•设计了一种模态不可知特征采样器,称为MAFS。它对相机、高分辨率激光雷达、低分辨率激光雷达和雷达的特征进行采样和聚合。MAFS使方法能够在

以模态不可知的方式的任何传感器及其组合。该模块可能适用于任何多模式用例。

•FUTR3D在不同传感器组合中的性能优于专门设计的融合方法。例如,即使点绘制被设计用于高分辨率激光雷达和图像,但FUTR3D在没有铃声和口哨声的情况下仍优于点绘制。

•FUTR3D通过不同的传感器配置实现了卓越的灵活性,并为自动驾驶提供了低成本的感知系统。在nuScenes数据集上,FUTR3D通过4束激光雷达和相机图像实现了58.0mAP,这超过了现有技术的32束激光雷达3D检测模型。

•将发布代码以促进未来的研究。

相关工作

基于激光雷达的三维检测

基于激光雷达的检测器在自动驾驶中的主流将3D空间量化为体素或柱,然后使用卷积主干提取一堆鸟瞰图特征图。该框架内的探测器从2D探测器设计中汲取了大量经验。除了体素表示,还探索了基于点的视图和范围视图。在VoxelNet、Lidar RCNN中已经使用了PointNet架构来提取小区域的不规则点的特征。一些工作证明了距离视图的计算效率。MVF和Pillar OD引入了多视图投影,以学习视图的互补功能。目标DGCNN使用DGCNN对目标关系进行建模,并提出了第一个基于集合预测的三维目标检测流水线。

基于摄像头的三维检测

Monodis直接从2D目标检测迁移过来,在单目图像上学习单级3D目标检测器。FCOS3D考虑在多视图图像上进行3D目标检测。它预测每个图像的3D边界框,并在后处理步骤中聚合预测。伪激光雷达将图像提升到3D空间中,并使用基于点云的管道来执行3D检测。DETR3D设计了一种基于集合的3D目标检测模型,该模型对多视图图像进行操作。DETR3D使用相机变换将2D特征提取与3D预测联系起来。此外,由于集合预测模块,它不需要后处理。方法与DETR3D密切相关,因为使用了类似的目标检测头和特征采样模块。与DETR3D相比,特征采样模块是模态不可知的,这使它能够用于传感器融合。

多模式三维检测

除了经典的启发式后期融合技术外,可以将基于学习的多模式融合方法大致分为两类:基于建议的方法和基于特征投影的方法。

在过去的几年里,基于提案的方法已经非常流行。这种方法背后的思想是从一个传感器模态中提出目标,然后在另一个模态上进行细化。MV3D首先使用激光雷达特征在鸟瞰图中生成3D目标建议,然后将其投影到相机视图和激光雷达前视图,以融合激光雷达相机特征。Frustum PointNet和Frustum ConvNet使用2D目标检测器在相机视图中生成2D建议,然后将2D建议提升到3D平截头体,最后使用在平截头体内执行3D框估计。AVOD在鸟瞰图中放置密集的锚框,然后将这些锚投影到相机图像和激光雷达体素中,用于特征融合和区域建议。

基于特征投影的方法通常在检测头之前进行特征投影和融合。通过找到点像素的对应关系,实现了中层特征融合,并制作了一个单级检测器。ContFuse进一步使用KNN来更好地找到图像像素的匹配点,并在多个级别上融合特征。性能最好的基于相机激光雷达的3D检测算法PointPaint将激光雷达点投影到预先训练的图像语义分割网络的预测图上,并将语义预测标签与每个点的强度测量融合。MVP生成具有语义标签的密集虚拟点,以更好地利用图像信息。尽管基于特征投影的方法最近取得了令人印象深刻的性能,但它们的设计通常需要大量的启发和对传感器模态的理解。

还有一些关于融合相机图像和雷达信号的工作与相机激光雷达融合有着相似的精神。对透视图中的相机图像和雷达信号进行编码,并通过简单的特征图拼接将它们融合。CenterFusion从图像中提出了3D边界框,并通过将其特征与鸟瞰图中的雷达信号融合来进一步细化它们。

 

图2. FUTR3D概述。每个传感器模态都在其自己的坐标中单独编码。然后,基于查询的模态识别特征采样器(MAFS)根据每个查询的3D参考点从所有可用模态中提取特征。最后,转换器解码器根据查询预测3D边界框。预测的框可以迭代地反馈到MAFS和变换器解码器中以细化预测。

方法

FUTR3D在概念上可分为四个部分。首先,来自不同传感器模态的数据可以由它们的模态特定特征编码器进行编码。然后,根据查询的初始位置,使用基于查询的模态不可知特征采样器(MAFS)对所有模态的特征进行采样和聚合;这是这部作品的主要新颖之处。接下来,使用共享的变换器解码器头来使用迭代细化模块基于融合的特征来细化边界框预测。最后,损失是基于预测和基本事实之间的集合匹配。FUTR3D被设计为多模态传感器融合的统一框架,这使得像DETR3D和Object DGCNN这样的单模态方法成为方法的特例。为了便于演示,使用与FUTR3D相同的符号。FUTR3D的概述如图2所示。

模态特定特征编码

FUTR3D独立地学习每个模态的特征。由于框架不对所使用的模态或其模型架构进行假设,因此模型适用于任何特征编码器的选择。这项工作重点关注三种类型的数据:激光雷达点云、雷达点云和多视图相机图像。

对于激光雷达点云,使用VoxelNet对激光雷达点云中进行编码。

模态不可知特征采样器

FUTR3D最关键的部分是特征采样过程,称为模态不可知特征采样器(MAFS)。检测头的输入是来自所有传感器的一组目标查询和特征。

MAFS通过从每个传感器特征中采样特征并融合它们来更新每个查询。

初始三维参考点。在AnchorDETR之后,首先随机初始化查询,其中Nq个参考点表示三维空间中的相对坐标。然后,该三维参考点用作锚点,以收集来自多个来源的特征。初始参考点不依赖于任何传感器的特征,在融合所有模态的特征后,它将动态更新。

LiDAR点特征采样3D主干和FPN之后的点云特征表示为。根据可变形注意力,从每个比例特征图中采样K个点。表示三维参考点在BEV中的投影。

雷达点特征采样

与激光雷达特征采样类似,使用可变形注意力对雷达特征进行采样。

图像特征采样利用相机的内外参数将参考点投影到第k个相机的图像上,并表示投影参考点的坐标。使用投影的图像坐标对所有相机的特征图中的点特征进行采样,并进行加权和。

模态不可知特征融合

在对所有模态的点特征进行采样后,融合特征并更新查询。首先,连接来自所有模态的采样特征,并使用MLP网络对其进行编码。

迭代三维框优化

采用了一种迭代精化方法。使用最后一层中框中心坐标的预测作为每个查询的3D参考点,除了第一层直接解码和输入来自目标查询的不可知参考点。

表1. 与nuScenes测试集上领先方法的比较。

FUTR3D在单模态设置中超越或实现了与最先进方法相当的性能,包括分别使用激光雷达和相机的方法,以及在激光雷达相机融合设置中。”L’和C’分别代表激光雷达和照相机。方法将VoVNet用于相机主干,将0.075米大小的VoxelNet用于激光雷达主干。

 

表2. 具有低分辨率激光雷达的相机在nuScenes val-set上的结果。FUTR3D显著优于低分辨率激光雷达的CenterPoint和相机+低分辨率激光DAR的PointPainting。在相机+4束激光雷达设置下,FUTR3D达到58.0毫安时,超过了最先进的32束激光雷达探测器CenterPoint(56.6毫安时)。

 

loss

接下来,使用一对一匹配计算预测和地面实况之间的集对集损失。采用焦点损失进行分类,采用L1回归损失进行3D边界框作为DETR3D。正如Co-DETR所指出的,稀疏的监督,如一对一的集合丢失,会阻碍学习的有效性。为了了解更具鉴别力的激光雷达特征,在激光雷达编码器之后加入了一个辅助的一级探测器头,即CenterPoint中使用的头。这个一级头是与原始变压器解码器联合训练的。值得注意的是,辅助头仅在激光雷达训练期间使用,而在推理期间不使用。

实验

实施详细信息

数据集。使用nuScenes数据集进行所有实验。该数据集由3种模态组成,即6台摄像机、5台雷达和1台激光雷达。所有这些都是用360度全视场拍摄的。总共有1000个序列,其中每个序列大约有40个带注释的关键帧。关键帧在传感器之间同步,采样率为2 FPS。

摄像头。

在每帧中,nuScenes提供来自六个相机的图像[左前、前、右前、左后、后、右后];在相机之间存在重叠区域,并且整个场景被覆盖。分辨率为1600×900。

激光雷达。

nuScenes提供32束激光雷达,其旋转速度为20 FPS。由于只有关键帧以2 FPS进行注释,因此遵循常见做法将点从过去的9帧转换为当前帧。

低分辨率激光雷达。

低分辨率激光雷达通常用于许多低成本的使用情况。认为这些低分辨率激光雷达是对高分辨率激光雷达的补充设置,因为它们可以扩展到可用于生产的平台上。模拟了32束激光雷达的低分辨率激光雷达输出。

雷达

将所有五个雷达捕获的点叠加到一个点云中;每个点云每帧包含200到300个点。使用雷达坐标、速度测量和强度。使用nuScenes提供的官方工具过滤雷达点。

模型设置。

在激光雷达和图像特征

提取时,使用由FPN编码的M=4层多尺度特征。当使用可变形注意力时,使用K=4个采样偏移。在检测头的变换解码器中总共有L=6个块。

训练详细信息。

对于基于激光雷达的探测器,使用AdamW优化器对其进行20个时期的训练。将学习率设置为1.0×10−4,并采用循环学习率策略。删除了过去5个时期中的目标采样增加。对于激光雷达相机模型,分别对激光雷达主干和相机主干进行预训练,然后共同对模型进行另外6个时期的微调。对于相机雷达模型,对图像模型进行预训练,然后对相机和雷达进行联合训练。

将分类损失和L1回归权重设置为2.0和0.25。在激光雷达训练中,辅助头部损失重量设置为0.5。

评估指标。

平均精度(mAP)和无场景检测分数(NDS)是无场景3D检测基准的主要指标。对于mAP,nuScenes会考虑鸟瞰图上边界框中心之间的距离。NDS通过合并几个细分指标来衡量检测结果的质量:平均平移误差(ATE)、平均标度误差(ASE)、平均方向误差(AOE)、平均速度误差(AVE)和平均属性误差(AAE)。

按照官方评估协议对所有类别的指标进行平均。

多模式检测

在几种传感器组合下展示了框架的有效性。

带摄像头的高分辨率激光雷达是自动驾驶中最常用的传感器组合。将方法与表1中最先进的方法进行了比较。FUTR3D实现72.1%的NDS和69.4%的mAP

在nuScenes测试集上,超过TransFusion 0.4%的NDS和0.5%的mAP。此外,FUTR3D在仅使用激光雷达和仅使用相机的设置中实现了与最先进技术相当的结果。

带摄像头的低分辨率激光雷达。还研究了低分辨率激光雷达与相机一起用于成本效益高的应用。具体而言,如前所述,模拟了4束和1束激光雷达配置,并将方法与表2中的专门方法PointPainting进行了比较。在表2中报告了低分辨率激光雷达的单模态方法的结果。

FUTR3D在4束激光雷达加相机设置上的性能优于PointPainting 8.0毫安,在1束激光雷达加相机设置上则优于21.4毫安。PointPainting使用nuImages的额外图像数据来预训练其图像分割模型,而方法不包括任何额外数据。值得注意的是,FUTR3D在配备相机的4束激光雷达的情况下达到58.0毫安时,其性能优于(1.4毫安时)性能最好的激光雷达探测器之一,即配备32束激光雷达(56.6毫安时)的CenterPoint。

FUTR3D通过低分辨率激光雷达和高分辨率激光雷达实现了高性能,这表明FUTR3D是一种通用的传感器融合框架。

摄像头和雷达是一种成本效益高的传感器设置,通常用于乘用车的驾驶员辅助系统。雷达提供稀疏的物体定位和速度信息。除了平均精度(mAP)和归一化检测分数(NDS)外,还报告了平均速度误差(mAVE)度量,该度量测量盒子速度预测的误差,并通过使用雷达显著降低。如表3所示,方法显著优于最先进的CenterFusion。这些结果突出了方法在利用稀疏雷达点中包含的有用信息方面的有效性。添加Radars比纯相机版本提高了5.3毫安时和8.6 NDS分数。在这组实验中,ResNet-101主干被用于相机主干。

表3. nuScenes值集上的相机-雷达融合结果。FUTR3D在很大程度上优于CenterFusion。尽管雷达点提供的深度估计和定位信息很稀疏,但它们仍然有助于提高精度和减少速度误差。

 

相机和激光雷达的特性

FUTR3D是一个统一的检测框架,可以在仅相机、仅激光雷达和相机激光雷达融合设置中工作。据所知,这是第一次可以控制检测方法,并研究传感器融合的性能增益,分别与每个传感器进行比较。为了研究不同传感器的特性,根据物体距离、不同尺寸和物体类别,对FUTR3D在不同相机-激光雷达组合上的性能进行了细分。结果基于FUTR3D,激光雷达采用0.1m体素,相机采用ResNet-101。

目标类别。

在表4中报告了激光雷达和相机方法对每个物体类别的平均精度(AP)。尽管仅4束激光雷达的FUTR3D的总mAP高于仅相机的FUTR三维(42.1 mAP vs.34.6 mAP)。在自行车、交通锥和障碍物上,仅摄像头的模型优于4束激光雷达模型,表明4束激光DAR不擅长检测小物体。此外,当为4束激光雷达配备摄像头时,自行车、交通锥和摩托车的性能显著提高。

 

图3. FUTR3D的定性结果。通过将激光雷达点投影到图像上来显示透视图像视图结果。(a) 在红圈标记的距离内有一辆汽车,32束激光雷达探测器错过了这辆车。(b) 用红色圈出的广告牌仅通过视觉被错误地检测为行人。这可以在单光束激光雷达的帮助下进行校正。

表4. 按目标类别划分的性能细分。相机在自行车、交通锥和摩托车上显著帮助基于激光雷达的探测器。缩写:施工车辆(CV)、行人(Ped)、摩托车(Motor)和交通锥(TC)。

 

目标距离。给定盒子中心到自载体的距离,将地面真值盒子分为三个子集:[0m,20m],[20m,30m],[30m,+∞],每组分别占所有地面真值盒的42.93%,28.27%,28.8%。请注意,距离大于30米的交通锥盒和障碍物将根据nuScenes 3D检测的官方评估协议自动过滤掉。结果如表5所示。对于30米以上的盒子,FUTR3D相机仅能达到10.4毫安时,而4束激光雷达模型能达到16.1毫安时。然而,融合这两个传感器将性能提升到一个新的水平(27.4毫安时)。即使对于32束激光雷达模型,额外的相机传感器也可以将模型在更远物体上的性能从29.9毫安时提高到36.7毫安时。添加相机可以最大程度地提高激光雷达在更远区域的感知能力。

目标大小。基于3D盒的较长边将地面实况盒划分为三个子集:[0m,4m]&[4m,+∞],每组分别占gt盒的46.18%和53.82%。表6报告了相机的mAP

每组的激光雷达模型。通过在所有激光雷达模型中添加相机,小物体上的性能改进比大物体上的更大。相机对基于激光雷达的探测器的改进更多地针对小物体,因为相机甚至比32束激光雷达具有高得多的分辨率。然而,通过在纯相机模型中添加不同的激光雷达所带来的性能改进对于小型和大型物体来说大致相同,这意味着在定位小型和大型目标时,深度信息同样有用。

表5. 按目标距离细分的性能。考虑到其自距离,将盒子分开,并独立报告mAP。结果显示,相机有助于基于激光雷达的探测器更多地探测更远的物体。

 

表6. 按目标大小细分的性能。考虑到盒子最长的边缘,把它分开。结果表明,相机对基于激光雷达的探测器的改进更多地针对小物体。

 

表7. 使用nuScenes验证集对辅助激光雷达头进行消融。辅助头仅用于训练。

 

摄像头主干选择。展示了FUTR3D在不同相机主干下的结果。使用ResNet-101和VoVNet对图像主干进行了实验。

表8. 使用nuScenes测试集对相机主干进行消融。体素大小为0.075米的体素网络用于激光雷达主干。第一行显示了仅使用激光雷达的FUTR3D版本的结果。

 

定性结果

在图3中,可视化并比较了不同设置下的结果。在图3a中,显示了4光束激光雷达+相机(左)和仅32光束激光雷达(右)的结果。使用稀疏的激光雷达光束和相机,当使用32光束激光雷达错过时,方法仍然能够检测到远处的汽车,用红色圈出。相机提供比激光雷达光束更密集的像素,这可能有助于检测遥远的物体。在图3b中,显示了单光束激光雷达+相机(左)和仅相机(右)的结果。在单光束激光雷达的帮助下,相机能够消除红圈中的假阳性,因为激光雷达直接向模型提供几何信息。这验证了FUTR3D框架的有效性。此外,这与假设一致,即在许多情况下,低成本的激光雷达和相机在物体识别方面与昂贵的激光雷达相当。

讨论与结论

观察到两个潜在的局限性。首先,训练管道需要两阶段的训练:相机编码器和激光雷达编码器首先在相同的检测任务上独立预训练,然后进行联合微调。这为进一步研究用于3D目标检测的多模式优化技术提供了场所。

总之,在这项工作中,提出了一个统一的三维目标检测端到端传感器融合框架。见解是,基于查询的模态不可知特征采样器(MAFS)使模型能够与任何传感器组合和设置一起工作。希望这个架构可以作为多模态融合和场景理解的基础框架。