用于运动目标检测与跟踪的多传感器融合与分类（上）-526互联

用于运动目标检测与跟踪的多传感器融合与分类（上）

摘要——运动物体的准确检测和分类是高级驾驶辅助系统（ADAS）的一个关键方面。相信，通过将来自多个传感器检测的物体分类作为物体表示和感知过程的关键组成部分，可以改进环境的感知模型。首先，定义了一个复合对象表示，以在核心对象的描述中包括类信息。其次，提出了一种基于证据框架的完整感知融合架构，通过集成复合表示和不确定性管理来解决运动物体的检测和跟踪（DATMO）问题。最后，将融合方法集成到interactVe-IP欧洲项目的车辆演示器内的实时应用程序中，该项目包括三个主要项目。

传感器：雷达、激光雷达和相机。使用来自不同驾驶场景的真实数据来测试融合方法。

引言

智能车辆已经从明天的机器人应用发展到目前广泛研发的领域。智能汽车系统最显著的特点是它必须在越来越非结构化的环境中运行，这些环境本身就是不确定和动态的。ADAS帮助驾驶员执行复杂的驾驶任务，以避免出现危险情况。协助任务包括：危险驾驶情况下的警告信息（例如，可能的碰撞），激活安全装置以缓解即将发生的碰撞，自动操作以避开障碍物，以及无需注意的驾驶员警告。

感知环境包括选择不同的传感器以获得环境的详细描述和感兴趣对象的准确识别。车辆感知由两个主要任务组成：同时定位和映射（SLAM），它生成环境地图，同时在给定传感器的所有测量值的情况下在地图内定位车辆；以及DATMO，其检测和跟踪车辆周围的运动物体并估计它们的未来行为。图1显示了感知任务的主要组成部分。

图1. 感知任务的通用架构及其两个主要组件：SLAM和DATMO。Perception提供了一个环境模型，通常由车辆位置、静态对象地图和移动对象列表组成。

对不完整信息的管理是感知系统的一个重要要求。不完整的信息可能源于传感器相关的原因，如校准问题、硬件故障、不确定的检测和异步扫描；或者来自场景扰动，如遮挡、天气问题和对象移动。跟踪过程假设其输入与移动对象唯一对应，然后关注数据关联和跟踪问题。然而，在大多数真实的户外场景中，这些输入包括非移动检测，例如噪声检测或静态物体。正确检测运动物体是运动物体跟踪系统的一个关键方面。通常，许多传感器是这样的系统的一部分。

了解电动汽车周围的物体类别可以更好地了解驾驶情况。分类被视为DATMO任务中的一个单独任务，或者被视为最终感知输出的聚合信息。分类可以通过包括来自环境的不同传感器视图的信息来帮助丰富检测阶段，例如激光雷达提供的撞击点和相机提供的图像补丁。关于对象类别的证据可以提供辨别、确认和质疑数据关联的提示。此外，了解运动对象的类别有利于运动模型的学习和跟踪。

相信，在早期阶段从不同传感器收集的有关感兴趣对象的分类信息可以通过减少误报检测和错误分类来改进它们的检测和跟踪。

关于现有技术的方法，假设SLAM阶段是一个已解决的任务，并专注于运动对象的检测、分类和跟踪。准确地说，将对象类作为证据融合方法的关键组成部分，该方法包括传感器检测的不确定性管理。目标是改进感知任务的结果，即由感兴趣的运动对象的动态状态和外观信息表示的感兴趣的移动对象的更可靠的列表。因此，解决了传感器数据关联、用于目标检测的传感器融合和跟踪的问题。假设，更丰富的跟踪对象列表可以改进ADAS的未来阶段，并增强最终应用程序。

本文的其余部分组织如下：回顾相关工作，框架背后的概念，车辆演示器真实车辆应用程序的软件架构。从不同传感器中提取分类信息的策略，在检测级别的融合方法，以及对运动物体的跟踪，实验结。

相关工作

图2显示了感知系统内部的不同融合水平。在SLAM组件内进行低水平融合的同时，在DATMO组件内进行检测和轨道水平融合。在检测级别，在由各个传感器提供的运动物体检测的列表之间执行融合。在轨道级别，来自各个传感器模块的轨道列表被融合以产生轨道的最终列表。

图2. SLAM和DATMO组件相互作用中的融合水平。获得了令人鼓舞的SLAM结果，并促使专注于DATMO组件。使用几乎确定性的方法来执行跟踪中的关联，使用基于不同类别假设集上的质量分布的证据方法。

为了缩小各种相关工作的范围，将重点放在DATMO内部使用激光雷达、相机和雷达传感器的融合方法上。这一决定来自在第四节中描述的传感器设置。

轨道级的多传感器融合需要每个传感器的更新轨道列表。然后，融合过程必须得到一个轨道的组合列表。这个过程必须解决曲目列表之间的关联问题，并实现一种组合相关对象的机制。通过在这个级别上使用有效的融合策略，可以减少错误轨迹。通常，这一级别的特征是包括分类信息作为对最终输出的补充。

检测级别的融合侧重于收集和组合传感器检测的早期数据，以减少可能导致错误跟踪的错误检测数量。一些工作专注于主动和被动传感器的数据冗余，并遵循物理或学习约束来增加物体检测的确定性。

这些作品并不包括所有可用的动力学和外观信息。此外，在这个水平上，来自传感器测量的外观信息不如区分运动和静止物体的动力学数据重要。

当分类被视为感知解决方案中的一个独立模块时，它通常被实现为单个类别（例如，仅对行人进行分类）或基于单个传感器的分类过程。

这排除了来自多个传感器视图的有价值的判别数据，这些数据可以生成多类模块。

研究观点指出，当在早期感知水平上管理分类信息时，数据关联和跟踪任务的改进是一种直接的增强。

多传感器融合最常见的方法是基于概率方法。然而，基于证据框架的方法不仅为多传感器融合，而且为车辆感知的许多模块提供了一种替代方案。这些方法强调了不完整和不精确信息的重要性，这些信息在概率方法中通常不存在。

融合方法在检测级别的一个优点是，可以通过添加来自不同传感器源的知识来增强对对象的描述。例如，激光雷达数据可以很好地估计到物体的距离及其可见尺寸。

此外，通常从相机图像获得的分类信息可以允许对检测到的对象的类别进行假设。早期丰富对象的描述可以减少错误检测的数量，并将分类作为一个关键元素，而不仅仅是感知输出的附加元素。

证据框架

证据框架是主观概率贝叶斯框架的推广。证据理论（ET）允许根据现有证据对相关问题有一定的置信度。

ET在一组相互排斥的命题中表示世界，称为辨别框架(Ω).它使用置信函数将关于命题的证据分布在2上Ω.大众信仰的分布是由函数

完成的，也称为基本信念分配（BBA）：

Yager规则结合了两种证据来源，同时避免了当存在相当程度的冲突

时出现的反直觉结果。在这个规则中，冲突值分布在辨别框架的所有元素之间，而不仅仅是具有组合质量交集的元素：

车辆感知的证据理论

ET有能力表示不完整的证据、完全无知和不需要先验概率。可以将隐性知识编码在辨别框架结构的定义中。此外，贴现因素是整合证据来源（如传感器性能）可靠性的重要机制。此外，组合规则是整合不同证据体信息的有用工具。智能系统的后期阶段，如推理和决策，可以将证据分布集成到决策过程中。

当假设的数量很大时，ET在计算上变得不那么容易处理，因为置信度分布在所有假设的幂集上，2Ω.

然而，应用程序域可能允许进行假设以进行转换Ω转换为一组可能假设的简化版本。

车辆演示器

使用来自interactVee欧洲项目的CRF（菲亚特研究中心）演示器来获得不同驾驶场景的数据集。为了实现连续支持功能，Lancia Delta汽车（见图3）配备了处理单元、驾驶员交互组件和以下前向传感器：TRW TCAM+摄像头收集B&W图像，FOV为±21◦;TTRW AC100中程雷达提供有关移动目标的信息。它的探测范围高达150米，速度范围高达250公里/小时，FOV为±12◦

（近距离）或±8◦（中等范围），角度精度为0.5◦;IIBEO Lux激光扫描仪提供2D撞击点列表，其范围可达200米，角度和距离分辨率为0.125◦和4cm，FOV为110◦。

软件体系结构

在interactVee项目中的贡献发生在感知系统（PS），该系统旨在提高传感器数据融合的效率和质量，重点关注对象检测和分类。在PS中，开发了多种功能，用于持续的驾驶员支持，也用于执行主动干预以避免碰撞和减轻碰撞。

图4显示了提出的PS的示意图，以及检测和分类模块之间的相互作用。PS旨在检测、分类和跟踪可能出现在车辆前方的一组感兴趣的移动物体。

图3. 左图：CRF车辆演示器的图像。右图：三个正面传感器的视场用作输入，为提出的融合方法收集数据集。

融合模块的输入是来自三个传感器的三个探测物体列表：激光雷达、雷达和相机。每个对象都由其位置、大小和类假设的证据分布来表示。

类别信息是从检测的形状、相对速度和视觉外观中获得的。激光雷达和雷达数据用于进行运动物体检测，并与图像数据合作提取物体分类。融合方法采用了三个复合对象描述列表，并将其传递给跟踪算法。融合方法的最终输出包括对象检测的融合列表，该列表将用于跟踪模块来估计运动对象状态并提供DATMO解决方案的最终输出。

图4. 多传感器感知系统示意图，也称为正面物体感知（FOP）-运动物体检测（MOC）模块。从激光雷达和雷达传感器中提取动力学和外观信息，仅从相机中提取外观信息。

运动物体检测

在这里，回顾了每个传感器的运动物体检测方法。后面描述了对象分类的过程。

激光雷达处理

认为激光雷达（LIght Detection And Ranging）扫描仪是配置中的主要传感器，因为它具有检测障碍物的高分辨率和高精度。此外，它还为感知解决方案的SLAM组件提供动力。激光雷达处理的主要目标是精确测量车辆前方移动障碍物的形状。

1） SLAM组件解决方案：虽然主要贡献集中在DATMO组件上，但解决SLAM组件是为了获得地图和车辆定位。根据提出的想法，使用激光雷达数据

来填充二维贝叶斯占用网格图。映射M中的每个小区与指示该小区被障碍物占据或不被障碍物占用的概率的测量值相关联。

车辆的位置是通过最大似然法找到的。

它包括找到最佳的车辆轨迹估计

，根据形状模型

，先验模型

和似然性模型

。

然后，该方法使用姿态估计和最新的传感器测量来更新网格。

基于激光雷达的检测：如前所述，专注于识别网格图M中空闲和占用单元之间的不一致性，同时逐步构建此类图。如果在先前设置为空闲的位置上检测到占用的测量值，则该测量值属于移动对象。如果在先前占用的位置上观察到自由测量，则它可能属于静态对象。

使用基于距离的聚类过程，可以识别可能属于移动物体的细胞云。该过程提供了关于可能移动物体的可见形状、其大小的估计以及到物体的距离的信息。图5显示了基于激光雷达的运动物体检测过程的演变示例。作为运动物体的一部分检测到的测量不用于更新SLAM中的地图。

图5. 通过处理原始激光雷达数据获得的占用网格表示。从左到右：参考图像；应用SLAM解决方案后的静态占用网格Mt−1；当前激光雷达扫描；移动物体的检测（绿色边界框）。

多传感器数据融合

应用背景介绍

多传感器融合是一项结合多传感器数据的综合性前沿内容，主要包括Camera、激光雷达、IMU、毫米波雷达等传感器的融合，在自动驾驶、移动机器人的感知和定位领域中占有非常重要的地位；随着AI技术的大规模落地，图森、百度、滴滴、Waymo、Momenta、华为、纵目科技、智加科技、赢彻科技、小鹏、蔚来、魔视智能等公司开始逐渐落地自己的L2~L4等级的辅助/自动驾驶产品，从自动泊车、车道保持、行人障碍物预警、定位、测距、跟踪等多个任务都离不开多传感器融合，前视相机、鱼眼相机、毫米波雷达、激光雷达、IMU等传感器一起工作，鲁棒性、准确度都高于单一传感器，因此被多种方案采用，相关技术更是受到重点关注；