Online Temporal Calibration for Monocular Visual-Inertial Systems-526互联

摘要：

准确的状态估计是各种智能应用的基本模块，例如机器人导航、自动驾驶、虚拟和增强现实。近年来，视觉和惯性融合是一种流行的技术，用于6自由度状态估计。不同传感器测量记录的时间点对于系统的鲁棒性和准确性非常重要。实际上，每个传感器的时间戳通常会受到触发和传输延迟的影响，导致不同传感器之间存在时间错位（时间偏移）。时间偏移对于传感器融合的性能有着重要的影响。因此，我们提出了一种在线方法来校准视觉和惯性测量之间的时间偏移。我们的方法通过在SLAM系统中联合优化时间偏移、相机和IMU状态以及特征点位置来实现时间偏移校准。此外，该方法是一个通用模型，可以轻松地应用于多个基于特征的优化框架中。仿真和实验结果表明，即使与其他最先进的离线工具相比，我们的校准方法也具有高精度。与其他方法的VIO比较证明，在线时间校准显著有利于视觉惯性系统。时间校准的源代码已经集成到我们的公共项目VINS-Mono中。

1、介绍

状态估计是机器人和计算机视觉社区在过去几十年中的基础研究课题。各种应用，如机器人导航、自动驾驶、虚拟现实（VR）和增强现实（AR），都高度依赖于准确的状态估计。我们特别关注只涉及一个相机的状态估计解决方案，因为它具有小尺寸、低功耗和简单的机械配置等优点。在单目视觉技术方面，已经取得了出色的成果[1]-[7]，可以计算出准确的相机运动和环境结构。为了解决众所周知的尺度歧义问题，多传感器融合方法越来越受到关注。许多研究[8]-[17]使用惯性测量单元（IMU）辅助相机，取得了在6-DOF SLAM（同时定位和建图）方面令人印象深刻的性能。一方面，惯性测量使得俯仰和横滚角以及尺度可观测。另一方面，惯性测量通过弥合视觉跟踪失败时的差距，提高了运动跟踪性能。

为了融合来自不同传感器的数据，必须精确知道测量记录的时间点。实际上，每个传感器的时间戳通常会受到触发和传输延迟的影响，导致不同传感器流之间存在时间上的不对齐（时间偏移）。因此，传感器的时间同步可能对多传感器系统造成重要问题。对于视觉惯性系统，相机和IMU之间的时间偏移会极大地影响其鲁棒性和精度。大多数视觉惯性方法[13、14、16、17]假定测量的时间戳在单个时钟下是精确的。因此，这些方法适用于少数严格硬件同步的传感器。对于大多数低成本和自组装的传感器组合，硬件同步是不可用的。由于触发和传输延迟，相机和IMU之间总是存在时间上的不对齐（时间偏移）。时间偏移通常范围从几毫秒到数百毫秒。几十毫秒就会导致IMU序列完全与图像流不对齐，从而极大地影响视觉惯性系统的性能。

为此，我们提出了一种在线校准视觉惯性系统时间偏移的方法。我们假设时间偏移是一个常数但未知的变量。我们通过在SLAM系统中估计相机和IMU状态以及特征位置来在线校准它。我们的校准方法是一个通用的因子，可以轻松地应用于其他基于特征的视觉惯性优化框架中。虽然我们使用单目传感器套件展示了我们的方法，但所提出的方法可以轻松地应用于多摄像头视觉惯性系统。我们的贡献如下：

我们提出了一种在线方法来校准视觉惯性系统中相机和IMU之间的时间偏移。

我们通过模拟和真实世界实验展示了在线时间校准的重要性。

将开源代码集成到公共项目中。

本文的其余部分结构如下。第二节讨论相关文献。第三节详细介绍算法。第四节介绍实现细节和实验评估。最后，第五节总结本文。

2、相关工作

在过去的几十年中，对视觉惯性测距技术进行了大量研究，旨在高精度计算相机运动和环境结构。流行的技术要么是基于滤波器的框架[9]–[12，17]，要么是批量优化[13]–[16，18]。大多数视觉惯性算法通过提取稳健的稀疏特征而不是对密集图像进行操作来处理图像。在这些工作中，[9、10、18]使用了无结构视觉因子，通过将视觉残差投影到零空间上来消除特征。它们更注重估计相机或IMU运动而不是特征位置。[13、14、16]选择性地保留关键帧和特征束，同时优化相机运动和特征。所有这些方法都假设IMU和相机精确同步，没有时间上的错位。

IMU和相机之间的时间错位是低成本和自组装设备中的典型问题。由于未同步的时钟、触发延迟和传输延迟，测量时间戳与实际采样时间瞬间不匹配。这个时间偏移量是未知的，需要进行校准。许多研究都集中在校准这个问题上。Mair [19]提出了一种时间和空间校准的初始化方法，使用交叉相关或相位一致性。这种方法以一种新颖和特殊的视角制定了校准过程。它将校准变量与其他未知变量（姿态、特征位置）分开。因此，它可以提供一个良好的先验，而不受其他变量的影响。此外，一些方法在更精确的公式中建模时间偏移量。Kelly [20]将相机和IMU的旋转曲线对齐以校准时间偏移量。它利用ICP（迭代最近点）方法的变体逐步匹配两个旋转曲线。Kalibr来自Furgale [21]，在连续批量优化过程中估计时间偏移量、相机运动以及相机和IMU之间的外部参数。Kalibr取得了令人印象深刻的性能，并成为了一个流行的工具箱。然而，这两种方法都是离线操作的，使用固定的平面模式（如棋盘）。校准模式为它们提供了强大的特征跟踪和关联，以及准确的三维位置。此外，Li在[22]中提出了一种带有在线时间校准的运动估计方法，用于相机-IMU系统。时间偏移量在多状态约束EKF框架中进行校准。他的方法在计算复杂度方面具有显着优势，可以用于便携式移动设备。与他的方法相比，我们基于优化的算法在精度方面表现更好，因为我们可以迭代地在一个大束中优化许多变量，而不是早期固定线性化误差。

3、算法

在这个部分中，我们对视觉因素中的时间偏移进行建模，并在基于优化的VIO框架中在线计算它，同时结合特征、IMU和相机状态。我们简要地将框架和符号表示如下。 (·) w 表示全局框架。 (·) c 表示本地相机框架。 (Rwc, pwc) 是相机在全局框架中的姿态，可以将相机框架中的3D特征转换到全局框架中。

A、时间偏移

对于低成本和自组装的视觉惯性传感器组，相机和IMU被放在一起，没有严格的时间同步。由于触发延迟、传输延迟和不同步的时钟，生成的时间戳不等于采样测量的时间点。因此，不同测量之间通常存在时间偏移。在一般情况下，传感器之间的时间偏移是一个常数但未知的值。在某些更糟糕的情况下，传感器使用不同的时钟收集数据，时间偏移会随着时间漂移。这种传感器不适合进行传感器融合。

本文考虑时间偏移量t_d是一个常数但未知的情况。图1展示了一个说明时间偏移的图片。在图片中，上面的图表示采样时刻，下面的图显示时间戳时刻。由于触发延迟、传输延迟和不同步的时钟，生成的时间戳与实际采样时间不相等，导致相机和IMU之间存在时间上的不对齐。具体而言，我们将t_d定义为：

时间偏移量t d 是我们应该将相机时间戳向前或向后移动的时间量，以使相机和IMU数据流在时间上保持一致。t d 可以是正值或负值。如果相机序列的延迟时间比IMU序列长，则t d 是负值。否则，t d 是正值。

B、图像平面上特征的速度

为了使相机和IMU数据流在时间上保持一致，相机序列应根据时间偏移量t d 向前或向后移动。我们不是将整个相机或IMU序列移动，而是在时间线上特别移动特征的观测。为此，我们引入特征速度来建模和补偿时间不对齐。在非常短的时间内（几毫秒），相机的运动可以被视为匀速运动。因此，在短时间内，特征在图像平面上以近似恒定的速度移动。基于这个假设，我们计算特征在图像平面上的速度。

如图2所示，I k 和I k+1是两个相邻的图像帧。假设相机在短时间段[t k , t k+1 ]内以恒定速度从C k移动到C k+1。因此，我们近似认为特征点l在这个短时间段内在图像平面上也以恒定速度V l k移动。速度V l k的计算如下：

C、带有时间偏移的视觉因子

在经典的稀疏视觉SLAM算法中，视觉测量被制定为代价函数中的（重新）投影误差。我们通过添加一个新变量——时间偏移量，来重新构建经典的（重新）投影误差。特征有两种典型的参数化方式。一些算法将特征参数化为其在全局坐标系中的3D位置，而其他算法则将特征参数化为相对于某个图像帧的深度或逆深度。在接下来的内容中，我们将分别使用这两种参数化方式将时间偏移量建模为视觉因素。

1）三维位置参数化：该特征被参数化为全局坐标系下的三维位置（P l = [x l , y l , z l ] T）。传统上，视觉测量被公式化为投影误差。

上述公式中，相机位姿（Rwc_k, pc_k）受到视觉测量的约束，也受到IMU测量的约束。在实践中，如果IMU和相机之间存在时间不对齐的情况，那么IMU约束与视觉约束在时间域上就不一致。换句话说，我们需要将相机序列向前或向后移动，使得相机和IMU数据流在时间上保持一致。我们不是将整个相机或IMU序列移动，而是特定地移动时间线上的特征观测。新的公式如下：

V l k 是从公式2中得出的特征在图像平面上的速度，t d 是时间偏移的未知变量，它将特征的观测在时间域上进行了偏移。通过优化 t d ，我们可以找到最佳的相机姿态和特征在时间域上的观测，以匹配IMU的约束条件。

2）深度的参数化：

该特征也可以被参数化为相对于图像帧的深度或逆深度。我们以图像i中的深度λi为例。传统的从图像i到图像j的重投影误差可以写成：

特征点l首先被投影到全局坐标系中，然后在本地相机坐标系j中被反投影到图像平面上。残差是观测位置和反投影位置之间的位移。

与公式4类似，我们考虑时间偏移变量t

图3展示了重新投影过程。虚线表示传统的重新投影过程，没有考虑时间偏移模型。实线表示提出的重新投影过程，考虑了时间偏移。黄线表示IMU约束。IMU约束与传统的重新投影约束不一致。通过优化时间偏移量td，我们可以找到最佳的相机姿态和特征在时间域内的观测，以匹配IMU约束。

D、带有时间偏差的优化

通过利用上述提到的视觉因素，我们可以轻松地将时间校准功能添加到典型的基于视觉惯性优化的框架中，例如[13、16、23]。在这些框架中，视觉惯性定位和建图被制定为一个紧密耦合视觉和惯性测量的非线性优化问题。如图4所示，多个相机帧和IMU测量值被保留在一个束中。束大小通常限制于计算复杂度的范围内。局部束调整（BA）联合优化相机和IMU状态以及特征位置。

我们可以轻松地将所提出的视觉因素（III-C）添加到这种框架中。具体而言，整个状态变量被增加了时间偏移量，其定义为：

第k个IMU状态由全局坐标系中的位置pwk、速度vk w、方向Rw以及本地机体坐标系中的IMU偏差ba和bg组成。特征Pl由全局坐标系中的3D位置或相对于某个图像帧的深度参数化。

整个问题被表述为一个成本函数，其中包含IMU传播因子、重投影因子以及某种先验因子。在此过程中，我们使用所提出的视觉（III-C）因子来实现时间偏移校准。

offset variable。

C是指在图像帧中至少观察到两次的特征集合。误差按其逆协方差P进行加权。{e p，H p}是来自先前知识和边缘化的先验信息。在优化束中仅保留少量的测量和状态，而其他测量和状态则被边缘化并转换为先验。非线性最小二乘代价函数可以使用高斯-牛顿方法进行高效优化。

E、时间偏移的补偿

在每次优化后，我们通过将后续视觉流的时间戳移动 t_d 来补偿时间偏移，即 t_0_cam = t_cam + t_d。然后，系统会在接下来的过程中估计补偿后的视觉测量和惯性测量之间的 δt_d。δt_d 将在后续数据流中进行迭代优化，最终收敛于零。随着时间间隔 δt_d 的减小，我们的基本假设（特征在短时间间隔内在图像平面上以恒定速度移动）变得越来越合理。即使在开始时存在巨大的时间偏移（例如数百毫秒），该过程也会逐渐从粗到细进行补偿。

4、实验

5、结论

本文介绍了一种在线校准IMU和相机之间时间偏移的方法。我们的方法是一个通用模型，可以轻松地应用于基于优化的视觉惯性框架中。时间偏移与IMU和相机状态以及特征一起进行联合优化。我们的仿真和实验结果表明，所提出的方法在时间偏移校准和系统运动估计方面都可以达到高精度，甚至与其他最先进的离线方法相比。虽然我们在本文中使用单目传感器套件展示了我们的方法，但是所提出的方法可以轻松地推广到多相机视觉惯性系统中。

visual-inertial calibration monocular inertial

visual-inertial vins-mono estimator monocular

visual-inertial

monocular

monocular auxiliary detection learning

calibration

inertial

generalizable monocular mononerf learning

lidar-inertial

camera_calibration_internal