2. 相关工作
A. 近年来,深度学习被广泛研究以整合到VSLAM中,其动机多种多样。基于学习的方法已经被用来取代VSLAM系统中的关键模块,如特征跟踪[8]、深度推理[9],或者通过语义信息实现对象级SLAM[10]、[11]。也有许多作品试图开发端到端的视觉SLAM系统[12],[13]。最近的研究主要集中在三维空间地图的神经表示上,该方法已经显示出令人印象深刻的重建性能[14],[15]。 在上述方法中,DROID-SLAM是一种比较流行的方法,它结合了传统SLAM管道和端到端学习的优点,并以其良好的通用性和密集映射能力而闻名。DROID-SLAM的核心设计是基于门循环单元(GRU)和可微DBA层的循环光流模块,使其与深度推理解耦,可以灵活地应用于零射击数据集。
B. 具有多传感器融合的VSLAM视觉惯性集成是一种常用的方案,可以克服仅视觉SLAM的局限性,以几乎最小的设置提供尺度感知和估计连续性。经典的实现可以分为基于过滤器的[16]和基于优化的[17]。在过去的几十年里,先进的特征得到了发展,包括可观测性约束[18]、直接光度优化[19]、地图管理[20]和延迟边缘化[21]。在[22]中,DROID-SLAM与IMU在因子图框架中融合。然而,边缘化和单眼设置不被考虑。最近,端到端视觉惯性SLAM结构也被提出[23]。 为了扩大V-I系统的适用性,许多其他工作都倾向于充分利用现有传感器的信息,其中最具代表性的是用于地面车辆的车轮编码器和用于户外应用的GNSS。轮式编码器已被证明可以提高系统稳定性和尺度可观测性[7][24]。在GNSS集成方面,已经提出了松耦合[25]和紧耦合[6][26]两种方法,这些方法通常将系统提升到地理注册系统,并提供全球无漂移能力。然而,明显缺乏将先进的基于学习的VSLAM集成到多传感器融合框架中的实现。
|