https://arxiv.org/pdf/2403.15183.pdf
摘要:
相机和雷达数据的互补特征集成已经成为三维目标检测的一种有效方法。然而,这种基于融合的方法仍未被用于位置识别,而位置识别对于自主系统来说同样重要。由于位置识别依赖于查询场景和相应候选场景之间的相似性,因此场景的静止背景在任务中起着至关重要的作用。因此,目前设计良好的用于三维目标检测的相机-雷达融合方法,由于主要关注动态前景目标,很难有效地进行位置识别。本文提出了一种基于背景关注的摄像机-雷达融合方法CRPlace,从多视角图像和雷达点云中生成背景关注全局描述符,实现精确的位置识别。为了有效地提取静止背景特征,我们设计了一个自适应模块,利用相机的BEV特征和雷达的动态点生成背景遮光罩。在背景掩模的引导下,设计了一种基于双向交叉注意力的空间融合策略,实现了相机BEV特征背景信息与雷达BEV特征之间的全面空间交互。作为第一个基于摄像头-雷达融合的位置识别网络,CRPlace已经在nuScenes数据集上进行了全面的评估。结果表明,我们的算法在一组综合指标上优于各种基线方法(recall@1达到91.2%)。
|