本帖最后由 keer_zu 于 2023-3-22 18:07 编辑
词袋模型
既然直接用两张图像相减的方式不够好,我们就需要一种更可靠的方式。结合前面几讲的内容,一种思路是:为何不像视觉里程计中那样使用特征点来做回环检测呢?和视觉里程计一样,我们对两幅图像的特征点进行匹配,只要匹配数量大于一定值,就认为出现了回环。根据特征点匹配,我们还能计算出这两幅图像之间的运动关系。当然这种做法存在一些问题,例如,特征的匹配会比较费时,当光照变化时特征描述可能不稳定等,但离我们要介绍的词袋模型已经很相近了。下面先介绍词袋的做法,再来讨论数据结构之类的实现细节。 词袋,也就是Bag-of-Words(BoW),目的是用“图像上的哪几种特征”来描述一幅图像。例如,我们说某张照片中有一个人、一辆车;而另一张中有两个人、一只狗。根据这样的描述,就可以度量这两幅图像的相似性。再具体一些,我们要做一下三步: - 确定“人”“狗”“车”等概念,对应于BoW中的视觉“单词”(Word),许多单词放在一起,组成了一本视觉“字典”。
- 确定一幅图像中出现了哪些在字典中定义的概念,我们用单词出现的情况(或直方图)描述整幅图像。这就把一幅图像转换成了一个向量的描述。
- 比较上一步中的描述的相似程度。
-
\
|