2024-09-04发表2024-09-04更新论文阅读 / PCDM1 小时读完 (大约8158个字)

FREEREG ``利用预训练扩散模型和单目深度估计器的图像到点云配准

摘要:

图像与点云之间的跨模态特征匹配是图像到点云配准的基础问题。然而，由于图像和点云之间的模态差异，现有的度量学习方法在特征匹配上难以学习到稳健且具有区分性的跨模态特征。我们提出了一种方法，首先通过预训练的大规模模型统一图像和点云的模态，然后在相同模态内建立稳健的对应关系。我们展示了通过深度到图像的扩散模型提取的中间特征（称为扩散特征），在图像和点云之间具有语义一致性，这使得建立粗略但稳健的跨模态对应关系成为可能。进一步地，我们提取了由单目深度估计器生成的深度图上的几何特征。通过匹配这些几何特征，我们显著提高了由扩散特征生成的粗略对应关系的准确性。大量实验表明，在没有进行任何I2P配准任务训练的情况下，直接利用这两种特征可以实现准确的图像到点云配准。在三个公共室内和室外基准数据集上，所提方法在Inlier Ratio上平均提升了$20.6%$，Inlier Number提高了$3.0 \times$，Registration Recall提升了$48.6%$，优于现有的最先进方法。代码和附加结果可在 https://whu-usi3dv.qithub.io/FreeReq/ 上获取。

〓 Table of Contents 〓

FREEREG: 利用预训练扩散模型和单目深度估计器的图像到点云配准

引言

图像到点云（I2P）配准需要估计图像与点云之间的像素到点的对应关系，以确定图像相对于点云的 $\mathrm{SE}(3)$ 姿态。这是许多任务的前提条件，例如同时定位与地图构建（Zhu et al, 2022）、三维重建（Dong et al, 2020）、分割（Guo et al., 2020）和视觉定位（Sarlin et al., 2023）。

为了建立像素到点的对应关系，我们必须匹配图像和点云之间的特征。然而，为图像和点云学习稳健的跨模态特征是困难的。大多数现有方法（Feng et al., 2019; Wang et al., 2021; Fham et al., 2020; Jjang & Saripall, 2022; Li et al., 2023）依赖于对比损失、三元组损失或 InfoCE 损失等度量学习方法，强制对齐同一对象的2D和3D特征。然而，由于图像捕捉的是外观而点云表示的是结构，直接对齐跨模态数据不可避免地导致收敛效果差。因此，跨模态度量学习面临特征鲁棒性差（Wang et al., 2021）和泛化能力有限（Li et al., 2023）的问题。

图 1：左图：FreeReg 统一了图像和点云的模态，从而使得单模态匹配可以建立跨模态对应关系。右图：FreeReg 不需要在 I2P 任务上进行任何训练，即可实现对室内和室外场景中 RGB 图像与点云的配准，甚至在小重叠、大视角变化和稀疏点密度等挑战性情况下也能有效配准。

本文提出了一种新方法，称为 FreeReg，通过利用最新的大规模扩散模型（Rombach et al., 2022; Zhang & Agrawala, 2023; Mou et al., 2023）和单目深度估计器（Bhat et al., 2023; Yin et al., 2023），在图像和点云之间建立稳健的跨模态对应关系。FreeReg 避免了困难的跨模态度量学习，并且不需要在 I2P 任务上进行训练。如图 1 所示，其核心思想是通过这些大规模预训练模型统一图像和点云的模态，从而在相同模态内进行稳健的对应关系估计，实现跨模态匹配。

为了将点云转换为图像模态，一种简单的方法是将点投影到图像平面上以获取深度图，然后通过深度到图像的扩散模型 ControlNet（Zhang & Agrawala, 2023）将深度图转换为图像。然而，如图 22(I) 所示，深度图可能对应多个可能的图像，使得从点云生成的图像与输入图像的外观完全不同，这会导致即使使用最先进的图像匹配方法（Sarlin et al, 2020; Delone et al, 2018; Sun et al, 2021），也会出现匹配结果不准确的问题。为了解决这个问题，我们提议匹配生成图像与输入图像之间的语义特征，因为生成图像尽管外观不同，但在语义上与输入图像高度一致。受最近基于扩散的语义对应关系估计方法（Tang et al., 2023; Zhang et al., 2023）的启发，我们利用深度到图像 ControlNet 中的中间特征图，在深度图和图像之间进行匹配。如图 [2 (II) 所示，我们可视化了深度图和 RGB 图像的扩散特征。然后，我们使用具有互检的最近邻（NN）匹配器（Wang et al., 2022a）在它们之间建立对应关系。我们发现这些语义特征表现出强一致性，即使它们是分别在深度图和图像上提取的，这使得建立稳健的跨模态对应关系成为可能。然而，语义特征涉及图像的较大区域，这种大感受野导致了粗粒度特征和特征匹配中的稀疏对应关系。

我们进一步利用单目深度估计器（Bhat et al., 2023）提高了跨模态对应关系的准确性。单目深度估计器的最新进展使得对单视角图像进行度量深度估计成为可能。然而，直接匹配点云与从输入图像中估计的深度图之间的特征，如图2 (III) 所示，导致了较差的性能。主要原因在于预测的深度图虽然看起来合理，但与输入点云相比仍存在较大扭曲，这些扭曲阻碍了稳健对应关系的估计。尽管全球性扭曲导致了噪声匹配，但估计深度图的局部几何信息仍提供了准确定位关键点和密集估计细粒度对应关系的有用信息。因此，我们将从估计深度图中提取的局部几何特征（Choy et al., 2019）与从扩散模型中提取的语义特征结合起来，作为跨模态特征，从而实现图像和点云之间的密集且准确的对应关系估计，如图 2](IV) 所示。

综上所述，FreeReg 具有以下特点：

FreeReg 结合了来自扩散模型的粗粒度语义特征和来自深度图的细粒度几何特征，实现了精确的跨模态特征匹配。
FreeReg 无需在 I2P 任务上进行训练，这避免了点云与图像局部特征对齐过程中不稳定且声名狼藉的度量学习问题。
FreeReg 显著优于现有的全监督跨模态配准基线（例如 Pham et al., 2020; Li et al., 2023）。具体而言，在室内 3DMatch 和 ScanNet 数据集以及室外 KITTI-DC 数据集上，FreeReg 在 Inlier Ratio 上实现了超过 20% 的改进，Inlier Number 提升了 3.0 倍，Registration Recall 提高了 48.6%。

图2：为了统一点云（PCs）和图像的模态：I：一种直接的方法是通过深度到图像的扩散模型从点云生成 RGB 图像。然而，生成的图像通常与查询图像之间存在较大的外观差异。II：我们发现扩散模型的中间特征在 RGB 图像和深度图之间显示出强的语义一致性，从而形成了稀疏但稳健的对应关系。III：我们进一步通过单目深度估计器将 RGB 图像转换为点云，并提取几何特征，以在输入点云和生成的点云之间进行匹配，得到密集但嘈杂的对应关系。IV：我们提出融合这两种特征，以建立密集且准确的对应关系。

方法

设 $I \in \mathbb{R}^{H \times W \times 3}$ 为 RGB 图像，$P \in \mathbb{R}^{N \times 3}$ 为点云。我们首先将 $P$ 投影到一个深度图 $D \in \mathbb{R}^{H^{\prime} \times W^{\prime}}$ 上，该投影基于从深度或 LiDAR 传感器的中心和方向计算的相机姿态。关于此投影的更多细节见补充材料。FreeReg 的目标是匹配在 $I$ 和 $D$ 上提取的跨模态特征，以建立对应关系并解决它们之间的相对姿态。FreeReg 的流程如图 3 所示。具体来说，我们提取扩散特征（第 3.2 节）和几何特征（第 3.3 节）用于特征匹配，然后根据匹配结果估计 I2P 转换。我们首先简要回顾扩散方法，这些方法用于提取跨模态特征。

初步介绍：稳定扩散与 ControlNet

所提议的跨模态特征基于 ControlNet（Zhang & Agrawala, 2023）（CN），因此我们在本节中简要回顾 ControlNet 的相关细节。扩散模型包含前向过程和反向过程，两者都是马尔可夫链。前向过程在多个步骤中逐渐向输入图像添加噪声，最终得到纯粹的无结构噪声。相应的反向过程逐步去噪，以逐渐恢复结构并生成图像。稳定扩散（Rombach et al., 2022）（SD）是一种广泛使用的扩散模型，主要包括一个 UNet，它以有噪声的 RGB 图像作为输入并预测噪声。原始的扩散模型仅支持文本到图像生成。近期的 ControlNet（Zhang & Agrawala, 2023），如图 4（b）所示，添加了一个额外的编码器来处理深度图，并利用提取的深度特征引导 SD 的反向过程，使 SD 能够从纯高斯噪声中生成与输入深度图一致的图像。在 FreeReg 中，我们利用 CN 和 SD 提取跨模态特征用于特征匹配。

图 4：扩散特征提取示意图：（a）图像上的扩散特征，（b）深度图上的扩散特征，（c）扩散特征的可视化。

跨模态数据上的扩散特征

直接从输入深度图生成图像会出现外观不一致的问题，这会导致特征匹配不准确。我们不生成显式图像，而是利用稳定扩散模型的中间特征图进行跨模态特征匹配。概述如图 4 所示。

RGB 扩散特征。如图 4（a）所示，我们执行稳定扩散（SD）的前向过程（Rombach et al., 2022），在预定义的步骤 $t$ 上向输入 RGB 图像添加噪声。噪声图像被输入到 SD 的 UNet 中，UNet 解码器的中间特征图被用作输入 RGB 图像的扩散特征。

深度扩散特征。对于深度图，我们首先使用传统的腐蚀和膨胀操作（Ku et al., 2018）来使其更加稠密。如图 4（b）所示，我们将深度图作为条件输入到 ControlNet（Zhang & Agrawala, 2023）中，以引导 SD 的反向过程。在这种条件下，SD 逐步去噪直至达到预定义的步骤 $\hat{t}$，然后我们使用 SD UNet 解码器中的特征图作为深度扩散特征。另一种方法是直接将深度图作为 RGB 图像进行扩散特征提取，但这种方法效果较差，如补充材料中所示。

层选择。剩下的问题是选择用于特征提取的层。图 4（c）中展示了 RGB 图像和深度图上的扩散特征可视化。可以观察到，前几层的上采样特征（层索引 $l \leq 6$）在 RGB 和深度数据之间表现出强一致性。而后几层（索引大于 6）的特征则显示出更多细粒度的细节，如纹理，但一致性较差。因此，我们选择早期层 $0, 4, 6$ 的特征作为扩散特征。为了减少每层的特征维度，我们应用主成分分析（PCA）将特征维度降至 128。RGB 图像 $I$ 和深度图 $D$ 的扩散特征分别为 $F_d^I$ 和 $F_d^D$，这两个特征通过将不同层的特征拼接后进行 $L_2$ 归一化得到。

跨模态数据上的几何特征

上述扩散特征是从图像的大区域中提取的，这使得它难以捕捉细粒度的局部细节，并且只估计稀疏的对应关系，如图 5（b/e）所示。为了提高这些对应关系的准确性，我们引入了所谓的几何特征，利用单目深度估计器 Zoe-Depth（Bhat et al., 2023）。

具体而言，我们利用 Zoe-Depth 为输入 RGB 图像 $I$ 生成每像素深度 $D^Z$，并从生成的深度图中恢复点云。然后，我们使用预训练的点云特征提取器 FCGF（Choy et al., 2019）提取每个点的特征，这些特征作为图像 $I$ 中对应像素的几何特征。我们以相同的方式为深度图 $D$ 的像素构建几何特征。如图（c/f）所示，仅匹配几何特征会因单视图深度图中的大幅扭曲而产生许多离群对应。

图 5：特征及估计对应关系的可视化。（a）输入图像和点云。（b）、（c）和（d）分别展示了扩散特征、几何特征和融合特征图的可视化。（e）、（f）和（g）分别展示了通过最近邻（NN）匹配器使用扩散特征、几何特征和融合特征估计的像素到点的对应关系。扩散特征估计出可靠但稀疏的对应关系。几何特征则提供了密集的匹配，但伴随更多离群点。融合特征在准确性和保留细粒度细节之间取得平衡，从而实现了准确且密集的匹配。

融合特征用于 I2P Registration

融合特征。在本节中，我们提出融合两种特征以实现准确的对应关系估计，如图所示。我们在深度图和图像上均匀采样一组密集的关键点。然后，在这些关键点上提取上述扩散特征和几何特征。融合前，两个特征都通过其 $L_2$ 范数进行归一化。具体而言，我们按照（Zhang et al., 2023）的方式，在 $I$ 或 $D$ 上的每个关键点融合这两种特征，计算方式为

$$
F = \left[w F_d, (1-w) F_g\right]
$$

其中，$w$ 为融合权重，$[\cdot, \cdot]$ 表示在特征维度上的拼接，$F$ 是得到的 FreeReg 特征。

像素到点的对应关系。给定 RGB 图像 $I$ 上的两组融合特征 $F^I$ 和深度图 $D$ 上的 $F^D$，我们进行最近邻（NN）匹配，并使用互相最近检查（Wang et al., 2022a）来找到一组可能的对应关系。需要注意的是，深度图 $D$ 中的每个像素在匹配中对应于点云 $P$ 中的一个 3D 点。

图像到点云Registration。为了求解 RGB 图像 $I$ 相对于 $P$ 的 $\mathrm{SE}(3)$ 姿态。通常的方法是对建立的像素到点的对应关系执行透视-n-点（PnP）算法（Lepetit et al., 2009）。然而，我们已经使用 Zoe-Depth（Bhat et al., 2023）估计了与 RGB 相对应的深度图。因此，我们可以将像素到点的对应关系转换为 3D 点到点的对应关系，并使用 Kabsch 算法（Kabsch, 1976）估计 $\mathrm{SE}(3)$ 相对姿态。在补充材料中，我们实证表明，使用 PnP 算法可以获得更准确的姿态估计，但在许多情况下失败，而 Kabsch 算法适用于更多情况，但估计的变换误差较大。

实验

实验协议

数据集。我们在三个广泛使用的数据集上评估了提出的方法：（1）3DMatch（Zeng et al., 2017）测试集包括来自 8 个室内场景的 RGB 图像和点云（称为 $I2P$ 对）。这里使用的点云由 Asus Xtion 深度传感器采集。我们手动排除了重叠很小的 I2P 对，结果得到 1210 对 I2P 对，重叠率超过 $30%$。（2）ScanNet（Dai et al., 2017）测试集包含来自 31 个室内场景的 4,660 对 I2P 对，重叠率超过 $30%$。为了进一步增加难度，我们使用 3 cm 的体素大小对输入点云进行了下采样，从而得到高度稀疏的点云。（3）Kitti-DC（Uhrig et al., 2017）测试集包含来自 4 个精选户外场景的 342 对 I2P 对。稀疏点云来自 64 线 LiDAR 扫描。每对 I2P 对之间的距离小于 10 米。

表 1：不同方法的跨模态配准性能。“InvCP.” 代表逆摄像机投影（Inverse Camera Projection）。

指标。根据（Choy et al., 2019；Wang et al., 2023c;b），我们采用四种评估指标：（1）特征匹配召回率（FMR）是具有超过 $5%$ 正确估计对应关系的 I2P 对的比例。如果对应关系的真实 3D 距离小于 $\tau_c$，则认为其匹配正确。对于 3DMatch/ScanNet，$\tau_c$ 设置为 0.3 米；对于 Kitti-DC，$\tau_c$ 设置为 3 米。（2）内点比例（IR）是所有 I2P 对中的正确对应关系比例的平均值。（3）内点数量（IN）是每对 I2P 对中正确对应关系的平均数量。（4）配准召回率（RR）是旋转和位移误差小于 $\tau_R$ 和 $\tau_t$ 的正确对齐 I2P 对的百分比。对于 3DMatch/ScanNet，($\tau_R, \tau_t$) 设置为 ($20^\circ, 0.5 \text{m}$)；对于 Kitti-DC，设置为 ($10^\circ, 3 \text{m}$)。我们在补充材料中提供了不同阈值条件下的额外结果。

基线。我们将 FreeReg 与完全监督的配准基线进行比较。图像配准方法 SuperGlue (SG)（Sarlin et al., 2020）被修改以匹配 RGB 图像和点云。LCD（Pham et al., 2020）通过度量学习来构建 I2P 跨模态描述符。DeepI2P（Li & Lee, 2021）通过优化准确的初始姿态来解决 I2P Registration。我们实现了一种跨模态特征提取方法 I2P-Matr，参考了并行工作的 2D3D-Matr（Li et al., 2023），但官方代码尚未发布。同时，我们在补充材料中按照实验协议（Li et al., 2023）比较了 FreeReg 与 P2-Net（Wang et al., 2021）和 2D3D-Matr（Li et al., 2023），其中 FreeReg 也获得了最佳配准性能。我们还采用了图 2 中提到的基线方法，该方法首先使用 ControlNet（Zhang & Agrawala, 2023）从目标点云生成 RGB 图像，然后使用 SuperGlue（Sarlin et al., 2020）来匹配输入图像和生成的图像（CN+SG）。对于我们的方法，我们报告了仅使用扩散特征（FreeReg-D，即 $w=1$）、仅使用几何特征（FreeReg-G，即 $w=0$）以及融合特征（FreeReg，即默认 $w=0.5$）的匹配结果。更多实现细节和分析请参见补充材料。

三个基准上的结果

表 1 展示了 FreeReg 和基线方法在三个跨模态配准基准上的定量结果。一些定量结果如图 6 所示。

对应关系质量由 FMR、IR 和 IN 反映。对于 LCD 和 I2P-Matr，直接对齐跨模态特征的方法表现较差。$\mathrm{CN}+\mathrm{SG}$ 由于生成图像与输入图像之间的外观差异，未能建立可靠的对应关系。对于 FreeReg，仅使用扩散特征（FreeReg-D）或几何特征（FreeReg-G）已能获得优于基线的方法的结果。利用这两种特征，FreeReg 实现了最佳的对应关系质量，并在 FMR 上超越基线 $54.0%$，IR 超越 $20.6%$，IN 高出 $3.0 \times$。需要注意的是，与基线方法不同，FreeReg 甚至没有对 I2P 任务进行训练。

配准质量由 RR 指示。得益于高质量的对应关系，FreeReg 在 RR 上显著超越了基线方法，FreeReg-D/G 分别超越 $48.6%$ 和 $22.9% / 16.4%$ 的 RR。此外，FreeReg 使用 Kabsch 算法在室内 3DMatch/ScanNet 上显著超过

图 6：对应关系可视化。
(a) 输入 RGB 图像和用于配准的点云。
(b) 来自 I2P-Matr 的估计对应关系。
(c/d/e) 分别来自 FreeReg-D、FreeReg-G 和 FreeReg 的估计对应关系。

平均误差 3.4 米。在补充材料中，我们进一步提供了更多分析，发现 PnP 方法在准确性上表现更佳，而 Kabsch 在更多情况下提供了合理的结果。

局限性

主要限制在于 FreeReg 在 4090 GPU 上匹配单个 I2P 对时需要约 9.3 秒和 12.7G 的 GPU 内存，这导致比基线方法（如 LCD（0.6秒，3.5G）、I2P-Matr（1.7秒，2.7G）和 CN+SG（6.4秒，11.6G））使用更多时间但具有更高的 RR（Inlier Ratio）。原因在于，我们需要运行多个 ControlNet 的反向处理步骤，以去噪纯噪声，达到特定的步骤 $\hat{t}$ 进行特征提取。在补充材料中，我们展示了如何通过约 50% 的加速仅带来约 1.4% 的 RR 降低。同时，尽管我们展示了使用扩散特征进行 I2P Registration的优越性能，但我们在扩散特征提取中手动选择层和去噪步骤，未来工作可以改进为自动选择优质特征。

结论

我们提出了一种 I2P Registration框架，称为 FreeReg。FreeReg 的关键思想是利用扩散模型和单目深度估计器进行跨模态特征提取。具体而言，我们利用扩散模型的中间表示来构建多模态扩散特征，这些特征在 RGB 图像和深度图之间显示出强的一致性。我们进一步引入所谓的几何特征，以捕捉 RGB 图像和深度图上的独特局部几何细节。大量实验表明，FreeReg 在 I2P 任务中表现出强大的泛化能力和鲁棒性。无需在 I2P Registration任务上进行任何训练或微调，FreeReg 在三个公共的室内和室外基准测试中分别实现了 20.6% 的 Inlier Ratio 改进、3.0 倍的 Inlier Number 提升和 48.6% 的 Registration Recall 改进。

FREEREG ``利用预训练扩散模型和单目深度估计器的图像到点云配准

https://nerozac.com/2024/09/04/FreeReg/

作者

Jiawei Li

发布于

2024-09-04

更新于

2024-09-04

许可协议

#论文阅读 PCDM

FREEREG ``利用预训练扩散模型和单目深度估计器的图像到点云配准

引言

相关工作

方法

初步介绍：稳定扩散与 ControlNet

跨模态数据上的扩散特征

跨模态数据上的几何特征

融合特征用于 I2P Registration

实验

实验协议

三个基准上的结果

更多分析

消融扩散特征提取

消融特征融合权重

局限性

结论

作者

发布于

更新于

许可协议

目录

链接

分类

最新文章

归档

标签