FREEREG ``利用预训练扩散模型和单目深度估计器的图像到点云配准

摘要:

图像与点云之间的跨模态特征匹配是图像到点云配准的基础问题。然而,由于图像和点云之间的模态差异,现有的度量学习方法在特征匹配上难以学习到稳健且具有区分性的跨模态特征。我们提出了一种方法,首先通过预训练的大规模模型统一图像和点云的模态,然后在相同模态内建立稳健的对应关系。我们展示了通过深度到图像的扩散模型提取的中间特征(称为扩散特征),在图像和点云之间具有语义一致性,这使得建立粗略但稳健的跨模态对应关系成为可能。进一步地,我们提取了由单目深度估计器生成的深度图上的几何特征。通过匹配这些几何特征,我们显著提高了由扩散特征生成的粗略对应关系的准确性。大量实验表明,在没有进行任何I2P配准任务训练的情况下,直接利用这两种特征可以实现准确的图像到点云配准。在三个公共室内和室外基准数据集上,所提方法在Inlier Ratio上平均提升了$20.6%$,Inlier Number提高了$3.0 \times$,Registration Recall提升了$48.6%$,优于现有的最先进方法。代码和附加结果可在 https://whu-usi3dv.qithub.io/FreeReq/ 上获取。

阅读更多

awesome_X

摘要: 本文章用列表记录了多个awesome-xxx的github项目地址, 每一个项目都相当于是该领域的一个小的论文综述或者项目合集。

阅读更多

Buffer of Thoughts - Thought-Augmented Reasoning with Large Language Models

摘要: 本文介绍了Buffer of Thoughts(BoT),这是一种新颖且多功能的思想增强推理方法,用于提高大型语言模型(LLMs)的准确性、效率和鲁棒性。具体来说,我们提出了meta-buffer,用于存储一系列从不同任务的问题解决过程中提取的有用高级思想,即thought-template。然后,对于每个问题,我们检索相关的thought-template,并自适应地用具体的推理结构实例化它,以进行高效推理。 为了保证可扩展性和稳定性,我们进一步提出了buffer-manager,用于动态更新meta-buffer,从而随着更多任务的解决,增强meta-buffer的容量。 我们在10个具有挑战性的推理密集任务上进行了广泛的实验,取得了显著的性能提升:在24点游戏中提高了11%,在几何图形中提高了20%,在一步将军中提高了51%。进一步的分析表明,我们的BoT具有卓越的泛化能力和模型鲁棒性,而其成本仅为多次查询提示方法(例如,tree/graph of thoughts)的12%。 值得注意的是,我们发现我们的Llama3-8B + BoT有可能超过Llama3-70B模型。

阅读更多

Scalability and Performance of LiDAR Point Cloud Data Management Systems A State-of-the-Art Review

摘要: 本文探讨了LiDAR点云数据管理(PCDM)系统的可扩展性和性能。点云数据由于其体积大且异质性强,亟需高效的管理解决方案。现有研究主要集中于在不同的并行架构和数据模型上开发PCDM系统,已取得一定的成果。特别是共享内存架构和共享磁盘架构下的PCDM系统表现出色。然而,关于共享无架构和宽列NoSQL数据库在PCDM中的应用研究仍不足。本文还指出,现有的PCDM系统在扩展性和性能评估方面存在显著的研究空白。针对未来研究,本文建议在三方面进行深入探索:点云数据量的变化、流量变化及其他系统需求。同时,强调了开发一个可扩展、灵活的框架以系统化地测试和比较不同PCDM系统的重要性。

阅读更多

When LLMs step into the 3D World A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models

摘要: 本文重点介绍了LLMs的独特优势,如上下文学习、逐步推理、开放词汇能力和广泛的世界知识,强调它们在提升空间理解和交互方面的巨大潜力。我们的研究涵盖了各种3D数据表示,从点云到神经辐射场(NeRFs),并探讨了它们与LLMs在3D场景理解、描述、问答和对话等任务中的整合,以及基于LLM的空间推理、规划和导航代理。 本文还简要回顾了其他整合3D和语言的方法。本文的荟萃分析显示了显著的进展,但也强调了需要新的方法来充分利用3D-LLMs的潜力。因此,通过本文,我们旨在为未来的研究指明方向,探索和扩展3D-LLMs在理解和互动复杂3D世界中的能力。

阅读更多

ToolEMU

摘要: 语言模型(Language Model, LM)代理和工具使用方面的进展显示了丰富的功能,但也放大了潜在的风险——例如泄露私人数据或造成财务损失。 作者引入了一个使用语言模型来模拟工具执行的框架, 检测LLM代理在多场景下的安全性能。

阅读更多