When LLMs step into the 3D World A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models

摘要: 本文重点介绍了LLMs的独特优势,如上下文学习、逐步推理、开放词汇能力和广泛的世界知识,强调它们在提升空间理解和交互方面的巨大潜力。我们的研究涵盖了各种3D数据表示,从点云到神经辐射场(NeRFs),并探讨了它们与LLMs在3D场景理解、描述、问答和对话等任务中的整合,以及基于LLM的空间推理、规划和导航代理。 本文还简要回顾了其他整合3D和语言的方法。本文的荟萃分析显示了显著的进展,但也强调了需要新的方法来充分利用3D-LLMs的潜力。因此,通过本文,我们旨在为未来的研究指明方向,探索和扩展3D-LLMs在理解和互动复杂3D世界中的能力。

阅读更多