Zac's Blog

2024-06-04发表2024-06-04更新论文阅读 / 3DLLM1 小时读完 (大约7291个字)

SayPlan - Grounding Large Language Models using 3D Scene Graphs for Scalable Robot Task Planning

摘要:

2024-06-02发表2024-06-03更新论文阅读 / 3DLLM3 小时读完 (大约24851个字)

When LLMs step into the 3D World A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models

摘要: 本文重点介绍了LLMs的独特优势，如上下文学习、逐步推理、开放词汇能力和广泛的世界知识，强调它们在提升空间理解和交互方面的巨大潜力。我们的研究涵盖了各种3D数据表示，从点云到神经辐射场（NeRFs），并探讨了它们与LLMs在3D场景理解、描述、问答和对话等任务中的整合，以及基于LLM的空间推理、规划和导航代理。本文还简要回顾了其他整合3D和语言的方法。本文的荟萃分析显示了显著的进展，但也强调了需要新的方法来充分利用3D-LLMs的潜力。因此，通过本文，我们旨在为未来的研究指明方向，探索和扩展3D-LLMs在理解和互动复杂3D世界中的能力。

链接

分类

最新文章

归档

标签