Buffer of Thoughts - Thought-Augmented Reasoning with Large Language Models

摘要: 本文介绍了Buffer of Thoughts(BoT),这是一种新颖且多功能的思想增强推理方法,用于提高大型语言模型(LLMs)的准确性、效率和鲁棒性。具体来说,我们提出了meta-buffer,用于存储一系列从不同任务的问题解决过程中提取的有用高级思想,即thought-template。然后,对于每个问题,我们检索相关的thought-template,并自适应地用具体的推理结构实例化它,以进行高效推理。 为了保证可扩展性和稳定性,我们进一步提出了buffer-manager,用于动态更新meta-buffer,从而随着更多任务的解决,增强meta-buffer的容量。 我们在10个具有挑战性的推理密集任务上进行了广泛的实验,取得了显著的性能提升:在24点游戏中提高了11%,在几何图形中提高了20%,在一步将军中提高了51%。进一步的分析表明,我们的BoT具有卓越的泛化能力和模型鲁棒性,而其成本仅为多次查询提示方法(例如,tree/graph of thoughts)的12%。 值得注意的是,我们发现我们的Llama3-8B + BoT有可能超过Llama3-70B模型。

阅读更多

ToolEMU

摘要: 语言模型(Language Model, LM)代理和工具使用方面的进展显示了丰富的功能,但也放大了潜在的风险——例如泄露私人数据或造成财务损失。 作者引入了一个使用语言模型来模拟工具执行的框架, 检测LLM代理在多场景下的安全性能。

阅读更多