ToolEMU

摘要: 语言模型(Language Model, LM)代理和工具使用方面的进展显示了丰富的功能,但也放大了潜在的风险——例如泄露私人数据或造成财务损失。 作者引入了一个使用语言模型来模拟工具执行的框架, 检测LLM代理在多场景下的安全性能。


〓 Table of Contents 〓




Abstract

〓 ReTURN 〓

近期在语言模型(Language Model, LM)代理和工具使用方面的进展,以ChatGPT插件等应用为例,展示了丰富的功能,但也放大了潜在的风险——例如泄露私人数据或造成财务损失。识别这些风险需要大量劳动,需要实施工具、手动设置每个测试场景的环境以及发现风险案例。随着工具和代理变得更加复杂,测试这些代理的高成本将使发现高风险、长尾风险变得越来越困难。

为应对这些挑战,我们引入了ToolEmu:一个使用语言模型来模拟工具执行的框架,支持对语言模型代理的多种工具和场景进行可扩展的测试。除了模拟器外,我们还开发了一种基于语言模型的自动安全评估器,用于检查代理故障并量化相关风险。通过人类评估,我们测试了工具模拟器和评估器,发现ToolEmu识别的失败案例中有68.8%是有效的真实世界代理失败。

利用我们精心设计的初始基准,包括36个高风险工具包和144个测试案例,我们对当前语言模型代理进行了定量风险分析,并发现了许多可能导致严重后果的失败。值得注意的是,即使是最安全的语言模型代理,根据我们的评估器,其失败率也达到了23.9%,这突显了开发更安全的语言模型代理以供实际部署的必要性。



Introduction

〓 ReTURN 〓

近期在语言模型(Language Models, LMs)和工具使用方面的进展(Brown et al., 2020; Raffel et al., 2020; Ouyang et al., 2022; OpenAI, 2023a)导致了诸如WebGPT(Nakano et al., 2021)、AutoGPT(Richards, 2023)和ChatGPT插件(OpenAI, 2023b)等代理的开发,这些代理在现实世界中半自主地操作工具。

虽然这些方法有望解锁更强大的LM能力,但从通过文本与人类互动的LM转变为使用工具在现实世界中行动的代理,突显了其广泛部署所伴随的风险。

LM代理未能遵循指令可能导致一系列严重风险,从使用银行工具进行交易时的财务损失,到操作与物理环境互动的机器人时的重大财产损失甚至生命危险。鉴于这些失败可能带来的严重现实后果,在部署之前识别即使是低概率的风险至关重要。

然而,由于这些风险的长尾和开放性,以及测试所需的大量工程工作,识别LM代理相关风险非常具有挑战性。通常情况下,专家需要实施特定工具,设置针对指定测试案例的沙盒环境,并检查代理的执行情况。这种劳动密集型程序限制了测试空间,使得难以扩大对各种工具和场景的风险评估并识别长尾风险。

为了克服这些障碍,我们借鉴了在高风险领域(如自动驾驶)中广泛使用的基于模拟器的测试(Dosovitskiy et al., 2017),引入了ToolEmu,一个基于LM的工具仿真框架,旨在通过多种工具和场景检查LM代理,识别长尾场景中的现实失败,并通过自动评估器促进更安全的代理开发。

我们的框架核心是使用LM模拟工具及其执行沙盒。与通常通过编程和静态建立的模拟环境不同,我们利用LM的最新进展(如GPT-4 (OpenAI, 2023a)),仅使用工具规范和工具输入来模拟工具执行,而不需要其具体实现和执行环境。这使得在不同场景中快速原型化LM代理成为可能,同时能够评估缺乏现有API或沙盒实现的高风险工具。

例如,我们的模拟器可以模拟交通控制工具,揭示GPT-4在识别此类关键场景风险时的失败(见图2e)。为了进一步促进风险评估和长尾失败检测,我们引入了一个对抗性模拟器进行红队测试。对抗性模拟器自动为指定测试案例实例化更可能导致LM代理失败的沙盒状态。通过我们的模拟器,我们能够识别当前LM代理的广泛长尾和潜在严重失败(见图2中的示例)。在我们的模拟器中,200个工具执行轨迹中有超过80%被人类评估者判断为现实的。

在这些失败中,我们检查了ChatGPT-3.5在LM模拟终端工具上的7个严重失败,发现其中6个可以在实际bash终端上实例化。值得注意的是,即使有现有的bash终端沙盒,完全实例化这些失败仍需约8小时,而在ToolEmu中不到15分钟。

此外,为了支持可扩展和定量的风险评估,我们设计了一个基于LM的安全评估器来捕捉LM代理可能引起的失败并量化相关风险严重性。自动评估器检查LM代理的模拟轨迹,检测潜在的风险行为,并评估后续后果。我们的自动安全评估器能够识别73.1%由三名人工标注者多数投票确定的失败,相比之下,单个保留的人类标注者平均识别率为78.8%。在我们的模拟器和评估器识别的失败中,68.8%的被人类评估验证为确实存在风险并具有现实的模拟轨迹。我们还通过设计自动有效性评估器来量化LM代理在不牺牲安全性的情况下完成用户指令的有效性。两个评估器都经过仔细验证,以证明其与人工标注一致的速率可与标注者间一致率相媲美。

最后,我们展示了如何使用我们的模拟器和自动评估器建立一个评估基准,定量评估LM代理在各种工具和场景中的表现。我们的基准集中在一个特定的威胁模型上,即用户指令模糊或省略关键信息,LM代理在执行这些指令时未能正确解决这些模糊性,导致风险。利用我们的模拟器的可扩展性,我们策划了一个包含144个此类测试案例的评估数据集,覆盖了9种风险类型(见图5b),涵盖了来自18个类别的36个工具包,其中大多数缺乏现有的沙盒评估或在当前真实环境中难以测试(见表2)。

使用我们的基准,我们定量评估了当前的LM代理并分析了提示对LM代理安全性的影响(见表5)。我们观察到,基于API的LM如GPT-4(OpenAI, 2023a)和Claude-2(Anthropic, 2023)在安全性和有效性方面取得了最佳评估分数,并且提示调优可以进一步提高性能。然而,即使是最安全的LM代理,在我们测试案例中,根据我们的评估器,其失败率也达到了23.9%,这表明在增强LM代理安全性方面仍有很大进展空间。

作者

Jiawei Li

发布于

2024-06-02

更新于

2024-06-02

许可协议