首个用于 LM 智能体的树搜索算法公布

2024/07/16

由语言模型（LMs）驱动的智能体在执行决策任务（如网络自动化）的能力方面已显示出良好的前景。然而，一个关键的局限性依然存在：主要为自然语言理解和生成而优化的 LM，在尝试解决现实计算机任务时，在多步推理、规划和使用环境反馈方面仍面临困难。

为了解决这个问题，来自卡内基梅隆大学的研究团队为 LM 智能体提出了一种推理时间搜索算法，以便在交互式网络环境中明确执行探索和多步骤规划。该方法是一种在实际环境空间内运行的最佳优先树搜索形式，与大多数现有的最先进智能体互补。这是第一种用于 LM 智能体的树搜索算法，在现实的网络任务中显示出了有效性。在具有挑战性的 VisualWebArena 基准测试中，在 GPT-4o 智能体的基础上应用该搜索算法，与不使用搜索的相同基准相比，成功率相对提高了 39.7%。在 WebArena 上，搜索也比基线智能体提高了 28.0%，成功率达到 19.2%。该实验凸显了搜索对网络智能体的有效性，并证明了随着测试时间计算量的增加，性能也会随之提高。

论文链接：

https://arxiv.org/abs/2407.01476

项目地址：

https://jykoh.com/search-agents

上一篇 : 上下文抽象学习（ICAL）：实现多模态智能体的持续学习下一篇 : 苹果新研究：理解多模态 LLM 中的对齐

预约演示

首个用于 LM 智能体的树搜索算法公布