由语言模型(LMs)驱动的智能体在执行决策任务(如网络自动化)的能力方面已显示出良好的前景。然而,一个关键的局限性依然存在:主要为自然语言理解和生成而优化的 LM,在尝试解决现实计算机任务时,在多步推理、规划和使用环境反馈方面仍面临困难。
为了解决这个问题,来自卡内基梅隆大学的研究团队为 LM 智能体提出了一种推理时间搜索算法,以便在交互式网络环境中明确执行探索和多步骤规划。该方法是一种在实际环境空间内运行的最佳优先树搜索形式,与大多数现有的最先进智能体互补。这是第一种用于 LM 智能体的树搜索算法,在现实的网络任务中显示出了有效性。在具有挑战性的 VisualWebArena 基准测试中,在 GPT-4o 智能体的基础上应用该搜索算法,与不使用搜索的相同基准相比,成功率相对提高了 39.7%。在 WebArena 上,搜索也比基线智能体提高了 28.0%,成功率达到 19.2%。该实验凸显了搜索对网络智能体的有效性,并证明了随着测试时间计算量的增加,性能也会随之提高。
论文链接:
https://arxiv.org/abs/2407.01476
项目地址:
https://jykoh.com/search-agents