大语言模型(LLMs)和视觉语言模型(VLMs)在进行决策和指令跟随的少样本上下文学习方面表现出色。然而,它们需要在上下文窗口中包含高质量的示例演示。
那么,LLM 和 VLM 能否从通用的次优演示中生成自己的提示示例?在这项工作中,来自卡内基梅隆大学和 Google DeepMind 的研究团队提出了“上下文抽象学习”(In-Context Abstraction Learning,ICAL),这是一种从次优演示和人类反馈中建立多模态经验洞察记忆的方法。
给定一个新领域中的嘈杂演示,VLM 通过修正低效操作和注释认知抽象(任务关系、对象状态变化、时间子目标和任务构想),将轨迹抽象为一个通用程序。当智能体尝试在类似环境中执行轨迹时,这些抽象概念会通过人类反馈进行交互式改进和调整。
由此产生的抽象概念在提示中作为范例使用时,可显著提高检索增强型 LLM 和 VLM 代理的决策能力。在 TEACh 中,ICAL 智能体在基于对话的指令跟随、VisualWebArena 中的多模态网络智能体和 Ego4D 中的行动预测方面都达到了 SOTA。
在 TEACh 中,目标条件成功率提高了 12.6%。在 VisualWebArena 中,任务成功率从 14.3% 提高到 22.7%。在 Ego4D 行动预测中,成功率比 GPT-4V 的少样本成功率要高,并且与监督模型相比仍具有竞争力。结果表明,对检索增强型上下文智能体进行微调后,效果会更好。
论文链接:
https://arxiv.org/abs/2406.14596
项目地址:
https://ical-learning.github.io/