上下文抽象学习（ICAL）：实现多模态智能体的持续学习

2024/07/16

大语言模型（LLMs）和视觉语言模型（VLMs）在进行决策和指令跟随的少样本上下文学习方面表现出色。然而，它们需要在上下文窗口中包含高质量的示例演示。

那么，LLM 和 VLM 能否从通用的次优演示中生成自己的提示示例？在这项工作中，来自卡内基梅隆大学和 Google DeepMind 的研究团队提出了“上下文抽象学习”（In-Context Abstraction Learning，ICAL），这是一种从次优演示和人类反馈中建立多模态经验洞察记忆的方法。

给定一个新领域中的嘈杂演示，VLM 通过修正低效操作和注释认知抽象（任务关系、对象状态变化、时间子目标和任务构想），将轨迹抽象为一个通用程序。当智能体尝试在类似环境中执行轨迹时，这些抽象概念会通过人类反馈进行交互式改进和调整。

由此产生的抽象概念在提示中作为范例使用时，可显著提高检索增强型 LLM 和 VLM 代理的决策能力。在 TEACh 中，ICAL 智能体在基于对话的指令跟随、VisualWebArena 中的多模态网络智能体和 Ego4D 中的行动预测方面都达到了 SOTA。

在 TEACh 中，目标条件成功率提高了 12.6%。在 VisualWebArena 中，任务成功率从 14.3% 提高到 22.7%。在 Ego4D 行动预测中，成功率比 GPT-4V 的少样本成功率要高，并且与监督模型相比仍具有竞争力。结果表明，对检索增强型上下文智能体进行微调后，效果会更好。

论文链接：

https://arxiv.org/abs/2406.14596

项目地址：

https://ical-learning.github.io/

上一篇 : 首个大模型“诚实性”评估基准来了，Llama3比GPT-4o爱说谎下一篇 : 首个用于 LM 智能体的树搜索算法公布

预约演示

上下文抽象学习（ICAL）：实现多模态智能体的持续学习