微信扫码了解博鱼·综合体育
服务热线
13321112233

预约演示

姓名
* 电话
邮箱
地址
内容

上下文抽象学习(ICAL):实现多模态智能体的持续学习

2024/07/16

大语言模型(LLMs)和视觉语言模型(VLMs)在进行决策和指令跟随的少样本上下文学习方面表现出色。然而,它们需要在上下文窗口中包含高质量的示例演示。

那么,LLM 和 VLM 能否从通用的次优演示中生成自己的提示示例?在这项工作中,来自卡内基梅隆大学和 Google DeepMind 的研究团队提出了“上下文抽象学习”(In-Context Abstraction Learning,ICAL),这是一种从次优演示和人类反馈中建立多模态经验洞察记忆的方法。

 

给定一个新领域中的嘈杂演示,VLM 通过修正低效操作和注释认知抽象(任务关系、对象状态变化、时间子目标和任务构想),将轨迹抽象为一个通用程序。当智能体尝试在类似环境中执行轨迹时,这些抽象概念会通过人类反馈进行交互式改进和调整。

 

由此产生的抽象概念在提示中作为范例使用时,可显著提高检索增强型 LLM 和 VLM 代理的决策能力。在 TEACh 中,ICAL 智能体在基于对话的指令跟随、VisualWebArena 中的多模态网络智能体和 Ego4D 中的行动预测方面都达到了 SOTA。

 

在 TEACh 中,目标条件成功率提高了 12.6%。在 VisualWebArena 中,任务成功率从 14.3% 提高到 22.7%。在 Ego4D 行动预测中,成功率比 GPT-4V 的少样本成功率要高,并且与监督模型相比仍具有竞争力。结果表明,对检索增强型上下文智能体进行微调后,效果会更好。

 

论文链接:

https://arxiv.org/abs/2406.14596

 

项目地址:

https://ical-learning.github.io/