首页 > AI资讯 > 最新资讯 > 强化学习与视觉语言模型之间的碰撞,UC伯克利提出语言奖励调节LAMP框架

强化学习与视觉语言模型之间的碰撞,UC伯克利提出语言奖励调节LAMP框架

新火种    2023-10-20

在强化学习(RL)领域,一个重要的研究方向是如何巧妙的设计模型的奖励机制,传统的方式是设计手工奖励函数,并根据模型执行任务的结果来反馈给模型。后来出现了以学习奖励函数(learned reward functions,LRF)为代表的稀疏奖励机制,这种方式通过数据驱动学习的方式来确定具体的奖励函数,这种方法在很多复杂的现实任务中展现出了良好的性能。

本文介绍一篇来自UC伯克利研究团队的最新论文,本文作者质疑,使用LRF来代替任务奖励的方式是否合理。因此本文以当下火热的视觉语言模型(Vision-Language Models,VLMs)的zero-shot能力为研究对象,作者认为这种zero-shot能力可以作为RL模型的预训练监督信号,而不是将其单纯作为下游任务中的奖励,并提出了一种称为语言奖励调节预训练模型LAMP,LAMP首先使用参数冻结的预训练VLMs,并且通过在内容丰富的语言指令集上与代理捕获的视觉信息进行对比查询,来生成多样化的预训练奖励,随后通过强化学习算法来优化这些奖励。作者通过广泛的实验表明,LAMP不同于以往的VLMs预训练方式,可以在机器人操纵任务领域实现非常惊人的样本高效学习。

文章链接:

https://arxiv.org/abs/2308.12270代码仓库:

https://github.com/ademiadeniji/lamp

其中 表示R3M中的分数预测器, 分别表示图像 之间的视觉特征,作者发现,与其他的VLMs相比,使用R3M分数得到的奖励与专家演示中的奖励非常接近,下图展示了R3M与其他两种模型InternVideo[2]和ZeST[3]在RLBench下游任务上的视觉语言对齐效果,但是从奖励曲线来看,三种方法的奖励走向并不稳定,这表明我们很难直接使用这些奖励来优化最终模型,因此作者仅在预训练阶段将这些奖励作为一种探索信号。
作者使用ChatGPT来生成一系列的机器人操纵任务,例如“按下按钮(Push Button)”、“拿起水杯(Pick up Cup)”等,LAMP每次会从这些任务中随机抽取一些语言提示 ,然后得到其对应的视觉嵌入 ,之后根据上一节中描述的方法计算得到最终的奖励。在预训练结束后,LAMP就得到了一种较为通用的语言条件策略,它能够引导机器人完成语言 指定的各种行为。具体如下图所示,预训练过程主要基于Ego4D纹理的随机环境上进行。
-The End-

本周上新!

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员

>>> 添加小编

关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
⤵一键送你进入TechBeat快乐星球
相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。