攀爬、跳跃、过窄缝，开源强化学习策略让机器狗能跑酷了

首页 > AI资讯 > 最新资讯 > 攀爬、跳跃、过窄缝，开源强化学习策略让机器狗能跑酷了

攀爬、跳跃、过窄缝，开源强化学习策略让机器狗能跑酷了

新火种 2023-09-13

机器之心报道

编辑：小舟

主打一个迅速。

跑酷是一项极限运动，对机器人特别是四足机器狗来说，更是一项巨大的挑战，需要在复杂的环境中快速克服各种障碍。一些研究尝试使用参考动物数据或复杂的奖励，但这些方法生成的「跑酷」技能要么多样但盲目，要么基于视觉但特定于场景。然而，自主跑酷需要机器人学习基于视觉且多样化的通用技能，以感知各种场景并迅速做出反应。

最近，一个机器狗跑酷的视频火了，视频中的机器狗在多种场景中迅速克服了各种障碍。例如，从铁板下方的缝隙穿过，爬上木箱，再跳到另一个木箱上，一连串动作行云流水：

这串动作说明机器狗掌握了贴地爬行、攀爬和跳跃三个基本技能：
它还有个技能：倾斜挤过窄缝：
如果机器狗未能克服障碍，它会多试几次：
该机器狗是基于一种为低成本机器人研发的「跑酷」技能学习框架。这个框架是由来自上海期智研究院、斯坦福大学、上海科技大学、CMU 和清华大学的研究者联合提出的，研究论文已经入选 CoRL 2023（Oral）。研究项目已开源。

方法简介
该研究推出了一种新的开源系统，用于学习基于视觉的端到端跑酷策略，以使用简单的奖励来学习多种跑酷技能，而无需任何参考运动数据。
具体来说，该研究提出了一种强化学习方法，旨在让机器人掌握攀爬高障碍、跳过大间隙、在低障碍下爬行、挤过狭小缝隙和跑步，并将这些技能蒸馏成基于单一视觉的跑酷策略，并以自我为中心的（egocentric）深度相机将其迁移到四足机器人上。
为了成功在低成本机器人上部署，该研究提出的跑酷策略仅使用机载计算（Nvidia Jetson）、机载深度摄像头（Intel Realsense）和机载电源来部署，不使用动作捕捉、激光雷达、多个深度摄像头和大量计算。
为了训练跑酷策略，该研究共进行了如下三个阶段的工作：
第一阶段：具有 soft 动态约束（dynamics constraint）的强化学习预训练。该研究使用自动课程让机器人学习穿越障碍物，鼓励机器人逐渐学会克服障碍。
第二阶段：具有 hard 动态约束的强化学习微调。该研究在这个阶段强制执行所有动态约束，并用现实动态（realistic dynamics）微调机器人在预训练阶段学到的行为。
第三阶段：蒸馏。在学习了每个单独的跑酷技能后，该研究使用 DAgger 将它们蒸馏成一个基于视觉的跑酷策略（由 RNN 参数化），该策略可以仅使用机载感知和计算部署到腿式机器人上。
实验及结果
在训练中，该研究为每种技能设置了相应的障碍物尺寸，如下表 1 所示：
该研究进行了大量的模拟和现实实验，结果表明，跑酷策略使低成本四足机器人能够自主选择和执行适当的跑酷技能，仅使用机载计算、机载视觉传感和机载电源即可穿越开放世界中具有挑战性的环境，包括爬高 0.40m（1.53x 机器人高度）的障碍物，跳过 0.60m（1.5x 机器人长度）的大间隙，在 0.2m（0.76x 机器人高度）的低障碍物下爬行，通过倾斜挤过 0.28m 的细缝（小于机器人宽度），并且可以一直跑步前行。
此外，该研究还将所提方法和几种基线方法进行了比较，并在模拟环境中进行了消融实验，结果如下表 2 所示：
感兴趣的读者可以阅读论文原文，了解更多研究内容。

Tags:

无人驾驶机器策略

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

攀爬、跳跃、过窄缝，开源强化学习策略让机器狗能跑酷了

大摩策略师Wilson：投资者对AI主题的追捧过头

【展商推荐】康耐视Cognex：深耕智能机器视觉

黄仁勋谈机器人及AI未来：需要三台计算机

卡耐基梅隆大学机器学习系主任ZicoKolter加入OpenAI：负责安全和超级对齐

桥水启动由机器学习决策的20亿美元规模基金，已经开始交易

热门文章

100亿！中关村科学城科技成长三期基金发布

科创板晚报|优刻得、永信至诚发布严重异动公告富创精密收到行政监管措施决定书

机器人“赛道”新年加速“跑”我国智能机器人产业企业数量超45万家

港股早报｜两部门鼓励外资在华开展股权投资美团将为全职及稳定兼职骑手缴纳社保

【焦点复盘】指数全天放量分化，端侧AI、AI医疗齐头并进，DeepSeek概念分化加剧

当“AI网络”重新改写自动驾驶游戏规则

LEAP2025收获250亿美元投资创历届新高明年在港举办LEAPEast

智元机器人联合北大，推出通用机器人操作框架

生成式人工智能用户约2.5亿人这个“2.5亿”意味着什么？