「反卷斗士」许华哲:以热爱为名,用深度强化学习打造一个「机器厨子」
作者 | 李梅
编辑 | 陈彩娴想象一下:
在未来的某一天,你,一个996的「社畜」,或「上班狗」,辛苦一天回到家,瘫倒在沙发上。当你抬头一看,你的机器人朋友正在厨房为你做晚饭——它的双手敏捷灵活,在油盐酱醋与锅碗瓢盆之间,一顿优雅操作,不久便有阵阵香气扑鼻而来。它把晚餐端到餐桌上,对你微微一笑:「开饭啦!」然后转身拿起你换下的衣物走向洗衣机......
这不是一篇小学生的科幻小作文,而是许华哲作为一位机器人学研究者关于未来机器人的想象:「我希望能有一个真正通用的机器人,它什么都能做,或者至少能为人类完成家居场景里的大部分任务。」
最近,他在走向通用机器人的这条路上又前进了一步:想要机器人为我们包饺子、卷寿司?先让机器人从学习捏橡皮泥开始吧!
不久前,许华哲团队的一篇论文被机器人学顶会RSS接收。这项工作提出了一种机器人系统,叫「RoboCraft」,将传感器数据转换为粒子,使用图神经网络学习基于粒子的动力学模型,对机器人进行行为控制,实现了机器人操作柔性物体的目标。

论文地址:https://arxiv.org/pdf/2205.02909.pdf
这个RoboCraft框架有三个组件,一个是基于粒子的场景对模块进行表示,从而「看到」橡皮泥;二是基于GNN模型,模拟对象的动力学;三是一个基于梯度和采样的模型预测控制模块,学习如何对一块橡皮泥进行塑形。


图注:机器人将橡皮泥捏成字母A和X的形状
实验表明,无论是在模拟器、还是在真实世界中,这个基于模型的规划框架在测试任务上的表现都可以与人类相当,甚至比人类做得更好。

图注:RoboCraft与人类在捏橡皮泥任务上的对比。在模拟器中,人用鼠标和键盘控制机械臂。
初识计算机视觉2012年,许华哲从东北师大附中毕业,通过物理竞赛保送到清华大学电子工程系,就读电子信息科学与技术专业。

图注:本科入学前的许华哲
当时,清华大学的物理系、电子系和建筑系是物理竞赛保送生的三大热门去向,许华哲基于自己的学科兴趣选择了电子系。他解释说:「我当时的想法比较稚嫩,就觉得电子系离新一代的IT技术很近。」而且,在高中时期,他就了解到清华对电子系开设了很多偏重物理的课程,其他相关院系(如信息科学技术学院)则没有这样的课程设置。因此,对于擅长物理的许华哲来说,电子系无疑是最好的选择。从东北的长春来到「帝都」北京,虽然未来的方向尚不明朗,但许华哲内心隐隐感到,在清华这样一个广阔的天地,他将大有作为。「其实我并没有想到我一定要做什么,或者我一定要解决一个什么样的问题,但我有一个大致明确的主线,就是希望以后可以读一个博士。」许华哲这样回忆他初入清华时的心态。这样的期许也来源于周围清华人对他的感染。清华从来不乏在各个领域发光发热的个体:天资聪颖的骄子,勤奋努力的追赶者,玩转社团与实践的达人......在这样一种包容参差、鼓励多样的环境里,许华哲选择了一种「玩得开心」但也始终向前的道路:加入艺术团键盘队继续发展对音乐的爱好,与学生会的伙伴一起策划活动,跟同学一起熬夜赶作业,和好朋友一起去玩耍吃烤串,等等。而对于一位被录取到顶尖学府的保送生,优秀必然已经成为一种习惯。所以,看似松弛的状态,也并没有耽误许华哲在学习上穷追猛打、将课程绩点排到年级前2%。虽然不及他口中那位期末期间边打游戏边复习、最终还能考到年级第一的室友,但他自己在学业上也并不逊色太多。
图注:许华哲在清华
至于科研,许华哲回忆,在清华时,他只是在通信研究所的实验室跟随老师做过一段时间的科研。他坦言,由于课业压力较大,加上课外活动所占去的精力,「科研自然就做不动了」。直到大三上学期,许华哲去多伦多大学交换,才开始科研上的更多探索。在那里,他第一次接触到计算机视觉,并进一步体会到做科研的乐趣。
从自动驾驶到机器人研究2016年,许华哲赴美国加州大学伯克利分校读博,开始了走向机器人学的科研探索之路。
自动驾驶:自己做自己的导师
在申请加州大学伯克利分校的博士之前,许华哲先去那里做了三个多月的暑期科研实习,他当时实习的组正是后来他读博所在的组。


从强化学习出发研究机器人
那么,如何做机器人?如何实现让一个机器人去感知周遭世界的信息,并像人类一样去实施决策和控制?许华哲选择了深度强化学习这条路线:在机器人学的模拟器里做强化学习算法的开发,控制机器狗、机械臂和机械手等智能体去完成一系列任务。他笃信,在一些传统机器人学无法解决的任务难题上,强化学习大有用武之地。传统的机器人学发展多年,已经取得了令人瞩目的成果。例如,经常能在公众视野中收割一大波粉丝的波士顿动力机器狗,在每一次「进化」中都能获得令人意想不到的酷炫新技能。但是,愿景有余,落地不足,这仍是机器人领域的一大挑战。把一台计算机的棋艺调教到世界第一的水平是容易的,但要教会一个机器人从一堆碎石烂瓦中穿行而不跌倒,却要困难得多,因为在这两类任务中,机器所需的「智力水平」与人类正相反。在那些看似简单、实际却很复杂的任务中,传统的方法难以派上用场。比如,在系鞋带这个任务中,如果用传统的方法,在鞋带上的每一处都安装控制器、从而使其对机器人来说可移动,这显然是不现实的。系鞋带这样的任务需要一种「欠驱动机器人」(Underactuated Robotics)系统才能实现。许华哲认为,强化学习具有解决这类问题的潜力。强化学习的优势在于,它本质上是一个通过不断尝试犯错、从而获得反馈的搜索过程,在这个过程中,它很有可能会搜索到一些传统方法根本想象不到的解决方案。在攻读博士的大部分时间以及博士后研究期间,许华哲都在专攻将强化学习应用于机器人学的研究。当他在这条赛道上真的跑出一些较为满意的成绩后,他更加相信和看好强化学习这一方法论的未来前景。事实上,目前强化学习并未被大规模地运用于各种机器人任务当中。这其中最大的「拦路虎」是什么?许华哲的回答是:数据复杂度。通常来说,为了学到一个好的策略,强化学习需要进行大规模的试错,这就要求要有非常大的数据量。这是由强化学习算法的本质所决定的。解决这个问题的关键在于提高对数据的利用率,方法无非有两个:「开源」和「节流」。许华哲在自己的研究中采用了三种路径来解决数据复杂度的问题:模拟器(simulator)、基于模型的强化学习(MBRL)和离线强化学习(Offline RL)。前两者属于开源,后者则属于节流。对数据量的需求在计算机模拟器里比较容易实现。在真实世界中,机器人是以客观物理时间而运行的,所以无法采用一些方式去加速,而计算机能够以很快的速度去运行模拟器。而且,物理模拟器能够为机器人提供一个安全且廉价的虚拟操场,让机器人在其中利用相关技术习得物理技能,然后转移到真实世界中去。在一个四足机器人的项目中,许华哲团队就利用了这种Sim-to-Real(从模拟到现实)的方法,通过强化学习的手段,在模拟器中对机械狗做大规模的训练和域随机化,然后将它从模拟环境转移到真实世界中去做测试。
图注:机械狗在室外行走、避障
由于机械狗可以在模拟环境中预先熟悉各种地形,所以能够适应更富有挑战性的真实环境。比如,当地形从草地转换为山地时,这只机械狗并不会「慌张」,因为它已经被提前训练地很擅长应对地形变化,所以在山地也能「如履平地」地跑步和避障。这篇论文被ICLR 2022接收。回到清华在斯坦福视觉和学习实验室做博士后的一年,许华哲明显感到自己在科研上的目标更加清晰。在这里,他更多地体会到了大家一起合作、彼此互助的科研氛围。合作导师吴佳俊在3D视觉方面给他提供了许多帮助,他也在与其他博士后研究员展开多模态机器人方面的合作,组里还有一些具有优秀的机器人学背景的博士生,他也能从他们那里学到许多新知识。许华哲谈道,这不仅是科研渐入深处的自然结果,也是因为他很早就已经签了清华叉院的教职:「在博士后的时候,我就知道以后要回到国内任教,所以我自己更加明确以后想要做什么,或者说我未来的组想要做什么。」

图注:许华哲在(virtual)博士毕业典礼上
2021年博士毕业后,除了清华,许华哲还申请来其他几所亚洲学校的教职。不过,在面试完清华的三周后,他就收到了offer。没有太多的犹豫,他就直接选择了清华,终止了其他正在面试流程中的学校。在被问及为什么毫不犹豫地选择回到清华时,许华哲感慨道:「清华当然是我的第一选择,因为清华是我的母校,我也是从清华开始接触到外面更广阔的世界,看到原来还有这么多人在做一流的研究,这么多人在选择创业,这么多人把社团活动搞得这么好。所以我觉得我对清华确实是有特殊的感情的。」另一方面,对于一个科研工作者来说,清华叉院能给许华哲提供一个理想的科研环境。许华哲在伯克利的几位师兄,如高阳、吴翼、陈建宇,目前都在叉院任教。在跟他们的交流中,许华哲了解到叉院的整体科研氛围非常好,年轻的老师可以拥有比较独立的科研空间,去做自己真正感兴趣的研究,而不被施以太多的限制。制度相对自由和宽松的叉院,也支持了许华哲延迟一年入职去斯坦福做博士后的决定。今年秋天,许华哲将回到母校清华任教。谈及回到叉院以后的科研规划,许华哲的答案仍然是围绕着他关于机器人应用的畅想而展开:「我在应用方面的一个整体目标就是希望让机器人真正为我们做一些复杂的事情,比如说,为我们做四菜一汤、刷盘子、叠衣服,等等。」为了实现这一目标,许华哲将从算法、感知和表征层面继续他的科研工作。具体而言,算法方面的挑战在于,如何把强化学习算法应用到机器人学上,而其中,基于模型的强化学习和基于视觉的强化学习都是许华哲未来在算法方面想要努力的方向。在感知层面,许华哲已经在尝试做视觉、听觉和触觉的多模态融合研究。另外,机器人如何表征世界同样是一个巨大的挑战,这也是许华哲会继续关注的一个问题。同时,许华哲也已经开始为自己将来的团队招纳贤才。他对学生的期待正如当初博士导师对他的期待一样:保持好奇心,探索自己真正想要探索的问题。他希望组建一个丰富的、非同质化的团队:「我希望我未来的团队里,每个人擅长的东西不同。如果我教的学生在某一个维度上比我强,或者至少有比我强的潜力,我觉得我会很开心,因为我可以从他们身上学到很多东西,而且他们同辈之间也可以互相学习,比如我擅长vision(视觉),你擅长simulator(模拟器),他擅长RL(强化学习),另外一个人可能有一些心理学或物理学的背景等等。」在学生培养方面,即将成为一名教师的许华哲则抱有这样的心态:「把他们培养成大腿,然后再抱住他们的大腿」。这是他对教育本质的理解。他开玩笑地说:「如果清华的学生都没有办法超过清华老师的上限,人类的发展不就停滞了吗?」做一个「反卷斗士」「我觉得我应该算是个『反卷斗士』吧。」在机器人学领域怀揣愿景、潜心钻研的许华哲,一直以来都拒绝过一种「机器人式」的生活。比起「有用」,或许他更倾向过「有趣」的人生。「有趣」不是一个标签,而是他所身体力行的一种生活哲学:做有趣的科研,体验有趣的生活,保持有趣的爱好,对抗这个内卷加剧的社会。在科研上,成为一个「写paper的机器」并非他想要的状态。许华哲回顾,贯穿他科研之路的,一直都是一种「觉得什么东西好玩就做了」的心态。博士期间,许华哲就曾做过一个很有意思但后来并未发表出文章的项目:用强化学习教机械手去学习弹钢琴。发论文不是他的核心考量,最重要的是去做自己想做的科研。至于如何选择科研方向,如何面对科研中的得与失,许华哲有这样的感悟:「我觉得要做自己感兴趣的事。一个方向是冷门还是热门,这都是不可控的。比如你去看人工智能的发展历史,当年Hinton做的内容也很冷门,当时对于神经网络这样一个奇怪的东西,大家都觉得没意思,都不是很相信。他也是在神经网络真正大火以后才获得各种荣誉。所以,不要太受别人的影响。即使到最后,我们没有获得巨大的成就,但至少在这个过程中,我们在做自己喜欢的事情,而不是浪费时间做别人喜欢的事情、去跟别人比赛。」面对「青椒」的压力,许华哲的心态也颇为从容。对他而言,科研本质上只是体验人生的其中一种方式,如果这条路最终行不通,还有很多其他路可以走:去环游世界,去中学当老师,教学生搞物理竞赛,跟朋友们一起弹弹琴,或者随便找一个地方开个奶茶店——「我觉得都挺好的」。在他的世界观里,生活的意义在于「快乐地去对这个世界进行输入和输出」,输入可以是「上课学习,看风景,吃东西」,输出则是类似于「写论文,教课,做演出」。科研之外,钢琴和阅读或许是他「输入」最多的事情。许华哲从四岁开始学琴,钢琴已经陪伴了他二十多年,在伯克利读博期间,他还修了音乐系的专业课,把乐理、作曲、配器和指挥都学了一遍。现在,即使到了博士后阶段,他也在跟着斯坦福音乐系的老师继续学琴。他还从顾城的诗歌中找到灵感,尝试写了第一首原创歌曲《摄》(见许华哲主页http://hxu.rocks/misc.html)。「如果不做学术,现在可能在做什么?」2018年的时候,AI科技评论曾做过一次新年特别推送,采访了十几位AI研究青年,当时还在读博的许华哲对于这个问题的回答是:「现在可能是一个不被理解的蹩脚钢琴家。」在很多人听来昏昏欲睡的古典乐,许华哲总是能从中感受到无限的力量。贝多芬是他最喜欢的钢琴家:「我觉得贝多芬的人生非常硬核,非常彪悍,我最喜欢他的第三首交响乐,是他最初写给拿破仑的一首交响乐,叫《英雄》,我觉得非常激励我。」除了严肃音乐,许华哲也喜欢阅读有趣的文字。对他来说,阅读是一个丰盈内心的途径和学习大家思想的媒介。卡尔维诺、黑塞、刘慈欣、阿西莫夫......那些科学幻想与哲学思辨都是他进入和体验「他世界」的一种门户。不久前,许华哲在微信朋友圈里发了一则招生宣传,并附上这样一段话:「10年过去,曾经的二字班小朋友将作为二字班的老师回到母校任教,十分感谢所有在我读书,科研期间给予我支持和帮助的亲人、师长、好友。希望可以在清华,将我之所学、所思,以无限地热情,用于启发更多的同学去学习知识,探索真理。我也会时刻反思自己,学问是否足够,德行是否可为人师表,希望自己也可以在清华的土壤里行健不息,继续成长。」从清华学子到清华教师,在未来的日子里,许华哲将继续他对这个世界的输入与输出。以下是AI科技评论与许华哲的部分对话节选:AI科技评论:您怎么看待科幻作家阿西莫夫提出的“机器人三定律”?许华哲:首先我认为这个“三定律”说得很好,很有意思,我自己也很喜欢阿西莫夫的小说,它还是很有价值的。阿西莫夫的粉丝应该都知道,除了这个定律,后面还有很多人提出了其他定律。比如阿西莫夫自己就还补充“机器人第零定律”:机器人必须保护人类的整体利益不受伤害,其他三条定律都是在这一前提下才能成立。还有人提出“繁殖定律”:机器人不得参与机器人的设计和制造,除非新的机器人的行动服从机器人学定律。但现在的人工智能还完全没有达到要认真考虑这些定律的水平,好像还为时尚早,我觉得,到了该考虑它们的时候再去考虑也来得及。AI科技评论:之前LeCun谈到,自监督学习跟世界模型相结合可以实现像人类一样学习推理的人工智能系统。也有一些网友认为自监督学习其实就是强化学习。您是怎么看待这种观点的?自监督学习与世界模型未来会用到您的研究当中吗?许华哲:首先,我认为自监督学习似乎并非就是强化学习。自监督学习还是包含了很多其他任务的,比如视频预测、图片补全这些都是自监督学习,但它们并不是强化学习。我觉得在做强化学习的过程中,我们是可以用到自监督学习来学习世界模型或者世界运动规律,Model Based RL(基于模型的强化学习)里的 model其实就可以用自监督学习来完成,所以我觉得二者确实有可结合的点。但是认为自监督学习就是强化学习,可能只是稍微懂一点概念,但并非行家之见。AI科技评论:在结构泛化问题上,您觉得以后会不会去适配机器人的需求来配套智慧家居?毕竟大部分人可能对家具的设计感要求不高,所以是否可以去适应机器人的能力来定制一套家具?这会是解决结构泛化问题的一个方式吗?许华哲:我的预测是,在特定场景下可能会,但是在通用的场景比如家居场景下,我认为不会。我其实也做过一点自动驾驶,据我观察,自动驾驶刚兴起的时候,大家有两种思路,一种是做算法、做视觉,然后让车子上路。另一种思路则是说,如果我做不好算法,那我能不能在道路上面做文章,我能不能搞一种自动驾驶专用车道,或者让红绿灯跟汽车去做通讯等等。但是现在五六年过去了,看起来还是前一种从算法着手的思路更占主流。所以回到我们刚刚说的机器人场景,我觉得在特定场景比如实验室里,我们可以把场地建造得,对机器人很友好,来让机器人更好地发挥其作用。但是在家居场景中,如果你要让全中国或全世界人都要为机器人量身打造一套家居设施,这是很不现实的,第一我觉得它的成本非常高,大家的接受度也未必会很高;第二,我觉得这件事会牵涉巨大的利益,可能谁也不能当这个“头头儿”,如果有某个公司表示要负责搞定这个事情,那不就相当于全世界人的房子装修都由这个公司说了算了吗?AI科技评论:你们现在是怎么做的多模态?视觉和听觉、触觉是不是要基于不同的技术?许华哲:在触觉方面,我们目前使用的是MIT那边开发的gelsight sensor,它其实是相当于把一个触觉的信号(一个人工手指摸到某个东西)转换成一个视觉的信号。所以其实在触觉方面,有很多跟视觉所共享的技术占领,可以把之前视觉上面的一些网络结构用在对触觉的处理上。当然,gelsight 远远不是最好的触觉传感器,因为比如说,我们的皮肤除了能摸到物体上面的凸起,我们还能通过感受热的流动来感觉到它的材质,以及我们还会听到接触物体时产生的声音等等,这些都会给我们带来更接近人类的触觉感知。我觉得未来的传感器要想变得更好或者更接近的人类,甚至超越人类,肯定就需要更新的算法来解决其他模态。但目前来说,比如gelsight 这种技术,可能更多的还是仿照视觉的处理流程去做触觉。AI科技评论:要实现通用的机器人,是否要先实现通用的人工智能?许华哲:我觉得未必是这样的一种先后关系。我们看科学史就会发现,好像并不存在把一种理论做得足够完善后再去实现它的各种应用这种情况。更多的是你先有一个应用方面的目标,然后你再去思考你的理论有哪里还可以再改进,从而使其帮助你达成在应用上的目标。比如,人们曾在战争期间搞出一些通讯方面的成果,后来手机出现了。我更相信需求驱动的方式,这就是说,我们先产生机器人帮我们做事情的需要,然后会有很多聪明的头脑来做研究,人工智能的发展线路可能就会因此而变得明确,即我们究竟要怎么样才能创建一种有用的人工智能,这是我的一些拙见。
作者注:AI人物故事与研究报道,请添加微信(302703941)。
推荐阅读



- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。
热门文章
