首页 > AI资讯 > 最新资讯 > 经济学家:强化学习的背后,是人类的愿景

经济学家:强化学习的背后,是人类的愿景

新火种    2023-09-14

之前我们提到过,目前最流行的三种训练AI的方法是监督学习、无监督学习和强化学习。强化学习是其中一种方法,它的原理是通过给AI反馈来训练AI。就像教练训练运动员一样,如果AI做出错误的决定,就会受到惩罚,反之则会得到奖励。强化学习更像是一种师徒制的训练方式,AI会通过观察人类的行为来学习。

AlphaGo使用的就是强化学习的原理,这种机制更加可靠。教练训练运动员、老师傅带徒弟、职场培训新员工都是用类似的方法。然而,这种方法也存在潜在的问题,即AI可能过于注重“动作”而忽略了背后的“愿景”。

在书中,作者分享了一个有趣的案例。他的朋友是一位经济学家,最近他在训练小儿子上厕所,希望女儿也能参与进来。为了增加积极性,他制定了一个规则:每次姐姐陪弟弟上厕所,爸爸就给姐姐一块糖。几天后,这个几岁的小姑娘进行了人生中可能是第一次推理,找到了规则的漏洞。她发现弟弟喝水越多,上厕所就越多。于是她开始每天给弟弟灌水。

这个例子说明了强化学习可能会带来的问题。

我们平时也会看到类似的情况,员工每天兢兢业业完成任务,但这些动作是否真的能给公司带来收益,是否真的对业务发展有好处,员工可能并不关心。然而,不能说员工没有责任心,有时候是老板让员工做这个做那个,但这些动作和公司发展之间的关系并不明确。

人类和AI之间也存在类似的问题。如果是训练AI下围棋,这种规则明确的情况还比较好处理,但面对更复杂的场景时,我们其实都是脑子不太清楚的老板。动作和愿景之间的关系我们也无法确定,如何解决这个问题呢?目前,计算机科学家们已经找到了几种解决方案。一种方案是模仿。

由于场景复杂,我们无法拆解出一个个步骤,制定出那么详细的奖惩规则。因此,让人类示范AI模仿。在这个过程中,AI会逐渐吸收人类的价值观,自动驾驶就是一个典型的例子。想要用一套规则让AI明白如何开车,确实有点困难。为了保持安全,AI可能无法理解如何快速行驶。因此,最好的方法是让有经验的司机示范,让AI学习。

逆强化学习是另一种计算机科学家提出的解决方案。

强化学习可以被看作是一场游戏,其中AI采取各种行动,例如前进、后退、跳跃等,每当它做出一个动作,环境就会给它一个分数作为奖励。AI的目标是找到一种策略,使其能够获得最多的奖励,因此它可能会利用规则的漏洞,以一种我们意想不到的方式“刷分”。因此,强化学习中的规则是不变的,AI需要思考如何行动。

逆强化学习就像是AI观察别人打游戏,它观察到玩家的行动和得分的变化,让AI猜测游戏的规则。换句话说,在逆强化学习中,AI需要思考的是规则。通过这种方法,我们可以了解AI如何理解制定的规则,以及这些规则是否与我们的期望相符,如果不相符,我们应该如何改进?这为我们提供了一个不同的视角,因为我们的目标是“对齐”。如果我们只从人类的角度来看待问题,可能会有所欠缺,因此我们还需要从AI的角度来看待它的理解。因此,“逆强化学习”是人工智能领域的一个新发展方向。

另一种思路是目前只是一种猜测,即我们可以将这种思路应用于AI的学习中。传统的训练AI的方法是训练单个AI。然而,如果我们想让一个团队更加高效,最好的培训方法不是加强每个人在各自岗位的能力,而是让大家轮换岗位进行培训,看看其他同事在做什么,面对什么样的挑战,承受什么样的压力。

有些计算机科学家提出,我们是否可以将这种思路应用于AI的学习中?通过训练多个AI的相互作用,我们可以鼓励它们合作,这只是一种猜测。然而,如果技术上可行,这可能是一个很好的方向。科学家发现,18个月大的婴儿已经能够看出有人需要帮助。科学家故意在婴儿面前摔倒,婴儿虽然自己走路还不稳,但还是摇摇晃晃地过来想要扶一下他。这是一种非常复杂的能力,也是人类独有的。

我们人类在数百万年的进化中学会了合作的重要性,AI也可能在这个过程中变得更加“人性化”。

相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。