李飞飞:WorldLabs这样实现「空间智能」
遵循世界的 3D 特性,很多事就会变得自然而然。说到斯坦福大学教授李飞飞(Fei-Fei Li),她提倡的「空间智能」最近正在引领 AI 发展方向。
李飞飞已经在人工智能历史上赢得了一席之地,她多年来一直致力于创建 ImageNet 数据集和竞赛,在深度学习革命中发挥了重要作用。2012 年,一个名为 AlexNet 的神经网络引爆了 AI 研究界,它的表现远远超过所有其他类型的模型,并赢得了当年的 ImageNet 竞赛。自那时起,神经网络开始腾飞,其动力来自互联网上可用的大量免费训练数据和提供空前计算能力的 GPU。自 ImageNet 以来的 13 年里,计算机视觉研究者们掌握了物体识别,并转向图像和视频生成。李飞飞与他人共同创办了斯坦福大学以人为本人工智能研究所 (HAI),并继续突破计算机视觉的界限。就在今年,她创办了一家初创公司 World Labs,旨在生成用户可以探索的 3D 场景。World Labs 致力于为人工智能提供「空间智能」,即生成、推理和与三维世界互动的能力。李飞飞昨天在人工智能顶会 NeurIPS 上发表了主题演讲,讲述了她对机器视觉的愿景。她表示,非常荣幸第一次在 NeurIPS 上演讲,50 分钟讲 180 页 PPT 是个很有趣的经历。
在演讲之前,李飞飞接受了 IEEE Spectrum 的独家采访,让我们看看她对空间智能有哪些新的见解:Eliza Strickland:你为什么把你的演讲命名为「提升视觉智能的阶梯(Ascending the Ladder of Visual Intelligence)?」李飞飞:智能具有不同层次的复杂性和精细度。在这次演讲中我想传达的是,在过去几十年,尤其是深度学习发生变革的十多年里,我们在视觉智能方面学会做的事情简直令人叹为观止。我们正在变得越来越擅长使用这项技术。同时,我也受到了 Judea Pearl 因果阶梯理论的启发,这一理论出自他 2020 年出版的书《The Book of Why》。演讲还有一个副标题,即「从看到做到(From Seeing to Doing)」。这是人们没有足够重视的一点:从看到与交互和做事紧密相关,无论是对于动物还是对于 AI 智能体来说都是如此。这与语言背道而驰。语言从根本上来说是一种用来传达思想的交流工具。在我看来,它们是非常互补但同样深刻的智能模式。Eliza Strickland:你的意思是我们对某些视觉刺激有本能的反应吗?李飞飞:我不仅仅是在谈论本能。如果你观察感知的演变和动物智能的演变,你会发现它们是深深交织在一起的。每当我们能够从环境中获取更多信息时,进化的力量就会推动事物能力和智能向前发展。如果你不能感知环境,你与世界的关系就非常被动;无论你是捕食者还是被捕食者,都是一个非常被动的行为。但是一旦你能够通过感知从环境中获取线索,进化的压迫感就会增加,这推动了智能的发展。Eliza Strickland:你认为这就是我们创造越来越深层次的机器智能的方式吗?通过让机器更多地感知环境?李飞飞:我不确定「深度」这个词是不是我该用的形容词。我认为我们正在创造更多的能力。我认为它将变得更加复杂,更有能力。解决空间智能问题确实是朝着全面智能(full-scale intelligence)迈出的一个基本且关键的步骤,这是绝对正确的。Eliza Strickland:我看到过 World Labs 的演示。你为什么想研究空间智能并构建这些 3D 世界。李飞飞:我认为空间智能是视觉智能的发展方向。如果我们真的想要解决视觉问题,并且将其与行动联系起来,有一个非常简单、显而易见的事实:世界是三维的。我们不是生活在一个平面世界中。我们的物理智能体,无论是机器人还是设备,都将生活在三维世界中。即使是虚拟世界也越来越变得三维化。如果你和艺术家、游戏开发者、设计师、建筑师、医生交谈,即使他们在虚拟世界中工作,很多内容也是三维的。如果你花一点时间认识到这个简单但深刻的事实,毫无疑问,解决 3D 智能的问题是根本性的。
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。