谷歌邀马斯克联手做AI游戏!DeepMind版Sora是个3D游戏引擎profile-avatar
下一代世界模型炸场,一张图生成无限多样的3D游戏世界。
谷歌推出Genie 2,可响应键鼠操作,可玩、可控制。
与此前研究相比,Genie 2拥有长期记忆,即使玩家把视角转开,再回来时也可稳定渲染世界中已存在的部分。

游戏世界中还可以有其他AI NPC存在,与玩家控制的角色进行复杂交互。

这下,沉迷《暗黑破坏神4》的马斯克都觉得很酷,随后DeepMind创始人Hassabis邀请他一起做个AI游戏。
关键马部长他还真答应了~

结合马斯克此前声称,xAI将开办一家AI游戏工作室,两者联手的可能性还真不低。

不过谷歌DeepMind搞这项研究,可不光是为了给人类玩游戏的——
AI具身智能体,迈向AGI的途径Genie 2可用于训练和评估具身智能体,通过创建丰富多样的环境,可以生成AI在训练期间没见过的评估任务。
比如通过文字指令,训练智能体打开正确的门。

谷歌表示尽管这项研究仍处于早期阶段,在智能体和环境生成能力方面仍有大量改进空间……

此前,世界模型研究在很大程度上仅限于建模一个狭窄的领域,比如一个模型只能模拟《我的世界》像素风格游戏的Oasis。

谷歌在Genie 1中实现了生成多样2D世界的方法。

Genie 2则完成了向生成丰富3D世界的飞跃,展示了世界模型的涌现能力,包括对象交互、复杂的角色动画、物理模拟,以及建模并预测其他智能体行为的能力。
从同一帧出发,但玩家的操作不同,可以生成不同的运动轨迹。
这意味着可以模拟反事实体验(counterfactual experiences)用于训练智能体,也就是从“假如当时采取另一种行动会怎样”中获得经验。

智能体还可以在3D世界中学会与其他对象交互,如气球挨打就会爆。

实现这一切,靠的依然是扩散模型。
Genie 2是一种自回归潜空间扩散模型,在大型视频数据集上训练。
(是谁拥有Youtube里上亿小时的游戏视频数据,我不说)

经过自编码器处理后,视频的Lantent frames被传递到一个大型Transformer动力学模型,该模型使用与大型语言模型类似的因果掩码进行训练。
在推理时,Genie 2可以自回归方式采样,对单个操作和过去的帧逐帧执行,使用classifier-free guidance来提高操作可控性。
此外,谷歌还透露,现在给出的视频示例都是由为蒸馏的模型生成,以展示可能性。
蒸馏模型可以做到实时控制,但会降低输出质量。

就在2天前,李飞飞创业公司World Labs也推出了从单个图像生成3D世界技术。

这个大佬们都在押注的方向,真的要火了~
参考链接:[1]https://x.com/elonmusk/status/1864388977866006639[2]https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。