10秒创造一个世界！吴佳俊团队新作实时交互式3D世界生成

首页 > AI资讯 > 最新资讯 > 10秒创造一个世界！吴佳俊团队新作实时交互式3D世界生成

10秒创造一个世界！吴佳俊团队新作实时交互式3D世界生成

新火种 2024-10-27

斯坦福吴佳俊团队与MIT携手打造的最新研究成果，让我们离实时生成开放世界游戏又近了一大步。

从单一图像出发，在用户的实时交互下生成无限延展的3D场景：

只需上传一张图片，就能踏入一个由AI创造的虚拟世界。用户可以通过移动视角和输入文本提示，实时决定接下来要探索的方向和场景内容：

从鸟瞰图的视角，可以清晰看到虚拟世界的生成过程：

无论是魔幻森林、现实都市，还是宁静乡村，WonderWorld都能在眨眼间为你呈现：

这项工作名为WonderWorld，由斯坦福吴佳俊团队和MIT联合打造。

WonderWorld的项目主页上还有能以第一视角移动的交互式场景：

资深游戏创业者，GOAT Gamin的首席AI官兴奋地表示：“它还能对非真实感的图片work。有无限多的可能性！”

在硅谷广受欢迎的Hacker News上，WonderWorld也一度被放在头版讨论：

要知道，之前的生成式AI方法都需要数十分钟甚至若干小时才能生成一个单独的场景，WonderWorld的速度可谓打开了交互式新世界的大门。

那这究竟是如何做到的？

交互式生成 3D 世界

要让用户来控制生成一个3D世界，最核心的难点在于生成速度。先前的AI生成3D场景的方法大都需要先逐步生成许多目标场景的2D图片来补全被遮挡的部分，然后再优化得到一个3D场景的表示。这个过程耗时颇多。

WonderWorld的核心突破在于其惊人的速度。

研究团队开发的FLAGS (Fast LAyered Gaussian Surfels) 场景表示方法，使得系统能在短短10秒内生成一个新场景。这一速度比现有方法快了近100倍，真正将交互式3D世界生成推向了实时的门槛。

具体来说，WonderWorld生成新场景时，会先生成一张场景的2D图片（对于第一个场景则是直接使用输入图片），从图片中生成三张layer images，再从layer images来生成 FLAGS 表示。

FLAGS表示由三层Gaussian surfels组成：天空层，背景层，以及前景层。每一层都从对应的layer image中生成。天空和背景的layer image 都单独进行了遮挡的补全，因此WonderWorld不需要逐步生成多张图片。

另外，FLAGS表示的每个Gaussian surfel都唯一对应一个layer image 上的像素，因此它可以使用估计的像素级别几何信息（如单目深度和单目法向量）来初始化Gaussian surfels的参数，从而加速其优化过程。

最后，WonderWorld 还针对多个3D场景之间经常出现几何“裂缝”的问题，提出了Guided depth diffusion。核心想法是，利用已经生成的 3D 场景的深度信息作为 guidance，使新生成场景的深度与其一致。只要新旧场景在连接处的深度一致，那么场景的裂缝就得以弥合。

值得一提的是，无论是2D图片生成还是深度估计模块，都可以直接采用预训练模型，因此整个框架不需要任何训练。

实验测试

由于先前没有任何方法可以做到交互式3D场景生成，研究人员采用了连贯3D场景生成的方法WonderJourney，单一场景生成的Text2Room以及LucidDreamer作对比。由于缺乏现有可用评估数据集，研究人员生成了28个场景作为测试。

研究人员首先展示了更多的交互式生成的场景，从而说明WonderWorld可以在应用到不同场景类型以及不同视觉风格：

与基准方法的比较表明，WonderWorld明显优于各个方法：

从人类偏好评估的角度，WonderWorld 也显著更受青睐：

此外，从一张输入图片，WonderWorld能够接受不同的用户控制，生成不同的场景内容：

作者简介

该篇论文主要作者来自斯坦福大学吴佳俊团队。

论文一作俞洪兴，斯坦福大学五年级博士生。

主要研究领域为重建可交互的物理世界。他曾获得 SIGGRAPH Asia 最佳论文奖，高通奖学金，以及 Meta 奖学金和 NVIDIA 奖学金的提名。

吴佳俊，现任斯坦福大学助理教授，隶属于斯坦福视觉与学习实验室（SVL）和斯坦福人工智能实验室（SAIL）。

在麻省理工学院完成博士学位，本科毕业于清华大学姚班，曾被誉为“清华十大学神”之一。

论文链接：https://arxiv.org/pdf/2406.09394

参考链接：[1]https://x.com/Koven_Yu/status/1835769026934673595[2]https://kovenyu.com/wonderworld

Tags:

世界新作

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

10秒创造一个世界！吴佳俊团队新作实时交互式3D世界生成

10秒创造一个世界！吴佳俊团队新作实时交互式3D世界生成

定档11月12日！百度世界2024将于上海举办

2024世界设计之都上海宣言发布

提高世界生产力水平！阿里CEO：AI最大想象力不在手机屏幕而是改变物理世界

研究显示超过半数世界500强企业视AI为风险

热门文章

我国首个林草行业大模型研发成功

小K播早报|2025中国互联网企业家座谈会召开“天工”夺得全球首个人形机器人半马冠军

前高通高管任小米芯片平台部负责人；2024年我国再生资源回收总量超4亿吨

美国对华芯片管制将适得其反？专家：华为等中国厂商将受益！

蒙曼谈人工智能冲击：守住人类对于生活的感受

分析师：美国禁售AI芯片适得其反给中国送上巨大胜利

浩物股份：公司暂未本地部署接入DeepSeek大模型

大消费高低切换加速涨价概念正逐步化身市场暗线

两会新华解码丨“强化宏观政策民生导向”透出什么深意？