用于形状精确三维感知图像合成的着色引导生成隐式模型|NeurIPS2021

编译 |莓酊
编辑 | 青暮生成辐射场的发展推动了3D感知图像合成的发展。由于观察到3D对象从多个视点看起来十分逼真,这些方法引入了多视图约束作为正则化,以从2D图像学习有效的3D辐射场。尽管取得了进展,但由于形状-颜色的模糊性,它们往往无法捕获准确的3D形状,从而限制了在下游任务中的适用性。在这项研究工作中,来自马普所和港中文大学的学者通过提出一种新的着色引导生成隐式模型ShadeGAN来解决这种模糊性,它学习了一种改进的形状表示。
介绍高级深度生成模型,例如StyleGAN和BigGAN,在自然图像合成方面取得了巨大成功。但这些基于2D表示的模型无法以3D一致性方式合成实例新视图。它们也无法表示明确的三维物体形状。为了克服这些限制,研究人员提出了新的深度生成模型,将3D场景表示为神经辐射场。3D感知生成模型可以显式控制视点,同时在图像合成过程中保持3D一致性。它们展示了在无监督情况下从一组无约束的2D图像中学习3D形状的巨大潜力。如果可以训练出学习精确3D物体形状的3D感知生成模型,各种下游应用就可以的到拓展,如3D形状重建和图像重照明。现有3D感知图像合成尝试倾向于学习不准确且有噪声的粗略3D形状,如下图所示。研究发现,这种不准确是由于方法所采用的训练策略不可避免地存在模糊性。特别是一种正则化,称之为“多视图约束”,用于强制三维表示,使其从不同的视点看起来更逼真。这种约束通常首先将生成器的输出(例如,辐射场)投影到随机采样视点,然后将它作为假图像提供给鉴别器进行训练。虽然这种约束使模型能够以3D感知的方式合成图像,但会受到形状-颜色模糊关联的影响,即便有微小的形状变化也能生成类似的RGB图像,这些图像在鉴别器看来同样可信,因为许多物体颜色是局部平滑的。因此,不准确的形状仍然隐藏在这个约束下。

ShadeGAN
神经体绘制
从神经辐射场(NeRF)的开创性工作开始,神经体绘制在表示3D场景和合成新视图方面得到了广泛的应用。通过基于坐标神经网络与体绘制相结合,NeRF以3D一致性完成高保真视图合成。目前已经提出了一些尝试扩展或改进NeRF。比如进一步模拟照明,然后学习在给定对齐多视图、多照明图像情况下,将反射与着色分离。此外,许多研究从空间稀疏性、建筑设计或高效渲染角度加速了静态场景的渲染。这些照明和加速技术应用于基于体绘制的生成模型并非易事,因为它们通常从为定位、未配对的图像中学习,表示相对于输入潜在编码变化的动态场景。研究团队首次尝试在基于体绘制的生成模型中对照明进行建模,作为精确三维形状学习的正则化。并进一步为方法设计了高校的渲染技术,它具有相似的见解,但不依赖于通过真实深度进行训练,也不限于视点小范围。生成三维感知图像合成
生成对抗网络(GANs)可以生成高分辨率的真实照片图像,但对摄像机视点的明确控制却很匮乏。为了能够以3D感知的方式合成图像,许多最新方法研究了如何将3D表示合并到GANs中。有些研究直接从3D数据中学习,但在本文中,研究团队关注的是只能访问无约束2D图像方法,因为这是更实际的设置。研究团队多次尝试采用3D体素特征和学习神经渲染,虽然产生了逼真的3D感知合成,但3D体素不可解释,无法转换为3D形状。NeRF可以成功促使在GANs中使用辐射场作为中间3D表示,是有一些令人印象深刻、具有多视图一致性的3D感知图像合成,但这些方法提取的3D形状通常不精确且有噪声。在本文中,研究团队的主要目标是通过在渲染过程中显式地建模照明来解决不准确形状。这项创新有助于实现更好的3D感知图像合成,将具有更广泛的应用。从2D图像进行无监督的3D形状学习
ShadeGAN涉及无监督方法,即从无约束单目视图2D图像中学习3D物体形状。虽然一些方法使用外部3D形状模板或2D关键点作为弱监督,但本文考虑了更有难度的设置——只有2D图像是可用的。大多数方法采用“综合分析”范式,就是设计了照片几何自动编码器,以在重建损失情况下推断每个图像的三维形状和视点。这是可以学习一些对象类的3D形状,只是通常依赖正则化来防止琐碎的解决方案,如常用的对象形状对称假设。这种假设倾向于产生对称结果,可能忽略对象的不对称方面。最近,GAN2Shape表明,可以为2D GAN生成的图像恢复3D形状。但这种方法需要低效的实例特定训练,并恢复深度贴图,而不是完整的三维表示。本文提出的三维感知生成模型也可以作为无监督三维形状学习的有力方法。与上述基于自动编码器的方法相比,基于GAN的方法避免了推断每个图像的视点需求,而且不依赖于强正则性。通过实验更加证明了与最新、最先进的方法Unsp3d和GAN2Shape相比,ShadeGAN具有更高的性能。
ShadeGAN方法论ShadeGAN通过无约束和未标记的 2D 图像学习考虑3D 感知图像合成问题。在生成隐式模型中建模着色,也就是照明和形状的交互,实现对更精确三维对象形状的无监督学习。接下来会先提供关于神经辐射场(NeRF)的初步介绍,然后详细介绍着色引导生成隐式模型。
3.1 神经辐射场的初步研究
作为一种深度隐式模型,NeRF使用MLP网络将3D场景表示为辐射场。






3.2着色引导生成隐式模型
开发生成隐式模型是十分有趣的,它可以为3D感知图像合成显式着色过程建模。研究团队对NeRF中的MLP网络进行了两个扩展。首先,与大多数深度生成模型类似,它进一步取决于从先验分布































3.3通过曲面跟踪实现高效体绘制
与NeRF类似,研究团队使用离散积分实现体绘制,这通常需要沿摄影机光线采样几十个点,如图所示。在本文中,还需要在等式(3)中对生成器执行反向传播,以获得每个点的法线方向,这会大大增加计算成本。为了实现更高效的体绘制,一个自然的想法是利用空间稀疏性。通常,体绘制中的权重T (t, z)σ(r(t), z)在训练过程中会集中在物体表面位置上。如果在渲染之前知道粗糙曲面的位置,就可以在曲面附近采样点以节省计算。对于静态场景,将这种空间稀疏性存储在稀疏体素网格中,但这种技术不能直接应用于我们的生成模型,因为3D场景相对于输入的潜在编码不断变化。

















实验实验表明,ShadeGAN学习的3D形状比以前的方法精确得多,同时允许对照明条件进行显式控制。使用的数据集包括CelebA、BFM和CAT,它们都只包含无约束的2D RGB图像。在模型结构方面,我们采用了基于SIREN的MLP作为生成器,卷积神经网络作为鉴别器。对于光照条件的先验分布,使用Unsup3d估计真实数据的光照条件,然后拟合

与基线进行比较
将ShadeGAN与两种最先进的生成隐式模型(GRAF和pi-GAN)进行比较。具体地,图4包括合成图像以及它们对应的3D网格,其通过在体积密度σ上执行 marching cubes而获得。虽然GRAF和pi-GAN可以合成具有可控姿势的图像,但它们学习到的3D形状不准确且有噪声。相比之下,本文的方法不仅合成真实感的3D一致图像,而且还学习更精确的3D形状和曲面法线,这表明所提出的多重照明约束作为正则化的有效性。图5中包含了更多的合成图像及其相应的形状。除了更精确的3D形状外,ShadeGAN还可以从本质上了解反照率和漫反射着色组件。如图所示,尽管并不完美,ShadeGAN已成功以令人满意的质量分离阴影和反照率,因为这种分离是多照明约束的自然解决方案。

消融研究
研究团队进一步研究了ShadeGAN中几种设计选择的影响。首先,执行局部点特定的着色。如图所示,局部着色策略的结果明显比原始策略差,这表明考虑


光照感知图像合成
由于ShadeGAN对着色过程进行建模,因此在设计上允许对照明条件进行显式控制。下图提供了这样的照明感知图像合成结果,其中ShadeGAN在不同的照明方向下生成有希望的图像。在预测的a以照明条件μ为条件的情况下,a会略微改变w.r.t.照明条件,如在阴影过暗的区域,a会更亮,最终图像更自然。我们还可以在等式4(即Blinn Phong着色,其中h是视点和照明方向之间角度的平分线)中选择性地添加镜面反射项

GAN反演
ShadeGAN还可以通过执行GAN反演来重建给定的目标图像。如下图所示,这种反演允许我们获得图像的几个因素,包括3D形状、表面法线、近似反照率和阴影。此外,我们还可以通过更改视点和照明条件来进一步执行视图合成和重新照明。
讨论
由于使用的朗伯阴影近似于真实照明,因此ShadeGAN学习的反照率并没有完全分离。本文的方法不考虑对象的空间变化的材料特性。在未来,研究团队打算结合更复杂的着色模型,以更好地了解分离的生成反射场。结论本文提出的ShadeGAN是一种新的生成隐式模型,用于形状精确的3D感知图像合成。并证实在ShadeGAN中通过显式光照建模实现的多重光照约束显著有助于从2D图像学习精确的3D形状。ShadeGAN还可以在图像合成过程中控制照明条件,实现自然的图像重新照明效果。为了降低计算成本,研究团队进一步设计了一种轻量级曲面跟踪网络,它为生成隐式模型提供了一种高效的体绘制技术,显著加快了训练和推理速度。推荐阅读
2022-01-08

2021-11-20

2022-01-05

相关推荐
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。