BEVControl:两阶段方法使背景、前景控制更精细,编辑更快捷
本文介绍一个,通过 BEV Sketch 布局精确生成多视角街景图片的方法。
在自动驾驶领域,图像合成对于下游感知任务的性能提升有着广泛应用。
利用合成图像提高感知模型的性能是计算机视觉领域长期存在的研究难题。在使用多视角摄像头的以视觉为中心的自动驾驶系统中,这个问题变得更加突出,因为有些长尾场景是永远无法收集到的。
如图1(a)所示,现有的生成方法将语义分割风格的BEV结构输入生成网络,并输出合理的多视角图像。在仅根据场景级指标进行评估时,现有方法[1]似乎能合成照片般逼真的街景图像。然而,一旦放大,我们发现它无法生成准确的对象级别的细节。图中,我们展示了目前最先进生成算法的一个常见错误,即生成的车辆与目标3D边界框相比方向完全相反。此外,编辑语义分割样式的BEV结构是一项艰巨的任务,需要大量人力。
因此,我们提出了一种两阶段方法,提供更精细的背景和前景几何控制,称为 BEVControl,如图1(b)所示。它支持草图风格的BEV结构输入,可实现快速简便的编辑。此外,我们的 BEVControl 将视觉一致性分解为两个子目标:通过控制器(Controller)实现街道视图和鸟瞰视图之间的几何一致性;通过协调器(Coordinator)实现街道视图之间的外观一致性。
论文链接:https://arxiv.org/abs/2308.01661
方法框架
BEVControl 是一个 UNet 结构的生成网络,由一系列模块组成。每个模块有两个元素,即控制器(Controller )和协调器(Coordinator )。输入:便于编辑的 BEV 草图、多视图噪声图像和文本提示;输出:生成的多视图图像。
方法细节
BEV草图到相机条件的相机投影过程。输入为BEV草图。输出为多视角的前景条件和背景条件。控制器: 以自注意力的方式接收相机视图草图的前景和背景信息,并输出与 BEV草图具有几何一致性的街景特征。协调器:利用一种新颖的跨视图、跨元素的注意力机制,实现跨视图的上下文交互,输出具有外观一致性的街景特征。提出的测评指标
最近的街景图像生成工作仅根据场景级指标(如 FID、road mIoU 等)来评估生成质量。我们发现仅使用这些指标无法评估生成网络的真正生成能力,如下图所示。报告的定性和定量结果同时表明,两组生成的街景图像虽然具有相似的 FID 分数,但对前景和背景的细粒度控制能力却大相径庭。因此,我们提出一套用于精细衡量生成网络控制能力的评估指标。定量结果
BEVControl与最先进的方法在提出的测评指标上的对比。应用BEVControl做数据增强,在目标检测任务上的提升。定性结果
BEVControl与最先进的方法在NuScenes验证集上的对比。Demo效果
参考文献
[1] Swerdlow A, Xu R, Zhou B. Street-View Image Generation from a Bird's-Eye View Layout[J]. arXiv preprint arXiv:2301.04634, 2023.
相关推荐
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。