一直以来,将现实地点转换为3D模型对人类艺术家而言都是巨大的挑战,尤其是需要实现照片级真实感的时候。
但谷歌研究人员已经构思出一种替代方案,其可以同时地自动化3D建模过程并改进结果,利用一个包含众包地点照片的神经网络来令人信服地在3D中复刻相关地标和照明。
名为神经辐射场(Nergular Radiance Fields,NeRF)的技术可通过确定光线的终止位置而从2D图像中提取3D深度数据,然后就能够创建看似合理的地标3D纹理模型。
谷歌的NeRF-in-Wild(NeRF-W)系统则更进一步。首先,它使用“in-the-wild photo collections”作为输入,从而扩展计算机从多个角度查看地标的能力。接下来,系统评估图像以寻找结构,分离出摄影图形和环境变化,如图像曝光、场景照明、后处理和天气条件,以及镜头到镜头的对象差异。然后,它将重新创建场景,将静态元素(结构几何和纹理)与提供体三维辐射的瞬态元素混合。
因此,可以从多个角度流畅地查看NeRF-W的3D地标模型,而且看起来不会抖动或出现伪影。同时,照明系统使用检测到的变化来为场景照明和阴影提供辐射指导。
另外,NeRF-W可以将图像到图像对象的差异视为一个不确定域,然后消除或弱化差异。标准的NeRF系统则允许差异显示为云状遮挡伪影,因为它在图像摄取过程中不会将它们与结构分离。
谷歌在视频中对比了标准NeRF与NeRF-W的结果。我们可以看到,这个全新的神经系统能够令人信服地在3D中再现地标,而虚拟现实和增强现实设备的用户可以体验到复杂的建筑,包括时间和天气变化。实际上,这是2019年公布的方案“Neural Rerendering in the Wild”的优化,现在的系统已经可以更好地将三维结构与光照分离开来,并且当在从不同角度查看时,画面会显地更加流畅。
相关论文:NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo Collections
当然,谷歌不是唯一一家研究将照片用作3D建模输入的公司。例如,英特尔的研究人员正在使用多张照片和一个递归编解码器网络来插值未捕捉到的角度,从而生成现实世界地点的合成版本。尽管英特尔的系统在像素级清晰度和时间平滑度方面似乎优于包括标准NeRF在内的众多替代产品,但它似乎没有提供NeRF-W的可变照明功能,同时没有注重使用随机来源的照片来重现真实世界的位置。