从双目视觉到三维目标的端到端重建,哈工大、商汤等顶尖研究员共同提出最先进的重建水平

从双目视觉到三维目标的端到端重建,哈工大、商汤等顶尖研究员共同提出最先进的重建水平

From: arxiv 编译: T.R

近年来,基于单张RGB图像重建三维形状的任务在深度学习的帮助下取得了一系列突破性进展,但这种方法在很大程度上受限于训练数据集的种类,在针对未知物体的重建中模型的性能会发生大幅度退化。好在双目视觉天然包含了物体的深度信息,在双目信息的补充下将极大地提升三维重建的效果。当今多镜头智能手机的普及也让双目信息更容易获取。

为了探索基于双目视觉的三维重建方法,来自哈工大、商汤、厦门大学和鹏城实验室的研究人员们共同提出了一种直接从双目图像中重建目标三位结构的端到端方法,通过探索双边时差和两个视角下图像特征的对应关系来重建目标的三维点云/体素表示,在多个指标上达到了最为先进的的重建水平。

基于双目图像重建三维形状的端到端方法

虽然近年来单视图恢复三维形状的工作取得了一系列突破,但针对这一病态重建问题,具有视差信息的双目图像会更为可靠。在这一研究中,研究人员充分利用了双目图像间的双边视差信息及特征的对应关系,通过三个模块的学习重建出了目标的三维结构。

模型的结构如下图所示,根据最终输出三维形状的格式不同,分别得到了Stereo2Point 和Stereo2Voxel 两个子模型。

从双目视觉到三维目标的端到端重建,哈工大、商汤等顶尖研究员共同提出最先进的重建水平

模型一共由三个功能子模块构成,分别是从双目图像进行视差图重建的DispNet-B模块进行特征编码的RecNet-Encoder解码获取三维信息的Decoder,以及从图像特征中获取对应两个视角下对应关系的CorrNet。

下面就让我们来深入网络内部探索它是如何从双目图像重建高质量三维结构的。

整个模型的输入是两个视角下的双目RGB图像,而输出则是对应目标的三维结构,包括点云和体素两种形式对应着两种不同的解码器。首先,双目图像输入到了DispNet-B中得到各个视角对应的双边视差图。它由UNet结构构成,将输入的双目图像编码成1/8x1/8的尺寸,而后通过三个上采样输出两个视角对应的、与输入相同大小的视差图。与原始版本的DispNet不同,本方法中使用的视差网络DispNet-B可以在一个前传中计算出双边视差图。同时减少了每一层的通道数量,使得模型缩小为了原来的6%,大大提升了运算效率。

在得到视差图后,每个视角下对应的RGB图像和视差图像被分别送入到各自的编码器RecNet中,以便获取图像中特征的对应关系重建目标的三维模型。为了加速模型的收敛,这一模块使用了残差块作为基本的卷积模块。

从双目视觉到三维目标的端到端重建,哈工大、商汤等顶尖研究员共同提出最先进的重建水平

在编码器部分,RecNet利用每个视角下各自的视差图和RGB图提取出8192维的特征向量。在解码器部分,两个视角下的特征向量与CorrNet生成的特征对应关系一起送入并重建出最后的三维表示。点云和体素两种形式对应着两种不同的解码器。

从双目视觉到三维目标的端到端重建,哈工大、商汤等顶尖研究员共同提出最先进的重建水平

重建三维体素的情况下,解码器包含了9个上采样部分来从特征图生成32x32x32的体素空间,并在网络的最后添加sigmoid层来为每个三维栅格生成概率。在反卷积间添加了残差连接提高了训练的效率。

从双目视觉到三维目标的端到端重建,哈工大、商汤等顶尖研究员共同提出最先进的重建水平

在重建点云的情况下,解码器包含了八个Fire模块和一个全联接层得到1024个点。其中Fire模块由序列1x1卷积和后续的1x1及3x3混合卷积构成,利用1x1代替了大量的3x3层。与PSGN模型相比,RecNet仅仅是前者的28%。

从双目视觉到三维目标的端到端重建,哈工大、商汤等顶尖研究员共同提出最先进的重建水平

双视图间的对应关系是三维重建的关键所在。研究人员利用两个视角下RecNet的特征图构建了特征空间,并从中学习出了特征间的对应关系来获取立体视觉的几何信息。利用左右两个视图的平移堆叠使得网络可以在空间和视差维度对两个视角的特征进行充分的比较。在实现过程中,使用了3D-CNN结构通过九个三维卷积构成,并通过全联接输出4096维的关系特征向量。

在模型的训练过程中,使用了来自中间视差图的MSE作为视差损失,同时在三维重建阶段为体素和点云分别使用了体素的二进制交叉熵和点云的Chamfer距离来获得损失。

数据和实验结果

由于目前缺乏包含双边视差的双目三维数据集,研究人员基于ShapeNet数据集,通过开源软件Blender计算出了实验所需的双目图像、视差图和深度图,并为每个三维模型生成了32x32x32的体素和16,384个点,最终得到了1,052,976个数据样本。

在对模型进行充分训练后,可以看到在体素重建和点云恢复上都取得了十分优异的效果,对于细节表示地更为清晰,同时对于平面也不会出现异常的噪点。除了在性能上超过了先前的深度学习方法,与额外输入相机外参的多视角方法LSM相比也有着大幅度的提升。

从双目视觉到三维目标的端到端重建,哈工大、商汤等顶尖研究员共同提出最先进的重建水平从双目视觉到三维目标的端到端重建,哈工大、商汤等顶尖研究员共同提出最先进的重建水平

最后研究人员还在真实数据Driving上进行了实验。通过bbox将图像中待重建目标区域剪切送入模型来进行重建。可以看到几个对比的模型算法重建的结果十分相似,无法区分出不同的形状,而本文的方法则有效重建出了三种不同类型的车辆。

从双目视觉到三维目标的端到端重建,哈工大、商汤等顶尖研究员共同提出最先进的重建水平

如果想要详细了解模型的实现,可以参考论文:

https://arxiv.org/pdf/1910.08223.pdf

从双目视觉到三维目标的端到端重建,哈工大、商汤等顶尖研究员共同提出最先进的重建水平

谢昊哲author:https://infinitescript.com

pix2vox:http://arxiv.org/abs/1901.11153

苏昊组 PSGN:https://github.com/fanhqme/PointSetGeneration

atlasnet:https://arxiv.org/pdf/1802.05384v1.pdf

Matryoshka Networks: https://arxiv.org/abs/1804.10975

三维体素化软件binvox:http://www.patrickmin.com/binvox/

在线数据集:http://www.hdrlabs.com/sibl/archive.html

LSM:https://www2.eecs.berkeley.edu/Pubs/TechRpts/2017/EECS-2017-199.pdf

点云方向博客:https://cloud.tencent.com/developer/user/5926470

从双目视觉到三维目标的端到端重建,哈工大、商汤等顶尖研究员共同提出最先进的重建水平
从双目视觉到三维目标的端到端重建,哈工大、商汤等顶尖研究员共同提出最先进的重建水平

-The End-

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖

将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业
公司。

将门创新服务

专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。

将门技术社群

专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。

将门创投基金

专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括

机器智能、物联网、自然人机交互、企业计算。

在三年的时间里,将门创投基金已经投资了包括量化派、码隆科技、禾赛科技、宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业

公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: bp@thejiangmen.com从双目视觉到三维目标的端到端重建,哈工大、商汤等顶尖研究员共同提出最先进的重建水平

将门创投

让创新获得认可!

bp@thejiangmen.com


分享到:


相關文章: