MIT博士用概率编程让AI和人类一样看三维｜NeurIPS 2021( 二 )

模型使用了两个先验概率， 1）从数据中学习到的概率作为物体形状的先验， 2）图形上的概率分布作为场景结构的先验。然后从世界节点（worldnode）开始对场景图进行遍历来计算物体的位置、方向和深度图的似然模型。

文章图片
世界节点的意思就是所有没有平放在其他物体上的节点的父节点，例如图中的盒子（灰色节点）和四合一物体（红色节点）的父节点就是世界节点。图中为了简化没有画出世界节点。

文章图片
可以看到， 3DP3主要以这种物体之间的接触关系的常识和概率来进行场景图的建模，而这种常识恰恰可以保证系统能够检测和纠正计算机视觉中深度学习模型常犯的错误。并且概率推断也能够更准确地推断出物体的正确相对位置。
文章的作者NishadGothoskar也认为这和人类的推断过程是相同的：如果你知道了接触关系，那么你肯定会知道一个物体永远不可能漂浮在桌子上，也就是说，在桌子和物体之间必定还存在一个物体，这对于深度学习的黑盒模型来说是一个强有力的解释操作。
并且3DP3不要求对物体形状进行硬编码，而是提出了一个基于体素（voxel）的物体形状学习方法。研究人员使用概率推理来学习三维物体形状的非参数模型，考虑到了由于self-occlusion而产生的不确定性。

文章图片
文中主要研究了如何从包含已知类型的单一孤立物体的场景中学习到物体的形状，并没有考虑对更通用的形状学习和对形状不确定性的处理。
有了上面提到的基于接触关系的生成式模型后，就可以搭建一个完整的场景图推理算法了。
由于图像是通过实时图形和点云上的似然概率来建模的，所以研究人员把三维场景的理解作为这种生成模型的近似概率推理。
推理算法将数据驱动的Metropolis-Hastings核与物体姿势、场景图结构的MCMC核、物体形状的不确定性的积分以及现有的深度学习物体检测器和姿势估计器结合起来共同预测。
此外，这种架构能够利用生成模型中的推理来提供常识性的约束，从而修复神经网络检测器所产生的错误。
在实验部分，研究人员使用一个标准的机器人数据集YCB-Video来训练和评估3D感知能力。
首先对每个物体类型选取5张合成图像来学习图形先验，然后使用一个神经6DoF姿势估计模型DenseFusion对模型的推理算法进行初始化。
为了衡量姿势（物体的位置和朝向）预测的准确性，研究人员使用ADD-S来估计物体模型上的点与预测物体姿态之间的平均最近点距离。

文章图片
实验结果可以看到， 3DP3几乎能够准确预测所有形状的物体，并且在消融实验中可以看到， 3DP3比固定结构且没有接触关系的3DP3*更精确。
这也表明了基于渲染和结构推断都有助于3DP3更准确地估计6DoF姿态。
参考资料：
【MIT博士用概率编程让AI和人类一样看三维｜NeurIPS 2021】https://arxiv.org/pdf/2111.00312