ICCV 2021 Oral | PoinTr：几何敏感的多样点云补全Transformer( 二 )

文章图片
为中心点的区域的特征。最后，我们利用一个MLP网络
文章图片
，提取每一个局部特征的位置嵌入(positionalembedding) ，相加后得到点代理，即
文章图片
，作为Encoder的输入。
Encoder-Decoder结构：

文章图片
如上图所示， Encoder由多头自注意力层(multi-headself-attentionlayer)与前馈神经网络(feed-forwardnetwork)组成， Decoder则由多头自注意力层、编码器解码器交叉注意力层和前馈神经网络构成。
几何敏感的Transformer：

文章图片
我们针对点云输入设计了一种即插即用的新型transformerblock 。在原本的transformer模块中，网络只利用自注意力机制挖掘不同部分之间的关系，这其实是一种基于特征相似度的长程语义关系，为了利用点云数据的归纳偏置，我们将局部几何关系补充到自注意力模块。
我们根据点代理
文章图片
对应的三维点坐标
文章图片
，使用kNN将空间中相邻的点代理拼接在一起，使用一层线性层进行局部几何信息学习，通过将该结果和自注意力机制的结果进行融合，我们可以同时挖掘长程语义相关性，也同时保留了有效的局部几何关系，有效的提高了模型的性能。
Query生成器：
Queries是待预测点代理的初始状态，用于指导缺失点云的重建。我们首先通过Encoder的输出特征得到全局特征
文章图片
，如最大池化，并通过一个线性层预测粗略的缺失点云中心点坐标
文章图片
。将缺失点云中心点坐标与全局特征拼接后，用一个多层感知机生成query特征，即

文章图片
点云预测：
【ICCV 2021 Oral | PoinTr：几何敏感的多样点云补全Transformer】
文章图片
通过Decoder被翻译为一个点代理
文章图片
，该点代理对应了
文章图片
以为中心的局部点云。我们利用FoldingNet对点代理进行偏移坐标重建：即

文章图片
最后我们将输入点云与预测结果进行拼接，即可以得到最终的预测结果。
3实验结果
首先我们将PoinTr和现有一些方法在ShapeNet-55与ShapeNet-34上进行了实验，在Simple ， Moderate与Hard三个难度下（缺失25% ， 50% ， 75%点云）， PoinTr在ChamferDistance与F1指标上都取得了最好表现；

文章图片
同时我们也在PCN数据集上进行了测试，也取得了最好表现。

文章图片
为了验证我们提出的方法的有效性，我们对我们的方法进行了消融实验，可见我们提出的方法都有效提高了Transformer模型在点云补全任务上的效果。