秦紅星,劉鎮(zhèn)濤,譚博元
1.重慶郵電大學計算機科學與技術(shù)學院, 重慶 400065; 2.重慶大學計算機學院, 重慶 400030
2010年至2020年期間,3維掃描設(shè)備的普及呈現(xiàn)出加速趨勢,造成點云數(shù)據(jù)的急劇增長,推動了深度學習3維視覺領(lǐng)域的迅速發(fā)展。學者們從不同角度對該領(lǐng)域的發(fā)展做出了總結(jié)。Guo等人(2021)針對深度學習在3D點云領(lǐng)域的應(yīng)用給出了綜述。龍霄瀟等人(2021)對3維視覺的前沿領(lǐng)域進行了系統(tǒng)的綜述。點云配準是將兩個或多個相機坐標系下的點云數(shù)據(jù)轉(zhuǎn)換到世界坐標系完成拼接的過程,是3維視覺中的一項重要任務(wù)。比如:在3維重建中,通常利用掃描設(shè)備獲取場景的局部信息,通過點云配準完成對整個場景的重建。在高精度地圖與定位中,通過車輛行駛過程中采集到的局部點云片段配準到提前制作好的場景地圖中,可以完成車輛的高精度定位。此外,點云配準還在位姿估計、機器人和醫(yī)療等領(lǐng)域得到了大量的應(yīng)用。
以ICP(iterative closest point)(Besl和McKay,1992)、NDT(normal distributions transform)(Biber和Strasser,2003)和4PCS(4-points congruent sets)(Aiger等,2008)等為代表的傳統(tǒng)方法已經(jīng)在各個領(lǐng)域得到廣泛應(yīng)用,然而這些方法大多對噪聲、異常點、低重疊和初始位姿敏感。另外,Johnson和Hebert(1999)、Frome等人(2004)、Rusu等人(2008,2009)、Salti等人(2014)設(shè)計了人工編碼特征用于全局配準,這些方法通常統(tǒng)計空間坐標、曲率、法向量等幾何屬性得到直方圖,然后通過人工編碼得到幾何特征,這種方式容易受到噪聲、異常點的影響,特征匹配效率不高。對于傳統(tǒng)方法,Cheng等人(2018)、Saiti和Theoharis(2020)給出了更為詳盡的總結(jié)。在現(xiàn)實世界的點云數(shù)據(jù)采集過程中,存在著大量的噪聲、異常點和較低的重疊,對傳統(tǒng)方法帶來了極大的挑戰(zhàn)。近年來,深度學習在點云配準領(lǐng)域廣泛應(yīng)用并取得顯著成效,引起了研究者廣泛的興趣。
本文旨在為深度學習剛性點云配準領(lǐng)域提供全面的綜述。為方便起見,將基于深度學習的剛性點云配準稱為深度點云配準。目前僅有少量綜述性文章對深度學習點云配準研究進行了分析和總結(jié)。Huang等人(2021b)將點云配準分為同源配準和跨源配準,對傳統(tǒng)方法、基于深度學習的方法進行了綜述。Zhang等人(2020)對近年來深度學習方法進行了綜述,但沒有對算法進行明確的區(qū)分,并且缺乏完整的統(tǒng)一基準的對比參考數(shù)據(jù)。另外,Bello等人(2020)對體素點云數(shù)據(jù)、原始點云上的學習進行了綜述,但只涉及點云特征提取部分。與前人的工作相比,本文的主要貢獻在于:聚焦于深度學習點云配準,綜合最新出現(xiàn)的參考文獻,從算法的主要功能出發(fā),對算法重新進行了分類和總結(jié),重點闡述了最新出現(xiàn)的方法和發(fā)展趨勢;將配準過程劃分為不同的階段,對不同算法在相同階段中的處理方式進行了詳細闡述并使用表格進行歸納,然后總結(jié)其優(yōu)劣;對以往綜述工作做出補充,詳細介紹了多種度量指標并總結(jié)同類指標的差異,匯總了在不同基準下的較為詳細的對比數(shù)據(jù),并提供分析和總結(jié)。
給定兩個點云:源點云X={xi∈R3|i=1,…,N}和目標點云Y={yj∈R3|j=1,…,M}。其中,N與M分別為源點云和目標點云點的數(shù)量。點云配準的目標是求解源點云X到目標點云Y在世界坐標系下的相對變換,包括旋轉(zhuǎn)矩陣R∈SO(3)和平移向量t∈R3,其中SO(3)為3維旋轉(zhuǎn)群。點云配準可以描述為一個均方誤差最小化問題
(1)
式中,ym表示任意點xi∈X在目標點云Y中的對應(yīng)點(correspondence)。式(1)可以通過奇異值分解(singular value decomposition,SVD)求解R和t,然而對應(yīng)點ym通常是未知的,在求解變換之前,需要建立逐點的對應(yīng)關(guān)系
(2)
因此,式(1)與式(2)是一個典型的雞和蛋的問題,式(2)的求解依賴于已知的R和t,而這恰好是式(1)求解的目標。在傳統(tǒng)方法中,典型的ICP算法假設(shè)初始R=I并且t=0,首先在歐氏空間中使用最近鄰操作來建立對應(yīng)關(guān)系m,然后利用式(1)求解剛性變換,循環(huán)以上兩個過程直到收斂。這樣的解決方案通常會導致算法對初始位姿敏感。
隨著深度學習在點云配準領(lǐng)域的應(yīng)用,出現(xiàn)了一批不需要依靠對應(yīng)關(guān)系的方法,本文將其稱為無對應(yīng)配準方法。無對應(yīng)配準方法的關(guān)鍵問題在于如何利用網(wǎng)絡(luò)學習一個從點云到全局特征的映射φ:R3×N→RK,并且尋找合適的旋轉(zhuǎn)R和平移t使得φ(Y)=φ(RX+t),其中K表示全局特征的維度。
點云配準是一個典型的流水線處理過程,其流程如圖1所示。在圖1中,預處理過程通常用于對原始點云數(shù)據(jù)進行降噪、去異常值、去除非重疊區(qū)域和采樣處理;另外,基于對應(yīng)關(guān)系的點云配準在特征提取后還需要進行額外的特征匹配步驟來獲得點對。
圖1 深度點云配準流水線過程Fig.1 Pipeline process of deep point cloud registration
根據(jù)有無借助對應(yīng)關(guān)系,本文將現(xiàn)有研究分為基于對應(yīng)關(guān)系的深度點云配準和無對應(yīng)配準分別進行介紹。目前該領(lǐng)域?qū)缭袋c云的研究較少,因此不再對其進行劃分。
目前研究者們在合成數(shù)據(jù)與真實數(shù)據(jù)上都展開了研究,相比合成數(shù)據(jù)而言,真實數(shù)據(jù)的表面點拓撲結(jié)構(gòu)更加復雜,并且點的數(shù)量更多,對魯棒性的要求更高,許多研究者將真實數(shù)據(jù)上的點云配準拆分為多個子問題進行研究。而在合成數(shù)據(jù)中,現(xiàn)有的研究大多采用了端到端方法。為了方便對比,本文按照各個方法的主要功能,即特征提取、關(guān)鍵點檢測、離群點對去除、姿態(tài)估計和端到端點云配準進行分類。相關(guān)代表方法整理如表1所示。
在基于對應(yīng)關(guān)系的點云配準中,學習鑒別力高的特征表示是配準好壞的關(guān)鍵。點云中包含豐富的空間幾何信息,以合理的方式組織點云,從點云中提取更多的信息,才能豐富特征的辨識度。因此,如何從無組織的點云中提取更多的具有辨識度的信息是特征提取最受關(guān)注的問題。近年來,研究者們提出大量基于深度學習的特征提取方法,按照它們的特點,分為以下兩種類型: 1)基于局部塊(local patch)的特征提取;2)基于卷積的特征提取。
Qi等人(2017a)提出了PointNet,這是第1個直接在輸入點云上提取特征的網(wǎng)絡(luò)。PointNet主要解決了點云的無序性、置換不變性和旋轉(zhuǎn)不變性問題。對于輸入的無序點云,使用多層感知機(multilayer perceptrons,MLPs)分別對每個點提取特征,然后使用對稱函數(shù)(最大池化)來達到置換不變的目的,最后使用T-net(transformation network)預測一個剛性變換矩陣,用于滿足旋轉(zhuǎn)不變性。
PointNet無法捕獲空間點的語義信息,限制了特征的通用性。此外,由MLPs學習而來的網(wǎng)絡(luò)無法處理密度不均勻的點云數(shù)據(jù)。Qi等人(2017b)進一步提出了PointNet++,針對以上問題進行了改進。PointNet++引入了一個由最遠點采樣層、分組層以及PointNet層組成的層次化結(jié)構(gòu)來捕捉不同尺度的上下文信息。為了提高在不同密度下采樣的性能,提出了多尺度聚合和多分辨率聚合,用于提取多個尺度的局部模式,并根據(jù)點密度進行自適應(yīng)組合,最終得到密度自適應(yīng)特征。
PointNet與PointNet++沒有關(guān)注點與點之間的幾何關(guān)系,限制了特征的表示能力,因而不能直接應(yīng)用于點云配準領(lǐng)域。但其為解決點云特征提取中存在的無序性、密度變化、置換不變性和旋轉(zhuǎn)不變性等問題提供了有效參考,促進了后續(xù)研究的開展。
表1 基于對應(yīng)關(guān)系配準的典型方法Table 1 Typical methods of registration based on correspondence
2.1.1 基于局部塊的特征提取
為了解決點云的無組織性問題,一些研究者利用體素、包圍球和K最近鄰(K-nearest neighbor,KNN)等方式對點云進行組織,以提取更為豐富的局部幾何特征,這些方法通常稱為基于局部塊的方法。
Khoury等人(2017)提出一種緊湊幾何特征(compact geometric features,CGF),通過在點上建立一個包圍球,建立局部參考框架(local reference frame,LRF)得到描述局部鄰域中點分布的直方圖,然后訓練一個神經(jīng)網(wǎng)絡(luò)將輸入的直方圖映射到一個低維的歐氏空間得到更緊湊的幾何特征描述符。
Deng等人(2018b)提出了PPFNet。首先對采樣點的局部鄰域計算點對特征(point pair feature,PPF)(Rusu等,2008,2009),將其作為網(wǎng)絡(luò)的輸入,利用多個PointNet網(wǎng)絡(luò)將不同尺度的局部特征和全局特征融合,最后經(jīng)過MLPs編碼得到最終的特征。PPFNet利用了全局上下文感知和編碼特征,提高了特征的旋轉(zhuǎn)不變性和對噪聲的魯棒性,但是PPF特征的計算需要大量的最近鄰標注數(shù)據(jù),并且局部參考框架的建立依賴于法向量的估計,導致了對噪聲敏感。另外,尋找固定的K近鄰點導致對點云稀疏程度的變化敏感。
為改進PPFNet的缺點,Deng(2018a)進一步提出了PPF-FoldNet。該方法是一種無監(jiān)督的方法,首先提取PPF特征,使用了一個包含具有跳連接的類PointNet編碼器和類FoldingNet(Yang等,2018)的解碼器的框架,通過度量輸入PPF特征和輸出點對特征之間的差異,來獲取最終點云的特征表示。PPF-FoldNet在噪聲下取得了較好的效果,但仍然對點密度變化較為敏感。
Yew和Lee(2018)提出了3DFeatNet,針對網(wǎng)絡(luò)訓練中難以獲取精確標注的問題,提出一種弱監(jiān)督深度學習框架。從兩個輸入點云的所有描述符對之間的相似性度量中選擇正樣本以及置信度最高的負樣本,然后使用注意力層來學習一個權(quán)重,用于衡量每個輸入描述符對三元組損失的貢獻,最后通過最小化三元組損失來訓練網(wǎng)絡(luò)。
使用類似PointNet的結(jié)構(gòu)可以實現(xiàn)直接從原始點云中提取特征,但這也限制了卷積操作的使用,不利于捕獲局部拓撲信息。針對這個問題,Gojcic等人(2019)提出了3DSmoothNet,設(shè)計了可以適用于卷積操作的平滑密度值(smoothed density value voxelization,SDV)體素格子,來編碼原始點云,利用Siamese網(wǎng)絡(luò)架構(gòu)學習最終的特征。該方法增強了泛化能力,在單一的場景下進行訓練,再擴展到其他場景中時仍然可以取得較好的結(jié)果。
2.1.2 基于卷積的特征提取
目前基于卷積的方法主要包括兩種,一種是直接在點云上進行卷積操作來提取特征,另一種是通過將點云體素化后,使用體素卷積方法提取特征。
受PointNet和卷積操作的啟發(fā),Wang等人(2019)設(shè)計了邊卷積(edge convolution,EdgeConv)操作。首先在點云中構(gòu)建局部鄰域圖,然后在中心點與相鄰點構(gòu)成的邊上應(yīng)用類卷積操作,稱為邊卷積。進一步,在網(wǎng)絡(luò)中多次疊加包含邊卷積的層,得到動態(tài)圖卷積神經(jīng)網(wǎng)絡(luò)(dynamic graph convolutional neural network,DGCNN)。與普通的圖卷積神經(jīng)網(wǎng)絡(luò)不同,DGCNN中的圖節(jié)點不是固定的,而是在網(wǎng)絡(luò)的每一層之后動態(tài)更新,也就是說,一個點的近鄰點集隨著網(wǎng)絡(luò)的加深逐層變化。因此,EdgeConv非常靈活,在網(wǎng)絡(luò)中加入一定的EdgeConv層有利于捕獲點之間的拓撲信息,但這樣也引入了額外的K近鄰計算開銷。
為了解決不規(guī)則點云上的卷積問題,并更好地捕獲局部幾何信息,Thomas等人(2019)提出了核點卷積(kernel point convolution,KPConv),使用攜帶卷積權(quán)值的核點(kernel point)來模擬2維卷積中的核像素,進而定義原始點云上的卷積操作。KPConv通過點云位置與核點的關(guān)系來生成卷積核,其組合權(quán)重矩陣是人為設(shè)定的,不一定能得到最優(yōu)結(jié)果,且靈活性有限。同時,針對不同的點云數(shù)據(jù),核點空間需要專門進行定制,這使得其對超參數(shù)敏感。為此,Xu等人(2021b)提出了位置自適應(yīng)卷積(position adaptive convolution,PAConv),通過網(wǎng)絡(luò)從點的位置中自適應(yīng)地學習權(quán)重矩陣,然后通過動態(tài)組合權(quán)重矩陣來構(gòu)造卷積核。在現(xiàn)有的點云處理框架中,可以使用PAConv替換MLPs模塊,無需改變框架的結(jié)構(gòu)和參數(shù),因此具備更好的靈活性。
Zeng等人(2017)提出了3DMatch網(wǎng)絡(luò),以體素為輸入,首先需要把點云量化成體素表示,然后利用3D卷積神經(jīng)網(wǎng)絡(luò)來學習局部幾何模式,得到512維度的特征描述符(descriptor)。
由于點云的稀疏性,傳統(tǒng)3D卷積操作會造成計算資源的浪費,并且3D卷積本身計算的時間復雜度也很高,因此Choy等人(2019b)提出全卷積幾何特征(fully convolutional geometric features,F(xiàn)CGF),使用稀疏3D卷積代替?zhèn)鹘y(tǒng)的3D卷積,以緩解點云稀疏性帶來的問題。通過使用稀疏卷積構(gòu)建包含跳連接和殘差塊ResBlock的ResUNet網(wǎng)絡(luò)架構(gòu)來提取點云的局部幾何特征,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,圖中卷積塊參數(shù)分別為卷積核大小、步長和通道數(shù)。FCGF特征輸出的維度僅為32維,較為緊湊,并且其運行效率相較以往有著巨大的提高,可以拓展到真實場景。另外,F(xiàn)CGF需要通過旋轉(zhuǎn)增強來實現(xiàn)特征的旋轉(zhuǎn)不變性。
FCGF對數(shù)據(jù)的采樣出現(xiàn)過擬合,導致其泛化效果較差。Horache等人(2021)在FCGF的基礎(chǔ)上提出了多尺度架構(gòu)與自監(jiān)督細化(multi-scale architecture and self-supervised fine-tuning,MS-SVConv)卷積神經(jīng)網(wǎng)絡(luò)。該方法首先體素化點云,通過選取不同大小的體素格子來獲得不同尺度下的體素數(shù)據(jù),然后將它們輸入到一個共享權(quán)重的U-Net結(jié)構(gòu)的網(wǎng)絡(luò)中,分別提取特征。最后使用一個全連接層對這些特征進行融合,最終得到每個點的特征描述符。MS-SVConv延續(xù)了FCGF運算速度快、對旋轉(zhuǎn)魯棒的特點,同時大幅加強了泛化性能。
圖2 特征提取框架FCGF(Choy 等,2019b)Fig.2 Feature extraction framework FCGF(Choy et al.,2019b)
Ao等人(2021)提出了一種新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)SpinNet。SpinNet包含兩個模塊:1)空間點變換模塊。首先估計出一個參考軸,使其與全局參考系的Z軸對齊,以消除這個方向上的自由度;然后利用球形體素化和XY平面變換操作消除XY平面的旋轉(zhuǎn)自由度;最后將球形體素投影到一個圓柱形容器中。2)特征提取模塊。使用一個共享權(quán)重的MLPs和最大池化聚合函數(shù)提取每個體素的初始特征,然后使用3D圓柱卷積(Joung等,2020)操作提取最終的特征。SpinNet保證了特征的旋轉(zhuǎn)不變性,具有較好的泛化性能。
2.1.3 小結(jié)
基于局部塊的方法通常依賴于建立局部坐標系或者提取傳統(tǒng)特征作為網(wǎng)絡(luò)輸入來獲取旋轉(zhuǎn)不變性,帶來了額外的計算開銷。局部坐標系的建立依賴于對原始點法向量的估計,這會導致對噪聲、異常點的敏感。盡管提取的傳統(tǒng)特征是旋轉(zhuǎn)不變的,但這并不能保證網(wǎng)絡(luò)輸出的特征具有好的旋轉(zhuǎn)不變性。另外,對固定點數(shù)的局部塊進行特征提取,會導致對密度變化敏感。對固定區(qū)域的局部塊進行特征提取,限制了特征的感受野。基于卷積的方法可以在重疊區(qū)域的神經(jīng)元之間共享激活單元,因此更加高效。并且卷積操作可以捕捉更加廣泛的局部拓撲信息,增大了特征的感受野,從而提高特征的辨識度。另外,除動態(tài)圖卷積外,其他的卷積操作不需要額外的鄰域標簽信息,降低了計算開銷,計算速度得到顯著提高。
在真實數(shù)據(jù)中,為了提取具有高分辨力的特征,通常在網(wǎng)絡(luò)中輸入的原始點數(shù)量都是較多的,然而對于求解剛性變換而言,在保證用于求解點足夠有效的情況下,僅需要少量點對即可(必須超過 3個)。隨機采樣容易同比例采樣噪聲點,并且可能受到密度變化等因素的影響,因此無法較好地滿足高效采樣的要求。一些研究者開發(fā)了基于深度學習的關(guān)鍵點檢測方法,旨在采樣對配準任務(wù)貢獻大的點。
Bai等人(2020)提出D3feat(description of 3D local features),使用包含KPConv的ResNet塊組成的U-Net網(wǎng)絡(luò)架構(gòu)來實現(xiàn)在點云上提取特征并且檢測關(guān)鍵點。為了解決密度對顯著性的影響,提出了一個密度不變的顯著性分數(shù)來評估某一點與其局部鄰域的關(guān)系,最后通過該顯著性分數(shù)和特征通道最大分數(shù)來計算關(guān)鍵點檢測分數(shù)。
通常關(guān)鍵點的檢測需要預測逐點的顯著性,Lu等人(2020)提出一個基于隨機采樣的關(guān)鍵點檢測器和特征提取網(wǎng)絡(luò)RSKDD-Net。為了解決隨機采樣的信息損失問題,利用隨機擴展群(random dilation)策略來擴大每個采樣點的接受場,對相鄰點進行聚類,然后使用注意力機制聚合近鄰點的位置和特征,從而得到關(guān)鍵點。最后通過概率倒角距離損失和點到點損失來訓練網(wǎng)絡(luò)。
Huang等人(2021a)對以往的關(guān)鍵點提取方法進行了補充,指出提取關(guān)鍵點的前提是必須保證關(guān)鍵點應(yīng)該在兩個點云的重疊區(qū)域內(nèi)?;诖擞^點,將問題延伸到低重疊場景,提出PREDATOR用于低重疊的點云配準,其網(wǎng)絡(luò)框架如圖3所示。PREDATOR通過PAConv和EdgeConv分別捕獲密度不變的局部幾何信息與上下文信息進而得到超點(super point),通過使用交叉注意力塊(Sarlin等,2020)提取兩點云的特征編碼之間的上下文信息得到上下文特征,來預測超點位于重疊部分的概率。然后通過共享權(quán)重的解碼器對超點進行上采樣,最終輸出點的特征和點位于重疊區(qū)域的概率以及點的顯著性打分。值得注意的是,與以往的顯著性定義不同,PREDATOR將顯著性定義為某個點能找到另一與之匹配的點的可能性。
圖3 關(guān)鍵點提取框架PREDATOR(Huang等,2021a)Fig.3 Key point extraction framework PREDATOR(Huang et al.,2021a)
另外一些端到端配準方法中也嵌入了關(guān)鍵點檢測模塊。比如:PRNet(partial-to-partial registration network)(Wang和Solomon,2019b)通過特征的二范數(shù)距離定義點的顯著性,然后根據(jù)二范數(shù)的大小來選取顯著性高的若干個關(guān)鍵點。為了提高計算效率,避免隨機采樣導致的網(wǎng)絡(luò)性能下降,IDAM(iterative distance-aware similarity matrix)(Li等,2020)使用MLPs預測點的顯著性來獲取固定數(shù)量的關(guān)鍵點。
關(guān)鍵點的顯著性通常與特征進行聯(lián)合學習,由于顯著性往往來自于獨特的特征,這種顯著性選取方式依賴于特征學習模塊的編碼,由網(wǎng)絡(luò)自適應(yīng)選取對于配準任務(wù)更為重要的點。另外,由于配準過程往往更加關(guān)注于重疊區(qū)域,適當?shù)亟粨Q兩個點云之間的信息可以使得關(guān)鍵點的檢測更加精準。在一些端到端網(wǎng)絡(luò)中也嵌入了關(guān)鍵點模塊,對關(guān)鍵點檢測技術(shù)的總結(jié)如表2所示。
表2 關(guān)鍵點檢測方法概要總結(jié)Table 2 Summary of key point detection methods
點對離群值去除(outliers removal)是點云配準最為關(guān)鍵的任務(wù)之一。事實上,通過幾何特征匹配得到的對應(yīng)關(guān)系并不總是可靠的。造成這種情況的原因主要有3個:1)噪聲和異常點。噪聲和異常點會降低特征的辨識度。2)部分重疊問題。位于重疊區(qū)域之外的點顯然沒有對應(yīng)點與之匹配。3)局部點云不顯著問題。某些點云局部區(qū)域非常“平坦”,顯著性較低,容易導致特征的誤匹配。通常,特征匹配后得到的點對包含較多離群值,很難用于直接求解剛性變換,因此需要對其進行去除。
在3DRegNet(3D point registration network)(Pais等,2020)中,使用一個包含ResNet塊的深度神經(jīng)網(wǎng)絡(luò)作為分類模塊,用以預測某一個點對屬于內(nèi)點的置信度。3D點對之間存在豐富的幾何信息,單純地將點對離群值去除視為一個二分類模塊并不能取得很好的效果。Yang等人(2020)觀察到正確的點對之間應(yīng)該滿足幾何上的兼容性,因此提出使用兼容性特征(compatibility features,CF)來表示點對。首先,針對點對的長度與角度進行兼容性檢查,得到點對的兼容性分數(shù)。然后,聚合兼容性打分最高的點的信息,得到兼容性特征。最后,將提取的兼容性特征輸入到一個MLPs中,進行密集的二分類,將點對區(qū)分為內(nèi)點(inlier)和離群點(outlier)。與Yang等人(2020)的工作相似,PointDSC(point deep spatial consistency)(Bai等,2021)中將傳統(tǒng)方法的空間幾何一致性約束引入了深度學習領(lǐng)域,通過類似于Nonlocal網(wǎng)絡(luò)(Wang等,2018)的SCNonlocal模塊提取空間一致性特征。不同的是,PointDSC使用MLPs輸出的置信度選擇種子點,對每個種子點進行K近鄰查找以提取滿足空間一致性的點對的集合,最后從若干集合中選擇最優(yōu)的集合求解剛性變換,其網(wǎng)絡(luò)框架如圖4所示。
3DRegNet(Pais等,2020)、DGR(deep global registration)(Choy等,2020)方法將點對離群值去除考慮為二分類問題,利用網(wǎng)絡(luò)預測點對的置信度。然而點對中可能包含非常多的離群值,這對網(wǎng)絡(luò)的擬合效果造成影響,因此這類方法并沒有達到理想中的性能,相比隨機采樣一致性(random sample consensus,RANSAC)(Fischler和Bolles等,1981)仍然存在一定差距。CF與PointDSC的工作本質(zhì)上都是利用網(wǎng)絡(luò)學習點對之間的旋轉(zhuǎn)不變約束,因此對離群值的篩選變得更為嚴格,更加貼合真實數(shù)據(jù)配準需求。此外,PointDSC還通過類似于空間播種的方法選擇多個一致性集合進一步加強魯棒性,相比直接對點對進行分類的回歸方法而言,離群值去除的性能有了較大的提高。在一些端到端網(wǎng)絡(luò)中也嵌入了點對離群值去除模塊,對上述方法的總結(jié)如表3所示。
圖4 點對離群值去除框架PointDSC(Bai等,2021)Fig.4 Outlier removal framework PointDSC(Bai et al.,2021)
表3 點對離群值去除方法概要總結(jié)Table 3 Summary of outliers removal methods
在基于對應(yīng)關(guān)系的點云配準中,姿態(tài)估計即通過對應(yīng)關(guān)系計算源點云與目標點云之間的剛性變換R和t,是配準的最后階段。SVD方法計算的是解析解,并且提供了可微分的實現(xiàn)(Papadopoulo和Lourakis,2000),因此在深度點云配準中得到廣泛應(yīng)用。大部分方法采用了常規(guī)的SVD求解方法,但在對SVD的使用上有所不同,因此本文僅從使用的角度對各個方法進行總結(jié)與討論。
DCP(deep closest point)(Wang和Solomon,2019a)、DeepVCP(Lu等,2019)通過置信度的加權(quán)和計算對應(yīng)點的位置,進而估計相對姿態(tài)。PRNet(Wang和Solomon,2019b)選取置信度較高的點對,用于SVD的計算。RPMNet(robust point matching network)(Yew和Lee,2020)、IDAM(Li等,2020)、DGR(Choy等,2020)通過置信度選擇點對,但同時保留了置信度,將其作為權(quán)重,使用加權(quán)SVD求解剛性變換。PointDSC(Bai等,2021)在網(wǎng)絡(luò)的訓練階段使用加權(quán)SVD方法,在測試階段使用加權(quán)最小二乘法估計求解剛性變換。
僅對SVD求解模塊輸入點對坐標意味著丟棄網(wǎng)絡(luò)中計算的點對置信度,因此網(wǎng)絡(luò)的反向傳播需要通過坐標值進行傳遞,而坐標的值通常是確定的數(shù)值,因此可能對網(wǎng)絡(luò)中梯度的傳遞造成阻礙,而保留權(quán)重則意味著網(wǎng)絡(luò)可以通過權(quán)重值來傳播梯度。使用加權(quán)和計算的對應(yīng)點并不真實存在于目標點云中,因此更加依賴于網(wǎng)絡(luò)對置信度的估計。PointDSC在測試階段使用傳統(tǒng)優(yōu)化技術(shù)對加權(quán)SVD進行替代,并且取得了成功,提供了新的思路。
點云數(shù)據(jù)配準結(jié)果主要取決于對應(yīng)關(guān)系的估計,好的對應(yīng)關(guān)系可以通過高效的特征提取、匹配與離群值去除模塊來獲取,一些研究者對這些流程進行了整合,通過訓練一個深度神經(jīng)網(wǎng)絡(luò)來直接解決配準問題,輸入兩個點云,輸出運動參數(shù),這種網(wǎng)絡(luò)稱為端到端網(wǎng)絡(luò)(end-to-end)。通常,端到端網(wǎng)絡(luò)將各個流程的處理模塊集成到一個網(wǎng)絡(luò)中,對顯存的需求較大,更適合數(shù)據(jù)量較小的配準任務(wù)。另外,一些網(wǎng)絡(luò)并不是直接輸入原始點云,而是輸入處理后的點云相關(guān)數(shù)據(jù),為敘述方便,本文統(tǒng)一將其歸類為端到端網(wǎng)絡(luò)。
Wang和Solomon(2019a)提出了深度最近點(DCP)方法,用于實現(xiàn)端到端的點云配準。DCP使用由Wang等人(2019)提出的DGCNN學習點云的嵌入(embeding),使用transformer(Vaswani等,2017)對上下文信息進行編碼,實現(xiàn)對嵌入的微調(diào)。為了解決特征匹配的不可微分問題,使用嵌入的點積來度量相似度。DCP對噪聲取得了較好的魯棒性,但由于其采用單隨機矩陣確定對應(yīng)關(guān)系,這意味著點云X中的所有點在目標點云中都有一個對應(yīng),這種假設(shè)在異常值和低重疊情況下會引入錯誤的對應(yīng)關(guān)系。
Wang和Solomon(2019b)進一步提出了PRNet,用來改進DCP。與DCP考慮所有輸入點的對應(yīng)不同,PRNet采用部分關(guān)鍵點進行配準。此外,為了獲取高質(zhì)量的對應(yīng)關(guān)系,PRNet使用了一種演員—評論家(actor-critic)模式,使用全局池化聚合逐點特征來得到全局特征,然后通過一個子網(wǎng)絡(luò)預測退火參數(shù)用于控制匹配的銳化程度。在匹配階段,使用了近似可微的Gumbel-softmax(Jang等,2017)函數(shù)代替不可微argmax函數(shù),確保反向傳播時可以獲得梯度。最后,使用迭代優(yōu)化提高配準的精度。盡管在低重疊和噪聲場景下PRNet取得了更好的效果,但是PRNet網(wǎng)絡(luò)模型較為龐大,不利于現(xiàn)實場景應(yīng)用。
Yew和Lee(2020)基于魯棒點匹配算法(robust point matching,RPM)(Gold等,1998)提出RPMNet。在特征提取部分,采用與PPFNet相似的結(jié)構(gòu),同時在特征中加入點的3維坐標得到混合特征;使用參數(shù)預測網(wǎng)絡(luò)來估計離群值參數(shù)與退火參數(shù),然后結(jié)合混合特征計算點對匹配。在點對離群值去除階段,引入一個可微的sinkhorn層,對匹配矩陣進行拓展,然后進行迭代歸一化得到置信度更高的對應(yīng)關(guān)系。RPMNet在噪聲和部分重疊下取得了優(yōu)秀的性能,但模型的初始輸入需要額外的標簽數(shù)據(jù),因此不適用于密集的點云輸入。與PRNet類似,RPMNet需要在迭代中重復計算特征,這增加了計算成本。
由于在網(wǎng)絡(luò)模型中K近鄰的計算效率不高,大多數(shù)模型通常使用特征的內(nèi)積或者特征的二范數(shù)距離來表示兩點之間的匹配相似度,這種方式忽略了特征在某個通道上的差異。為了改善這種情況,IDAM(Li等,2020)使用距離感知相似矩陣卷積學習特征匹配的相似性度量,以獲取更好的匹配關(guān)系。該網(wǎng)絡(luò)支持使用快速點特征直方圖(fast point feature histograms,F(xiàn)PFH)或圖卷積網(wǎng)絡(luò)(graph neural network,GNN)來提取旋轉(zhuǎn)不變的幾何特征,并將其與一個簡單的點對4維歐氏特征進行拼接得到距離增廣特征張量,然后在該張量上應(yīng)用1維卷積來學習特征匹配度量。為了提高相似矩陣卷積的運算效率和匹配的準確率,使用兩階段的點消除策略分別輸出逐點的顯著性打分和預測點對的置信度,進而計算每個點對的權(quán)重。IDAM在密集輸入點的場景下有顯著的運算優(yōu)勢,但網(wǎng)絡(luò)僅僅依靠關(guān)鍵點的選擇來避免離群點對,因此其配準結(jié)果依賴于網(wǎng)絡(luò)對關(guān)鍵點的預測。
深度高斯混合模型配準(deep Gaussian mixture model registration,DeepGMR)(Yuan等,2020)將神經(jīng)網(wǎng)絡(luò)嵌入到極大似然(maximum likelihood estimate,MLE)框架,將目標點云用高斯混合模型(Gaussian mixed model,GMM)進行建模,利用網(wǎng)絡(luò)預測任意兩個點對的對應(yīng)概率,然后利用可微分模塊計算GMM參數(shù),然后從GMM參數(shù)中估計最優(yōu)變換。DeepGMR利用神經(jīng)網(wǎng)絡(luò)代替期望最大化算法中的E步(expectation-step),對初始位置和噪聲不敏感,并且不需要迭代優(yōu)化,是一種全局的配準方法。
Ginzburg和Raviv(2021)提出深度加權(quán)一致性(deep weighted consensus,DWC)用于全局配準。DWC是一種無監(jiān)督網(wǎng)絡(luò),首先在點的局部鄰域內(nèi)提取線性變換不變特征(rotation-invariant,RI),然后使用兩個DGCNN(Wang等,2019)分別提取RI的全局和局部特征,通過全局—局部融合網(wǎng)絡(luò)得到最終特征。然后使用余弦相似性來定義兩個點云概率匹配矩陣,采樣包含K個對應(yīng)關(guān)系的集合并分別計算剛性變換,然后選取滿足內(nèi)點數(shù)量最多的剛性變換,最后通過采用加權(quán)一致性損失優(yōu)化對應(yīng)關(guān)系。
Lu等人(2019)提出了深度虛擬對應(yīng)點方法(deep virtual corresponding point,DeepVCP)以便在LiDAR(light detection and ranging)點云配準(真實數(shù)據(jù))中能夠避免動態(tài)對象,并采樣有利于配準的穩(wěn)定的、獨特的特征,采用PointNet++提取點的語義特征。在關(guān)鍵點提取階段,受3DFeatNet啟發(fā),設(shè)計了1個包含3個疊加完全連接層的多層感知器和一個Topk操作組成的點加權(quán)層,用于進一步提取關(guān)鍵點。在匹配階段,為了在目標點云中找到對應(yīng)點進行最終配準,使用了一個mini-PointNet提取逐個關(guān)鍵點的幾何特征。然后通過候選點坐標與特征相似性的加權(quán)和來計算虛擬對應(yīng)點,進而估計剛性變換。最后在損失中加入全局幾何約束以保證網(wǎng)絡(luò)預測的點的一致性。
深度全局配準(deep global registration,DGR)(Choy等,2020)是用于真實數(shù)據(jù)的端到端配準網(wǎng)絡(luò)。在特征提取階段,DGR采用FCGF(Choy等,2019b)。在離群值去除階段,采用了類似3DRegNet的思路,但有所不同的是,DGR利用Minkowski引擎(Choy等,2019a)實現(xiàn)6D卷積操作,進而構(gòu)建一個Res-UNet網(wǎng)絡(luò)用于預測逐個點對的置信度。為了進一步提高算法的魯棒性,在得到初步參數(shù)后,通過能量最小化函數(shù)對位姿進行微調(diào)。
一些方法為了提高配準精度,采用了遞歸網(wǎng)絡(luò)的設(shè)計,例如:PRNet(Wang和Solomon,2019b)、PRMNet(Yew和Lee,2020)、IDAM(Li等,2020),但這也帶來重復計算特征的開銷,本質(zhì)上是因為特征對于旋轉(zhuǎn)的變化不夠魯棒;同時,遞歸的方式也導致了網(wǎng)絡(luò)在訓練過程中的不穩(wěn)定,這可能是特征匹配模塊在不同迭代過程中網(wǎng)絡(luò)所關(guān)注到的信息不同所導致的。另外,由于配準過程中存在大量的干擾因素,例如:異常點、部分重疊等,這些因素導致了一些點不可能存在一一對應(yīng)關(guān)系,因此考慮所有點的對應(yīng)關(guān)系必然會導致算法應(yīng)用的場景受到限制。
在基于對應(yīng)關(guān)系的深度點云配準中,核心任務(wù)是獲取有效的對應(yīng)關(guān)系?,F(xiàn)有方法基本上都是通過特征提取和匹配來獲取對應(yīng)關(guān)系。通常經(jīng)過特征提取和匹配階段的對應(yīng)關(guān)系并不一定是可靠的,其中包含大量離群點對,不能直接用于估計剛性變換,因此需要去除錯誤匹配的點對。關(guān)鍵點檢測通常用于采樣對于配準任務(wù)有效的點,這潛在地去除了一部分離群值的影響,但對于大規(guī)模離群值去除,專用的點對離群值去除模塊能發(fā)揮更強大的功效。另外,對于不同的干擾而言:1)點云中的噪聲、異常值主要影響的是特征的辨識度,直接的結(jié)果是導致誤匹配。2)對于存在部分重疊的情況,主要的解決方案包括兩種,一種是“銳化”對應(yīng)關(guān)系,即選擇置信度最高的一部分點;另一種是在特征匹配前去除非重疊區(qū)域的點以徹底排除非重疊點的影響。3)對于大旋轉(zhuǎn)場景下,要求特征對旋轉(zhuǎn)的變化具有較好魯棒性。
主流的深度點云配準方法使用對應(yīng)關(guān)系求解剛性變換,研究者們探索出了一條不依賴于對應(yīng)關(guān)系的道路。相關(guān)方法概要整理如表4所示。
借鑒2維圖像中的算法思路,Aoki等人(2019)提出PointNetLK,利用去除了T-net模塊的PointNet網(wǎng)絡(luò)從兩個點云X和Y中提取相對位姿信息。然后利用逆合成(inverse compositional,IC)公式計算目標點云全局特征的雅可比矩陣。最后,利用一個可微的Lucas & Kanade(LK)算法優(yōu)化全局特征之間的差異計算剛性變換,其網(wǎng)絡(luò)框架如圖5所示。
表4 無對應(yīng)配準方法概要總結(jié)Table 4 Summary of correspondence-free registration methods
圖5 無對應(yīng)點云配準PointNetLK(Aoki等,2019)Fig.5 Point cloud registration without corresponding PointNetLK(Aoki et al.,2019)
Deng等人(2019)提出一種數(shù)據(jù)驅(qū)動的點云配準網(wǎng)絡(luò)。利用不同輸入但網(wǎng)絡(luò)結(jié)構(gòu)相同的PPF-FoldNet(輸入為PPF姿態(tài)不變特征)和PC-FoldNet(輸入為點云)輸出特征的差異產(chǎn)生包含結(jié)構(gòu)和姿態(tài)信息的新特征。在此基礎(chǔ)上,設(shè)計了RelativeNet直接預測相對姿態(tài)。該方法在真實數(shù)據(jù)集中得到了較高的召回率,但配準精度較低。
PCRNet(Sarode等,2019)提出一種數(shù)據(jù)驅(qū)動的方法。與PointNetLK不同,PCRNet(point cloud registration network)將兩個點云的全局特征進行拼接,直接利用類似Siamese(Held等,2016)的網(wǎng)絡(luò)架構(gòu)預測運動參數(shù)。Groβ等人(2019)設(shè)計了一種網(wǎng)絡(luò)AlignNet-3D用于3維軌道狀態(tài)估計。該方法將旋轉(zhuǎn)角度劃分為若干個子區(qū)間,由網(wǎng)絡(luò)預測旋轉(zhuǎn)所屬區(qū)間,最后預測一個角度差得到最終的旋轉(zhuǎn)角度參數(shù)。特征度量配準(FMR)(Huang等,2020)沿用了PointNetLK的思路,但不同的是,F(xiàn)MR利用剛性變換可逆的特性,使用編碼器—解碼器的模型對全局特征進行間接監(jiān)督。編碼器模塊生成獨特的特征后,使用解碼器模塊將特征映射回3維點云。這種方法可以通過監(jiān)督或無監(jiān)督的方式訓練網(wǎng)絡(luò)。FMR在真實數(shù)據(jù)集中取得了較高的精度,同時噪聲、密度和低重疊具有一定魯棒性。此外,F(xiàn)MR在跨源點云配準中也取得了最先進的結(jié)果。
Xu等人(2021a)提出了OMNet(overlapping mask network),為了避免非重疊點的負面影響,在每次迭代中分別預測兩個源點云和目標點云的重疊掩碼,對非重疊區(qū)域進行過濾,然后再通過MLPs從兩個點云的全局特征中預測相對運動參數(shù)。OMNet通過移除重疊區(qū)域來避免全局特征受到干擾,取得了目前最先進的結(jié)果。
目前無對應(yīng)方法通常都采用了與PointNet類似的網(wǎng)絡(luò)結(jié)構(gòu)用于提取感知空間位姿的全局特征,在姿態(tài)估計階段,PointNetLK(Aoki等,2019)、FMR(Huang等,2020)使用傳統(tǒng)優(yōu)化方法,從特征中計算雅可比矩陣,進而估計運動參數(shù),造成了較大的計算開銷。其他的無對應(yīng)方法使用了回歸的方式預測運動參數(shù),這樣的好處在于避免計算雅可比矩陣的同時,通過網(wǎng)絡(luò)學習從全局特征到運動參數(shù)的映射,從而使得全局特征更好地感知空間位姿的變化,但是這樣的方式更加依賴于網(wǎng)絡(luò)對訓練數(shù)據(jù)的學習。
相比于基于對應(yīng)關(guān)系的方法,無對應(yīng)方法直接關(guān)注于兩個點云的相對位姿信息而不是局部幾何信息,避免了計算對應(yīng)關(guān)系的開銷,降低了后續(xù)處理的難度,這直接導致了兩者在參數(shù)估計上的差別。在有對應(yīng)方法中,SVD是更有效、流行的求解方式;而無對應(yīng)方法中,使用回歸的方式更為有利。這主要是因為表示相對位姿信息的全局特征具有抽象性,通過網(wǎng)絡(luò)的自適應(yīng)學習更加合理。而采用SVD方法本質(zhì)上是對對應(yīng)關(guān)系進行監(jiān)督。在配準的魯棒性方面,無對應(yīng)配準方法更容易受到非重疊區(qū)域的干擾,主要的原因在于缺乏明確的監(jiān)督機制來保證全局特征與相對位姿信息唯一相關(guān)。對于合成數(shù)據(jù)的配準,無對應(yīng)方法中的OMNet(Xu等,2021a)通過優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)、引入重疊區(qū)域分割技術(shù)增強了全局特征的抗干擾能力,進而增強了在未知類別模型(unseen-categories)數(shù)據(jù)上的泛化性能,取得了先進的結(jié)果,展示了在泛化上的潛力。另外,目前無對應(yīng)方法很少應(yīng)用于真實場景的配準,盡管無對應(yīng)方法能夠避免計算對應(yīng)關(guān)系帶來的一些問題,但其更可能受到復雜場景數(shù)據(jù)的影響,其跨數(shù)據(jù)集的泛化仍然有待研究。
本文總結(jié)了3維點云配準領(lǐng)域的通用數(shù)據(jù)集。用于配準任務(wù)的3維點云數(shù)據(jù)集可以分為兩類:合成數(shù)據(jù)集和真實場景數(shù)據(jù)集。真實場景數(shù)據(jù)集通常由激光雷達或RGBD相機等設(shè)備獲得,包含戶外、室內(nèi)場景。合成數(shù)據(jù)通常包含人工合成的各類物體的3維模型。Zhang等人(2020)已經(jīng)對常用的數(shù)據(jù)集進行了詳細的總結(jié),本文僅對目前最具代表性的數(shù)據(jù)集進行介紹。
1)ModelNet40(Wu等,2015)。由12 311個不包含噪聲和異常點的CAD(computer aided design)網(wǎng)格模型組成,總共包含40個常見類別,該數(shù)據(jù)集主要用于點云分類和檢索,同時也是近年來深度學習點云配準領(lǐng)域中主要的合成數(shù)據(jù)集。獲取地址:http://modelnet.cs.princeton.edu/。
2)3DMatch(Zeng等,2017)。該數(shù)據(jù)集由SUN3D(Xiao等,2013)、7-Scene(Shotton等,2013)等3維重建數(shù)據(jù)集中拆分而來,包括62個不同室內(nèi)場景的RGB-D幀序列。獲取地址:http://3dmatch.cs.princeton.edu。
為了評估深度學習點云配準算法的性能,通常需要借助通用的、客觀的評價指標進行度量。深度點云配準的實驗性能評價標準從處理階段來看,主要分為:特征匹配度量和配準誤差度量。本小節(jié)對常用的度量指標進行了詳細的闡述,分別給出其適用的場景并比較了其差別。
4.2.1 特征匹配度量
特征匹配度量主要用于直接衡量特征匹配模塊性能的好壞,其主要包含以下兩個指標:
1)內(nèi)點比例(inlier ratio,IR)。該值表示特征匹配后有效的對應(yīng)關(guān)系占所有對應(yīng)關(guān)系的比例。對于一組假定的對應(yīng)關(guān)系(p,q)∈Mi,j,內(nèi)點比例為
(3)
式中,1[]表示Iverson括號,括號內(nèi)為真取1,否則取0。R*與t*表示真實的旋轉(zhuǎn)、平移標簽,τ1表示最小距離誤差閾值。
2)特征匹配召回率(feature match recall,F(xiàn)MR)。其表示配準任務(wù)中成功置信度高的任務(wù)占總配準任務(wù)的比例,計算為
(4)
式中,K表示數(shù)據(jù)集中用于配準的點云對數(shù)量,R1i表示第i個點云對中的內(nèi)點比例,τ2表示內(nèi)點比例的最小閾值。
IR與FMR的主要區(qū)別在于,IR用于直接度量兩個點云的特征匹配的性能,而FMR是用于整個數(shù)據(jù)集中的配準好壞的預示性度量(假設(shè)當IR超過一定閾值后就可以完成配準)。
4.2.2 配準誤差度量
1)均方根誤差(root mean squard error,RMSE)、均方誤差(mean squared error,MSE)與平均絕對誤差(mean absolute deviation,MAE)分別記為E1、E2、E3,即
(5)
(6)
(7)
2)相對平移誤差(relative translation error,RTE)和相對旋轉(zhuǎn)誤差(relative rotation error,RRE)用于度量平移、旋轉(zhuǎn)的估計值與真實標簽的差值,其單位分別為厘米(cm)、度(°),計算公式分別為
(8)
(9)
式中,R*與t*分別表示真實的旋轉(zhuǎn)、平移標簽,tr()表示矩陣的跡。
3)倒角距離(chamfer distance,CD)用于公平地度量存在軸對稱場景下的配準精度,即
(10)
式中,Xc與Yc分別表示初始的源、目標點云,X、Y表示將經(jīng)過變換后的源、目標點云。該公式由Yew和Lee(2020)提出。
4)配準召回率(registration recall,RR)表示整個數(shù)據(jù)集中配準誤差小于一定閾值的點云對的比例,即
(11)
式中,C為數(shù)據(jù)集中用于配準的點云對數(shù)量,E1表示RMSE誤差,τ3表示點云對的RMSE誤差閾值。
RMSE、MSE和MAE是使用最為廣泛的度量指標,但具有各向異性(anisotropic)的缺點。RRE與RTE是實際度量角度與平移距離差值的指標,是各向同性的(isotropic)。以上5種度量都對軸對稱點云的配準存在不公平的懲罰,而CD是最公正的度量。此外,在真實數(shù)據(jù)集中的配準,往往更加關(guān)注配準的成功率,因此RR在真實數(shù)據(jù)配準中使用更為廣泛。
在合成點云數(shù)據(jù)上,需要人工處理原始數(shù)據(jù)集,但不同的處理方式都會對算法造成影響。此外,一些算法只針對某個特點的場景而設(shè)計,比如低重疊、大旋轉(zhuǎn)等。因此,本小節(jié)對比了各個場景中主流相關(guān)方法的性能。
在部分重疊場景下,性能對比如表5所示。其中,無對應(yīng)方法FMR(Huang等,2020)、OMNet(Xu等,2021a)在性能上相較于PointNetLK(Aoki等,2019)出現(xiàn)了較大的提升,這得益于網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化。另外,OMNet引入了重疊區(qū)域分割技術(shù),相較于FMR效果更好。在基于對應(yīng)關(guān)系的方法中,DeepGMR(Yuan等,2020)考慮了所有輸入點的對應(yīng)關(guān)系,因此無法適應(yīng)部分重疊場景的配準任務(wù)。
表5 ModelNet40基準下的部分重疊點云配準Table 5 Partial-to-partial registration on ModelNet40 benchmark
在不同采樣點下的執(zhí)行速度如表6所示。DCP(Wang和Solomon,2019a)與DeepGMR沒有使用迭代的方式,因此其執(zhí)行速度相比于其他方法更快。PointNetLK與FMR需要重復計算全局特征和雅可比矩陣,而OMNet采用了回歸的方式預測相對姿態(tài),避免使用復雜度較高的逆合成方法計算雅可比矩陣,從而顯著提高了算法的運行速度。相比于RPMNet(Yew和Lee,2020)、PRNet(Wang和Solomon,2019b),IDAM(Li 等,2020)在每次迭代中重復使用了特征提取模塊提取到的特征,避免了重復計算特征的開銷,并且使用關(guān)鍵點技術(shù)去除了一部分點對,因此運行速度更快。盡管PRNet也采用了關(guān)鍵點技術(shù),但因其網(wǎng)絡(luò)過于龐大,執(zhí)行速度仍然較慢。另外,RPMNet迭代地歸一化對應(yīng)關(guān)系矩陣的行和列,這種方法在點數(shù)量較多的情況下,計算時間出現(xiàn)了大幅增加。
全局配準性能對比如表7所示。全局配準是指任意的初始位姿下的配準,DeepGMR和DCP在這種實驗設(shè)置下取得了更為優(yōu)秀的性能,但DCP泛化效果較差,這可能是因為其特征提取模塊的泛化性能較差。
表6 ModelNet40基準下各算法在不同采樣點的執(zhí)行速度Table 6 The execution speed of each algorithm at different sampling points on ModelNet40 Benchmark
表7 ModelNet40基準下全局配準召回率Table 7 Global registration recall on ModelNet40 benchmark
綜上所述,隨著深度點云配準領(lǐng)域的發(fā)展,各方法分別在對初始位姿、部分重疊等干擾上的魯棒性得到了顯著的提升,但很多算法仍然存在一定的局限性,例如:DeepGMR在全局配準中取得了優(yōu)秀的結(jié)果,但其無法配準部分重疊的點云數(shù)據(jù);此外,在合成數(shù)據(jù)集上的不同處理方法產(chǎn)生的數(shù)據(jù)很難為研究者提供統(tǒng)一、公正的對比,針對不同任務(wù)的統(tǒng)一的基準亟需研究人員的關(guān)注。
目前,在真實數(shù)據(jù)中的端到端方法較少,許多工作在特征提取、離群值去除兩個主要的階段上建立了比較基準。特征提取的工作相對較多,離群值去除在近兩年得到了發(fā)展。
表8展示了在3DMatch比較基準上主流特征提取算法的性能。從時間尺度上看,近年來特征提取算法的研究呈現(xiàn)出了高速發(fā)展的趨勢,已經(jīng)在匹配回調(diào)率、旋轉(zhuǎn)不變性、緊湊性和泛化能力上都有著巨大的提升。3DMatch(Zeng等,2017)率先開發(fā)了在體素上提取點云特征的方法。CGF(Khoury等,2017)、PPFNet(Deng等,2018b)和PPF-FoldNet(Deng等,2018a)依賴于對手工特征進行二次編碼,限制了網(wǎng)絡(luò)的學習能力,性能較差。近年來,隨著卷積網(wǎng)絡(luò)的應(yīng)用,特征辨識度和旋轉(zhuǎn)魯棒性得到了很大的改善。FCGF(Choy等,2019b)依賴于固定大小的體素進行稀疏體素卷積,導致泛化性能較差。Ms-SVConv(Horache等,2021)在FCGF的基礎(chǔ)上,通過多尺度的稀疏體素卷積大幅提高了泛化能力,達到了目前先進的效果。而SpinNet(Ao等,2021)將輸入點云轉(zhuǎn)化為圓柱體素,在不需要旋轉(zhuǎn)增強的情況下取得了較好的泛化效果。SpinNet的成功在一定程度上說明:相比于純粹地依賴于網(wǎng)絡(luò)的學習,通過合適的引導和監(jiān)督,可以讓網(wǎng)絡(luò)學習到更加普適的描述點特征的方式。
表8 3DMatch基準下的特征匹配Table 8 Feature match results on 3DMatch benchmark
表9展示了在3DMatch比較基準上點對離群值去除性能。端到端的DGR(Choy等,2020)使用離群值去除網(wǎng)絡(luò)模塊并未取得理想的效果,其效果仍然依賴RANSAC(Fischler和Bolles,1981)算法作為保護措施(safeguard)。3DRegNet(Pais等,2020)采用了與DGR一樣的特征提取模塊FCGF和二分類網(wǎng)絡(luò),盡管運行速度更快,但是效果較差,這與3DRegNet采用單獨訓練的方式和網(wǎng)絡(luò)構(gòu)成有關(guān)。最近提出的PointDSC(Bai等,2021)取得了優(yōu)于RANSAC的效果,展示了神經(jīng)網(wǎng)絡(luò)在離群值去除上的潛力,促進端到端網(wǎng)絡(luò)在真實數(shù)據(jù)點云配準上的發(fā)展。總的來說,基于深度學習的真實點云數(shù)據(jù)配準研究仍然有著巨大的發(fā)展空間。
表9 3DMatch基準上的離群值去除Table 9 Outliers removal on 3DMatch benchmark
點云配準是諸多計算機視覺應(yīng)用的重要組成部分。本文對深度點云配準領(lǐng)域的研究進行了綜述,首先根據(jù)現(xiàn)有深度點云配準方法的特點將其劃分為兩大類,在不同類別下,進行了詳細的分組闡述和對比總結(jié)。然后列舉了主要方法在不同測試基準上的性能。目前,盡管深度點云配準技術(shù)取得了巨大的進步,但是仍然難以滿足現(xiàn)實需求,主要的困難表現(xiàn)在魯棒性和泛化兩個方向,導致這些問題的因素有很多,比如:大量噪聲和異常值、低重疊、不同的初始位姿、對稱性、大尺度場景下的內(nèi)存負擔和計算開銷等。針對這些問題,研究者開發(fā)了各種各樣的算法,然而,這些算法大多具有局限性。最后,本文從目前點云配準面臨的挑戰(zhàn)這一點出發(fā),對未來的研究趨勢進行展望。
1)在不同的應(yīng)用場景中,算法面臨的挑戰(zhàn)不同,這對點云配準算法的通用性提出了要求。然而從目前研究階段來看,開發(fā)通用的算法是困難的。并且,基于對應(yīng)關(guān)系的深度點云配準是一個流水線式的處理流程,在計算運動參數(shù)之前,通常需要經(jīng)過多個模塊的處理。因此,開發(fā)輕量、高效的專用模塊是更受歡迎的研究熱點。
2)現(xiàn)實中的傳感器獲取點云通常由于視角的限制而得到部分重疊的點云數(shù)據(jù),直接對這些數(shù)據(jù)進行配準通常是困難的,盡管目前一部分研究者開發(fā)了能夠在部分重疊下配準的網(wǎng)絡(luò),但通常對重疊率有一定的要求。目前出現(xiàn)了一個更先進的思路:一些研究人員開發(fā)了用于分割重疊區(qū)域的網(wǎng)絡(luò)(Sarode等,2020;Huang等,2021a;Xu等,2021a),將部分重疊問題轉(zhuǎn)化為完全重疊問題。這種方法有望解除對重疊率要求的限制,從而在根本上解決部分重疊點云配準的問題,因此具有較大的應(yīng)用價值和前景空間。
3)真實場景中會獲得海量的點,通常使用降采樣對點云進行處理,然而降采樣可能會導致局部幾何信息的丟失,不利于局部幾何特征的提取。關(guān)鍵點技術(shù)能有效彌補這個缺點,通過尋找獨特的、對配準任務(wù)有效的少量點用于下游任務(wù),可以顯著降低內(nèi)存負擔并減少計算開銷,對于在真實應(yīng)用場景中的配準具有重大意義。目前,關(guān)鍵點檢測技術(shù)在點云配準領(lǐng)域中得到了廣泛的應(yīng)用,但得到的關(guān)注卻較少。因為顯著性的定義并不明確,現(xiàn)階段主流方法大多采用MLPs從數(shù)據(jù)中學習顯著性。因此,開發(fā)更高效、明確的關(guān)鍵點檢測方法仍然是現(xiàn)階段亟待解決的問題。
4)基于回歸的離群值去除方法在真實數(shù)據(jù)點云配準中未能取得理想的效果,目前仍然依賴傳統(tǒng)的RANSAC(Fischler和Bolles,1981)算法,然而該算法具有隨機性,且迭代次數(shù)隨離群值數(shù)目的增加出現(xiàn)指數(shù)級增長。一些研究者將RANSAC算法的思想引入到神經(jīng)網(wǎng)絡(luò)中,取得了更優(yōu)的效果,這表明神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)技術(shù)的結(jié)合具有較大的潛力,通常來說,傳統(tǒng)方法具有透明的特點,而神經(jīng)網(wǎng)絡(luò)則有強大的擬合能力,如何將兩者的優(yōu)勢進行結(jié)合是目前研究的熱點。
5)無對應(yīng)配準方法依賴于學習和位姿相關(guān)的全局特征,然而神經(jīng)網(wǎng)絡(luò)學習出來的全局特征是非常抽象的,很難準確地施加約束。現(xiàn)有方法提取出的全局特征對噪聲和部分重疊比較敏感,這主要是全局特征中融合了一些雜亂的信息導致的。另外,無對應(yīng)方法尚未廣泛應(yīng)用于真實數(shù)據(jù),其魯棒性仍然受到一些研究者的質(zhì)疑。綜合來說,如何魯棒地提取位姿感知的全局特征也是未來的主要研究方向之一。