摘 要:現(xiàn)有的三維點云MAE的算法存在位置信息泄露問題和模態(tài)單一問題。為了解決這些問題,文章提出了一種用于點云-圖像-點云MAE算法,稱為PIP-MAE,該算法通過豐富二維圖像知識來指導(dǎo)三維點云預(yù)訓(xùn)練模型,對輸入的三維點云及其投影的二維圖像進行隨機掩模,然后重建兩種模態(tài)的遮掩信息。對下游任務(wù)進行了實驗,驗證了PIP-MAE算法的有效性,提高了下游任務(wù)精度,能廣泛用于各類下游任務(wù)。
關(guān)鍵詞:深度學(xué)習(xí);點云重建;點云分類;點云分割
中圖分類號:TP18 文獻標(biāo)識碼:A 文章編號:2096-4706(2024)08-0097-05
0 引 言
學(xué)習(xí)未標(biāo)記數(shù)據(jù)中的潛在特征的表示稱為自監(jiān)督學(xué)習(xí)[1]。自監(jiān)督學(xué)習(xí)通過對大規(guī)模數(shù)據(jù)進行預(yù)訓(xùn)練,該網(wǎng)絡(luò)對各種下游任務(wù)具有強大的表示能力和高泛化能力。MAE(Masked Autoencoders)是自主監(jiān)督學(xué)習(xí)的主要方案之一。它隨機遮掩一部分輸入數(shù)據(jù),并采用Transformers [2]編碼器來提取未遮掩的特征。然后,利用輕量級Transformers解碼器對掩碼位置信息進行重構(gòu),在自然語言處理、計算機視覺和多模態(tài)學(xué)習(xí)方面取得了巨大成功。
最近,人工智能技術(shù)和三維傳感器的迅猛發(fā)展,三維點云由于其豐富的形狀信息,正受到機器人、逆向工程、自動駕駛等領(lǐng)域的廣泛關(guān)注。MAE在三維點云上將三維點云劃分為多個點塊,并隨機遮掩部分點塊,自編碼器從未遮掩的點塊中學(xué)習(xí)用來重建坐標(biāo)空間中遮掩點塊。一旦自編碼器在自重建任務(wù)上訓(xùn)練得到足夠好的表示,這些表示可以用于其他下游任務(wù),如分類、聚類或生成新的樣本上。然而,傳統(tǒng)的MAE方法只能獨立處理單個模態(tài),而不能利用它們的隱含相關(guān)性。其次,在編碼過程中,重復(fù)連接多個三維點云,導(dǎo)致三維點云位置信息多次泄露。為此,本文提出了PIP-MAE算法,通過實驗驗證了該方法的有效性和高泛化能力。
1 相關(guān)工作
1.1 三維點云預(yù)訓(xùn)練
近些年,隨著在MEA在文字和圖像(如圖1所示)上的處理成功。促使人們開始研究三維點云自監(jiān)督學(xué)習(xí)的框架。在這些方法中,對比法已被廣泛研究,PointContrast [3]利用來自不同視圖的相同點的特征之間的對比學(xué)習(xí),來學(xué)習(xí)有區(qū)別的三維表示,以獲取豐富的自監(jiān)督信號。另一種思路則是集成跨模態(tài)信息,利用語言或圖像模型轉(zhuǎn)移的知識用于三維點云學(xué)習(xí)。PCT [4]采用交叉模態(tài)自動編碼器作為訓(xùn)練模型,以從其他模態(tài)獲取知識。
因此自監(jiān)督學(xué)習(xí)顯著增強了三維遷移學(xué)習(xí)。受圖像中的MAE [5]的啟發(fā),Point-BERT [6]提出從隨機重新排列的部分重建點云。具體來說,給定一個高比率掩蔽的輸入點云,學(xué)習(xí)編碼器-解碼器模型,以從未掩蔽的點重建掩碼點。通過這種方式,編碼器可以學(xué)習(xí)語義特征表示,這可以很容易地應(yīng)用于下游任務(wù)。其中,Point-MAE [7]直接對三維點云進行掩碼編碼。我們的PIP-MAE的不同之處在于采用了傳統(tǒng)的Transformer框架,我們的解碼器只輸入可見的點并輸出重建了遮掩點,以減少解碼過程中的位置泄漏。然后,我們將掩蔽點投影到二維圖像中,并利用二維和三維模式之間的隱式相關(guān)性,來構(gòu)建更強大的三維自監(jiān)督學(xué)習(xí)模型。
1.2 Transformer
Transformers通過自注意機制對輸入的全局依賴性進行建模,并且在自然語言處理時中占主導(dǎo)地位。自ViT [8]以來,Transformers在計算機視覺中一直很流行。然而,作為掩碼自編碼器的主干,用于點云表示學(xué)習(xí)的Transformers架構(gòu)較少。最近的工作Point-BERT引入了一個標(biāo)準(zhǔn)的Transformer架構(gòu),但需要DGCNN [9]來輔助預(yù)訓(xùn)練。本文的提出的MAE架構(gòu),完全基于標(biāo)準(zhǔn)的Transformer。
1.3 Point-Image-Point(點云-圖像-點云)學(xué)習(xí)
從不同模態(tài)上學(xué)習(xí),往往會得到多個模態(tài)的學(xué)習(xí)信息,從中可以很容易地處理給定上下文的語義信息。在三維點云MAE風(fēng)格中,大部分文章都展示了多模態(tài)預(yù)訓(xùn)練的強大能力。CrossPoint [10]提出了一種圖像點對比學(xué)習(xí)網(wǎng)絡(luò),CLIP [11]通過最大化圖像和文本模態(tài)之間的余弦相似性來學(xué)習(xí)多模態(tài)嵌入空間,I2P-MAE [12]通過圖像到點學(xué)習(xí)方案,以二維預(yù)訓(xùn)練模型為指導(dǎo)。與這些方法不同,我們的PIP-MAE在遮掩階段引入了PIP引導(dǎo)的和二維圖像的局部幾何信息。在重建階段,我們的PIP-MAE直接重建了三維點云的遮掩點,而且還將重建的點沿X、Y、Z投影到二維幾何局部圖像中,用于二維圖像重建。
2 PIP-MAE
本文的目標(biāo)是為三維點云設(shè)計一個整潔高效的掩碼自編碼器方案。圖2為本文的總體方案。本章節(jié)首先介紹了三維點云遮掩和嵌入自編碼器預(yù)訓(xùn)練,其中包括重要的PIP引導(dǎo)過程和嵌入。接下來,我們介紹一下我們的編碼器和解碼器設(shè)計,值得注意的是,在解碼器中我們只輸出遮擋重構(gòu)的點。最后,介紹了交叉重建損失。
2.1 三維點云遮掩和嵌入
與計算機視覺中可以劃分為規(guī)則塊的圖像不同,三維點云由三維空間中的無序點組成。根據(jù)點云的性質(zhì),可以對輸入點云進行了兩個階段的處理:點云塊生成、二維深度投影和嵌入。
2.1.1 點云塊生成
通過最遠(yuǎn)的點采樣(FPS)和K近鄰(KNN)算法將輸入點云劃分為不規(guī)則的點塊。形式上,給定具有p個點X ∈ ?M×3的輸入點云,F(xiàn)PS被應(yīng)用于采樣點片中的CT中心的N個點?;谥行狞c,KNN從輸入中選擇k個最近點用于對應(yīng)的點塊P。
(1)
(2)
2.1.2 二維深度投影和嵌入
為了多個模態(tài)對齊,需要在三維點云中建立RGB圖像像素建立連接,通從三個正交視圖中沿著X、Y、Z軸投影輸入點云X ∈ ?M×3。對于具有M個點的輸入點云,只需省略每個點的第三個坐標(biāo),并將其他兩個坐標(biāo)取整,可獲得相應(yīng)地圖上的二維位置。然后,在三次重復(fù)之后,模擬三通道RGB來反映點的相對深度關(guān)系。公式化為:
(3)
2.2 PIP(點云-圖像-點云)遮掩
在現(xiàn)有的MAE算法中,一般使用了兩種策略:隨機遮掩或快遮掩,它們具有很高的不穩(wěn)定性,且會忽略局部幾何信息。PIP-MAE算法將局部幾何形狀顯式地反向投影到三維空間中,以指導(dǎo)P面片的遮罩。具體來說,取上一個沿X、Y、Z投影的二維圖像I ∈ ?H×W×3,并使用經(jīng)過訓(xùn)練的ResNet [13]網(wǎng)絡(luò)提取RGB多通道視圖特征,表示為F。最后,在反投影到三維空間后,使用Softmax函數(shù)進行歸一化,得到S ∈ ?N×1,并將每個元素的大小視為對應(yīng)點斑塊的可見概率。通過歸一化,我們能夠更好地關(guān)注局部信息,并且更關(guān)鍵的三維點塊更有可能被保留:
(4)
2.3 自編碼器預(yù)訓(xùn)練
我們用標(biāo)準(zhǔn)的Transformer塊構(gòu)建了自動編碼器,并采用非對稱的編碼器-解碼器設(shè)計。并通過三維-二維預(yù)測頭重建三維點-二維目標(biāo)。
2.3.1 編碼器
只有可見標(biāo)記Tvis ∈ ?(1-m) N×C被編碼,而被屏蔽的補丁不暴露于編碼器。這不僅在計算上高效,而且避免了掩碼補丁位置信息的早期泄漏。編碼標(biāo)記表示為Te ∈ ?(1-m) N×C。標(biāo)準(zhǔn)的Transformer塊編碼器公式化為:
(5)
2.3.2 解碼器
與編碼器類似,也使用標(biāo)準(zhǔn)Transformer構(gòu)建解碼器。解碼器將編碼的可見標(biāo)記Te ∈ ?(1-m) N×C可學(xué)習(xí)掩碼標(biāo)記Tm ∈ ?mN×C及其PE作為輸入,經(jīng)過處理后,解碼器僅輸出解碼的掩碼標(biāo)記Td ∈ ?mN×C,解碼器公式為:
(6)
2.4 三維——二維重建
使用簡單線性層(FC)作三維點云的重建頭,預(yù)測頭旨在重建坐標(biāo)空間中的遮掩點云點塊Ppre ∈ ?mN×k×3,遮掩點的地面實況三維坐標(biāo)Pgt ∈ ?mN×k×3。預(yù)測頭的公式為:
(7)
然后,我們通過倒角距離(CD [14])計算損失,其公式化為:
(8)
2.4.1 二維語義重構(gòu)
我們以預(yù)測點斑塊Ppre ∈ ?mN×k×3坐標(biāo)為索引,沿X、Y、Z軸重建二維局部語義特征,通過通道聚合Td ∈ ?mN×C對應(yīng)的二維特征,公式為:
(9)
然后,沿遮擋中心CTmask的X、Y、Z軸重構(gòu)二維局部語義特征,其中CTmask表示遮蔽面片的中心,CT = CTmask + CTvis,并使用均方誤差(MSE)計算L2D損失為:
2.4.2 總損失
三維-二維交叉重建損失可以更好地對重建點云的空間結(jié)構(gòu)進行自我監(jiān)督,可以更好地關(guān)注三維點云的局部信息。PIP-MAE預(yù)訓(xùn)練的總損失公式化為:
(11)
3 相關(guān)實驗
實驗首先介紹PIP-MAE預(yù)訓(xùn)練,然后在一系列下游任務(wù)中評估了預(yù)訓(xùn)練模型的有效性。整體效果圖如圖3所示。
3.1 PIP-MAE 預(yù)訓(xùn)練
在數(shù)據(jù)集ShapeNet [15]上預(yù)訓(xùn)練PIP-MAE,ShapeNet由51 300個干凈的三維點云組成,涵蓋55個常見對象類別。對于每個實例,通過FPS采樣1 024個點作為輸入點云,深度圖大小H×W設(shè)置為224×224特征信道(C),32個鄰接點(k),512個下采樣數(shù)(M),以及60%的遮掩比例。將數(shù)據(jù)集拆分為一個訓(xùn)練集和驗證集,僅對訓(xùn)練集進行預(yù)訓(xùn)練。使用AdamW [16]優(yōu)化器和余弦速率衰減[17]。學(xué)習(xí)率設(shè)置為10-3,權(quán)重衰減為5×10-2。預(yù)訓(xùn)練為300個批次,批量大小為128。對于現(xiàn)成的二維模型,使用CLIP預(yù)先訓(xùn)練的ResNet作為默認(rèn)值,凍結(jié)在三維點云預(yù)訓(xùn)練期間的權(quán)重。
3.2 下游任務(wù)
在預(yù)訓(xùn)練后,本文在多個三維下游任務(wù)上微調(diào)PIP-MAE的三維點云分支,既形狀分類、少樣本分類和部件分割。在每個任務(wù)中,使用解碼器(去掉二維分支),并由編碼器使用特定的分類頭進行下游任務(wù)。
3.2.1 形狀分類
本文在ScanObjectNN [15]數(shù)據(jù)集上進行三維形狀分類實驗,ScanObjectNN是從背景雜亂的真實室內(nèi)場景數(shù)據(jù)中掃描的,因此包括帶有噪聲的背景,含11 416個訓(xùn)練樣本和2 882測試樣本。實驗在三種不同的設(shè)置下進行,OBJ-BG、OBJ-ONLY和PB-T50-RS。結(jié)果如表1所示,與傳統(tǒng)的方法Point-MAE相比,我們的PIP-MAE分別提高了1.0%、0.3%和0.4%。
3.2.2 少樣本學(xué)習(xí)
為了評估PIP-MAE在有限的約束下的表現(xiàn),本文還在ModelNet40 [20]上進一步進行了少樣本分類任務(wù)。少樣本分類實驗由四個不同的測試組成,即使用方法和射擊設(shè)置。具體地說,w ∈ {5,10}表示隨機選擇的類的數(shù)量,s ∈ {10,20}表示每個選擇的類隨機采樣的對象的數(shù)量。每個測試包含10個獨立屬性。結(jié)果如表2所示,PIP-MAE顯著提高了四種設(shè)置的水平0.3%~0.8%。證明了的PIP-MAE可以在有限的約束下表現(xiàn)良好。
3.3 對比實驗
在本節(jié)中,將探討PIP-MAE中不同遮掩實驗得出的精度結(jié)果。同時將探討令牌在解碼器和編碼器中的對精度的影響。
3.3.1 遮掩策略
遵循之前的Point-MAE,在ModelNet40數(shù)據(jù)集上進行了實驗,我們比較了3種類型的遮掩:PIP引導(dǎo)遮掩型、塊遮掩型、隨機遮掩類型以及不同的遮掩比例。遮掩策略決定了下游任務(wù)的難度,影響重建質(zhì)量和下游任務(wù)精度。如表3所示,當(dāng)遮掩比較高時,塊遮掩型和隨機遮掩型的性能較差,這意味著使用中等遮掩比(即60%~80%)可以獲得良好的性能。而我們的PIP引導(dǎo)遮掩實現(xiàn)了94.2%的精度,這能使編碼器能夠“看到”重要的空間特征和信號結(jié)構(gòu)。
3.3.2 令牌在解碼器和編碼器中的影響
我們的PIP-MAE將掩碼令牌從編碼器的輸入轉(zhuǎn)移到輕量級解碼器。為了證明這種設(shè)計的有效性,我們進行了一個實驗,其中掩碼令牌是從編碼器的輸入中處理的。為了公平比較,自編碼器的主干網(wǎng)采用與Point-MAE相同的編碼器和預(yù)測頭,但沒有解碼器,從而在預(yù)訓(xùn)練任務(wù)上產(chǎn)生完全相同的模型。我們在這個實驗中使用PIP引導(dǎo)的遮掩。預(yù)訓(xùn)練后,與PIP-MAE(2.60)相比,觀察到較小的重建損失(2.51)。在ModelNet40上微調(diào)性能,準(zhǔn)確率達(dá)到92.14%,遠(yuǎn)低于PIP-MAE(93.19%)。這個結(jié)果并不意外。在編碼器的輸入端,所有標(biāo)記(包括掩碼標(biāo)記)都必須通過位置嵌入提供位置信息。這會導(dǎo)致位置信息的早期泄漏,因為掩碼令牌被處理用于重建坐標(biāo)空間中的點補丁。位置信息的泄露使得重建任務(wù)的挑戰(zhàn)性降低,模型無法很好地學(xué)習(xí)潛在特征,導(dǎo)致微調(diào)性能較差。
4 結(jié) 論
本文提出了一種低位置泄漏點云-圖像-點云MAE多模態(tài)自監(jiān)督學(xué)習(xí)方案PIP-MAE。PIP-MAE解決了預(yù)訓(xùn)練編碼過程中位置信息泄漏問題和單一模態(tài)問題。該方法在目標(biāo)分類、小樣本學(xué)習(xí)、零件分割等多種任務(wù)中驗證了該方法的有效性和高泛化能力。希望PIP-MAE能夠啟發(fā)更多作品在探索三維點云MAE自監(jiān)督學(xué)習(xí)解決方案時關(guān)注位置泄漏問題。對于后面的工作,保持著低位置泄漏同時,將研究是否可以將其他模態(tài)信息(例如文本標(biāo)簽)合并到的PIP-MAE中。
參考文獻:
[1] VASWANI A,SHAZEER N,PARMAR N,et al. Attention Is All You Need [C]//NIPS'17:Proceedings of the 31st International Conference on Neural Information Processing Systems.Red Hook:Curran Associates Inc,2017:6000-6010.
[2] UY M A,PHAM Q H,HUA B S,et al. Revisiting Point Cloud Classification: A New Benchmark Dataset and Classification Model on Real-World Data [C]//Proceedings of the IEEE/CVF international conference on computer vision.Seoul: IEEE,2019:1588-1597.
[3] XIE S,GU J,GUO D,et al. PointContrast: Unsupervised Pre-training for 3D Point Cloud Understanding [C]//Computer Vision-ECCV 2020, 16th European Conference.Glasgow:Springer International Publishing,2020:574-591.
[4] GUO M H,CAI J X,LIU Z N,et al. PCT: Point Cloud Transformer [J].Computational Visual Media,2021,7:187-199.
[5] HE K M,CHEN X L,XIE S N,et al. Masked Autoencoders Are Scalable Vision Learners [C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition.New Orleans: IEEE,2022:16000-16009.
[6] YU X,TANG L,RAO Y,et al. Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point Modeling [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE,2022:19313-19322.
[7] PANG Y,WANG W,TAY F E H,et al. Masked Autoencoders for 3D Point Cloud Self-supervised Learning [C]//European conference on computer vision. Cham:Springer Nature Switzerland,2022:604-621.
[8] DOSOVITSKIY A,BEYER L,KOLESNIKOV A,et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale [J/OL].arXiv:2010.11929 [cs.CV].(2020-10-22).https://arxiv.org/abs/2010.11929v1.
[9] WANG Y,SUN Y,LIU Z,et al. Dynamic Graph CNN for Learning on Point Clouds [J].ACM Transactions on Graphics (tog),2019,38(5):1-12.
[10] AFHAM M,DISSANAYAKE I,DISSANAYAKE D,et al. CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D Point Cloud Understanding [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.IEEE,2022:9902-9912.
[11] RADFORD A,KIM J W,HALLACY C,et al. Learning Transferable Visual Models From Natural Language Supervision [C]//International conference on machine learning. PMLR,2021:8748-8763.
[12] ZHANG R,WANG L,QIAO Y,et al. Learning 3D Representations from 2D Pre-trained Models via Image-to-Point Masked Autoencoders [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.IEEE,2023:21769-21780.
[13] HE K,ZHANG X,REN S,et al. Deep Residual Learning for Image Recognition [C]//Proceedings of the IEEE conference on computer vision and pattern recognition.IEEE,2016:770-778.
[14] UY M A,PHAM Q H,HUA B S,et al. Revisiting Point Cloud Classification: A New Benchmark Dataset and Classification Model on Real-World Data [C]//Proceedings of the IEEE/CVF international conference on computer vision.IEEE,2019:1588-1597.
[15] CHANG A X,F(xiàn)UNKHOUSER T,GUIBAS L,et al. ShapeNet: An Information-Rich 3D Model Repository [J/OL].arXiv:1512.03012 [cs.GR].(2015-12-09).https://arxiv.org/abs/1512.03012.
[16] LOSHCHILOV I,HUTTER F. Decoupled Weight Decay Regularization [J/OL].arXiv:1711.05101 [cs.LG].(2019-01-04).https://arxiv.org/abs/1711.05101.
[17] LOSHCHILOV I,HUTTER F. SGDR: Stochastic Gradient Descent with Warm Restarts [J/OL].arXiv:1608.03983 [cs.LG].(2016-08-13).https://arxiv.org/abs/1608.03983.
[18] QI C R,SU H,MO K,et al. PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation [C]//Proceedings of the IEEE conference on computer vision and pattern recognition.IEEE,2017:652-660.
[19] HAN K,XIAO A,WU E,et al. Transformer in Transformer [J]. Advances in Neural Information Processing Systems,2021,34:15908-15919.
[20] WU Z,SONG S,KHOSLA A,et al. 3D ShapeNets: A Deep Representation for Volumetric Shapes [C]//Proceedings of the IEEE conference on computer vision and pattern recognition.IEEE,2015:1912-1920.
[21] ZHANG R,GUO Z,GAO P,et al. Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud Pre-training [J].Advances in neural information processing systems,2022,35:27061-27074.
作者簡介:陳博(1995—),男,漢族,湖南湘鄉(xiāng)人,碩士研究生,研究方向:深度學(xué)習(xí)、3D點云重建、3D點云分類、模式識別;袁鑫攀(1982—),男,漢族,湖南株洲人,副教授,博士,研究方向:信息檢索、自然語言處理、局部敏感哈希。
收稿日期:2024-02-26
基金項目:湖南省自然科學(xué)基金項目(2022JJ30231)
DOI:10.19850/j.cnki.2096-4706.2024.08.022
PIP Masked Autoencoders Based on 3D Point Cloud
CHEN Bo, YUAN Xinpan
(Hunan University of Technology, Zhuzhou 412007, China)
Abstract: Existing algorithms for 3D point cloud MAE suffer from issues such as position information leakage and lack of diversity in modes. To address these problems, this paper proposes a PIP-MAE algorithm for point cloud-image-point cloud MAE. The algorithm guides the 3D point cloud pre-training model by enriching 2D image knowledge, randomly masks the input 3D point cloud and its projected 2D image, and then reconstructs the masked information for both modes. The experiments on downstream tasks validate the effectiveness of the PIP-MAE algorithm, and it improves accuracy of these downstream tasks, which can be widely used in various types of downstream tasks.
Keywords: Deep Learning; point cloud reconstruction; point cloud classification; point cloud segmentation