摘 "要: 點(diǎn)云場景邊界的精確分割對(duì)提升三維點(diǎn)云整體分割精度和小目標(biāo)的分割精度都非常重要。針對(duì)現(xiàn)有三維點(diǎn)云語義分割算法中存在的對(duì)點(diǎn)云場景邊界分割不準(zhǔn)確的問題,設(shè)計(jì)了一種新的多尺度特征融合對(duì)比學(xué)習(xí)方法,并將其集成到PointMetaBase網(wǎng)絡(luò)上,提出了MFFCL?PMB三維點(diǎn)云語義分割網(wǎng)絡(luò)。該網(wǎng)絡(luò)將解碼器各層的輸入和輸出平行多路徑地輸入多尺度特征提取網(wǎng)絡(luò),其次將多尺度特征進(jìn)行拼接融合,最后由邊界搜索模塊確定點(diǎn)云場景邊界點(diǎn),在邊界點(diǎn)對(duì)應(yīng)的多尺度融合特征上進(jìn)行對(duì)比學(xué)習(xí),使網(wǎng)絡(luò)學(xué)習(xí)到使特征區(qū)分度更大的權(quán)重。MFFCL?PMB在數(shù)據(jù)集S3DIS的測試集區(qū)域5上的mIoU為70.9%,相比原始的PointMetaBase,在邊界上的mIoU增加了1.4%,內(nèi)部區(qū)域mIoU增加了1.2%,總體mIoU增加了1.2%,邊界mIoU增量比內(nèi)部區(qū)域增加的mIoU更大,說明MFFCL?PMB有效增強(qiáng)了PointMetaBase在邊界上的分割表現(xiàn)并提高了網(wǎng)絡(luò)在點(diǎn)云總體上的語義分割性能。
關(guān)鍵詞: 深度學(xué)習(xí); 三維點(diǎn)云; 語義分割; 對(duì)比學(xué)習(xí); 多尺度特征融合; 編碼器; 解碼器
中圖分類號(hào): TN919?34; TP391.41 " " " " " " " " " 文獻(xiàn)標(biāo)識(shí)碼: A " " " " " " " " "文章編號(hào): 1004?373X(2024)15?0091?07
Multi?scale feature fusion contrastive learning combining
with PointMetaBase for point cloud segmentation
YANG Linjie, ZHANG Bin, ZHANG Zhisheng
(School of Electronic Engineering and Automation, Guilin University of Electronic Technology, Guilin 541004, China)
Abstract: The accurate segmentation of point cloud scene boundaries is crucial for improving the overall segmentation accuracy of 3D point clouds and the segmentation accuracy of small objects. A novel multi?scale feature fusion contrastive learning (CL) method is designed and integrated into the PointMetaBase network to address the issue of inaccurate segmentation of point cloud scene boundaries in the existing 3D point cloud semantic segmentation methods. The proposed network is termed MFFCL?PMB (multi?scale feature fusion contrastive learning combining with PointMetaBase) for 3D point cloud semantic segmentation. In this network, the input and output of each layer in the decoder are fed into a multi?scale feature extraction network in a parallel and multipath manner. Subsequently, the multi?scale features are concatenated and fused. Finally, the boundary search module (BSM) is used to determine the point cloud scene boundary points. Contrastive learning is carried out on the multi?scale fused features corresponding to the boundary points and enables the network to learn weights that enhance feature discrimination. The mIoU (mean intersection over union) of MFFCL?PMB on the test area 5 of the S3DIS dataset is 70.9%. In comparison with the original PointMetaBase, the mIoU on the boundaries increases by 1.4%, the mIoU in the internal regions increases by 1.2%, and the overall mIoU increases by 1.2%. The increment of mIoU on boundary is greater than that in internal regions, which indicates that the MFFCL?PMB effectively enhances the segmentation performance of PointMetaBase on the boundaries and improves the network′s semantic segmentation performance on the entire point clouds.
Keywords: deep learning; 3D point cloud; semantic segmentation; contrastive learning; multi?scale feature fusion; encoder; decoder
0 "引 "言
三維點(diǎn)云語義分割是自動(dòng)駕駛、機(jī)器人環(huán)境感知、醫(yī)學(xué)影像處理應(yīng)用的基礎(chǔ)任務(wù),目的是為點(diǎn)云中的每一個(gè)點(diǎn)分配一個(gè)標(biāo)簽。隨著激光雷達(dá)、RGB?D相機(jī)的應(yīng)用,三維點(diǎn)云數(shù)據(jù)的獲取變得越來越便捷,大規(guī)模點(diǎn)云數(shù)據(jù)集被提出,越來越多的方法被提出用于解決點(diǎn)云的語義分割問題。基于深度學(xué)習(xí)的方法目前是三維點(diǎn)云語義分割領(lǐng)域的主流,可以分為基于投影[1?3]、基于三維體素劃分[4?8]和基于原始點(diǎn)云[9?13]三種。
與圖片不同,由于點(diǎn)云具有稀疏、無序和不規(guī)則的特點(diǎn),難以直接使用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),基于投影的方法將點(diǎn)云轉(zhuǎn)換為一系列圖片后,使用已有的二維語義分割算法進(jìn)行處理,但這種處理方式會(huì)導(dǎo)致空間信息、幾何信息的丟失?;谌S體素劃分的方法將點(diǎn)云轉(zhuǎn)換為三維體素應(yīng)用三維卷積處理。這類算法的優(yōu)點(diǎn)是保留了點(diǎn)云的空間和幾何信息,但隨著體素分辨率的變化,會(huì)存在不同程度的細(xì)節(jié)信息損失。PointNet[9]引入了置換不變性,能夠直接處理原始點(diǎn)云數(shù)據(jù)。隨后一系列基于原始點(diǎn)云的方法被提出,如Pointnet++[10]、PointNeXt[11]、Point Transformer[12],這些方法專注于為每個(gè)點(diǎn)捕捉更廣泛的上下文并學(xué)習(xí)更豐富的局部結(jié)構(gòu),能夠避免空間信息的丟失,但具有較高的參數(shù)量和計(jì)算開銷。文獻(xiàn)[13]總結(jié)了主流基于原始點(diǎn)云方法的結(jié)構(gòu),提出了一種更高效的方法PointMetaBase。然而PointMetaBase在對(duì)點(diǎn)云局部信息的學(xué)習(xí)中仍忽視了對(duì)場景邊界信息的利用,并由于對(duì)場景邊界點(diǎn)的誤分類造成對(duì)點(diǎn)云整體分割精度的下降。
點(diǎn)云場景邊界的精確分割對(duì)自動(dòng)駕駛車輛、機(jī)器人對(duì)環(huán)境的感知十分重要。如果對(duì)邊界識(shí)別不準(zhǔn)確,可能造成嚴(yán)重的問題,例如:機(jī)器人將墻面和地面混淆,則可能發(fā)生碰撞。由于在場景邊界上,不同類的點(diǎn)距離很近,語義分割網(wǎng)絡(luò)在匯聚局部信息時(shí)容易混淆屬于不同類點(diǎn)的特征,學(xué)習(xí)到模糊的特征導(dǎo)致誤分類。大量誤分類發(fā)生在點(diǎn)云邊界上,因此提升邊界點(diǎn)分割精度對(duì)于提升模型的整體分割效果幫助很大[14]。
本文針對(duì)PointMetaBase算法中存在的對(duì)點(diǎn)云場景邊界分割不準(zhǔn)確的問題,提出了一種多尺度特征融合對(duì)比學(xué)習(xí)(Contrastive Learning, CL)結(jié)合PointMetaBase的三維點(diǎn)云語義分割方法(Multi?scale Feature Fusion Contrastive Learning Combining with PointMetaBase, MFFCL?PMB)。具體研究內(nèi)容為:設(shè)計(jì)了一種新的對(duì)比學(xué)習(xí)方法,在多尺度融合特征上進(jìn)行對(duì)比學(xué)習(xí),包括:
1) 采用多尺度特征融合網(wǎng)絡(luò)(Multi?Scale Feature Fusion Network, MFF?Net)將PointMetaBase解碼器第一層的輸入和余下各層的輸出特征進(jìn)行融合,為對(duì)比學(xué)習(xí)提供高層次的全局語義信息和低層次的局部幾何信息;
2) 采用邊界搜索模塊(Boundary Search Module, BSM)確定點(diǎn)云場景邊界點(diǎn),在邊界點(diǎn)對(duì)應(yīng)的多尺度融合特征上進(jìn)行對(duì)比學(xué)習(xí),使MFFCL?PMB在邊界的兩側(cè)學(xué)習(xí)到區(qū)分度更大的表征,從而提高網(wǎng)絡(luò)對(duì)場景邊界的分割性能。
基于原始點(diǎn)云的分割方法采用對(duì)比學(xué)習(xí)優(yōu)化網(wǎng)絡(luò),對(duì)邊界的分割性能通常需要利用編碼器或解碼器提供的多個(gè)語義尺度的特征和上下文,MFFCL?PMB基于多尺度融合特征進(jìn)行對(duì)比學(xué)習(xí)而非在各尺度上進(jìn)行多次對(duì)比學(xué)習(xí),能夠在充分利用各層隱藏表征的同時(shí)避免引入大量參數(shù)和浮點(diǎn)運(yùn)算數(shù),提供了一種高效的點(diǎn)云語義分割方法。
1 "MFFCL?PMB方法
MFFCL?PMB方法的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。該網(wǎng)絡(luò)由PointMetaBase主干網(wǎng)、MFF?Net組成,采用對(duì)比學(xué)習(xí)損失、交叉熵?fù)p失對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化。
PointMetaBase主干網(wǎng)[13]采用編碼器?解碼器結(jié)構(gòu)。編碼器由一層MLP和若干PointMetaSA、PointMetaBase模塊前后堆疊組成,解碼器采用文獻(xiàn)[11]中設(shè)計(jì)的特征傳播層。MLP的通道數(shù)為32,在其后編碼器的每一層由一個(gè)PointMetaSA下采樣模塊和若干個(gè)PointMetaBase構(gòu)建模塊組成,根據(jù)PointMetaBase模塊數(shù)量的不同可組成不同規(guī)模的主干網(wǎng)。本文中各層編碼器的PointMetaBase的個(gè)數(shù)為2、4、2、2,對(duì)應(yīng)的基準(zhǔn)模型為PointMetaBase?L。PointMetaBase模塊的輸入輸出如式(1)、式(2)所示:
[ "f'i= fi+ MLP3Maxej+GroupMLP1( fi)] (1)
[ej=MLP2(pj-pi)] (2)
式中:[fi]、[ f'i]表示模塊的輸入、輸出特征;[pi]、[pj]分別表示點(diǎn)[xi]的坐標(biāo)和鄰居點(diǎn)坐標(biāo);[Group (?)]表示分組函數(shù),不同下標(biāo)的[MLP (?)]表示結(jié)構(gòu)不同的多層感知機(jī);[Max(?)]表示最大池化層;[ej]表示位置編碼。如式(1)、式(2)所示,采用先經(jīng)過MLP再分組的方式,減少了大量的浮點(diǎn)運(yùn)算數(shù)(Floating Point Operations, FLOPs);采用最大池化進(jìn)行鄰居聚合,相比于可學(xué)習(xí)的聚合函數(shù),在減少了計(jì)算量的情況下取得了相近的性能;采用顯式的位置編碼彌補(bǔ)了先經(jīng)過多層感知機(jī)再分組的方式導(dǎo)致對(duì)位置關(guān)系感知的不足[13]。
然而,PointMetaBase缺乏對(duì)邊界信息的利用。在提取特征和位置編碼的過程中對(duì)邊界上不同類的點(diǎn)不加區(qū)分,可能導(dǎo)致網(wǎng)絡(luò)根據(jù)鄰居點(diǎn)之間相近的位置關(guān)系錯(cuò)誤分類。因此,MFFCL?PMB集成MFF?Net,將主干網(wǎng)解碼器4個(gè)特征傳播層的輸入和輸出平行多路徑輸入MFF?Net中的5個(gè)MLP對(duì)齊特征維度,再由上采樣層(Upsample)進(jìn)行特征插值,隨后對(duì)各層特征進(jìn)行拼接,最后由線性層(Linear)對(duì)特征進(jìn)行融合,由BSM搜索確定邊界點(diǎn)對(duì)應(yīng)的融合特征進(jìn)行對(duì)比學(xué)習(xí)。以融合后的特征作為輸出預(yù)測,應(yīng)用交叉熵?fù)p失函數(shù)優(yōu)化整個(gè)網(wǎng)絡(luò)。
MFFCL的設(shè)計(jì)是受文獻(xiàn)[15]提出的CBL方法啟發(fā),但與CBL在編碼器的4個(gè)下采樣階段進(jìn)行對(duì)比學(xué)習(xí)后再對(duì)多尺度特征進(jìn)行融合不同,MFFCL采用先對(duì)解碼器多尺度特征進(jìn)行融合,再進(jìn)行單階段對(duì)比學(xué)習(xí)的策略,這種策略既保證了利用多尺度信息進(jìn)行對(duì)比學(xué)習(xí),又減少了對(duì)比學(xué)習(xí)的次數(shù),大大減小了模型的計(jì)算消耗。另一方面,采用CBL進(jìn)行子場景邊界挖掘,確定下采樣階段點(diǎn)云的標(biāo)簽;對(duì)下采樣階段[n]的第[i]個(gè)點(diǎn)[xni],采用KNN查詢,從下采樣階段[n-1]的點(diǎn)云中采樣若干個(gè)點(diǎn),對(duì)這些點(diǎn)的標(biāo)簽進(jìn)行平均池化得到[xni]的標(biāo)簽[lni]。這種方法可能會(huì)導(dǎo)致經(jīng)過多次下采樣后,子場景的邊界與真實(shí)邊界產(chǎn)生偏差,從而導(dǎo)致對(duì)比學(xué)習(xí)效果不佳。消融實(shí)驗(yàn)證明,在對(duì)PointMetaBase的改進(jìn)中,相比于在PointMetaBase應(yīng)用CBL采取的對(duì)比學(xué)習(xí)方法,MFFCL?PMB在計(jì)算開銷大大減小的情況下取得了更高的分割精度。
1.1 "多尺度特征融合網(wǎng)絡(luò)
如圖1所示,MFF?Net包含5個(gè)平行的MLP層、4個(gè)平行的上采樣層和1個(gè)線性層[15]。該網(wǎng)絡(luò)的MLP層從左向右依次是第0、1、2、3、4層,和上采樣層與解碼器各層平行多路徑連接,加深網(wǎng)絡(luò)深度,同時(shí)將解碼器各層輸出的每個(gè)特征維度數(shù)量對(duì)齊為32維,輸出總的特征數(shù)量對(duì)齊為原始點(diǎn)云[X]輸入的總點(diǎn)數(shù)[K]。MFF?Net將對(duì)齊后的5組特征在特征維度上進(jìn)行拼接,得到[K]個(gè)160維的特征,最后送入線性層進(jìn)行融合。每個(gè)MLP層由一個(gè)線性層、一個(gè)批量歸一化層和ReLU激活函數(shù)組成,線性層和批量歸一化層的具體結(jié)構(gòu)如表1所示。經(jīng)過融合的特征既包含了全局語義信息也包含了局部幾何信息,在其基礎(chǔ)上進(jìn)行對(duì)比學(xué)習(xí),與CBL在編碼器的各層分別進(jìn)行對(duì)比學(xué)習(xí)相比,既利用了多尺度信息又減小了計(jì)算量。
1.2 "邊界搜索模塊
BSM根據(jù)公式(3)對(duì)包含點(diǎn)坐標(biāo)、特征和標(biāo)簽信息的點(diǎn)云數(shù)據(jù)進(jìn)行邊界搜索[15]。
[Bl=xi∈X? xj∈N(xi), lj≠li] (3)
式中:[Bl]表示邊界點(diǎn)的集合;[X]表示原始輸入點(diǎn)云集合;[N(xi)]表示點(diǎn)[xi]的鄰居點(diǎn)集合;[li]與[lj]分別表示點(diǎn)[xi]與其鄰居點(diǎn)[xj]的標(biāo)簽。對(duì)點(diǎn)[xi∈X]采用KNN查詢,從[X]中采樣點(diǎn)集[N(xi)],如圖2中左側(cè)點(diǎn)云中的虛線圈所示,圖中圓圈、正方形、六邊形代表不同類的點(diǎn)。對(duì)[xj∈N(xi)],若[xi]與[xj]的標(biāo)簽滿足[lj≠li],則[xi]為邊界點(diǎn)。本文根據(jù)文獻(xiàn)[16?17]中的做法,將鄰居點(diǎn)的采樣半徑設(shè)置為0.1。
1.3 "對(duì)比學(xué)習(xí)損失函數(shù)
MFFCL?PMB采用的對(duì)比學(xué)習(xí)損失函數(shù)如公式(4)所示[15,18]:
[LCL=-1Blxi∈Bllogxj∈N(xi)∧lj=liexp-dfi,fjτxk∈N(xi)exp-dfi,fjτ] (4)
式中:[fi]表示點(diǎn)[xi]的特征;[fj]表示[xi]的鄰居點(diǎn)的特征;[d(? , ?)]表示距離函數(shù);[τ]為對(duì)比學(xué)習(xí)中的溫度系數(shù)。如圖2中右側(cè)點(diǎn)云中虛線圈所示,對(duì)邊界點(diǎn)[xi]用KNN查詢采樣獲取鄰居點(diǎn),將[xi]的特征與鄰居點(diǎn)中同類點(diǎn)特征、不同類點(diǎn)的特征組成不同的點(diǎn)對(duì)(如虛線圈中連線所示),進(jìn)行對(duì)比學(xué)習(xí)。在訓(xùn)練過程中,通過優(yōu)化網(wǎng)絡(luò)權(quán)重,使得特征空間中同類的特征點(diǎn)在距離度量的意義下更為接近,異類的特征點(diǎn)在距離度量的意義下更為遠(yuǎn)離。通過對(duì)比學(xué)習(xí),可以有效提升不同類的邊界點(diǎn)之間的區(qū)分度,有利于模型分割得到更清晰的邊界。
網(wǎng)絡(luò)的整體損失函數(shù)被定義為交叉熵?fù)p失和對(duì)比學(xué)習(xí)損失的加權(quán)和,具體形式如公式(5)所示。
[L=Lcrossentropy+γ LCL] (5)
式中[γ]為損失權(quán)重。MFFCL?PMB僅在單階段應(yīng)用對(duì)比學(xué)習(xí),為了與CBL的多階段對(duì)比學(xué)習(xí)取得對(duì)網(wǎng)絡(luò)相近的懲罰程度,[γ]取值為5。
2 "實(shí)驗(yàn)與分析
2.1 "數(shù)據(jù)集
S3DIS[19]是一個(gè)包含了約7億個(gè)點(diǎn)的大規(guī)模室內(nèi)場景點(diǎn)云數(shù)據(jù)集,對(duì)點(diǎn)云語義分割任務(wù)來說很有挑戰(zhàn)性。其中包含了6個(gè)區(qū)域共272個(gè)房間的帶有RGB信息的點(diǎn)云數(shù)據(jù)。數(shù)據(jù)集中的點(diǎn)被標(biāo)注為天花板、地板、墻、梁、柱、窗戶、門、桌、椅、沙發(fā)、書柜、板、雜物共13類。實(shí)驗(yàn)將數(shù)據(jù)集中的區(qū)域5作為測試集,區(qū)域1~區(qū)域4和區(qū)域6作為訓(xùn)練集。
2.2 "實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置
實(shí)驗(yàn)在一塊顯存為24 GB的NVIDIA RTX A5000顯卡上進(jìn)行。訓(xùn)練的batch size為8,采用AdamW優(yōu)化器,初始學(xué)習(xí)率為0.001,采用Cosine衰減學(xué)習(xí)率,權(quán)重為10-4,從頭開始訓(xùn)練100個(gè)epoch。對(duì)于PointMetaBase的復(fù)現(xiàn),采用官方的代碼和預(yù)訓(xùn)練權(quán)重。
2.3 "評(píng)價(jià)標(biāo)準(zhǔn)
除了目前多數(shù)論文注重的常見評(píng)價(jià)指標(biāo),如平均交并比(mIoU)、總體精確度(OA)外,為了對(duì)邊界點(diǎn)分割質(zhì)量進(jìn)行定量分析,本文引入邊界mIoU、內(nèi)部mIoU評(píng)價(jià)指標(biāo)[15]來分別評(píng)估模型對(duì)邊界點(diǎn)和內(nèi)部點(diǎn)的分割性能。
對(duì)于整個(gè)點(diǎn)云[X],mIoU的計(jì)算如公式(6)所示:
[mIoU(X)=1Cc=1C xi∈XG(ρi=c∧ li=c) xj∈XG(ρi=c∨lj=c)] (6)
式中:[C]表示數(shù)據(jù)集中所有類的數(shù)量;[c]代表第[c]個(gè)類;[ρi]表示預(yù)測標(biāo)簽;[G(?)]表示一個(gè)布爾函數(shù),當(dāng)括號(hào)中的表達(dá)式為真時(shí),函數(shù)值為1,否則為0。根據(jù)平均交并比的定義和公式(3)對(duì)邊界點(diǎn)的定義,定義點(diǎn)云邊界mIoU和內(nèi)部mIoU如式(7)、式(8)所示:
[mIoUboundary=mIoU( Bl)] (7)
[mIoUinner=mIoU( X-Bl)] (8)
OA的計(jì)算公式如公式(9)所示:
[OA=c=1C xi∈XG(ρi=c∧ li=c)K] (9)
式中[K]為點(diǎn)云[X]的總點(diǎn)數(shù),即預(yù)測總數(shù)。
2.4 "實(shí)驗(yàn)結(jié)果及分析
2.4.1 "性能比較
為驗(yàn)證多尺度特征融合對(duì)比學(xué)習(xí)網(wǎng)絡(luò)的有效性,在S3DIS數(shù)據(jù)集上進(jìn)行了基準(zhǔn)網(wǎng)絡(luò)PointMetaBase?L和改進(jìn)后的網(wǎng)絡(luò)MFFCL?PMB的對(duì)比實(shí)驗(yàn)。表2顯示,PointMetaBase?L在點(diǎn)云邊界上的mIoU遠(yuǎn)遠(yuǎn)落后于內(nèi)部的mIoU,而整體mIoU位于兩者之間,這說明是由于邊界上的誤分割降低了點(diǎn)云的整體分割精度。MFFCL?PMB相比于PointMetaBase?L,點(diǎn)云邊界mIoU提升了1.4%,點(diǎn)云內(nèi)部mIoU提升了1.2%,整體的mIoU提升了1.2%。MFFCL?PMB在邊界上的mIoU提升幅度相比于內(nèi)部和整體更為顯著,說明多尺度特征融合對(duì)比學(xué)習(xí)網(wǎng)絡(luò)有效提高了基準(zhǔn)模型在點(diǎn)云邊界上的分割效果,進(jìn)而提升了對(duì)點(diǎn)云整體的分割效果。
表3對(duì)比了MFFCL?PMB與近幾年提出的主流的三維點(diǎn)云語義分割方法的分割效果,表4對(duì)比了不同方法的參數(shù)量和浮點(diǎn)運(yùn)算數(shù)。由表3可知,相比于基準(zhǔn)模型PointMetaBase?L,MFFCL?PMB大幅提升了柱(+9.6%)、椅子(+2%)、板(+5%)等區(qū)域較小的類的分割效果,這說明了MFFCL?PMB通過提升邊界的分割精度,有效提升了小目標(biāo)區(qū)域的分割效果。同時(shí),與其他主流方法相比,MFFCL?PMB也取得了更好的表現(xiàn)。值得指出,MFFCL?PMB的有效性是由于采用了多尺度特征融合對(duì)比學(xué)習(xí)設(shè)計(jì),而不是簡單地增大模型規(guī)模。如表4所示,MFFCL?PMB的參數(shù)量和浮點(diǎn)運(yùn)算量僅為Point Transformer的36%和37%,mIoU卻提高了0.5%。PointNeXt?L將mIoU從69.5%提升到70.8%需要將網(wǎng)絡(luò)規(guī)模擴(kuò)大為PointNeXt?XL,參數(shù)量增加了34.5M,浮點(diǎn)運(yùn)算量增加了69.6 GFLOPs;而MFFCL?PMB將基準(zhǔn)模型mIoU從69.7%提高到70.9%,參數(shù)量僅增加了0.1M,浮點(diǎn)運(yùn)算量僅增加了0.06 GFLOPs。
圖3定性地展示了MFFCL?PMB通過提升邊界的分割精確度,有效地提升了網(wǎng)絡(luò)對(duì)場景的整體分割精度。
2.4.2 "消融實(shí)驗(yàn)
如表5所示,消融實(shí)驗(yàn)首先研究了MFFCL?PMB中MFF?Net和CL對(duì)PointMetaBase分割效果提升的有效性;其次研究了本文提出的新的結(jié)合MFF?Net和CL的設(shè)計(jì)方案MFFCL?PMB的有效性,并與CBL提出的原始對(duì)比邊界學(xué)習(xí)的方法進(jìn)行了對(duì)比。
方法2的實(shí)驗(yàn)結(jié)果顯示,若僅在PointMetaBase的原始輸出上應(yīng)用對(duì)比學(xué)習(xí),甚至?xí)p害模型的分割表現(xiàn)(OA-0.2%),這可能是由于僅對(duì)模型最后一層輸出進(jìn)行對(duì)比學(xué)習(xí),缺乏多尺度信息,因此對(duì)比學(xué)習(xí)并不能幫助網(wǎng)絡(luò)學(xué)習(xí)到能更清晰地區(qū)分邊界的權(quán)重;方法3的結(jié)果顯示,多尺度特征能幫助PointMetaBase有效提高分割性能,但并不全面(mIoU+0.6%,OA-0.1%);方法4為本文提出的MFFCL?PMB,通過在多尺度融合特征上進(jìn)行對(duì)比學(xué)習(xí),網(wǎng)絡(luò)的分割性能獲得大幅提升(mIoU+1.2%,OA+0.1%);方法5的實(shí)驗(yàn)結(jié)果顯示,CBL采用先進(jìn)行多尺度對(duì)比學(xué)習(xí),后對(duì)多尺度特征拼接融合輸出的方式,對(duì)模型分割效果的提升作用比較有限(mIoU+0.7%,OA-0.1%)。綜合各個(gè)方法的結(jié)果分析,簡單應(yīng)用對(duì)比學(xué)習(xí)或多尺度特征融合對(duì)提升網(wǎng)絡(luò)的分割性能的作用比較有限,在多尺度融合特征的基礎(chǔ)上進(jìn)行對(duì)比學(xué)習(xí)則能充分利用全局和局部的信息,通過優(yōu)化網(wǎng)絡(luò)學(xué)習(xí)充分提高網(wǎng)絡(luò)分割性能的權(quán)重,但利用多尺度信息進(jìn)行對(duì)比學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)需要精心設(shè)計(jì),MFFCL?PMB相比于CBL能在減少計(jì)算量的情況下更好地提升PointMetaBase的分割性能。
3 "結(jié) "語
本文設(shè)計(jì)了一種新的多尺度特征融合對(duì)比學(xué)習(xí)方法,用以解決現(xiàn)有三維點(diǎn)云語義分割方法存在的對(duì)點(diǎn)云場景邊界分割不準(zhǔn)確的問題,并將其結(jié)合到PointMetaBase網(wǎng)絡(luò)中,提出增強(qiáng)了點(diǎn)云邊界分割性能的MFFCL?PMB。通過引入評(píng)價(jià)指標(biāo)邊界mIoU、內(nèi)部mIoU,定量分析了PointMetaBase在邊界分割精度上的不足,并通過對(duì)比實(shí)驗(yàn)驗(yàn)證了MFFCL對(duì)提升PointMetaBase的邊界分割效果和點(diǎn)云整體分割效果的有效性。同時(shí),實(shí)驗(yàn)還顯示,本文提出的MFFCL的結(jié)構(gòu)設(shè)計(jì)對(duì)提升分割性能具有關(guān)鍵作用,并且所提出的MFFCL?PMB在引入了較低的參數(shù)量和計(jì)算量的情況下獲得了性能提升,是一種高效的三維點(diǎn)云語義分割方法。
注:本文通訊作者為張斌。
參考文獻(xiàn)
[1] XU C F, WU B C, WANG Z N, et al. SqueezeSegV3: Spatially?adaptive convolution for efficient point?cloud segmentation [C]// Proceedings of 16th European Conference on Computer Vision. Heidelberg, Germany: Springer, 2020: 1?19.
[2] WU B C, ZHOU X Y, ZHAO S C, et al. SqueezeSegV2: Improved model structure and unsupervised domain adaptation for road?object segmentation from a lidar point cloud [C]// 2019 International Conference on Robotics and Automation (ICRA). New York: IEEE, 2019: 4376?4382.
[3] MILIOTO A, VIZZO I, BEHLEY J, et al. RangeNet++: Fast and accurate lidar semantic segmentation [C]// 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). New York: IEEE, 2019: 4213?4220.
[4] HU Z Y, BAI X Y, SHANG J X, et al. Voxel?mesh network for geodesic?aware 3D semantic segmentation of indoor scenes [EB/OL]. [2022?07?28]. https://ieeexplore.ieee.org/document/9844250.
[5] CHEN Z Q, YIN K X, FISHER M, et al. BAE?NET: Branched autoencoder for shape co?segmentation [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2019: 8489?8498.
[6] CHOY C B, GWAK J Y, SAVARESE S. 4D spatio?temporal ConvNets: Minkowski convolutional neural networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2019: 3075?3084.
[7] HU Z Y, BAI X Y, SHANG J X, et al. VMNet: Voxel?mesh network for geodesic?aware 3D semantic segmentation [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2021: 15468?15478.
[8] MENG H Y, GAO L, LAI Y K, et al. VV?Net: Voxel VAE net with group convolutions for point cloud segmentation [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2019: 8499?8507.
[9] QI C R, SU H, MO K C, et al. PointNet: Deep learning on point sets for 3D classification and segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 77?85.
[10] QI C R, YI L, SU H, et al. PointNet++: Deep hierarchical feature learning on point sets in a metric space [C]// Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017. [S.l.: s.n.], 2017: 5099?5108.
[11] QIAN G C, LI Y C, PENG H W, et al. PointNeXt: Revisiting PointNet++ with improved training and scaling strategies [C]// Advances in Neural Information Processing Systems 35: Annual Conference on Neural Information Processing Systems 2022. [S.l.: s.n.], 2022: 23192?23204.
[12] ZHAO H S, JIANG L, JIA J Y, et al. Point transformer [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2021: 16239?16248.
[13] LIN H J, ZHENG X W, LI L J, et al. Meta architecture for point cloud analysis [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2023: 17682?17691.
[14] GONG J Y, XU J C, TAN X, et al. Boundary?aware geometric encoding for semantic segmentation of point clouds [C]// Proceedings of the 35th AAAI Conference on Artificial Intelligence. [S.l.]: AAAI Press, 2021: 1424?1432.
[15] TANG L Y, ZHAN Y B, CHEN Z, et al. Contrastive boundary learning for point cloud segmentation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2022: 8479?8489.
[16] LIU Z, HU H, CAO Y, et al. A closer look at local aggregation operators in point cloud analysis [C]// Proceedings of 16th European Conference on Computer Vision. Heidelberg, Germany: Springer, 2020: 326?342.
[17] THOMAS H, QI C R, DESCHAUD J E, et al. KPConv: Flexible and deformable convolution for point clouds [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2019: 6410?6419.
[18] FROSST N, PAPERNOT N, HINTON G E. Analyzing and improving representations with the soft nearest neighbor loss [C]// Proceedings of 36th International Conference on Machine Learning. New York: PMLR, 2019: 2012?2020.
[19] ARMENI I, SAX S, ZAMIR A R, et al. Joint 2D?3D?semantic data for indoor scene understanding [EB/OL]. [2022?09?23]. http://arxiv.org/abs/1702.01105.
[20] CHENG B W, GIRSHICK R B, DOLLáR P, et al. Boundary IoU: Improving object?centric image segmentation evaluation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2021: 15334?15342.
[21] LEE H J, KIM J U, LEE S, et al. Structure boundary preserving segmentation for medical image with ambiguous boundary [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2020: 4816?4825.
[22] YUAN J L, DENG Z L, WANG S, et al. Multi receptive field network for semantic segmentation [C]// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. New York: IEEE, 2020: 1883?1892.
[23] HU Z Y, ZHEN M M, BAI X Y, et al. JSENet: Joint semantic segmentation and edge detection network for 3D point clouds [C]// Proceedings of 16th European Conference on Computer Vision. Heidelberg, Germany: Springer, 2020: 222?239.
[24] ZHANG B, SUN C F, FANG S Q, et al. Workshop safety helmet wearing detection model based on SCM?YOLO [J]. Sensors, 2022, 22(17): 6702.
[25] 魯子明,黃世秀,季錚,等.基于PointNet優(yōu)化網(wǎng)絡(luò)的鐵路站臺(tái)語義分割[J].現(xiàn)代電子技術(shù),2024,47(3):68?72.
作者簡介:楊林杰(1997—),男,廣西人,碩士研究生,研究方向?yàn)樯疃葘W(xué)習(xí)、三維點(diǎn)云語義分割。
張 "斌(1970—),男,湖南人,碩士,研究員,博士生導(dǎo)師,研究方向?yàn)樯疃葘W(xué)習(xí)、智能物聯(lián)網(wǎng)技術(shù)。
張志圣(2001—),男,河南人,碩士研究生,研究方向?yàn)樯疃葘W(xué)習(xí)、三維重建、點(diǎn)云分割。