孫一珺,胡 輝,李子鑰,陳 陽(yáng),吳少奕
華東交通大學(xué) 信息工程學(xué)院,南昌 330013
近年來,深度學(xué)習(xí)在圖像處理領(lǐng)域取得了顯著的成果,其中卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)對(duì)于規(guī)整的圖像數(shù)據(jù)[1]具有優(yōu)異的效果。隨著無人駕駛需求的日益增加,激光雷達(dá)點(diǎn)云數(shù)據(jù)和圖像數(shù)據(jù)一樣,逐漸變成了一種深度學(xué)習(xí)的基本數(shù)據(jù)。然而,由于點(diǎn)云數(shù)據(jù)固有的非結(jié)構(gòu)性與無序性特點(diǎn)[2],使得一些傳統(tǒng)的圖像領(lǐng)域的深度學(xué)習(xí)方法無法直接應(yīng)用于點(diǎn)云領(lǐng)域。
為了將卷積的優(yōu)勢(shì)發(fā)揮在點(diǎn)云處理領(lǐng)域,先前的研究者使用多視圖思想對(duì)三維數(shù)據(jù)的每一個(gè)角度單獨(dú)使用CNN并融合這些多角度信息實(shí)現(xiàn)數(shù)據(jù)處理[3],或是將三維CNN直接使用在點(diǎn)云領(lǐng)域[4]。但是這些方法均要求大量的計(jì)算資源且處理速度較慢,并不是點(diǎn)云處理領(lǐng)域的最優(yōu)方法,如何直接使用三維點(diǎn)云數(shù)據(jù)作為網(wǎng)絡(luò)輸入因而成為了研究的熱點(diǎn)。PointNet[5]網(wǎng)絡(luò)作為直接使用點(diǎn)云數(shù)據(jù)的先驅(qū)者,有效地解決了點(diǎn)云特征獲取和無序性的問題。這為之后的研究者提供了方向指引,如PAT[6]、LightPointNet[7]、PointWeb[8]。然而不同于CNN,多層感知器(multilayer perceptron,MLP)具有不能包含鄰域信息,不能使用空洞卷積[9]等技巧的缺點(diǎn),導(dǎo)致網(wǎng)絡(luò)特征提取能力仍具有較大的優(yōu)化空間。PointNet++[10]和DGCNN[11](dynamic graph CNN)分別通過模仿多層CNN的層次特點(diǎn)和K近鄰算法構(gòu)建鄰域使網(wǎng)絡(luò)具有了鄰域信息,RS-CNN[12](relation shape CNN)和Moment[13]則通過豐富網(wǎng)絡(luò)輸入從而使網(wǎng)絡(luò)性能提升。除了以上的方法,注意力機(jī)制的重要性在以往的文獻(xiàn)中已經(jīng)被廣泛地研究,能夠幫助網(wǎng)絡(luò)明白應(yīng)該關(guān)注哪些位置,提升網(wǎng)絡(luò)表達(dá)能力。不同于WDGCNN[14](weighted dynamic graph CNN)需要手動(dòng)設(shè)計(jì)一種權(quán)重,注意力機(jī)制可以幫助網(wǎng)絡(luò)自適應(yīng)地學(xué)習(xí)權(quán)重,使網(wǎng)絡(luò)自動(dòng)關(guān)注重要的特征,抑制非必要的特征。然而由于點(diǎn)云數(shù)據(jù)的特點(diǎn),以往的注意力機(jī)制同樣不能直接應(yīng)用于點(diǎn)云領(lǐng)域。
針對(duì)這些問題,本文首先提出了一個(gè)簡(jiǎn)單有效的直接應(yīng)用于點(diǎn)云數(shù)據(jù)的注意力機(jī)制,通過對(duì)點(diǎn)云數(shù)據(jù)進(jìn)行并行的最大池化與平均池化,采用共享權(quán)重的多層感知器訓(xùn)練自適應(yīng)注意力權(quán)重,并與輸入特征相乘以增強(qiáng)網(wǎng)絡(luò)特征表示能力,從而提升網(wǎng)絡(luò)性能,可以廣泛地應(yīng)用于PointNet類網(wǎng)絡(luò)的特征提取階段,以提高網(wǎng)絡(luò)的表征能力;其次對(duì)本文所提出注意機(jī)制的最優(yōu)設(shè)計(jì)和使用方案進(jìn)行研究分析;最后嵌入設(shè)計(jì)的注意力機(jī)制,驗(yàn)證了在不明顯提高網(wǎng)絡(luò)運(yùn)算成本的前提下,多種三維點(diǎn)云處理任務(wù)(分類、分割、檢測(cè))的性能相比于原始網(wǎng)絡(luò)有了很大提高。
由于CNN無法直接應(yīng)用于點(diǎn)云領(lǐng)域,先前的研究者大多考慮使用間接法進(jìn)行三維特征學(xué)習(xí)。MVCNN[3]的研究思路是通過多視圖法處理三維數(shù)據(jù),使用CNN獲取某一角度的多視圖特征,最后使用最大池化對(duì)多角度特征進(jìn)行特征融合。VoxNet[4]通過三維網(wǎng)格將點(diǎn)云進(jìn)行體素轉(zhuǎn)換,并用三維CNN進(jìn)行特征的學(xué)習(xí)。然而,受限于點(diǎn)云數(shù)據(jù)的稀疏性、計(jì)算成本以及間接轉(zhuǎn)化導(dǎo)致的信息損失,通過間接法研究三維數(shù)據(jù)受到了較大的阻礙。Qi等人是直接使用原始點(diǎn)云作為網(wǎng)絡(luò)輸入的先驅(qū)者,提出了PoinNet網(wǎng)絡(luò),其網(wǎng)絡(luò)直接使用點(diǎn)云作為輸入而不需要任何間接變換,借助MLP獲取非結(jié)構(gòu)的點(diǎn)云特征,采用對(duì)稱函數(shù)處理點(diǎn)云的無序性問題,使用變換網(wǎng)絡(luò)(transformer network,T-Net)來實(shí)現(xiàn)點(diǎn)的對(duì)齊,從而處理點(diǎn)云圖像的旋轉(zhuǎn)不變性問題,然而這種網(wǎng)絡(luò)缺少局部特征的構(gòu)建能力。Qi等人之后提出的PointNet++網(wǎng)絡(luò)通過不斷使用基于最遠(yuǎn)點(diǎn)采樣(farthest point sampling,F(xiàn)PS)的方法并逐層次地使用PointNet網(wǎng)絡(luò),從而獲取了一定的點(diǎn)云局部特征。DGCNN通過K近鄰算法為每個(gè)點(diǎn)構(gòu)建了一個(gè)鄰域圖,提出了邊緣卷積(edge convolution,EdgeConv)的概念,成功地為每個(gè)點(diǎn)構(gòu)建了鄰域特征,但采用的仍是MLP進(jìn)行每一條邊的特征學(xué)習(xí)。Point-GNN[15]明確地將圖卷積的概念引入點(diǎn)云特征學(xué)習(xí)領(lǐng)域,在網(wǎng)絡(luò)輸入前對(duì)點(diǎn)云進(jìn)行建圖,之后采用圖卷積神經(jīng)網(wǎng)絡(luò)(graph neural network,GCN)進(jìn)行特征學(xué)習(xí)以進(jìn)行物體檢測(cè),網(wǎng)絡(luò)可以對(duì)一張點(diǎn)云同時(shí)進(jìn)行多物體檢測(cè)。RandLA-Net[16]設(shè)計(jì)了一種輕量高效的可處理大規(guī)模場(chǎng)景點(diǎn)云的網(wǎng)絡(luò),通過簡(jiǎn)單高效的隨機(jī)采樣替換常用的FPS以極大地降低計(jì)算成本并通過設(shè)計(jì)有效的局部特征模塊增加網(wǎng)絡(luò)的感受野,在大場(chǎng)景點(diǎn)云語(yǔ)義分割問題上獲得了優(yōu)異的成績(jī)。
Google團(tuán)隊(duì)使用多頭注意力和縮放點(diǎn)積注意力的自注意力(self attention)機(jī)制進(jìn)行學(xué)習(xí)[17],代替了傳統(tǒng)的編解碼模型必須結(jié)合CNN或者RNN(recurrent neural network)的固有模式,在不降低可靠性的前提下減少了計(jì)算成本,提高了有效性。Sun等人[18]提出了堆疊注意力網(wǎng)絡(luò)(stacked attention networks,SANs)來進(jìn)行視覺問答任務(wù)(visual question answering,VQA),并通過實(shí)驗(yàn)說明三個(gè)或更多注意力層并不一定提高性能。Luong等人[19]提出了兩種叫作局部和全局的注意力機(jī)制(local and global attention),全局注意力類似于傳統(tǒng)的軟注意力(soft attention)[20],局部注意力提供了網(wǎng)絡(luò)在計(jì)算效率和可微性之間的參數(shù)權(quán)衡。CBAM[21]采用多角度池化的方法生成自適應(yīng)的注意力權(quán)重以產(chǎn)生通道與空間注意力,并通過串行的方式融合通道與空間注意力,從而提高網(wǎng)絡(luò)性能。與此不同,BAM[22]使用了空洞卷積的思想產(chǎn)生空間注意力權(quán)重,并與并行計(jì)算后的通道注意力相加激活后作為最終的注意力權(quán)重,最后與原始輸入相加得到細(xì)化后的特征圖。Chaudhari等人[23]總結(jié)出注意力的核心思想是對(duì)輸入特征引入注意力權(quán)重,這些工作為本文設(shè)計(jì)適用于點(diǎn)云的注意力機(jī)制研究提供了指導(dǎo)思路。
現(xiàn)有的增強(qiáng)點(diǎn)云網(wǎng)絡(luò)性能的方法一是設(shè)計(jì)新的網(wǎng)絡(luò)結(jié)構(gòu),二是在現(xiàn)有結(jié)構(gòu)上豐富網(wǎng)絡(luò)輸入。不需要像WDGCNN一樣人為設(shè)計(jì)一種權(quán)重,注意力機(jī)制可以通過網(wǎng)絡(luò)自適應(yīng)地生成優(yōu)化網(wǎng)絡(luò)特征的權(quán)重,幫助網(wǎng)絡(luò)學(xué)習(xí)需要對(duì)哪些信息進(jìn)行強(qiáng)調(diào)或抑制,從而幫助特征在網(wǎng)絡(luò)中的生成。本文設(shè)計(jì)了一種即插即用的適用于點(diǎn)云的輕量級(jí)注意力機(jī)制,可以隨意嵌入到PointNet類網(wǎng)絡(luò)的特征提取階段,在不明顯增加計(jì)算成本的情況下提升網(wǎng)絡(luò)性能。嵌入有點(diǎn)云注意力機(jī)制的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 注意力機(jī)制嵌入圖Fig.1 Attention mechanism embedding map
在圖像處理領(lǐng)域,通道與空間注意力可以幫助網(wǎng)絡(luò)在通道和空間兩個(gè)分支上學(xué)習(xí)要注意“什么”和“哪里”,共用這兩種注意力機(jī)制可以有效地提升網(wǎng)絡(luò)性能。
對(duì)于圖像數(shù)據(jù),其特征在神經(jīng)網(wǎng)絡(luò)中可以表示為F∈?B×H×W×C,其中B、H、W、C分別表示Batch Size、圖像的長(zhǎng)、寬、特征通道數(shù)。融合的通道與空間注意力可以表示為:
其中,Mc∈?B×1×1×C表示一維的通道注意力,Ms∈?B×H×W×1表示二維的空間注意力,?代表矩陣叉乘,F(xiàn)""表示最終的輸出特征。
對(duì)于通道注意力圖Mc的計(jì)算過程為:
其中,σ表示激活函數(shù),W0和W1表示MLP的權(quán)重,表示沿著特征通道數(shù)C維度對(duì)特征F進(jìn)行平均池化和最大池化。
對(duì)于空間注意力圖Ms的計(jì)算過程為:
其中,σ表示激活函數(shù),f7×7表示核為7×7的卷積運(yùn)算,表示沿著圖像的長(zhǎng)、寬維度對(duì)特征F進(jìn)行平均池化和最大池化。
不同于圖像數(shù)據(jù),點(diǎn)云數(shù)據(jù)具有非結(jié)構(gòu)性與無序性的特點(diǎn),其特征在神經(jīng)網(wǎng)絡(luò)中可以表示為F∈?B×N×1×C,其中B、N、C分別表示Batch Size、點(diǎn)云數(shù)目、特征通道數(shù)。
受到圖像領(lǐng)域通道與空間注意力機(jī)制的啟發(fā),本文同樣設(shè)計(jì)了兩種注意力機(jī)制,分別沿著特征通道數(shù)C維度和點(diǎn)云數(shù)目N維度進(jìn)行池化,可以表示為:
其中,Mc∈?B×N×1×C表示點(diǎn)云特征注意力機(jī)制,F(xiàn)c表示點(diǎn)云特征注意力的輸出特征,Mn∈?B×1×1×C表示點(diǎn)云通道注意力機(jī)制,F(xiàn)n表示點(diǎn)云通道注意力的輸出特征,?代表矩陣叉乘。
為了生成點(diǎn)云特征注意力機(jī)制Mc,借助CBAM的經(jīng)驗(yàn),采用不同的池化方法意味著通過不同的角度收集特征的信息,能夠有效地提高網(wǎng)絡(luò)表達(dá)性能。首先沿著特征通道數(shù)C維度,使用并行的平均池化和最大池化對(duì)點(diǎn)云輸入特征F進(jìn)行特征聚合,從而生成不同角度的特征表述符不同于圖像數(shù)據(jù)的空間注意力,受限于點(diǎn)云數(shù)據(jù)的非結(jié)構(gòu)性,本文未使用卷積操作進(jìn)行權(quán)重訓(xùn)練,仍使用共享參數(shù)的單隱藏層MLP對(duì)聚合特征的特征通道數(shù)維度進(jìn)行訓(xùn)練,用來生成注意力權(quán)重,最后使用激活函數(shù)σ激活權(quán)重。點(diǎn)云特征注意力機(jī)制Mc可以表示為:
其中,σ表示sigmoid激活函數(shù),W表示MLP的權(quán)重,表示沿著特征通道數(shù)C維度對(duì)特征F進(jìn)行平均池化和最大池化。計(jì)算過程如圖2(a)所示。
圖2 注意力機(jī)制計(jì)算過程圖Fig.2 Attention mechanism computation process map
為了生成點(diǎn)云通道注意力機(jī)制Mn,沿著特征通道數(shù)N維度,同樣使用平均池化和最大池化對(duì)點(diǎn)云輸入特征F進(jìn)行特征聚合,生成不同角度的特征表述符Fnavg和Fnmax。由于在點(diǎn)云領(lǐng)域無法直接使用CNN,本文仍采用MLP對(duì)點(diǎn)云特征進(jìn)行精煉,使用共享參數(shù)的雙隱藏層MLP對(duì)聚合特征進(jìn)行訓(xùn)練,對(duì)點(diǎn)云特征通道C先縮減再恢復(fù),縮減系數(shù)為r,用來生成注意力權(quán)重,最后使用激活函數(shù)σ激活權(quán)重。點(diǎn)云通道注意力機(jī)制Mn可以表示為:
其中,σ表示sigmoid激活函數(shù),W0和W1表示MLP的權(quán)重,表示沿著點(diǎn)云數(shù)目N維度對(duì)特征F進(jìn)行平均池化和最大池化。計(jì)算過程如圖2(b)所示。
實(shí)驗(yàn)的硬件環(huán)境為Intel Core i7-6700 CPU、32 GB內(nèi)存,GeForce GTX 1080ti顯卡、11 GB顯存。軟件環(huán)境為Ubuntu 16.04 x64操作系統(tǒng)、Anaconda 1.7.2、Cuda10.1、Cudnn 7.6.5、TensorFlow 1.14、Python 3.6.1。
本節(jié)通過對(duì)嵌入有適用于點(diǎn)云注意力機(jī)制的Point-Net網(wǎng)絡(luò)在ModelNet40[24]分類數(shù)據(jù)集上的分類效果研究,對(duì)不同的注意力機(jī)制設(shè)計(jì)進(jìn)行了分析。ModelNet40點(diǎn)云分類數(shù)據(jù)集共有40種物體種類,12 311個(gè)點(diǎn)云模型,其中訓(xùn)練集9 842個(gè),測(cè)試集2 468個(gè)。
為研究多角度的池化特征融合順序?qū)W(wǎng)絡(luò)性能的影響,本文設(shè)計(jì)了先融合后訓(xùn)練的注意力機(jī)制Mc"、Mn",設(shè)計(jì)方案如圖3(a)、(b)所示。此外,受到CBAM的啟發(fā),本文同樣對(duì)兩種注意力機(jī)制的融合效果進(jìn)行了研究,根據(jù)特征和通道注意力機(jī)制的使用順序,分別設(shè)計(jì)了Mcn、Mnc兩種融合方案,設(shè)計(jì)方案如圖3(c)、(d)所示。
圖3 其他注意力機(jī)制設(shè)計(jì)方案圖Fig.3 Other attention mechanism design plans
在表1中給出了不同注意力設(shè)計(jì)方案在ModelNet40上的分類準(zhǔn)確率(overall accuracy,OA)結(jié)果。PointNet(vanllia)相比于PointNet網(wǎng)絡(luò)減少了T-Net,—表示不使用注意力機(jī)制的原始網(wǎng)絡(luò)框架,PointNet(vanllia)和PointNet的Batch Size分別設(shè)置為64、32,其余設(shè)置遵循原網(wǎng)絡(luò)設(shè)置。
表1 注意力機(jī)制設(shè)計(jì)方案Table 1 Design of attention mechanism
點(diǎn)云特征注意力機(jī)制Mc和點(diǎn)云通道注意力機(jī)制Mn將OA提升至87.80%和87.48%,相比于原始的PointNet(vanllia)網(wǎng)絡(luò)分別提升了0.89和0.57個(gè)百分點(diǎn),實(shí)驗(yàn)結(jié)果表明本文設(shè)計(jì)的兩種注意力機(jī)制對(duì)點(diǎn)云數(shù)據(jù)的特征提取均發(fā)揮了積極的作用,驗(yàn)證了機(jī)制設(shè)計(jì)的合理性。同時(shí),相比于點(diǎn)云通道注意力機(jī)制Mn,點(diǎn)云特征注意力機(jī)制Mc具有更優(yōu)的效果。當(dāng)注意力機(jī)制Mc對(duì)點(diǎn)云特征沿著特征通道數(shù)維度進(jìn)行池化,并通過MLP學(xué)習(xí)特征與注意力加權(quán),可以在基礎(chǔ)網(wǎng)絡(luò)上進(jìn)一步豐富點(diǎn)云特征信息,網(wǎng)絡(luò)性能提升更明顯。這表明僅具有(x,y,z)坐標(biāo)信息的非結(jié)構(gòu)點(diǎn)云數(shù)據(jù),其特征信息單一仍是點(diǎn)云特征學(xué)習(xí)必須著重考慮的問題。
先融合后訓(xùn)練的注意力機(jī)制Mc"和Mn"的OA分別為87.24%和87.16%,實(shí)驗(yàn)結(jié)果雖然相比于原始網(wǎng)絡(luò)仍有提升,但提升效果均不如先訓(xùn)練后融合的注意力機(jī)制Mc和Mn。平均池化和最大池化代表著不同角度的特征,實(shí)驗(yàn)結(jié)果表明“先融合,后訓(xùn)練”的策略導(dǎo)致多角度特征在融合過程中會(huì)產(chǎn)生一定的信息損失,因而對(duì)經(jīng)過網(wǎng)絡(luò)訓(xùn)練后的池化特征進(jìn)行融合效果更優(yōu)。對(duì)于兩種注意力機(jī)制的融合方案Mcn和Mnc,OA分別為86.71%和87.36%,不同于圖像注意力領(lǐng)域CBAM的經(jīng)驗(yàn),串行融合使用本文設(shè)計(jì)的注意力機(jī)制并未對(duì)網(wǎng)絡(luò)特征提取性能做進(jìn)一步提升。
最后,將Mc注意力機(jī)制應(yīng)用于PointNet網(wǎng)絡(luò),OA相比于原始網(wǎng)絡(luò)的88.90%提升至89.30%,同樣提升了網(wǎng)絡(luò)分類效果。同時(shí),可以觀察到相比于原始網(wǎng)絡(luò),注意力機(jī)制Mc分別僅使PointNet(vanllia)和PointNet的運(yùn)行時(shí)間增加了27 min和15 min,并未明顯提高網(wǎng)絡(luò)計(jì)算成本,表明了本文設(shè)計(jì)注意力機(jī)制Mc的輕量級(jí)特點(diǎn)。下文中的實(shí)驗(yàn)如無特殊說明,均用注意力機(jī)制Mc。
本實(shí)驗(yàn)旨在研究所設(shè)計(jì)的注意力機(jī)制Mc在MLP網(wǎng)絡(luò)中的使用位置方案,實(shí)驗(yàn)結(jié)果如表2所示,I、Ⅱ、Ⅲ、Ⅳ、V、Ⅵ分別表示在網(wǎng)絡(luò)特征維度為3、64、64、64、128、1 024時(shí),在之后嵌入使用注意力機(jī)制,—表示不使用注意力機(jī)制的原始網(wǎng)絡(luò)框架。
表2 注意力機(jī)制使用方案Table 2 Usage of attention mechanism
本文設(shè)計(jì)了兩種注意力機(jī)制使用方案:僅使用單個(gè)注意力機(jī)制和使用多個(gè)注意力機(jī)制。當(dāng)在原始點(diǎn)云后I直接使用注意力機(jī)制時(shí),OA為87.12%,相比于原始網(wǎng)絡(luò)有一定提升;當(dāng)在第一層Ⅱ和第二層Ⅲ的MLP后使用注意力機(jī)制時(shí),OA分別為87.80%和87.72%,相比于原始網(wǎng)絡(luò)有了較大提升;當(dāng)繼續(xù)在更深層網(wǎng)絡(luò)Ⅳ、V、Ⅵ后使用注意力機(jī)制時(shí),OA均提升較少甚至有所下降。當(dāng)在兩層Ⅱ、V的MLP網(wǎng)絡(luò)后使用注意力機(jī)制時(shí),OA為87.24%,結(jié)果并未優(yōu)于僅使用單個(gè)注意力機(jī)制的情況;更進(jìn)一步,當(dāng)在三層I、Ⅱ、V或者四層Ⅱ、Ⅲ、Ⅳ、V的MLP網(wǎng)絡(luò)后使用注意力機(jī)制,OA甚至相較于不適用注意力機(jī)制的原始網(wǎng)絡(luò)有所下降。
實(shí)驗(yàn)結(jié)果表明,和PointNet網(wǎng)絡(luò)只使用了少量TNet網(wǎng)絡(luò)且只在淺層使用T-Net網(wǎng)絡(luò)的情況類似,本文設(shè)計(jì)的適用于點(diǎn)云的注意力機(jī)制更適合嵌入在網(wǎng)絡(luò)的淺層而非深層,且使用單次注意力機(jī)制的效果優(yōu)于使用多次注意力機(jī)制,具有輕量級(jí)的優(yōu)點(diǎn)。
本文中的實(shí)驗(yàn)如無特殊說明,均僅使用單次注意力機(jī)制,并將注意力機(jī)制嵌入到第一層網(wǎng)絡(luò)提取的特征之后。
為驗(yàn)證本文設(shè)計(jì)注意力機(jī)制的普適性,本節(jié)進(jìn)行了對(duì)嵌入有點(diǎn)云注意力機(jī)制的PointNet零件分割網(wǎng)絡(luò)在ShapeNet[25]零件分割數(shù)據(jù)集上的效果研究。ShapeNet零件分割數(shù)據(jù)集共有16種物體類別,每個(gè)類別有2至5個(gè)零件,總計(jì)50種零件類別、2 874個(gè)物體、16 881個(gè)零件。
在圖4中給出了零件分割的可視化結(jié)果,左、中、右三列分別表示算法預(yù)測(cè)結(jié)果、真實(shí)標(biāo)準(zhǔn)、區(qū)別點(diǎn)。零件分割實(shí)驗(yàn)結(jié)果如表3所示,—表示不使用注意力機(jī)制的原始網(wǎng)絡(luò)框架,網(wǎng)絡(luò)的Batch Size設(shè)置為16,其余設(shè)置遵循原網(wǎng)絡(luò)設(shè)置。可以看到,通過對(duì)PointNet零件分割網(wǎng)絡(luò)嵌入本文設(shè)計(jì)的注意力機(jī)制Mc,網(wǎng)絡(luò)的平均交并比(mean intersection over union,mIoU)由81.76%提升至83.14%,提升了1.38個(gè)百分點(diǎn)。此外,注意力機(jī)制Mc幫助16種物體類別中大多數(shù)類別交并比(intersection over union,IoU)的得分超過原始網(wǎng)絡(luò)。對(duì)于car、ear phone、rocket類別的IoU提升超過5個(gè)百分點(diǎn),對(duì)于cap、motor、skate board類別的IoU提升超過10個(gè)百分點(diǎn)。可以看出,本文設(shè)計(jì)的注意力機(jī)制在零件分割領(lǐng)域有優(yōu)秀的實(shí)驗(yàn)結(jié)果,驗(yàn)證了設(shè)計(jì)注意力機(jī)制的普適性。
圖4 零件分割可視化結(jié)果Fig.4 Visualization results for part segmentation
表3 基于注意力機(jī)制的零件分割結(jié)果Table 3 Results of part segmentation based on attention mechanism 單位:%
本文同樣對(duì)PointNet延伸網(wǎng)絡(luò)進(jìn)行了注意力機(jī)制嵌入實(shí)驗(yàn),以進(jìn)一步驗(yàn)證設(shè)計(jì)注意力機(jī)制的普適性。Frustum-Pointnet[26]是PointNet網(wǎng)絡(luò)在點(diǎn)云三維檢測(cè)任務(wù)的延伸,是一種融合了圖片與點(diǎn)云數(shù)據(jù)的多源融合目標(biāo)檢測(cè)網(wǎng)絡(luò),其網(wǎng)絡(luò)可分為三個(gè)部分:使用圖片檢測(cè)結(jié)果生成視椎體點(diǎn)云候選區(qū)域,在候選區(qū)域使用PointNet分割網(wǎng)絡(luò)濾除非目標(biāo)噪點(diǎn),對(duì)去噪后的點(diǎn)云使用PointNet預(yù)測(cè)網(wǎng)絡(luò)生成三維目標(biāo)邊框。
數(shù)據(jù)使用KITTI[27]數(shù)據(jù)集,分別將點(diǎn)云注意機(jī)制Mc應(yīng)用于Seg分割網(wǎng)絡(luò)、Est預(yù)測(cè)網(wǎng)絡(luò)、Seg&Est分割和預(yù)測(cè)網(wǎng)絡(luò)。KITTI目標(biāo)檢測(cè)結(jié)果如圖5所示,其中圖5(a)為2D目標(biāo)檢測(cè)結(jié)果,圖5(b)為與其對(duì)應(yīng)的3D目標(biāo)檢測(cè)結(jié)果,該圖僅包含預(yù)測(cè)邊框與方向,不包含類別與真值。平均精度(average precision,AP)結(jié)果如表4所示,—表示不使用注意力機(jī)制的原始網(wǎng)絡(luò)框架,Easy為目標(biāo)全部可見,Mod.為目標(biāo)被部分遮擋,Hard為目標(biāo)被嚴(yán)重遮擋,網(wǎng)絡(luò)的Batch Size設(shè)置為32,其余設(shè)置遵循原網(wǎng)絡(luò)設(shè)置。
表4 基于注意力機(jī)制的多源融合檢測(cè)結(jié)果Table 4 Results of multisource fusion detection based on attention mechanism
圖5 KITTI目標(biāo)檢測(cè)結(jié)果Fig.5 Results for kitti target detection
可以看到,無論是將注意力機(jī)制單獨(dú)使用在分割網(wǎng)絡(luò)還是預(yù)測(cè)網(wǎng)絡(luò),AP值在大多情況下相比于原始網(wǎng)絡(luò)有一定提升;在預(yù)測(cè)網(wǎng)絡(luò)使用注意力機(jī)制時(shí),汽車這一類別的AP值取得了最優(yōu)的結(jié)果;在分割和預(yù)測(cè)網(wǎng)絡(luò)均使用注意力機(jī)制時(shí),汽車這一類大物體的AP值無明顯改變,但是對(duì)于行人和騎行者這種小物體,AP值有了明顯提升。實(shí)驗(yàn)結(jié)果進(jìn)一步證明了設(shè)計(jì)注意力機(jī)制的普適性,同時(shí)網(wǎng)絡(luò)運(yùn)行時(shí)間僅增加了51 min,增加幅度不足5%,說明了所設(shè)計(jì)注意力機(jī)制的輕量級(jí)特性。
針對(duì)現(xiàn)有的點(diǎn)云特征提取網(wǎng)絡(luò)性能有待提高,傳統(tǒng)的注意力機(jī)制無法直接應(yīng)用于點(diǎn)云數(shù)據(jù)的現(xiàn)狀,本文提出了適用于點(diǎn)云的注意力機(jī)制,通過注意力機(jī)制對(duì)網(wǎng)絡(luò)訓(xùn)練特征生成自適應(yīng)權(quán)重。以PointNet類網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò),對(duì)所設(shè)計(jì)的注意力機(jī)制學(xué)習(xí)過程進(jìn)行了詳盡說明,并進(jìn)行了廣泛的測(cè)試與實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,所設(shè)計(jì)的注意力機(jī)制具有普適性和輕量級(jí)的特點(diǎn),能夠提升多種三維點(diǎn)云處理任務(wù)的性能。但是,本文對(duì)于如何在網(wǎng)絡(luò)的多個(gè)層次中發(fā)揮注意力機(jī)制的優(yōu)勢(shì)以及如何根據(jù)傳統(tǒng)注意力機(jī)制進(jìn)一步優(yōu)化點(diǎn)云注意力機(jī)制仍有不足,這是進(jìn)一步研究的方向。