張名芳,吳禹峰,王力,王龐偉
(北方工業(yè)大學,城市道路交通智能控制技術北京市重點實驗室,北京 100144)
環(huán)境感知能力是無人駕駛車輛實現(xiàn)高效決策和控制的基礎,實時準確地檢測周圍環(huán)境中各類目標對保障無人駕駛車輛行駛安全尤為重要。隨著人工智能的發(fā)展,基于深度學習的目標檢測技術是當前的研究熱點[1]。近年基于圖像的目標檢測算法取得長足進展,但圖像處理相關算法對光照強度較敏感,而激光雷達傳感器相比攝像頭不受光照影響,能通過采集的三維點云獲取場景深度信息、目標反射強度信息等,抗干擾能力強[2]。因此基于三維點云的目標檢測算法在無人駕駛領域受到廣泛關注。目前基于深度學習的三維點云車輛目標檢測算法按神經(jīng)網(wǎng)絡結構可分為單階段和二階段兩類算法[3]。
單階段相關算法通過單階段網(wǎng)絡完成目標概率預測和目標包圍盒回歸任務。Zhou 等[4]提出一種基于體素網(wǎng)格的端到端目標檢測網(wǎng)絡,采用原始三維點云作為輸入,將點云劃分為等間隔的體素,利用候選區(qū)域生成網(wǎng)絡輸出目標檢測結果,能夠?qū)崿F(xiàn)較高檢測精度,但該算法需要計算三個維度滑動卷積核,運行效率低。Lang等[5]提出快速編碼的點云目標檢測框架,將點云編碼為柱狀偽圖像,利用二維卷積網(wǎng)絡輸出檢測結果,具有較高的運算效率,主網(wǎng)絡采用下采樣和反卷積的方式提取特征,主網(wǎng)絡結構存在提升空間。Zhang等[6]提出考慮點云稀疏性的三維目標檢測網(wǎng)絡,利用二維圖像生成遠距離目標語義分割結果,投影到點云場景中估計得到目標三維質(zhì)心,通過遠距離平截頭體網(wǎng)絡在單階段輸出包圍盒,優(yōu)化遠距離目標檢測結果。Yang等[7]提出基于像素級神經(jīng)網(wǎng)絡的定向三維目標檢測方法,采用點云鳥瞰圖作為輸入,通過二維卷積神經(jīng)網(wǎng)絡完成車輛目標概率預測和包圍盒回歸任務,該算法通過降維處理使得運算效率方面有明顯提升,但這種方式導致目標點云空間結構缺失,在特征提取方面仍有提升空間。二階段相關算法首先利用候選區(qū)域生成網(wǎng)絡計算目標候選區(qū)域,然后基于候選區(qū)域完成目標概率預測和包圍盒回歸任務。Chen等[8]提出一種三維目標多視圖檢測網(wǎng)絡,利用候選區(qū)域生成網(wǎng)絡得到激光點云鳥瞰視圖、前景視圖和圖像這3種數(shù)據(jù)來源的候選區(qū)域,將多模態(tài)特征圖融合作為二階段網(wǎng)絡輸入,完成目標概率預測和包圍盒回歸任務,該算法通過融合不同視圖特征提升召回率與檢測精度,但多視圖融合的處理方式使得計算效率降低。Ku 等[9]提出基于視圖聚合的聯(lián)合三維候選區(qū)域生成和對象檢測算法,相比MV3D去除了前景視圖的融合,利用三維錨盒匹配圖像和點云候選區(qū)域特征,并基于多尺度特征圖提高小目標檢測魯棒性。Chen 等[10]提出快速點卷積神經(jīng)網(wǎng)絡,在一階段采用體素化數(shù)據(jù)作為輸入并利用三維卷積網(wǎng)絡提取點云特征,在二階段通過注意力機制提升檢測效果,該算法計算效率較低。Li等[11]提出基于多傳感器稀疏特征融合的三維目標檢測網(wǎng)絡,分別提取三維點云和二維圖像的稀疏特征表示,利用門控機制逐點融合不同傳感器特征,并引入顏色監(jiān)督學習補充區(qū)域性特征,優(yōu)化融合算法檢測性能。Wang等[12]提出滑動平截頭體聚合局部逐點特征的三維檢測網(wǎng)絡,利用二維相機生成建議區(qū)域,并沿相機光軸在不同平面生成視椎體,將逐點特征轉換為視椎體向量提取特征,該算法較依賴一階段二維圖像提供的候選區(qū)域。
鑒于車輛目標檢測應兼顧檢測精度與運算效率的需求,考慮到文獻[7]提出的算法通過降維處理點云提升算法運行效率,本文在此基礎上進行改進,提出一種基于金字塔特征融合的二階段車輛目標檢測網(wǎng)絡算法。首先構建點云鳥瞰圖場景(Bird Eye View,BEV)將高度和強度信息保留到其余通道,利用二維卷積運算保證網(wǎng)絡運算效率,相較于已有研究需計算3 個維度滑動卷積核的點云體素化過程,這種處理方式的計算成本較低;接著考慮到文獻[7]的主網(wǎng)絡僅采用殘差層和兩次反卷積的方式提取特征,未將高層語義信息反向傳遞到包含位置信息的低層特征圖中,導致鳥瞰圖高低層特征圖信息提取不充分,使得局部點云結構理解出現(xiàn)偏差且位置預測誤差較大,因此本文對主網(wǎng)絡特征提取進行改進,受文獻[13]中圖像處理網(wǎng)絡算法特征傳遞方式啟發(fā),構建特征金字塔主網(wǎng)絡結構,以提升網(wǎng)絡對目標特征的表達能力并加速推理過程收斂,同時在預測網(wǎng)絡中融合多尺度特征圖,提高車輛目標檢測精度。
本文所提算法的整體網(wǎng)絡設計為二階段結構,采用三維點云鳥瞰圖作為網(wǎng)絡輸入,在文獻[7]的主網(wǎng)絡結構基礎上構建特征金字塔主網(wǎng)絡結構,該結構通過反卷積和橫向特征拼接的方式補充額外兩個上采樣塊,將高層語義特征進一步傳遞到低層特征圖中,增強網(wǎng)絡對點云局部結構特征的理解,同時利用卷積和橫向特征拼接的方式增加下采樣網(wǎng)絡分支,傳遞點云全局特征和位置特征,改進車輛目標位置預測精度;在預測網(wǎng)絡中采用多尺度特征融合的方式代替單一尺度特征圖,豐富不同感受野特征,提升車輛目標檢測魯棒性,并通過興趣區(qū)域聚集(Region Of Interest Align,ROI Align)層的雙線性插值特征計算方式對齊不同尺度特征,提高遠距離點云稀疏情況下目標檢測精度。此外,引入角度損失函數(shù)對車輛目標航向角損失進行加權,優(yōu)化目標包圍盒航向角預測結果。算法網(wǎng)絡結構如圖1所示。
圖1 整體網(wǎng)絡結構Fig.1 Structure of overall network
網(wǎng)絡輸入通過構建鳥瞰圖的方式將三維原始點云處理為多通道的二維特征圖表示。首先以自動駕駛主車輛行駛方向Y∈[0.0,70.0]m、水平方向X∈[-40.0,40.0]m 和垂直方向Z∈[-2.5,1.0]m 的范圍劃分待處理點云,得到長度L=80.0 m、寬度W=70.0 m和高度H=3.5 m的興趣區(qū)域,在長、寬、高這3個維度均以0.1 m的分辨率將興趣區(qū)域離散為800×700×35大小的張量。接著編碼每個體素單元的占用情況,體素單元內(nèi)存在點云時其值為1,不存在點云時則為0。反射強度數(shù)據(jù)通過標準化處理,以長0.1 m、寬0.1 m、高3.5 m 的柱狀區(qū)域為單位,分別將每個柱內(nèi)的反射強度數(shù)據(jù)歸一化映射到0~1內(nèi),以簡化后續(xù)運算,具體公式為
式中:T為反射強度輸入;T*為標準化后的反射強度值;μ為均值;σ為標準差。將點云占用張量與反射強度圖組合,得到尺寸為800×700×36 網(wǎng)絡的輸入表示,如圖2所示。
圖2 網(wǎng)絡輸入表示Fig.2 Representation of network input
主網(wǎng)絡的特征金字塔結構由殘差網(wǎng)絡、上采樣網(wǎng)絡分支、下采樣網(wǎng)絡分支組成。其中殘差網(wǎng)絡用于初步特征提取,得到淺層特征圖;上采樣網(wǎng)絡分支利用反卷積并橫向拼接同尺度殘差網(wǎng)絡特征圖的方式傳遞高層語義特征,補充局部點云空間結構關系;下采樣網(wǎng)絡分支利用卷積并橫向拼接同尺度上采樣網(wǎng)絡特征圖的方式傳遞低層位置特征,補充點云幾何特征與全局位置特征,具體如圖3所示,其中,虛線框區(qū)域為補充的上采樣層塊和下采樣網(wǎng)絡分支。網(wǎng)絡結構中,采用BatchNorm 層和ReLU函數(shù)對卷積層、池化層和反卷積層進行歸一化和激活,不同層間的參數(shù)以Conv2D(Cin,Cout,K,S)表示,其中,Cin為輸入特征圖通道數(shù),Cout為輸出特征圖通道數(shù),K表示卷積核,S表示步幅。
圖3 主網(wǎng)絡結構Fig.3 Representation of network input
殘差網(wǎng)絡由以下4 個層塊組成:第1 個層塊首先通過1 個Conv2D(36,128,3,1)卷積層將通道數(shù)調(diào)整至128,提取多通道特征,再采用3 個Conv2D(128,128,3,1)卷積層用于初步提取特征映射,得到特征圖R1;第2~4個層塊由3個結構相同的殘差塊組成,各殘差塊首先通過1 個Conv2D(128,256,3,2)的池化層實現(xiàn)特征圖下采樣,再利用4個Conv2D(256,256,3,1)的卷積層提取不同特征映射,分別得到特征圖R2、R3、R4。殘差網(wǎng)絡最終特征圖R4實現(xiàn)8倍下采樣。
上采樣網(wǎng)絡分支通過上采樣和拼接殘差網(wǎng)絡特征圖的方式傳遞高層語義特征:首先通過Conv2D(256,128,1,1)卷積層調(diào)整特征圖R4通道數(shù),得到上采樣網(wǎng)絡特征圖輸入U4;接著利用上采樣塊實現(xiàn)特征圖上采樣和橫向特征圖拼接,如圖4(a)所示,對特征圖U4作步長為2的反卷積得到與特征圖R3尺寸相同的特征映射U4′,并將U4′與R3進行拼接,再通過1 個Conv2D(384,256,1,1)卷積層降低通道數(shù),得到特征圖U3;進一步利用卷積層為Conv2D(512,256,1,1)的上采樣塊得到具有強位置信息的低層特征圖U2、U1。
下采樣網(wǎng)絡分支通過下采樣和拼接上采樣分支特征圖的方式將低層位置特征傳遞:首先通過Conv2D(512,256,1,1)卷積調(diào)整層特征圖U1通道數(shù),得到下采樣網(wǎng)絡特征圖輸入D1;接著利用下采樣塊實現(xiàn)特征圖下采樣和橫向特征圖拼接,如圖4(b)所示,通過步長為2的池化層對特征圖D1進行下采樣得到特征圖D1′,并利用1 個Conv2D(256,256,3,1)的卷積層提取特征,將上采樣網(wǎng)絡中相同尺寸的特征圖U2進行拼接,再采用1 個Conv2D(512,256,1,1)卷積層降低通道數(shù),得到特征圖D2;進一步通過下采樣塊分別得到特征圖D3、D4。
圖4 采樣塊結構Fig.4 Structure of sampling block
本文利用二維卷積網(wǎng)絡提取鳥瞰圖特征,最終輸出特征圖通道數(shù)為256。而文獻[4]構建的三維卷積網(wǎng)絡在3個維度進行滑動卷積核運算,將垂直高度劃分為10 個單位,且垂直方向卷積核為3,即輸入?yún)?shù)Conv3D (Cin,Cout,K,S,P),可表示為Conv3D(128,512,(3,3,3),(3,1,1),(1,1,1)),其中,P為零填充。若將該三維卷積應用于本文金字塔特征網(wǎng)絡,需額外計算垂直維度數(shù)據(jù),最終輸出特征圖通道數(shù)為1024。對比文獻[4]與本文輸出特征圖通道數(shù)可知,利用二維卷積運算能夠有效降低計算成本。
車輛目標預測網(wǎng)絡分支利用候選區(qū)域生成網(wǎng)絡提取不同尺度特征圖的候選區(qū)域,基于ROI Align 層對齊不同尺度特征圖的候選區(qū)域,進一步融合各感受野特征圖,提取更豐富的上下文信息,最終通過全連接層得到特征向量,輸出車輛目標預測結果。該網(wǎng)絡分支主要包括特征圖候選區(qū)域提取、候選區(qū)域特征融合與預測輸出這3 個模塊,如圖5所示。
圖5 車輛目標預測網(wǎng)絡分支Fig.5 Network branch for vehicle target prediction
特征圖候選區(qū)域提取模塊通過候選區(qū)域生成網(wǎng)絡提取主網(wǎng)絡下采樣分支各下采樣塊輸出多尺度特征圖{D1,D2,D3,D4} 的候選區(qū)域。候選區(qū)域融合模塊首先將不同尺寸的候選區(qū)域統(tǒng)一為固定尺寸,便于后續(xù)全連接層提取特征向量,接著采用文獻[14]提出的ROI Align層調(diào)整候選區(qū)域大小,得到相同尺寸的候選區(qū)域Pi∈{P1,P2,P3,P4}。相比傳統(tǒng)ROI Pooling 層(興趣區(qū)域池化)特征值取整的方式,ROI Align 層利用雙線性插值獲得浮點坐標特征值,能夠在目標較小時提取更精細的特征。融合不同尺度特征圖,結合低層特征中點云間結構特征和高層特征中的語義特征,以豐富車輛目標全局特征提取,具體如圖6所示。
圖6 多尺度特征融合Fig.6 Fusion of multiscale feature
進一步利用全連接層提取各相同尺寸候選區(qū)域Pi的特征向量Fi∈{F1,F2,F3,F4},融合各特征向量,得到包含多尺度上下文信息的全局特征向量Fg,進行最終的分類和回歸任務。分類任務輸出車輛目標置信度,回歸任務回歸得到包圍盒參數(shù)信息,包括包圍盒中心點坐標x、y,包圍盒的寬w和長l,以及航向角的余弦值cosθ、正弦值sinθ,航向角由包圍盒中心點沿長邊方向與迪卡爾坐標系橫坐標軸夾角得出。
本文采用多任務損失函數(shù)計算檢測結果與真實值間的誤差,具體包括分類損失Lcls、回歸損失Lreg以及角度損失Lang。其中,Lcls用于計算檢測目標的分類;Lreg損失用于計算包圍盒長、寬,以及中心點坐標;Lang用于計算目標的航向角。總損失為3 種損失函數(shù)之和,相比文獻[7]中的算法,本文對不同損失函數(shù)設置相應權重值,合理分配計算權重。
(1)分類損失
文獻[7]采用交叉熵損失訓練網(wǎng)絡的分類損失,而實際檢測場景中前景、背景區(qū)域的比例相差較大,無法合理分配訓練過程中正負樣本的權重。為此,本文采用焦點損失函數(shù)訓練網(wǎng)絡的分類損失,以優(yōu)化訓練樣本的權重,即
式中:p為分類置信度輸出;u為真實值;λ和φ為可調(diào)整超參數(shù),設置為λ=0.25,φ=2。
(2)回歸損失
回歸損失包括包圍盒長、寬損失回歸和包圍盒中心點坐標偏移量回歸。
式中:r為誤差項,包括(dx,dy,dw,dl),即網(wǎng)絡實際輸出值與真實值的偏差。
(3)角度損失
利用回歸損失對包圍盒航向角正弦值和余弦值的偏差進行計算。
式中:θ為航向角檢測結果;為航向角真實值。
網(wǎng)絡總損失為分類損失、回歸損失和角度損失加權之和,即
式中:α、β、γ分別為分類損失、回歸損失和角度損失的加權系數(shù),考慮分類損失在學習特征過程給定更高權重能夠加速網(wǎng)絡收斂,且回歸損失和角度損失影響最終收斂的準確性,所以將加權系數(shù)分別設為α=1、β=10、γ=5。
硬件設備采用NVIDIA RTX 3060 GPU 和AMD R5 5600X CPU在Ubuntu16.04系統(tǒng)下完成網(wǎng)絡的訓練和測試。網(wǎng)絡架構基于Pytorch 框架搭建,網(wǎng)絡訓練采用Adam優(yōu)化器。網(wǎng)絡參數(shù)的設置包括:批量大小為4,初始學習率為0.001,動量為0.9,衰減步長為150 k,衰減系數(shù)為0.3,總迭代周期數(shù)為12輪次,每2輪保存訓練結果。
KITTI 數(shù)據(jù)集是研究無人駕駛環(huán)境感知技術最常用的公開數(shù)據(jù)集之一,包含豐富激光雷達、攝像頭、GPS 等傳感器數(shù)據(jù),且KITTI 數(shù)據(jù)集在真實城市交通場景中采集包含不同程度的遮擋情況和各種天氣狀況,便于驗證算法有效性,因此本文采用KITTI 公開數(shù)據(jù)集用于網(wǎng)絡訓練和性能評估。KITTI 激光雷達目標檢測數(shù)據(jù)集采用Velodyne HDL-64E激光雷達,在10 Hz的采樣頻率下對城市道路交通場景點云數(shù)據(jù)進行采集。本文采用點云數(shù)據(jù)集包括7841 frame訓練集數(shù)據(jù)和7519 frame測試集數(shù)據(jù),數(shù)據(jù)集按目標在視野中被遮擋的不同程度劃分為簡單、中等和困難這3種等級。其中訓練集數(shù)據(jù)包含目標類別和目標框參數(shù)真實值,具體參數(shù)包括目標框長、寬、高尺寸,中心點坐標以及航向角,用于網(wǎng)絡訓練的損失計算。測試集數(shù)據(jù)不包含真實值,用于評估網(wǎng)絡的檢測性能與運行效率??紤]待檢測目標為車輛,本文的訓練與檢測過程僅采用數(shù)據(jù)集中的汽車類別。
考慮到KITTI中訓練數(shù)據(jù)不足,為更好地訓練網(wǎng)絡,增加數(shù)據(jù)增強模塊以豐富訓練樣本,即在數(shù)據(jù)集中選取1 frame 點云,在X軸和Y軸方向上以給定[-3,3]m 范圍內(nèi)的隨機偏移量進行偏移,以[0.75,1.25]范圍內(nèi)的隨機比例因子進行放縮,采用[-4.5,4.5]范圍內(nèi)的隨機角度進行旋轉。將訓練數(shù)據(jù)集分為3部分,分別通過3 種數(shù)據(jù)增強方式對數(shù)據(jù)集進行處理,最終將總體數(shù)據(jù)擴充至15682 frame,更大的樣本集合使網(wǎng)絡訓練更充分,同時也能夠提高網(wǎng)絡的泛化能力。本實驗隨機選取3920 frame 擴充后的訓練集數(shù)據(jù)作為驗證集用于本地評估,其余11762 frame用于網(wǎng)絡訓練。
為驗證預測網(wǎng)絡的車輛目標檢測性能,將交并比(Intersection Over Union,IoU)閾值為0.7 的平均精度均值(Mean Average Precision,mAP)設定為預測模型優(yōu)劣的評估標準,大于等于IoU閾值的檢測結果認為是正確檢測,否則為錯誤檢測,進一步通過計算準確率——召回率(Precision-Recall,PR)曲線下包圍面積得到預測模型的平均精度。準確率與召回率的計算公式為
式中:XTP為True Positive,即正確檢測的正樣本;XFP為False Positive,即錯誤檢測的正樣本;XFN為False Negative,即錯誤檢測的負樣本;P為準確率,表示正樣本中正確檢測的比例;R為召回率,表示分類正確的正樣本數(shù)量。
利用KITTI 鳥瞰圖測試集對本文網(wǎng)絡性能進行測試,網(wǎng)絡輸出的檢測結果如圖7所示,其中虛線框表示真實目標框,實線框表示預測目標框,陰影框為漏檢目標框。檢測結果表明:本文提出的基于金字塔特征融合的車輛檢測網(wǎng)絡算法能夠精準檢測簡單、中等難度下的車輛目標,如圖7(a)、(b)所示;對于困難難度下的車輛目標檢測任務,多尺度特征圖融合處理使本文車輛檢測網(wǎng)絡算法具有更高的魯棒性,能夠克服部分遮擋和點云稀疏干擾完成檢測工作,如圖7(c)所示;但在目標遮擋非常嚴重的情況下,存在漏檢情況,如圖7(d)中陰影框所示;同一幀點云場景下,相較圖7(f)中文獻[7]算法檢測得到的航向角預測結果,本文算法通過補充航向角損失函數(shù)使點云航向角預測結果更為精準,如圖7(e)所示。
圖7 KITTI驗證集檢測結果Fig.7 Detection result on KITTI validation dataset
實驗選取基于激光點云數(shù)據(jù)的網(wǎng)絡Yang等[7]、Lang 等[5]、Zhou 等[4]、Chen 等[10],以及基于激光點云和圖像融合數(shù)據(jù)的網(wǎng)絡Zhang 等[6]、Chen 等[8]、Ku等[9]、Li等[11]和Wang等[12]作為對比網(wǎng)絡,利用KITTI測試集進行BEV 目標檢測,具體檢測結果如表1所示。
表1 KITTI鳥瞰圖測試集下各網(wǎng)絡性能比較Table 1 Comparison of networks performance under KITTI BEV test dataset
由表1可知:相較文獻[7]提出的基準網(wǎng)絡,本文在3 種不同難度下平均檢測精度提升了5.07%~8.59%,且精度優(yōu)于Lang 等[5]提出的以偽圖像為網(wǎng)絡輸入的算法,說明本文主網(wǎng)絡補充目標語義、位置特征模塊能夠有效提高網(wǎng)絡檢測性能;相較Zhou等[4]、Chen等[10]提出的算法以原始三維點云作為網(wǎng)絡輸入,本文特征補充模塊能夠彌補點云降維處理造成的空間結構缺失劣勢,優(yōu)化以多通道二維數(shù)據(jù)作為輸入的網(wǎng)絡檢測結果,這種降維處理方式推理效率高,使改進后的網(wǎng)絡仍能夠滿足實時性需求,在當前實驗設備條件下單幀處理效率達到0.047 s,即21 frame·s-1,在處理性能更優(yōu)的實驗平臺進行計算預計能夠得到更高的運算效率;相較Zhang 等[6]、Chen 等[8]、Ku 等[9]、Li 等[11]和Wang 等[12]提出的算法將圖像和點云數(shù)據(jù)融合處理作為網(wǎng)絡輸入,本文算法僅采用點云數(shù)據(jù)做處理,運行效率明顯優(yōu)于融合算法,且檢測精度與融合算法相當,其中Zhang等[6]提出的算法針對遠距離目標做額外圖像語義分割進行補充,使得困難難度下目標檢測精度略優(yōu)于本文算法,但由于需要對遠近目標分別計算,導致整體網(wǎng)絡檢測效率較低。
在0.7 IoU 下繪制3 種檢測范圍相應的PR 曲線,以驗證不同點云稀疏程度下檢測模型的性能表現(xiàn),本文網(wǎng)絡與文獻[7]中基準網(wǎng)絡的PR 曲線如圖8所示??梢钥闯?,本文提出的檢測網(wǎng)絡分支通過引入多尺度特征圖融合模塊提升了車輛目標檢測魯棒性,使不同檢測范圍內(nèi)車輛目標召回率均有提升。此外,主網(wǎng)絡通過補充額外語義、位置特征使得相同召回率下車輛目標檢測精度更高。
圖8 車輛目標檢測PR曲線對比Fig.8 Comparison of PR curve for vehicle target detection
為驗證本文算法各改進模塊對整體檢測性能的影響,本節(jié)單獨對每一個改進模塊進行消融實驗。
2.4.1 主網(wǎng)絡改進影響
本文主網(wǎng)絡模塊在殘差網(wǎng)絡基礎上補充上采樣分支和下采樣分支以充分利用高層特征圖的語義信息和低層特征圖的位置信息。為驗證主網(wǎng)絡模塊的性能,將主網(wǎng)絡分別替換為僅采用殘差網(wǎng)絡、在殘差網(wǎng)絡基礎上補充上采樣網(wǎng)絡分支,并將這兩種網(wǎng)絡結構的特征圖輸出傳遞到預測網(wǎng)絡分支,選取KITTI 驗證集做性能評估實驗,得到不同主網(wǎng)絡結構的檢測精度如表2所示。實驗結果表明,相較僅采用殘差網(wǎng)絡進行車輛目標特征提取,本文引入上采樣分支補充語義信息使得不同難度檢測任務的檢測精度平均提升4.15%,在簡單難度下的提升不明顯;相較殘差+上采樣的網(wǎng)絡結構,進一步補充下采樣網(wǎng)絡使簡單難度下的平均精度提升了8.57%,同時中等難度下的檢測精度提升6.28%,說明充分利用位置信息能夠在點云密集的情況下有效提升檢測精度。相較僅采用殘差網(wǎng)絡,本文通過補充上采樣和下采樣網(wǎng)絡分支的特征金字塔結構使不同難度下的檢測精度平均提升了10.26%。
表2 不同主網(wǎng)絡結構消融研究Table 2 Ablation study of different backbone network architectures
2.4.2 預測網(wǎng)絡分支影響
文獻[7]中基準網(wǎng)絡僅利用主網(wǎng)絡的單一尺度特征圖完成對車輛目標的分類和回歸任務,本文通過設計預測網(wǎng)絡分支,融合多尺度特征圖提取豐富上下文信息,輸出目標預測結果。為分析預測網(wǎng)絡分支帶來的性能提升,將預測網(wǎng)絡分支替換為文獻[7]中基準網(wǎng)絡的卷積網(wǎng)絡輸出預測結果,并進一步將預測網(wǎng)絡分支中ROI Align層替換為ROI Pooling層,對比兩種特征圖尺寸處理模塊的性能優(yōu)劣,實驗選取KITTI驗證集做評估,不同預測網(wǎng)絡分支組成如表3所示。結果表明,相較于僅采用單一尺度特征圖實現(xiàn)分類回歸任務,本文提出的多尺度特征融合的處理方式能夠提升不同難度下的檢測精度,尤其是簡單難度下,本文基于ROI Align 層的特征融合處理方式使檢測平均精度提升了10.16%。同時從實驗結果能夠發(fā)現(xiàn):基于ROI Align 層和ROI Pooling 層的特征圖處理方式,對檢測結果的影響在簡單和中等難度下相當;困難難度下,由于ROI Align 層利用雙線性插值獲得浮點坐標特征值,能夠更精確計算距離較遠的目標,相比利用ROI Pooling層特征圖處理方式精度提高了2.32%。
表3 不同預測網(wǎng)絡分支結構消融研究Table 3 Ablation study of different prediction network branch architectures
2.4.3 航向角損失影響
相比文獻[7]中基準網(wǎng)絡的損失函數(shù),本文引入航向角損失對車輛目標航向角偏差單獨計算并加權到總損失函數(shù)中。采用文獻[15]提出的航向角加權平均精度計算航向角損失函數(shù)對預測結果的影響,實驗選取KITTI 驗證集做評估,航向角加權預測平均精度結果如表4所示。結果表明,本文算法在不同難度任務下引入航向角損失函數(shù)能夠?qū)崿F(xiàn)更精準的角度預測,且在點云較稀疏的困難難度下預測精度提升更為明顯,達到4.53%。
表4 損失函數(shù)消融研究Table 4 Ablation study of loss function
針對三維點云鳥瞰圖空間結構缺失,車輛目標特征提取不充分,導致檢測精度欠佳問題,本文通過構建金字塔主網(wǎng)絡結構傳遞高層語義信息和低層位置信息,并利用候選區(qū)域提取層和ROI Align層對齊不同尺度特征圖的候選目標,最后通過全連接層融合不同尺度特征,實現(xiàn)檢測精度更高的點云鳥瞰圖車輛目標檢測。實驗結果表明:額外的高層語義信息和低層位置信息能夠有效補充點云鳥瞰圖車輛目標特征的提取,提高車輛目標檢測性能;融合多尺度特征圖使車輛目標檢測更具魯棒性,在遠距離點云稀疏或存在遮擋的目標檢測工作仍具有較高的召回率;損失函數(shù)中加權正余弦角度損失能夠使車輛目標的航向角預測更加精準。