詹為欽,倪蓉蓉,楊 彪
(1.常州大學(xué) 信息科學(xué)與工程學(xué)院,江蘇 常州 213164;2.常州紡織服裝職業(yè)技術(shù)學(xué)院 能源管理科,江蘇 常州 213164)
深度神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了突破性進(jìn)展,以傳統(tǒng)機(jī)器學(xué)習(xí)算法為主導(dǎo)的二維目標(biāo)檢測(cè)算法正被深度神經(jīng)網(wǎng)絡(luò)算法[1]所取代.基于深度神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法在檢測(cè)精度和識(shí)別率方面都優(yōu)于傳統(tǒng)目標(biāo)檢測(cè)算法.人們也在嘗試將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用在其他檢測(cè)領(lǐng)域.自動(dòng)駕駛是三維目標(biāo)檢測(cè)領(lǐng)域的前沿應(yīng)用方向,車(chē)輛在自動(dòng)駕駛過(guò)程中,需要對(duì)周?chē)能?chē)輛、行人等目標(biāo)進(jìn)行檢測(cè)和行為預(yù)測(cè).
傳統(tǒng)二維圖片檢測(cè)算法,使用車(chē)載相機(jī)作為數(shù)據(jù)來(lái)源,依賴(lài)外部光源,且無(wú)法精確定位目標(biāo)車(chē)輛、人物的距離、位置、深度和角度等信息.由車(chē)載激光雷達(dá)所生成的三維點(diǎn)云數(shù)據(jù),則包含了目標(biāo)對(duì)象的位置、距離、深度和角度等信息,數(shù)據(jù)構(gòu)成更符合真實(shí)情況.車(chē)載激光雷達(dá)具有測(cè)距準(zhǔn)、無(wú)需可見(jiàn)光等優(yōu)點(diǎn).基于點(diǎn)云數(shù)據(jù)集的目標(biāo)檢測(cè)算法可以為自動(dòng)駕駛系統(tǒng)提供目標(biāo)對(duì)象的準(zhǔn)確空間方位、速度等信息.因此研究基于點(diǎn)云數(shù)據(jù)的三維目標(biāo)檢測(cè)十分必要.
三維目標(biāo)檢測(cè)算法可分為單步檢測(cè)算法和雙步檢測(cè)算法.單步檢測(cè)算法通過(guò)使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)鳥(niǎo)瞰圖提取特征來(lái)實(shí)現(xiàn).具有實(shí)現(xiàn)簡(jiǎn)單、檢測(cè)速度快等優(yōu)點(diǎn).但在將點(diǎn)云數(shù)據(jù)轉(zhuǎn)化為鳥(niǎo)瞰圖時(shí),會(huì)造成目標(biāo)空間特征信息丟失.文獻(xiàn)[2]將點(diǎn)云數(shù)據(jù)劃分為一定數(shù)量的體素,使用體素特征編碼層提取局部特征,再使用三維卷積層和區(qū)域候選網(wǎng)絡(luò)對(duì)目標(biāo)分類(lèi)和回歸.文獻(xiàn)[3]通過(guò)在文獻(xiàn)[2]網(wǎng)絡(luò)中添加稀疏卷積層的方法,提高了網(wǎng)絡(luò)的整體檢測(cè)速度以及檢測(cè)效果.文獻(xiàn)[4]將檢測(cè)最小單元從文獻(xiàn)[2]中的體素改為柱,通過(guò)柱特征網(wǎng)絡(luò)提取柱內(nèi)點(diǎn)云特征并生成偽圖,最后通過(guò)區(qū)域候選網(wǎng)絡(luò)和單步多尺度檢測(cè)網(wǎng)絡(luò)實(shí)現(xiàn)目標(biāo)檢測(cè)任務(wù).單步檢測(cè)速度較快,精度適中,在車(chē)載嵌入式領(lǐng)域有廣泛的應(yīng)用.文獻(xiàn)[5]對(duì)RGB圖像使用檢測(cè)算法以生成若干個(gè)目標(biāo)建議區(qū),接著在對(duì)應(yīng)點(diǎn)云數(shù)據(jù)上延軸線(xiàn)生成若干個(gè)截錐體塊,最后對(duì)每個(gè)截錐體塊采用文獻(xiàn)[6]的方法提取特征并輸出檢測(cè)結(jié)果.雙步檢測(cè)算法由于需要同時(shí)檢測(cè)RGB圖像和點(diǎn)云數(shù)據(jù),因此檢測(cè)速度通常慢于單步檢測(cè)算法,而檢測(cè)精度一般高于單步檢測(cè)算法.
注意力機(jī)制可以對(duì)網(wǎng)絡(luò)的輸入數(shù)據(jù)按不同部分賦予權(quán)重,抽取其中關(guān)鍵信息,抑制不重要信息.幫助網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù)中的重要信息,以做出更加準(zhǔn)確的判斷.注意力模塊計(jì)算要求低,不會(huì)給算法的訓(xùn)練、運(yùn)行、計(jì)算和存儲(chǔ)帶來(lái)太多額外開(kāi)銷(xiāo).文獻(xiàn)[7]對(duì)通道重新加權(quán),模塊首先對(duì)輸入(H×W×C1)使用壓縮操作,輸出大小為(1×1×C1)的特征圖;接著使用提取操作,另參數(shù)ω學(xué)習(xí)C1個(gè)通道間的相關(guān)性,生成(1×1×C2)的特征圖;最后輸出堆疊后的特征圖(H×W×C2),C2即為加權(quán)后通道值.文獻(xiàn)[8]結(jié)合通道注意力和空間注意力2種注意力機(jī)制,重新加權(quán)通道和空間位置,并通過(guò)自主學(xué)習(xí)的方式學(xué)習(xí)每個(gè)特征空間的重要性程度.目前注意力模塊被廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理等相關(guān)領(lǐng)域.
為進(jìn)一步提取偽圖中特征信息,筆者在文獻(xiàn)[4]檢測(cè)算法基礎(chǔ)上提出一種基于注意力機(jī)制的PointPillars+三維目標(biāo)檢測(cè)算法,算法引入空間注意力模塊及通道注意力模塊.使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)注意力模塊輸出結(jié)果進(jìn)行處理,并使用SSD (single shot multibox detector)[9]算法進(jìn)行三維目標(biāo)檢測(cè).
PointPillars+注意力模型如圖1所示,網(wǎng)絡(luò)輸入點(diǎn)云數(shù)據(jù)集,計(jì)算并得出目標(biāo)的預(yù)測(cè)結(jié)果.網(wǎng)絡(luò)主要分為4個(gè)部分:① 柱特征網(wǎng)絡(luò),在三維空間中對(duì)點(diǎn)云數(shù)據(jù)按等尺寸柱均勻劃分,并提取柱內(nèi)點(diǎn)云特征生成偽圖;② 注意力模塊,對(duì)偽圖特征數(shù)據(jù)更進(jìn)一步加工(特征的放大和抑制);③ Backbone模塊,將經(jīng)過(guò)注意力模塊處理過(guò)的偽圖進(jìn)行多尺度的特征提??;④ 檢測(cè)模塊,負(fù)責(zé)目標(biāo)對(duì)象的檢測(cè),三維邊界框的生成和回歸.
圖1 PointPillars+注意力模型
首先對(duì)點(diǎn)云數(shù)據(jù)進(jìn)行劃分,點(diǎn)云數(shù)據(jù)中的點(diǎn)L用(x,y,z)表示.柱特征網(wǎng)絡(luò)將點(diǎn)云數(shù)據(jù)均勻分布在基于Oxy平面的網(wǎng)格中.由這些網(wǎng)格組成1組柱集合,即柱Pillars.柱Pillars在z軸上沒(méi)有高度限制.點(diǎn)L添加rf,xm,ym,zm,xp,yp信息來(lái)增強(qiáng)表示,rf為反射率;xm,ym,zm分別為點(diǎn)L到柱中所有點(diǎn)的算術(shù)平均值距離;xp,yp分別為點(diǎn)L距柱中心(x,y)的方向偏離.因此網(wǎng)絡(luò)中的1個(gè)點(diǎn)L由9維特征表示.點(diǎn)云數(shù)據(jù)集具有稀疏性,空間中大部分的柱都為空柱,少數(shù)非空柱也只有很少的點(diǎn).點(diǎn)云數(shù)據(jù)使用0~97%的稀疏度,通過(guò)對(duì)每個(gè)樣本的非空柱數(shù)(P)和每個(gè)柱的點(diǎn)數(shù)(N)實(shí)施限制來(lái)利用這種稀疏度(D),以此產(chǎn)生尺度為(D,P,N)的疏密度張量.如果樣本或柱中保留過(guò)多數(shù)據(jù),則通過(guò)隨機(jī)采樣保留數(shù)據(jù)以適應(yīng)張量.相反,如果樣本或柱中數(shù)據(jù)過(guò)少,則使用0填充張量.接著使用類(lèi)似PointNet[6]的網(wǎng)絡(luò),使每個(gè)點(diǎn)通過(guò)線(xiàn)性層、BatchNorm層和ReLU層,輸出大小為(C,P,N)的張量.對(duì)通道C使用最大化操作,得到大小為(C,P)的張量.線(xiàn)性層可以用卷積核為1×1的卷積層替代,這種替代方法可以提高計(jì)算效率.最后,特征被按照原始柱的位置組合堆積起來(lái),形成大小為(C,H,W)的偽圖,其中,H和W分別為偽圖的高度和寬度.生成偽圖后,送入注意力模塊,對(duì)偽圖中特征進(jìn)行處理.
注意力模塊的主要功能:期望通過(guò)添加注意力機(jī)制來(lái)增加數(shù)據(jù)的表征能力,使網(wǎng)絡(luò)學(xué)習(xí)偽圖特征中的重要信息并抑制不重要的信息.注意力機(jī)制是受人的行為特點(diǎn)啟發(fā)所發(fā)明,當(dāng)人們需要做出決定時(shí),會(huì)有選擇性地使用數(shù)據(jù)中重要的部分作為判斷的主要依據(jù).與之類(lèi)似,人工模型在處理問(wèn)題時(shí),不會(huì)平等地處理所有數(shù)據(jù),而是只關(guān)注其中重要數(shù)據(jù),這一過(guò)程稱(chēng)為注意力機(jī)制.當(dāng)處理的問(wèn)題是輸入本身時(shí),通常稱(chēng)為自我注意力.自我注意力對(duì)于網(wǎng)絡(luò)學(xué)習(xí)給定任務(wù)十分有意義.例如,在分類(lèi)任務(wù)下,自我注意力以關(guān)注信息特征的形式表現(xiàn)出來(lái).假設(shè)輸入特征圖F∈RC×H×W,參考CBAM[8]注意力模型將F分為一維的通道注意力Mc∈RC×1×1和二維的空間注意力Ms∈R1×H×W.整個(gè)注意力處理過(guò)程如下:
F′=Mc(F)?F,
(1)
F″=Ms(F′)?F′,
(2)
式中:F′為經(jīng)過(guò)通道注意力加工后的數(shù)據(jù);F″為經(jīng)過(guò)空間注意力加工后的數(shù)據(jù);?為逐元素乘法.
1.2.1通道注意力
模塊采用通道內(nèi)部間的特征關(guān)系來(lái)產(chǎn)生通道注意力,如圖2所示.由于每個(gè)通道的特征圖都被看作特征探測(cè)器,因此通道注意力主要試圖找出輸入數(shù)據(jù)中“有意義”的部分.為了提高計(jì)算通道注意力的效率,對(duì)輸入數(shù)據(jù)的空間維度進(jìn)行了壓縮.為了匯總空間信息,通道注意力同時(shí)采用了最大池化和平均池化來(lái)聚合特征圖的空間信息,分別用Fcmax,Fcavg表示.接著將上述信息轉(zhuǎn)入共享網(wǎng)絡(luò)中以產(chǎn)生通道注意力Mc∈RC×1×1.共享網(wǎng)絡(luò)由單隱層的多層感知機(jī)組成,為了減少參數(shù)開(kāi)銷(xiāo),隱藏層激活大小設(shè)置為R(C/r)×1×1,其中r為縮減比例.在這之后使用逐元素相加法,輸出合并后的特征向量.通道注意力[8]為
Mc(F)=σ{MLP[AvgPool(F)+MaxPool(F)]}=
σ{W1[W0(Fcavg)]+W1[W0(Fcmax)]},
(3)
式中:MLP為多層感知機(jī);AvgPool為平均池化;MaxPool為最大池化;σ為sigmoid函數(shù);W0,W1均為多層感知機(jī)的可學(xué)習(xí)參數(shù),W0∈R(C/r)×C,W1∈RC×(C/r).
圖2 通道注意力
1.2.2空間注意力
模塊利用特征的內(nèi)部空間關(guān)系生成空間注意力,如圖3所示.與通道注意力不同,空間注意力更關(guān)注信息的具體位置,是對(duì)通道注意力的補(bǔ)充.為了計(jì)算空間注意力,在通道注意力之后依次進(jìn)行平均池化和最大池化,通過(guò)2個(gè)池化操作,依次生成2個(gè)二維特征圖:Fsavg,Fsmax.接著將兩者連接起來(lái)輸入卷積層,生成Ms∈R1×H×W.
圖3 空間注意力
空間注意力[8]計(jì)算如下:
Ms(F)=σ{f7×7[AvgPool(F);MaxPool(F)]}=
σ{f7×7[Fsavg;Fsmax]},
(4)
式中:f7×7為7×7的卷積核卷積操作.
Backbone模塊分為下采樣網(wǎng)絡(luò)和上采樣連接網(wǎng)絡(luò).下采樣網(wǎng)絡(luò)可由一系列(S,H,O)的塊表示,其中:S為步長(zhǎng);O為輸出通道數(shù);H為3×3的二維卷積層層數(shù).每個(gè)通道后都接有BatchNorm層和ReLU層,層內(nèi)的第1個(gè)卷積具有步幅S/Sin,以確保網(wǎng)絡(luò)層在接收到步長(zhǎng)Sin的輸入后,仍保持為S.層中的后續(xù)卷積步長(zhǎng)均為1,3層的通道數(shù)分別為64,128,256.下采樣網(wǎng)絡(luò)可以產(chǎn)生依次減小的空間分辨率.上采樣連接網(wǎng)絡(luò)Up(Sin,Sout,SF)從初始步幅Sin到最后步幅Sout并得到最終特征SF,和下采樣網(wǎng)絡(luò)相同,上采樣網(wǎng)絡(luò)后都接有BatchNorm層和ReLU層.最終輸出來(lái)自不同步長(zhǎng)的所有模塊連接.
檢測(cè)模塊采用了SSD進(jìn)行目標(biāo)檢測(cè),SSD是典型的單步檢測(cè)算法,檢測(cè)速度快,精度高.SSD網(wǎng)絡(luò)中引入了錨的思想,可以適應(yīng)多尺度的目標(biāo)檢測(cè)任務(wù),較為符合點(diǎn)云數(shù)據(jù)尺度變換較大的特點(diǎn).SSD主要分為6個(gè)模塊,第1個(gè)模塊由VGG16的前5層Conv1-Conv5卷積層組成,接著將VGG16中的FC6,FC7全連接層轉(zhuǎn)變?yōu)镃onv6,Conv7卷積層為第2模塊,在此基礎(chǔ)上,又添加了Conv8,Conv9,Conv10和Conv11卷積層4個(gè)模塊,以此提取不同尺度下的目標(biāo)信息,最后進(jìn)行目標(biāo)分類(lèi)檢測(cè)和非極大值抑制回歸位置操作.非極大值抑制使用了二維IoU[10],將先驗(yàn)邊界框與真實(shí)目標(biāo)相匹配.提出的SSD檢測(cè)算法可以替換成其他檢測(cè)算法,如Faster R-CNN[1]等.
參考文獻(xiàn)[4]設(shè)置損失函數(shù).真實(shí)目標(biāo)的邊界框由(x,y,z,w,l,h,θ)表示,其中:x,y,z為邊界框中心坐標(biāo);w,l,h分別為邊界框的寬度、長(zhǎng)度和高度;θ為邊界框繞z軸的偏航旋轉(zhuǎn)角度.目標(biāo)和錨點(diǎn)之間的線(xiàn)性回歸殘差定義為
(5)
因此總的定位損失函數(shù)為
(6)
式中:SmoothL1為L(zhǎng)1平滑函數(shù).
因?yàn)槎ㄎ粨p失無(wú)法區(qū)分邊界框是否翻轉(zhuǎn),因此使用Ldir在離散方向上學(xué)習(xí)邊界框方向.分類(lèi)損失使用focalloss損失函數(shù),即
Lcls=-αa(1-Pa)γlogPa,
(7)
式中:Pa為錨點(diǎn)的概率值;αa=0.25;γ=2.
總的損失函數(shù)為
(8)
式中:Npos為正概率錨數(shù);βloc=2;βcls=1;βdir=0.2.
損失函數(shù)使用的是Adam優(yōu)化器,初始學(xué)習(xí)率為2×10-4,每15個(gè)周期衰變?yōu)楫?dāng)前學(xué)習(xí)率的0.8倍,試驗(yàn)參數(shù)均來(lái)自文獻(xiàn)[4],并使用KITTI[11]官方點(diǎn)云數(shù)據(jù)集,通過(guò)兩折交叉驗(yàn)證法證實(shí)參數(shù)有效性.
試驗(yàn)數(shù)據(jù)來(lái)自KITTI[11]官網(wǎng),它是目前自動(dòng)駕駛領(lǐng)域最重要的數(shù)據(jù)集之一.由德國(guó)卡爾斯魯厄理工學(xué)院和豐田美國(guó)技術(shù)研究院聯(lián)合建立.KITTI數(shù)據(jù)集包含點(diǎn)云和圖像數(shù)據(jù).數(shù)據(jù)集內(nèi)包含市區(qū)、鄉(xiāng)村和高速公路等真實(shí)駕駛場(chǎng)景的數(shù)據(jù)圖像.每張圖像中最多包括15輛車(chē)和30個(gè)行人,以及不同程度的遮擋物等.在訓(xùn)練過(guò)程中只使用KITTI點(diǎn)云數(shù)據(jù).根據(jù)慣例,將數(shù)據(jù)集劃分為7 481個(gè)訓(xùn)練集和7 518個(gè)測(cè)試集.在訓(xùn)練過(guò)程中,又將訓(xùn)練集分為3 712個(gè)訓(xùn)練樣本和3 769個(gè)驗(yàn)證樣本.
試驗(yàn)環(huán)境為Ubuntu 16.04操作系統(tǒng),Python 3.7,Pytorch 1.1.處理器為Intel i5 CPU,顯卡為Nvidia 1080 GPU.默認(rèn)參數(shù):柱的x,y分辨率都為0.16 m;最大柱數(shù)(P)為12 000 個(gè);柱內(nèi)最大點(diǎn)數(shù)(N)為100 個(gè).每個(gè)類(lèi)的錨點(diǎn)由寬度、長(zhǎng)度、高度和z中心組成,具有0°和90°這2個(gè)方向.二維IoU將錨點(diǎn)與真實(shí)目標(biāo)匹配時(shí),正匹配通常選擇標(biāo)記值中最高的或大于正匹配閾值的.負(fù)匹配則選低于負(fù)閾值的.匹配時(shí)使用軸對(duì)齊的非最大抑制方法,重疊閾值為0.5倍IoU.汽車(chē)的x,y,z閾值分別為(0,70.4),(-40.0,40.0),(-3.0,1.0)m.錨寬、長(zhǎng)度和高度分別為1.60,3.90,1.50 m,z中心為-1.00 m.匹配正負(fù)閾值為0.60和0.45.行人和騎行者的x,y,z閾值分別為(0,48.0),(-20.0,20.0),(-2.5,0.5)m.行人錨寬、長(zhǎng)度和高度分別為0.60,0.80,1.73 m,騎行者錨寬、長(zhǎng)度和高度分別為0.60,1.76,1.73 m,兩者z中心均為-0.60 m.
數(shù)據(jù)增強(qiáng)通過(guò)增加數(shù)據(jù)樣本提高網(wǎng)絡(luò)的泛化能力及檢測(cè)效果.首先為所有類(lèi)創(chuàng)建基于真實(shí)目標(biāo)的三維邊界框查找表以及邊界框內(nèi)的點(diǎn)云.對(duì)每個(gè)樣本,采用隨機(jī)選擇15輛汽車(chē)及8位騎車(chē)者的真實(shí)樣本,將它們放入當(dāng)前點(diǎn)云數(shù)據(jù)中參與網(wǎng)絡(luò)訓(xùn)練.接下來(lái)逐個(gè)增加真實(shí)目標(biāo)的邊界框,對(duì)每個(gè)邊界框分別旋轉(zhuǎn)[-π/20,π/20]以及平移操作,其中框的x,y,z坐標(biāo)按N(0,0.25)的正態(tài)分布進(jìn)行轉(zhuǎn)換,模型通過(guò)以上操作實(shí)現(xiàn)訓(xùn)練樣本集數(shù)量的增加.最后,對(duì)所有邊界框沿x軸進(jìn)行鏡像翻轉(zhuǎn)并按N(0,0.20) 的正態(tài)分布繪制x,y,z全局平移,模擬定位噪聲.
定量分析評(píng)測(cè)分為鳥(niǎo)瞰圖、二維、三維和平均方向相似性幾種方法.KITTI官方數(shù)據(jù)集分為簡(jiǎn)單、中等和困難3種難度,KITTI官網(wǎng)排行榜按中等難度數(shù)據(jù)集排名.鳥(niǎo)瞰圖模式、三維模式、AOS模式驗(yàn)證結(jié)果分別如表1-3所示,其中:mAP為平均均值精度;mAPm為汽車(chē)、行人以及騎行者中等難度下mAP的均值;檢測(cè)算法均為單步目標(biāo)檢測(cè)算法.
表1 鳥(niǎo)瞰圖模式驗(yàn)證結(jié)果
表2 三維模式驗(yàn)證結(jié)果
表3 AOS模式驗(yàn)證結(jié)果
從表1,2可以看出:PoinPillars+并行注意力在所有類(lèi)檢測(cè)結(jié)果中均取得良好的結(jié)果,相對(duì)于PointPillars算法,鳥(niǎo)瞰圖下,mAPm從66.19增加到69.95,汽車(chē)的mAP從86.10增加到87.73;三維模式下,mAPm從59.20增加到62.55,汽車(chē)的mAP從74.99增加到76.25.除騎行者類(lèi)中等難度以外,PoinPillars+并行注意力在鳥(niǎo)瞰圖和三維2種方法下,均優(yōu)于表中其他檢測(cè)模型,騎行者類(lèi)中等難度檢測(cè)結(jié)果也與第1名相差不大.證明了PoinPillars+并行注意力模型的有效性,以及注意力機(jī)制的有效性.
從表3可以看出:行人和騎行者的mAP檢測(cè)結(jié)果略有下降,并不理想,考慮到平均方向相似性模式和三維模式的主要檢測(cè)區(qū)別在于是否判別目標(biāo)方向,推測(cè)是模型在提高了檢測(cè)結(jié)果后,丟失了一部分的方向信息.通過(guò)觀察三維模式和鳥(niǎo)瞰圖模式中行人檢測(cè)結(jié)果的mAP大幅提升,可以說(shuō)明這個(gè)問(wèn)題.
在訓(xùn)練過(guò)程中僅使用點(diǎn)云數(shù)據(jù)集,為了便于研究、觀察和解釋說(shuō)明,分別展示了鳥(niǎo)瞰圖和RGB圖像的邊界框預(yù)測(cè)結(jié)果.正例試驗(yàn)結(jié)果如圖4所示.
圖4 正例試驗(yàn)結(jié)果
從圖4可以看出:檢測(cè)結(jié)果具有緊密且定向的三維邊界框.汽車(chē)的預(yù)測(cè)結(jié)果也較準(zhǔn)確,此外鳥(niǎo)瞰圖的三維邊界框與RGB圖像中的邊界框的對(duì)應(yīng)關(guān)系也很明顯,沒(méi)有發(fā)現(xiàn)誤報(bào)、錯(cuò)報(bào)等錯(cuò)誤現(xiàn)象.反例試驗(yàn)結(jié)果如圖5所示,所展示的為一些常見(jiàn)的檢測(cè)失敗結(jié)果.主要包括對(duì)困難樣本(部分遮擋或距離較遠(yuǎn))或相似類(lèi)別(卡車(chē)與大型客車(chē))誤報(bào).此外檢測(cè)行人和騎行者更加困難,行人和騎自行車(chē)者通常被錯(cuò)誤分類(lèi),行人和桌子組合被誤判為騎行者.此外,行人也容易被誤判為桿、樹(shù)干之類(lèi)的物體,此處也更進(jìn)一步說(shuō)明了平均方向相似性模式下,模型行人檢測(cè)率較低的原因.
圖5 反例試驗(yàn)結(jié)果
提出了一種基于注意力機(jī)制的PointPillars+注意力機(jī)制的目標(biāo)檢測(cè)模型,用來(lái)檢測(cè)真實(shí)交通場(chǎng)景下的汽車(chē)、行人和騎行者檢測(cè).將訓(xùn)練的模型結(jié)果與以往模型的結(jié)果相比較可以發(fā)現(xiàn),PointPillars+并行注意力檢測(cè)模型在預(yù)測(cè)結(jié)果方面有較大優(yōu)勢(shì).2組注意力機(jī)制對(duì)比結(jié)果表明:并行注意力機(jī)制更適用于本模型,注意力機(jī)制的內(nèi)部結(jié)構(gòu),也對(duì)模型檢測(cè)結(jié)果的準(zhǔn)確率有十分重要的影響.