,,
(長安大學(xué)電子與控制工程學(xué)院,陜西 西安 710064)
無人駕駛汽車能夠提高交通系統(tǒng)運(yùn)行效率和安全性,已經(jīng)成為未來世界交通發(fā)展的主流方向。在對(duì)無人車的研究中,車輛檢測是保證無人駕駛汽車安全行駛的關(guān)鍵。目前對(duì)車輛檢測的研究主要集中在利用圖像數(shù)據(jù)進(jìn)行檢測。
目前基于視覺的目標(biāo)檢測方法主要以深度學(xué)習(xí)為主[1]。通常將基于深度學(xué)習(xí)的目標(biāo)檢測方法分為2類:兩階段和一階段的方法。兩階段的目標(biāo)檢測方法又稱為基于區(qū)域的目標(biāo)檢測方法,經(jīng)典模型有R-CNN[2],F(xiàn)aster R-CNN[3],MS-CNN[4],SubCNN[5]等。兩階段的目標(biāo)檢測方法具有很高的檢測精度,但是檢測速度較慢,不能滿足實(shí)時(shí)性的要求。為了提高檢測速度,一階段的目標(biāo)檢測方法孕育而生。其無需產(chǎn)生候選框,直接從圖像得到預(yù)測結(jié)果。雖然檢測精度有所降低,但是整個(gè)過程只需要一步,極大縮短了檢測時(shí)間,實(shí)現(xiàn)了實(shí)時(shí)檢測。其代表模型有SSD[6]和YOLO[7]。
然而攝像頭卻易受到光線、探測距離等因素的影響。無法穩(wěn)定地應(yīng)對(duì)復(fù)雜多變的交通環(huán)境下車輛檢測任務(wù),無法滿足無人駕駛汽車穩(wěn)定性的要求。而激光雷達(dá)具有探測距離遠(yuǎn)、不受光線影響并且能夠準(zhǔn)確獲得目標(biāo)距離信息等優(yōu)點(diǎn),能夠彌補(bǔ)攝像頭的缺點(diǎn)。
在此,提出了一個(gè)實(shí)時(shí)魯棒性融合方法,將激光雷達(dá)點(diǎn)云和圖像進(jìn)行融合處理,提高了目標(biāo)檢測的精度,而且具有很強(qiáng)的抗干擾性。
整個(gè)系統(tǒng)由3部分組成,分別為深度補(bǔ)全、車輛檢測和決策級(jí)融合。系統(tǒng)整體結(jié)構(gòu)如圖1所示。
首先通過攝像頭與激光雷達(dá)聯(lián)合標(biāo)定,將激光雷達(dá)三維點(diǎn)云轉(zhuǎn)換為稀疏二維深度圖,再通過深度補(bǔ)全將其補(bǔ)全為密集深度圖,使激光點(diǎn)云數(shù)據(jù)和圖像具有相同的分辨率,并且在空間、時(shí)間上彼此對(duì)齊。而后將彩色圖像和激光雷達(dá)密集深度圖分別輸入YOLOv3檢測框架,得到各自檢測車輛的邊界框和置信度。最后通過邊界框融合和改進(jìn)的DS證據(jù)理論得到最終檢測結(jié)果。
圖1 系統(tǒng)整體結(jié)構(gòu)
在深度補(bǔ)全之前,需要先進(jìn)行預(yù)處理操作,將三維激光點(diǎn)云轉(zhuǎn)換為二維稀疏深度圖。在預(yù)處理過程中,要將激光雷達(dá)和攝像頭進(jìn)行精確校準(zhǔn)和聯(lián)合標(biāo)定,從而可以精確地將每個(gè)三維激光雷達(dá)點(diǎn)云幀投影到二維彩色圖像平面上,形成稀疏的深度圖。傳感器之間的坐標(biāo)轉(zhuǎn)換關(guān)系如圖2所示。
圖2 圖像與激光雷達(dá)轉(zhuǎn)換關(guān)系
在預(yù)處理工作完成之后,再將稀疏深度圖通過深度補(bǔ)全轉(zhuǎn)換為密集深度圖,使其和相機(jī)具有相同的分辨率。深度補(bǔ)全方法可以分為2種:通過圖像引導(dǎo)的深度補(bǔ)全和無需圖像引導(dǎo)的深度補(bǔ)全。由于攝像頭能夠采集到清晰的高分辨率圖像,可以幫助區(qū)分物體邊界和連續(xù)平滑表面,所以圖像對(duì)于指導(dǎo)深度補(bǔ)全是很有效的。因此本文提出了一種通過圖像引導(dǎo)的深度補(bǔ)全方法。
本文的深度補(bǔ)全方法主要基于2個(gè)假設(shè):認(rèn)為距離相近的像素點(diǎn)有著相似的深度值;認(rèn)為相似的顏色區(qū)域具有相似的深度值。
對(duì)于所有深度未知的像素點(diǎn),深度值Dp為
(1)
歸一化因子Wp為
(2)
G為高斯函數(shù);p和q是像素點(diǎn)的坐標(biāo);I為圖像的像素值;D為與圖像對(duì)應(yīng)的深度值;Ω為高斯函數(shù)的核;σI,σD分別是顏色、距離的高斯函數(shù)的σ值。
本文選用YOLOv3進(jìn)行車輛檢測,YOLOv3在2個(gè)訓(xùn)練集(彩色圖像和密集深度圖)上分別進(jìn)行訓(xùn)練,最終得到2個(gè)訓(xùn)練好的模型。
YOLO全名You Only Look Once,是一個(gè)最先進(jìn)的實(shí)時(shí)目標(biāo)檢測系統(tǒng)。發(fā)展至今,已經(jīng)經(jīng)過了3個(gè)版本的迭代。YOLO的前兩代模型YOLOv1和YOLOv2運(yùn)行速度極快,能夠達(dá)到以45幀/s的速率處理圖像,缺點(diǎn)是精確度比較低。YOLOv3的出現(xiàn)彌補(bǔ)了前兩代對(duì)小目標(biāo)的檢測能力差的問題,而且保持了它的速度優(yōu)勢。YOLOv3在COCO數(shù)據(jù)集上得到mAP值為57.9%,比SSD和RetinaNet的mAP值略高,但是運(yùn)行速度比它們快2~4倍,比Fast R-CNN快100倍,比R-CNN快1 000倍。
本部分依據(jù)深度圖像和彩色圖像在YOLOv3中的檢測結(jié)果,將得到的邊界框信息和相應(yīng)的置信度進(jìn)行融合,從而得到最終的檢測結(jié)果。
首先將邊界框進(jìn)行融合,通過判斷深度圖像目標(biāo)邊界框和彩色圖像目標(biāo)邊界框交并比(IOU)的大小,選擇不同的融合策略:當(dāng)交并比小于0.5時(shí),認(rèn)為是2個(gè)獨(dú)立的檢測目標(biāo),不進(jìn)行融合;交并比在0.5~0.8之間時(shí),2組邊界模型沒有完全重合,將重疊區(qū)域作為最終目標(biāo)區(qū)域;交并比在0.8~1之間時(shí),2組邊界模型基本上完全重合,此時(shí)認(rèn)為所有的模型邊界都是有效的,將邊界框的擴(kuò)展區(qū)域作為新的檢測區(qū)域。融合示例如圖3所示,其中點(diǎn)劃線區(qū)域表示深度圖像檢測到的邊界框,實(shí)線區(qū)域表示彩色圖像檢測到的邊界框,陰影區(qū)域?yàn)槿诤虾笞罱K的檢測結(jié)果。
圖3 邊界框分類融合示意
融合后邊界框的置信度,以原始邊界框相應(yīng)的置信度為基準(zhǔn),通過改進(jìn)的D-S證據(jù)理論進(jìn)行計(jì)算。D-S證據(jù)理論[8]是一種非精確推理理論,是多傳感器信息融合最常用的方法之一,十分適用于決策級(jí)信息融合。算法具體流程如下。
設(shè)Θ為一辨識(shí)框架,且滿足:
m(φ)=0
(3)
(4)
m∶2θ→[0,1],其中2θ為Θ的所有子集構(gòu)成的集合,稱m(A)為A的基本概率分配(BPA),也稱mass函數(shù)。
假設(shè)在辨識(shí)框架Θ下有2個(gè)證據(jù)E1和E2:E1的基本概率賦值和焦元分別是m1和A1,A2,…,Ak;E2的基本概率賦值和焦元分別是m2和B1,B2,…,Bk。根據(jù)Dempster的組合規(guī)則,可以將上述證據(jù)進(jìn)行融合。
m(A)=m1⊕m2=
(5)
但是當(dāng)Dempster的組合規(guī)則被用來組合高沖突的證據(jù)時(shí),可能會(huì)產(chǎn)生一個(gè)錯(cuò)誤的結(jié)論。因此本文采用Murphy的改進(jìn)方法以克服其局限性。該方法完全忽略了證據(jù)之間的沖突和聯(lián)系,將各個(gè)證據(jù)的基本概率賦值求平均值,得到平均證據(jù)。然后利用D-S證據(jù)理論組合規(guī)則對(duì)平均證據(jù)進(jìn)行合成。計(jì)算過程如下。
假設(shè)有n個(gè)證據(jù),對(duì)證據(jù)進(jìn)行平均,得到期望證據(jù)
(6)
然后將利用D-S證據(jù)理論對(duì)期望證據(jù)M迭代組合n-1次后的結(jié)果作為最終的合成結(jié)果。
本文在KITTI數(shù)據(jù)集上對(duì)算法進(jìn)行評(píng)估,KITTI數(shù)據(jù)集是目前世界最大的自動(dòng)駕駛場景下計(jì)算機(jī)視覺評(píng)測數(shù)據(jù)集。采集車上裝備有彩色相機(jī)和Velodyne HDL-64E激光雷達(dá)。實(shí)驗(yàn)測試平臺(tái)配備有Intel Xeon E5-2670 CPU和 NVIDIA GeForce GTX 1080Ti GPU。
KITTI目標(biāo)檢測數(shù)據(jù)集包含有7 481幀訓(xùn)練數(shù)據(jù)和7 518幀測試數(shù)據(jù)。每一幀數(shù)據(jù)包含有彩色圖片和與其同步的激光雷達(dá)數(shù)據(jù)。
由于本文選用KITTI數(shù)據(jù)集,它提供了激光雷達(dá)和攝像機(jī)的標(biāo)定數(shù)據(jù),包括激光雷達(dá)坐標(biāo)系到攝像機(jī)坐標(biāo)系剛體變化矩陣Tr_velo_to_cam、攝像頭內(nèi)參矩陣P以及攝像頭矯正矩陣R0_rect等參數(shù)。通過式(7)可以將激光雷達(dá)點(diǎn)云投影到相機(jī)平面上形成稀疏深度圖。
(7)
u和v為相機(jī)坐標(biāo);x,y,z為激光雷達(dá)三維坐標(biāo)。
稀疏深度圖轉(zhuǎn)換結(jié)果如圖4所示。在融合圖中可以清楚地在柱子處看出激光和圖像已經(jīng)完美對(duì)齊。而在稀疏深度圖中,很難直接得到有用的信息。
深度補(bǔ)全結(jié)果如圖5所示。由圖5可以看出補(bǔ)全圖像的邊緣輪廓更為清晰,很容易看到車體的基本輪廓。
圖4 三維激光雷達(dá)轉(zhuǎn)換為二維稀疏深度
圖5 密集深度示意
本文將彩色圖像和密集深度圖分別在YOLOv3中進(jìn)行訓(xùn)練,并將彩色圖像和密集深度圖得到的結(jié)果進(jìn)行融合。本文和KITTI數(shù)據(jù)集的評(píng)價(jià)方法保持一致,采用平均精度(AP)和IOU來評(píng)估檢測性能。當(dāng)IOU重疊閾值大于0.7時(shí),認(rèn)為檢測成功。并且將整個(gè)數(shù)據(jù)按照邊界框盒子的大小、截?cái)喑潭群涂梢姵潭确譃楹唵巍⒅械纫约袄щy3個(gè)不同的難度水平分別進(jìn)行評(píng)估。表1展示它們的AP值。從表1中可以看出這3種圖像都有著良好的檢測精度,并且通過融合之后,提升了精確度。融合檢測的結(jié)果和圖像檢測的結(jié)果相比,在簡單、中等、復(fù)雜上AP值分別提高了2.46%,2.42%和1.56%。
表1 檢測器性能評(píng)估 %
融合檢測過程的示例如圖6所示。圖像從上至下為彩色圖像的檢測結(jié)果(實(shí)線)、密集深度圖的檢測結(jié)果(點(diǎn)劃線)、前兩者的融合過程、融合結(jié)果(雙點(diǎn)劃線)以及真實(shí)值(虛線)。由圖6可以看出單獨(dú)通過彩色圖像和密集深度圖都可以得到較好的檢測結(jié)果,并且綜合考慮了兩者的檢測優(yōu)勢,通過融合之后,最終得到了更為精確的結(jié)果。
圖6 融合檢測過程示意
為了進(jìn)一步評(píng)估所提出算法的有效性,在KITTI數(shù)據(jù)集上和其他先進(jìn)的車輛檢測方法進(jìn)行了比較,比較結(jié)果如表2所示。
表2 本文算法和其他先進(jìn)算法對(duì)比結(jié)果
在精度方面,以中等難度進(jìn)行排名,本文算法在7種算法中排名第3,已經(jīng)達(dá)到了很高的檢測精度,完全滿足實(shí)際應(yīng)用的要求。
在速度方面,本文算法有著0.055 s的極快檢測速度,僅比YOLOv2慢了0.025 s,但是平均檢測精度卻比它高出14.8%。和比它檢測精度高的MS-CNN,SubCNN算法相比,分別快7倍和36倍。
綜上所述,本文算法與其他模型相比,已經(jīng)達(dá)到了先進(jìn)的檢測精度,并且擁有著很快的檢測速度,另外還具有很強(qiáng)的抗干擾能力,因此完全能夠勝任無人車車輛檢測任務(wù)。
提出了一個(gè)實(shí)時(shí)魯棒性融合框架,將激光雷達(dá)點(diǎn)云和圖像通過深度補(bǔ)全、車輛檢測和決策級(jí)融合3個(gè)步驟實(shí)現(xiàn)了快速穩(wěn)定的車輛檢測。實(shí)驗(yàn)結(jié)果表明,本文提出的深度補(bǔ)全算法對(duì)于提高激光雷達(dá)數(shù)據(jù)的分辨率以及后續(xù)的車輛檢測是很有幫助的,并且相對(duì)于彩色圖像的檢測結(jié)果,本文所提出的決策級(jí)融合方案平均檢測精度提高了2.15%。每幀數(shù)據(jù)的處理時(shí)間只需0.055 s,遠(yuǎn)小于人類駕駛員0.2 s的反應(yīng)時(shí)間,完全滿足實(shí)時(shí)性要求。與單傳感器車輛檢測相比,本文提出的融合方法不僅顯著提高了車輛檢測的檢測率,更重要的是提高了整個(gè)系統(tǒng)的魯棒性。而且本文的深度補(bǔ)全算法和決策級(jí)融合方法在機(jī)器人、機(jī)器視覺和傳感器融合領(lǐng)域也有通用性。