陳文強(qiáng),熊 輝,李克強(qiáng),李曉飛,張德兆
(1.清華大學(xué),汽車安全與節(jié)能國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100084; 2.北京智行者科技有限公司,北京 100085)
正面碰撞預(yù)警或自動(dòng)緊急制動(dòng)等駕駛輔助系統(tǒng)的研究開(kāi)發(fā)中,行人和騎車人等易受傷害道路使用者的保護(hù)是系統(tǒng)的首要任務(wù),對(duì)行人及騎車人的有效識(shí)別是保護(hù)他們的基礎(chǔ)。
雖然基于視覺(jué)的行人識(shí)別已經(jīng)過(guò)多年的研究,但實(shí)際道路環(huán)境中由行人姿態(tài)、光照、遮擋和尺度變化等帶來(lái)的挑戰(zhàn)問(wèn)題還依然存在[1-2]。相對(duì)于行人識(shí)別,關(guān)于騎車人識(shí)別的研究很少,其面臨的挑戰(zhàn)也更多[3]:包括自行車類型和騎車人衣著式樣的繁多導(dǎo)致目標(biāo)較大的外表變化;騎車人的姿態(tài)變化導(dǎo)致目標(biāo)整體外形的姿態(tài)變化和不同的觀察角度導(dǎo)致目標(biāo)高寬比的變化等。
傳統(tǒng)的行人或騎車人識(shí)別方法一般將兩者分開(kāi)處理[4-6],這會(huì)導(dǎo)致兩類目標(biāo)識(shí)別結(jié)果混淆不清,如將騎車人識(shí)別為行人,或?qū)⑿腥俗R(shí)別為騎車人。這是因?yàn)樾腥撕万T車人的主體都是人,某些角度具有相似的外觀特性。單獨(dú)訓(xùn)練的行人或騎車人識(shí)別模型包括人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)、支持向量機(jī)(support vector machine, SVM),及AdaBoost等傳統(tǒng)機(jī)器學(xué)習(xí)的方法[7-8]和以卷積神經(jīng)網(wǎng)絡(luò)R-CNN,F(xiàn)ast R-CNN(FRCN)為代表的深度學(xué)習(xí)方法[9-10]。這些網(wǎng)絡(luò)無(wú)法有效學(xué)習(xí)兩者的類間差異,導(dǎo)致行人及騎車人目標(biāo)的錯(cuò)誤分類現(xiàn)象時(shí)常出現(xiàn)。
上述目標(biāo)識(shí)別方法的模型分辨能力有限,難以有效地解決行人和騎車人識(shí)別面臨的個(gè)體識(shí)別精度有限和兩者區(qū)分能力不足的問(wèn)題,因此需要研究一種模型分辨能力更強(qiáng)的深度學(xué)習(xí)網(wǎng)絡(luò),來(lái)解決行人和騎車人的目標(biāo)識(shí)別問(wèn)題。故本文中在已有研究[11]的基礎(chǔ)上,設(shè)計(jì)了難例提取、多層特征融合和多目標(biāo)候選區(qū)域輸入等多種深度神經(jīng)網(wǎng)絡(luò)優(yōu)化方案,提出基于深度神經(jīng)網(wǎng)絡(luò)的行人和騎車人聯(lián)合檢測(cè)方法,在已公開(kāi)行人和騎車人數(shù)據(jù)庫(kù)[5]上進(jìn)行的對(duì)比試驗(yàn)說(shuō)明該方法能有效識(shí)別并清楚地區(qū)分行人和騎車人目標(biāo)。
為克服現(xiàn)有深度學(xué)習(xí)方法用于行人和騎車人檢測(cè)的缺陷,聚焦行人和騎車人目標(biāo)誤檢漏檢頻繁、小尺寸目標(biāo)檢測(cè)效果不佳和背景環(huán)境復(fù)雜多變等諸多挑戰(zhàn)性問(wèn)題,本文中提出適用于行人及騎車人聯(lián)合檢測(cè)的深度神經(jīng)網(wǎng)絡(luò)方法,該方法的框架結(jié)構(gòu)設(shè)計(jì)可分為3部分:考慮難例提取的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)、考慮多層特征融合的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)和候選區(qū)域選擇的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)。其中,考慮難例提取的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)部分用于優(yōu)化模型訓(xùn)練過(guò)程,提高模型的分辨能力;考慮多層特征融合的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)部分用于融合不同卷積層的特征,提高小尺寸目標(biāo)檢測(cè)的精度;候選區(qū)域選擇的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)部分在文獻(xiàn)[10]的基礎(chǔ)上結(jié)合候選區(qū)域選擇網(wǎng)絡(luò)(region proposal network,RPN)生成候選區(qū)域(rois),進(jìn)一步提高后續(xù)目標(biāo)檢測(cè)的效果。本文中提出的方法的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。其中,conv1~conv5分別代表第1至第5層卷積層,fc6和fc7分別代表第6和第7層全連接層,cls和reg分別表示類別和回歸輸出,rois表示輸出的候選區(qū)域,loss表示損失函數(shù)。
圖1 提出的行人及騎車人聯(lián)合檢測(cè)方法的網(wǎng)絡(luò)結(jié)構(gòu)圖
首先利用文獻(xiàn)[11]的基于上半身的多候選區(qū)域選擇方法UB-MPR(upper body-based multiple proposal regions)從輸入圖像提取一組目標(biāo)候選區(qū)域,然后通過(guò)計(jì)算RPN提取另一組目標(biāo)候選區(qū)域,最后將這兩組目標(biāo)候選區(qū)域經(jīng)過(guò)包含難例提取層的Fast R-CNN的分類與優(yōu)化定位,即可實(shí)現(xiàn)目標(biāo)的聯(lián)合檢測(cè)。其中,后兩個(gè)步驟實(shí)現(xiàn)了卷積層網(wǎng)絡(luò)參數(shù)的共享,只須計(jì)算一次深度神經(jīng)網(wǎng)絡(luò)的卷積特征圖,即可同時(shí)保證行人和騎車人聯(lián)合檢測(cè)的精度和效率。
經(jīng)典的Fast R-CNN方法使用成批的樣本進(jìn)行訓(xùn)練,其正樣本(即待檢測(cè)的目標(biāo)類別樣本)要求與真實(shí)目標(biāo)重疊率不低于50%,負(fù)樣本(即待檢測(cè)的非目標(biāo)類別樣本)的重疊率要求在10%~50%之間。有研究證明,在相同數(shù)目的訓(xùn)練樣本設(shè)置下,上述方法選擇的負(fù)樣本確實(shí)比隨機(jī)選取的效果好[12]。但對(duì)于那些與真實(shí)目標(biāo)重疊率小于10%的復(fù)雜背景目標(biāo),就無(wú)法使用這種負(fù)樣本的選擇方法,這對(duì)于具有復(fù)雜背景的行人和騎車人目標(biāo),其訓(xùn)練模型將會(huì)出現(xiàn)大量的誤檢測(cè)。
為解決上述問(wèn)題,模型訓(xùn)練中常用的手段就是選取負(fù)樣本中難以區(qū)分的樣本加入到訓(xùn)練集中,而非隨機(jī)選取負(fù)樣本,這個(gè)過(guò)程一般稱為難例提取。針對(duì)Fast R-CNN目標(biāo)檢測(cè)方法中難例提取的問(wèn)題,文獻(xiàn)[12]中提出了在線的難例提取方法,該方法在每批訓(xùn)練圖像包含的很多樣本中提取難例,而非簡(jiǎn)單的隨機(jī)選擇訓(xùn)練樣本,被選擇的難例立即用于本次迭代的網(wǎng)絡(luò)訓(xùn)練。
該方法可在增加少許訓(xùn)練時(shí)間的前提下,取得比傳統(tǒng)Fast R-CNN更好的效果。借鑒該方法的思路,本文中也針對(duì)Fast R-CNN目標(biāo)檢測(cè)方法設(shè)計(jì)了相應(yīng)的難例提取方法。本文中使用一個(gè)原始的全連接層與輸出層取代了文獻(xiàn)[12]中設(shè)計(jì)的兩個(gè)共享的全連接層和輸出層。雖然提出的方法訓(xùn)練過(guò)程耗時(shí)有所增加,但保證了模型的直觀與簡(jiǎn)練,方便與后續(xù)其他改進(jìn)方法相結(jié)合。提出的考慮難例提取的用于訓(xùn)練過(guò)程的網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2所示。
圖2 考慮難例提取的訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)圖
與原始Fast R-CNN網(wǎng)絡(luò)結(jié)構(gòu)相比,該網(wǎng)絡(luò)僅在計(jì)算損失函數(shù)前增加了難例提取層。圖3為與難例提取層相關(guān)的網(wǎng)絡(luò)示意圖,設(shè)計(jì)的難例提取層的輸入包括3部分:樣本分類分?jǐn)?shù)、真實(shí)的標(biāo)簽和包圍框回歸的外層權(quán)重,簡(jiǎn)稱外參。其中,樣本分類分?jǐn)?shù)是深度網(wǎng)絡(luò)fc7對(duì)樣本的分類輸出結(jié)果,而后兩者是網(wǎng)絡(luò)的輸入;而輸出為難例提取層修正后的樣本標(biāo)簽與包圍框回歸的外層權(quán)重。
圖3 與難例提取層相關(guān)的網(wǎng)絡(luò)連接圖
上述難例提取層在進(jìn)行難例提取的批訓(xùn)練時(shí),首先在每批訓(xùn)練樣本中隨機(jī)選取大量樣本(至多2 000個(gè))輸入到網(wǎng)絡(luò)中,再由難例提取層提取10%的樣本(至多200個(gè))作為難例計(jì)算網(wǎng)絡(luò)損失函數(shù),進(jìn)而實(shí)現(xiàn)網(wǎng)絡(luò)參數(shù)的修正。在選取難例時(shí),至多選取三分之一的正樣本,其余再根據(jù)樣本分值選擇最難區(qū)分的負(fù)樣本。未被選取的樣本標(biāo)簽設(shè)置為-1,包圍框回歸的外層權(quán)重設(shè)置為0,這保證了這些被忽略的樣本不會(huì)參與分類損失函數(shù)和包圍框回歸損失函數(shù)的計(jì)算。其中,分類損失函數(shù)為
其中,SL1(x)定義為
而包圍框回歸損失函數(shù)為
式中:Wt和Wt+1分別為t和t+1時(shí)刻的網(wǎng)絡(luò)權(quán)重;Vt和Vt+1分別為t和t+1時(shí)刻網(wǎng)絡(luò)權(quán)重更新量;ΔWt為t時(shí)刻得到后向傳播權(quán)重梯度;μ為t時(shí)刻網(wǎng)絡(luò)權(quán)重更新量的慣性系數(shù);α為學(xué)習(xí)率。由上式可知,當(dāng)訓(xùn)練考慮難例提取的網(wǎng)絡(luò)時(shí),因后向傳播的權(quán)重梯度縮小10倍,故須適當(dāng)提高學(xué)習(xí)率α以得到合適的訓(xùn)練效果。
針對(duì)PASCAL VOC數(shù)據(jù)庫(kù)設(shè)計(jì)的Fast R-CNN方法及VGG和ZF,不直接適用于目標(biāo)尺寸普遍較小的行人及騎車人檢測(cè)的問(wèn)題,本節(jié)介紹融合多層特征的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)方法。
借鑒文獻(xiàn)[13]中融合多層特征的方法,本文中提出的多層特征融合方法主要融合第3與第5層的卷積特征圖輸出(conv-ml1),網(wǎng)絡(luò)結(jié)構(gòu)圖如圖4所示。融合兩層而非3層或4層特征圖的主要原因是本文中輸入的原始圖像尺寸太大,GPU內(nèi)存占用情況嚴(yán)重。另外,相鄰特征圖的相關(guān)性較大,融合后對(duì)性能提升效果并不明顯,故選用不相鄰的兩層特征
式中:N為每批訓(xùn)練樣本中輸入到網(wǎng)絡(luò)中的樣本個(gè)數(shù),文中設(shè)為 2 000;lcls(pi,ui)為對(duì)數(shù)損失函數(shù),lcls(p,u)=-log(pu);α和β分別為包圍框回歸的外層和內(nèi)層權(quán)重;ti和vi分別為包圍框回歸偏移量和對(duì)應(yīng)真實(shí)包圍框回歸量。由上式可知,在計(jì)算每批訓(xùn)練樣本的損失函數(shù)時(shí)僅考慮提取的難例,而忽略未被選擇的樣本。由于N代表的是每批訓(xùn)練樣本中輸入到網(wǎng)絡(luò)中的樣本個(gè)數(shù),而有效的難例個(gè)數(shù)為N/10,故相對(duì)難例樣本的損失函數(shù),由式(1)和式(2)計(jì)算的損失函數(shù)均縮小10倍。同樣,在后向傳播梯度計(jì)算時(shí),也僅對(duì)提取的難例有影響,且梯度的大小也相應(yīng)地縮小10倍。隨機(jī)梯度下降的后向傳播權(quán)重更新計(jì)算公式為圖進(jìn)行融合。
圖4 考慮多層特征融合的網(wǎng)絡(luò)結(jié)構(gòu)圖
對(duì)于VGG16網(wǎng)絡(luò),假設(shè)網(wǎng)絡(luò)輸入圖像大小為224×224,第3層卷積層(conv3-3)的特征圖大小為56×56,而第5層卷積層(conv5-3)的特征圖大小為14×14。為了讓不同大小的兩個(gè)特征圖結(jié)合,權(quán)衡考慮網(wǎng)絡(luò)規(guī)模與特征信息量大小,可將第3層卷積層降采樣到28×28,將第5層卷積層上采樣到28×28,接著即可實(shí)現(xiàn)不同特征圖的融合(conv-ml2)。第3層卷積層降采樣的方法使用最大池化層來(lái)實(shí)現(xiàn)。最大池化層可用=down()來(lái)表示,即第l+1層中的值使用第l層中對(duì)應(yīng)區(qū)域的最大值來(lái)填充,從而實(shí)現(xiàn)了降采樣操作。這里的最大池化層卷積核大小為2,移動(dòng)步長(zhǎng)也是2。設(shè)計(jì)的第5層卷積層上采樣使用直接上采樣方法。特征圖直接上采樣的操作可用=up()來(lái)表示,即第l+1層中xj的值直接使用第l層中對(duì)應(yīng)位置的值來(lái)填充,從而實(shí)現(xiàn)了上采樣操作。該方法完全保留了原來(lái)特征圖的值,操作簡(jiǎn)單且沒(méi)有需要學(xué)習(xí)的參數(shù)。
考慮到不同深度卷積層的激活值幅值不盡一致,直接將不同層上采樣或降維的特征圖連接到一起可能會(huì)造成某些信息被抑制或被增強(qiáng)。使用局部響應(yīng)歸一化操作平滑不同特征圖間的激活值。表示某一原始特征圖上的激活值,則歸一化后的激活值為
針對(duì)行人和騎車人目標(biāo)檢測(cè)的候選區(qū)域選擇網(wǎng)絡(luò),如圖5所示。圖中的RPN用于提取卷積特征圖的卷積層和池化層與Fast R-CNN中使用的網(wǎng)絡(luò)一致,這有助于在后續(xù)的訓(xùn)練和檢測(cè)過(guò)程中共享兩種網(wǎng)絡(luò)的計(jì)算結(jié)果。
圖5 設(shè)計(jì)的候選區(qū)域選擇網(wǎng)絡(luò)結(jié)構(gòu)圖
文獻(xiàn)[10]中針對(duì)PASCAL VOC數(shù)據(jù)集中的檢測(cè)目標(biāo),設(shè)計(jì)了3個(gè)不同的高寬比和3個(gè)不同的尺度大小,考慮行人和騎車人目標(biāo)的特點(diǎn),本文中設(shè)計(jì)了包含3個(gè)高寬比和5個(gè)尺度大小的參考包圍框:3個(gè)高寬比分別為1∶1,2∶1和3∶1,5個(gè)尺度大小分別為32×32,64×64,128×128,256×256 和 512×512。根據(jù)上述設(shè)定的參考包圍框參數(shù),特征圖中的每個(gè)位置可生成15個(gè)參考包圍框。
VGG網(wǎng)絡(luò)包含5組卷積層和池化層,RPN遍歷的最后一層卷積層降采樣幅度為16,在特征圖上的遍歷對(duì)應(yīng)輸入圖像中的最小步長(zhǎng)為16像素。稀疏的遍歷步長(zhǎng)導(dǎo)致RPN生成的目標(biāo)候選區(qū)域?qū)π腥撕万T車人真實(shí)目標(biāo)的覆蓋不夠理想,因?yàn)槌叨容^小的目標(biāo)可能出現(xiàn)在兩個(gè)參考包圍框中心之間。上節(jié)介紹的考慮多層特征融合的網(wǎng)絡(luò)結(jié)構(gòu)可生成結(jié)合第3層和第5層卷積層的卷積特征圖,該特征圖綜合了不同深度卷積層的優(yōu)點(diǎn),降采樣幅度為8,對(duì)應(yīng)遍歷的最小步長(zhǎng)為8像素,適合行人和騎車人候選區(qū)域的提取。因此,本文中設(shè)計(jì)的行人及騎車人候選區(qū)域選擇網(wǎng)絡(luò)采用上節(jié)提出的考慮多層特征融合的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。當(dāng)輸入圖像尺寸為1024×2048時(shí),本網(wǎng)絡(luò)生成的卷積特征圖大小為128×256,特征圖中的每個(gè)位置對(duì)應(yīng)15個(gè)參考包圍框,因此RPN總共可遍歷491 520個(gè)目標(biāo)候選區(qū)域。
在設(shè)計(jì)好RPN網(wǎng)絡(luò)結(jié)構(gòu)后,需要分配每個(gè)目標(biāo)候選區(qū)域的類別后才能訓(xùn)練網(wǎng)絡(luò)。對(duì)于近50萬(wàn)個(gè)由參考包圍框生成的目標(biāo)候選區(qū)域,需要根據(jù)它們與真實(shí)目標(biāo)的重疊情況分為正樣本、負(fù)樣本和忽略的樣本,其中正、負(fù)樣本分別代表該樣本為目標(biāo)還是背景。在兩種情況下,可將某個(gè)目標(biāo)候選區(qū)域歸為正樣本:與任意一個(gè)真實(shí)目標(biāo)重疊率超過(guò)0.7;與某個(gè)真實(shí)目標(biāo)重疊率最大的候選區(qū)域。一般情況下第1個(gè)條件即可獲得足夠的正樣本,第2個(gè)條件用來(lái)避免一些特殊情況下獲取不了正樣本。將與任意一個(gè)真實(shí)目標(biāo)重疊率都不超過(guò)0.3的目標(biāo)候選區(qū)域歸為負(fù)樣本。其他不滿足正樣本和負(fù)樣本條件的目標(biāo)候選區(qū)域歸為忽略的樣本,在網(wǎng)絡(luò)訓(xùn)練時(shí)不予考慮。
在分配好樣本類別后,設(shè)定支持多任務(wù)的損失函數(shù)。候選區(qū)域訓(xùn)練網(wǎng)絡(luò)包含兩個(gè)共生的輸出層,一個(gè)代表該樣本為正樣本的估計(jì)概率pi;另一個(gè)代表該樣本對(duì)應(yīng)的包圍框回歸偏移量ti。第i個(gè)真實(shí)目標(biāo)的類別記為(正樣本為1,負(fù)樣本為0),真實(shí)包圍框偏移量記為對(duì)應(yīng) x,y,w,h 4 個(gè)參數(shù))。 其多任務(wù)損失函數(shù)可定義為
式中:lcls(·)為分類損失函數(shù),見(jiàn)式(1)定義;lreg(·)為包圍框回歸損失函數(shù)(smooth L1),見(jiàn)式(2)定義;λ為調(diào)節(jié)分類損失函數(shù)與定位損失函數(shù)的權(quán)重;Ncls和Nloc分別為批訓(xùn)練和所有目標(biāo)候選區(qū)域的規(guī)模。
為避免不同樣本來(lái)自不同的圖像會(huì)造成圖像卷積特征圖的重復(fù)計(jì)算,本文中僅從一幅圖中隨機(jī)選取256個(gè)樣本進(jìn)行網(wǎng)絡(luò)批訓(xùn)練,僅計(jì)算一幅圖的卷積特征圖,實(shí)現(xiàn)不同樣本的卷積特征圖共享。每批樣本中正負(fù)樣本的比例原則上保持1∶1,若正樣本數(shù)量不夠128個(gè),則用更多負(fù)樣本補(bǔ)充。
為驗(yàn)證上述針對(duì)行人及騎車人檢測(cè)設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)合理性,除了 VGG8,VGG11,VGG16和ZF 4種基礎(chǔ)的網(wǎng)絡(luò)外,本文中還訓(xùn)練了大量的網(wǎng)絡(luò)模型,如圖6所示。圖中相互連接的上下層網(wǎng)絡(luò)模型表示上層的網(wǎng)絡(luò)模型是在下層的網(wǎng)絡(luò)模型基礎(chǔ)上訓(xùn)練的。每個(gè)網(wǎng)絡(luò)的后綴代表不同的含義:bl代表基礎(chǔ)網(wǎng)絡(luò),不考慮任何改進(jìn)方法,僅修改了輸出層以適應(yīng)行人和騎車人的檢測(cè);hm表示考慮難例提取的網(wǎng)絡(luò);ml表示考慮多層特征融合的網(wǎng)絡(luò);ml-hm表示同時(shí)考慮多層特征融合和難例提取的網(wǎng)絡(luò);faster表示Faster R-CNN;final表示最終得到的綜合考慮多種改進(jìn)方法的總體網(wǎng)絡(luò)。
圖6 訓(xùn)練網(wǎng)絡(luò)的流程、關(guān)系及主要參數(shù)
在訓(xùn)練VGG8-faster時(shí),第1階段和第2階段的RPN網(wǎng)絡(luò)均訓(xùn)練4萬(wàn)次(iter),基礎(chǔ)學(xué)習(xí)率(lr)為0.001,在訓(xùn)練3萬(wàn)次后縮小至0.000 1;第1階段和第2階段的Fast R-CNN網(wǎng)絡(luò)均訓(xùn)練兩萬(wàn)次,基礎(chǔ)學(xué)習(xí)率為0.001,在訓(xùn)練1.5萬(wàn)次后縮小至0.000 1。在訓(xùn)練 VGG8-final和 VGG16-final時(shí),第1階段的RPN網(wǎng)絡(luò)訓(xùn)練4萬(wàn)次,基礎(chǔ)學(xué)習(xí)率為0.001,在訓(xùn)練3萬(wàn)次后縮小至0.000 1;第2階段的RPN網(wǎng)絡(luò)訓(xùn)練2萬(wàn)次,基礎(chǔ)學(xué)習(xí)率為0.001,在訓(xùn)練1.5萬(wàn)次后縮小至0.000 1;第1階段和第2階段的Fast R-CNN網(wǎng)絡(luò)均訓(xùn)練2萬(wàn)次,訓(xùn)練Fast R-CNN時(shí)使用了難例提取的方法,學(xué)習(xí)率都固定為0.001。
上述網(wǎng)絡(luò)均在公開(kāi)的VRU(vulnerable road users)數(shù)據(jù)庫(kù)訓(xùn)練集上訓(xùn)練得到,更多數(shù)據(jù)庫(kù)細(xì)節(jié)參見(jiàn)文獻(xiàn)[5]。
由于不完全標(biāo)記訓(xùn)練集上有很多行人和騎車人目標(biāo)沒(méi)有標(biāo)記出來(lái),大量的負(fù)樣本不能在該訓(xùn)練集上提取。因此,在訓(xùn)練上述Fast R-CNN網(wǎng)絡(luò)模型時(shí),要求每批訓(xùn)練樣本來(lái)自兩張圖像,其中第1張圖像來(lái)自不完全標(biāo)記訓(xùn)練集,第2張圖像來(lái)自完全標(biāo)記訓(xùn)練集。在第1張圖像上選取至多16個(gè)正樣本和16個(gè)負(fù)樣本,不足的樣本由第2張圖像補(bǔ)充,其中正樣本要求與真實(shí)目標(biāo)重疊率不低于50%,負(fù)樣本的重疊率要求在30%~50%之間。當(dāng)訓(xùn)練不考慮難例提取的網(wǎng)絡(luò)時(shí),每批訓(xùn)練樣本包含128個(gè)樣本,除去第1張圖像上的32個(gè)樣本,第2張圖像要提取32個(gè)正樣本和64個(gè)負(fù)樣本,其中正樣本要求與真實(shí)目標(biāo)重疊率不低于50%,負(fù)樣本的重疊率要低于50%,但負(fù)樣本優(yōu)先在10%~50%之間選擇。當(dāng)訓(xùn)練考慮難例提取的網(wǎng)絡(luò)時(shí),每批訓(xùn)練樣本中需選取至多2 000個(gè)樣本輸入到網(wǎng)絡(luò)中,再由難例提取層提取10%的樣本(至多200個(gè))作為難例,去計(jì)算網(wǎng)絡(luò)損失函數(shù),進(jìn)而實(shí)現(xiàn)網(wǎng)絡(luò)參數(shù)的修正。同樣,除去第1張圖像上的32個(gè)樣本,其余樣本均從第2張圖像上隨機(jī)選取。在訓(xùn)練RPN網(wǎng)絡(luò)時(shí),每批訓(xùn)練樣本僅從一幅圖中隨機(jī)選取256個(gè)樣本進(jìn)行網(wǎng)絡(luò)的批訓(xùn)練,每批樣本中正負(fù)樣本的比例為1∶1,若正樣本數(shù)量不夠128個(gè),則用更多的負(fù)樣本補(bǔ)充。需要說(shuō)明的是,在上述訓(xùn)練過(guò)程及后續(xù)的測(cè)試過(guò)程中,輸入圖像的尺寸均為原始圖像尺寸1024×2048。
本文中使用精度 召回率曲線和平均精度[1]在VRU數(shù)據(jù)庫(kù)驗(yàn)證集上,對(duì)比評(píng)價(jià)本文中提出的適用于行人及騎車人檢測(cè)的深度神經(jīng)網(wǎng)絡(luò)模型。為直觀地對(duì)比各網(wǎng)絡(luò)模型在驗(yàn)證集上的檢測(cè)結(jié)果與平均檢測(cè)時(shí)間,將圖6中訓(xùn)練得到的所有網(wǎng)絡(luò)模型的結(jié)果匯總到表1中。在統(tǒng)計(jì)檢測(cè)結(jié)果時(shí),行人和騎車人的檢測(cè)結(jié)果分別在不同難度等級(jí)的驗(yàn)證集下評(píng)測(cè),并忽略干擾類別的影響。
為更清晰直觀地比較本文涉及到的幾個(gè)主要網(wǎng)絡(luò)模型在中等難度等級(jí)驗(yàn)證集上的檢測(cè)結(jié)果,使用PR曲線,見(jiàn)圖7和圖8,圖中每個(gè)方法名稱前的數(shù)字表示該方法的平均精度。
由試驗(yàn)結(jié)果可知,考慮多種改進(jìn)方法的總體網(wǎng)絡(luò)模型的性能優(yōu)于表1中第一大列(-bl)的基準(zhǔn)網(wǎng)絡(luò)模型。
表1的VGG8改進(jìn)模型中,VGG8-final在不同難度等級(jí)驗(yàn)證集上行人檢測(cè)的平均精度略高于VGG8-ml-hm,而騎車人檢測(cè)的平均精度基本持平;但VGG8-final相對(duì)于VGG8-faster的優(yōu)勢(shì)明顯,在不同難度等級(jí)上行人檢測(cè)的平均精度分別高出2.4%,2.2%和4.7%,騎車人檢測(cè)的平均精度分別高出0.2%,4.8%和 5.8%。另外,VGG16-final明顯比VGG16-ml-hm更好,在不同難度等級(jí)上行人檢測(cè)的平均精度分別高出1.7%,4.1%和6.6%,騎車人檢測(cè)的基本持平。
表1 驗(yàn)證集上各網(wǎng)絡(luò)結(jié)構(gòu)的檢測(cè)效果匯總
圖7 中等難度等級(jí)的驗(yàn)證集上行人檢測(cè)的效果
圖8 中等難度等級(jí)的驗(yàn)證集上騎車人檢測(cè)的效果
VGG8-final的檢測(cè)效果大幅度領(lǐng)先于基礎(chǔ)網(wǎng)絡(luò)模型VGG8-bl,在不同難度等級(jí)驗(yàn)證集上行人檢測(cè)的平均精度分別高出7.4%,8.2%和9.7%,騎車人的平均精度分別高出 1.3%,5.2%和 6.9%。VGG16-final的檢測(cè)效果比基礎(chǔ)網(wǎng)絡(luò)VGG-16-bl顯著提升,特別是行人檢測(cè)效果,在不同難度等級(jí)驗(yàn)證集上行人檢測(cè)的平均精度分別高出3.9%,6.1%和6.1%,騎車人檢測(cè)的分別高出 0.1%,0.7%和4.0%,平均精度已經(jīng)接近飽和,進(jìn)一步證明了本文中針對(duì)行人及騎車人檢測(cè)提出的網(wǎng)絡(luò)模型的有效性。而綜合考慮多種改進(jìn)方法的總體網(wǎng)絡(luò)模型VGG16-final的檢測(cè)效果明顯優(yōu)于VGG8-final,不同難度等級(jí)驗(yàn)證集上行人檢測(cè)的平均精度分別高出1.5%,2.7%和4.3%,騎車人檢測(cè)的平均精度分別高出0.2%,1.5%和5.6%。這說(shuō)明較深的網(wǎng)絡(luò)深度有助于提高最終目標(biāo)檢測(cè)的效果。
針對(duì)現(xiàn)有深度學(xué)習(xí)方法用于行人和騎車人檢測(cè)的缺陷,即目標(biāo)誤檢漏檢頻繁、小尺寸目標(biāo)檢測(cè)效果不佳和背景環(huán)境復(fù)雜多變等挑戰(zhàn)性問(wèn)題,本文中基于FRCN目標(biāo)檢測(cè)框架,設(shè)計(jì)了綜合難例提取、多層特征融合和多目標(biāo)候選區(qū)域輸入等多種改進(jìn)方法的網(wǎng)絡(luò)結(jié)構(gòu)模型,大幅度改善了行人及騎車人目標(biāo)的檢測(cè)效果。結(jié)論如下:
(1)在網(wǎng)絡(luò)訓(xùn)練過(guò)程中,采用提出的難例提取方法代替隨機(jī)抽樣來(lái)選取負(fù)樣本,能有效改善行人和騎車人目標(biāo)檢測(cè)的效果,減少因行駛道路環(huán)境復(fù)雜導(dǎo)致的行人和騎車人目標(biāo)誤檢;
(2)融合不同深度的卷積特征圖可綜合局部與全局特性,獲得表達(dá)能力更強(qiáng)的特征信息,顯著提升行人和騎車人目標(biāo)檢測(cè)效果,對(duì)于小尺寸的行人及騎車人目標(biāo),效果更為明顯;
(3)結(jié)合多種目標(biāo)候選區(qū)域方法的輸入可彌補(bǔ)單一目標(biāo)候選區(qū)域選擇方法的缺陷,實(shí)現(xiàn)UB-MPR和RPN方法的優(yōu)勢(shì)互補(bǔ),能進(jìn)一步改善行人和騎車人目標(biāo)檢測(cè)效果,有助于減少行人和騎車人目標(biāo)的漏檢。