姜柏軍,鐘明霞,林昊昀
(1.浙江商業(yè)職業(yè)技術(shù)學(xué)院,浙江 杭州 310053;2.首都師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院,北京 100089)
隨著中國經(jīng)濟(jì)迅速發(fā)展,人口眾多和城市交通規(guī)劃的不合理性逐步顯現(xiàn),我國的交通狀況日益嚴(yán)重。這導(dǎo)致道路資源日益緊張,交通事故頻發(fā)。根據(jù)資料數(shù)據(jù)[1],我國交通事故的致死率高達(dá)27.3 %,居全球之首。同時(shí)的調(diào)查結(jié)果[2]顯示,在致死事故中,美國和歐洲國家的死亡人數(shù)主要集中在乘車人員,而在中國,超過60 %的死亡人數(shù)是行人、自行車等交通弱勢(shì)群體。因?yàn)樵谥袊牡缆窓?quán)益分配中,行人和自行車的權(quán)益受到機(jī)動(dòng)車嚴(yán)重?cái)D壓,人車混合出行的模式導(dǎo)致行人的安全面臨嚴(yán)峻挑戰(zhàn)。除了各汽車制造商需要逐步建立行人保護(hù)安全開發(fā)體系外,利用車輛的智能輔助駕駛功能可以有效降低交通事故中的死亡人數(shù)[3]。當(dāng)前,國內(nèi)外學(xué)者主要關(guān)注基于兩類圖像進(jìn)行行人檢測(cè)與跟蹤的研究:可見光圖像和紅外圖像。然而,可見光攝像頭難以應(yīng)對(duì)惡劣天氣條件下(如黑夜、弱光、煙霧、霧和蒸汽等)的交通環(huán)境。為彌補(bǔ)可見光攝像頭的不足,本文提出在汽車傳感器套件中加入紅外熱像儀,把可見光圖像和紅外圖像進(jìn)行融合,圖像融合技術(shù)目前也廣泛應(yīng)用于行人目標(biāo)識(shí)別中。將圖像融合技術(shù)應(yīng)用于自動(dòng)駕駛中,可以提升行人的安全性,填補(bǔ)視覺盲區(qū),提供更多決策信息,預(yù)防事故和碰撞,同時(shí)改善駕駛體驗(yàn)。通過將紅外圖像的熱能分布與可見光圖像的視覺特征相結(jié)合,可以在夜間和低光條件下更精準(zhǔn)地檢測(cè)和跟蹤道路上的障礙物,如行人、車輛等。紅外圖像與可見光圖像的融合提供了更全面的感知能力,從而提升了自動(dòng)駕駛系統(tǒng)的安全性和魯棒性。
近年來,為了提升行人檢測(cè)效果,伴隨著新算法的涌現(xiàn)以及硬件的升級(jí),利用深度學(xué)習(xí)從圖像中提取特征并進(jìn)行行人目標(biāo)判斷的技術(shù)逐漸增多,其中包括 R-CNN[4]、YOLO[5]、SSD[6]等幾類主流框架。研究文獻(xiàn)表明,可見光圖像下的行人檢測(cè)方法已經(jīng)相對(duì)成熟,但目前涉及可見光和紅外圖像的行人檢測(cè)方法尚處于初級(jí)階段,需要克服諸多難題。這些難題主要集中在以下兩個(gè)方面:(1)受白天和夜間光照變化的影響,可見光和紅外圖像融合特征在不同光照條件下表現(xiàn)出差異性。(2)目前,基于深度卷積神經(jīng)網(wǎng)絡(luò)的行人檢測(cè)模型常常表現(xiàn)出較高的檢測(cè)率,但其效率相對(duì)較低,未能同時(shí)保障實(shí)時(shí)性和準(zhǔn)確性,難以滿足輔助駕駛實(shí)時(shí)檢測(cè)的需求。當(dāng)前行人目標(biāo)檢測(cè)算法在特定情況下面臨著挑戰(zhàn),例如夜間、低能見度和復(fù)雜背景等,這些環(huán)境條件的影響可能導(dǎo)致行人目標(biāo)檢測(cè)的準(zhǔn)確性下降,因此需要更為強(qiáng)大的方法來應(yīng)對(duì)上述問題。
為了克服熱成像的局限性,并提高道路目標(biāo)識(shí)別的準(zhǔn)確性和可靠性,可以采用圖像融合技術(shù)。圖像融合通過將熱圖像與可見光圖像進(jìn)行融合,結(jié)合它們的優(yōu)勢(shì),從而產(chǎn)生一個(gè)融合圖像,使得圖像中既包含了熱能信息,又保留了可見光的顏色和紋理信息。因?yàn)閱我豢梢姽饣蚣t外圖像分類器在全天候駕駛環(huán)境中無法有效識(shí)別在白天和夜間光照環(huán)境下存在差異性的行人特征而導(dǎo)致出現(xiàn)漏檢情況,本文在基于區(qū)域生成網(wǎng)絡(luò)的可見光與紅外圖像行人目標(biāo)檢測(cè)器的基礎(chǔ)上,進(jìn)行可見光與紅外圖像雙模態(tài)特征融合,以優(yōu)化深度卷積神經(jīng)網(wǎng)絡(luò)分類性能,提高行人檢測(cè)準(zhǔn)確率。首先采用雙模態(tài)區(qū)域生成網(wǎng)絡(luò)即雙路深度卷積神經(jīng)網(wǎng)絡(luò)分別對(duì)可見光圖像和紅外圖像進(jìn)行特征提取,提取得到的可見光特征與紅外特征通過級(jí)聯(lián)融合后輸入?yún)^(qū)域生成網(wǎng)絡(luò)進(jìn)行特征分類和回歸。雙路深度卷積神經(jīng)網(wǎng)絡(luò),均由5個(gè)卷積層(Conv)和4個(gè)池化層(Pool)交替堆棧組成。如圖1所示,可見光圖像特征提取模塊的卷積層從Convl-V到Conv5-V,池化層從Pooll-V到Pool4-V;紅外圖像特征提取模塊的卷積層從Convl-I到Conv5-I,池化層從Pooll-I到Pool4-I;雙模態(tài)區(qū)域生成網(wǎng)絡(luò)特征融合模塊采用級(jí)聯(lián)融合層(Concat)將可見光特征與紅外特征級(jí)聯(lián)在一起,進(jìn)過融合卷積層(Conv-F)進(jìn)行融合特征學(xué)習(xí)后,輸出可見光與紅外融合特征。
圖1 雙模態(tài)區(qū)域生成網(wǎng)絡(luò)特征提取與融合模塊網(wǎng)絡(luò)結(jié)構(gòu)圖
雙模態(tài)區(qū)域生成網(wǎng)絡(luò)特征提取網(wǎng)絡(luò)結(jié)構(gòu)采用VGGl6深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),所有的卷積層采用3×3卷積核,所有的池化層采用2×2池化核,具體的參數(shù)設(shè)計(jì)如表1所示。采用W和H分別表示可見光圖像和長波紅外圖像的長寬像素值。此處,可見光和紅外圖像輸入尺寸均W×H×3,特征融合模塊輸出的可見光與紅外融合特征圖尺寸為W/16×H/16×512。
表1 不同算法對(duì)比結(jié)果
本文在Faster RCNN基礎(chǔ)上,針對(duì)紅外熱成像技術(shù)[7]通過四種措施來提升Faster RCNN在汽車駕駛場(chǎng)景下的行人目標(biāo)檢測(cè)性能:①設(shè)計(jì)特征融合網(wǎng)絡(luò),并構(gòu)建了一種感興趣候選區(qū)域空間金字塔池化網(wǎng)絡(luò),以提高算法在汽車駕駛場(chǎng)景的行人目標(biāo)檢測(cè)性能;②通過聚類算法對(duì)訓(xùn)練數(shù)據(jù)集中真值框的寬高信息進(jìn)行聚類,利用聚類結(jié)果優(yōu)化錨設(shè)置,挖掘汽車駕駛場(chǎng)景下的先驗(yàn)知識(shí)來提升檢測(cè)算法的檢測(cè)效率;③采用在線案例挖掘技術(shù)優(yōu)化模型訓(xùn)練;④對(duì)網(wǎng)絡(luò)卷積層中的函數(shù)進(jìn)行改進(jìn),并調(diào)整訓(xùn)練參數(shù)來提高系統(tǒng)分類性能。
Faster RCNN算法中需要先設(shè)計(jì)特征提取網(wǎng)絡(luò),用于特征提取。針對(duì)基本算法中存在的問題主要是:①候選框選擇機(jī)器耗時(shí)長;②候選框覆蓋面廣,重疊區(qū)域特征重復(fù)計(jì)算;③步驟多,過程復(fù)雜。原始RCNN重復(fù)使用深層卷積網(wǎng)絡(luò)在2k個(gè)窗口上提取特征,特征提取非常耗時(shí)。我們?cè)谶@里改進(jìn)了RCNN的不足,采用空間金字塔池化網(wǎng)絡(luò)(圖2)中SPPNet將比較耗時(shí)的卷積計(jì)算對(duì)整幅圖像只進(jìn)行一次,之后使用SPP將窗口特征圖池化為一個(gè)固定長度的特征表示。
圖2 空間金字塔池化網(wǎng)絡(luò)
對(duì)于上圖中的網(wǎng)絡(luò),Image是輸入圖像就是候選區(qū)域,Crop/warp就是對(duì)候選區(qū)域進(jìn)行提取,然后將圖像resize到固定的大小。由于網(wǎng)絡(luò)中加入這兩個(gè)操作,使得候選區(qū)域會(huì)出現(xiàn)扭曲的情況。因此把固定大小的圖像輸入到卷積神經(jīng)網(wǎng)中,盡可能特征提取,最后在FC層得到輸出的特征向量。我們采用同一個(gè)卷積神經(jīng)網(wǎng),需要保證輸入圖像大小必須統(tǒng)一。這里把候選區(qū)域的提取安排在圖像輸入的下一個(gè)環(huán)節(jié),根據(jù)不同的候選區(qū)域會(huì)都采用相同卷積來完成特征提取的過程,導(dǎo)致重復(fù)計(jì)算,也是RCNN網(wǎng)絡(luò)存在的問題。重新優(yōu)化在上圖底部,加入spp層,對(duì)于不同尺寸提取不同維度的特征,它會(huì)將每一個(gè)卷積層的輸出固定的通過SPP層得到一個(gè)21維特征,這個(gè)21維是對(duì)應(yīng)每個(gè)feature map的,即對(duì)每一個(gè)通道數(shù)(channel),具體維數(shù)值21×c,就是通過SPP層產(chǎn)生固定的輸出,再通過FC層計(jì)算。
Faster RCNN是兩個(gè)階段的檢測(cè)器,模型訓(xùn)練要分兩個(gè)部分:一是訓(xùn)練RPN網(wǎng)絡(luò),二是訓(xùn)練后面的分類網(wǎng)絡(luò)。為了能夠說明模型訓(xùn)練過程,需要明確提及的兩個(gè)網(wǎng)絡(luò)。分別是:RPN網(wǎng)絡(luò)(共享conv層+RPN特有層);Faster RCNN網(wǎng)絡(luò)(共享conv層+Faster RCNN特有層)。訓(xùn)練的步驟過程如下:
①先用ImageNet的預(yù)訓(xùn)練權(quán)重初始化RPN網(wǎng)絡(luò)的共享conv層,再訓(xùn)練RPN網(wǎng)絡(luò)。訓(xùn)練完成,即更新了共享conv層和RPN特有層的權(quán)重;
②根據(jù)訓(xùn)練好的RPN網(wǎng)絡(luò)獲取proposals;
③再使用ImageNet的預(yù)訓(xùn)練權(quán)重初始化Faster RCNN網(wǎng)絡(luò)的貢獻(xiàn)conv層,然后訓(xùn)練Faster RCNN網(wǎng)絡(luò)。隨著訓(xùn)練完成,再次更新共享conv層和Faster RCNN特有層的權(quán)重;
④利用步驟③訓(xùn)練好的共享conv層和步驟①訓(xùn)練好的RPN特有層來初始化RPN網(wǎng)絡(luò),進(jìn)行第二次訓(xùn)練RPN網(wǎng)絡(luò)。這里固定共享conv層的權(quán)重,保持權(quán)重不變,只訓(xùn)練RPN特有層的權(quán)重;
⑤根據(jù)訓(xùn)練好的RPN網(wǎng)絡(luò)獲取proposals;
⑥繼續(xù)使用步驟③訓(xùn)練好的共享conv層和步驟③訓(xùn)練好的Faster RCNN特有層來初始化Faster RCNN網(wǎng)絡(luò),再次訓(xùn)練Faster RCNN網(wǎng)絡(luò)。在這里,固定conv層,只保留fine tune特有部分。模型訓(xùn)練過程如圖3所示。
圖3 模型訓(xùn)練步驟過程
在卷積層候選框訓(xùn)練提取網(wǎng)絡(luò)的時(shí),把錨分為兩類,選中目標(biāo)的錨標(biāo)記是正樣本(positive),未選中目標(biāo)的錨標(biāo)記是負(fù)樣本(negative)。正樣本就是通過錨和真值相交的情況來定義,通過兩種方式實(shí)現(xiàn)。對(duì)于每個(gè)真值,存在兩種情況,所有錨與這個(gè)真值要么相交,要么不相交。相交方式中:和這個(gè)真值有最大交并比的那個(gè)錯(cuò)誤標(biāo)記為正樣本;與這個(gè)真值的交并比在大于0.7時(shí),那些錨也標(biāo)記為正樣本。負(fù)樣本就是與所有真值的交并比在小于0.3時(shí)的錨。除了以上,其余的錨無需標(biāo)記,在整個(gè)模型訓(xùn)練過程中不使用。
根據(jù)正負(fù)樣本的定義,給出RPN損失函數(shù)的公式(1)所示:
(1)
對(duì)于以上公式,實(shí)際由兩部分組成。第一部分計(jì)算分類誤差,第二部分計(jì)算回歸誤差。計(jì)算分類誤差時(shí),pi是一個(gè)anchor box值為正值的概率,p*i是anchor box的真實(shí)數(shù)據(jù),取值為0或1,這里研究采用二分類log loss,∑對(duì)所有anchor box的log loss累加求和;計(jì)算回歸誤差時(shí),ti表示預(yù)測(cè)的anchor box位置,t*i表示與anchor box相關(guān)的真實(shí)數(shù)據(jù)的位置,Lreg實(shí)際上是計(jì)算ti和t*i的位置差,也被稱為平滑L1,在對(duì)所有的anchor box計(jì)算結(jié)果的誤差累加求和時(shí),僅僅計(jì)算正值類anchor box的累加和。關(guān)于系數(shù)部分,Ncls的取值為最小批次中anchor box的數(shù)量,即Ncls=256;Nreg為一張圖對(duì)應(yīng)的anchor的數(shù)量,數(shù)值約等于2400;為了確保函數(shù)兩部分loss前的系數(shù)最大程度相同,設(shè)置λ=10。
為了驗(yàn)證實(shí)驗(yàn)效果,本文測(cè)試數(shù)據(jù)庫采用2019年8月FLIR公司推出的免費(fèi)用于算法訓(xùn)練的FLIR Thermal Starter 數(shù)據(jù)集V1.3。數(shù)據(jù)是由安裝在車上的RGB相機(jī)和熱成像相機(jī)獲取的。數(shù)據(jù)集總共包含14452張紅外圖像,其中10228張來自多個(gè)短視頻;4224張來自一個(gè)長為144 s的視頻;數(shù)據(jù)集圖像包括5種目標(biāo)分類:行人、狗、機(jī)動(dòng)車、自行車及其他車輛。該數(shù)據(jù)集使用MSCOCO labelvector進(jìn)行標(biāo)注,提供了帶注釋的熱成像數(shù)據(jù)集和對(duì)應(yīng)的無注釋RGB圖像(圖4),數(shù)據(jù)集文件格式包括五種:(1)14位TIFF熱圖像(無AGC);(2)8位JPEG熱圖像(應(yīng)用AGC),圖像中未嵌入邊界框;(3)8位JPEG熱圖像(應(yīng)用AGC),圖像中嵌入邊界框便于查看;(4)RGB-8位JPEG圖像;(5)注釋:JSON(MSCOCO格式)。
圖4 道路三種圖像效果圖
本文在改進(jìn)的空間金字塔網(wǎng)絡(luò)結(jié)構(gòu)中,設(shè)計(jì)了6個(gè)anchor來覆蓋整個(gè)輸入的圖片,anchor的長寬比例設(shè)置為[1∶1,1∶2]。通過大量的實(shí)驗(yàn)數(shù)據(jù)得出,采用這個(gè)參數(shù)設(shè)置算法效果相對(duì)最好。實(shí)驗(yàn)中,我們先對(duì)紅外圖像做了預(yù)處理,即紅外圖像和可見光圖像做的融合處理,如圖4所示。本文采用的算法實(shí)現(xiàn)道路行人目標(biāo)識(shí)別的效果圖,如圖5所示。
圖5 行人識(shí)別效果圖
通過算法的設(shè)計(jì)在python程序中的實(shí)現(xiàn),經(jīng)過模型訓(xùn)練。我們做出如下分析:①比較2分類和3分類道路識(shí)別:3分類是背景,行人,騎自行車和騎摩托車的人,通過誤差分析,行人和騎車的人經(jīng)?;煜?然后說明了可以把行人和騎車的人合并在一起的理由,進(jìn)行了2分類測(cè)試,效果顯然比三分類好。②卷積通道調(diào)整:在測(cè)試識(shí)別過程中發(fā)現(xiàn)了一些頑固的反例,這些樣本是由燈光反射或車輛燈光系統(tǒng)造成的。在訓(xùn)練和測(cè)試中為了減輕這些反例的影響,應(yīng)用均值減去法對(duì)樣本數(shù)據(jù)進(jìn)行預(yù)處理。此外,為防止梯度爆炸,在訓(xùn)練過程中當(dāng)測(cè)試損失率連續(xù)3代不再提高的時(shí)候?qū)W(xué)習(xí)率減半。對(duì)比了卷積層濾波器個(gè)數(shù)為30~18,25~15,20~12時(shí)的2分類結(jié)果。得到個(gè)數(shù)為25~15時(shí)2分類結(jié)果最佳,測(cè)試準(zhǔn)確率93.22 %,訓(xùn)練損失率為1.07 %。③使用自學(xué)習(xí)softmax分類器微調(diào):準(zhǔn)確率由93.22 %上升到94.49 %,平均識(shí)別時(shí)間為0.07 ms。
本文從FLIR Thermal Starter數(shù)據(jù)集中選擇用于測(cè)試的實(shí)驗(yàn)紅外熱圖像600張,其中包含行人、機(jī)動(dòng)車、自行車等交通目標(biāo)2101個(gè),對(duì)數(shù)據(jù)集采用不同算法進(jìn)行實(shí)驗(yàn)比較,模型檢測(cè)精度和速度對(duì)比如下表1所示,實(shí)驗(yàn)證明,經(jīng)過圖像融合和改進(jìn)后的模型分類精度更高,檢測(cè)速度更快。
本文在研究典型的深度卷積神經(jīng)網(wǎng)絡(luò)算法用于行人目標(biāo)檢測(cè)時(shí),以Faster RCNN算法為基礎(chǔ),采用空間金字塔池化網(wǎng)絡(luò)、特征融合方式改進(jìn)了網(wǎng)絡(luò)中的函數(shù),有效提高了汽車駕駛場(chǎng)景中應(yīng)對(duì)環(huán)境條件差、目標(biāo)距離汽車遠(yuǎn)近的尺度問題帶來的目標(biāo)檢測(cè)的準(zhǔn)確率、提高了錨點(diǎn)選擇框在神經(jīng)網(wǎng)絡(luò)中的算法效率。理論分析和計(jì)算機(jī)程序?qū)嶒?yàn)數(shù)據(jù)可以說明,在道路中借助于紅外圖像,改進(jìn)后的深度神經(jīng)網(wǎng)絡(luò)在行人檢測(cè)中提高了有效性。因此,在汽車駕駛場(chǎng)景應(yīng)用中,利用本算法可以更有效地檢測(cè)行人目標(biāo)。