• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種改進(jìn)的YOLO v3紅外圖像行人檢測(cè)方法

      2020-12-18 08:55:34馬小陸吳紫恒
      關(guān)鍵詞:邊框行人邊界

      馬小陸,方 洋,王 兵,吳紫恒

      (安徽工業(yè)大學(xué) 電氣與信息工程學(xué)院,安徽 馬鞍山 243002)

      《2018年全球道路安全現(xiàn)狀報(bào)告》指出,全球道路交通死亡人數(shù)近年連續(xù)攀升,平均每年造成約135萬(wàn)人死亡[1],其中夜晚發(fā)生交通事故的頻率雖然比白天低,但夜間交通事故造成的危害卻更嚴(yán)重。夜間交通事故多發(fā)生于城市交叉路口。由于夜間交叉路口的光線較差,駕駛?cè)艘暰€受到影響,無(wú)法注意到路口的行人,因此對(duì)夜間交叉路口行人檢測(cè)尤為重要。

      目前,已有的行人檢測(cè)技術(shù)主要有3類(lèi):①基于背景建模的算法,例如ViBe算法[2]和光流法[3]等;②基于傳統(tǒng)機(jī)器學(xué)習(xí)的算法,例如HOG + SVM[4]和DPM[5];③基于深度學(xué)習(xí)的算法,例如R-CNN系列算法和改進(jìn)的Fast R-CNN算法[6-9]。

      Redmon等[10]提出的YOLO算法,拋棄了候選框提取機(jī)制,同時(shí)完成目標(biāo)分類(lèi)和目標(biāo)定位任務(wù),進(jìn)一步提高了檢測(cè)速率。Redmon在YOLO基礎(chǔ)上提出了YOLO 9000和YOLO v3檢測(cè)算法[11-12],其中YOLO v3兼顧準(zhǔn)確率和檢測(cè)速率,能夠取得較好的檢測(cè)效果。

      已有的行人檢測(cè)算法大多是針對(duì)白天光照良好的情況,但是由于夜晚光線較暗,行人特征不明顯,因而存在行人檢測(cè)不連續(xù)的問(wèn)題。紅外相機(jī)的成像原理是基于目標(biāo)對(duì)紅外光的反射,不受光照條件的影響,可以在夜間正常工作,且白天的工作能力[13]也不會(huì)被削弱,因此能夠更好地滿(mǎn)足夜間持續(xù)行人檢測(cè)工作的需求。

      針對(duì)夜間城市交叉路口光線差和現(xiàn)有行人檢測(cè)算法存在不連續(xù)的問(wèn)題,本文結(jié)合YOLO v3檢測(cè)算法的優(yōu)點(diǎn),提出一種改進(jìn)的YOLO v3夜間交叉路口行人檢測(cè)方法,建立城市道路交叉路口行人紅外圖像數(shù)據(jù)集IFPD(Infrared Pedestrian Dataset),對(duì)目標(biāo)先驗(yàn)框(anchor boxes)重新聚類(lèi),使用GIoU代替均方差作為邊框回歸損失函數(shù),并對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整。

      1 YOLO v3算法

      1.1 YOLO v3算法原理

      首先將任意大小的輸入圖像縮放到416×416;然后通過(guò)特征提取網(wǎng)絡(luò)Darknet-53提取特征[12],得到大小為N×N的特征圖;再按特征圖大小將圖像分成N×N個(gè)網(wǎng)格單元,若某個(gè)目標(biāo)的中心落入某個(gè)網(wǎng)格中,則就由該網(wǎng)格對(duì)該目標(biāo)的類(lèi)別和所在具體位置進(jìn)行預(yù)測(cè)。YOLO v3在3個(gè)不同尺度的特征圖上檢測(cè)目標(biāo),分別為13×13,26×26,52×52,特征圖上每個(gè)網(wǎng)格在目標(biāo)中心產(chǎn)生3個(gè)不同大小的先驗(yàn)框(anchor boxes),再對(duì)anchor boxes進(jìn)行邊框回歸,即通過(guò)平移和縮放調(diào)整anchor boxes的位置,直到與目標(biāo)真實(shí)框的偏差最小。將與目標(biāo)真實(shí)框的交并比(Intersection over Union,IoU)最大的作為網(wǎng)格輸出。邊框回歸公式為:

      bx=σ(tx)+cx

      (1)

      by=σ(ty)+cy

      (2)

      bw=etw·pw

      (3)

      bh=eth·ph

      (4)

      式(1)~(4)中,bx,by,bw,bh為預(yù)測(cè)得到的邊框中心坐標(biāo)和尺寸;tx,ty,tw,th為邊界框坐標(biāo)偏移;cx,cy為某網(wǎng)格左上角圖片偏移坐標(biāo);pw,ph為預(yù)測(cè)前邊框的大小。

      1.2 特征提取網(wǎng)絡(luò)Darknet-53

      特征提取網(wǎng)絡(luò)Darknet-53共有53個(gè)卷積層,借鑒了ResNet的殘差結(jié)構(gòu),其殘差結(jié)構(gòu)中共有5個(gè)殘差塊。殘差塊由多個(gè)殘差單元組成,主要包括卷積層、批量歸一化層、激活函數(shù)。其中,卷積層主要負(fù)責(zé)特征提取,將提取的特征進(jìn)行歸一化處理,最后由激活函數(shù)進(jìn)行非線性處理,可以有效地?cái)M合非線性模型。特征提取網(wǎng)絡(luò)Darknet-53的功能優(yōu)于YOLO v2的Darknet-19,同時(shí)檢測(cè)效果好于ResNet-101和ResNet-152[14],以NVIDIA Titan X為平臺(tái),在ImageNet[15]數(shù)據(jù)集下進(jìn)行測(cè)試。各特征網(wǎng)絡(luò)性能對(duì)比[12]見(jiàn)表1。

      表1 各特征網(wǎng)絡(luò)性能對(duì)比

      由表1可知,Darknet-53在滿(mǎn)足檢測(cè)實(shí)時(shí)性的同時(shí),比 Darknet-19的準(zhǔn)確率更高,檢測(cè)速度約為ResNet-101的1.5倍,在和ResNet-152性能達(dá)到一致的同時(shí),檢測(cè)速度提高至78 f/s。

      2 YOLO v3算法改進(jìn)

      2.1 聚類(lèi)算法的改進(jìn)

      YOLO v3算法引入了Faster R-CNN中anchor boxes的思想,即anchor boxes是預(yù)設(shè)的固定大小的先驗(yàn)框,anchor boxes的大小與檢測(cè)目標(biāo)越接近,則檢測(cè)效果越好。原始YOLO v3使用k-means算法[16]得到9個(gè)anchor boxes,分別為(10,13),(16,30),(33,23),(30,61),(62,45),(59,119),(116,90),(156,198),(373,326),按照大小順序平均分配給3個(gè)不同大小的特征圖。尺度更大的特征圖使用更小的先驗(yàn)框,這樣就可以獲得更多的目標(biāo)邊緣信息。

      為了適應(yīng)實(shí)驗(yàn)數(shù)據(jù)集中行人寬高比固定的特點(diǎn),以達(dá)到最優(yōu)的訓(xùn)練效果,需要對(duì)數(shù)據(jù)集重新聚類(lèi)出符合目標(biāo)的anchor boxes。但是k-means算法是在所有元素中隨機(jī)選取聚類(lèi)中心,隨機(jī)性較強(qiáng),每次聚類(lèi)產(chǎn)生的結(jié)果都不相同,無(wú)法得到符合要求的結(jié)果。

      因此,為了解決k-means算法存在的問(wèn)題,使用k-means++算法聚類(lèi)行人數(shù)據(jù)集的anchor boxes。k-means++算法對(duì)聚類(lèi)中心的選擇進(jìn)行改進(jìn),具體步驟為:①先隨機(jī)選擇一個(gè)點(diǎn)作為第1個(gè)聚類(lèi)中心O;②分別計(jì)算余下的每一個(gè)點(diǎn)與O之間的距離并進(jìn)行排序;③與O距離越遠(yuǎn)的點(diǎn)作為第2個(gè)中心點(diǎn)的概率越高。假設(shè)已經(jīng)確定了N個(gè)中心點(diǎn),與當(dāng)前N個(gè)中心點(diǎn)越遠(yuǎn)的點(diǎn)作為第N+1個(gè)中心點(diǎn)的概率更高。k-means++同樣選擇IoU作為距離度量標(biāo)準(zhǔn),IoU為真實(shí)框和anchor boxes的重疊率,距離定義為:

      d(box,centroid)=1-IoU(box,centriod)

      (5)

      式(5)中,box為數(shù)據(jù)集標(biāo)簽的真實(shí)框坐標(biāo);centroid為先驗(yàn)框的坐標(biāo);d的值介于[0,1]之間,該值越小,表示先驗(yàn)框越接近于真實(shí)框,聚類(lèi)效果越好。

      因此,使用k-means++聚類(lèi)得到的9個(gè)anchor boxes分別為(10,26),(13,42),(14,61),(19,64),(20,99),(27,112),(42,195),(77,298),(182,272)。

      2.2 邊框損失函數(shù)的改進(jìn)

      YOLO v3算法的損失函數(shù)由邊框坐標(biāo)損失、邊框?qū)捀邠p失、類(lèi)別損失、置信度損失共同組成。其中,邊框回歸使用的損失函數(shù)為均方誤差(Mean Square Error,MSE)。但是,在實(shí)際應(yīng)用過(guò)程中發(fā)現(xiàn),基于MSE的邊框損失函數(shù)會(huì)存在以下2個(gè)問(wèn)題:①M(fèi)SE不能正確反映預(yù)測(cè)邊界框的準(zhǔn)確度;②損失值對(duì)邊界框尺度較敏感,會(huì)隨著邊界框尺度的變化而變化,影響損失函數(shù)的優(yōu)化。

      L2范數(shù),IoU,GIoU分別作為損失函數(shù)的對(duì)比示意圖如圖1所示。由圖1可知,3組邊界框與真實(shí)框的IoU不同,但卻擁有同樣的損失函數(shù)值L2,驗(yàn)證了基于MSE的邊框損失函數(shù)存在不能正確反映預(yù)測(cè)邊界框準(zhǔn)確度的問(wèn)題。與MSE相比,IoU更能體現(xiàn)邊界框的質(zhì)量,IoU表示邊界框與真實(shí)框的交并比,僅與二者的重疊度有關(guān),對(duì)邊框的大小變化具有魯棒性,使用IoU代替MSE進(jìn)行邊界框的回歸更合理。IoU的計(jì)算公式為:

      圖1 L2,IoU,GIoU對(duì)比示意圖

      (6)

      式(6)中,A,B分別為邊界框和真實(shí)框的面積。

      但基于IoU的邊框函數(shù)同樣存在2個(gè)問(wèn)題:①當(dāng)邊界框與真實(shí)框之間沒(méi)有重合時(shí),IoU為 0,此時(shí)損失函數(shù)梯度為0,則無(wú)法進(jìn)一步優(yōu)化;②IoU無(wú)法精確地反映邊界框和真實(shí)框的重合大小。

      針對(duì)IoU存在的問(wèn)題,Rezatofighi[17]等提出了GIoU損失函數(shù),不僅關(guān)注邊界框和真實(shí)框的重疊區(qū)域,還關(guān)注非重疊區(qū)域,以更好地反映邊界框和真實(shí)框的重合度。此外,由圖1可以清晰地看出,GIoU能更好地反映預(yù)測(cè)框和真實(shí)框之間重合度的大小。因此,選用GIoU作為邊界框回歸損失函數(shù),能更好地對(duì)行人進(jìn)行定位,提高行人檢測(cè)的準(zhǔn)確率。GIoU損失函數(shù)的計(jì)算公式為:

      (7)

      式(7)中,C為邊界框A和真實(shí)框B的最小閉包區(qū)域面積;GIoU的值在[-1,1]內(nèi),1代表邊界框與真實(shí)框完全重合,-1代表邊界框與真實(shí)框無(wú)交集。

      2.3 網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)

      由于夜晚環(huán)境下的可見(jiàn)光無(wú)法有效地辨別目標(biāo),因此采用單通道紅外圖像,對(duì)比可見(jiàn)光下的圖像,紅外圖像缺失了顏色、紋理等信息。YOLO v3網(wǎng)絡(luò)針對(duì)可見(jiàn)光圖像輸入的尺寸是416×416×3,而針對(duì)紅外圖像的輸入有2種方法:①將紅外圖像的單通道模式轉(zhuǎn)換成與可見(jiàn)光圖像相同的三通道模式;②將輸入網(wǎng)絡(luò)調(diào)整為416×416×1。由于第1種方法只單純地將單通道圖像復(fù)制成三通道格式,并沒(méi)有增加圖像的顏色、紋理等信息,因此選用第2種方法,調(diào)整初始輸入網(wǎng)絡(luò),將輸入圖像的通道數(shù)改為1,可以極大程度上減少計(jì)算過(guò)程中的參數(shù)冗余。

      由于本文所用數(shù)據(jù)集大小均為640×480,將輸入圖像送入YOLO v3網(wǎng)絡(luò)檢測(cè)時(shí),會(huì)先將圖像調(diào)整至416×416,此時(shí)會(huì)降低輸入圖像的分辨率,造成圖像內(nèi)的行人目標(biāo)失真,影響目標(biāo)的檢測(cè)效果,因此將輸入圖像的大小調(diào)整為640×480×1。Darknet-53使用多層卷積神經(jīng)網(wǎng)絡(luò)提取目標(biāo)特征,然而隨著網(wǎng)絡(luò)層數(shù)的增加,多次的卷積操作也會(huì)帶來(lái)特征消失的問(wèn)題。為了使網(wǎng)絡(luò)更好地的適應(yīng)行人檢測(cè),提高檢測(cè)速率,對(duì)YOLO v3的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行修剪,分別將多尺度檢測(cè)端前的卷積層刪掉,其對(duì)應(yīng)網(wǎng)絡(luò)中的層數(shù)分別是第80,81,92,93,105層,由106層縮減為101層。改進(jìn)后的YOLO v3網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2所示。

      圖2 改進(jìn)后的YOLO v3網(wǎng)絡(luò)結(jié)構(gòu)圖

      3 結(jié)果與分析

      3.1 行人數(shù)據(jù)集標(biāo)簽制作

      紅外攝像頭選用海康200萬(wàn)星光級(jí)1/2.7"CMOS智能筒型,型號(hào)為DS-2CD2T26F(D)WDA3-I(S),最遠(yuǎn)照射距離為50 m。將攝像儀調(diào)整到夜晚模式采集視頻,再將視頻進(jìn)行分幀調(diào)整為圖片格式,調(diào)整后的圖片數(shù)量為3 265張。仿照VOC2007數(shù)據(jù)集格式對(duì)圖片進(jìn)行整理,將數(shù)據(jù)集按照9∶1劃分成訓(xùn)練集和測(cè)試集。使用LabelImg工具對(duì)訓(xùn)練集中的行人進(jìn)行逐一標(biāo)注,生成與之對(duì)應(yīng)的xml格式的目標(biāo)框信息文件。最后,編寫(xiě)python程序,將xml文件轉(zhuǎn)成txt文件,行人數(shù)據(jù)集標(biāo)簽制作完成。

      3.2 實(shí)驗(yàn)環(huán)境配置參數(shù)與訓(xùn)練

      實(shí)驗(yàn)軟硬件參數(shù)配置見(jiàn)表2。在將圖像送入網(wǎng)絡(luò)訓(xùn)練之前,隨機(jī)改變圖像的曝光度、大小、對(duì)比度等,將動(dòng)量系數(shù)設(shè)置為0.9,每迭代10次隨機(jī)改變模型輸入尺寸大小,激活函數(shù)為L(zhǎng)eaky ReLU。初始學(xué)習(xí)率設(shè)置為0.001,在訓(xùn)練迭代40 000和45 000次后,學(xué)習(xí)率依次降低了10倍。實(shí)驗(yàn)訓(xùn)練過(guò)程中的學(xué)習(xí)率會(huì)根據(jù)迭代次數(shù)的增加而改變,不僅保證了良好的訓(xùn)練效果,還兼顧了后期訓(xùn)練的穩(wěn)定性。

      表2 實(shí)驗(yàn)軟硬件參數(shù)配置

      以10為步長(zhǎng)繪制改進(jìn)后的YOLO v3算法的Loss曲線,同時(shí)繪制邊界框與真實(shí)框的IoU曲線。Loss曲線和IoU曲線如圖3所示。由圖3(a)可以看出,訓(xùn)練過(guò)程中損失值在不斷減小,當(dāng)?shù)?0 000次時(shí)損失值收斂至0.1左右,模型趨于穩(wěn)定。由圖3(b)可以看出,訓(xùn)練過(guò)程中Avg-IoU逐漸增大,說(shuō)明模型的精度在不斷提高,迭代至10 000次后,平均交并比可保持在90%以上。

      (a) Loss曲線

      圖4 改進(jìn)前后YOLO v3算法行人檢測(cè)P-R曲線

      (a) (b) (c)

      (a) (b) (c)

      (a) 分辨率為416×416

      (a) 分辨率為416×416

      3.3 測(cè)試結(jié)果分析

      實(shí)驗(yàn)結(jié)果的準(zhǔn)確率使用多類(lèi)平均精度 (mean Average Precision,mAP)和召回率(Recall,R)作為評(píng)價(jià)指標(biāo),使用FPS作為衡量檢測(cè)速度的指標(biāo)。由于本文的檢測(cè)對(duì)象只有“行人”一類(lèi),所以mAP即是行人的準(zhǔn)確率AP。準(zhǔn)確率AP和召回率R的公式為:

      (8)

      (9)

      式(8)~(9)中,TP表示預(yù)測(cè)結(jié)果與真實(shí)結(jié)果均為行人的數(shù)量;FP表示預(yù)測(cè)結(jié)果為行人、真實(shí)結(jié)果為非行人的數(shù)量;FN表示預(yù)測(cè)結(jié)果為非行人、真實(shí)結(jié)果為行人的數(shù)量。

      改進(jìn)前后YOLO v3算法行人檢測(cè)P-R曲線如圖4所示。其中,P-R曲線與坐標(biāo)軸圍成的面積代表AP,面積越大,AP就越高。由圖4可以看出,改進(jìn)后的YOLO v3算法較改進(jìn)前具有更高的AP值,即準(zhǔn)確率更高。改進(jìn)前后YOLO v3算法模型的mAP,R,F(xiàn)PS值見(jiàn)表3。從表3中可以明顯地看出,改進(jìn)后的算法較改進(jìn)前的算法mAP提高了5.75%,準(zhǔn)確率有了較大的提升,并且擁有更快的檢測(cè)速度,達(dá)到了夜間交叉路口行人檢測(cè)的需求。

      表3 改進(jìn)前后YOLO v3算法模型的mAP,R,F(xiàn)PS

      分別對(duì)改進(jìn)前后的模型精度進(jìn)行測(cè)試,改進(jìn)前YOLO v3模型的檢測(cè)結(jié)果如圖5所示,改進(jìn)后YOLO v3模型的檢測(cè)結(jié)果如圖6所示。

      對(duì)比圖5與圖6可以看出,在夜晚視野不清楚或光線較暗的地方,當(dāng)存在行人遮擋或行人距離攝像頭較遠(yuǎn)、目標(biāo)較小時(shí),改進(jìn)前的改進(jìn)后YOLO v3模型的算法模型的漏檢率較高,而改進(jìn)后的YOLO v3可以準(zhǔn)確地檢測(cè)出行人,漏檢率較低,且檢測(cè)速度較快。

      再分別對(duì)測(cè)試集中同一段視頻進(jìn)行實(shí)時(shí)性驗(yàn)證,改進(jìn)前模型實(shí)時(shí)測(cè)試結(jié)果如圖7所示,改進(jìn)后模型實(shí)時(shí)測(cè)試結(jié)果如圖8所示。每張圖左半邊信息分別為該模型當(dāng)前的檢測(cè)幀率、圖像中存在行人標(biāo)簽及對(duì)應(yīng)行人的置信度。對(duì)比圖7與圖8可以看出,改進(jìn)后的YOLO v3模型實(shí)時(shí)性明顯高于改進(jìn)前YOLO v3模型的實(shí)時(shí)性。

      4 結(jié)論

      以YOLO v3算法為基礎(chǔ),以夜晚交叉路口的行人檢測(cè)為應(yīng)用場(chǎng)景,建立行人紅外圖像數(shù)據(jù)集,并重新聚類(lèi)生成符合夜晚行人的anchor boxes,對(duì)損失函數(shù)進(jìn)行改進(jìn),調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的YOLO v3模型在未降低檢測(cè)速度的基礎(chǔ)上,提高了對(duì)行人檢測(cè)的精度,滿(mǎn)足夜間交叉路口行人檢測(cè)的要求。

      猜你喜歡
      邊框行人邊界
      一模六產(chǎn)品篩板模具的設(shè)計(jì)與應(yīng)用
      智能制造(2022年4期)2022-08-18 16:21:14
      拓展閱讀的邊界
      毒舌出沒(méi),行人避讓
      意林(2021年5期)2021-04-18 12:21:17
      路不為尋找者而設(shè)
      論中立的幫助行為之可罰邊界
      用Lightroom添加寶麗來(lái)邊框
      給照片制作專(zhuān)業(yè)級(jí)的邊框
      我是行人
      擺脫邊框的束縛優(yōu)派
      “偽翻譯”:“翻譯”之邊界行走者
      万山特区| 嘉义市| 越西县| 安仁县| 开封县| 夏邑县| 迁安市| 新密市| 重庆市| 金昌市| 林西县| 怀集县| 湟源县| 介休市| 五莲县| 盐亭县| 平陆县| 芜湖市| 临泽县| 阿勒泰市| 布尔津县| 青冈县| 普陀区| 裕民县| 绥滨县| 周至县| 钟山县| 内黄县| 利川市| 岱山县| 抚顺县| 台山市| 滨州市| 宣化县| 新宁县| 阳城县| 白玉县| 南投市| 辽宁省| 屏东县| 海伦市|