基于改進型SSD算法的目標車輛檢測研究

2019-02-22 07:46:06陳冰曲

重慶理工大學(xué)學(xué)報(自然科學(xué)) 2019年1期

陳冰曲，鄧濤，b

（重慶交通大學(xué) a.機電與車輛工程學(xué)院；b.航空學(xué)院，重慶 400074）

準確實時檢測目標車輛能有效緩解交通監(jiān)控壓力和降低車輛違規(guī)行為。目前，基于計算機視覺的方法吸引了國內(nèi)外學(xué)者廣泛關(guān)注，如應(yīng)用于車流統(tǒng)計、車輛檢索和車輛行為分析等方面。

傳統(tǒng)目標檢測方法如HOG（histogram of oriented gradient）［1］、SIFT（scale-invariant feature transform）［2］等，利用手工設(shè)計特征，將特征送入諸如SVM（support vector machine）［3］、AdaBoost［4］等分類器進行分類實現(xiàn)目標檢測。上述方法對于簡單場景的目標檢測效果不錯，但是對于稍微復(fù)雜的場景或者光照變化的情況下檢測精度就相對較差。即使采用星型結(jié)構(gòu)的DPM（deformable part model）［5］，雖可以檢測出變形目標和部分重疊目標，但因采用滑動窗口提取特征再進行分類，導(dǎo)致計算量過大，實時性受到影響。

近年來，卷積神經(jīng)網(wǎng)絡(luò)在圖片分類、目標檢測領(lǐng)域取得了巨大成功。相比于手工設(shè)計特征，基于卷積神經(jīng)網(wǎng)絡(luò)的目標檢測模型能夠自主學(xué)習(xí)不同層級的特征，具有更加豐富的特征和更強的特征表達能力。目前兩階段的卷積神經(jīng)網(wǎng)絡(luò)算法有R-CNN［6］、SPPnet［7］、Fast R-CNN［8］、Faster RCNN［9］、R-FCN［10］等。與之相比，單階段目標檢測模型更加容易訓(xùn)練，計算效率更高，典型代表如YOLO［11］、SSD［12］等。其中，SSD檢測性能更好，具有實時性好、檢測精度高等優(yōu)點。

1 SSD算法

1.1 SSD網(wǎng)絡(luò)結(jié)構(gòu)

作為目前最先進和實時的目標檢測網(wǎng)絡(luò)之一，SSD只用一個全卷積網(wǎng)絡(luò)就完成了目標分類和定位任務(wù)。SSD結(jié)構(gòu)框圖如圖1所示，它采用VGG-16［17］作為基礎(chǔ)特征提取層，將 VGG-16網(wǎng)絡(luò)結(jié)構(gòu)的全連接層fc6和fc7層轉(zhuǎn)換成兩個卷積層，并去除VGG-16中的dropout層和分類層；再格外增加了4組卷積層，每一組都首先使用1×1卷積核降通道，再用3×3卷積核降尺度增通道。不同層次的特征圖分別用于不同尺度目標的邊框偏移以及不同類別得分的預(yù)測。最后通過非極大值抑制（NMS）得到最終的檢測結(jié)果。SSD結(jié)合多尺度特征圖共同檢測，用淺層分辨率大的特征圖檢測小目標，深層大感受域的特征圖檢測大目標，保證不同尺度大小的目標都能得到檢測。

圖1 SSD框架

1.2 SSD區(qū)域候選框

SSD采用多尺度特征圖方法，在不同尺度特征圖上都會設(shè)置不同大小和寬高比的區(qū)域選框，區(qū)域候選框定義如下計算。

式中：m為特征層數(shù)；smin＝0.2為最低特征層尺度；smax＝0.9為最高特征層尺度；中間特征層尺度均勻分布。

區(qū)域候選框具有不同的寬高比 ar∈｛1，2，3，。區(qū)域候選框的寬、高分別為同時對于寬高比為1的區(qū)域候選框增加一個尺度每個區(qū)域候選框的中心坐標為）。其中 w為第 k個fk特征圖的寬，hfk為第 k個特征圖的高，i∈［0，wfk），j∈［0，hfk）。

SSD把 conv4_3、fc7、conv8_2、conv9_2、conv10_2、conv11_2作為預(yù)測層，各層區(qū)域候選框參數(shù)統(tǒng)計如表1所示。從表1中可以看出：隨著網(wǎng)絡(luò)加深特征圖尺寸逐漸減小，區(qū)域候選框的尺寸不斷增大，所以SSD用淺層特征圖檢測小目標，用深層特征圖檢測大目標。

表1 SSD各預(yù)測層區(qū)域候選框

1.3 SSD損失函數(shù)

SSD訓(xùn)練過程中對位置和目標類別進行回歸，它目標損失函數(shù)為定位損失（loc）與置信度損失（conf）之和，其表達式如下式。

式中：N為區(qū)域候選框與真實框的匹配個數(shù)，如果N＝0則設(shè)置Loss＝0；x為區(qū)域候選框與不同類別的真實框匹配結(jié)果，如果匹配x＝1，否則x＝0；c為預(yù)測物體類別置信度；l為預(yù)測框位置偏移信息；g為真實邊框與區(qū)域候選框的偏移量；α為位置損失權(quán)重參數(shù)通常設(shè)為1。

SSD采用SmoothL1作為位置損失函數(shù)，對區(qū)域候選框（p）的中心坐標（cx，cy）、寬（w）、高（h）的偏移量進行回歸，按下式計算：

式中i、j分別表示第i個區(qū)域候選框與第j個真實框匹配。

SmoothL1函數(shù)計算如下：

類別置信度損失函數(shù)采用Softmax損失函數(shù)用下式計算：

2 改進型SSD算法

2.1 SSD檢測車輛目標存在的不足

SSD目標檢測性能好壞在很大程度上取決于特征提取的好壞，而特征提取是由訓(xùn)練數(shù)據(jù)所驅(qū)動的。SSD中訓(xùn)練數(shù)據(jù)是由區(qū)域候選框決定的，因為只有區(qū)域候選框與真實的目標邊框的IOU＞0.5時被標注為正樣本，反之為負樣本。區(qū)域候選框的設(shè)置應(yīng)該根據(jù)真實框的變化范圍而定。一般來說，候選框與真實框匹配度越高就越能減少背景噪聲的影響從而提高檢測的準確度。并且區(qū)域候選框與真實框差異小，更利于位置回歸，因為區(qū)域候選框與真實框相近時是個線性回歸，如果兩者差異太大則必須建立復(fù)雜的非線性模型求解。原始SSD區(qū)域候選框與車輛數(shù)據(jù)集分布，如圖2所示。圖中黑色“點”代表數(shù)據(jù)集中車輛寬高分布，彩色直線為原始SSD中不同寬高比直線，彩色“三角形”為原始SSD中設(shè)置的區(qū)域候選框。從圖中可以看出SSD中大部分區(qū)域候選框離車輛數(shù)據(jù)集分布較遠，直接將SSD應(yīng)用于車輛數(shù)據(jù)集不能得到很好的檢測結(jié)果。

圖2 區(qū)域候選框尺度分布

SSD存在對于有重疊的車輛目標檢測比較弱的現(xiàn)象。如圖3，藍色框為目標A真實框，綠色框為目標B真實框，紅色虛線框為目標A的預(yù)測框。當目標車輛A被目標車輛B重疊時，由于兩輛車有相似的特征，檢測器很容易被混淆，結(jié)果目標A的預(yù)測邊框向B偏移，導(dǎo)致定位不準確。對原始的檢測結(jié)果進行非極大值抑制（NMS）處理時，目標A的預(yù)測框可能被B的預(yù)測框所抑制，導(dǎo)致A漏檢。

圖3 SSD檢測結(jié)果與真實值的偏差

2.2 SSD區(qū)域候選框設(shè)置

本文對訓(xùn)練數(shù)據(jù)集運行 k-means聚類［14］，令k＝5得到5個聚類中心，具體步驟如下：① 獲取訓(xùn)練樣本，并隨機選擇k個初始聚類中心；②計算每個樣本與這k個中心各自的歐式距離，按照最小距離原則分配到最鄰近聚類；③使用每個聚類中的樣本均值作為新的聚類中心；④重復(fù)步驟②和③直到聚類中心不再變化；⑤結(jié)束，得到k個聚類。k-means算法聚類后的結(jié)果見表2。

表2 k-means聚類結(jié)果

將SSD區(qū)域候選框和寬高比都設(shè)置在聚類中心周圍，使得區(qū)域候選寬與真實框更加匹配，并對SSD作如下更改：①刪除寬高比為1／3的框；②只保留預(yù)測層conv4_3、fc7、conv8_2，刪除后面的所有卷積層。③conv4_3設(shè)置4個區(qū)域候選框，fc7、conv8_2分別設(shè)置5個區(qū)域候選框。

更改后記為SSD_change，其區(qū)域候選框w-h分布如圖4。

圖4 修改后區(qū)域候選框尺度分布

2.3 排斥損失

針對SSD對有重疊的目標檢測效果不佳的問題，本文在原始SSD損失函數(shù)的基礎(chǔ)上再增加一項排斥損失［13］，最終SSD損失函數(shù)如下：

設(shè)P＋＝｛P｝表示至少與一個真實邊框匹配（IoU＞0.5）的區(qū)域候選框的集合，G＋＝｛G｝表示所有真實邊框集合。對于給定的候選框P∈P＋，分配一個與它IoU值最大的真實框，作為它的指定目標，如下。

由于排斥損失是使區(qū)域候選框與除它指定目標以外的相鄰真實邊框產(chǎn)生排斥，因此對于P∈P＋，它排斥的目標是除它指定目標外，與它IoU值最大的那個真實目標。

設(shè)BP為候選框P回歸出的預(yù)測框。BP與間的IoG計算如下：

3 實驗分析

3.1 數(shù)據(jù)集

本文使用KITTI數(shù)據(jù)集中的車輛對模型進行訓(xùn)練與評估。KITTI數(shù)據(jù)集包含7 481張圖片用于訓(xùn)練與驗證，另外還包含7 518張圖片用于測試。該數(shù)據(jù)集中有許多相互之間嚴重重疊、遮擋的車輛目標，檢測難度較大。訓(xùn)練中，數(shù)據(jù)增強方法與原始SSD一樣，即隨機改變圖片的亮度、對比度、飽和度、色調(diào)，對圖片進行隨機剪切、鏡像。

3.2 訓(xùn)練過程

本文目標檢測網(wǎng)絡(luò)基于VGG16，首先在ImageNet1000類數(shù)據(jù)集上對該網(wǎng)絡(luò)進行10輪訓(xùn)練得到預(yù)訓(xùn)練參數(shù)。使用預(yù)訓(xùn)練分類網(wǎng)絡(luò)獲得的訓(xùn)練參數(shù)對檢測網(wǎng)絡(luò)結(jié)構(gòu)進行微調(diào)，微調(diào)時采用隨機梯度下降法（SGD），初始學(xué)習(xí)率設(shè)為0.001，并在迭代次數(shù)為80 000、100 000次時讓學(xué)習(xí)率減小10倍。參數(shù)momentum和weight decay分別設(shè)置為0.9和0.000 5，訓(xùn)練批量大小為32，訓(xùn)練120 000次。

3.3 評價方法

本文對汽車和其他目標的檢測是一個二分類問題，最終目的是正確檢測出所有車，且沒有將其他目標當作車。為了更好地評價模型，設(shè)置TP代表正確檢測出的汽車，F(xiàn)P代表將其他目標當作汽車，F(xiàn)N代表將汽車檢測為其他目標，TN代表其他目標沒有被檢測為汽車。準確率和召回率計算如下：

設(shè)某一類有N個樣本，其中M個正例，那么可以得到 M個召回率：｛1／M，2／M，…，M／M｝對于每個召回率r，其最大準確率計算公式如下：

AP是衡量模型在每個類別上好壞，mAP衡量模型在所有類別上檢測性能的高低，計算如下：

3.4 實驗結(jié)果與分析

分別訓(xùn)練原始SSD，和改進型SSD_change＋排斥損失，兩個模型檢測性能如表3所示?？梢钥闯?，mAP分別從87.54%、83.59%提高到了91.97%、86.36%，檢測性能分別提高了約4.3%、3%。

表3 檢測的mAP值

圖5為原始SSD（左）和SSD_change（右）的單張圖片檢測效果圖。顯然，相比與原始SSD，SSD_change在重疊目標的檢測上有一定的提高，對于遠處小目標的檢測有很大的提高，這是因為在conv4_3層中設(shè)置的區(qū)域候選框更好地匹配真實目標邊框，降低了環(huán)境噪聲的影響，網(wǎng)絡(luò)可以更好地學(xué)習(xí)目標特征。同時刪除了無用的區(qū)域候選框和特征提取層，降低了網(wǎng)絡(luò)參數(shù)，提高計算速度。

圖5 KITTI數(shù)據(jù)集樣本舉例

4 結(jié)論

1）重新設(shè)計SSD的區(qū)域候選框，使其分布在數(shù)據(jù)的聚類中心，因此區(qū)域候選框與目標真實邊框重疊度高，提高目標檢測性能，同時刪除了多余的區(qū)域候選框和目標預(yù)測層，相比于原始SSD參數(shù)量更少，速度更快。

2）鑒于SSD對重疊目標檢測較弱，在SSD原有損失函數(shù)的基礎(chǔ)上，增加一項排斥損失，提高其對重疊目標的檢測。

然而，車輛目標尺度與人、自行車之類的目標尺度相差較大，如果直接用一個網(wǎng)絡(luò)對這些目標進行檢測，網(wǎng)絡(luò)需要學(xué)習(xí)復(fù)雜的特征映射關(guān)系，導(dǎo)致檢測準確度不高。如何使單個網(wǎng)絡(luò)對于尺度分布大的多個目標檢測依然有很高的準確度，還需進一步研究。