王 嫄 ,王廣義,曾磊磊,熊 寧,閆瀟寧,許能華
(1.天津科技大學(xué)人工智能學(xué)院,天津 300457;2.普邁康(天津)精準(zhǔn)醫(yī)療科技有限公司,天津 300000;3.深圳市安軟科技股份有限公司,深圳 518131)
車輛重識(shí)別在視頻監(jiān)控、智能交通等領(lǐng)域有著廣泛應(yīng)用,對(duì)提升公安監(jiān)控系統(tǒng)的安全性和可靠性有著深遠(yuǎn)意義.但是,基于真實(shí)場(chǎng)景下采集的數(shù)據(jù)進(jìn)行車輛重識(shí)別算法的研發(fā)是一項(xiàng)艱巨的任務(wù).現(xiàn)實(shí)生活中自然環(huán)境十分復(fù)雜,例如光照變化以及陰天、霧霾等環(huán)境因素的影響[1-4].以復(fù)雜環(huán)境為模型,提取有效的車輛特征有較大難度,導(dǎo)致車輛重識(shí)別模型失效,魯棒性較差.同時(shí),由于在現(xiàn)實(shí)生活中同一廠商出品型號(hào)類似的車輛之間存在著相似性,而同型號(hào)車輛的外觀幾乎相同,導(dǎo)致車輛重識(shí)別模型提取的相似特征不具備辨識(shí)性.因此,提取更具魯棒性和辨識(shí)性的車輛特征對(duì)車輛重識(shí)別任務(wù)非常重要.
隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,深度學(xué)習(xí)模型越來越多地被應(yīng)用于車輛重識(shí)別任務(wù).為了得到更具辨識(shí)性和魯棒性的特征以提高車輛重識(shí)別的準(zhǔn)確率,許多車輛特征提取方法被提出.Chu等[5]提出 VANet網(wǎng)絡(luò),將相同視角與不同視角的圖像分開處理,通過設(shè)計(jì)空間內(nèi)和跨空間損失函數(shù),盡可能多地學(xué)習(xí)車輛的全局特征,從而提高車輛重識(shí)別的準(zhǔn)確率.Liu等[6]提出的 PROVID方法是一種基于深度神經(jīng)網(wǎng)絡(luò)的漸進(jìn)式車輛重識(shí)別框架,通過從整體到局部搜索特征域,在學(xué)習(xí)全局特征的同時(shí)學(xué)習(xí)細(xì)節(jié)特征,包括視覺特征、車牌、攝像頭位置等,有效提高了識(shí)別的準(zhǔn)確率.上述兩種方法均是啟發(fā)式降低冗余特征提取的方法.He等[7]開發(fā)了 PNVR框架,提出一種簡(jiǎn)單而有效的部分正則化鑒別特征保留方法,以增強(qiáng)細(xì)微差異的感知能力,通過提取局部細(xì)節(jié)特征降低模型提取的冗余特征,進(jìn)一步提高了車輛重識(shí)別的準(zhǔn)確率.竇鑫澤等[8]提出一種基于高置信局部特征的車輛重識(shí)別優(yōu)化算法,利用車輛不同區(qū)域置信度不同,訓(xùn)練特征提取模型,以提取高置信局部特征,減少模型提取的冗余特征.上述兩種方法通過隱式降低冗余特征提取提高了車輛重識(shí)別的準(zhǔn)確率.
上述方法具有一定的代表性,證實(shí)降低特征之間的冗余可以有效提升模型特征的辨識(shí)度和魯棒性,更好地引導(dǎo)模型學(xué)習(xí)車輛數(shù)據(jù)的潛在視覺規(guī)律.目前大多數(shù)方法均是隱式或啟發(fā)式特征提取方法降低特征的冗余.隱式特征提取方法會(huì)導(dǎo)致模型學(xué)習(xí)到的特征有較強(qiáng)的自適應(yīng)特點(diǎn),特征提取過程中特征相互適應(yīng),未能顯著規(guī)避特征的互相依賴和冗余.啟發(fā)式特征提取方法是基于人工依賴直覺與經(jīng)驗(yàn)設(shè)定的規(guī)則,特征是否冗余以及冗余程度難以被有效估計(jì),與最優(yōu)解也存在一定的偏差.
針對(duì)以上問題,本文提出一種顯式的基于冗余特征正則化的車輛重識(shí)別算法 Res-GC(ResNet grouping convolution).在車輛特征提取階段,基于卷積神經(jīng)網(wǎng)絡(luò),使用分組卷積顯式地對(duì)單個(gè)卷積核進(jìn)行分組,引入卷積核分組數(shù)作為超參數(shù),便于模型顯式地搜索最適應(yīng)的正則組數(shù),從而降低相鄰層濾波器的相關(guān)性,正則化冗余的特征,提取更具區(qū)分性的車輛特征,同時(shí)引入殘差網(wǎng)絡(luò),避免因網(wǎng)絡(luò)加深而帶來的網(wǎng)絡(luò)退化問題.在損失函數(shù)階段,先后使用三元組損失函數(shù)[9]和交叉熵?fù)p失函數(shù)指導(dǎo)車輛特征空間建模,引入 BNNeck(batch normalization neck)方法[10-11]在損失函數(shù)作用的特征之間增加批量歸一化層,解決交叉熵?fù)p失函數(shù)和三元組損失函數(shù)適用的車輛特征空間不一致的問題.在車輛重識(shí)別圖像檢索階段,引入重排序策略[12],提高同一輛車圖像檢索性能.實(shí)驗(yàn)結(jié)果表明,在車輛重識(shí)別的公共數(shù)據(jù)集 VeRi-776和VehicleID上,Res-GC算法的檢索性能優(yōu)于現(xiàn)有模型,驗(yàn)證了算法的有效性.
圖1為本文提出的基于冗余特征正則化的車輛重識(shí)別算法的整體架構(gòu).在數(shù)據(jù)增強(qiáng)階段,輸入訓(xùn)練集中的車輛圖像和圖像標(biāo)簽,對(duì)輸入的車輛圖像進(jìn)行隨機(jī)擦除、翻轉(zhuǎn)和切割;在車輛特征提取階段,使用分組卷積對(duì)卷積神經(jīng)網(wǎng)絡(luò)的卷積核進(jìn)行分組,提取正則化的車輛特征,同時(shí)在車輛特征提取階段引入殘差網(wǎng)絡(luò);在損失函數(shù)階段,采用三元組損失函數(shù)和交叉熵?fù)p失函數(shù)進(jìn)行參數(shù)學(xué)習(xí),引入BNNeck方法在交叉熵?fù)p失函數(shù)前增加批量歸一化層,減少交叉熵?fù)p失函數(shù)和三元組損失函數(shù)適用的車輛特征空間不一致的問題.模型預(yù)測(cè)后處理階段引入重排序策略[12]進(jìn)行結(jié)果處理,進(jìn)一步提高同一輛車的圖像檢索性能.
圖1 本文的車輛重識(shí)別模型整體架構(gòu)Fig.1 Overall architecture of vehicle re-identification model in this article
為了防止隨著網(wǎng)絡(luò)深度的增加導(dǎo)致網(wǎng)絡(luò)的退化,在車輛特征提取階段引入了殘差網(wǎng)絡(luò)進(jìn)行提取.殘差網(wǎng)絡(luò)[12-15]是通過盡可能地加深網(wǎng)絡(luò)來提取更多豐富的圖片特征進(jìn)行訓(xùn)練并測(cè)試模型的一種網(wǎng)絡(luò).它克服了因網(wǎng)絡(luò)深度加大而帶來的退化問題,增強(qiáng)了模型的魯棒性和健壯性,從而達(dá)到更好的效果.
本文模型使用了基于分組卷積的 ResNet50模型,因而正則化冗余的卷積核能夠提取更具魯棒性和辨識(shí)性的車輛特征(圖2[12]).從相鄰層濾波器的相關(guān)性角度出發(fā),在每個(gè)塊結(jié)構(gòu)的特征提取步驟中,將單個(gè)卷積核分成 32組進(jìn)行車輛特征提取.單個(gè)卷積核提取特征的過程存在耦合,使特征相互依賴,而卷積分組可以降低濾波器的相關(guān)性,在降低網(wǎng)絡(luò)參數(shù)的同時(shí)正則化冗余的卷積核,獲得正交的車輛特征,提取具有區(qū)分性的車輛特征.
圖2 ResNet50模型的一個(gè)殘差單元Fig.2 A residual unit of ResNet50 model
分組卷積最先在 ResNeXt模型的應(yīng)用中被證實(shí)有效[16],與標(biāo)準(zhǔn)殘差網(wǎng)絡(luò)不同的是在每個(gè)塊結(jié)構(gòu)中使用多個(gè)低維度的卷積核進(jìn)行網(wǎng)絡(luò)拓?fù)?,降低濾波器的相關(guān)性,通過減少網(wǎng)絡(luò)參數(shù)以正則化冗余的卷積核,提升網(wǎng)絡(luò)尋找數(shù)據(jù)潛在規(guī)律的能力(圖3[16]).
圖3 分組卷積層塊結(jié)構(gòu)Fig.3 Block structure of grouped convolutional layer
在損失函數(shù)階段,由于僅使用交叉熵?fù)p失函數(shù)或僅使用三元組損失函數(shù)只能挖掘部分車輛特征指導(dǎo)信息,因此本文使用交叉熵?fù)p失函數(shù)和三元組損失函數(shù)共同指導(dǎo)車輛特征空間建模.
為了更好地發(fā)揮兩個(gè)損失函數(shù)的組合性能,本文引入了 BNNeck[10-11]方法,通過減少交叉熵?fù)p失函數(shù)和三元組損失函數(shù)之間的不一致性,從而獲得可以更好優(yōu)化網(wǎng)絡(luò)性能的損失函數(shù).交叉熵?fù)p失函數(shù)主要優(yōu)化余弦距離,三元組損失函數(shù)主要優(yōu)化歐氏距離,但直接在訓(xùn)練過程中同時(shí)使用兩種損失,可能導(dǎo)致當(dāng)一種損失減少時(shí),另一種損失振蕩或增加的現(xiàn)象.本文通過在殘差網(wǎng)絡(luò)提取特征之后在分類器全連接層之前添加一個(gè)批量歸一化層.通過歸一化得到適用于余弦距離度量的維度特征,促使不同的損失函數(shù)收斂程度一致.
三元組損失函數(shù)采用軟間距版本[9],為
式中:ft為沒有經(jīng)過批量歸一化層的車輛圖像特征;fp、fn分別為車輛圖像特征 ft對(duì)應(yīng)的正、負(fù)樣本;m為正、負(fù)樣本之間的歐氏距離,在本文中取值為0.3.
批量歸一化計(jì)算方法為
其中:γ、β為批量歸一化過程中產(chǎn)生的參數(shù);E [ ft]與 D [ft]分別表示特征ft的均值與方差;為防止分母為零,設(shè)置參數(shù)ε,在本文中取值為10-8.
交叉熵?fù)p失函數(shù)計(jì)算方法為
式中:fi為經(jīng)過批量歸一化層的車輛圖像特征,P為概率分布的期望輸出,Q為概率分布的實(shí)際輸出.
在模型預(yù)測(cè)后處理階段,本文引入重排序策略[12]進(jìn)一步提高車輛圖像的檢索性能.具體描述為:使用查詢集中車輛圖像的檢索結(jié)果作為新的查詢集進(jìn)行檢索,如果新的查詢集中車輛圖像的檢索結(jié)果包括原始的查詢圖像,則該車輛圖像在原始的檢索結(jié)果中得以保留,否則將該車輛圖像從原始的檢索結(jié)果中刪除.利用上述方法對(duì)查詢集所檢索的結(jié)果重新排序,使用新序列對(duì)車輛重識(shí)別結(jié)果進(jìn)行預(yù)測(cè).重識(shí)別策略計(jì)算方法為
式中:N ( p ,k)表示車輛圖像 p檢索結(jié)果相似度排名前 k的檢索序列,R ( p ,k)表示車輛圖像 p檢索結(jié)果重新排序后相似度排名前k的檢索序列.
2.1.1 數(shù)據(jù)集
VeRi-776數(shù)據(jù)集[6,16-18]是北京郵電大學(xué)構(gòu)建的用于車輛重識(shí)別的數(shù)據(jù)集,該數(shù)據(jù)集由 20個(gè)攝像機(jī)捕捉 776輛車的 50000多張圖像構(gòu)成.每個(gè)車輛圖像均由 2~18個(gè)攝像機(jī)從不同的視角、照明環(huán)境、遮擋情況下捕獲,具備同樣的標(biāo)注(包括時(shí)空信息).
VehicleID數(shù)據(jù)集[19]是北京大學(xué)構(gòu)建的用于車輛重識(shí)別的大規(guī)模數(shù)據(jù)集,該數(shù)據(jù)集由 26267輛車的221763張圖像構(gòu)成,每張圖像根據(jù)車牌號(hào)均標(biāo)注有相應(yīng)的 ID.為了使車輛重識(shí)別算法的性能測(cè)評(píng)更加全面,將測(cè)試集按照車輛圖像尺寸劃分為大、中、小3個(gè)子集.本文使用小尺寸測(cè)試集(包含 800張查詢圖像,6532張候選圖像)進(jìn)行測(cè)評(píng).
2.1.2 數(shù)據(jù)預(yù)處理
在數(shù)據(jù)預(yù)處理階段,VeRi-776數(shù)據(jù)集中的 576輛車的37778張圖像作為訓(xùn)練集,200輛車的11579張圖像作為驗(yàn)證集,200輛車的 1678張圖像作為測(cè)試集.VehicleID數(shù)據(jù)集按照原始數(shù)據(jù)集標(biāo)簽劃分,13164輛車的 113346張圖像作為訓(xùn)練集,800輛車的 5693張圖像作為驗(yàn)證集,800輛車的800張圖像作為測(cè)試集.對(duì)訓(xùn)練集使用隨機(jī)擦除、翻轉(zhuǎn)、切割的方法進(jìn)行數(shù)據(jù)增強(qiáng),增強(qiáng)后數(shù)據(jù)集的規(guī)模擴(kuò)大到原始數(shù)據(jù)集的4倍,然后輸入神經(jīng)網(wǎng)絡(luò).
為了評(píng)價(jià)本文模型的準(zhǔn)確率,實(shí)驗(yàn)采用平均精度均值(mAP)和Rank-N表格作為評(píng)價(jià)指標(biāo).
mAP用于評(píng)價(jià)車輛重識(shí)別方法的整體性能,表示所有檢索結(jié)果精度的平均值[3],計(jì)算公式為
其中:AP為每一個(gè)查詢集圖像 q的檢索結(jié)果的平均精度,k為圖庫集圖像序號(hào),n為圖庫集圖像總數(shù),N表示目標(biāo)車輛的圖像總數(shù),P(k)為在檢索序列中第 k位之前車輛圖像檢索正確的概率,gt(k)為第 k位圖像是否是目標(biāo)車輛,Q為查詢圖像的總數(shù),mAP為所有查詢集檢索結(jié)果的平均精度的均值.
Rank-N表格:車輛重識(shí)別任務(wù),即在所有車輛圖片中尋找與被查詢車輛最相似的車輛圖片,對(duì)所有車輛圖片按照與被查詢車輛的相似度進(jìn)行排序;Rank-N即表示排序后的結(jié)果,Rank-1表示排序后第一張車輛圖像為正確預(yù)測(cè)的概率,Rank-N表示排序后前N張車輛圖像為正確預(yù)測(cè)的概率.本文選用 Rank-1與Rank-5作為評(píng)價(jià)指標(biāo).
實(shí)驗(yàn)環(huán)境:PyCharm 2020.2.1、Python 3.6、GTX 1080Ti.
實(shí)驗(yàn)配置:本文使用 ResNet50模型作為骨干網(wǎng)絡(luò),并刪除該骨干網(wǎng)絡(luò)的平均池化層及其后續(xù)層.同時(shí),將最后一個(gè)卷積層的滑動(dòng)步長(zhǎng)從 2更改為 1.前述卷積層的每個(gè)塊結(jié)構(gòu)中的卷積核被分成 32組,以降低相鄰層濾波器的相關(guān)性.最后對(duì)每個(gè) 1×1×2048維度的特征向量采用核大小為 1×1的卷積運(yùn)算以執(zhí)行降維運(yùn)算,最終獲得 1×1×2000維的特征向量.本文使用了動(dòng)量值為 0.9、權(quán)重衰減值為 5×10-4的Adam優(yōu)化器.
2.4.1 整體性能結(jié)果分析
將 Res-GC算法與現(xiàn)有的其他車輛重識(shí)別算法在 VeRi-776數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比.選擇的對(duì)比算法包括引言部分提及的隱式或啟發(fā)式降低特征冗余的算法 PROVID[6]、VANet[5]、PNVR[7]以及目前性能最佳的車輛重識(shí)別算法 TBE-Net[20]、SGFDVIA[21]、PRN[22]、TransReID[23].其他數(shù)據(jù)集的結(jié)果采用發(fā)表論文報(bào)道的結(jié)果.
不同算法在 VeRi-776數(shù)據(jù)集上的評(píng)價(jià)結(jié)果對(duì)比見表1.從表1可以看出:Res-GC算法在 VeRi-776數(shù)據(jù)集上的mAP達(dá)到了89.0%,Rank-1的值達(dá)到了97.5%,相比于列表中效果最好的 PRN算法分別提高了 3.2%、0.4%,達(dá)到了更高的水平.在 VeRi-776數(shù)據(jù)集上,實(shí)驗(yàn)結(jié)果驗(yàn)證了本文算法的有效性.
表1 不同算法在VeRi-776數(shù)據(jù)集上的評(píng)價(jià)結(jié)果對(duì)比Tab.1 Comparison of evaluation results of different algorithms on VeRi-776 datasets
Res-GC算法與現(xiàn)有的其他車輛重識(shí)別算法在VehicleID數(shù)據(jù)集(選用小尺寸測(cè)試集)上的實(shí)驗(yàn)結(jié)果對(duì)比見表2.選擇的對(duì)比算法包括 VANet[5]、PNVR[7]、TBE-Net[20]、SGFDVIA[21]、PRN[22]、Trans ReID[23],均包括在 VeRi-776數(shù)據(jù)集對(duì)比算法內(nèi),但是 PROVID[6]算法并未選用VehicleID數(shù)據(jù)集進(jìn)行算法驗(yàn)證.
表2 不同算法在VehicleID數(shù)據(jù)集上的評(píng)價(jià)結(jié)果對(duì)比Tab.2 Comparison of evaluation results of different algorithms on VehicleID datasets
從表2可以看出,Res-GC算法在VehicleID數(shù)據(jù)集上的 Rank-1和 Rank-5的值分別達(dá)到了 97.4%、99.1%.在 VehicleID數(shù)據(jù)集上,驗(yàn)證了本文算法(Res-GC)的有效性.
2.4.2 消融實(shí)驗(yàn)
不同算法在 VeRi-776數(shù)據(jù)集和 VehicleID數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果分別見表3和表4.
表3 不同算法在VeRi-776數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Tab.3 Ablation experiment results of different algorithms on VeRi-776 datasets
表4 不同算法在VehicleID數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Tab.4 Ablation experiment results of different algorithms on VehicleID datasets
在 VeRi-776數(shù)據(jù)集上,相比于 Res-GC的實(shí)驗(yàn)結(jié)果:僅不使用分組卷積的mAP、Rank-1以及Rank-5的值均有明顯下降,驗(yàn)證了分組卷積正則冗余特征的有效性;僅不使用重排序后 mAP值、Rank-1值和Rank-5值均有所下降,證明了重排序可以有效提升車輛重識(shí)別的效果.在損失函數(shù)的消融實(shí)驗(yàn)中,僅不使用交叉熵?fù)p失函數(shù)和僅不使用三元組損失函數(shù)的mAP、Rank-1、Rank-5的值均有明顯下降,兩者直接疊加,即僅不使用 BNNeck方法的 mAP、Rank-1、Rank-5的值相比于分別僅不使用兩種損失函數(shù)均有所下降,證明了交叉熵?fù)p失函數(shù)和三元組損失函數(shù)共同指導(dǎo)車輛特征空間建模(使用 BNNeck方法)的有效性.
在 VehicleID數(shù)據(jù)集上,相比于 Res-GC的實(shí)驗(yàn)結(jié)果:僅不使用分組卷積后 mAP、Rank-1、Rank-5的值分別下降了1.1%、0.3%、0.3%,驗(yàn)證了分組卷積的有效性;僅不使用重排序的 mAP值下降了 0.9%,證明了重排序可以有效提升車輛重識(shí)別的 mAP值.與VeRi-776數(shù)據(jù)集一致,在損失函數(shù)的消融實(shí)驗(yàn)中,僅不使用三元組損失函數(shù)和僅不使用交叉熵?fù)p失函數(shù)的 mAP、Rank-1、Rank-5均有明顯下降,兩者直接疊加,即僅不使用 BNNeck方法的mAP值相比于僅不使用交叉熵?fù)p失函數(shù)有明顯下降,與 VeRi-776數(shù)據(jù)集一致,證明了交叉熵?fù)p失函數(shù)和三元組損失函數(shù)共同指導(dǎo)車輛特征空間建模(使用 BNNeck方法)的有效性.
因此,在VeRi-776數(shù)據(jù)集和VehicleID數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果表明了本文算法的有效性.
2.4.3 可視化分析
在VeRi-776數(shù)據(jù)集中隨機(jī)選取6個(gè)不同車輛構(gòu)成測(cè)試集,使用本文算法 Res-GC進(jìn)行訓(xùn)練,重識(shí)別結(jié)果按照相似度從高到低進(jìn)行可視化排序,選取相似度排名前 10的案例,可視化結(jié)果如圖4所示.經(jīng)人工初步辨認(rèn),測(cè)試集中第1輛車型號(hào)為豐田理念s1,其中識(shí)別錯(cuò)誤案例型號(hào)為眾泰 Z300;第 4輛車型號(hào)為奧迪Q3,識(shí)別錯(cuò)誤案例型號(hào)為奧迪Q5.從圖4中可以看出,識(shí)別錯(cuò)誤案例主要集中在相似或相同車型之間的區(qū)分錯(cuò)誤.同時(shí),對(duì)于從不同角度、不同光照以及有遮擋物情況下拍攝的車輛照片,本文算法均能進(jìn)行準(zhǔn)確識(shí)別.不同角度、不同光照以及有遮擋物情況下提取的車輛特征均具有獨(dú)立性,會(huì)降低查詢車輛與目標(biāo)車輛特征之間的余弦相似度,本文算法正是一種通過顯式的冗余特征正則化的方式提取更具區(qū)分性的車輛特征,從而直接提高模型的重識(shí)別性能.
圖4 本文算法相似度排名前10的檢索結(jié)果Fig.4 Top 10 search results in similarity in this algorithm
使用空間關(guān)系不明確的濾波器提取車輛特征會(huì)導(dǎo)致特征互相依賴且冗余,阻礙模型找尋數(shù)據(jù)潛在的規(guī)律,從而影響車輛重識(shí)別的性能.針對(duì)上述問題,本文提出一種顯式的基于冗余特征正則化的車輛重識(shí)別算法 Res-GC.通過對(duì)單個(gè)卷積核進(jìn)行分組,降低相鄰層濾波器的相關(guān)性,阻止特征的相互適應(yīng),以獲取帶有正則特征的非冗余車輛特征,相比于隱式的或啟發(fā)式的降低特征冗余的方法,本文方法進(jìn)一步提升了模型學(xué)習(xí)特征的辨識(shí)度和魯棒性.在 VeRi-776數(shù)據(jù)集與 VehicleID數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文模型進(jìn)一步提高了車輛重識(shí)別技術(shù)的準(zhǔn)確率.本文算法按照理論還可以廣泛地應(yīng)用于人工智能計(jì)算機(jī)視覺的其他研究中,在后續(xù)研究中將進(jìn)行模型遷移,進(jìn)一步完善計(jì)算機(jī)視覺其他領(lǐng)域的研究.
致謝:感謝校企合作項(xiàng)目(復(fù)雜場(chǎng)景下車輛屬性信息提取與重識(shí)別)對(duì)本研究的支持.