河南中光學(xué)集團(tuán)有限公司 余 科
河南中光學(xué)集團(tuán)有限公司 河南科技大學(xué) 駱 沛
河南中光學(xué)集團(tuán)有限公司 梁 濤 白曉波
利用車輛重識別技術(shù)能夠?qū)囕v進(jìn)行跟蹤定位,可實現(xiàn)對感興趣車輛的軌跡分析、跨攝像機(jī)接力跟蹤等應(yīng)用,在邊海防智能視頻監(jiān)控領(lǐng)域有著重要的研究和應(yīng)用意義。目前車輛再識別技術(shù)常見有三類:(1)利用無線磁感應(yīng)器、感應(yīng)線圈、無線射頻等硬件設(shè)備實現(xiàn);(2)通過顏色、紋理等人工設(shè)計特征實現(xiàn);(3)基于深度學(xué)習(xí)方法。
近些年,深度學(xué)習(xí)技術(shù)在車輛再識別領(lǐng)域取得了很多重要研究成果。Tian等人于2016年提出了一種深度相對距離學(xué)習(xí)方法,利用雙分支深度匯總網(wǎng)絡(luò)進(jìn)行投影計算距離來測量車輛相似性。2017年,Yan等人采用兩種多粒度排序約束方法,通過多任務(wù)學(xué)習(xí)解決精確車輛搜索問題;Qian等人提出了一種能夠?qū)W習(xí)不同尺度深度特征表達(dá)的新模型;Tang等人將深度特征和手工特征進(jìn)行融合,為車輛重新識別提供了一種更穩(wěn)健更具判別力的特征表達(dá)。2018年,Liu等人使用一種基于多模態(tài)感知數(shù)據(jù)的漸進(jìn)式車輛重識別方法提高了車輛發(fā)現(xiàn)效率和準(zhǔn)確性;Teng等人提出了一種基于DCNN的空間和通道注意網(wǎng)絡(luò)可以提取更多車輛判別特征。
在邊海防視頻監(jiān)控中,視場范圍大,監(jiān)控車輛目標(biāo)較小,且存在光照變化、場景變化、背景干擾等情況,車輛再識別比較困難,準(zhǔn)確率很低。本文針對這種場景,提出一種注意力機(jī)制和多尺度特征融合的方法進(jìn)行車輛再識別,通過多尺度融合獲得網(wǎng)絡(luò)不同深度目標(biāo)特征信息,再通過注意力機(jī)制選擇更具判別力的特征,極大提高網(wǎng)絡(luò)學(xué)習(xí)能力。
首先構(gòu)建一個注意力機(jī)制的深度學(xué)習(xí)網(wǎng)絡(luò),提取目標(biāo)全局特征信息;然后,根據(jù)網(wǎng)絡(luò)深度提取不同尺度目標(biāo)特征,防止部分特征多次提取后消失;同時,對融合后的特征空間引入一個局部特征提取模塊,并與全局特征進(jìn)行融合,獲取更多車輛再識別的特征信息。
網(wǎng)絡(luò)框架主要由一個骨干網(wǎng)絡(luò)、注意力模塊和局部特征提取模塊構(gòu)成。特征提取的骨干網(wǎng)絡(luò)選用ResNet50,Conv1、Conv2卷積組采集圖像特征信息,Conv3到Conv5卷積組引入空間通道注意力機(jī)制(CBAM)模塊;同時,每個殘差塊經(jīng)過卷積和池化運算后,使用級聯(lián)方式進(jìn)行不同層級的多尺度特征融合,獲取特征空間;然后再對該特征空間通過分塊方式獲取局部特征與全局特征進(jìn)行融合,得到用于識別的特征圖,具體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 網(wǎng)絡(luò)框架結(jié)構(gòu)圖
ResNet50網(wǎng)絡(luò)共6個卷積組模塊,其中2-5卷積組為殘差模塊,每個殘差模塊由兩個1h1卷積和一個3h3卷積組成。殘差模塊就是在兩個卷積層前后做了直連,但取得了非常好的效果,所以本文特征提取的骨干網(wǎng)絡(luò)選用ResNet50。
殘差模塊后依次添加空間通道注意力模塊:1)通道注意力(CAM)采用全局最大池化(Global Max Pooling,GMP)和(Global Average Pooling,GAP)組合,可以挖掘更豐富的關(guān)鍵特征,去除無關(guān)干擾信息;2)空間注意力(SAM)增強(qiáng)網(wǎng)絡(luò)學(xué)習(xí)車輛特征表示的辨別能力。之后將各級特征沿通道維度連接,獲取一個級聯(lián)空間特征:1)經(jīng)過1h1卷積層后獲取多通道空間特征,再通過全局平均池化(Global Average Pooling,GAP)處理后,通過全連接層進(jìn)行特征降維,得到一個256維的全局特征;2)通過切塊方式獲取4個局部子特征,每個子特征通過GAP處理后,連接全連接層降維到256維,再與全局特征進(jìn)行融合。
注意力機(jī)制可以在網(wǎng)絡(luò)引入少量參數(shù)情況下,有選擇地學(xué)習(xí)關(guān)鍵特征,減少無用特征,提高車輛的深度特征表達(dá)能力,尤其是對于外觀高度相似的車輛,通過在不同尺度特征圖上添加注意力機(jī)制,可獲得更具判別力的特征信息。本文在4、5組卷積層之后添加空間通道注意力(CBAM)模塊,具體結(jié)構(gòu)如圖2所示。
圖2 空間通道注意力結(jié)構(gòu)圖
(1)通道注意力(CAM)
通道注意力機(jī)制,能夠捕獲跨通道的潛在語義信息。通過給每個通道分配不同的權(quán)值,選擇對車輛任務(wù)有用的特征通道,提高特征的判別性。常用的通道注意力機(jī)制SENet僅采用了最大池化(maxpool),本文將最大池化(maxpool)與平均池化(avgpool)進(jìn)行融合,將兩個pool后的結(jié)果相加,使提取的高層特征更加豐富。具體實現(xiàn)過程如下:
1)輸入特征F進(jìn)行GMP和GAP運算,得到兩個1h1hC的通道權(quán)重的矩陣;
2)將兩個權(quán)重矩陣輸入到一個多層感知機(jī)(MLP)中,獲得2個輸出特征;
3)2個特征通過向量相加操作后再使用sigmoid激活函數(shù),生成一個通道注意力圖;
4)通道注意力圖與輸入特征進(jìn)行乘法操作,即可生成空間注意力模塊需要的輸入特征。
(2)空間注意力(SAM)
空間注意力機(jī)制,能夠捕獲空間域的重要特征信息。通過聚焦網(wǎng)絡(luò)中最具信息特征部分,實現(xiàn)空間層面的注意力,是對通道注意力的補(bǔ)充,增強(qiáng)了網(wǎng)絡(luò)車輛特征表示的辨別能力。具體實現(xiàn)過程如下:
1)通過maxpool與avgpool操作,對通道特征進(jìn)行降維,然后將它們連接起來生成一個2D特征圖;
2)再使用一個卷積層進(jìn)行學(xué)習(xí),經(jīng)過sigmoid激活函數(shù)計算,生成一個大小為RhHhW的空間注意力圖。
高層網(wǎng)絡(luò)感受野大,語義特征表達(dá)能力強(qiáng),但分辨率低,很多細(xì)節(jié)特征變得模糊;低層網(wǎng)絡(luò)感受野小,細(xì)節(jié)特征表達(dá)能力強(qiáng),但提取語義特征能力弱。監(jiān)控場景中車輛目標(biāo)較小,尤其一些部件只有很小的分辨率,高層網(wǎng)絡(luò)很容易丟失小目標(biāo)的特征信息??紤]到高層網(wǎng)絡(luò)和低層網(wǎng)絡(luò)的互補(bǔ)性,本文在車輛再識別時引入多尺度特征融合機(jī)制,對不同階段的特征圖進(jìn)行組合,使識別網(wǎng)絡(luò)獲取更多的判別特征。多尺度結(jié)構(gòu)圖如圖3所示。
圖3 多尺度結(jié)構(gòu)圖
分別從ResNet50+CBAM網(wǎng)絡(luò)的Conv3、Conv4、Conv5殘差模塊中得到3個特征圖,使用1h1大小的卷積運算對3個特征圖進(jìn)行通道調(diào)整,確保三個特征通道數(shù)一致;然后通過AvgPool進(jìn)行下采樣,調(diào)整特征圖大?。蛔詈罄?個分支處理后的信息進(jìn)行融合,使識別網(wǎng)絡(luò)可以獲取更豐富的多尺度特征。
本文除了多尺度特征融合,還采用了全局特征和局部特征融合方法,提升車輛目標(biāo)的判別精度。1)局部特征:按照空間分塊方式,將由多尺度融合獲取的空間特征分割為四個子塊,使用GAP對每個子塊提取局部特征;2)全局特征:對空間特征使用1h1大小的卷積運算將N維特征通道維度提升到4N維,再使用GAP提取全局特征,然后按照通道分割將4N維分割成四個特征;最后,對四個局部特征和全局特征進(jìn)行疊加,獲取用于車輛識別的一個256維特征信息。
車輛重識別常用到的是Vehicle-ID和VeRi-776公開數(shù)據(jù)集。Vehicle-ID數(shù)據(jù)集包含了221,763張26,267輛車圖像,每種車輛僅包含8.4張圖像,且只考慮了車輛前后兩種視角,無法滿足復(fù)雜場景需求。VeRi-776數(shù)據(jù)集包含了超過776輛車的50,000多張圖像,考慮到邊海防監(jiān)控的特殊性,這些樣本數(shù)量并不多,很難滿足監(jiān)控場景的需要。所以在Vehicle-ID和VeRi-776數(shù)據(jù)集的基礎(chǔ)上,我們通過采集實際監(jiān)控場景的各種車輛數(shù)據(jù),構(gòu)建邊海防監(jiān)控場景的車輛再識別數(shù)據(jù)集來驗證注意力框架及多尺度融合的有效性。
骨干網(wǎng)絡(luò)采用在ImageNet上預(yù)訓(xùn)練過的ResNet50模型參數(shù)進(jìn)行初始化,網(wǎng)絡(luò)輸入為224h224。訓(xùn)練時采用小批量隨機(jī)梯度下降(SGD)來更新網(wǎng)絡(luò)參數(shù),初始學(xué)習(xí)率(learning_rate)為0.001,權(quán)重衰減(weight_decay)為0.0005,批量大?。╞atch_size)為32。數(shù)據(jù)集隨機(jī)分為訓(xùn)練集、驗證集、測試集3部分,其中一個batch包含m個車輛,每個車輛包含n張車輛圖片,一個batch總共包含個訓(xùn)練樣本。所有車輛圖像亂序排列并進(jìn)行隨機(jī)抽樣組成訓(xùn)練的正負(fù)樣本,并在訓(xùn)練前進(jìn)行數(shù)據(jù)歸一化處理。
為了評估我們算法的有效性,實驗中通過基礎(chǔ)網(wǎng)絡(luò)、基礎(chǔ)網(wǎng)絡(luò)+SENet注意力機(jī)制、基礎(chǔ)網(wǎng)絡(luò)+CBAM注意力機(jī)制、基礎(chǔ)網(wǎng)絡(luò)+CBAM注意力機(jī)制+多尺度(scal)特征融合、基礎(chǔ)網(wǎng)絡(luò)+CBAM注意力機(jī)制+多尺度(scal)特征融合+全局局部(LC)特征融合幾種不同組合進(jìn)行訓(xùn)練和測試比對,使用均值平均精度(mAP)、rank1、rank5參數(shù)評估度量車輛再識別的準(zhǔn)確率,實驗結(jié)果如表1所示。
表1 注意力機(jī)制及多尺度融合有效性分析
從表1中可以看到,添加注意力機(jī)制和多尺度特征融合及局部全部特征融合后,車輛再識別準(zhǔn)確率明顯有提升,證明了我們網(wǎng)絡(luò)結(jié)構(gòu)的有效性。
在實際測試場地安裝2臺分辨率為1920h1080的攝像機(jī),攝像機(jī)中間沒有重疊區(qū)域,加載車輛再識別算法,車輛進(jìn)入第一臺攝像機(jī)時檢測抓拍,途徑第二臺攝像機(jī)時,能夠及時識別到該車輛,效果如圖4所示,驗證了算法的有效性。
圖4 車輛識別效果圖
結(jié)論與展望:本文設(shè)計并實現(xiàn)了一種基于注意力機(jī)制和多尺度特征融合的車輛再識別方法。通過空間通道注意力機(jī)制,提高了車輛的深度特征表達(dá)能力;通過多尺度特征融合,充分利用高層和低層網(wǎng)絡(luò)優(yōu)勢,使識別網(wǎng)絡(luò)獲取更多的判別特征;還采用了全局特征和局部特征融合方法,提升了車輛目標(biāo)的判別精度。通過實驗驗證,本設(shè)計是一種可行的車輛再識別方法。實驗中還存在著一些不足,比如數(shù)據(jù)采集的場景不夠多,模型的泛化能力不強(qiáng)。下一步通過采集更多監(jiān)控場景的車輛視頻,或通過圖像增強(qiáng)等方法豐富數(shù)據(jù)集,網(wǎng)絡(luò)的性能預(yù)計會有進(jìn)一步的提升。