蔣檜慧, 張 榮, 李小寶, 郭立君
(寧波大學(xué) 信息科學(xué)與工程學(xué)院,浙江 寧波 315211)
?
基于特征融合與改進(jìn)神經(jīng)網(wǎng)絡(luò)的行人再識別*
蔣檜慧, 張 榮, 李小寶, 郭立君
(寧波大學(xué) 信息科學(xué)與工程學(xué)院,浙江 寧波 315211)
行人再識別中,為了獲得基于突出性顏色名稱的顏色描述(SCNCD)特征對于光照變化較好的魯棒性,提出了融合SCNCD特征和對于視角變化魯棒性高的局部最大出現(xiàn)概率(LOMO)表觀特征;為了獲得圖像的結(jié)構(gòu)信息,將圖像劃分為多個(gè)重疊塊,并提取塊特征;針對神經(jīng)網(wǎng)絡(luò)容易陷入局部極小值,且收斂速度慢的問題,引入動(dòng)量項(xiàng)。經(jīng)過公用VIPeR數(shù)據(jù)庫和PRID450s數(shù)據(jù)測試后,實(shí)驗(yàn)結(jié)果表明:融合后的特征的識別能力明顯高于原特征的識別能力,且改進(jìn)后的神經(jīng)網(wǎng)絡(luò)收斂速度明顯提高。
行人再識別; 局部最大出現(xiàn)頻次(LOMO)特征; SCNCD特征; 塊特征; 神經(jīng)網(wǎng)絡(luò)
行人再識別[1~4]即判斷一個(gè)攝像頭下出現(xiàn)的行人是否與另一個(gè)攝像頭下出現(xiàn)的行人為同一行人。由于行人圖像分辨率低,很難捕捉到人臉或其他生物特征,所以,行人再識別主要依據(jù)行人表觀特征,如衣服的顏色、紋理等。由于受到光照、視角、遮擋、姿勢等因素的影響,同一行人的外觀差異很大,而不同行人也可能有很相似的外觀,給行人再識別帶來很大的挑戰(zhàn)。
目前,行人再識別的研究主要集中在特征提取和度量學(xué)習(xí)方面。特征提取的主要任務(wù)是提取對于光照、視角、姿勢等變化具有較高魯棒性的有效特征。Farenzena M等人[2]根據(jù)對稱和反對稱性解決視角變化問題,將人體按照人體的結(jié)構(gòu)劃分為不同區(qū)域,對每個(gè)區(qū)域分布提取HSV直方圖特征和紋理特征。Yang Y等人[5]提出了基于突出性顏色名稱的顏色描述(salient color name based color descriptor,SCNCD)特征,確保與顏色越接近的顏色名稱分配的概率越大。Liao S等人[6]提出了局部最大概率(local maximal occurrence,LOMO)特征,該特征按塊提取HSV顏色直方圖特征和尺度不變?nèi)的J?SILTP)紋理特征,計(jì)算同一水平位置上所有塊的局部特征的發(fā)生率,對于視角變化具有很好的魯棒性。Zhao R等人[7]根據(jù)無監(jiān)督學(xué)習(xí)獲得每個(gè)塊的突出性權(quán)值,在目標(biāo)匹配時(shí),融合圖像塊的突出性,突出性權(quán)值大的塊在匹配中所占比重大。
度量學(xué)習(xí)[8]的主要任務(wù)是學(xué)習(xí)一個(gè)合適的度量,使得同一行人距離更近,不同行人距離更遠(yuǎn)。Kostinger K Q等人[9]提出了保持簡單直接(keep it simple and straight,KISS)的度量學(xué)習(xí)算法,依據(jù)兩個(gè)高斯分布的對數(shù)似然比檢驗(yàn)學(xué)習(xí)度量。Zhang Y等人[10]在學(xué)習(xí)度量的過程中考慮了圖像自身的差異性,學(xué)習(xí)得到的度量對于每個(gè)圖像都有較高的適應(yīng)性。Carr P等人[11]提出了使用彈性模型進(jìn)行塊匹配,有利于解決不同相機(jī)間的姿勢和視角的變化。Wang J等人[12]在AUC損失函數(shù)基礎(chǔ)上提出了top-heavy損失函數(shù),對不同位置的錯(cuò)誤排序進(jìn)行不同程度的懲罰,位于序列前端位置的錯(cuò)誤排序給予較大懲罰。
文獻(xiàn)[5]提出的SCNCD特征對于光照變化有很好的魯棒性,但是該特征對于視角變化的魯棒性不高,而LOMO特征對于視角變化具有很好的魯棒性。因此,本文提出在SCNCD特征的基礎(chǔ)上,引入文獻(xiàn)[6]提出的LOMO特征??紤]到基于局部塊提取特征能夠有效地獲得圖像的結(jié)構(gòu)信息,本文提出了基于局部塊結(jié)構(gòu)融合LOMO特征和SCNCD特征的方法。
在度量學(xué)習(xí)方面,由于線性映射容易丟失行人圖像的非線性流形結(jié)構(gòu),所以,本文采用非線性的反向傳輸(back propagation,BP)神經(jīng)網(wǎng)絡(luò),將原始特征映射到目標(biāo)空間,在目標(biāo)空間中,進(jìn)行相似性度量。神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)需要通過樣本的特征訓(xùn)練得到,在訓(xùn)練的過程中,由于神經(jīng)網(wǎng)絡(luò)存在收斂速度慢等不足,所以,提出在更新權(quán)值時(shí),引入動(dòng)量項(xiàng)來增加網(wǎng)絡(luò)的收斂速度。
1.1 突出性顏色名稱特征提取
SCNCD特征[5]建立像素顏色與16種顏色名稱之間的對應(yīng)關(guān)系。對于RGB值相近的顏色,通常用同一個(gè)顏色名稱表示。當(dāng)光照變化時(shí),在一定RGB值范圍內(nèi)的顏色,對應(yīng)的顏色名稱仍然不變,所以,顏色名稱對于光照變化有很好的魯棒性。此外,考慮到某種顏色映射到每個(gè)顏色名稱的概率不相等,與顏色越相近的顏色名稱映射到該顏色名稱的概率越大,所以只建立像素顏色和與它最鄰近的幾個(gè)顏色名稱的對應(yīng)關(guān)系。映射關(guān)系如下
(1)
式中
且
式中 c={c1,c2,…,c16}為16種顏色名稱;d={d1,d2,…,d512}為512種RGB相近的顏色;KNN(dn)為顏色dn的k近鄰,k在實(shí)驗(yàn)中設(shè)置為5;cl,ct,cp均為dn的k近鄰顏色名稱;μ為dn的均值。該方法明顯提高了特征對于光照變化的魯棒性。
1.2 特征提取
圖1為本文的特征提取過程,將128像素×48像素的圖像劃分為10像素×10像素,步長為5像素的重疊塊,對同一水平條的所有塊提取HSV顏色特征、SILTP紋理特征以及SCNCD特征。同一水平條的所有塊提取特征后,最大化所有塊特征相同二進(jìn)制(bin)下的值,作為該水平條特征對應(yīng)bin下的值。
圖1 特征提取
水平條特征的提取過程:x為某水平條的特征,xp為某水平條所有塊的特征。選擇某水平條所有塊{x1(i),…,xp(i),…,xp(i)}的第i維值的最大值x(i)=max{x1(i),…,xp(i),…,xp(i)}作為x(i)的值,i為特征向量的第i維。當(dāng)行人在不同相機(jī)下視角發(fā)生變化時(shí),某水平條的特征x在一定范圍內(nèi)具有穩(wěn)定性,該方法很好地解決了相機(jī)的視角變化問題;同時(shí)對塊提取SCNCD特征,保證了圖像塊對于光照變化具有一定的魯棒性。
1.3 相似性度量學(xué)習(xí)
本文選用BP神經(jīng)網(wǎng)絡(luò)作為映射函數(shù),在目標(biāo)空間中,使用圖像對特征的內(nèi)積作為相似性度量
s(xA,xB)=〈f(xA),f(xB)〉
(2)
式中 xA,xB∈Rd1為待查詢圖像和目標(biāo)圖像的特征;W∈Rd1×d2為映射矩陣,用于對圖像特征進(jìn)行映射,通過相似性學(xué)習(xí)獲得;b∈Rd2為偏差向量;d1,d2分別為原始特征空間和目標(biāo)特征空間的維數(shù)。
(3)
1.4 增加動(dòng)量項(xiàng)的梯度下降法
使用梯度下降法求解式(3)的最優(yōu)解,損失L對W求偏導(dǎo)
(4)
(5)
當(dāng)權(quán)值W接近于極值時(shí),每次迭代變化很小,減緩了迭代速度,且可能在局部極值附近振蕩,導(dǎo)致不能收斂,因此,考慮在更新參數(shù)的過程中加入動(dòng)量項(xiàng),權(quán)值的更新公式變?yōu)?/p>
(6)
式中η為學(xué)習(xí)率;α為動(dòng)量項(xiàng),表示W(wǎng)在第t+1步的變化與第t步的變化之間的關(guān)聯(lián)。利用式(6)更新參數(shù)W,直至收斂,得到最優(yōu)參數(shù)。參數(shù)b的求解與W相同。
使用VIPeR數(shù)據(jù)庫[14]和PRID 450S數(shù)據(jù)庫[15]進(jìn)行評估,并與當(dāng)前已有方法的實(shí)驗(yàn)效果進(jìn)行比較。VIPeR和PRID 450S數(shù)據(jù)庫通常用于單幅圖像的行人再識別,但PRID 450S數(shù)據(jù)庫比VIPeR數(shù)據(jù)庫更加真實(shí)。實(shí)驗(yàn)結(jié)果通過累計(jì)匹配特征曲線(CMC)描述,CMC曲線表示在排名前n個(gè)人中正確匹配的人數(shù)。
2.1 參數(shù)設(shè)置
實(shí)驗(yàn)中,將數(shù)據(jù)庫中的行人圖像隨機(jī)分為2部分,分別用于訓(xùn)練和測試。在測試階段,選取其中一個(gè)攝像頭下的圖像作為待查詢圖像,另一個(gè)攝像頭下的圖像作為目標(biāo)圖像。實(shí)驗(yàn)結(jié)果通過對測試樣本進(jìn)行10次隨機(jī)分配,并對分配后的測試樣本進(jìn)行評估后取得平均值。提取圖像特征后使用PCA降維,VIPeR,PRID450S數(shù)據(jù)庫分別降維至600,449維,并使用神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,學(xué)習(xí)率為10-2。
2.2 基于VIPeR數(shù)據(jù)庫的實(shí)驗(yàn)
VIPeR數(shù)據(jù)庫是從戶外環(huán)境的2個(gè)攝像頭中獲取的,包含632個(gè)行人,每個(gè)行人有2張不同角度的圖像。獲取圖像時(shí),考慮了光照、視角、姿勢、背景等變化,能夠真實(shí)反映現(xiàn)實(shí)中的行人再識別問題。實(shí)驗(yàn)中,所有圖像均歸一化為128像素×48像素。
2.2.1 特征提取方法比較
為了評估本文提出的特征提取方法對于行人再識別效率的影響,在度量方法固定的條件下對比了本文方法與SCNCD,LOMO特征方法的實(shí)驗(yàn)效果。表1給出了使用本文的度量方法進(jìn)行3種特征識別的實(shí)驗(yàn)效果。其中,r為目標(biāo)人排名,下同。從表1的實(shí)驗(yàn)數(shù)據(jù)分析可知:本文的特征提取方法優(yōu)于其他2種特征提取方法,尤其是排名第一(r=1)的正確匹配率(Rank1)。從表中可以發(fā)現(xiàn)本文方法的Rank1識別率比SCNCD方法Rank1的識別率高4.56 %,比LOMO方法Rank1識別率高1.52 %。
表1 VIPeR庫不同特征的匹配率
2.2.2 度量方法比較
為了評估不同度量方法對于本文提出的特征提取方法的影響,在特征提取方法固定(本文特征方法)的條件下對比本文度量方法與傳統(tǒng)的度量方法(PCCA[16],Svmml[17],MFA[17],kLFDA[18],KISSME[9])。圖2、表2給出了對比實(shí)驗(yàn)效果,從圖2的 CMC曲線及表2不難看出:本文方法與其他度量方法相比,排名第一的正確匹配率(Rank1)的值均高于其他度量方法Rank1。本文的度量方法使用非線性的神經(jīng)網(wǎng)絡(luò)進(jìn)行度量學(xué)習(xí)而其他方法使用了線性的度量方法進(jìn)行學(xué)習(xí),因此,使用非線性的神經(jīng)網(wǎng)絡(luò)進(jìn)行度量學(xué)習(xí),識別率更高。
表2 VIPeR庫不同度量方法的匹配率
圖2 在VIPeR數(shù)據(jù)庫上不同度量方式比較
2.2.3 BP網(wǎng)絡(luò)改進(jìn)性的驗(yàn)證
為了驗(yàn)證使用動(dòng)量項(xiàng)改進(jìn)BP神經(jīng)網(wǎng)絡(luò)對網(wǎng)絡(luò)收斂速度的影響,在網(wǎng)絡(luò)結(jié)構(gòu)、權(quán)值、學(xué)習(xí)樣本均相同的條件下,分別利用BP網(wǎng)絡(luò)和改進(jìn)的BP網(wǎng)絡(luò)計(jì)算Rank1的識別率隨迭代次數(shù)的變化情況。圖3給出了BP網(wǎng)絡(luò)和改進(jìn)的BP網(wǎng)絡(luò)下,Rank1的識別率隨著迭代次數(shù)增加的變化情況,不難看出:對神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行更新時(shí),使用動(dòng)量項(xiàng)改進(jìn)的神經(jīng)網(wǎng)絡(luò)收斂速度有了明顯提高。
圖3 Rank1跟隨迭代次數(shù)的變動(dòng)曲線
2.3 基于PRID 450S數(shù)據(jù)庫的實(shí)驗(yàn)
PRID 450S數(shù)據(jù)庫比VIPeR數(shù)據(jù)庫更加真實(shí)。該數(shù)據(jù)庫包含來自2個(gè)不重疊攝像機(jī)的450個(gè)行人,每個(gè)行人具有2張圖像。由于視角變化,背景,遮擋等因素的影響,使得該數(shù)據(jù)庫也有一定的挑戰(zhàn)性。實(shí)驗(yàn)中,所有圖像均歸一化為160像素×60像素。
2.3.1 特征提取方法比較
為了評估本文提出的特征提取方法在PRID 450S數(shù)據(jù)庫上的識別效果,固定度量方法對比SCNCD,LOMO特征提取方法與本文方法的識別效果。表3給出了識別效果對比,不難看出:本文的特征提取方法優(yōu)于其它2種特征提取方法。本文方法較SCNCD方法的Rank1識別率高18.18 %,較LOMO方法Rank1識別率高3.29 %。
表3 PRID 450S庫不同特征的匹配率
2.3.2 與現(xiàn)有方法的比較
為了評估本文的方法在PRID 450S數(shù)據(jù)庫上的識別效果,將本文方法與現(xiàn)有的行人再識別方法進(jìn)行比較。表4列出了常用的行人再識別方法在PRID 450S數(shù)據(jù)庫上的識別效果,數(shù)據(jù)來源于相關(guān)論文或代碼。將本文方法與KISSML,ELF,ECM,SCNCD,Semantic,LOMO,SLTRL等方法進(jìn)行比較,從表中不難發(fā)現(xiàn),本文的方法比其他方法的實(shí)驗(yàn)效果好,尤其是Rank1的值。
表4 PRID 450S庫各算法部分匹配率比較
本文基于融合的思想,提出了結(jié)合LOMO特征和SCNCD特征的方法,通過將圖像劃分塊,提取塊的特征及多尺度下特征提取,增加了特征對于光照、視角及尺度變化的魯棒性,提高了行人再識別的識別率。使用基于序列排序模型對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,充分利用了樣本的識別信息。通過增加動(dòng)量項(xiàng)的方式,增加了網(wǎng)絡(luò)的收斂速度,同時(shí)減小了網(wǎng)絡(luò)陷入局部極小值的概率。通過對VIPeR數(shù)據(jù)庫和PRID 450S數(shù)據(jù)庫的測試表明:該方法取得了較好的識別效果。后期工作將重點(diǎn)在度量學(xué)習(xí)方面,研究如何學(xué)習(xí)出一種更高效的度量學(xué)習(xí)方法。
[1] 黃凱奇,陳曉棠,康運(yùn)峰,等.職能視頻監(jiān)控技術(shù)綜述[J].計(jì)算機(jī)學(xué)報(bào),2015(6):1093-1118.
[2] Farenzena M,Bazzani L,Perina A,et al.Person re-identification by symmetry-driven accumulation of local features[C]∥Computer Vision and Pattern Recognition(CVPR),San Francisco,New Jersey:IEEE,2010,2360-2367.
[3] Gray D,Tao H.Viewpoint invariant pedestrian recognition with an ensemble of localized features[C]∥European Conference on Computer Vision,2008,New Jersey:IEEE,2008:262-275.
[4] Ma B,Su Y,Jurie F.Covariance descriptor based on bio-inspired features for person re-identification and face verification [J].Image and Vision Computing,2014,32(6):379-390.
[5] Yang Y,Yang J,Yan J,et al.Salient color names for person re-identification[C]∥European Conference on Computer Vision,Zurich,Switzerland,Springer,2014:536-551.
[6] Liao S,Hu Y,Zhu X,et al.Person re-identification by local maximal occurrence representation and metric learning[C]∥CVPR,Boston,MA,USA,New Jersey:IEEE, 2015:2197-2206.
[7] Zhao R,Ouyang W,Wang X.Unsupervised salience learning for person re-identification[C]∥Computer Vision and Pattern Recognition(CVPR),2013,Portland,Oregon,New Jersey:IEEE,2013:3586-3593.
[8] 俞 婧,仇春春,王 恬,等.基于距離匹配的行人再識別技術(shù)綜述[J].微處理機(jī),2016(3):77-80.
[9] Kostinger M,Hirzer M,Wohlhart P,et al.Large scale metric learning from equivalence constraints[C]∥Computer Vision and Pattern Recognition (CVPR), 2012,Providence,RI,USA,New Jersey:IEEE,2012:2288-2295.
[10] Zhang Y,Li B,Lu H,et al.Sample-specific SVM learning for person re-identification[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:1278-1287.
[11] Carr P.Person re-identification using deformable patch metric learning[C]∥2016,IEEE Winter Conference on Applications of Computer Vision,IEEE,Lake Placid,NY,USA,2016:1278-1287.
[12] Wang J,Sang N,Wang Z,et al.Similarity learning with top-heavy ranking loss for person re-identification [J] IEEE Signal Processing Letters,2016,23(1):84-88.
[13] Zhao R,Ouyang W,Wang X.Person re-identification by salience matching[C]∥Proceedings of the IEEE International Conference on Computer Vision,2013:2528-2535.
[14] Gray D,Brennan S,Tao H.Evaluating appearance models for recognition,reacquisition,and tracking[C]∥Proc of IEEE International Workshop on Performance Evaluation for Tracking and Surveillance (PETS),2007.
[15] Roth P M,Hirzer M,et al.Person re-identificaiton[M].London:Springer,2014:247-267.
[16] Mignon A,Jurie F.Pcca:A new approach for distance learning from sparse pairwise constraints[C]∥CVPR,2012,Providence,New Jersey:IEEE,2012:2666-2672.
[17] Yan S,Xu D,Zhang B,et al.Graph embedding and extensions:A general framework for dimensionality reduction[J].IEEE Tran-sactions on Pattern Analysis and Machine Intelligence,2007,29(1):40-51.
[18] Xiong F,Gou M,Camps O,et al.Person re-identification using kernel-based metric learning methods[C]∥ECCV,Zurich,Switzerland,Springer,2014:1-16.
[19] Liu X,Wang H,Wu Y,et al.An ensemble color model for human re-identification[C]∥WACV,2015,Hawaii,USA,2015:868-875.
[20] Shi Z,Hospedales T M,Xiang T.Transferring a semantic representation for person re-identification and search[C]∥Computer Vision and Pattern Recognition.Boston,New Jersey:IEEE,2015:4184-4193.
Pedestrian re-identification based on feature fusion and improved neural network*
JIANG Hui-hui, ZHANG Rong, LI Xiao-bao, GUO Li-jun
(College of Information Science and Engineering,Ningbo University,Ningbo 315211,China)
In person re-identification,aiming at salient color named based color descriptor(SCNCD) features based on salient color names are robust to illumination changes,propose to fuse the SCNCD features and the LOMO features which are robust to viewpoint changes.In order to get structure information of images,the images are divided into overlapping patches and the patch features are extracted.In order to solve the problems that neural network is easy to fall into local minimum and its convergence speed is slow,momentum term is introduced.The proposed method has been tested in the most challenging public VIPeR database and PRID450s database,and experimental results prove that recognition abilities of the fused features are obviously higher than that of the original features,and convergence speed of the improved neural network is increased obviously.
pedestrian re-identification; local maximal occurrence(LOMO) features; salient color name based color descriptor(SCNCD) features;patch features; neural network
10.13873/J.1000—9787(2017)08—0121—05
2017—06—02
國家自然科學(xué)基金資助項(xiàng)目(61175026);浙江省自然科學(xué)基金資助項(xiàng)目(LY17F030002);“信息與通信工程”浙江省重中之重學(xué)科開放基金資助項(xiàng)目(XKXL1516, XKXL1521)
TP 391
A
1000—9787(2017)08—0121—05
蔣檜慧(1993-),女,通訊作者,碩士研究生,主要研究方向?yàn)橛?jì)算機(jī)視覺與模式識別,E—mail:393607151@qq.com。
郭立君(1970-),男,博士,教授,主要從事計(jì)算機(jī)視覺與模式識別、移動(dòng)互聯(lián)網(wǎng)及其應(yīng)用研究方向。