張見威 林文釗 邱隆慶
(華南理工大學(xué) 計算機科學(xué)與工程學(xué)院, 廣東 廣州 510006)
基于字典學(xué)習(xí)和Fisher判別稀疏表示的行人重識別方法*
張見威 林文釗 邱隆慶
(華南理工大學(xué) 計算機科學(xué)與工程學(xué)院, 廣東 廣州 510006)
針對目前的字典學(xué)習(xí)方法對不同攝像機視角行人特征的聯(lián)系考慮不足的問題,提出了一種新的基于字典學(xué)習(xí)和Fisher判別稀疏表示的行人重識別方法.該方法考慮不同場景中同一行人的特征應(yīng)該具有相似的稀疏表示,提出行人重識別離散度函數(shù)的概念,加入約束稀疏表示的正則化項,最大化不同行人稀疏表示的類間離散度,同時最小化同一行人稀疏表示的類內(nèi)離散度,通過學(xué)習(xí)到的字典得到具較強區(qū)分識別能力的稀疏表示.在公開數(shù)據(jù)集VIPeR、PRID 450s和CAVIAR4REID上的實驗表明,文中方法的識別率高于目前基于字典學(xué)習(xí)的行人重識別方法.
行人重識別;Fisher 判別;字典學(xué)習(xí);稀疏表示;離散度
行人重識別是視頻監(jiān)控等領(lǐng)域的關(guān)鍵問題.由于拍攝場景不同常出現(xiàn)光照和尺度變化、視角多樣性、目標遮擋等問題,如何提高識別率仍是一個難題.目前常見的一些行人重識別方法,包括度量學(xué)習(xí)[1- 2]、特征學(xué)習(xí)[3- 5],受不同攝像機和場景條件變化的影響,提取的圖像特征或?qū)W習(xí)的距離度量的表示能力有限.度量學(xué)習(xí)的主要目標是通過訓(xùn)練樣本學(xué)習(xí)出一個能有效反映不同攝像頭下行人樣本的距離函數(shù),Hirzer等[1]介紹了一種基于LMNN(Large Margin Nearest Neighbor)分類思想,即根據(jù)不同場景的圖像對,學(xué)習(xí)馬氏度量矩陣用以分類.Pedagadi等[6]介紹了一種非監(jiān)督PCA(Principle Component Analysis)與監(jiān)督LFDA(Local Fisher Discriminative Analysis)相結(jié)合對原始高維特征降維的方法.特征學(xué)習(xí)方法旨在提取圖像有區(qū)分度的特征表示,例如Symmetry-Driven特征提取[3]和顯著性特征提取[4,7- 8].然而在匹配過程中,沒有用到不同區(qū)域(即拍攝場景)關(guān)于行人特征之間的判別信息,而這些身份判別信息對提高分類器的性能是很重要的.由于不同攝像機存在分辨率、成像角度、光照的差異,同一個人在不同攝像機所成圖像中的外觀變化比較大,直接從圖像中提取顏色、紋理等特征不可靠,因此學(xué)習(xí)到的特征或度量矩陣的表示能力有限.
基于字典學(xué)習(xí)的方法近年來受到廣泛關(guān)注,并且應(yīng)用到行人重識別上取得了顯著效果.字典學(xué)習(xí)旨在從訓(xùn)練樣本中學(xué)習(xí)一組能夠很好地表示樣本的字典原子.經(jīng)典的字典學(xué)習(xí)方法KSVD[9]目標是學(xué)習(xí)一個過完備字典D,使給定的特征樣本能夠獲得其稀疏表示.字典D雖然能夠很好地表示訓(xùn)練樣本,但KSVD不適合用來分類,因為字典D均等地
表示訓(xùn)練樣本,是沒有判別性的.基于KSVD,Mairal等[10]在字典學(xué)習(xí)框架上增加了判別重建約束,使字典具有判別性能.最近,Li等[11]提出的CPDL模型以及Liu等[12]提出的SSCDL模型在進行行人重識別時識別率有較大提高.CPDL模型考慮了圖像層和圖像塊層的匹配,約束不同區(qū)域的同一個人特征有相似的稀疏表示.SSCDL是基于圖像塊的字典學(xué)習(xí),約束兩個區(qū)域中屬于同一人的圖像塊對有相似的稀疏表示,但沒有利用不同類間的判別信息.Kodiron等[13]基于迭代圖拉普拉斯規(guī)則化項的字典學(xué)習(xí)方法是非監(jiān)督模型,提出了非監(jiān)督下不同區(qū)域特征的軟對應(yīng)關(guān)系和迭代更新這種對應(yīng)關(guān)系的想法,但不能擴展到監(jiān)督模型.
本研究提出一種新的基于字典學(xué)習(xí)和Fisher判別稀疏表示的行人重識別方法,充分利用了不同行人的身份判別信息,通過加入基于Fisher判別的稀疏系數(shù)約束項,能夠?qū)W習(xí)到判別性能更優(yōu)的字典,使圖像特征有更好的稀疏表示;并在公開數(shù)據(jù)集上對該方法的識別率進行實驗驗證.
文中提出行人重識別離散度函數(shù)的概念,并給出構(gòu)建方法.設(shè)有m個類別(文中為m個不同行人)樣本集,樣本稀疏系數(shù)表示為Y=[Y1Y2…Ym],其中Yi∈Rk×ni,ni為第i類樣本個數(shù),k為樣本維度.記Y的類內(nèi)離散度矩陣為SW(Y),類間離散度矩陣為SB(Y).SW(Y)和SB(Y)定義為
(1)
(2)
其中,mi和m分別為Yi和Y的均值向量.基于Fisher判別的思想,最大化類間離散度,同時最小化類內(nèi)離散度,直觀上,定義離散度函數(shù)
f(Y)=tr(SW(Y))-tr(SB(Y)).
(3)
(4)
其中,為了得到稀疏系數(shù)Y的總體均值和各類別樣本均值,而定義了矩陣W和B:
Wi,=1iW·1iWT/ni,1iW∈Rni×1,
B=1B·1BT/2m,1B∈R2m×1,
傳統(tǒng)字典學(xué)習(xí)旨在學(xué)習(xí)一個使每個訓(xùn)練樣本xi在其上具有稀疏表示的字典D,其框架為
(5)
(6)
式中α、λ、η為正則項系數(shù),通過加入約束稀疏系數(shù)Y的正則項f(Y),能夠?qū)W習(xí)到判別性能較好的字典D,即用字典得到同一行人的稀疏系數(shù)很相似,而不同行人間的系數(shù)差距較大.
[14]中的優(yōu)化過程,本節(jié)采用迭代優(yōu)化方法對目標函數(shù)(式(6))進行優(yōu)化,每次迭代包含兩個步驟.
(1)固定字典D,求系數(shù)Y
這一步假設(shè)字典D固定,更新稀疏系數(shù)Y,目標函數(shù)(式(6))簡化為求解Y=[y1y2…ym]的稀疏編碼問題,更新yi時,假設(shè)yj(j≠i)固定.目標函數(shù)(式(6))簡化為
(7)
(2)固定系數(shù)Y,求字典D
固定稀疏系數(shù)Y,式(6)中的目標函數(shù)簡化為
(8)
一般要求字典D中的每一列di都是一個單位向量,式(8)是一個二次規(guī)劃問題,可用文獻[16]中的MFL算法逐列更新字典.整個迭代優(yōu)化算法見算法1.
輸出:稀疏系數(shù)Y和字典D.
1)初始化字典D;
3)固定系數(shù)Y,使用MFL算法[16]逐列更新字典原子di(i=1,2,…,k);
訓(xùn)練得到字典D后,可求得測試數(shù)據(jù)的稀疏表示系數(shù),求解稀疏系數(shù)的方法很多,包括匹配跟蹤(MP)算法、正交匹配跟蹤(OMP)算法和LASSO[17]算法.參考CPDL[11]、DLILR[13]等字典學(xué)習(xí)方法中的距離匹配方法,文中用余弦距離進行匹配.
(9)
(10)
這是一個簡單的最小二乘問題,問題的解可近似為
本研究在3個公開數(shù)據(jù)集(VIPeR數(shù)據(jù)集[18]、PRID 450s數(shù)據(jù)集[19]和CAVIAR數(shù)據(jù)集[20])下進行實驗.VIPeR數(shù)據(jù)集是行人重識別廣泛使用的數(shù)據(jù)集,由632對行人圖像組成,每對圖像來自不同的攝像機場景.由于不同攝像頭存在光照變化、成像角度不同、姿態(tài)不同和物體遮擋等問題,提高VIPeR數(shù)據(jù)集識別率難度較大.圖1展示了不同攝像頭拍攝行人圖像的差異.
文中采用文獻[3]中分配好的訓(xùn)練樣本和測試樣本,即每次隨機選取數(shù)據(jù)集一半(316對行人圖像)作為訓(xùn)練數(shù)據(jù),另外一半(316對)作為測試數(shù)據(jù).測試數(shù)據(jù)中一個攝像頭的所有圖像作為Probe集,而另一個攝像頭的所有圖像作為Gallery集,統(tǒng)計10次實驗的平均結(jié)果.
圖1 VIPeR數(shù)據(jù)集中圖像Fig.1 Illustration of images in VIPeR dataset
PRID 450s數(shù)據(jù)集參照了VIPeR數(shù)據(jù)集的形式從PRID 2011數(shù)據(jù)集[21]中挑選成對行人圖像,而且行人樣本數(shù)多于PRID 2011數(shù)據(jù)集.包含450對圖像,每對圖像屬于同一個人,分別來自不同的攝像頭,圖像高度在100到150像素之間不等.文中參考Farenzena等[3]和Lisanti等[22]的實驗方法,每次實驗隨機選擇其中的一半即225對行人圖像作為訓(xùn)練樣本,對其余的另一半進行測試,共進行10次實驗,統(tǒng)計平均結(jié)果.PRID 450s數(shù)據(jù)集下人在圖像中的位置不穩(wěn)定,并且人較小,部分有遮擋.圖2是PRID 450s數(shù)據(jù)集的部分圖像對.
圖2 PRID 450s數(shù)據(jù)集中圖像Fig.2 Illustration of images in PRID 450s dataset
CAVIAR4REID來自于原始的CAVIAR數(shù)據(jù)集,原本用于行人跟蹤和匹配算法的評價.現(xiàn)在用于行人重識別的CAVIARa數(shù)據(jù)集中共有72個行人的多幅圖像,其中的50個人分別在兩個不同的攝像頭下各有10張圖像,另外的22個人只在其中的一個攝像頭下有10張圖像,而且圖像之間的大小、分辨率、拍攝角度、人物姿態(tài)不盡相同,該數(shù)據(jù)集的主要難度在于低分辨率及分辨率的變化,圖3是CAVIAR4REID數(shù)據(jù)集的圖像示例.同樣每次實驗隨機選擇其中的一半即36個行人的部分圖像作為學(xué)習(xí)字典的訓(xùn)練樣本,對其余的另一半進行測試,共進行10次實驗并統(tǒng)計平均結(jié)果.
圖3 CAVIAR4REID數(shù)據(jù)集中圖像Fig.3 Illustration of images in CAVIAR4REID dataset
目前的行人重識別方法中,把顏色、紋理和空間信息相結(jié)合的特征描述是主要的研究趨勢.文中采用文獻[23]中介紹的特征,即顏色直方圖、HOG[24]和LBP[25]組成的5 138維的特征向量.
3.2.1 顏色直方圖
顏色特征屬于圖像的基礎(chǔ)特征,比較有代表性的是顏色直方圖.一幅圖像的全局顏色直方圖包含各種顏色值在該圖像中出現(xiàn)的頻數(shù),而統(tǒng)計時分割的顏色值區(qū)間的密度決定了顏色直方圖信息的精細程度.圖像中像素的重要程度是不同的,為了體現(xiàn)圖像像素的空間位置信息以及增加直方圖的合理性、魯棒性,對不同像素點在直方圖中的頻數(shù)貢獻進行加權(quán),常用方式有局部加權(quán)、分塊加權(quán)、前景加權(quán)、背景加權(quán)等.
3.2.2 方向梯度直方圖
圖像識別領(lǐng)域的紋理特征種類很多,最具代表性的是HOG(Histogram of Oriented Gradients,方向梯度直方圖).HOG特征是通過對待檢測圖像進行密集掃描的窗口計算梯度方向直方圖得到.圖像中行人的外觀形狀有較強的邊緣形狀規(guī)律,可以由梯度方向和梯度強度來表示.
3.2.3 局部二值模式
LBP(Local Binary Pattern,局部二值模式)是一種描述圖像局部紋理特征的算子,具有旋轉(zhuǎn)不變性和灰度不變性等顯著優(yōu)點.LBP算子的值通過與周圍領(lǐng)域的像素值比較得到,首先分析固定窗口區(qū)域的特征,再利用統(tǒng)計法作整體特征提取.LBP算子不受灰度尺度的影響,對光照變化有較好的魯棒性.
本節(jié)實驗中關(guān)于行人重識別性能的評測采用CMC(Cumulative Matching Characteristic)曲線作為評測準則,CMC曲線的橫坐標是排名分數(shù),縱坐標是識別率.曲線中每個點對應(yīng)著排名分數(shù)和識別率,如Rank-R的識別率為P,表示正確的目標排在排序結(jié)果前R個的概率為P.通常評估算法在CMC曲線第一個點的識別率(Rank- 1).為了進一步評估文中算法的性能,實驗中另外給出了文中方法與部分重識別方法在Rank- 1的盒形圖(Boxplot).盒形圖是利用數(shù)據(jù)中的5個統(tǒng)計量:最小值、第一四分位數(shù)、中位數(shù)、第三四分位數(shù)與最大值來描述數(shù)據(jù)的一種方法,可以用來大致判斷數(shù)據(jù)的分布形態(tài).
訓(xùn)練過程中的參數(shù)α控制稀疏系數(shù)的大小,α越大,所得到的稀疏系數(shù)取值越小.實際經(jīng)驗中α取值在0.000 1與0.1之間.對于算法1中的正則項系數(shù)α、λ和η,文中通過采用3折交叉驗證,估計λ=1、η=1、α=0.000 1.固定λ和η的值時,α在0.000 1與0.005之間波動對識別率影響不大.
文中算法中另一個重要的參數(shù)是字典大小k,直觀上我們覺得字典太小會使得訓(xùn)練所得到的字典原子不具備很好的判別性能.如果字典太大,又可能造成圖像之間共有的字典原子很少,難以基于共有的字典原子來完成圖像的相似度匹配.參照DLILR[13]方法,文中算法字典大小k取256.為了探討字典大小對文中算法的影響,文中分別取不同大小字典的原子在數(shù)據(jù)集VIPeR和PRID 450s上進行實驗.對于兩個數(shù)據(jù)集,隨機取一半行人圖像作為訓(xùn)練集,另外一半行人圖像作為測試數(shù)據(jù).重復(fù)10次實驗,最后將10次實驗Rank- 1匹配率的平均值作為實驗結(jié)果.圖4展示PRID 450s數(shù)據(jù)集下不同字典大小的Rank- 1識別率(VIPeR數(shù)據(jù)集也有類似的結(jié)果).相應(yīng)地,文中算法字典大小k取256.
圖4 PRID 450s數(shù)據(jù)集下不同字典大小的Rank- 1識別率
Fig.4 Rank- 1 matching rates of different dictionary size on PRID 450s dataset
將文中方法與3類(度量學(xué)習(xí)方法、特征學(xué)習(xí)方法和字典學(xué)習(xí)方法)行人重識別方法進行比較.度量學(xué)習(xí)方法包括LF[6]、PCCA[26]和eBiCov[27].特征學(xué)習(xí)方法包括SDALF[3]、ISR[15]、eSDC[7]和GTS[4].字典學(xué)習(xí)方法包括CPDL[11]、SSCDL[12]以及DLILR[13].VIPeR數(shù)據(jù)集下文中方法與其他行人重識別方法的CMC曲線如圖5所示,各方法在Rank- 1/5/10/20的識別率如表1所示.
圖5 VIPeR數(shù)據(jù)集下不同方法CMC曲線比較
Fig.5 Comparison of CMC curves of various methods on VIPeR dataset
表1 VIPeR數(shù)據(jù)集下不同方法的識別率
Table 1 Recognition rate of various methods on VIPeR dataset
方法識別率/%r=1r=5r=10r=20LF[6]24.151.267.182.0PCCA[26]19.348.964.980.3eBiCov[27]20.742.056.268.0SDALF[3]19.938.949.465.7eSDC[7]26.750.762.476.4GTS[4]25.250.062.575.8ISR[15]27.049.861.273.0DLILR[13]38.966.778.586.1CPDL[11]34.064.277.588.6SSCDL[12]25.653.768.183.6文中方法39.970.281.089.6
從表中數(shù)據(jù)可看出,相對于度量學(xué)習(xí)和特征學(xué)習(xí),基于字典學(xué)習(xí)的行人重識別方法能夠得到更高的識別率,如CPDL和DLILR在Rank- 1/5/10/20的準確率,表明字典具有較好的判別性能.文中算法以較大差距高于基于特征學(xué)習(xí)[3- 4,7,15]和度量學(xué)習(xí)[6,26- 27]重識別方法的識別率,展示了文中提出的離散度函數(shù)對提高識別率有較好效果.另外,在Rank- 1文中方法均高于基于字典學(xué)習(xí)[11- 13]的重識別方法.
PRID 450s數(shù)據(jù)集下文中方法與部分重識別方法的CMC曲線如圖6所示,不同方法在Rank- 1/5/10/20的準確率如表2所示.
圖6 PRID 450s數(shù)據(jù)集下不同方法CMC曲線比較
Fig.6 Comparison of CMC curves of various methods on PRID 450s dataset
表2 PRID 450 s數(shù)據(jù)集下不同方法的識別率
Table 2 Recognition rate of various methods on PRID 450 s dataset
方法識別率/%r=1r=5r=10r=20LMNN[28]30.055.367.678.4EIML[1]34.757.767.977.3KISSME[2]33.559.870.879.5DLILR[13]44.871.680.488.6ITML[21]24.347.858.770.9文中方法46.172.382.389.2
與VIPeR數(shù)據(jù)集結(jié)果相似,文中方法識別率相對于基于度量學(xué)習(xí)和特征學(xué)習(xí)重識別方法的識別率有了較大提高,再次顯示了文中構(gòu)造的離散度函數(shù)的優(yōu)勢.而對于基于字典學(xué)習(xí)的重識別方法DLILR,把PRID 450s特征直接代入代碼中,分別取幾組不同的參數(shù)(稀疏約束項和拉普拉斯圖規(guī)則化項的約束系數(shù)),取平均識別率最高的一組作為實驗的參數(shù),從表2可看出,文中方法識別率仍高于DLILR.
各方法在CAVIAR4REID數(shù)據(jù)集下的CMC曲線如圖7所示,在Rank- 1/5/10/20的識別率如表3所示.
圖7 CAVIAR4REID數(shù)據(jù)集下不同方法CMC曲線比較
Fig.7 Comparison of CMC curves of various methods on CAVIAR4REID dataset
表3 CAVIAR4REID數(shù)據(jù)集下不同方法的識別率
Table 3 Recognition rate of various methods on CAVIAR4REID dataset
方法識別率/%r=1r=5r=10r=20LF[6]36.273.988.698.7AHPE[29]9.732.155.673.9SDALF[3]8.337.558.077.5LMNN[28]43.0———KISSME[2]70.0———DLILR[13]71.288.493.898.1CSP[20]17.547.568.085.7文中方法74.889.994.599.2
表中是針對多幅圖像的實驗結(jié)果,即在攝像頭A和攝像頭B下各取5張圖像作為Gallery集和Probe集進行匹配.表3中,在Rank- 1文中方法以約3%的差距高于DLILR方法,展示中文提出的最大化類間離散度、最小化類內(nèi)離散度方法的有效性;同時也表明文中方法在字典學(xué)習(xí)領(lǐng)域有一定優(yōu)勢.圖8是Rank- 1盒形圖(Boxplot)的比較,可見文中方法與DLILR方法10次實驗的Rank- 1取值都相對集中在中位線附近,沒有出現(xiàn)異常點.
圖8 不同數(shù)據(jù)集下盒形圖比較Fig.8 Comparison of Boxplot on various datasets
根據(jù)實驗結(jié)果可得,文中提出的模型可以高效運行,在時間復(fù)雜度上與DLILR方法具有可比性.例如,在3.30 GHz Intel CPU、8 GB內(nèi)存、Matlab R2013a開發(fā)環(huán)境的臺式機下,文中方法計算一幅圖像特征的稀疏系數(shù)僅用0.034 s,DLILR方法花費0.023 s.而在圖像匹配階段,只需計算兩幅圖像稀疏系數(shù)的余弦距離.
文中提出一種新的基于Fisher判別稀疏表示和字典學(xué)習(xí)行人重識別方法.利用字典學(xué)習(xí)的優(yōu)勢得到更好表示特征的稀疏系數(shù).該方法充分考慮行人的身份判別信息,通過加入約束稀疏表示的正則化項,最大化不同類別行人稀疏系數(shù)的類間離散度,最小化同類別行人稀疏系數(shù)的類內(nèi)離散度.充分利用兩個不同區(qū)域圖像特征間的聯(lián)系,能夠?qū)W習(xí)具有較好判別性能的字典.在公開數(shù)據(jù)集上的實驗結(jié)果驗證了該方法識別率高于目前基于字典學(xué)習(xí)的重識別方法的識別率.
參考文獻:
[1] HIRZER M,ROTH P M,BISCHOF H.Person re-identification by efficient impostor-based metric learning [C]∥IEEE Ninth International Conference on Advanced Video and Signal-Based Surveillance.Beijing:IEEE Computer Society,2012:203- 208.
[2] LOSTINGER M,HIRZER M,WOHLHART P.Larg scale metric learning from equivalence constraints [C]∥ Computer Vision and Pattern Recognition.[S.l.]:IEEE,2012:2288- 2295.
[3] FARENZENA M,BAZZANI L,PERINA A.Person re-identification by symmetry-driven accumulation of local features[C]∥ Computer Vision and Pattern Recognition.[S.l.]:IEEE,2010:2360- 2367.
[4] WANG H,GONG S,XIANG T.Unsupervised learning of generative topic saliency for person re-identification [C]∥British Machine Vision Conference.[S.l.]:BMVA Press,2014:531- 543.
[5] ZHAO R,OUYANG W,WANG X.Learning mid-level filters for person re-identification [C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Columbus:IEEE Computer Society,2014:144- 151.
[6] PEDAGADI S,ORWELL J,VELASTIN S,BOGHOSSIAN B.Local fisher discriminant analysis for pedestrian re-identification [C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Washington:IEEE Computer Society,2013:3318- 3325.
[7] ZHAO R,OUYANG W,WANG X.Unsupervised salience learning for person re-identification [C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Portland:IEEE,2013:3586- 3593.
[8] ZHAO R,OUYANG W,WANG X.Person re-identification by salience matching [C]∥Proceedings of the IEEE International Conference on Computer Vision.Sydney:IEEE Computer Society,2013:2528- 2535.
[9] AHARON M,ELAD M,BRUCKSTEIN A.K-SVD :an algorithm for designing overcomplete dictionaries for sparse representation [J].IEEE Transactions on Signal Processing,2006,54(11):4311- 4322.
[10] MAIRAL J,BACH F,PONCE J,et al.Learning discriminative dictionaries for local image analysis [C]∥Computer Vision and Pattern Recognition.Anchorage:IEEE,2008:1- 8.
[11] LI S,LI K,FU Y.Cross-view projective dictionary learning for person re-identification [C]∥Proceedings of the 24th International Joint Conference on Artificial Intelligence(IJCAI).Buenos Aires:IEEE,2015:2155- 2161.
[12] LIU X,SONG M,TAO D,et al.Semi-supervised Coupled Dictionary Learning for Person Re-identification [C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Columbus:[s.n.],2014:3550- 3557.
[13] KODIRON E,XIANG T,GONG S.Dictionary learning with Iterative Laplacian Regularisation for unsupervised person re-identification [C]∥British Machine Vision Conference.[S.l.]:BMVA Press,2015:3- 8.
[14] YANG M,ZHANG L,FENG X,et al.Fisher discrimination dictionary learning for sparse representation [C]∥ 2011 International Conference on Computer Vision.Barcelona:IEEE,2011:543- 550.
[15] ROSASCO L,VERRI A,SANTORO M,et al.Iterative projection methods for structured sparsity regularization [Z].MIT Technical Reports,MIT-CSAIL-TR-2009-050,CBCL-282,2009:18- 47.
[16] YANG M,ZHANG L,YANG J,et al.Metaface learning for sparse representation based face recognition [C]∥IEEE International Conference on Image Processing.Hong Kong:IEEE,2010:1601- 1604.
[17] TIBSHIRANI R.Regression shrinkage and selection via the lasso [J].Journal of the Royal Statistical Society.Series B (Methodological),2011,73:273- 282.
[18] GRAY D,BRENNAN S,TAO H.Evaluating appearance models for recognition,reacquisition,and tracking [C]∥IEEE International Workshop on Performance Evaluation for Tracking and Surveillance (PETS).Rio de Janeiro:IEEE,2007:41- 47.
[19] ROTH P,HIRZER M,KOESTINGER M,et al.Mahalanobis distance learning for person re-identification [M]∥Person Re-Identification.London:Springer,2014:247- 267.
[20] CHENG D,CRISTANI M,STOPPA M,et al.Custom Pictorial structures for re-identification [C]∥Proceedings of the 22th British Machine Vision Conference.[S.l.]:BMVA,2011:1- 6
[21] DAVIS J,KULIS B,JAIN P,et al.Information-theoretic metric learning [C]∥Proceedings of the Twenty-Fourth International Conference on Machine Learning.Oregon:[s.n.],2007:209- 216.
[22] LISANIT G,MASI I,BAGDANOVa A,et al.Person re-identification by iterative re-weighted sparse ranking [J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2015,37(8):1629- 1642.
[23] LISANTI G,MASI I,DEL B.Matching people across camera views using kernel canonical correlation analysis [C]∥Proceedings of the International Conference on Distributed Smart Cameras.New York:ACM,2014:1- 6.
[24] DALAR N,TRIGGS B.Histograms of oriented gradients for human detection [C]∥2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05).San Diego:IEEE,2005:886- 893.
[25] AHONEN T,HADID A,PIETIKAINEN M.Face description with local binary patterns:Application to face recognition [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2006,28(12):2037- 2041.
[26] MIGNON A,JURIE F.Pcca:A new approach for distance learning from sparse pairwise constraints [C]∥Computer Vision and Pattern Recognition.Aalmstad:IEEE,2012:2666- 2672.
[27] MA B,SU Y,JURIE F.Bicov:a novel image representation for person re-identification and face verification [C]∥Proceedings of the 2012 British Machive Vision Conference.Guildford:[s.n.],2012:231- 239.
[28] WEINBERGER K,SSUL L,BLITZER J.Distance Metric Learning for Large Margin Nearest Neighbor Classification [J].Journal of Machine Learning Research,2006,10(1):207- 244.
[29] BAZZANI L,CRISTANI M,PERINA A,et al.Multiple-shot person re-identification by chromatic and epitomic analyses [J].Pattern Recognition Letters,2012,33(7):898- 903.
PedestrianRe-IdentificationontheBasisofDictionaryLearningandFisherDiscriminationSparseRepresentation
ZHANGJian-weiLINWen-zhaoQIULong-qing
(School of Computer Science and Engineering, South China University of Technology, Guangzhou 510006, Guangdong, China)
In order to overcome the inadequate consideration of the existing dictionary learning taken into the connection of pedestrian features of different camera views, a new pedestrian re-identification method is proposed on the basis of dictionary learning and Fisher discrimination sparse representation. By considering the similar sparse representation of features of the same pedestrian in different scenes, the concept of pedestrian re-identification scatter function is put forward through adding a regularization term that constrains the sparse representation. The regularization term aims at maximizing the between-class scatter of the sparse representation of different pedestrians, and minimizing the within-class scatter of the sparse representation of the same pedestrian. Thus, sparse representation with strong discrimination ability can be obtained via dictionary learning. Experimental results on VIPeR, PRID 450s and CAVIAR4REID datasets indicate that the recognition rate of the proposed method is higher than that of other dictionary learning-based pedestrian re-identification methods.
pedestrian re-identification; Fisher discrimination; dictionary learning; sparse representation; scatter
2016- 09- 08
國家自然科學(xué)基金資助項目(61472145);廣東省科技計劃項目(2016B090918042)
*Foundationitems: Supported by the National Nutural Science Foundation of China(61472145) and the Science and Technology Planning Project of Guangdong Province(2016B090918042)
張見威(1969-),女,副教授,主要從事醫(yī)學(xué)圖像分析與識別、視頻智能分析、圖像配準及行人重識別研究. E-mail:jwzhang@scut.edu.cn
1000- 565X(2017)07- 0055- 08
TP 391.4
10.3969/j.issn.1000-565X.2017.07.008