胡正平 張敏姣 李淑芳
(燕山大學(xué)信息科學(xué)與工程學(xué)院,河北秦皇島 066004)
隨著視頻監(jiān)控設(shè)備的廣泛應(yīng)用,行人再識(shí)別[1]已成為智能視頻監(jiān)控中的關(guān)鍵技術(shù),對(duì)行人再識(shí)別技術(shù)進(jìn)行深入研究,有助于實(shí)現(xiàn)公共場(chǎng)所安全監(jiān)控的智能化,在社會(huì)公共安全方面具有重要的現(xiàn)實(shí)意義。
目前已有的行人再識(shí)別算法大致可分為基于圖像描述和基于距離度量學(xué)習(xí)兩大類。圖像描述中常用顏色直方圖或者融合特征[2]進(jìn)行行人特征描述,由Zhao等人提出32維LAB顏色直方圖和128維SIFT描述符,以5個(gè)像素為步長(zhǎng)在樣本中密集采樣獲得10×10結(jié)構(gòu)塊,之后在每個(gè)結(jié)構(gòu)塊內(nèi)進(jìn)行特征提取[3]。
而在行人再識(shí)別研究中,行人圖像大多包含背景信息,這些背景信息對(duì)行人的正確匹配會(huì)造成影響,因此準(zhǔn)確地進(jìn)行前景提取后再提取特征對(duì)提高行人再識(shí)別算法的性能有重要作用。隨著深度學(xué)習(xí)的廣泛研究,現(xiàn)有深度模型具有高效的特征表達(dá)能力,從像素級(jí)數(shù)據(jù)到抽象語義概念逐層提取信息,這使其在提取圖像的全局特征方面具有突出的優(yōu)勢(shì)。以行人圖像分割為例,為預(yù)測(cè)每個(gè)像素屬于哪個(gè)身體部位(頭部、上身、下身),利用局部區(qū)域提供的有限信息量往往產(chǎn)生錯(cuò)誤分類,因此全局信息對(duì)于局部判斷非常重要。理想情況下,模型應(yīng)該將整幅圖像作為輸入,直接預(yù)測(cè)整幅分割圖,如此不但利用了上下文信息,在高維數(shù)據(jù)轉(zhuǎn)換過程中還隱式地加入了形狀先驗(yàn)。但由于整幅圖像內(nèi)容過于復(fù)雜,淺層模型很難有效捕捉全局特征,深度學(xué)習(xí)的出現(xiàn)使這一思路成為可能,在人臉分割[4]、人體分割[5]、人臉圖像配準(zhǔn)[6]和人體姿態(tài)估計(jì)[7]等方面都取得了成功。例如在行人圖像語義分割研究領(lǐng)域,文獻(xiàn)[5]提出利用深度分解網(wǎng)絡(luò)(Deep Decompositional Network, DDN)對(duì)行人圖像進(jìn)行語義分割,獲得行人的頭部、上身、下身等區(qū)域的標(biāo)簽圖。
提取魯棒性特征的同時(shí),距離度量方法對(duì)行人匹配能否成功也至關(guān)重要,因?yàn)樵诟呔S視覺特征中難以捕獲不變因子,所以在行人再識(shí)別中可應(yīng)用有監(jiān)督全局距離度量學(xué)習(xí)來捕獲不變因子。最常用的方式是通過線性縮放和特征空間的旋轉(zhuǎn)覆蓋歐式距離,基于此,經(jīng)典度量學(xué)習(xí)方法結(jié)合最近鄰域分類,F(xiàn)lorin等人提出LMNN (Large Margin Nearest Neighbor)分類算法,該算法給鄰近目標(biāo)(匹配對(duì))設(shè)定閾值,并且懲罰不同類之間的近距離,其屬于有監(jiān)督的局部距離度量學(xué)習(xí)模型[8]。另外一些研究把注意力放在學(xué)習(xí)具有區(qū)分性的子空間上。Liao等提出通過交叉視圖數(shù)據(jù),投影到一個(gè)低維的子空間w上,以相同的方式解決線性判別分析(Linear Discriminant Analysis, LDA)[9],在學(xué)習(xí)而得的子空間中,通過使用KISSME算法學(xué)習(xí)一個(gè)距離函數(shù)。為達(dá)到降維目的,Pedagadi等結(jié)合無監(jiān)督的PCA和有監(jiān)督的局部Fisher判別分析,保留局部鄰域結(jié)構(gòu)[10]。KISSME之前要對(duì)高維特征進(jìn)行降維,文獻(xiàn)[11]中,提出PCCA (Pairwise Constrained Component Analysis, PCCA),用以學(xué)習(xí)一個(gè)線性映射函數(shù),進(jìn)而能夠直接在高維數(shù)據(jù)上操作,這些工作說明了學(xué)習(xí)特征子空間可以成功克服視域差異帶來的特征差異。因此本文對(duì)于行人樣本進(jìn)行特征提取后,提出學(xué)習(xí)一個(gè)特征映射模型從而進(jìn)一步對(duì)提取的視覺特征進(jìn)行變換,用以解決兩個(gè)攝像機(jī)視域差異問題。
綜上,本文首先利用DDN模型對(duì)行人圖像的前景進(jìn)行準(zhǔn)確有效的提取,然后提取前景圖像的顏色直方圖特征和原圖像的Gabor紋理特征,利用行人特征通過研究映射模型學(xué)習(xí)對(duì)提取的視覺特征進(jìn)行變換,最后通過學(xué)習(xí)的映射模型將查尋集和候選集中的行人特征變換到一個(gè)特征分布較為一致的空間中,進(jìn)行距離度量和排序,從而成功克服了背景干擾以及攝像機(jī)視域差異和行人自身差異等問題。
該行人再識(shí)別算法的整體框圖如圖1所示。由圖可見其中基于深度分解網(wǎng)絡(luò)(Deep Decompositional Network, DDN)的前景分割是第一步,深度分解網(wǎng)絡(luò)利用語義分割對(duì)行人圖像進(jìn)行前景提取,語義區(qū)域包括頭部、上身、下身等,該方法直接將底層視覺特征映射成身體部件標(biāo)簽圖。DDN通過三種連接的隱藏層估計(jì)被遮擋區(qū)域和分割身體區(qū)域,這三種隱藏層包括:遮擋估計(jì)層(Occlusion Estimation Layers)、實(shí)現(xiàn)層(Completion Layers)、分解層(Decomposition Layers)。遮擋估計(jì)層是一個(gè)二值掩模,將行人分割出來,如果存在遮擋那同時(shí)標(biāo)明遮擋部分;實(shí)現(xiàn)層利用原始特征和遮擋掩模合成不可見部分的底層特征;分解層直接將合成的視覺特征變換成標(biāo)簽圖,標(biāo)簽圖對(duì)應(yīng)行人身體的各個(gè)部件。訓(xùn)練這些隱藏層時(shí),通過隨機(jī)梯度下降法調(diào)整整個(gè)網(wǎng)絡(luò),通過估計(jì)一組權(quán)重矩陣和相應(yīng)的偏置對(duì)DDN網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
如圖2所示為DDN的網(wǎng)絡(luò)結(jié)構(gòu),行人特征向量x作為輸入,一組身體部件標(biāo)簽圖{y1,y2,…,yM}作為輸出。每一層與下一層都是完全連接,該網(wǎng)絡(luò)中有一個(gè)下采樣層,兩個(gè)遮擋估計(jì)層,兩個(gè)實(shí)現(xiàn)層和兩個(gè)分解層,此網(wǎng)絡(luò)結(jié)構(gòu)適用于行人部件分割和行人前景提取。
圖1 算法整體框圖Fig.1 Flow chart of the algorithm
圖2 DDN網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 DDN network structure
在DDN的底層中,輸入特征為x,x經(jīng)過下采樣得到xd。x通過兩個(gè)權(quán)重矩陣Wo1和Wo2映射成一個(gè)二值掩模xo∈[0,1]n,為了降低網(wǎng)絡(luò)中訓(xùn)練的參數(shù),設(shè)置xo與xd為相同的維數(shù)。xo表示為:
xo=τ(Wo2ρ(Wo1x+bo1)+bo2)
(1)
其中遮擋估計(jì)層第一層的激活函數(shù)為:
ρ(x)=max(0,x)
(2)
第二層激活函數(shù)為sigmoid函數(shù)為:
(3)
z=ρ(Wc2ρ(Wc1(xo·xd)+bc1)+bc2)
(4)
(5)
其中z為緊湊表示,而·表示矩陣的點(diǎn)乘。
(6)
其中yi=0表示像素屬于背景,yi=1表示像素點(diǎn)屬于行人身體部件。
(7)
(8)
(9)
(10)
其中σ表示噪聲的標(biāo)準(zhǔn)差,Wc、bc、uc為權(quán)重矩陣和偏置。常用的DAE利用隨機(jī)噪聲腐蝕每一個(gè)訓(xùn)練樣本,本文算法使用結(jié)構(gòu)化噪聲腐蝕樣本,圖3所示為結(jié)構(gòu)化噪聲腐蝕模板,對(duì)于每個(gè)標(biāo)準(zhǔn)的干凈樣本,在圖3中通過計(jì)算特征和40個(gè)噪聲模板的點(diǎn)積生成40個(gè)腐蝕樣本。
圖3 結(jié)構(gòu)化噪聲模板Fig.3 Structured noise template
(11)
其中ht1表示第一個(gè)分解層的輸出,兩個(gè)分解層的訓(xùn)練可以按照遮擋估計(jì)層中的策略進(jìn)行學(xué)習(xí)。
對(duì)DDN網(wǎng)絡(luò)所有參數(shù)的調(diào)整,通過最小化下邊的損失函數(shù):
(12)
(13)
其中diag(·)表示對(duì)角矩陣。例如第l下一層的激活函數(shù)是Sigmoid函數(shù),反向傳播誤差el表示為:
(14)
其中Wl+1為權(quán)重矩陣,el+1表示下一層的誤差,hl表示第l層的輸出。對(duì)于具有修正線性函數(shù)較低的一層,反向傳播誤差通過下式計(jì)算:
(15)
圖4 行人圖像前景提取效果示例Fig.4 Example of pedestrian imagesforeground extraction
圖5 前景提取圖Fig.5 Foreground extraction
首先利用DDN網(wǎng)絡(luò)訓(xùn)練得到的模型對(duì)行人圖像進(jìn)行如圖5所示的前景提取過程,其中(a)圖為經(jīng)過DDN網(wǎng)絡(luò)提取得到的行人部件標(biāo)簽圖,(b)為前景區(qū)域圖,(c)為行人原圖,(d)為行人的前景提取圖。然后將前景圖像和原圖像平均分成18個(gè)水平條,行人圖像特征提取過程如圖6所示,首先對(duì)每個(gè)水平條提取RGB、HS、CIE Lab、NTSC和YCbCr顏色直方圖,同時(shí)在其相應(yīng)的原圖上提取Gabor紋理特征,對(duì)每一種特征進(jìn)行L1范數(shù)歸一化后將這些特征進(jìn)行級(jí)聯(lián),構(gòu)成一個(gè)行人的特征。
圖6 行人圖像特征提取示意圖Fig.6 Feature extraction
(16)
其中p和q表示兩個(gè)不同攝像機(jī)拍攝的視域,通常情況下Up≠Uq。本質(zhì)上,構(gòu)建的模型是通過學(xué)習(xí)矩陣Up和Uq得到的,該模型既交叉視圖映射模型。
圖7 交叉映射模型示意圖Fig.7 Cross-view mapping model
(17)
fcross和fintra由等式(12)和(13)決定,η表示控制內(nèi)部視圖模型fintra的權(quán)重,其為正整數(shù),
(18)
(19)
(20)
為了避免平凡解,即Uk=0,其k=1,2,...,N,加上約束條件并制定以下優(yōu)化問題:
s.t.UkTMkUk=I,k=1,2,...,N
(21)
其中Mk=XkXkT+μI,I表示單位矩陣,從而可以避免協(xié)方差矩陣的奇異性,這些約束確保每一個(gè)區(qū)域的映射特征有單位幅值,不會(huì)縮小為零。
(22)
s.t.αkTM′kαk=I;k=1,2,...,N
(23)
線性情況和非線性情況的優(yōu)化求解過程是相似的,以線性情況為例進(jìn)行優(yōu)化求解。待優(yōu)化的目標(biāo)函數(shù)可以寫成:
(24)
將目標(biāo)函數(shù)進(jìn)一步簡(jiǎn)化為:
f=tr(UTRU)
(25)
U=[U1;U2;...;UN]∈RNd×C
(26)
(27)
s.t.UTMU=NI
(28)
上式中M=diag(M1,M2,...,MN)。式(28)表示的優(yōu)化問題可以通過計(jì)算相應(yīng)的最小特征值的特征向量解決:
Ru=νMu
(29)
經(jīng)過以上步驟,學(xué)習(xí)視域p和q的兩個(gè)映射矩陣Up和Uq從而得到映射模型,這個(gè)模型可以尋找到一個(gè)潛在的公共空間,在這個(gè)空間中,不同攝像機(jī)視域下的同一行人的特征更加相似,而不同行人的特征差異更大。該模型應(yīng)用在不相交的攝像機(jī)視域下的行人圖像匹配中,能夠保留更多判別性特征表示。
本實(shí)驗(yàn)在VIPeR、PRID450S和CUHK01三個(gè)數(shù)據(jù)庫上進(jìn)行,三個(gè)數(shù)據(jù)庫的行人示例如圖8所示,且在所有數(shù)據(jù)集上采用CMC(Cumulative Match Characteristic)曲線及其匹配率排名對(duì)包括本算法在內(nèi)的9種算法進(jìn)行對(duì)比評(píng)估,其他8種算法分別為:成對(duì)約束成分分析(Pairwise Constrained Component Analysis, PCCA)[11]、局部費(fèi)舍爾判別分析(Local Fisher Discriminant Analysis, LFDA)[10]、支持向量機(jī)距離度量(Support Vector Machine Metric Learning, SVMML)[12]、簡(jiǎn)單直接的度量學(xué)習(xí)(Keep It Simple and Straightforward Metric Learning, KISSME)[13]、正則化成對(duì)約束成分分析(regularization Pairwise Constrained Component Analysis, rPCCA[11]、核心局部費(fèi)舍爾判別分析(krernel Local Fisher Discriminant Classifier, kLFDA)[10]、邊界費(fèi)舍爾分析(Marginal Fisher Analysis, MFA)[14]、內(nèi)核交叉視圖判別成分分析(Kernel Cross-View Discriminant Component Analysis, KCVDCA)[15]。實(shí)驗(yàn)表格中rank=1、rank=5、rank=10、rank=20對(duì)應(yīng)實(shí)驗(yàn)結(jié)果的實(shí)際意義為,分別取行人再識(shí)別距離度量后排序階段中排序前1、5、10、20位行人時(shí)恰好存在被查詢行人的概率,本文中以百分比的形式給出結(jié)果。實(shí)驗(yàn)平臺(tái)為處理器AMD Athlon(tm)ⅡX2 255 Processor 3.10 GHz,內(nèi)存10.0G以及Windows7、64位操作系統(tǒng)。
圖8 各數(shù)據(jù)庫中的行人示例Fig.8 Person examples
在行人再識(shí)別研究領(lǐng)域VIPeR數(shù)據(jù)庫是最早被公開、應(yīng)用比較廣泛的行人再識(shí)別數(shù)據(jù)集。該數(shù)據(jù)集行人目標(biāo)是從戶外拍攝的原始視頻序列中手動(dòng)準(zhǔn)確地裁剪出來的,共包含632個(gè)行人目標(biāo),每個(gè)行人目標(biāo)包含兩張圖像,整個(gè)數(shù)據(jù)集共有1264張圖像,其中每張圖像的大小歸一化為128×48。實(shí)驗(yàn)時(shí),將數(shù)據(jù)集分成訓(xùn)練集和測(cè)試集兩組,其中測(cè)試集包括:查尋集和候選集,為了與已有算法作公正對(duì)比,制定有效的評(píng)價(jià)框架,將數(shù)據(jù)集隨機(jī)平均分成兩部分,其中一部分作為實(shí)驗(yàn)的訓(xùn)練集,另一部分作為測(cè)試集。在VIPeR數(shù)據(jù)庫中利用CMC曲線對(duì)9種算法進(jìn)行性能比較,其評(píng)估結(jié)果分別如圖9和表1所示。由實(shí)驗(yàn)結(jié)果可以看出在VIPeR數(shù)據(jù)庫中本文提出的方法與KCVDCA方法的實(shí)驗(yàn)結(jié)果比較接近,因?yàn)樵摂?shù)據(jù)庫的背景較為簡(jiǎn)單,且攝像設(shè)備的參數(shù)設(shè)置相近,只是角度發(fā)生較大變化,因此在特征提取前進(jìn)行前景提取的效果發(fā)揮受到局限。而KCVDCA方法與本文學(xué)習(xí)映射模型的方法思路類似,均是學(xué)習(xí)一個(gè)新的特征空間然后進(jìn)行距離度量,也可以較好的克服視域角度差異的問題,因此針對(duì)VIPeR數(shù)據(jù)庫的實(shí)驗(yàn)效果接近,但是對(duì)比代表真正識(shí)別率的rank1可以發(fā)現(xiàn),本文提出的方法較于KCVDCA方法的性能超出1.17%,證明了本文算法在實(shí)際應(yīng)用中的效果優(yōu)于KCVDCA。實(shí)驗(yàn)證明本算法能夠解決背景干擾的問題,從而提高了算法的魯棒性。
圖9 VIPeR數(shù)據(jù)庫上的CMC曲線比較Fig.9 CMC Curves on VIPeR database
算法rank=1rank=5rank=10rank=20PCCA[11]11.98%36.71%52.10%71.41%LFDA[10]17.96%44.38%60.09%76.17%SVMML[12]28.03%61.20%75.16%86.65%KISSME[13]23.35%52.95%67.51%81.78%rPCCA[11]16.05%44.09%61.67%78.24%KLFDA[10]20.24%46.18%61.16%77.58%MFA[14]20.63%49.36%64.79%79.79%KCVDCA[15]41.99%72.15%83.58%91.78%OURS43.16%71.20%82.28%90.44%
PRID450S數(shù)據(jù)庫由公路旁的兩個(gè)不同攝像機(jī)捕獲地450個(gè)行人目標(biāo)組成,同一個(gè)行人目標(biāo)包含兩張光照強(qiáng)烈變化的圖像,每個(gè)圖像尺寸不相同,本文在進(jìn)行實(shí)驗(yàn)時(shí),將行人圖像歸一化為160×60,同樣將數(shù)據(jù)庫集隨機(jī)平均分成兩部分,一部分作為訓(xùn)練集,另一部分作為測(cè)試集,其中測(cè)試集的一半作為查找集,另一半作為候選集,在PRID450S數(shù)據(jù)庫中利用CMC曲線對(duì)9種算法進(jìn)行性能比較,其評(píng)估結(jié)果如圖10和表2所示。由實(shí)驗(yàn)結(jié)果知本算法第一匹配率最高,本文算法因?yàn)榭朔尘案蓴_的問題,對(duì)提取魯棒性特征具有良好表現(xiàn)。
表2 PRID450S數(shù)據(jù)庫上幾種算法匹配率比較
圖10 PRID450S數(shù)據(jù)庫上的CMC曲線比較Fig.10 CMC Curves on PRID450S database
CUHK01數(shù)據(jù)庫中的行人圖像來源于大學(xué)校園,是從兩個(gè)視域不相交的攝像機(jī)拍攝的視頻中裁剪下來的,其中含有971個(gè)行人。該數(shù)據(jù)集每個(gè)攝像機(jī)視域中包含同一行人的兩張圖像,共有3884張圖像,圖像歸一化為的160×60。由于本文研究的是單發(fā)情況下的行人再識(shí)別,所以在每個(gè)攝像機(jī)視域下僅選取同一行人的一張圖像來進(jìn)行實(shí)驗(yàn),即本實(shí)驗(yàn)隨機(jī)選取了1942張行人圖像。在本文實(shí)驗(yàn)中,隨機(jī)將選取數(shù)據(jù)集平均分成一半,一半作為訓(xùn)練集,另一半作為測(cè)試集。
在CUHK01數(shù)據(jù)庫中利用CMC曲線對(duì)9種算法進(jìn)行性能比較,其評(píng)估結(jié)果分別如圖11和表3所示。CHUK01數(shù)據(jù)庫在大學(xué)校園拍攝采集過程中背景變化單一,但是背景同樣會(huì)對(duì)提取判別性特征造成影響,由圖11和表3可知本算法可提高匹配率,消除背景干擾的問題。
圖11 CUHK01數(shù)據(jù)庫上的CMC曲線比較Fig.11 CMC Curves on CUHK01 database
算法rank=1rank=5rank=10rank=20PCCA10.99%30.87%43.49%57.93%LFDA13.11%29.83%39.96%51.86%SVMML19.66%45.77%59.69%73.42%KISSME15.49%35.84%47.90%60.48%rPCCA14.71%38.69%52.34%66.65%kLFDA13.07%31.87%43.29%56.44%MFA14.00%33.07%44.61%57.48%KCVDCA38.43%66.05%75.37%83.68%OURS45.47%68.52%76.95%84.16%
針對(duì)行人背景干擾的問題,本文設(shè)計(jì)DDN網(wǎng)絡(luò)結(jié)合映射模型學(xué)習(xí)的行人再識(shí)別算法,在解決不同攝像機(jī)下視域差異造成的同一行人特征分布不一致問題的基礎(chǔ)上,設(shè)計(jì)DDN模型進(jìn)而準(zhǔn)確有效地進(jìn)行前景提取,然后提取行人圖像視覺特征,得到魯棒性特征表示,從而解決背景干擾問題,最后進(jìn)行映射模型學(xué)習(xí),行人再識(shí)別匹配率得到提升。值得注意的是:學(xué)習(xí)映射模型時(shí),需要針對(duì)特定攝像機(jī)配對(duì)來進(jìn)行學(xué)習(xí),隨著智能監(jiān)控網(wǎng)絡(luò)的廣泛應(yīng)用,需要對(duì)大量攝像機(jī)進(jìn)行配對(duì)處理,從而處理數(shù)據(jù)大大增加,如何學(xué)習(xí)一個(gè)具有良好推廣能力的映射模型方法同時(shí)又能克服不同攝像機(jī)下行人特征分布不一致問題還需進(jìn)一步研究。
[1] Wang Xiaogang. Intelligent multi-camera video surveillance: A review[J]. Pattern Recognition Letters, 2013, 34(1): 3-19.
[2] 馮星辰,阮秋琦.行人跟蹤的多特征融合算法研究[J].信號(hào)處理, 2016, 32(11): 1308-1317.
Feng Xingchen, Ruan Qiuqi.Research on Multi-feature Fusion Algorithm for Pedestrian Tracking[J]. Journal of Signal Processing, 2016, 32(11): 1308-1317.(in Chinese)
[3] Zhao Rui, Ouyang Wanli, Wang Xiaogang. Learning mid-level filters for person re-identification[C]∥IEEE Conference on Computer Vision and Pattern Recognition, Columbus, OH, USA: CVPR, 2014: 144-151.
[4] Luo Ping, Wang Xiaogang, Tang Xiaoou. Hierarchical face parsing via deep learning[C]∥IEEE Conference on Computer Vision and Pattern Recognition, Providence, RI, USA: CVPR, 2012:2480-2487.
[5] Luo Ping, Wang Xiaogang, Tang Xiaoou. Pedestrian parsing via deep decompositional network[C]∥IEEE International Conference on Computer Vision, Sydney, Australia: ICCV, 2013: 2648-2655.
[6] Sun Yi, Wang Xiaogang, Tang Xiaoou. Deep Convolutional Network Cascade for Facial Point Detection[C]∥IEEE Conference on Computer Vision and Pattern Recognition, Portland, OR, USA: CVPR, 2013: 3476-3483.
[7] Toshev A, Szegedy C.DeepPose: Human pose estimation via deep neural networks[C]∥IEEE Computer Vision and Pattern Recognition, Columbus, OH, USA: CVPR, 2014: 1653-1660.
[8] Florin L, Silvia C. Large margin nearest neighbour regression using different optimization techniques[J]. Journal of Intelligent & Fuzzy Systems, 2017, 32(2): 1321-1332.
[9] Liao Shengcai, Hu Yang, Zhu Xiangyu, et al. Person re-identification by local maximal occurrence representation and metric learning[C]∥IEEE Conference on Computer Vision and Pattern Recognition, Boston, USA: CVPR, 2015: 2197-2206.
[10] Pedagadi S, Orwell J, Velastin S, et al. Local FISHER discriminant analysis for pedestrian re-identification[C]∥IEEE Conference on Computer Vision and Pattern Recognition, Portland, USA: CVPR, 2013: 3318-3325.
[11] Mignon A, Jurie F. PCCA: a new approach for distance learning from sparse pairwise constraints[C]∥IEEE Conference on Computer Vision and Pattern Recognition, Rhode Island, USA: CVPR, 2012: 2666-2672.
[12] Li Zhen, Chang Shiyu, Liang Feng, et al. Learning locally-adaptive decision functions for person verification[C]∥IEEE Conference on Computer Vision and Pattern Recognition, Portland, USA: CVPR, 2013: 3610-3617.
[13] Armagan A, Hirzer M, Lepetit V. Semantic segmentation for 3D localization in urban environments[C]∥IEEE Urban Remote Sensing Event(JURSE), Dubai, United Arab Emirates: JURSE, 2017: 1- 4.
[14] Chen Yingcong, Zhu Xiatian, Zheng Weishi, et al. Person re-identification by camera correlation aware feature augmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, PP(99): 12-24.
[15] Chen Yingcong, Zheng Weishi, Lai Jianhuang, et al. An asymmetric distance model for cross-view feature mapping in person re-identification[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017: 1661-1675.