徐勝軍 劉求緣 史 亞 孟月波 劉光輝 韓九強(qiáng)
①(西安建筑科技大學(xué)信息與控制工程學(xué)院 西安 710055)
②(人工智能與數(shù)字經(jīng)濟(jì)廣東省實(shí)驗(yàn)室(廣州) 廣州 510320)
行人重識(shí)別(Re-IDentification, Re-ID)旨在從非重疊多攝像機(jī)獲取的圖像或視頻數(shù)據(jù)庫中查詢特定行人,即給定一幅行人圖像后在圖像庫中跨設(shè)備檢索其所有圖像,在視頻監(jiān)控、安防等領(lǐng)域有重大應(yīng)用價(jià)值。近年來,基于深度學(xué)習(xí)的Re-ID方法能夠獲得顯著優(yōu)于傳統(tǒng)方法的識(shí)別性能,成果豐碩[1,2]。然而,跨攝像機(jī)場(chǎng)景下行人圖像存在視角和姿態(tài)變化,加之光照、遮擋等因素影響,Re-ID技術(shù)離實(shí)用尚有很大距離。
局部遮擋和姿態(tài)變化是影響Re-ID性能的兩大因素。遮擋不僅造成了行人部分身體信息的丟失,還引入了額外干擾,不利于行人特征的有效提取;行人姿態(tài)的多變性及行人檢測(cè)算法的誤差會(huì)造成身體各區(qū)域不能很好地對(duì)齊,進(jìn)而導(dǎo)致特征匹配時(shí)存在較為嚴(yán)重的未對(duì)齊問題。因此,在復(fù)雜應(yīng)用場(chǎng)景下,全局式表示學(xué)習(xí)[3]和度量學(xué)習(xí)[4]的魯棒性與泛化能力較弱。為了獲得更加精細(xì)且完整的行人特征,基于“全局+局部”思想的判別式特征學(xué)習(xí)日益流行,可分為基于姿態(tài)估計(jì)、基于圖像分塊、基于注意力機(jī)制等的Re-ID方法。
基于姿態(tài)估計(jì)的方法利用行人的姿態(tài)信息緩解未對(duì)齊問題。Zhao等人[5]先用改進(jìn)的CPM(Convolutional Pose Machines)算法獲取14個(gè)人體關(guān)節(jié)并將其分成7組(對(duì)應(yīng)7個(gè)身體區(qū)域),由此實(shí)現(xiàn)對(duì)齊;然后將整幅行人圖像和各身體區(qū)域作為輸入,依次通過特征提取和特征融合網(wǎng)絡(luò),將全局和局部特征有機(jī)地結(jié)合起來。Zheng等人[6]先用CPM獲得14個(gè)關(guān)節(jié)和14維置信度向量,并按關(guān)節(jié)分成10個(gè)身體區(qū)域,進(jìn)而將其組合為多種PoseBox,在空間結(jié)構(gòu)上實(shí)現(xiàn)了對(duì)齊;接著將整幅圖像、PoseBox和置信度向量輸入網(wǎng)絡(luò)獲取姿態(tài)不變特征。這兩種方法均需進(jìn)行姿態(tài)估計(jì),從而帶來額外的計(jì)算開銷。因此考慮計(jì)算效率,Li等人[7]以離線訓(xùn)練方式進(jìn)行關(guān)節(jié)定位和身體區(qū)域生成。利用姿態(tài)估計(jì)可精確定位人體關(guān)鍵部位,但模型的訓(xùn)練成本一般較高?;趫D像分塊的方法將行人圖像剛性地劃分為多個(gè)局部塊并從各塊中學(xué)習(xí)特征表示。Sun等人[8]提出PCB(Partbased Convolutional Baseline)模型,其首先將行人特征圖從上至下均勻地劃分成6塊,然后對(duì)各塊分別計(jì)算分類損失以便學(xué)習(xí)局部特征。PCB模型未充分考慮未對(duì)齊問題,因此Luo等人[9]對(duì)特征圖分塊后,通過計(jì)算兩幅圖像局部特征之間的最小距離實(shí)現(xiàn)塊與塊之間的動(dòng)態(tài)匹配,從而在不引入附加監(jiān)督信息的情況下緩解未對(duì)齊問題。Wang等人[10]提出MGN(Multiple Granularity Network)模型,其具有多個(gè)網(wǎng)絡(luò)分支且各分支采用不同的分塊數(shù)用以提取粗略的全局特征和細(xì)粒度局部特征。雖然分塊法可以獲得豐富的局部特征表示,但剛性劃分方式可能把具有完整語義信息的特征強(qiáng)制分成不同部分,造成匹配錯(cuò)誤。基于注意力機(jī)制的方法利用注意力機(jī)制引導(dǎo)模型關(guān)注判別特征。Song等人[11]利用圖像分割方法分離行人與背景并生成對(duì)應(yīng)的二值掩碼,繼而提出MGCAM(Mask-Guided Contrastive Attention Model)算法從人體和背景區(qū)域?qū)W習(xí)對(duì)比特征,從而抑制背景干擾。Zhang等人[12]設(shè)計(jì)了RGA(Relation-aware Global Attention)模塊,先計(jì)算特征圖中所有特征點(diǎn)之間的成對(duì)相關(guān)性并將相關(guān)向量堆疊后作為全局結(jié)構(gòu)信息,然后結(jié)合特征點(diǎn)本身所包含的外觀信息推斷注意力強(qiáng)度,有助于遮擋或姿態(tài)變化時(shí)的語義推理。王粉花等人[13]直接將注意力模塊嵌入骨干網(wǎng)絡(luò)以增強(qiáng)特征學(xué)習(xí)能力,并對(duì)不同深度的特征進(jìn)行采樣融合,使網(wǎng)絡(luò)具有較強(qiáng)的預(yù)測(cè)能力。Yang等人[14]采用多分支網(wǎng)絡(luò),各分支利用類激活圖定位人體的不同區(qū)域,并提出一種重疊激活懲罰損失函數(shù)約束不同分支類激活圖的激活區(qū)域,引導(dǎo)各分支關(guān)注身體不同部位的語義信息,挖掘局部特征。注意力機(jī)制法無需額外的定位模塊和圖像剛性分塊即可獲取行人的顯著性特征,是當(dāng)前Re-ID研究的熱點(diǎn)方向。
上述基于注意力機(jī)制的Re-ID方法雖然性能良好,但都只利用了蘊(yùn)含人體結(jié)構(gòu)信息的全局特征或蘊(yùn)含語義信息的局部特征,而從整體上挖掘最顯著的區(qū)域特征容易忽略部分關(guān)鍵局部細(xì)節(jié)和次顯著的區(qū)域特征,不能有效應(yīng)對(duì)遮擋、姿態(tài)及視角變化等問題。鑒于此,本文提出一種基于多樣化局部注意力網(wǎng)絡(luò)(Diversified Local Attention Network,DLAN)的行人重識(shí)別模型。首先,利用多個(gè)局部注意力網(wǎng)絡(luò)(LAN)自適應(yīng)定位行人圖像中的多個(gè)顯著區(qū)域,從而使網(wǎng)絡(luò)學(xué)習(xí)到不同的語義信息。然后,構(gòu)造了一致性激活懲罰(Consistency Activation Penalty, CAP)函數(shù)來確保多個(gè)局部注意力網(wǎng)絡(luò)的高激活區(qū)域不重疊,從而使得網(wǎng)絡(luò)所學(xué)到的局部特征保持多樣化。最后,將全局特征和多樣化的局部特征進(jìn)行集成,得到按人體結(jié)構(gòu)上對(duì)齊的行人特征表示。針對(duì)遮擋、姿態(tài)及視角變化問題,所提模型能夠有效提取最具判別力的“全局+局部”特征。為驗(yàn)證算法性能,在幾個(gè)廣泛使用的Re-ID數(shù)據(jù)集上開展了實(shí)驗(yàn),結(jié)果表明DLAN的總體性能優(yōu)于對(duì)比方法。
基于注意力機(jī)制,本文提出多樣化局部注意力網(wǎng)絡(luò)(DLAN)模型如圖1所示,其包含主干網(wǎng)絡(luò)、多分支LAN、分類識(shí)別網(wǎng)絡(luò)和CAP網(wǎng)絡(luò)4個(gè)模塊。圖1中,F(xiàn)g表示全局分支的輸入,F(xiàn)k表示第k(k ∈{1,2,...,K},K為分支總數(shù))個(gè)LAN分支的輸入(為簡(jiǎn)化繪圖,圖1給出的是K=3的示例),F(xiàn)*′′表示全局或局部分類識(shí)別網(wǎng)絡(luò)的輸入,f*表示歸一化特征,w*表示LAN生成的激活圖,L*表示各種損失函數(shù);GAP(Global Average Pooling)代表全局平均池化,BN(Batch Normalization)代表批量歸一化。關(guān)于圖1 中各符號(hào)的詳細(xì)闡述見后文。此外,為便于算法描述,假設(shè)訓(xùn)練集為S={(xi,yi)}Ni=1,其中xi表示第i幅行人圖像,yi ∈{1,2,...,C}為xi的標(biāo)簽,C和N分別表示行人個(gè)數(shù)和訓(xùn)練集大小。下面分別對(duì)每個(gè)模塊進(jìn)行詳細(xì)介紹。
對(duì)于深度學(xué)習(xí)網(wǎng)絡(luò),隨著深度的增加,網(wǎng)絡(luò)的學(xué)習(xí)能力理論上也會(huì)增強(qiáng)。但由于退化問題,網(wǎng)絡(luò)越深梯度消失現(xiàn)象越明顯,訓(xùn)練誤差也越大。為此,He等人[15]提出了殘差網(wǎng)絡(luò)(Residual network,Resnet)架構(gòu),其易于優(yōu)化,且很好解決了退化問題。由于深層特征蘊(yùn)含豐富的語義信息,所以現(xiàn)有Re-ID方法首選Resnet作為骨干網(wǎng)絡(luò),本文亦是如此,如圖1(a)所示。Resnet50包含1層卷積層(Conv1)和4個(gè)殘差模塊(Conv2~Conv5),每個(gè)殘差模塊又包含了多個(gè)卷積層、BN層和ReLU(Rectified Linear Units)激活函數(shù)。為了獲得更全面的行人特征表示,在Conv4后將網(wǎng)絡(luò)分成多個(gè)分支,分別作為全局分支和局部分支的輸入,并且在Conv5中不再進(jìn)行下采樣操作。具體地,將行人圖像輸入骨干網(wǎng)絡(luò)后,所獲得的特征圖記作F ∈RD×H×W,其中D,H和W分別表示特征的通道數(shù)、高和寬,F(xiàn)g和Fk均等于F。
圖1 DLAN模型架構(gòu)
圖2 LAN結(jié)構(gòu)圖
對(duì)于給定行人圖像,若對(duì)多分支LAN模塊不加約束,會(huì)造成各分支趨同化,即多個(gè)LAN模型很容易關(guān)注到相同的顯著區(qū)域,從而忽略其他同樣具有判別能力的次顯著區(qū)域。所以,在模型訓(xùn)練過程中需確保K個(gè)分支各自關(guān)注圖像的不同區(qū)域,即每個(gè)局部分支特征響應(yīng)的高激活區(qū)域不同。為此,提出了CAP網(wǎng)絡(luò)以實(shí)現(xiàn)局部特征多樣化,這正是DLAN模型的核心所在。簡(jiǎn)言之,CAP網(wǎng)絡(luò)利用LAN輸出的空間注意力權(quán)重wk引導(dǎo)各局部分支聚焦于人體不同的顯著區(qū)域。具體地,本文采用海林格[17](Hellinger)距離H(·)度量任意兩個(gè)LAN分支輸出的wi和wj的一致性,即
綜合圖1(c)—圖1(e)模塊的損失,DLAN模型的總目標(biāo)函數(shù)為
其中,λ和γ是各損失項(xiàng)之間的平衡參數(shù)(實(shí)驗(yàn)部分將討論二者的取值對(duì)模型性能的影響)。通過求解上式,DLAN模型能夠同時(shí)學(xué)習(xí)到全局和局部特征,并且由CAP網(wǎng)絡(luò)確保所學(xué)局部特征的多樣化。測(cè)試階段,采用歐氏距離計(jì)算查詢圖像與圖像庫中各圖像之間的相似度,并對(duì)齊按降序排列,從而得到重識(shí)別精度。
本節(jié)將通過各類實(shí)驗(yàn)驗(yàn)證所提算法(DLAN)的有效性。所有實(shí)驗(yàn)采用PyTorch深度學(xué)習(xí)框架,GPU工作站的配置為:Intel Core i7型CPU,32 GB內(nèi)存以及12 GB顯存的1080Ti顯卡。
本文利用4個(gè)常用的Re-ID數(shù)據(jù)集開展實(shí)驗(yàn),即M a r k e t 1 5 0 1[18], D u k e M T M C-r e I D[19],CUHK03[20]和Partial REID[21]。每個(gè)數(shù)據(jù)集事先劃分為訓(xùn)練集和測(cè)試集,而測(cè)試集又分成圖像庫和查詢集兩部分。其中,Market1501共包含6個(gè)攝像頭下1501個(gè)行人的12936張訓(xùn)練圖像和23100張測(cè)試圖像,DukeMTMC-reID共包含8個(gè)攝像頭下16522張訓(xùn)練圖像和19889張測(cè)試圖像,CUHK03共包含10個(gè)攝像頭下7365張訓(xùn)練圖像和6732張測(cè)試圖像,Partial REID則共包含300張訓(xùn)練圖像和300張測(cè)試圖像。
Re-ID方法的標(biāo)準(zhǔn)性能評(píng)價(jià)指標(biāo)包括平均精度均值(mean Average Precision, mAP)和累積匹配特性曲線(Cumulative Match Characteristic,CMC)的第1匹配率Rank-1,因此本文也采用這兩種指標(biāo)衡量DLAN模型從圖像庫中檢索待查詢行人圖像的能力。
對(duì)于DLAN模型,輸入圖像的大小為256×128;模型訓(xùn)練過程中,采用隨機(jī)水平翻轉(zhuǎn)和隨機(jī)擦除實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)。批大小設(shè)置為64,共學(xué)習(xí)120輪,三元組損失參數(shù)δ設(shè)為0.3,初始學(xué)習(xí)率設(shè)置為5×10—4,在第40輪和第70輪時(shí)分別衰減為5×10—5和5×10—6。為保證比較的公平性(算法比較見3.4節(jié)和3.5節(jié)),超參數(shù)λ與其他同類方法[10,22]保持一致,設(shè)置為1。為確定分支數(shù)k和超參數(shù)γ的最優(yōu)或較優(yōu)取值,以Market1501數(shù)據(jù)集為例,圖3和圖4分別給出mAP和Rank-1指標(biāo)隨k值(1~6)和γ值(0.01~10)的變化曲線圖。
圖3 Market1501數(shù)據(jù)集上mAP和Rank-1隨k值變化曲線圖
圖4 Market1501數(shù)據(jù)集上mAP和Rank-1隨γ 值變化曲線圖
為驗(yàn)證DLAN模型各模塊的作用,本小節(jié)在Market1501數(shù)據(jù)集上開展消融實(shí)驗(yàn),表1給出各網(wǎng)絡(luò)變種的詳細(xì)配置(“G”表示全局分支,“3L”表示3個(gè)局部分支,“—”表示無)。以文獻(xiàn)[3]中搭建的網(wǎng)絡(luò)作為基線模型(Baseline,只含全局結(jié)構(gòu)),各變種的相關(guān)參數(shù)設(shè)置和訓(xùn)練策略均相同,結(jié)果如表2所示。
表1 DLAN模型網(wǎng)絡(luò)變種結(jié)構(gòu)表
分析表2可得:
表2 消融實(shí)驗(yàn)結(jié)果(%)
(1)對(duì)比Baseline, 3L和3L+LAN的性能,單一的多分支網(wǎng)絡(luò)(3L)比僅學(xué)習(xí)全局特征的Baseline模型提高約0.5%(Rank-1)和1.6%(mAP),表明多分支之間的互補(bǔ)性有利于形成更完整的行人表示。嵌入LAN模型的多分支網(wǎng)絡(luò)(3L+LAN)比3L網(wǎng)絡(luò)提升了0.3%(Rank-1)和0.4%(mAP),證明LAN模型能有效地增強(qiáng)網(wǎng)絡(luò)定位判別信息的能力,因此能學(xué)習(xí)到更利于辨別行人身份的判別信息。
(2)對(duì)比3L+LAN和3L+LAN+CAP的性能,后者較之前者在Rank-1和mAP上分別提升0.4%和0.6%。單一的3L+LAN模型缺乏多樣性約束,因此容易造成各分支學(xué)習(xí)到相同的顯著特征。CAP損失能有效地促使多個(gè)LAN模型關(guān)注非重疊的顯著區(qū)域(詳見3.4節(jié)的可視化驗(yàn)證實(shí)驗(yàn)),所以性能有所提升。
(3)對(duì)比Baseline, 3L+LAN+CAP和G+3L+LAN+CAP(DLAN)的性能,全局網(wǎng)絡(luò)與多分支LAN聯(lián)合學(xué)習(xí)的策略最優(yōu)。多分支空間注意力網(wǎng)絡(luò)可以學(xué)習(xí)到不同身體區(qū)域間的互補(bǔ)視覺特征,而全局分支可以學(xué)習(xí)到人體的整體空間結(jié)構(gòu)關(guān)系,從而抑制未對(duì)齊和局部遮擋(詳見3.5節(jié))的影響。
(4)對(duì)比所有網(wǎng)絡(luò)變種與DLAN網(wǎng)絡(luò)模型的參數(shù)量,模型參數(shù)量隨著局部分支數(shù)量增加而增加,但CAP網(wǎng)絡(luò)不引入額外參數(shù);DLAN網(wǎng)絡(luò)模型在具有代表性的Market1501數(shù)據(jù)集上,模型大小中等,在不考慮部署到終端的情況下,DLAN一定程度上犧牲了空間和時(shí)間復(fù)雜度,但綜合考慮仍然是一個(gè)優(yōu)質(zhì)方案。
為進(jìn)一步驗(yàn)證CAP網(wǎng)絡(luò)的作用,本小節(jié)對(duì)Baseline, 3L+LAN+CAP, G+3L+LAN和DLAN模型以及DLAN模型的各個(gè)分支的特征圖(圖1中模塊b的輸出)進(jìn)行可視化分析。具體地,在數(shù)據(jù)集Market1501和DukeMTMC-reID中選出3對(duì)圖像,分別包括姿態(tài)變化、行人未對(duì)齊和局部遮擋等行人重識(shí)別中常見問題,期望觀察到DLAN模型關(guān)注人體多個(gè)不同部位。如圖5所示,DLAN的3個(gè)局部分支分別關(guān)注人體肩胸、胯和腳等部位,而這些部位的細(xì)粒度特征通常十分有利于辨別行人身份。例如,肩部能學(xué)習(xí)到衣領(lǐng)和背包肩帶等語義特征,胯部能提取到上衣與褲子的差異特征,腳部則能得到行人走路的姿態(tài)特征和鞋子的語義特征,并且這些部位的特征無論在行人正面、側(cè)面亦或是背面圖像中都能提取到。因此,即使行人姿態(tài)或攝像頭視角發(fā)生改變,CAP仍然能夠保證DLAN提取特征的多樣性、有效性和魯棒性。
圖5 DLAN模型各分支可視化圖
如圖6所示,與消融實(shí)驗(yàn)中的其他網(wǎng)絡(luò)結(jié)構(gòu)相比,DLAN模型的高激活區(qū)域分布范圍更集中,并且DLAN模型的次激活區(qū)域更準(zhǔn)確地覆蓋了幾乎整個(gè)人體區(qū)域,能夠?qū)W習(xí)到更完整的行人特征,同時(shí)還增強(qiáng)了各局部特征之間的空間關(guān)聯(lián)性。通過特征融合后,DLAN將得到特征對(duì)齊的行人特征表示,實(shí)現(xiàn)從上到下精準(zhǔn)的特征對(duì)齊。此外,如圖5和圖6局部遮擋一欄可視化圖所示,當(dāng)某一局部分支關(guān)注的顯著區(qū)域發(fā)生遮擋時(shí),將自適應(yīng)地變成空分支,減小遮擋物的干擾作用;而其余分支仍然能夠?qū)W習(xí)到足夠用以辨別行人身份的特征,并且進(jìn)行有效特征對(duì)齊。結(jié)合3.3節(jié)和3.5節(jié)的定量結(jié)果,這些可視化結(jié)果驗(yàn)證了CAP網(wǎng)絡(luò)的功效,既保證了行人特征的多樣化和有效性,同時(shí)也驗(yàn)證了DLAN模型對(duì)于局部遮擋具有較強(qiáng)魯棒性。
圖6 主要網(wǎng)絡(luò)結(jié)構(gòu)可視化圖
本小節(jié)專門針對(duì)局部遮擋問題進(jìn)行實(shí)驗(yàn),以驗(yàn)證DLAN模型在該問題上的有效性。參照文獻(xiàn)[23]的做法,對(duì)于Market1501和DukeMTMC-reID數(shù)據(jù)集,我們?cè)诓樵儓D像中隨機(jī)遮擋某區(qū)域(高寬比記作s)來模擬真實(shí)的局部遮擋場(chǎng)景。將本文提出的DLAN模型與文獻(xiàn)[23]提到的方法進(jìn)行比較,對(duì)比算法具體包括NPD, XQDA, IDE, TriNet, PAN,RNLSTMA等(詳見文獻(xiàn)[23]的引用文獻(xiàn),本文不再列出),其中前兩種方法為傳統(tǒng)手工特征和度量學(xué)習(xí)結(jié)合的方法,其余均為深度學(xué)習(xí)法。DLAN模型與對(duì)比算法的實(shí)驗(yàn)設(shè)置保持一致,我們分別比較了不同算法在原始圖像(s=0)和隨機(jī)遮擋圖像(s=0.3和s=0.6)上的識(shí)別結(jié)果,如表3所示(最優(yōu)性能用粗體表示,對(duì)比算法的結(jié)果直接從文獻(xiàn)[23]獲得)。
表3 DLAN模型及各對(duì)比算法在不同遮擋水平下的重識(shí)別結(jié)果(%)
分析結(jié)果:與基于softmax損失的IDE方法和基于三元組損失的TriNet方法相比,DLAN因聯(lián)合采用了softmax損失和三元組損失而對(duì)遮擋問題具有更好的魯棒性;與局部式P A N 方法相比,DLAN模型利用多分支局部注意力網(wǎng)絡(luò)學(xué)習(xí)細(xì)微的局部語義信息,同時(shí)還集成了人體的結(jié)構(gòu)信息,所以在遮擋情況下性能更佳;DLAN利用基于海林格距離的CAP網(wǎng)絡(luò)學(xué)習(xí)不同區(qū)域的特征表示,在小遮擋情況下優(yōu)于基于空間依賴關(guān)系的RNLSTMA方法。對(duì)比方法中mGD+RNLSTMA的性能僅次于DLAN,它是基于生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN)修復(fù)圖像的方法,雖然在局部遮擋模擬實(shí)驗(yàn)中表現(xiàn)良好,但其效果極度依賴GAN網(wǎng)絡(luò)的性能,且在實(shí)際的遮擋問題中幾乎不存在圖像修復(fù)問題,所以實(shí)用性較弱。
此外,本文還在真實(shí)且具有挑戰(zhàn)性的Partial-REID遮擋數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。Partial-REID數(shù)據(jù)集包含不同類型的嚴(yán)重遮擋,實(shí)驗(yàn)時(shí)遮擋圖像作為查詢圖像,全身無遮擋圖像作為圖庫圖像。對(duì)比方法包括MTRC[24]、SWM[21]、DSR[25]、SFR[26]、PGFA[27]和VPM[28],圖7給出各方法的Rank-1柱狀圖。由于DLAN學(xué)習(xí)區(qū)域級(jí)的特征,即可以實(shí)現(xiàn)區(qū)域級(jí)對(duì)齊,從而可以消除來自非共享區(qū)域的干擾噪聲。所以,在真實(shí)的遮擋場(chǎng)景下,本文所提方法具有優(yōu)異的性能。
圖7 Partial-REID數(shù)據(jù)集上各算法性能對(duì)比圖
本節(jié)將提出的DLAN方法與現(xiàn)有的一些先進(jìn)Re-ID方法進(jìn)行比較。對(duì)比方法包括基于全局特征學(xué)習(xí)(SVDNet[29], SGGNN[30], MHN[31])、基于局部特征學(xué)習(xí)(PCB[8], CAM[14])以及全局和局部特征聯(lián)合學(xué)習(xí)(CCAN[22], BDB[32])的方法,實(shí)驗(yàn)結(jié)果如表4所示(加粗表示最優(yōu)結(jié)果,“—”表示無)。
表4 DLAN方法與現(xiàn)有Re-ID方法的性能比較(%)
可見,DLAN模型具有最佳性能。全局法所學(xué)習(xí)的特征表示通常集中在人體的主干部位,而肢體、腰、足等的信息容易被忽略。局部法則關(guān)注某些特定部位,因而在主干部位上的特征學(xué)習(xí)有所欠缺。此外,局部法在很大程度上依賴所采用的劃分機(jī)制,基于預(yù)定義分區(qū)策略的方法往往優(yōu)于缺乏語義信息的支持而難以確定適當(dāng)?shù)姆謪^(qū)數(shù),由此導(dǎo)致性能提升有限。DLAN模型采用了全局特征與局部細(xì)粒度特征聯(lián)合學(xué)習(xí)的方法,各分支學(xué)習(xí)不同的細(xì)粒度特征,同時(shí)各分支還互相協(xié)作,從而將局部區(qū)域的判別線索補(bǔ)充到共同的主體部分,使得網(wǎng)絡(luò)學(xué)習(xí)到的特征表示具有更優(yōu)的判別性。
在實(shí)際應(yīng)用場(chǎng)景中,行人重識(shí)別面臨姿態(tài)變化和局部遮擋問題。為此,本文提出了一種基于全局和局部聯(lián)合學(xué)習(xí)的多樣化局部注意力網(wǎng)絡(luò)(DLAN)模型,其倚靠空間注意力網(wǎng)絡(luò)定位和增強(qiáng)顯著區(qū)域的激活響應(yīng),并通過多樣化正則約束使得各局部分支聚焦于非重疊的人體部位,從而提升重識(shí)別精度。在4個(gè)公共數(shù)據(jù)集上,相繼開展了消融實(shí)驗(yàn)、可視化實(shí)驗(yàn)、遮擋實(shí)驗(yàn)以及與現(xiàn)有先進(jìn)方法的全面比對(duì)實(shí)驗(yàn),充分驗(yàn)證了所提方法的魯棒性和優(yōu)異的識(shí)別性能。在未來工作中,將進(jìn)一步利用一致性約束獲得全局分支的多粒度特征,并考慮學(xué)習(xí)各特征之間的空間關(guān)系,從而獲得更高的精度。