張燦龍,常松雨,李志欣,王智文
1(廣西師范大學(xué) 廣西多源信息挖掘與安全重點(diǎn)實(shí)驗(yàn)室,廣西 桂林 541004)2(廣西科技大學(xué) 計(jì)算機(jī)科學(xué)與通信工程學(xué)院,廣西 柳州 545006)
行人再辨識(shí)旨在對(duì)不同監(jiān)控場(chǎng)景中的行人進(jìn)行身份再認(rèn),可廣泛應(yīng)用于智能安防、人機(jī)交互、相冊(cè)聚類(lèi)等領(lǐng)域.受行人圖像分辨率變化大、拍攝角度不統(tǒng)一、光照條件差、行人姿態(tài)變化大等因素的影響,行人再識(shí)別仍然是一項(xiàng)極具挑戰(zhàn)性任務(wù).
近年來(lái),基于深度學(xué)習(xí)的行人再識(shí)別[1-12]被廣泛關(guān)注.人體是高度結(jié)構(gòu)化的,因此通過(guò)對(duì)人體樣本對(duì)的相應(yīng)部件和整體姿態(tài)的比較[5-8],能有效提高身份識(shí)別的準(zhǔn)確率.而利用注意力機(jī)制[9,10]來(lái)捕獲關(guān)鍵部位,則能提高人體部件的定位精度.通過(guò)度量學(xué)習(xí)[10-12]則可在同等的部件定位和姿態(tài)估計(jì)條件下進(jìn)一步提高行人分類(lèi)準(zhǔn)確度.以上基于部件定位和姿態(tài)估計(jì)的行人再辨識(shí)方法能獲得較高的識(shí)別率,但其需要額外的姿態(tài)估計(jì)和語(yǔ)義信息,從而大大增加了問(wèn)題復(fù)雜度.
也有研究使用分割的方式[1]處理行人部件匹配問(wèn)題,它們將輸入圖像的卷積特征映射圖從上到下分割成固定數(shù)量的水平條帶,然后從這些條帶中聚合特征,來(lái)提高特征提取的性能.然而,將多個(gè)分支的特征向量聚集在一起通常會(huì)導(dǎo)致復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu).為此,本文提出批次分塊遮擋網(wǎng)絡(luò)(BPNet)來(lái)改進(jìn)這些問(wèn)題.BPNet是一個(gè)由全局分支和特征遮擋分支組成的網(wǎng)絡(luò),其中全局分支用于對(duì)全局特征進(jìn)行學(xué)習(xí)和編碼,特征遮擋分支是一個(gè)具有特征遮擋功能的雙分支結(jié)構(gòu),用于對(duì)局部細(xì)節(jié)特征進(jìn)行學(xué)習(xí)和編碼.所設(shè)計(jì)的批處理分塊遮擋模塊與現(xiàn)有的遮擋模塊不同之處在于:批處理分塊遮擋模塊中批處理是訓(xùn)練過(guò)程中參與單一損失計(jì)算的一組圖像,遮擋是指在單次迭代中為一批圖像刪除相同的塊,加強(qiáng)對(duì)局部區(qū)域的注意特征學(xué)習(xí).
分塊遮擋是具有分塊特性的正則化方法,它使遮擋結(jié)構(gòu)具有分區(qū)的功能,從而形成遮擋子分散,而總遮擋面積不變的特點(diǎn),增強(qiáng)了對(duì)差異較大的場(chǎng)景訓(xùn)練的魯棒性.另一方面,有規(guī)律的遮擋提高了網(wǎng)絡(luò)結(jié)構(gòu)的精確度,如果采用將頭部和腳部特征分別存儲(chǔ)的隨機(jī)性刪除特征方式[2],則有可能會(huì)使網(wǎng)絡(luò)因找不到對(duì)應(yīng)的語(yǔ)義而無(wú)法完成局部特征學(xué)習(xí).
所提出的批次分塊遮擋網(wǎng)絡(luò)如圖1所示,由主干網(wǎng)絡(luò)、全局分支、批次分塊遮擋分支組成.
圖1 批次分塊遮擋網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Batch part-mask network
首先用ResNet-50網(wǎng)絡(luò)的前4個(gè)卷積層作為主干網(wǎng)絡(luò)來(lái)提取盡可能多的圖像特征.在經(jīng)過(guò)這4個(gè)卷積層之前,首先經(jīng)過(guò)一個(gè)步長(zhǎng)為2的7×7卷積和一個(gè)池化層,使得輸出圖像尺寸僅為輸入圖像尺寸的1/4,這種方法可以大大減小計(jì)算量,使用7×7這樣的大卷積可以擴(kuò)大濾波的視野,避免模型在剛提取圖像特征時(shí)就陷入了局部細(xì)節(jié)而無(wú)法關(guān)注全局特征.然后依次經(jīng)過(guò)4個(gè)由相同的殘差模塊不斷疊加而組成的卷積層.
為了與re-ID網(wǎng)絡(luò)進(jìn)行對(duì)照,本文在不改變ResNet結(jié)構(gòu)的基礎(chǔ)上對(duì)主干ResNet-50網(wǎng)絡(luò)做了輕微的修改,在第4個(gè)卷積層之前沒(méi)有使用下采樣操作.故得到的特征圖大小不變,是一個(gè)尺寸為2048×24×8的特征圖.與ResNet網(wǎng)絡(luò)最大的不同之處在于本網(wǎng)絡(luò)將res_conv4_1塊之后的后續(xù)部分劃分為3個(gè)獨(dú)立的分支,共享與原始ResNet-50類(lèi)似的體系結(jié)構(gòu).
在第3卷積層和第4卷積層之間添加了自我關(guān)注注意力模塊(SA attention)[14]調(diào)整非局部模型,使批次分塊遮擋網(wǎng)絡(luò)在訓(xùn)練過(guò)程中高效且廣泛的分離空間區(qū)域關(guān)系,網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.
圖2 自我關(guān)注注意力模塊Fig.2 Self-attention module
第3卷積層輸出圖像X的特征首先被轉(zhuǎn)換為2個(gè)特征空間f,g以計(jì)算注意力,其中f(x)=Wfx,g(x)=Wgx.
(1)
sij=f(xi)Tg(xj)
(2)
βj,i表示在合成第j個(gè)區(qū)域時(shí)模型參與第i個(gè)位置的程度.這里,C是通道的數(shù)量,N是來(lái)自先前隱藏層的特征的特征位置的數(shù)量.注意層的輸出是O=(O1,O2,…,Oj,…,ON)∈RC×N.
(3)
此外,我們還將注意力層的輸出乘以比例參數(shù),然后加回輸入要素圖.因此,最終輸出為
yi=γoi+xi
(4)
其中γ是可學(xué)習(xí)的標(biāo)量,并將其初始化為0.引入可學(xué)習(xí)的γ可使網(wǎng)絡(luò)首先依賴于局部的鄰域中的線索,然后逐漸學(xué)習(xí)為非局部證據(jù)分配更多權(quán)重.
在這個(gè)主干網(wǎng)絡(luò)上半部分添加了一個(gè)全局分支,它和ResNet的前一個(gè)卷積層合并成ResNet-50主干網(wǎng)絡(luò).對(duì)于全局分支,首先將輸入的特征圖轉(zhuǎn)化為2048維的特征向量.而后通過(guò)1×1的卷積層、一個(gè)批處理歸一化層、一個(gè)ReLU層將特征向量降低為512維.
全局分支使用的是與ResNet-50網(wǎng)絡(luò)相同的全局平均池化(Global Average Pooling,GAP),此外,全局分支通常被用在多分支網(wǎng)絡(luò)體系結(jié)構(gòu)中[13],來(lái)提供全局特征表示,監(jiān)督對(duì)特征刪除分支的訓(xùn)練,并將特征刪除分支應(yīng)用于學(xué)習(xí)良好的特征映射.
批次分塊遮擋分支由兩個(gè)包含不同擦除模塊的分支組成,設(shè)單批輸入圖像經(jīng)主干網(wǎng)絡(luò)計(jì)算得到的特征張量為T(mén).第1分支中的批量擦除層會(huì)隨機(jī)擦除張量T中的同一區(qū)域,將擦除區(qū)域內(nèi)所有位置的值都?xì)w為0.第2分支則會(huì)先將輸入的特征圖均分成上下兩塊,然后在每一塊中隨機(jī)地遮擋一小塊,即將遮擋區(qū)域內(nèi)的所有值設(shè)為0.設(shè)在特征圖T上應(yīng)用第1分支和第2分支的擦除處理后得到的特征張量分別為T(mén)′和T″.然后利用全局最大池化得到2048維的特征向量,最后利用三重態(tài)損失和softmax損失將特征向量的維度從2048降到1024.
批次分塊遮擋分支的目的是學(xué)習(xí)多個(gè)關(guān)注的特征區(qū)域,而不是只關(guān)注主要的識(shí)別區(qū)域.擦除區(qū)域的高度和寬度因任務(wù)而異,一般來(lái)講,擦除區(qū)域應(yīng)該足夠大,且能夠覆蓋輸入特征圖的語(yǔ)義部分.DropBlock[2]提出在輸入的圖片上隨機(jī)擦除一大塊區(qū)域可能會(huì)在訓(xùn)練的初始階段對(duì)網(wǎng)絡(luò)學(xué)習(xí)造成傷害.所以本文采用一種預(yù)訓(xùn)練方式,該方法最初將擦除區(qū)域設(shè)置的很小,然后逐步增加擦除區(qū)域以穩(wěn)定訓(xùn)練過(guò)程.
與全局分支不同,批次分塊遮擋分支中使用的是全局最大池化(Global Max Pooling,GMP),因?yàn)镚MP鼓勵(lì)網(wǎng)絡(luò)在最具描述性的部分被遮擋后,能識(shí)別出相對(duì)較弱的特征.通常強(qiáng)特征容易被選擇,導(dǎo)致弱特征很難與其他低值區(qū)分開(kāi),當(dāng)強(qiáng)特征被刪除時(shí),GMP可以促使網(wǎng)絡(luò)增強(qiáng)弱特征.在BPNet中,不需要在全局網(wǎng)絡(luò)分支的監(jiān)督下改變擦除區(qū)域,在訓(xùn)練的初始階段,當(dāng)特征擦除分支不能很好的學(xué)習(xí)時(shí),全局分支能幫助訓(xùn)練.
同樣值得注意的是ResNet瓶頸塊,它在特征圖上應(yīng)用了一組卷積層,若不存在此瓶頸塊,全局平均池化層和全局最大池化層將同時(shí)作用于T,使得網(wǎng)絡(luò)難以收斂.
批次分塊遮擋網(wǎng)絡(luò)中的3個(gè)分支用來(lái)學(xué)習(xí)不同的性能表示信息.全局分支具有更大的接收域,全局平均池化從行人圖像中捕獲整體但粗糙的特征,而由第1分支和第2分支在遮擋模塊的作用下,全局最大池化學(xué)習(xí)到局部但精細(xì)的特征.本批次分塊遮擋網(wǎng)絡(luò)過(guò)程中結(jié)合多任務(wù)學(xué)習(xí)聯(lián)合訓(xùn)練.
2.5.1 Softmax損失函數(shù)
輸入的特征圖在進(jìn)入到批次分塊遮擋分支后,我們采用 Softmax分類(lèi)損失訓(xùn)練該分類(lèi)識(shí)別網(wǎng)絡(luò).
(5)
其中,B表示小批次訓(xùn)練樣本數(shù)量,表示樣本Xi經(jīng)過(guò)Softmax層計(jì)算的樣本屬于真實(shí)類(lèi)別yi的預(yù)測(cè)概率.
2.5.2 硬三重態(tài)損失函數(shù)
我們使用批量軟硬邊三重?fù)p失來(lái)避免邊值參數(shù).
(6)
2.5.3 多任務(wù)學(xué)習(xí)
多任務(wù)學(xué)習(xí)(Multi-task learning,MTL)在計(jì)算機(jī)視覺(jué)和圖像識(shí)別等領(lǐng)域取得了很大的成功,MTL通過(guò)共享多個(gè)人物之間的關(guān)聯(lián)信息來(lái)提升模型效果.本文將多任務(wù)學(xué)習(xí)應(yīng)用于所提出的BPNet網(wǎng)絡(luò)結(jié)構(gòu)中,有效的提高了計(jì)算性能.
損失函數(shù):本文采用了軟邊批處理硬三重態(tài)損失和Softmax損失這幾種常用于各種深度學(xué)習(xí)的損失函數(shù),總的訓(xùn)練損失為它們?cè)谌址种Ш吞卣鞑脸种系目偤?所以得出以下公式(其中LG表示全局分支上的損失,L1和L2分別代表特征刪除分支上第1分支和第2分支的損失):
L=λ1LG+λ2L1+λ3L2
λ1+λ2+λ3=1
(7)
其中,λ1,λ2和λ3分別為控制全局分支,第1分支和第2分支的權(quán)重.根據(jù)實(shí)驗(yàn)權(quán)重自適應(yīng)得到.
本節(jié)在標(biāo)準(zhǔn)的行人再辨識(shí)數(shù)據(jù)集上對(duì)提出的具有不同度量學(xué)習(xí)損失函數(shù)的BPNet網(wǎng)絡(luò)進(jìn)行了測(cè)試.并將BPNet和經(jīng)典的PCB,PCB+RPP,BDB等網(wǎng)絡(luò)進(jìn)行了對(duì)比和分析.
本文的測(cè)試工作主要在兩個(gè)常用的數(shù)據(jù)集上:Market-1501[15]和DukeMTMC-reID[16].Market-1501和DukeMTMC-reID 是兩個(gè)大規(guī)模的行人再識(shí)別領(lǐng)域通用的數(shù)據(jù)集.Market-1501數(shù)據(jù)集包含從6個(gè)攝像機(jī)視點(diǎn)觀察到的1501個(gè)身份,包含751人的12936幅由DPM[17]檢測(cè)到的訓(xùn)練圖像和750人的19732幅測(cè)試圖像.DukeMTMC-reID數(shù)據(jù)集包含702人的16522幅訓(xùn)練圖像,2228幅查詢圖像,702人的17661測(cè)試圖像,它們共對(duì)應(yīng)1404個(gè)不同的人.訓(xùn)練數(shù)據(jù)集中的所有圖像統(tǒng)一裁剪為384×128,并將完成裁剪后的圖像順序打亂.測(cè)試集中的圖像被調(diào)整為384×128,并且只進(jìn)行了標(biāo)準(zhǔn)化.
本網(wǎng)絡(luò)使用2個(gè)相同的GTX-1080Ti GPUs進(jìn)行分批訓(xùn)練,批處理大小為64.每個(gè)身份在一個(gè)批處理中包含4個(gè)實(shí)例圖像,因此每個(gè)批處理有16個(gè)身份.主干網(wǎng)絡(luò)ResNet-50是從ImageNet[18]預(yù)訓(xùn)練模型初始化的.網(wǎng)絡(luò)使用邊緣硬三重態(tài)損失來(lái)避免邊值參數(shù).在訓(xùn)練過(guò)程中50輪到200輪學(xué)習(xí)速率為1e-3,200輪后衰減至1e-4,300輪后衰減至1e-5,整個(gè)訓(xùn)練過(guò)程包括400輪,實(shí)驗(yàn)代碼基于Python3.6與Pytorch 0.4編寫(xiě).
3.2.1 模型和計(jì)算復(fù)雜度的比較
表1給出了3種方法的模型計(jì)算復(fù)雜度和測(cè)試速度的比較,這些方法在同一個(gè)實(shí)驗(yàn)環(huán)境下進(jìn)行,經(jīng)過(guò)對(duì)比可以看出本文的批次分塊遮擋網(wǎng)絡(luò)在參數(shù)數(shù)量、計(jì)算復(fù)雜度和訓(xùn)練速度方面均優(yōu)于其他方法.
表1 在Market-1501上模型計(jì)算復(fù)雜度和測(cè)試速度的數(shù)據(jù)對(duì)比Table 1 Comparison of model computation complexity and testing speed on Market-1501 dataset
3.2.2 分塊數(shù)量的不同對(duì)性能影響的比較
主干網(wǎng)絡(luò)的前幾層對(duì)輸入的圖片進(jìn)行了卷積和下采樣,批次分塊遮擋網(wǎng)絡(luò)對(duì)輸入特征圖的遮擋在網(wǎng)絡(luò)的第4卷積層之后,因?yàn)楦钐幍恼趽醪蝗菀讈G失過(guò)多的特征信息.批次分塊遮擋網(wǎng)絡(luò)的前3層特征圖可視化結(jié)果如圖3所示.
圖3 ResNet-50前3層卷積層可視化Fig.3 Visualization of ResNet-50 stage1,2,3
實(shí)驗(yàn)中采用新的分割方法進(jìn)一步對(duì)訓(xùn)練圖像和圖像圖庫(kù)進(jìn)行分割,并選擇具有挑戰(zhàn)性的查詢圖像進(jìn)行評(píng)價(jià).在訓(xùn)練期間,輸入圖像的大小被調(diào)整到384×128,然后通過(guò)隨機(jī)水平翻轉(zhuǎn)和歸一化進(jìn)行擴(kuò)充.在批次分塊遮擋模塊中設(shè)置的擦除高度比為0.3,擦除寬度比為1.0.在所有的行人再辨識(shí)數(shù)據(jù)集中使用相同的設(shè)置.
直觀地說(shuō),遮擋模塊數(shù)量決定了零件特性的粒度,當(dāng)圖像的分塊數(shù)量為1時(shí),遮擋模塊學(xué)習(xí)特征是全局的.當(dāng)圖像的分塊數(shù)量開(kāi)始增加時(shí),提高了檢索的準(zhǔn)確性,然而,本文在Market-1501和DukeMTMC-reid上進(jìn)行了實(shí)驗(yàn),結(jié)果如圖4所示,準(zhǔn)確性并不總是隨著圖像的分塊數(shù)量的增加而增加.當(dāng)圖像的分塊數(shù)量增加到4以上時(shí),無(wú)論是rank-1還是mAP都開(kāi)始表現(xiàn)出輕微的下降.過(guò)度增加圖像的分塊數(shù)量實(shí)際上損害了部分特征的鑒別能力,故在實(shí)際應(yīng)用中,采用part=2,batch=64的訓(xùn)練方式.
圖4 不同分塊數(shù)量在Market-1501上的對(duì)比Fig.4 Comparison of the number of different blocks on Market-1501
本網(wǎng)絡(luò)中雙分支結(jié)構(gòu)的優(yōu)勢(shì)在于它既可以學(xué)習(xí)最顯著的外觀線索,又學(xué)習(xí)細(xì)粒度的鑒別特征,同時(shí)全局分支監(jiān)督對(duì)特征刪除分支的訓(xùn)練,使得特征刪除分支應(yīng)用于一個(gè)學(xué)習(xí)良好的特征映射,從而進(jìn)一步提高性能,兩分支相互加強(qiáng),對(duì)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)都必不可少.
特征刪除分支包括第1分支和第2分支,兩分支的相同點(diǎn)在于都是通過(guò)應(yīng)用批處理在特征圖T上的Part-mask層,提供批量擦除的特征圖T′和T″.不同點(diǎn)在于輸入兩分支的圖片,第1分支在整個(gè)特征圖上按批次進(jìn)行隨機(jī)遮擋,而輸入第2分支的圖片首先被水平均勻分割成上下兩塊,然后在每塊中進(jìn)行隨機(jī)遮擋.本文在Market-1501數(shù)據(jù)集上進(jìn)行了多次實(shí)驗(yàn)分析BPNet網(wǎng)絡(luò)不同的組成部分對(duì)實(shí)驗(yàn)結(jié)果的影響.每個(gè)分支對(duì)實(shí)驗(yàn)性能的影響對(duì)比如表2所示,其中,Baseline指的是Global Branch,Part 1 branch指的是第1分支,Baseline+Part 1 branch指的是Global Branch+第1分支,BPNet指的是Baseline+第1分支+第2分支.由實(shí)驗(yàn)結(jié)果可以看出,將特征圖水平均勻分割成大小相等的兩塊并在每一塊單獨(dú)遮擋的方法有效的提高了網(wǎng)絡(luò)的識(shí)別精度.
表2 全局分支和特征刪除分支在Market-1501上的數(shù)據(jù)對(duì)比Table 2 Global branches and feature deletion branches in comparison of data on Market-1501
Dropout[19]隨機(jī)擦除輸入張量的值,是一種廣泛使用的防止過(guò)擬合的正則化技術(shù).SpatialDropout[20]隨機(jī)地將輸入張量的整個(gè)通道歸零,歸零的通道是隨機(jī)分配的.批次Dropout意味著在同一個(gè)批次內(nèi)選擇隨機(jī)空間位置,并將這些位置中刪除所有輸入特性[22].批次Dropout和批次Part-mask的區(qū)別在于批處理時(shí),Part-mask將一塊大的連續(xù)區(qū)域歸零,Dropout歸零一個(gè)個(gè)孤立的特征.在Market-1501數(shù)據(jù)集上Part-mask與其他擦除方法的比較如表3所示.
表3 不同擦除模塊在Market-1501上的數(shù)據(jù)對(duì)比Table 3 Different dropout modules in comparison of data on Market-1501
Part-mask意思是,對(duì)于一批連續(xù)輸入的張量,每個(gè)張量隨機(jī)擦除一塊連續(xù)的區(qū)域[22,23],批次分塊遮擋和分塊遮擋的區(qū)別在于批次分塊遮擋對(duì)于同一批輸入的每一個(gè)輸入張量都作用于同一區(qū)域,而分塊遮擋作用于不同的區(qū)域.本文提出的批次分塊遮擋的可視化結(jié)果如圖5所示.
圖5 第1分支和第2分支的比較Fig.5 Comparison of part 1 branch and Part 2 branch
3.2.3 自適應(yīng)權(quán)重對(duì)性能影響的比較
本文做了多個(gè)實(shí)驗(yàn)來(lái)測(cè)試不同權(quán)重對(duì)損失函數(shù)的影響,實(shí)現(xiàn)結(jié)果如表4所示,可以看出,當(dāng)權(quán)重系數(shù)自適應(yīng)時(shí)性能明顯較高.
表4 不同權(quán)重對(duì)損失函數(shù)在Market-1501上的影響對(duì)比Table 4 Different weights on the loss function at comparison of data on Market-1501
在本小節(jié)中,在兩個(gè)廣泛使用的公開(kāi)行人再辨識(shí)數(shù)據(jù)集上,包括Market-1501,DukeMTMC數(shù)據(jù)集,將本文提出的方法與現(xiàn)有的行人再辨識(shí)方法進(jìn)行對(duì)比.對(duì)于每一個(gè)待查詢圖像,將其與所有查詢庫(kù)中的圖像進(jìn)行對(duì)比,然后按歐氏距離進(jìn)行降序排列,并計(jì)算積累匹配特性曲線(即CMC).本文把第一匹配率(即Rank-1)精度和平均率均值(即mAP)作為評(píng)價(jià)指標(biāo).與查詢圖像具有相同身份和相同ID的結(jié)果不計(jì)算在內(nèi).值得注意的是,本文所有實(shí)驗(yàn)是在單張圖像查詢?cè)O(shè)置中進(jìn)行的,沒(méi)有重新排序.如表5所示,從表中可以觀察到以下結(jié)果:
表5 與現(xiàn)有的行人再辨識(shí)方法的效果對(duì)比Table 5 Comparison with existing re-id methods
1)相比于傳統(tǒng)手工特征,大部分行人再辨識(shí)方法都是基于深度學(xué)習(xí)的方法,這類(lèi)方法的識(shí)別性能有大幅度的提升,這也證明了深度學(xué)習(xí)在特征表示學(xué)習(xí)方面的優(yōu)越性.
2)PCB[13]主要是將輸入的行人圖片水平均勻分割成P塊,在各個(gè)模塊上應(yīng)用全局池化,得到256維的特征向量,然后用N類(lèi)別的softmax損失進(jìn)行訓(xùn)練.BDB主要包含兩個(gè)分支,以ResNet-50網(wǎng)絡(luò)作為主干網(wǎng)絡(luò),另一個(gè)Drop分支抽取局部關(guān)注點(diǎn)信息,隨機(jī)擦除特征圖中相同的區(qū)域.
3)本文將PCB[13]的分區(qū)策略與BDB[21]的遮擋模塊相結(jié)合并在主干網(wǎng)絡(luò)添加了SA注意力模塊提出了批次分塊遮擋網(wǎng)絡(luò)BPNet,將輸入網(wǎng)絡(luò)的一部分特征圖進(jìn)行水平均勻分割,在分割后的特征圖單獨(dú)進(jìn)行遮擋,增加了網(wǎng)絡(luò)訓(xùn)練集的多樣性,不論在DukeMTMC還是Market-1501數(shù)據(jù)集上都有明顯提高.
4)在實(shí)驗(yàn)結(jié)果表明BPNet對(duì)行人再辨識(shí)有明顯的促進(jìn)作用,如表5所示.在Duke數(shù)據(jù)集上達(dá)到了88.6%的Rank-1精度,77.2%的mAP精度.在Market-1501數(shù)據(jù)集上達(dá)到了95.5%的Rank-1精度,86.3%的mAP精度,比先前的工作分別高出了1%和2.0%的精度.
本文提出了批次分塊遮擋模塊來(lái)對(duì)行人再辨識(shí)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練進(jìn)行優(yōu)化,利用這種訓(xùn)練機(jī)制提出了相應(yīng)的批次分塊遮擋網(wǎng)絡(luò)(BPNet),此網(wǎng)絡(luò)結(jié)構(gòu)利用全局分支來(lái)嵌入突出的特征表示,通過(guò)具有分塊特性的特征遮擋分支來(lái)學(xué)習(xí)詳細(xì)的特征,此批次分塊特征遮擋網(wǎng)絡(luò)將輸入的一部分特征圖在全局進(jìn)行遮擋,另一部分特征圖被水平分為大小相等的兩塊后在每一塊單獨(dú)進(jìn)行隨機(jī)遮擋,對(duì)于較大差異的場(chǎng)景的訓(xùn)練增強(qiáng)了穩(wěn)定性和魯棒性,提供了更加全面的特征表示.實(shí)驗(yàn)結(jié)果驗(yàn)證了該網(wǎng)絡(luò)可以顯著改善行人再辨識(shí)的檢索基準(zhǔn).受原始模型結(jié)構(gòu)、數(shù)據(jù)采集和實(shí)驗(yàn)硬件的限制,許多更先進(jìn)的結(jié)構(gòu)和方法未能應(yīng)用到本模型中.下一步工作將研究深度學(xué)習(xí)與其他機(jī)器學(xué)習(xí)方法結(jié)合的行人再識(shí)別模型,以進(jìn)一步提高行人預(yù)測(cè)的準(zhǔn)確率和遷移性.