肖雅妮,范馨月,陳文峰
1.重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶400065
2.光通信與網(wǎng)絡(luò)重點(diǎn)實(shí)驗(yàn)室(重慶郵電大學(xué)),重慶400065
在當(dāng)今社會(huì),各地政府在公共場(chǎng)所關(guān)鍵點(diǎn)、交通路口、生活小區(qū)、停車(chē)場(chǎng)等區(qū)域安裝大量攝像頭,因此獲得了海量的行人數(shù)據(jù),而針對(duì)如何在復(fù)雜場(chǎng)景下獲取人臉、步態(tài)等信息,并進(jìn)行行人檢索的問(wèn)題,就需要行人重識(shí)別技術(shù)。行人重識(shí)別是指在已知來(lái)源與非重疊攝像機(jī)拍攝范圍的視頻序列中識(shí)別出特定行人的技術(shù),即指給定某攝像頭拍攝到的某行人圖片,在資料庫(kù)中檢索該行人被其他攝像頭拍到的圖片[1]。由于攝像頭位置、角度和參數(shù)設(shè)置不同,行人姿態(tài)頻繁變化,以及背景干擾、遮擋和成像質(zhì)量不穩(wěn)定等原因,同一行人在不同時(shí)刻不同攝像頭拍攝的圖片中存在較大差異[2],這使得行人重識(shí)別的研究具有很大的挑戰(zhàn)性。而深層網(wǎng)絡(luò)可以提取到的行人細(xì)節(jié)相比傳統(tǒng)算法效果更顯著,因此目前的行人重識(shí)別研究主要以深度學(xué)習(xí)的方向?yàn)橹鳌?/p>
由于人體結(jié)構(gòu)具有強(qiáng)分辨[3],所以大部分算法的研究重心放在如何使模型獲得更多的行人表征特征上。目前大部分算法是從整體圖片獲取到行人的特征,具有代表性的如文獻(xiàn)[4]提出的是行人重識(shí)別最基礎(chǔ)的網(wǎng)絡(luò)框架,相比傳統(tǒng)算法效果得到了一定提升但由于特征學(xué)習(xí)部分未引入增強(qiáng)機(jī)制,錯(cuò)失對(duì)局部的學(xué)習(xí)、算法效果不顯著。文獻(xiàn)[3]在行人身份ID的基礎(chǔ)上,額外增加行人屬性,算法效果提升一些的同時(shí)增加了復(fù)雜度,由于忽略了部分不顯著或不經(jīng)常出現(xiàn)的詳細(xì)信息,相比文獻(xiàn)[4]算法效果增益小,且僅使用全局特征在算法的測(cè)試部分不利于分辨不同行人和同一個(gè)行人不同攝像頭的照片。為了進(jìn)一步提高算法效果,行人重識(shí)別的研究針對(duì)特征學(xué)習(xí),將重點(diǎn)從全局轉(zhuǎn)移到局部。因?yàn)榧訌?qiáng)網(wǎng)絡(luò)對(duì)局部特征的學(xué)習(xí),能更多地獲取行人細(xì)節(jié)信息。如文獻(xiàn)[5]通過(guò)對(duì)定位人體骨骼來(lái)學(xué)習(xí)身體區(qū)域的特征,相比僅使用全局特征的方法得到了提升,但由于對(duì)骨骼定點(diǎn)大大增加網(wǎng)絡(luò)復(fù)雜度,同時(shí)關(guān)注行人姿勢(shì)大于對(duì)局部的學(xué)習(xí),因此最后的效果增益較小。文獻(xiàn)[6]先將行人分開(kāi)再對(duì)齊學(xué)習(xí)特征、最后測(cè)試部分使用融合特征,雖然該方法有對(duì)局部特征的學(xué)習(xí),但缺乏對(duì)局部注意力特征的學(xué)習(xí)和多分支網(wǎng)絡(luò)更好的融合設(shè)計(jì)。而文獻(xiàn)[7]是加強(qiáng)網(wǎng)絡(luò)對(duì)于人體姿勢(shì)的學(xué)習(xí),因此引入行人姿勢(shì)估計(jì)的算法,需要提前預(yù)訓(xùn)練,這大大提升了算法難度。綜上所述,為強(qiáng)化網(wǎng)絡(luò)學(xué)習(xí)行人特征信息和保證網(wǎng)絡(luò)的復(fù)雜度、訓(xùn)練難度,本文設(shè)計(jì)了一種端到端的多分支網(wǎng)絡(luò)機(jī)構(gòu),一共三個(gè)分支:隨機(jī)擦除的分支、全局學(xué)習(xí)分支、局部學(xué)習(xí)分支。
在算法結(jié)構(gòu)中全局學(xué)習(xí)分支的引入有兩個(gè)目的,一是聯(lián)合訓(xùn)練確保算法精度,二是獲取人體的驅(qū)干信息。局部學(xué)習(xí)分支在本文的網(wǎng)絡(luò)結(jié)構(gòu)中是對(duì)被均分成三等分后的特征圖部分分別進(jìn)行學(xué)習(xí),其分支能獲得行人局部細(xì)節(jié)信息,隨機(jī)擦除分支通過(guò)固定面積的掩膜隨機(jī)地對(duì)特征圖進(jìn)行遮擋,加強(qiáng)網(wǎng)絡(luò)對(duì)未遮擋部分的注意力特征學(xué)習(xí),可看做是一種加強(qiáng)特征學(xué)習(xí)的策略,因?yàn)檎趽跏褂玫难谀o(wú)網(wǎng)絡(luò)參數(shù),所以不會(huì)增加網(wǎng)絡(luò)規(guī)模??紤]到會(huì)有噪音干擾,本文的三個(gè)分支在結(jié)構(gòu)上僅共享骨干網(wǎng)絡(luò)部分,其余部分獨(dú)立,最后本文結(jié)合最小二乘法,根據(jù)實(shí)驗(yàn)數(shù)據(jù),做損失函數(shù)的權(quán)重分配。最后本文使用三個(gè)分支得到的融合特征進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果表明,本文提出的方法在Market-1501數(shù)據(jù)集、DukeMTMC-reID數(shù)據(jù)集、CUHK03-Label、CUHK03-Detect數(shù)據(jù)集上都取得了更好的準(zhǔn)確率。
雖然深層的網(wǎng)絡(luò)仍可根據(jù)人體不同的身體部位語(yǔ)義信息來(lái)初步區(qū)分,但缺失關(guān)鍵和細(xì)微的行人特征信息和學(xué)習(xí)到額外的背景信息都會(huì)導(dǎo)致算法增益小。且文獻(xiàn)[8]和表1的結(jié)果數(shù)據(jù)顯示,當(dāng)網(wǎng)絡(luò)結(jié)構(gòu)分支增加、圖片細(xì)分增多,將增強(qiáng)網(wǎng)絡(luò)單個(gè)分支對(duì)圖片的注意力,提高算法效果。因此本文在網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)上,選擇的不是單分支的結(jié)構(gòu)而是多分支的結(jié)構(gòu)。而本文在分支的選擇上考慮單個(gè)分支的算法效果與運(yùn)算量以及訓(xùn)練難度,同時(shí)結(jié)合上述理論。
表1 在數(shù)據(jù)集DukeMTMC-reID上未調(diào)權(quán)重的對(duì)比實(shí)驗(yàn)Table 1 Comparative experiment of unadjusted weights on DukeMTMC-reID dataset %
根據(jù)文獻(xiàn)[8-9],本文首先選擇了三個(gè)分支:全局學(xué)習(xí)分支、局部學(xué)習(xí)分支、隨機(jī)擦除分支。其中,全局學(xué)習(xí)分支強(qiáng)調(diào)對(duì)行人驅(qū)干和行人圖片全局的學(xué)習(xí),局部學(xué)習(xí)分支強(qiáng)調(diào)的是對(duì)行人局部以及圖片局部的學(xué)習(xí),而隨機(jī)擦除分支的引入目的是在前兩個(gè)特征學(xué)習(xí)分支上,增強(qiáng)網(wǎng)絡(luò)對(duì)局部注意力特征和弱特征部分的學(xué)習(xí),同時(shí)有助于緩解因行人姿勢(shì)改變和重疊導(dǎo)致局部特征在訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)時(shí)被抑制的問(wèn)題。全局學(xué)習(xí)分支的結(jié)構(gòu)設(shè)計(jì)參照最基礎(chǔ)的單分支網(wǎng)絡(luò),未引入任何加強(qiáng)特征學(xué)習(xí)的機(jī)制。而局部分支的設(shè)計(jì),考慮網(wǎng)絡(luò)隨著特征分支數(shù)量的增加,提升對(duì)局部注意力的同時(shí)也會(huì)增加復(fù)雜度。經(jīng)本文實(shí)驗(yàn)獲知,單個(gè)分支相比,均分四分支的算法運(yùn)算量比均分三等分的分支大,且嘗試與其他分支組合的訓(xùn)練的過(guò)程中,模型收斂慢、訓(xùn)練不穩(wěn)定,同時(shí)且算法效果也僅比三等分高零點(diǎn)幾點(diǎn)精度。所以本文選擇的是均分三等分的局部學(xué)習(xí)分支,在此基礎(chǔ)上,為保證訓(xùn)練精度、緩解各個(gè)分支間訓(xùn)練時(shí)產(chǎn)生的干擾,在局部學(xué)習(xí)分支上又引入一個(gè)全局學(xué)習(xí)分支作為聯(lián)合訓(xùn)練。第三個(gè)隨機(jī)擦除分支參照局部學(xué)習(xí)分支也引入一個(gè)全局學(xué)習(xí)分支作為聯(lián)合訓(xùn)練,包含掩膜用于對(duì)未遮擋部分學(xué)習(xí)的分支將對(duì)網(wǎng)絡(luò)輸出的一個(gè)batch的特征圖進(jìn)行操作。
確定分支類(lèi)型后,在選擇分支數(shù)量和類(lèi)型的問(wèn)題上,本文先在數(shù)據(jù)集DukeMTMC-reID上做了網(wǎng)絡(luò)結(jié)構(gòu)的對(duì)比實(shí)驗(yàn),一是僅有單分支的網(wǎng)絡(luò)結(jié)構(gòu):隨機(jī)擦除分支、局部學(xué)習(xí)分支、全局學(xué)習(xí)分支。二是兩個(gè)分支的組合:全局學(xué)習(xí)分支和隨機(jī)擦除分支,全局學(xué)習(xí)分支和局部學(xué)習(xí)分支,隨機(jī)擦除分支和局部學(xué)習(xí)分支。三是三個(gè)分支:全局學(xué)習(xí)分支和隨機(jī)擦除分支、局部學(xué)習(xí)分支,四是在三分支的基礎(chǔ)上增加全局學(xué)習(xí)分支的四分支網(wǎng)絡(luò)結(jié)構(gòu),表1中未包含隨機(jī)擦除分支和局部分支分別加在三分支的實(shí)驗(yàn)數(shù)據(jù),一是因?yàn)殚_(kāi)始訓(xùn)練時(shí)服務(wù)器因?yàn)閮?nèi)存報(bào)錯(cuò),二是降低了訓(xùn)練的batchsize和epoch后與其他實(shí)驗(yàn)數(shù)據(jù)對(duì)比誤差大。
從表1獲悉,兩分支和三分支的網(wǎng)絡(luò)結(jié)構(gòu)算法結(jié)果相比單分支的網(wǎng)絡(luò)結(jié)構(gòu),其精度提到了至少10點(diǎn)以上,并且兩分支放在同一網(wǎng)絡(luò)都會(huì)在原有基礎(chǔ)上提升算法效果,這側(cè)面反映了分支在網(wǎng)絡(luò)結(jié)構(gòu)中具有互補(bǔ)的作用,隨機(jī)擦除分支與全局學(xué)習(xí)分支學(xué)習(xí)到全局信息,并增加對(duì)局部和弱特征注意力。全局學(xué)習(xí)分支與局部學(xué)習(xí)分支的組合學(xué)習(xí)到了全局信息與局部信息。隨機(jī)擦除分支與局部學(xué)習(xí)分支的組合在二分支的網(wǎng)絡(luò)結(jié)構(gòu)里效果最好,分析原因可能與隨機(jī)擦除分支能緩解局部特征在訓(xùn)練時(shí)被抑制的問(wèn)題,同時(shí)隨機(jī)擦除分支也有助于網(wǎng)絡(luò)學(xué)習(xí)弱特征和注意力的區(qū)域。因此兩兩分支放在同一個(gè)網(wǎng)絡(luò)中,能互相增強(qiáng)彼此對(duì)特征的學(xué)習(xí)。雖然在三分支基礎(chǔ)上增加全局學(xué)習(xí)分支的四分支結(jié)構(gòu)的算法結(jié)果最高,但訓(xùn)練過(guò)程中,由于分支過(guò)多,導(dǎo)致網(wǎng)絡(luò)收斂慢,測(cè)試部分耗時(shí),最后的結(jié)果也僅比三分支的效果高0.11。綜上所述,根據(jù)算法結(jié)果和訓(xùn)練難易,本文最后使用的是由全局學(xué)習(xí)分支、隨機(jī)擦除分支、局部學(xué)習(xí)分支構(gòu)成的三分支網(wǎng)絡(luò)而不是四分支的網(wǎng)絡(luò)結(jié)構(gòu)。三個(gè)分支僅共享骨干網(wǎng)絡(luò)部分,在訓(xùn)練過(guò)程中分別學(xué)習(xí)其他分支未注意到的特征部分,通過(guò)這樣的網(wǎng)絡(luò)設(shè)計(jì),使得模型的注意力不僅僅關(guān)注行人的驅(qū)干部分,而是融合三個(gè)分支的注意力,增強(qiáng)網(wǎng)絡(luò)提取特征的能力。在單個(gè)分支的對(duì)比中,局部學(xué)習(xí)分支獲得的效果最好,這可能與網(wǎng)絡(luò)越深越會(huì)注重區(qū)域的局部學(xué)習(xí)和監(jiān)督學(xué)習(xí)本身會(huì)強(qiáng)迫網(wǎng)絡(luò)不斷地去獲取具有強(qiáng)辨別力的特征有關(guān)。
由于ResNet-50在其他行人重識(shí)別算法中取得了良好的結(jié)果,所以在本文中采取的骨干網(wǎng)絡(luò)是ResNet-50,其框架相比于其他網(wǎng)絡(luò),具有網(wǎng)絡(luò)層數(shù)深、獲取到的特征信息更為豐富,引入殘差塊、避免梯度爆炸和梯度消失的優(yōu)點(diǎn)。在本文圖1所示的算法結(jié)構(gòu)中,與ResNet-50有所區(qū)分的是后面的輸出分支被分為三個(gè)分支。在圖1中,方塊表示的是特征圖,為了方便顯示采取的是三維的立方體,從ResNet-50 stage1,2,3開(kāi)始分開(kāi)的三分支從上往下,分別是隨機(jī)擦除分支(RE branch)、全局學(xué)習(xí)分支(Global branch)、局部學(xué)習(xí)分支(Part branch),在每個(gè)分支上繼續(xù)編號(hào),從上往下分別是R_0、R_1、G_0、P_0、P_1。
圖1 算法網(wǎng)絡(luò)框架Fig.1 Algorithm network framework
隨機(jī)擦除分支(RE branch)包含R_0、R_1分支,在R_0分支上,數(shù)據(jù)通過(guò)ResNet-50 stage1,2,3后,進(jìn)入到resnet的con4和conv5后,為了保留足夠的信息,沒(méi)有在res_conv5_1區(qū)塊使用下采樣,之后為防止過(guò)擬合會(huì)通過(guò)一個(gè)bottelneck,之后特征圖會(huì)經(jīng)過(guò)平均池化層,核大小為24×8,經(jīng)實(shí)驗(yàn)驗(yàn)證,本文網(wǎng)絡(luò)使用平均池化層優(yōu)于最大池化,分析原因,平均池化層比最大池化層保留的特征信息更多,這有助于各個(gè)分支學(xué)習(xí)強(qiáng)調(diào)的特征內(nèi)容。經(jīng)過(guò)池化層,特征圖再通過(guò)掩膜(mask),其掩膜比例經(jīng)過(guò)多次試驗(yàn)調(diào)試確定為(1,0.33)。其中,隨機(jī)擦除分支掩膜部分會(huì)對(duì)特征圖像按照比例掩膜進(jìn)行隨機(jī)擦除,最后得到特征圖像,再經(jīng)過(guò)正則化、1×1卷積層后特征圖維數(shù)會(huì)降維到256得到特征zp_0,之后通過(guò)全連接層得到特征zp_0_0,在整個(gè)過(guò)程中,全連接層不共享參數(shù),每個(gè)分支到損失函數(shù)的路徑也獨(dú)立。
全局學(xué)習(xí)分支(Global branch)僅包含G_0分支,G_0與隨機(jī)擦除分支的R_1、局部學(xué)習(xí)的P_0,在結(jié)構(gòu)和設(shè)置的區(qū)別僅在于res_conv5_1區(qū)塊使用下采樣和沒(méi)有引入bottelneck、池化層設(shè)置的核大小為12×4,而R_1與P_0的池化層核大小為24×8。在該分支,數(shù)據(jù)經(jīng)歷骨干網(wǎng)絡(luò)后,通過(guò)平均池化層,從1×1卷積層輸出特征fg_1,從全連接層輸出特征fg_1_0。而R1分支是從1×卷積層輸出特征fg_0,從全連接層輸出特征fg_0_0。與R_1的構(gòu)造一致的P_0分支,從1×1卷積層輸出特征fg_2,從全連接層輸出特征fg_2_0,
局部學(xué)習(xí)分支(Part branch)包含P_0、P_1分支,而P_1分支的數(shù)據(jù)通過(guò)ResNet-50 stage1,2,3、進(jìn)入到resnet的con4和conv5后,也沒(méi)有在res_conv5_1區(qū)塊使用下采樣,同隨機(jī)擦除R_0的分支一樣,也引入了bottelneck,通過(guò)核的大小為24×8的平均池化層后的特征圖會(huì)被均分成三等分然后分別送往1×1卷積層分別獲得特征fp_0、fp_1、fp_2,從全連接層輸出特征fp_0_0、fp_1_0、fp_2_0。在算法測(cè)試部分,本文使用的是每個(gè)分支經(jīng)過(guò)降維后的輸出特征融合在一起的特征,如公式(1)所示:
在圖1的算法網(wǎng)絡(luò)框架中,一共包含七個(gè)小分支的三個(gè)大分支的融合特征的過(guò)程如圖2所示。在圖2中,左圖為數(shù)據(jù)集Market-1501的訓(xùn)練圖片,分支上的符號(hào)為上文的特征圖名稱(chēng),分別相加后獲得測(cè)試使用的融合特征f。
圖2 融合展示Fig.2 Fusion display
表2為三分支與四分支網(wǎng)絡(luò)結(jié)構(gòu)輸出的融合特征圖維數(shù)對(duì)比。結(jié)合數(shù)據(jù)計(jì)算可得三分支網(wǎng)絡(luò)結(jié)構(gòu)(RE branch、Global branch、Part branch)加上全局學(xué)習(xí)分支的四分支網(wǎng)絡(luò)結(jié)構(gòu)的融合特征維數(shù)為2 048,同理在三分支網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上加上隨機(jī)擦除分支和局部學(xué)習(xí)分支,其融合特征維數(shù)分別在三分支融合特征維數(shù)的基礎(chǔ)上增多512和1 024,由于大分支里又包含小分支而在本文設(shè)計(jì)里骨干網(wǎng)絡(luò)后分支獨(dú)立,因此增加一個(gè)大分支,除了增大特征圖的維數(shù)還會(huì)增加池化層、卷積層、全連接層的數(shù)量,所以三分支結(jié)構(gòu)的算法訓(xùn)練更快,測(cè)試時(shí)大約每秒處理2.8幀。而四分支網(wǎng)絡(luò)結(jié)構(gòu)算法在前期訓(xùn)練除了加上全局學(xué)習(xí)分支的四分支結(jié)構(gòu),其余的四分支算法如果不降低epoch和batchsize,就會(huì)在訓(xùn)練時(shí)出現(xiàn)問(wèn)題。所以在實(shí)驗(yàn)的對(duì)比上,四分支只選了維數(shù)增加最少的三分支基礎(chǔ)上加入全局學(xué)習(xí)分支的四分支網(wǎng)絡(luò)組合。其在訓(xùn)練測(cè)試時(shí)大約每秒處理1.5幀。這從側(cè)面反應(yīng)了三分支的網(wǎng)絡(luò)相比四分支測(cè)試速度更快,而網(wǎng)絡(luò)結(jié)構(gòu)也比四分支的更為簡(jiǎn)單,通過(guò)實(shí)驗(yàn),也獲悉訓(xùn)練時(shí),三分支的網(wǎng)絡(luò)比四分支更加容易收斂。
表2 分支組合維數(shù)對(duì)比Table 2 Comparison of branch combination dimensions
在全局學(xué)習(xí)分支(global branch)中使用同時(shí)使用Ltriplet[10]和Lsoftmax,網(wǎng)絡(luò)結(jié)構(gòu)中剩余的兩個(gè)大分支里作為聯(lián)合訓(xùn)練的全局學(xué)習(xí)分支R_1、P_0和其設(shè)置一樣的損失函數(shù)。分別是Ltriplet和Lsoftmax,其損失函數(shù)如公式(2)、(3)所示:
在公式(2)中,N代表訓(xùn)練的過(guò)程,C代表數(shù)據(jù)集,代表數(shù)據(jù)集中行人類(lèi)別對(duì)應(yīng)的權(quán)重向量,fi代表各個(gè)分支學(xué)習(xí)到的特征,包含圖1中通過(guò)全連接層的特征。在公式(3)中,fa、fp、fn分別對(duì)應(yīng)anchor的特征、挖掘到的正樣本特征和負(fù)樣本特征,都是從訓(xùn)練的minibatch獲取,包含圖1所示全局學(xué)習(xí)分支降維后輸出的特征。p為每個(gè)batch訓(xùn)練時(shí),抽取的行人數(shù)目,k對(duì)應(yīng)訓(xùn)練中抽取每個(gè)行人抽取的圖片數(shù)量。P_1分支的三個(gè)小分支和隨機(jī)擦除分支的R_0分支失函數(shù)為公式(2)中的Lsoftmax。
多任務(wù)學(xué)習(xí)分支在訓(xùn)練過(guò)程中存在分支由于復(fù)雜度和學(xué)習(xí)率不同,從而導(dǎo)致分支間訓(xùn)練時(shí)有干擾現(xiàn)象。為緩解上述問(wèn)題,本文在設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)時(shí),分別在隨機(jī)擦除分支和局部學(xué)習(xí)分支額外引入全局學(xué)習(xí)分支進(jìn)行聯(lián)合訓(xùn)練。但還是存在一定的干擾性,因此本文又在損失函數(shù)引入權(quán)重分配。有算法[11]可對(duì)多任務(wù)學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行損失函數(shù)權(quán)值調(diào)整,但本身具有不穩(wěn)定性,同時(shí)也會(huì)大大提升網(wǎng)絡(luò)復(fù)雜度。由于本文僅使用了兩個(gè)loss,且公式(2)Lsoftmax的使用率遠(yuǎn)大于公式(3)Ltriplet的使用率,因此在調(diào)整權(quán)重時(shí),為降低復(fù)雜度,本文僅關(guān)注Lsoftmax的權(quán)重值,而將Ltriplet的權(quán)重設(shè)為1,最后將總損失L定義為公式(4):
其中,λ為損失函數(shù)對(duì)應(yīng)的權(quán)重,j對(duì)應(yīng)本文的網(wǎng)絡(luò)分支。
最小二乘法是在曲線預(yù)測(cè)中被使用廣泛,同時(shí)高階的非線性函數(shù)曲線易出現(xiàn)波峰。而本文選擇的算法評(píng)判標(biāo)準(zhǔn)之一的mAP(mean Average Precision),其定義是將圖片的相似度從高到低,統(tǒng)計(jì)從第一項(xiàng)到最后一項(xiàng)相同行人圖片之間正確識(shí)別的平均概率。因此本文將mAP設(shè)為縱軸、將λ設(shè)為橫軸,利用實(shí)驗(yàn)數(shù)據(jù)結(jié)合最小二乘法預(yù)測(cè)從低階到高階的mAP和λ的曲線,借此找到mAP的最高波峰對(duì)應(yīng)的λ區(qū)域,然后進(jìn)行l(wèi)oss權(quán)重λ的調(diào)節(jié),通過(guò)這樣的方式可減少不必要的工作量,其中誤差公式如公式(5)所示:
在公式(5)中,mAP為本文通過(guò)實(shí)驗(yàn)獲取的實(shí)際平均精度均值,yi為本文結(jié)合最小二乘法獲得的預(yù)測(cè)值。
本文的實(shí)驗(yàn)使用的數(shù)據(jù)集是在行人重識(shí)別中具有代表性的Market-1501和DukeMTMC-reID,CUHK03-Label和CUHK03-detect。在實(shí)驗(yàn)指標(biāo)上選擇Rank-n和mAP,Rank-n指將圖片的相似度從高到低排序,前n項(xiàng)包含被查詢(xún)行人圖片的概率。實(shí)驗(yàn)服務(wù)器GPU配置是英偉達(dá)1080Ti,框架為pytorch,為顯示清楚,下文表格和正文中的數(shù)據(jù)集名稱(chēng)使用略寫(xiě):DukeMTMC-reID(Duke),Market-1501(Market),CUHK03-Label(Label),CUHK03-Detect(Detect)表3為數(shù)據(jù)集詳細(xì)信息。
表3 數(shù)據(jù)集信息Table 3 Information of datasets
根據(jù)圖3可知,數(shù)據(jù)集Market拍攝于夏日白天,因此數(shù)據(jù)集的光線比冬天拍攝的Duke和在過(guò)道拍攝的Label、Detect要亮,且場(chǎng)景簡(jiǎn)單,同時(shí)Duke的行人被遮擋現(xiàn)象更為嚴(yán)重,背景時(shí)而清晰時(shí)而與行人混雜,而Label和Detect存在較多行人側(cè)面和背面的圖像,同時(shí)根據(jù)表3,也可知,Detect的訓(xùn)練行人類(lèi)型少于Label。
圖3 Market、Duke、Label、Detect數(shù)據(jù)集對(duì)比Fig.3 Comparison of Market,Duke,Label,Detect dataset
因此相比之下,四個(gè)數(shù)據(jù)集的難度從易到難的排序分別為Market、Duke、Label、Detect。然后本文基于數(shù)據(jù)集DukeMTMC-reID隨機(jī)地調(diào)公式(3)中的λ,分別2、5、10、12、15、20、30、40,然后運(yùn)行算法獲得九組mAP結(jié)果數(shù)據(jù):75.24%、75.96%、75.58%、75.64%、74.87%、75.02%、75.66%、74.33%、73.12%,因λ大于20時(shí),mAP下降顯著,所以將橫軸λ限定在0~20,同時(shí)為清晰顯示,將mAP與λ的預(yù)測(cè)曲線的縱軸顯示區(qū)域限定在74%~100%。因?yàn)榍€階數(shù)越高,波動(dòng)越明顯,因此本文從低階到高階做曲線預(yù)測(cè),即從1階開(kāi)始實(shí)驗(yàn),直到預(yù)測(cè)的mAP曲線出現(xiàn)波峰為止,不同次數(shù)方程曲線擬合結(jié)果,從1到9階的結(jié)果如圖4所示。
圖4 最小二乘法預(yù)測(cè)曲線Fig.4 Least squares forecast curve
當(dāng)預(yù)測(cè)曲線為8階時(shí),得到調(diào)試權(quán)重的建議即λ在2到5之間有最高的mAP出現(xiàn),最后經(jīng)過(guò)在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn),最后使算法結(jié)果到達(dá)最佳的λ為3。綜上所述,本文又分別在四個(gè)數(shù)據(jù)集進(jìn)行上實(shí)驗(yàn),為了提升,本文在數(shù)據(jù)處理部分加入了常用的加強(qiáng)算法Random Erasing[12],但精度不升反降。分析原因,可能是因?yàn)殡S機(jī)擦除了行人的關(guān)鍵特征,導(dǎo)致模型學(xué)習(xí)到的行人特征變少,影響正負(fù)樣本的挖掘。最后本文加入Re-Rank[13]算法,精度再此提升,Re_Rank算法原理是在利用馬氏距離和Jaccard距離,在模型訓(xùn)練完成后再進(jìn)行挖掘正負(fù)樣本的工作,以此更好地提升精度[13]。
為了進(jìn)一步驗(yàn)證算法的有效性,本文又分別選取了四個(gè)算法作對(duì)比,分別是在基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)上引入行人對(duì)齊的PAN[14],一個(gè)在全連接層引入奇異值分解的SVDNet[15],一個(gè)提出深層金字塔特征學(xué)習(xí)的DPEL[16],以及本文參考僅使用全局學(xué)習(xí)分支和隨機(jī)擦除分支未加入局部學(xué)習(xí)分支的論文方法BDB[9],在數(shù)據(jù)集Duke和Market的對(duì)比結(jié)果如表4所示,在數(shù)據(jù)集Label和Deteted的對(duì)比結(jié)果如表5所示。
從表4獲悉,本文的算法未加強(qiáng)也比前三個(gè)算法在mAP和Rank-1分別高出10多個(gè)百分點(diǎn),相比參考方法[9],在兩個(gè)數(shù)據(jù)集上,mAP分別高出了4個(gè)百分點(diǎn)和1個(gè)百分點(diǎn),而經(jīng)過(guò)加強(qiáng)的本文算法結(jié)果在數(shù)據(jù)集Duke、Market上mAP更是到達(dá)了88.11%和93.19%,Rank-1分別能達(dá)到93.14%、95.5%。
表4 Duke、Market數(shù)據(jù)集結(jié)果對(duì)比Table 4 Comparison of Duke and Market data set results %
從表5獲悉,在數(shù)據(jù)集Label與Detect上,相比前三個(gè)算法精度提高了至少10個(gè)百分點(diǎn)及以上,而本文加入Re-Rank的算法精度更是提高了20多個(gè)百分點(diǎn),在數(shù)據(jù)集Label和Detect上mAP分別到達(dá)了76.26%和74.86%,Rank-1分別到達(dá)了74.07%和72.57%。表5中,BDB[9]算法雖然在Label、Detect數(shù)據(jù)集上的結(jié)果比本文未加強(qiáng)的算法稍好,但本文的未加強(qiáng)的算法精度在Market和Duke數(shù)據(jù)集上的精度分別領(lǐng)先1個(gè)百分點(diǎn)和4個(gè)百分點(diǎn),且Label、Detect數(shù)據(jù)集上,本文加強(qiáng)后的算法結(jié)果比其mAP,分別領(lǐng)先4.56個(gè)百分點(diǎn)和5.56個(gè)百分點(diǎn)。
表5 Label、Detect數(shù)據(jù)集結(jié)果對(duì)比Table 5 Comparison of Label and Detect data set results %
本文提出了一種融合全局學(xué)習(xí)分支、隨機(jī)擦除分支、局部學(xué)習(xí)分支的算法,并結(jié)合最小二乘法進(jìn)行權(quán)重分配,相比對(duì)行人進(jìn)行骨骼定點(diǎn)和增加行人屬性的算法,無(wú)需預(yù)訓(xùn)練也不需對(duì)數(shù)據(jù)集進(jìn)行額外的屬性標(biāo)注。最后在pytorch框架下,分別在三個(gè)數(shù)據(jù)集上,做了對(duì)比實(shí)驗(yàn),其結(jié)果顯示,本文融合全局學(xué)習(xí)分支、隨機(jī)擦除分支、局部學(xué)習(xí)分支的算法具有有效性,在結(jié)果上相比參考算法,得到一定提升。在接下來(lái)的工作中,本文就加強(qiáng)網(wǎng)絡(luò)對(duì)行人特征學(xué)習(xí),將結(jié)合對(duì)齊框架進(jìn)行下一步的研究。