摘 ?要:行人重識(shí)別在模式識(shí)別中占據(jù)很大的比重,這項(xiàng)技術(shù)的目的是識(shí)別出不同攝像機(jī)在不同時(shí)間且處于不同環(huán)境下的行人是否為相同身份。為了更好地表達(dá)行人特征,提出了一種數(shù)據(jù)增強(qiáng)和多層反向傳播網(wǎng)絡(luò)的方法(DAML)。文章認(rèn)為樣本圖像類型的稀少和深度網(wǎng)絡(luò)傳播過程中數(shù)據(jù)丟失是導(dǎo)致識(shí)別率低的重要因素。我們希望增加圖像樣本數(shù)量,讓深度網(wǎng)絡(luò)中的每一層都進(jìn)行回傳,以提高識(shí)別率。在Market-1501、CUHK03和DukeMTMC-reID等主流數(shù)據(jù)集上,我們的方法取得了較好的效果。
關(guān)鍵詞:行人重識(shí)別;數(shù)據(jù)增強(qiáng);多層反向傳播;特征
中圖分類號(hào):TP391.4 ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2096-4706(2021)13-0170-03
Pedestrian Re-Identification Research Based On Data Enhancement and Multiple Layer Back Propagation Network
LUO Feng
(Aviation Maintenance Sergeant School, PLA Air Force Engineering University, Xinyang ?464000, China)
Abstract: Pedestrian re-identification occupies a large proportion in pattern recognition. The purpose of this technology is to identify whether pedestrians under different cameras at different times and in different environments have the same identity. In order to express the characteristics of pedestrians better, a data augmentation and multiple layer back propagation network method (DAML) is proposed. It is considered that the scarcity of sample image types and data loss in the process of deep network propagation are important factors leading to low recognition rate. We hope to increase the number of image samples and let each layer in the deep network pass back to improve the recognition rate. Our method has achieved good effects on mainstream data sets such as Market-1501, CUHK03 and DukeMTMC-reID.
Keywords: pedestrian re-identification; data enhancement; multiple layer back propagation; feature
0 ?引 ?言
行人重識(shí)別是一種使用計(jì)算機(jī)視覺技術(shù)來評(píng)估特定行人是否出現(xiàn)在圖像或視頻序列中的技術(shù),被廣泛認(rèn)為是圖像檢索的子問題。具體來說,提供一個(gè)查詢?nèi)宋飯D像,然后我們希望匹配在人物圖像候選集中相同的人物圖像。然而,只要使用檢測(cè)器,誤差是不可避免的。常見的影響因素有視角、遮擋物、照明條件以及人物姿勢(shì)的變化,它們使行人重識(shí)別問題成為一個(gè)非常具有挑戰(zhàn)性的課題。因此,我們提出:(1)一種在不改變標(biāo)簽數(shù)量的情況下進(jìn)行數(shù)據(jù)增強(qiáng)的方法,并將其應(yīng)用于人的重新識(shí)別,以獲得魯棒性更強(qiáng)的特征,從而提高識(shí)別率。(2)一種多層反向傳播網(wǎng)絡(luò)的方法來連接深度模型各層的特征,該方法關(guān)注不同層之間的特征信息,以提高精度。
1 ?相關(guān)方法
數(shù)據(jù)擴(kuò)充和特征表示是行人重識(shí)別技術(shù)的兩個(gè)重要組成部分。由于視角、光照、遮擋和姿勢(shì)的變化,行人特征很容易模糊,數(shù)據(jù)增強(qiáng)是提高識(shí)別率的首選方法。
在實(shí)踐中[1],介紹了各種常用的數(shù)據(jù)增強(qiáng)方法,包括傳統(tǒng)的旋轉(zhuǎn)、翻轉(zhuǎn)、縮放、平移、對(duì)比度、噪聲以及Gan數(shù)據(jù)生成等方法。作者提出了這種方法,并取得了一定的成效。Zhun Zhong等人在文獻(xiàn)[2]中提出了一種在圖像中隨機(jī)一個(gè)區(qū)域用噪聲對(duì)其進(jìn)行遮擋的方法,該遮擋物可以是黑色塊、灰色塊或隨機(jī)噪聲等。在文獻(xiàn)[3]中,作者設(shè)計(jì)了一種名為CamStyle的方法來消除相機(jī)風(fēng)格的差異。使用CycleGAN可以將標(biāo)記的訓(xùn)練圖像樣式化到每個(gè)攝影機(jī),并與原始訓(xùn)練樣本組合,使得訓(xùn)練集完成增強(qiáng)。除了數(shù)據(jù)擴(kuò)充外,加強(qiáng)網(wǎng)絡(luò)模型也是一種改善特征表示的方法。例如,MGN[4]是一個(gè)多分支深度網(wǎng)絡(luò),通過將圖像分割成多個(gè)條帶,得到多粒度局部特征表示[5]。提出了一種名為SPReID的方法,通過預(yù)先訓(xùn)練好的行人語義分析網(wǎng)絡(luò)模型獲取人物圖像的每個(gè)語義部分,提取每個(gè)部分的局部特征進(jìn)行比對(duì)。
2 ?設(shè)計(jì)方法
在本節(jié)中,我們將詳細(xì)介紹所提出的方法。我們將在第一小節(jié)中描述圖片的數(shù)據(jù)增強(qiáng)。在第二小節(jié)中,我們將描述多層反向傳播網(wǎng)絡(luò)的體系結(jié)構(gòu)。
2.1 ?數(shù)據(jù)增強(qiáng)
在深度學(xué)習(xí)中,我們使用數(shù)據(jù)集微調(diào)深度網(wǎng)絡(luò)模型時(shí),經(jīng)常會(huì)遇到一些因?yàn)閿?shù)據(jù)嚴(yán)重不足導(dǎo)致結(jié)果不理想的情況,原因是數(shù)據(jù)樣本較小時(shí),很容易導(dǎo)致過度擬合。此外,在收集數(shù)據(jù)時(shí)同樣也存在一定的挑戰(zhàn)。例如:(1)我們收集的數(shù)據(jù)只是真實(shí)時(shí)空分布的一部分,與ImageNet[6]擁有125萬張圖像相比,行人重識(shí)別數(shù)據(jù)集就顯得極為稀少了。(2)大部分行人重識(shí)別數(shù)據(jù)集都是在校園內(nèi)采集的,由于涉及個(gè)人隱私和肖像權(quán),我們很難在不同的時(shí)間和環(huán)境收集更多的人物圖像。
因此,我們建議在不改變標(biāo)簽數(shù)量的情況下增加數(shù)據(jù),并將其應(yīng)用于行人重識(shí)別中。我們所提數(shù)據(jù)增強(qiáng)的流程圖如圖1所示。我們可以看到,輸入圖像是隨機(jī)選擇的,按照一定的概率選擇原始圖像或者轉(zhuǎn)換成另一種類型的圖像。其中,原始圖像保證了數(shù)據(jù)的真實(shí)性,翻轉(zhuǎn)圖像增加了視角變化中的樣本,高斯噪聲增加了樣本的多樣性,顏色抖動(dòng)增加了不同光照變化中的樣本,隨機(jī)擦除增加了遮擋對(duì)象中的樣本。圖中p代表選取不同樣本的概率,p1+p2+p3+p4+p5=1.0,我們通過大量的對(duì)比實(shí)驗(yàn),證明概率按照p1=0.4、p2=0.1、p3=0.1、p4=0.1、p5=0.3這樣分配時(shí)效果最好。
2.2 ?多層反向傳播網(wǎng)絡(luò)
2.2.1 ?網(wǎng)絡(luò)體系結(jié)構(gòu)
眾所周知,幾乎所有深度神經(jīng)網(wǎng)絡(luò)從上一層傳播到下一層的過程中,由于圖像特征尺寸的減小,一些細(xì)節(jié)特征不可避免地會(huì)丟失。因此,我們提出了多層反向傳播網(wǎng)絡(luò),它力求通過中間節(jié)點(diǎn)的反向傳播,充分利用網(wǎng)絡(luò)傳輸過程中丟失的特征信息。我們的多層反向傳播網(wǎng)絡(luò)是在原始DenseNet121[7]網(wǎng)絡(luò)基礎(chǔ)上實(shí)現(xiàn)的。
多層反向傳播網(wǎng)絡(luò)的結(jié)構(gòu)圖如圖2所示。首先,我們保持原始DenseNet121網(wǎng)絡(luò)模型的前四層不變,因?yàn)镈enseNet121網(wǎng)絡(luò)模型中前幾層的卷積核相對(duì)較小,全局圖像特征很少出現(xiàn)在網(wǎng)絡(luò)模型的前幾層內(nèi)。隨后我們將Denseblock塊和transition層視為一個(gè)整體,并將其定義為Dense-conv層。我們從Dense-conv2層開始連接MaxPooling,然后將特征向量劃分為兩個(gè)子流。其中一個(gè)子流連接全連接層后用于計(jì)算Softmax損失,另一個(gè)子流先用Conv層進(jìn)行處理,減小特征向量尺寸后用于計(jì)算Tripletloss損失,我們將這一套設(shè)計(jì)看成一個(gè)整體并將其定義為layer1。隨后,我們?cè)贒ense-conv2層的末尾添加Dense-conv3層,然后重復(fù)前面的操作并將其定義為layer2。按照此設(shè)計(jì)一直到第4層。最后,我們將所有降維處理后的特征向量連接起來作為最終的特征表示。
2.2.2 ?損失函數(shù)
為了提高多層反向傳播網(wǎng)絡(luò)學(xué)習(xí)特征的能力,我們參考文獻(xiàn)[4]使用Softmax損失和Tripletloss損失作為訓(xùn)練階段的損失函數(shù)。這兩個(gè)損失函數(shù)被廣泛用于解決各種分類問題。
在網(wǎng)絡(luò)中,我們?cè)诿總€(gè)layer層的第一次分流MaxPooling之后直接使用Softmax損失進(jìn)行人員分類,定義為:
其中Wk表示k類的權(quán)重向量,我們用N代表mini-batch,C是用來表示訓(xùn)練集中的類數(shù)。而在每個(gè)layer層的第二次分流中,我們用一個(gè)卷積減少特征向量的尺寸后使用Tripletloss損失來提高排序性能:
其中fα(i)、fp(i)、fn(i)分別對(duì)應(yīng)的是錨特征、正樣本以及負(fù)樣本的特征。此外,p代表行人身份的種類,K代表在mini-batch中每個(gè)身份用有圖片的數(shù)量,我們?cè)O(shè)定p=1,…,K;n=1,…,K;j=1,…,P,同時(shí)滿足j≠i,α表示最小間隔,它的作用是用來控制內(nèi)部之間的差異,[*]+是ReLU的激活函數(shù)。
我們這樣設(shè)置不僅考慮了大粒度的特征向量也考慮了小粒度的特征向量,從粗到細(xì),兩者相輔相成,因此這種組合設(shè)置具有很強(qiáng)的收斂性。
3 ?實(shí)驗(yàn)
我們?cè)谌笾髁餍腥酥刈R(shí)別數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),包括Market-1501[8]、CUHK03[9]和DukeMTMC-reID[10]。
我們首先使用所提出DAML方法在Market-1501數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表1前兩列所示,我們可以看到我們的方法DAML取得了良好的結(jié)果,Rank-1=93.8%,mAP=91.1%。與排名第二的方法相比,我們的方法分別在Rank-1和mAP上高出1.1%和8.6%。由此說明所提出的DAML方法可以在Market-1501數(shù)據(jù)集上提高行人重識(shí)別的性能。
接著,在具有挑戰(zhàn)性的DukeMTMC-reID數(shù)據(jù)集上,我們將DAML方法與幾種最先進(jìn)的方法進(jìn)行了比較。實(shí)驗(yàn)結(jié)果在表1三、四列展示,我們的方法DAML達(dá)到了Rank-1=89.3%,mAP=85.6%,與其他方法相比我們的方法有小幅度的提升,實(shí)驗(yàn)證明DAML的方法在DukeMTMC-reID數(shù)據(jù)集上是真實(shí)可行的。最后,我們使用DAML方法對(duì)新訓(xùn)練/測(cè)試協(xié)議下的CUHK03數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果在表1的后四列所示,我們可以看到,我們的方法DAML在Labeled中達(dá)到了Rank-1=82.3%、mAP=81.2%。此外,我們?cè)贒etected中達(dá)到了Rank-1=76.4%和mAP=75.6%。與其他方法相比,我們的DAML方法取得了極佳的效果。
4 ?結(jié) ?論
深度學(xué)習(xí)是行人重識(shí)別的主流研究方向。本文正是針對(duì)這一研究方向,創(chuàng)新了兩種真實(shí)可行的研究方法。第一種是利用數(shù)據(jù)增強(qiáng)技術(shù)增加訓(xùn)練樣本的多樣性,第二種是在原有DenseNet121的基礎(chǔ)上引入多層反向傳播網(wǎng)絡(luò),增加人物特征的魯棒性,進(jìn)一步提高了實(shí)驗(yàn)精度。我們?cè)谌齻€(gè)大型數(shù)據(jù)集上取得了良好的結(jié)果,并且實(shí)驗(yàn)表明我們的DAML方法是真實(shí)有效的。
參考文獻(xiàn):
[1] PEREZ L,WANG J. The Effectiveness of Data Augmentation in Image Classification using DeepLearning [J/OL].arXiv:1712.04621 [cs.CV].(2017-12-13).https://arxiv.org/abs/1712.04621.
[2] ZHONG Z,ZHENG L,KANG G L,et al. Random Erasing Data Augmentation [J/OL].arXiv:1708.04896 [cs.CV].(2017-11-16).https://arxiv.org/abs/1708.04896v2.
[3] ZHONG Z,ZHENG L,ZENG Z D,et al. Camera Style Adaptation for Person Re-identification [J/OL].arXiv:1711.10295 [cs.CV].(2017-11-28).https://arxiv.org/abs/1711.10295v2.
[4] WANG G S,YUAN Y F,CHEN X,et al.Learning Discriminative Features with Multiple Granularities for Person Re-Identification [J/OL].arXiv:1804.01438 [cs.CV].(2018-04-04).https://arxiv.org/abs/1804.01438
[5] KALAYEH M M,Basaran E,Muhittin G,et al. GokmenHuman Semantic Parsing for Person Re-identification [J/OL].arXiv:1804.00216 [cs.CV].(2018-05-31).https://arxiv.org/abs/1804.00216.
[6] JIA D,DONG W,SOCHER R,et al.ImageNet:A large-scale hierarchical image database [C]//2009 IEEE Conference on Computer Vision and Pattern Recognition.Miami:IEEE,2009:248-255.
[7] HUANG G,LIU Z,MAATEN L V D,et al.Densely Connected Convolutional Networks [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu:IEEE,2017:2261-2269.
[8] LI W,ZHAO R,XIAO T,et al. DeepReID:Deep Filter Pairing Neural Network for Person Re-identification [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus:IEEE,2014:152-159.
[9] ZHENG L,SHEN L Y,TIAN L,et al. Scalable Person Re-identification:A Benchmark [C]//2015 IEEE International Conference on Computer Vision (ICCV).Santiago:IEEE,2015:1116-1124.
[10] ZHENG Z D,ZHENG L,YANG Y. Unlabeled Samples Generated by GAN Improve the Person Re-identification Baseline in Vitro [C]//2017 IEEE International Conference on Computer Vision (ICCV).Venice:2017,3774-3782.
作者簡(jiǎn)介:羅鋒(1993—),男,漢族,河南光山人,助教,碩士,研究方向:人工智能、模式識(shí)別。