吳紹君 高 玲 李 強
( 山東師范大學信息科學與工程學院,250358,濟南 )
行人重識別(re-ID)方法是指在不同攝像機拍攝的視頻或圖像中查詢目標人物的方法[1].行人重識別的過程是指對于在監(jiān)控視頻中出現(xiàn)的目標人物,當該目標人物在其他監(jiān)控區(qū)域中再次出現(xiàn)時能夠?qū)⒃撃繕酥匦伦R別出來的過程,如圖1所示.最近行人重識別在利用深度學習模型判別行人[2-6]和利用距離度量學習算法識別行人[7-10]這兩方面都取得了很好的進展.
圖1 在不同的相機下檢索同一行人
深度學習這一網(wǎng)絡(luò)模型提取的行人特征可以分為兩種類型:全局特征和局部特征.從整張圖片中提取的行人特征被稱為全局特征.全局特征具有不變性、直觀性、易于計算的特性,被廣泛地用于以識別圖像級別的行人特征為主的方法.全局特征包含行人圖片中最直觀的信息(如行人衣服的顏色),這些提取到的全局信息有助于判別不同身份的行人[6].但是,大多數(shù)的行人重識別方法在提取全局特征的同時,也會導致行人圖片中的一些細節(jié)部分(如帽子,腰帶等)被忽略.例如,如果兩個人穿著相同顏色的衣服,同時其中一個人戴著帽子,那么僅僅通過提取全局特征判別行人,很難從外觀上將兩個人區(qū)別開來.這時候忽略的局部特征會使判別行人的難度增加.最近的一些工作則主要是利用深度學習模型提取局部特征的方法來解決行人重識別問題[11-13],這些方法的基本過程是利用深度學習網(wǎng)絡(luò)去提取行人的局部特征,并根據(jù)顯著的局部細節(jié)特征去匹配行人的身份(ID).另外,也有利用神經(jīng)網(wǎng)絡(luò)提取行人各個身體部位的局部特征信息的方法[14,15].局部特征間的特征相似度低這一特點更有利于成功識別行人.但是,提取局部特征的方法在一定程度上也會忽略整體的行人架構(gòu)信息.在多個網(wǎng)絡(luò)層學習局部特征的同時也會產(chǎn)生部分特征的丟失,從而使得行人重識別方法準確率降低.基于此,本文提出了一個深度學習網(wǎng)絡(luò)模型,這個網(wǎng)絡(luò)模型能夠同時學習行人圖片的全局特征和局部特征.利用整張行人圖像的顯著特征作為全局特征來進行行人識別.而在全局特征相似的情況下,局部特征的特征與特征之間相似度低,這一特性也為全局特征做了重要的細節(jié)補充,同時該模型能夠從不同的網(wǎng)絡(luò)深度提取局部特征,保證每個網(wǎng)絡(luò)層學習到的局部特征都得到充分的利用.本文提出結(jié)合全局特征和局部特征的多級特征融合模型.由于部分行人圖像特征會隨著網(wǎng)絡(luò)學習層數(shù)的增加而丟失,所以,在網(wǎng)絡(luò)層中添加了分支網(wǎng)絡(luò),使模型能夠分別從不同的網(wǎng)絡(luò)深度提取局部特征.多層級特征融合模型主要由兩部分網(wǎng)絡(luò)組成:基于部分的多層級網(wǎng)絡(luò)和全局—局部分支網(wǎng)絡(luò).多層級網(wǎng)絡(luò)能夠分別從不同的網(wǎng)絡(luò)層提取局部特征,全局—局部分支網(wǎng)絡(luò)則從最深層網(wǎng)絡(luò)提取局部特征以及全局特征.在網(wǎng)絡(luò)模型提取了全局特征和局部特征之后,通過多分類算法來預(yù)測行人身份.該模型在三個經(jīng)典的數(shù)據(jù)集上進行了訓練和測試并得到了很好的實驗結(jié)果.
行人重識別方法是指從不同的監(jiān)控攝像機中找到匹配的目標人物的方法.近些年來,隨著深度學習方法的不斷普及,許多國內(nèi)外的學者開始關(guān)注深度學習方法,并利用深度學習網(wǎng)絡(luò)提取行人特征來處理行人重識別問題.我國學者Li等人[16]首次提出孿生神經(jīng)網(wǎng)絡(luò)架構(gòu)與行人圖像的特征學習相結(jié)合的方法,這一方法表現(xiàn)出了很好的性能.我國學者Sun等人[11]提出了一個基線模型,該模型將識別行人身份(ID)的方法與ResNet-50網(wǎng)絡(luò)結(jié)合起來,用于目前的行人重識別系統(tǒng).這一方法大大改善了基于深度學習的行人重識別方法的準確率.Varior等人[17]通過孿生卷積神經(jīng)網(wǎng)絡(luò)計算行人圖像對的中級特征這一方法來表示局部特征之間的相互關(guān)系.我國學者Xiao等人[18]針對跨數(shù)據(jù)集檢索行人這一問題,提出了DGD(Domain Guided Dropout)方法,大大提高了模型的泛化能力.
在提取局部特征方面.Li等人[12]提出了一個深度學習模型STN,該模型主要通過學習行人軀干部位和其他潛在身體部位的深層語義感知來定位行人圖像的局部特征.Zhao等人[13]采用深度學習的方法,在對行人圖像進行分割后,首先將不同行人圖像的相同分割部位進行對齊,然后通過圖像塊的匹配來實現(xiàn)行人身份匹配.Liu等人[19]利用深度學習網(wǎng)絡(luò)模型來加強對于行人重點部位的識別,以便提取行人圖像重點部位的局部特征. Bai等人[20]利用LSTM網(wǎng)絡(luò)將行人圖像垂直分割成多個部分并提取局部特征,然后將提取的特征塊組合在一起來進行特征匹配.另外還可以通過加強對行人圖像的身體部位的識別來提高模型精度[21,22].將特征圖進行水平分割來提取局部特征,同時,也從不同的網(wǎng)絡(luò)深度分別提取局部特征來提升深度學習模型的性能.
提取全局特征方面.文獻[23]提到的核特征圖就是用于表示全局特征的特征圖.Liao等人[6]提出了一種稱為LOMO(Local Maximal Occurrence)的方法來提取起到積極作用的特征.在本文中,我們將全局特征和局部特征進行結(jié)合并用于行人重識別.softmax損失函數(shù)被廣泛應(yīng)用于解決多分類問題,它既可以單獨作為損失函數(shù)使用[24],也可以與其他損失函數(shù)結(jié)合使用[25-27]. 在行人重識別中,softmax損失函數(shù)多被作為分類損失函數(shù)使用.也用softmax損失函數(shù)解決多分類行人重識別問題.
MFF網(wǎng)絡(luò)主要包含兩個結(jié)構(gòu):基于部分的多層次網(wǎng)絡(luò)(Part-based Multi-level Net,PMN)和全局—局部特征分支網(wǎng)絡(luò)(Global-Local Branch,GLB),如圖2所示.PMN網(wǎng)絡(luò)主要用于提取來自不同網(wǎng)絡(luò)層的局部特征. GLB網(wǎng)絡(luò)則在深度學習網(wǎng)絡(luò)的最深層提取行人圖像的局部特征和全局特征.
3.1骨干網(wǎng)絡(luò)在行人重識別方法中,由于ResNet50網(wǎng)絡(luò)的體系結(jié)構(gòu)簡潔并且性能良好,我們使用ResNet50網(wǎng)絡(luò)作為MFF網(wǎng)絡(luò)的骨干網(wǎng)絡(luò).如圖2所示,ResNet50結(jié)構(gòu)被分為block1,block2,block3和block4四個網(wǎng)絡(luò)模塊,這樣分類可以更方便地從每個網(wǎng)絡(luò)塊提取行人圖像特征圖,并利用分類器來預(yù)測行人身份.每個網(wǎng)絡(luò)塊包括卷積塊和身份塊,其中卷積塊中包含多層卷積網(wǎng)絡(luò)層.在block1塊之前是最大池化層.在MFF網(wǎng)絡(luò)中,一直到block4網(wǎng)絡(luò)塊都保持ResNet50的主干結(jié)構(gòu)不變,然后刪除block4之后包括全局平均池化層在內(nèi)的整個網(wǎng)絡(luò)層.
3.2多層次特征融合網(wǎng)絡(luò)本文提出了將局部特征和全局特征融合在一起的多層次特征融合網(wǎng)絡(luò).行人圖像的全局特征和局部特征組合在一起學到的特征信息更為豐富,更有利于判定行人.在MFF模型中,局部特征和全局特征被用于進行行人身份預(yù)測.如圖2所示,MFF模型由基于部分的多層次網(wǎng)絡(luò)和全局-局部特征分支網(wǎng)絡(luò)組成.
圖2 MFF網(wǎng)絡(luò)結(jié)構(gòu)圖
全局—局部特征分支網(wǎng)絡(luò)可以分別從網(wǎng)絡(luò)的最深層提取局部特征和全局特征.GLB網(wǎng)絡(luò)由兩部分結(jié)構(gòu)組成,如圖2所示.給定一個輸入的行人圖像,通過骨干網(wǎng)絡(luò)學習提取行人圖像特征圖.全局分支中,ResNet50骨干網(wǎng)絡(luò)之后添加了平均池化層以便獲取256-dim的全局特征.分類器由全連接層和softmax函數(shù)層組成.添加的分類器將提取的全局特征進行分類,預(yù)測行人身份. GLB網(wǎng)絡(luò)的局部分支則用于提取行人圖像局部特征圖.在block4模塊中得到的特征圖水平均分為六個部分來提取局部特征,如圖3所示.在將特征圖水平均分后,添加了平均池化層和分類器,以便將提取的局部特征進行分類從而預(yù)測行人身份.
圖3 GLB與MFF 在三個數(shù)據(jù)集上的Rank-1 accuracy至Rank-10 accuracy的比較
圖3 行人特征圖的水平均分方式
基于部分的多層次網(wǎng)絡(luò)用于從網(wǎng)絡(luò)的淺層到深層提取行人圖像的局部特征.PMN網(wǎng)絡(luò)結(jié)構(gòu)分為三個部分:Branch-1, Branch-2和Branch-3. 如圖2所示,ResNet50由四個網(wǎng)絡(luò)模塊組成,網(wǎng)絡(luò)模塊之間添加了Branch-1,Branch-2和Branch-3三個網(wǎng)絡(luò)分支.首先,在每個分支中,對網(wǎng)絡(luò)模塊中學習到的特征圖進行平均池化.然后,將特征圖水平均分為六個部分(如前段所述).在分割的特征圖之后添加一個1×1卷積核(kernel-sized)的卷積層(convolutional layer),一個批處理層(batch normalization layer),一個relu函數(shù)層和一個全局池化層(fully-connected layer,F(xiàn)C),得到6×256-dim的局部特征.最后將行人圖像的局部特征輸入到分類器中.每個分類器都由全連接層和softmax層構(gòu)成并用于身份預(yù)測.其中,Branch-1,Branch-2和Branch-3在網(wǎng)絡(luò)中是并行運行的.
在多層次特征融合網(wǎng)絡(luò)中,輸入的行人圖像經(jīng)過ResNet50骨干網(wǎng)絡(luò)進行簡單的特征提取,得到特征圖.而后,通過多條分支網(wǎng)絡(luò)來進一步細致提取特征圖的局部特征以及全局特征.PMN中提取局部特征是通過將特征圖進行水平切塊的方式提取每個切塊的特征.GLB中通過網(wǎng)絡(luò)層來將特征圖的全局特征進行細致提取,提取到的特征則通過softmax loss(2.3節(jié))來預(yù)測提取的特征屬于特定行人的概率.多層次特征融合網(wǎng)絡(luò)主要是應(yīng)用于識別行人圖像,對于視頻這類多維度特征提取仍需進一步的研究.
3.3損失函數(shù)Softmax損失函數(shù)多用于解決多分類問題.行人重識別問題也被視為多類分類問題.目前,Softmax損失函數(shù)被廣泛用于各種基于深度學習的行人重識別方法中.本文也將Softmax函數(shù)作為損失函數(shù)來完成分類任務(wù).
在MFF網(wǎng)絡(luò)結(jié)構(gòu)中,行人重識別問題被視為多分類問題.對于第i個學習到的特征,softmax損失函數(shù)如下:
(1)
其中Kc是類c的權(quán)重,D是在訓練集中包含的行人身份的數(shù)量,M是在訓練進程中的一個批量(mini-batch)圖像集的大小.在MFF網(wǎng)絡(luò)模型中,GLB和PMN提取的特征皆在softmax 損失函數(shù)被使用.
MFF的總損失函數(shù)為
(2)
4.1數(shù)據(jù)集本文提出的網(wǎng)絡(luò)模型分別在Market-1501[28],DukeMTMC-reID[6]和CUHK03[29]三個數(shù)據(jù)集上進行實驗來評估MFF模型的性能.
Market-1501[28]數(shù)據(jù)集:六個攝像機拍攝到的1 501個行人身份(id),在不同攝像機視角下檢測到的行人總數(shù)為32 668個.在這個數(shù)據(jù)集中,每個行人至少被兩個不同的攝相機拍攝到.在Market-1501中,訓練集由751個行人身份組成,平均每個行人身份包含17.2個行人圖像;測試集由750個行人身份組成,測試集由19 732張圖像組成.數(shù)據(jù)集使用mAP(mean Average Precision )來評估行人重識別算法的性能.
DukeMTMC-reID[6]數(shù)據(jù)集:包含1 411個行人身份.在八個不同的攝像頭下拍攝到36 411張行人圖像.數(shù)據(jù)集中的每幅圖像是從視頻中采樣得到的,在視頻中,每隔120幀采樣到一張行人圖像.數(shù)據(jù)集由16 552個訓練圖像、2 228個查詢圖像和17 661個圖庫圖像組成.其中一半的行人圖像被隨機采樣為訓練集,其他的則作為測試集.
CUHK03[29]數(shù)據(jù)集:由13 614張行人圖像和1 467個行人身份組成.每個行人至少由兩個攝像頭拍攝到.在此數(shù)據(jù)集中,行人邊界框( bounding boxes)通過兩種不同方式提供:自動檢測的邊界框和人工手動標記的邊界框.
4.2實驗細節(jié)MFF網(wǎng)絡(luò)先在ImageNet[32]上對ResNet50網(wǎng)絡(luò)進行了預(yù)訓練,然后將ResNet50網(wǎng)絡(luò)中使用的權(quán)重也用于MFF模型.整個網(wǎng)絡(luò)在Pytorch深度學習環(huán)境中進行訓練.網(wǎng)絡(luò)代碼在python中進行編輯. 實驗中計算機配置系統(tǒng)是64位的ubuntu 16.04LTS. MFF網(wǎng)絡(luò)訓練時,使用單個GPU進行訓練,GPU的類型為NVIDA GEFORCE GTX1080.同時根據(jù)顯卡的配置,批處理數(shù)量(batch size)被設(shè)置為32,下降率設(shè)置為0.5.三個數(shù)據(jù)集分別設(shè)置了三個不同的學習率.其中 Market-1501數(shù)據(jù)集中使用的學習率是0.05. 在DukeMTMC-reID數(shù)據(jù)集上進行訓練時,學習率設(shè)置為0.045. CUHK03數(shù)據(jù)集的學習率為0.08. 整個訓練過程將在60輪后終止. 在實驗過程中,通過隨機選擇的方式選取一張圖像作為查詢圖像. 輸入的行人圖像的尺寸大小調(diào)整為384×192.
4.3Market-1501數(shù)據(jù)集的結(jié)果比較表1列舉了在Market-1501數(shù)據(jù)集上本文的方法與現(xiàn)有方法的比較情況.MFF模型的實驗結(jié)果與近年來在Market-1501數(shù)據(jù)集上實驗的幾種最新的行人重識別方法進行比較,其中詞袋(bag of words)模型(BoW + KISSME[28])采用了手工繪制的方法,SVDNet[29]使用深度學習模型提取全局特征,PAR (part-aligned representation)[17]使用深度學習網(wǎng)絡(luò)模型提取圖像局部特征.表1 結(jié)果表明MFF模型在Ran-1精度,Rank-5精度和Rank-10精度方面都獲得了最佳結(jié)果.本文將mAP作為行人重識別的評價指標.MFF模型的mAP值在Market-1501數(shù)據(jù)集上達到了71.7%,比最佳方法[34]高出2.6%.另外,MFF模型的Ran-1精度達到89.5%,比最佳方法[34]高1.8%;Ran-5精度達到95.8%,比最佳比較方法[34]高1.6%.本文提出的MFF模型通過融合全局特征和局部特征來提升模型的性能,同時在提取局部特征時添加PMN結(jié)構(gòu)也有助于獲得更好的實驗效果.
表1 Market-1501結(jié)果
4.4CUHK03數(shù)據(jù)集的結(jié)果比較MFF模型分別在CUHK03_detected數(shù)據(jù)集和CUHK03_labeled數(shù)據(jù)集上進行了實驗.本文在CUHK03_detected和CUHK03_labeled數(shù)據(jù)集上使用單一行人圖像查詢的方式進行實驗,同時與許多先進的算法和網(wǎng)絡(luò)模型進行了比較,例如使用horizontal occurrence 模型的LOMO + KISSME[6],使用harmonious attention模塊的行人對齊網(wǎng)絡(luò)(Pedestrian alignment network)[37]和HA-CNN[22].在實驗中,Rank-1精度和mAP作為性能評價的指標.根據(jù)表2所示,MFF模型的Rank-1精度達到43.9%,比在CUHK03_detected上的最佳方法[21]高了2.2%. mAP值達到40.0%,比最佳實驗結(jié)果高1.4%.在CUHK03_labeled上的比較結(jié)果如下: Rank-1精度比HA-CNN[21]高出3.7%. MFF模型的mAP達到42.9%,分別比HA-CNN[21],SVDNet[29]和MSR[38]高出1.9%,5.1%,2.4%.
表2 CUHK03結(jié)果
4.5DukeMTMC-reID數(shù)據(jù)集的結(jié)果比較表3顯示了MFF模型與在DukeMTMC-reID數(shù)據(jù)集上的最新方法結(jié)果的比較.在表3展示的算法中,其提取特征的方式各有不同,例如:LOMO+KISSME[6]使用horizontal occurrence模型提取局部特征,PAN[37]和SVDNet[29]使用深度學習模型提取全局特征.在DukeMTMC-reID數(shù)據(jù)集上的實驗評估結(jié)果表明MFF模型在行人重識別中展現(xiàn)了很好的性能.MFF模型的Rank-1精度達到80.0%,mAP值達到61.8%,分別比ARCN[40]、SVDNet[6]和MSR[38]高9.8%,5%,1.2%.
表3 DukeMTMC-reID結(jié)果
4.6PMN結(jié)構(gòu)的作用評估本文分別在三個經(jīng)典數(shù)據(jù)集上評估了MFF網(wǎng)絡(luò)的效果:Market1501,CUHK03和DukeMTMC-reID.本文提出的PMN這一網(wǎng)絡(luò)模型分別從淺層網(wǎng)絡(luò)到深層網(wǎng)絡(luò)圖像提取局部特征.為了進一步探討PMN結(jié)構(gòu)的影響,在每個數(shù)據(jù)集上分別進行了兩個實驗:1) 去掉了MFF網(wǎng)絡(luò)中的PMN結(jié)構(gòu),只通過GLB結(jié)構(gòu)提取局部特征和全局特征;2) 保留MFF網(wǎng)絡(luò)中的PMN結(jié)構(gòu),利用GLB和PMN提取局部特征和全局特征.如圖3所示,GLB是沒有PMN模型的網(wǎng)絡(luò).單獨在GLB網(wǎng)絡(luò)上運行得到的實驗結(jié)果清楚地展示了去掉PMN結(jié)構(gòu)時的網(wǎng)絡(luò)模型性能.本文分別在三個數(shù)據(jù)集上訓練MFF模型,并在圖3中展示了實驗結(jié)果.
本文主要驗證了MFF模型在解決行人重識別問題中的重要作用,提出的MFF模型來提取局部特征和全局特征,提出的PMN結(jié)構(gòu)不僅可以分別從網(wǎng)絡(luò)的淺層到深層提取更為全面的局部特征,還可以被靈活地應(yīng)用于不同的深度學習模型當中. PMN結(jié)構(gòu)極大地提高了MFF網(wǎng)絡(luò)的性能.本文提出的MFF網(wǎng)絡(luò)有效地提高了行人重識別中目標人員搜索的精確度,并且在多個數(shù)據(jù)集上表現(xiàn)效果都為最佳,這充分表明了模型的有效性.