張曉艷,張寶華,3*,呂曉琪,谷 宇,3,王月明,3,劉 新,3,任 彥,李建軍,3
1 內蒙古科技大學信息工程學院,內蒙古自治區(qū) 包頭 014010;
2 內蒙古工業(yè)大學信息工程學院,內蒙古自治區(qū) 呼和浩特 010051;
3 內蒙古自治區(qū)模式識別與智能圖像處理重點實驗室,內蒙古自治區(qū) 包頭 014010
行人重識別(Person re-identification,Person ReID)也稱行人再識別,在多視角攝像頭拍攝的情況下,利用計算機視覺技術判斷特定攝像頭拍攝的行人圖像是否能在大規(guī)模行人圖像庫中檢索到相同身份的行人,是圖像檢索的一類子問題[1]。由于行人重識別應用場景的復雜性,存在視角、遮擋、姿態(tài)、尺度和光照變化以及低分辨率等[2]因素的影響,給重識別任務帶來極大的挑戰(zhàn)。
在傳統(tǒng)的行人重識別研究中包括特征提取[3]和距離度量[4],是基于人工設計的特征,一般應用于小數(shù)據(jù)集。2014 年以來,隨著深度學習的興起,深度神經(jīng)網(wǎng)絡廣泛應用在重識別領域,而小規(guī)模數(shù)據(jù)集無法滿足神經(jīng)網(wǎng)絡的需求,且易造成過擬合等問題。Zheng[5]等將生成對抗網(wǎng)絡(GAN)應用在重識別領域,提出將無條件GAN 生成數(shù)據(jù)融合到訓練數(shù)據(jù)中的半監(jiān)督模型,解決了訓練數(shù)據(jù)不足的問題。由于數(shù)據(jù)集之間存在域差異性,使得不同數(shù)據(jù)集之間訓練與測試性能降低。因此,Wei[6]等提出不同數(shù)據(jù)集之間行人圖像的遷移,即保證行人本身前景不變的情況下,將背景風格轉換為其他數(shù)據(jù)集的風格。在行人重識別領域中,姿勢的變化也會影響識別的精度,因此,Ge[7]等提出姿態(tài)引導的生成對抗網(wǎng)絡(pose-guide feature distilling GAN,FD-GAN),在改變姿態(tài)的情況下保持身份特征一致性,通過姿態(tài)引導去除冗余特征。Deng[8]等人提出了一種風格遷移學習的框架以及一種生成對抗網(wǎng)絡,用無監(jiān)督學習的方法將有標記圖像從源域遷移到目標域,然后通過有監(jiān)督學習訓練遷移圖像。然而,上述方法均為數(shù)據(jù)生成和重識別階段,是相對獨立的,使生成數(shù)據(jù)利用不充分。
近年來,視覺注意力廣泛應用于行人重識別方向。Song[9]等提出一種對比注意模型(mask-guided contrastive attention model,MGCAM)從身體和背景區(qū)域對比學習特征。Xu[10]等提出注意力感知組成網(wǎng)絡(attention-aware compositional network,AACN),利用注意力模塊獲取精確的目標部位以及對全局特征對齊,排除背景干擾。Li[11]等提出協(xié)調注意力模型(harmonious attention network for person re-identification,HA-CNN),共同學習基于像素的軟注意力特征和硬注意力特征,將其應用于錯位圖像。上述注意力的方法均為排除背景噪聲干擾,且只考慮單獨注意力模塊提取的特征。
針對上述方法存在的問題,本文提出基于深度雙重注意力的生成與判別聯(lián)合學習的行人重識別模型。將生成模塊與判別模塊聯(lián)合統(tǒng)一[12],使生成數(shù)據(jù)在線反饋給判別模塊,同時優(yōu)化生成模塊和判別模塊,實現(xiàn)模塊間端到端的訓練。受文獻[13-14]啟發(fā),提出深度雙重注意力模塊(DDA),通過連接相鄰注意力模塊,促使注意力模塊之間信息交流,增強注意力模塊提取特征的能力。
本文網(wǎng)絡框架主要由學生模型和基于深度雙重注意力機制的教師模型組成,如圖1 所示。學生模型包括外觀編碼器(appearance encoder,Ae),結構編碼器(structure encoder,Se),解碼器(decoder,De),鑒別器(discriminator,D)等。其中外觀編碼器也是判別模塊,即判別模塊通過共享外觀編碼器嵌入生成模塊。圖像生成方式包括:身份一致的圖像重構,交叉身份交叉圖像的合成。以上方法均為將圖像分別輸入外觀編碼器和結構編碼器,輸出外觀特征向量和結構特征向量,通過解碼器交換外觀和結構特征向量生成圖像[12]。由于學生模型中圖像生成和判別是聯(lián)合統(tǒng)一訓練,使得生成圖像實時反饋給外觀編碼器,優(yōu)化判別模塊的同時也改善外觀編碼器生成的外觀特征向量。通過教師模型[15]輔助學生模型學習主要身份特征,將生成的圖像作為訓練樣本。但由于生成的圖像相似度高,增加教師模型的識別難度,進而會影響學生模型識別的準確率。為了解決該問題,提出基于深度雙重注意力機制的教師模型,該模型由ResNet50[15]網(wǎng)絡和深度雙重注意力機制組成。將卷積得到的特征圖輸入到通道注意力模塊,得到具有通道注意力的特征圖,作為空間注意力模塊的輸入,再通過注意力連接網(wǎng)絡將同類的注意力模塊連接,使各模塊間提取的注意力特征融合,提高注意力模塊的學習能力,避免信息在傳遞過程中頻繁變化[14]。
圖1 師生聯(lián)合網(wǎng)絡框架Fig.1 Framework for teacher-student network
2.2.1 身份一致的圖像重構
身份一致的圖像重構即相同身份的一張或兩張圖像重構。給定一張圖像,分別輸入到外觀編碼器和結構編碼器,得到外觀特征向量和結構特征向量,再通過解碼器得到合成圖像。相同身份重構的圖像使生成器起到正則化的作用。
如式(1)所示,該圖像的重構采用像素級的損失函數(shù),即若生成的圖像與目標圖像相同,則像素差為0。
由于同一個人的不同圖像其外觀特征相近,且具有相同身份標簽。因此,采用式(2)所示的損失函數(shù),縮短相同身份外觀特征向量的距離,增大不同身份的外觀特征向量。
由于外觀特征攜帶身份信息,因此采用式(3)所示的損失函數(shù),是基于外觀特征向量去預測 xi屬于真實類別 yi的概率。
2.2.2 交叉身份交叉圖像的合成
交叉身份交叉圖像的合成即任意兩張不同身份和不同圖像進行的重構。合成圖像無身份標簽,無法采用像素級別的監(jiān)督。將合成圖像重新編碼為新的外觀特征向量和結構特征向量,利用式(4)、式(5)所示的損失函數(shù)計算合成圖像和真實圖像之間的損失。
利用式(6)提供身份監(jiān)督,讓其與提供外觀特征向量的真實圖像保持身份一致性。
利用式(7)使生成數(shù)據(jù)的分布接近真實數(shù)據(jù)的分布。
2.2.3 圖像判別
判別模塊通過共享外觀編碼器嵌入到圖像生成模塊中,本文通過融合主要身份特征和細粒度特征對行人圖像進行判別。由基于注意力機制的教師模型輔助學生模型學習主要身份特征,學生模型單獨學習細粒度特征。
教師模型采用ResNet50[15]作為基礎網(wǎng)絡。殘差網(wǎng)絡加速深度神經(jīng)網(wǎng)絡的訓練,提升深度網(wǎng)絡的準確率。此外,殘差網(wǎng)絡在很大程度上避免網(wǎng)絡層數(shù)的增加而產(chǎn)生的梯度消失或梯度爆炸的問題[16]。將生成圖像作為訓練樣本,無需手動標記行人屬性,可自動從合成的圖像中采集細節(jié)屬性。采用師生監(jiān)督模型,教師模型動態(tài)地分配一個軟標簽給合成圖像外觀來自xi,結構來自xj。由于行人圖像相似度高且圖像質量差,增加教師模型的識別難度,降低教師模型的輔助學生模型學習主要身份特征的能力,因此引入深度雙重注意力機制,幫助教師模型挖掘更深層的身份特征,提高學生模型判別性。
2.3.1 深度雙重注意力機制
自我注意力機制在許多視覺任務中表現(xiàn)出優(yōu)越的效果,但僅考慮了單獨注意力模塊提取的特征,無法充分融合注意力塊之間的特征。受文獻[13-14]啟發(fā),本文提出了深度雙重注意力機制,將相鄰的通道注意塊與通道注意塊、空間注意塊與空間注意塊之間連接起來,使得注意力模塊之間可以互相進行信息交流,聯(lián)合所有注意力模塊進行訓練,增強注意力模塊學習的能力,挖掘更深的注意力特征。
通道注意塊為給定一個特征圖F ∈RC×H×W作為輸入,首先經(jīng)過平均池化和最大池化聚合特征映射的空間信息,生成兩個不同的空間上下文描述符:和分別表示平均池化和最大池化。兩個描述符送到一個共享網(wǎng)絡,以產(chǎn)生通道注意力圖將共享網(wǎng)絡應用于每個描述符之后,使用逐元素求和合并輸出特征向量[13]。
通道注意模塊的數(shù)學式:
將通道注意力輸出的特征圖作為空間注意力塊的輸入,使用最大池化和平均池化操作聚合特征映射的通道信息。然后經(jīng)過卷積層降維,再經(jīng)過Sigmoid 函數(shù)產(chǎn)生二維空間注意圖。空間注意塊的計算式:
總體過程可以概括為
其中:?表示逐元素相乘,F(xiàn)′是最終的優(yōu)化輸出。
注意力連接網(wǎng)絡[14]通過參數(shù)化的加法操作將當前注意力特征與之前的注意力特征結合,確保信息在注意力塊間以前饋的方式傳遞,避免信息在傳遞過程中頻繁變動的問題,在不改變模型內部結構的同時,提高注意力模塊的學習能力。
通道與通道、空間與空間注意力模塊之間的連接函數(shù):
為了驗證提出模型的有效性,本文分別在Market1501,DukeMTMC-ReID 兩個主流公開數(shù)據(jù)集上進行有效性的驗證。Market1501 數(shù)據(jù)集包含6 個攝像頭(其中5 個高清攝像頭和1 個低清攝像頭),共有1501 個行人的32668 張圖像,其中訓練集751 人,包含12936 張圖像;另外測試集750 人,包含19732 張圖像。DukeMTMC-ReID 數(shù)據(jù)集是DukeMTMC 數(shù)據(jù)集的一個子集,用于研究行人重識別,該數(shù)據(jù)集包含8 個攝像頭,共1404 個行人的36411 張圖像,隨機選擇702 個行人的16522 張圖像作為訓練集,另外的702個行人的19889 張圖像作為測試集。
本次實驗使用首位命中率Rank-1 和平均精度均值mAP 作為評價指標。
實驗基于PyTorch 1.1 框架,硬件配置采用處理器為Intel(R) Xeon(R) CPU E5-1650 V4 3.60 GHz,兩塊NVIDIA GeForce RTX 2080 Ti 的GPU,軟件環(huán)境為Ubuntu-16.04。本實驗中聯(lián)合網(wǎng)絡訓練數(shù)據(jù)的最大迭代次數(shù)為100000 次,每批次的樣本數(shù)為8,訓練共耗時22 h。
使用c × h ×w 表示特征映射的大小。外觀編碼器是基于ResNet50 預訓練的ImageNet 模型,移除全局平均池化層和全連接層,然后添加一個最大池化層輸出外觀特征向量,采用SGD 優(yōu)化器,其學習率設置為0.002,動能設置為0.9。編碼器和解碼器均由4 個卷積層和4 個跳躍連接塊組成。鑒別器采用多尺度圖像輸入。結構編碼器、解碼器、鑒別器使用Adam 優(yōu)化器,其學習率設置為0.0001。
教師模型的參數(shù)設置對學生模型學習主要特征的能力影響較大,在ResNet50 基礎網(wǎng)絡上優(yōu)化教師模型,在Market1501 數(shù)據(jù)集和DukeMTMC-ReID 數(shù)據(jù)集上Rank-1 精度和mAP 分別為86.66%、65.14%、81.32%、64.08%。
本實驗中當教師模型的參數(shù)設置訓練次數(shù)epoch為60,每批次的樣本數(shù)為8、學習率為0.02 時,結果達到最優(yōu)。如圖2 所示,當學習率為0.02 時,Rank-1精度和mAP 分別為90.74%和75.05%。由圖3 可知,加入雙重注意力模塊后,會比基準網(wǎng)絡多耗時近半小時,是因為雙重注意力模塊促進基準網(wǎng)絡提取通道和空間位置的信息,然后進行特征融合。而在此基礎上加入深度注意力連接網(wǎng)絡,耗時增加近1 h,是因為深度注意力連接網(wǎng)絡增強了雙重注意力模塊提取特征的能力,將前一個通道注意力模塊的提取特征以前饋方式傳遞給相鄰的通道注意力模塊,空間注意力模塊同理,最后融合通道特征和空間特征,降低訓練速度,提高了提取特征的性能。
圖2 學習率Fig.2 Learning rate
圖3 不同方法的耗時對比Fig.3 Time-consuming comparison of different methods
當學習率為0.02 時教師模型最優(yōu),為驗證所提算法的有效性,分別將雙重注意力機制(DA)和深度雙重注意力機制(DDA)引入最優(yōu)的教師模型,進行消融實驗。
在Market1501 數(shù)據(jù)集和DukeMTMC-ReID 數(shù)據(jù)集上,加入雙重注意力機制之后,如表1 所示,相對基準網(wǎng)絡識別精度稍有提升。由此可以看出,雙重注意力模塊能有效地捕捉通道和空間位置特征,對于教師模型的識別效果有相應的提升,使得該模型能更好地關注主要特征。將深度雙重注意力機制引入教師模型之后,相對基準網(wǎng)絡,在Market1501 數(shù)據(jù)集和DukeMTMC-ReID 數(shù)據(jù)集上Rank-1 精度和mAP 分別提高了4.04%、9.91%、2.07%和1.47%。這說明深度連接注意力網(wǎng)絡增強了雙重注意力模塊獲取通道和空間位置信息的能力,充分融合了通道特征和空間特征,以挖掘更深層次的特征。將引入深度雙重注意力機制的最優(yōu)教師模型用于輔助學生模型學習主要特征,如表1 所示,在Market1501 數(shù)據(jù)集和DukeMTMC-ReID數(shù)據(jù)集上Rank-1 精度和mAP 分別提升至94.15%、85.44%、85.91%和74.52%。由于判別模型是由主要特征的學習和細粒度特征的學習聯(lián)合作用進行判別,故最終識別結果為在Market1501 數(shù)據(jù)集上Rank-1 精度和 mAP 分 別 提 升 至 94.74% 和 86.39%,在DukeMTMC-ReID 數(shù)據(jù)集上Rank-1 精度和mAP 分別提升至86.49%和75.01%。
表1 消融實驗Table 1 Ablation study
為驗證深度注意力模塊的有效性,對加入注意力機制的不同階段進行可視化對比,如圖4 所示。
圖4(a)為原始輸入圖像;圖4(b)為基準網(wǎng)絡可視化結果,此時該網(wǎng)絡所關注的重心僅在其右側,關注重點較少;圖4(c)在基準網(wǎng)絡的基礎上加入雙重注意力機制,網(wǎng)絡關注的重心有所擴大,可以看出注意力模塊增加網(wǎng)絡所關注的重點;圖4(d)為基準網(wǎng)絡結合深度雙重注意力機制,此時網(wǎng)絡關注的重心聚焦在具有明顯區(qū)分行人信息的上半身,證明注意力連接網(wǎng)絡將各模塊間的注意力特征融合,避免了信息傳遞過程中頻繁變動的問題,確保關注重點不變的情況下增加關注范圍;圖4(e)為深度雙重注意力機制結合教師模型輔助學生模型所學的主要特征信息,此時網(wǎng)絡關注的重點范圍有所延伸。由此可知,深度雙重注意力模塊可以使教師模型準確且全面地學習主要身份特征,提高模型的識別精度。
圖4 注意力機制不同階段可視化對比結果(a) 輸入圖像;(b) 基準網(wǎng)絡;(c) 加入雙重注意力機制;(d) 加入深度雙重注意力機制;(e) 教師模型輔助學生模型Fig.4 Visual contrast results of different stages of attention mechanism.(a) Input image;(b) Baseline;(c) Add dual attention mechanism;(d) Add the deep dual attention mechanism;(e) Teacher model aided student model
為驗證本文算法的優(yōu)越性,將本文算法與近年來相關算法在兩個數(shù)據(jù)集 Market1501 和DukeMTMC-ReID 上進行對比,如表2 所示。相關算法如下文。
表2 與主流行人重識別方法精度對比Table 2 Accuracy comparison with the main popular re-identification method
1) 注意力相關算法:注意力感知組成網(wǎng)絡(attention-aware compositional network,AACN)、協(xié)調注意力網(wǎng)絡(harmonious attention network,HA-CNN)、局部注意力網(wǎng)絡(a part-based attention network,PBAN)。
2) 未采用生成數(shù)據(jù)進行訓練的方法:用于行人檢索的全局局部對齊描述符(global-local-alignment descriptor for pedestrian retrieval,GLAD)、基于遮擋行人的姿勢引導的特征對齊(pose-guided feature alignment for occluded person re-identification,PGFA)。感知重點:學習殘缺行人的可視化局部特征(perceive where to focus:learning visibility-aware part-level features for partial person re-identification,VPM)、學習判別性的深度特征(learning discriminative deep features for person re-identification,Deep-Person)、基于相機批量歸一化的行人分布差距的再思考(rethinking the distribution gap of person re-identification with camera-based batch normalization,CBN)等。
3) 數(shù)據(jù)生成和判別相對獨立的方法:姿態(tài)歸一化的圖像生成(pose-normalized image generative for person re-identification,PN-GAN)、基于魯棒行人的姿態(tài)引導的特征提取的生成對抗網(wǎng)絡(pose-guided feature distilling gan for robust person re-identification,FD-GAN)等。由表中數(shù)據(jù)可知,本文提出的方法相較于其他主流方法性能明顯提高。
相較于關注部分注意力的AACN 和關注像素的軟注意力特征和硬注意力特征的HA-CNN,PBAN 利用注意機制來緩解錯位問題,并利用全局-局部特征的互補效應,穩(wěn)定地描述行人特征,在兩個數(shù)據(jù)集上精度有效地提高,但PBAN 無法充分地將注意力模塊間信息相互傳遞。在本方法中,通過注意力連接網(wǎng)絡分別將通道注意力模塊相互連接和空間注意力模塊相互連接,使模型中所有的注意力模塊聯(lián)合訓練,提高注意力模塊的學習能力。
相較于經(jīng)典的GLAD,PGFA 使用關鍵點信息解決行人遮擋的問題,CBN 解決了相機之間差異問題造成識別精度低的問題,Deep-person 考慮不同部件之間的上下文信息和空間信息,VPM 解決了行人局部識別所造成的空間不對齊的現(xiàn)象,但以上方法無充足的樣本量。在本方法中,采用生成的數(shù)據(jù)進行訓練模型,擴充數(shù)據(jù)樣本,提高模型性能。
相較于針對重識別中的姿態(tài)歸一化而設計的PN-GAN,F(xiàn)D-GAN 解決了姿態(tài)變化的問題,但此方法采用的生成數(shù)據(jù)和判別是相對獨立的兩個階段,無法將生成的圖像及時用做訓練樣本。在本方法中,采用生成數(shù)據(jù)和判別聯(lián)合學習的網(wǎng)絡,使生成模塊和判別模塊采用對抗原理相互優(yōu)化,提高模型的識別能力。
為進一步驗證算法的實時性,將該算法與相關算法的在數(shù)據(jù)集Market1501 中進行測試對比,如表3 所示。
由表3 可知,所提算法識別速度優(yōu)于GLAD 和CBN,但略差于PGFA,以運行速度換取精度。由于在實時監(jiān)控系統(tǒng)中,圖像檢索庫也在實時增加,在匹配時考慮新增行人即可,本文匹配單張圖像所耗費時間為0.0162 s,足以滿足實時監(jiān)控的條件。
表3 算法測試時間對比結果Table 3 Comparative results of test time of different methods
本文提出的深度雙重注意力的生成與判別聯(lián)合學習的行人重識別,通過聯(lián)合框架將生成模塊與判別模塊聯(lián)合統(tǒng)一,將生成數(shù)據(jù)在線反饋給判別模塊,同時優(yōu)化生成模塊與判別模塊,充分利用生成數(shù)據(jù)。通過引入深度雙重注意力模塊,使得注意力塊之間的信息相互流動,強化注意力塊獲取通道和空間位置信息的能力,提高教師模型的教學能力,幫助學生模型學習較深層次的特征,結合細粒度特征之后達到最優(yōu)性能。通過在Market1501 和DukeMTMC-ReID 兩個數(shù)據(jù)集上的實驗驗證本文提出的方法有效性,相較于其他主流算法有較大地精度提升。