孫志琳,張麗紅
(山西大學 物理電子工程學院,山西 太原 030006)
行人再識別是指解決跨場景的行人圖像匹配問題,行人再識別作為智能視頻分析的一個新課題,在計算機視覺領域受到了廣泛關注,但目前該問題所遇到的挑戰(zhàn)主要來自光照、背景、行人姿態(tài)等變化造成的影響和訓練好的模型在實際應用中性能急劇下降等問題. 因此,行人再識別仍是一個具有挑戰(zhàn)性的課題.
目前行人再識別的主要研究方法有3類:特征提取、度量學習及遷移學習. 基于特征提取的方法是手動設計并提取更加具有魯棒性的鑒別特征對行人進行表示,常用特征有線特征、顏色特征、紋理特征等,其計算簡單、針對性強,卻容易受光照、視角變化等因素影響[1]. 步態(tài)等動態(tài)特征及發(fā)型、衣服顏色等高級屬性特征也可用于行人再識別,且有較好魯棒性,但獲取復雜且需人工標注[2]. 基于度量學習的方法通過學習一個有判別力的距離度量函數(shù),使得同一個人的圖像間距離小于不同行人圖像間的距離. 度量學習方法中有通過學習半正定矩陣參數(shù)化的馬氏距離函數(shù)來分辨行人圖像對的[3],也有通過學習低位投影將行人再識別問題重新定義為子空間學習問題的[4]. 基于遷移學習的方法是將帶標簽的行人圖像風格遷移到無標簽的測試數(shù)據(jù)域上并用其訓練模型. Isola提出由條件對抗網(wǎng)絡學習從輸入圖像到輸出圖像的映射函數(shù),但這一方法需要很難獲得的成對訓練數(shù)據(jù)[5]. 為了解決無配對數(shù)據(jù)的圖像-圖像轉換問題,Zhu等人提出用循環(huán)一致?lián)p失來訓練無配對的圖像數(shù)據(jù)[6].
由于數(shù)據(jù)集之間的領域差距普遍存在,從本質上導致在不同的數(shù)據(jù)集上進行訓練和測試時性能嚴重下降,使得現(xiàn)有訓練數(shù)據(jù)不能有效用于新的測試域. 當前行人再識別的度量算法在計算相似性時主要依據(jù)兩幅圖像自身的判別信息,較少依據(jù)與兩幅圖像相關的其它圖像的判別信息(間接度量). 為了減少標注新訓練樣本的昂貴成本且增強相似判別的準確性,本文采用遷移學習和度量融合的方法.
行人重識別的不同數(shù)據(jù)集中沒有同一個人的圖像. 因此,風格遷移可以被看做是一個無配對的圖像到圖像的遷移任務. 因為循環(huán)對抗生成網(wǎng)絡(Cycle Generative Adversarial Networks, CycleGAN)在無配對的圖像到圖像的遷移任務中有很好的性能,我們應用CycleGAN去學習數(shù)據(jù)集A和數(shù)據(jù)集B之間的映射函數(shù)[7,8]. 一個普通的GAN只有一個生成器和一個判別器,結構分別如圖 1,圖 2 所示,而CycleGAN分別有兩個生成器和判別器[9,10]. 一個生成器將A域的圖片轉換成B域風格的圖片,用G表示,而另一個生成器做相反的事情,用F表示; 兩個判別器DA和DB分別判斷各自域中圖片的真假.
圖 1 生成器結構圖Fig.1 Generator network structure
圖 2 判別器結構圖Fig.2 Discriminator network structure
假設G為數(shù)據(jù)集A到數(shù)據(jù)集B的風格映射函數(shù),F(xiàn)為數(shù)據(jù)集B到數(shù)據(jù)集A的風格映射函數(shù).A中圖像風格遷移到B后應與B中圖像風格一致,逆向也如此,如圖 3 所示.A中圖像經(jīng)G風格遷移到B后再經(jīng)F回到A時應與最初盡量保持一致,反向相同,如圖 4 所示.
圖 3 CycleGAN結構圖Fig.3 Architecture of CycleGAN mode
圖 4 循環(huán)一致?lián)p失示意圖Fig.4 Cycle-consistency loss
風格遷移學習的目標函數(shù)為
Lstyle=LGAN(G,DB,A,B)+
LGAN(F,DA,B,A)+λLcyc(G,F),(1)
式中:LGAN為標準的對抗損失;Lcyc為循環(huán)一致?lián)p失;
LGAN(G,DB,A,B)=Eb~B[(DB(b)-1)2]+
Ea~A[DA(G(a))2];(2)
LGAN(F,DA,B,A)=Ea~A[(DA(a)-1)2]+
Eb~B[DB(F(b))2];(3)
Lcyc(G,F)=Ea~A[‖F(xiàn)(G(a))-a‖1]+
Eb~B[‖G(F(b))-b‖1],(4)
式(2)~式(4)中:a,b分別為數(shù)據(jù)集A,B中的圖像;Ea~A[·],Eb~B[·]分別表示[·]在數(shù)據(jù)集A,B分布下的期望.
不但要保證來自源域的圖像風格遷移到目標域之后風格要和目標域的圖像風格一致,還要確保圖像遷移前后它本身的身份信息不變. 因此除對抗損失和循環(huán)一致?lián)p失外,還需加入身份信息約束條件來確保圖像風格遷移前后行人身份信息保持不變,身份損失的目標函數(shù)為
LID(G,F,A,B)=Ea~A‖F(xiàn)(a)-a‖1+
Eb~B‖G(b)-b‖1.(5)
直接度量是利用圖像自身特征信息來度量查詢圖像與候選圖像的相似性,間接度量則是利用與圖像對相關的其它判別信息度量相似性,可減少發(fā)生在表觀特征較相似的不同行人身上的誤匹配情況. 為吸取兩者優(yōu)勢,將直接度量和間接度量結合使用.
直接用圖像特征之間的歐式距離計算圖像a與圖像b之間的相似度,公式為
d(a,b)=‖a-b‖2,(6)
Ld=d(a,b)2.(7)
圖像最近鄰判別信息可作為圖像相似性間接度量的重要依據(jù)[11,12]. 近鄰集中具有重合樣本的兩幅圖像相似,且重合樣本數(shù)越多兩幅圖像越相似[13,14]. 因此,可通過近鄰集合的相似性間接計算兩幅圖像相似性,并利用Jaccard系數(shù)來描述兩個集合的相似性,如式(8)所示.
(8)
式中:H(a,k),H(b,k)分別為圖像a,b的k近鄰集合; |·|為集合中元素的數(shù)量.
圖 5 k最近鄰 Fig.5 k-nearest neighbor
圖 6 k相互近鄰Fig.6 k-close neighbors
在圖像的k最近鄰集中仍存在少數(shù)與查詢圖像相似性極高的負樣本,為了進一步提高間接度量的準確性,采用k相互近鄰[15]間接度量圖像對的相似性. 若圖像a和圖像b同時在對方的k最近鄰中,則稱其互為對方的k相互近鄰. 圖像a的k相互近鄰如式(9)所示.
I(a,k)={b∈H(a,k),a∈H(b,k)}.(9)
正樣本與查詢樣本互為k相互近鄰的概率應大于負樣本與查詢樣本互為k相互近鄰的概率,用k相互近鄰的信息度量圖像的相似性,可減少負樣本匹配度高的情況. 基于圖像對k相互近鄰的相似性為
(10)
度量融合的相似度損失函數(shù)為
Lsim=Ld+μLi=d(a,b)2-μs*(a,b).(11)
式中:Ld為直接度量;Li為間接度量.
圖 7 為基于風格遷移和度量融合的行人再識別結構. 整個框架的工作流程包括:
1) 將源域的行人圖像輸入到CycleGAN中,結合行人身份約束信息,訓練得到最優(yōu)的生成器和判別器,并輸出風格遷移到目標域上的行人圖像.
2) 在風格遷移后的圖像數(shù)據(jù)集上進行特征學習,并使用度量融合的方式評估圖像對的相似性,最后得到合適的Re-ID模型.
3) 將未標簽的目標域內的圖像輸入已得到的Re-ID模型中,并將候選庫中的相關圖像按相似度由高到低排列輸出.
圖 7 基于風格遷移和度量融合的Re-ID整體結構Fig.7 Framework of Re-ID based on style transfer and metric fusion
實驗共用了3個數(shù)據(jù)集:Market1501,CUHK03及DukeMTMC-reID. Market-1501數(shù)據(jù)集包含1 501位行人和32 668張行人圖像. 其中751位行人的12 936張圖像被用于訓練,其余750位行人的19 732張圖像被包括在測試集中; CUHK03數(shù)據(jù)集由1 467位行人的28 192張圖像組成,選取1 367位行人對應的26 264張圖像用于訓練,其余100位行人1 928張圖像用于測試; DukeMTMC-reID數(shù)據(jù)集包含1 812位行人的36 411張行人圖像. 其中702位行人的16 522張圖像被用于訓練,其余的都包含在測試集中. 在Market1501和DukeMTMC-reID數(shù)據(jù)集上測試時k均取值為20.
實驗結果用累積匹配特性(Cumulative Match Characteristic,CMC)曲線進行度量,rank-r識別率就是表示按照某種相似度匹配規(guī)則匹配并排序后,正確的目標行人排名在前r的比例. 由于行人再識別可看成一個圖像檢索問題,故引入mAP(mean Average Precision)對結果進行評價. mAP對所有類別的AP取均值,能夠更好地反映全局性能.
行人圖像的風格遷移效果如圖 8、圖 9 所示. 圖8中第一行為Market數(shù)據(jù)集中的原始行人圖像,第二行為風格遷移到Duke數(shù)據(jù)集后的行人圖像. 圖9中第一行為來自CUHK03數(shù)據(jù)集的圖像,第二行為風格遷移到Market數(shù)據(jù)集后的圖像.
圖 8 Market數(shù)據(jù)集原始圖像與風格遷移到Duke數(shù)據(jù)集后圖像Fig.8 Market-Duke
圖 9 CUHK03數(shù)據(jù)集原始圖像與風格遷移到Market數(shù)據(jù)集后圖像Fig.9 CUHK03-Market
表 1 給出了在不同數(shù)據(jù)集上訓練,在Market1501數(shù)據(jù)集上測試的行人再識別性能比較. CUHK03Mar指將CUHK03數(shù)據(jù)集風格遷移到Market上,對比前兩行可知:跨數(shù)據(jù)集進行測試時,行人再識別精確度嚴重下降. 當采用CycleGAN進行風格遷移后,再識別準確率有顯著提高,rank-1匹配率由43.1上升到48.1,mAP由17.0上升到19.6. 再引入身份約束條件后,rank-1匹配率又提高了0.5,mAP提高了0.3.
表 1 在Market上測試的re-ID性能對比
表 2 給出了采用不同的度量方法得到的行人再識別的匹配率對比. 明顯可見:直接度量與間接度量相融合的方式比單一度量方式有更準確的匹配率. rank-1匹配率分別上升了2.2,4.6,mAP分別提高了2.0,1.1.
表 2 在Market上測試不同度量方式的性能對比
表 3 給出了在不同數(shù)據(jù)集上訓練,在DukeMTMC-reID數(shù)據(jù)集上測試的行人再識別性能比較. 對比第一行和第二行可知:跨數(shù)據(jù)集進行測試時,行人再識別精確度嚴重下降. 當采用CycleGAN進行風格遷移后,再識別準確率有顯著提高,rank-1匹配率由33.1上升到38.1,mAP由16.7上升到19.6. 再引入身份約束條件后,rank-1匹配率又提高了0.4,mAP提高了0.3.
表 3 在Duke上測試的re-ID性能對比
本文利用CycleGAN將源數(shù)據(jù)集中帶標簽的圖像風格遷移到目標數(shù)據(jù)集上,然后在風格遷移后的數(shù)據(jù)圖像集上采用直接與間接相融合的度量方式進行訓練,最后,使用目標數(shù)據(jù)集上未帶標簽的行人圖像作為查詢圖像,找出候選庫中與其相似的行人圖像. 實驗結果表明:在Market1501和DukeMTMC-reID數(shù)據(jù)集上測試,采用CycleGAN風格遷移均可明顯提高跨數(shù)據(jù)集的行人再識別準確率; 相似度度量時度量融合的方式比單一的直接度量有更好的精確度,且可以有效避免誤匹配的概率.