張紅穎,包雯靜
1.中國民航大學(xué)天津市智能信號與圖像處理重點實驗室,天津 300300;2.中國民航大學(xué)電子信息與自動化學(xué)院,天津 300300
步態(tài)識別是通過人走路的姿勢進行身份識別。與人臉、指紋或虹膜等其他生物特征相比,步態(tài)的優(yōu)勢在于無需受試者的配合即可進行遠距離身份識別(支雙雙 等,2019)。因此,步態(tài)識別在視頻監(jiān)控、刑事偵查和醫(yī)療診斷等領(lǐng)域具有廣泛的應(yīng)用前景。然而,步態(tài)識別易受衣著、攜帶物和視角等因素的影響,提取的步態(tài)特征呈現(xiàn)很強的類內(nèi)變化(王科俊 等,2019),其中視角變化從整體上改變步態(tài)特征,從而導(dǎo)致跨視角識別性能明顯下降。
針對跨視角步態(tài)識別問題,提出了許多先進方法,這些方法通常分為基于模型的方法和基于外觀的方法兩類。其中,基于外觀的方法可以更好地處理低分辨圖像并且計算成本低,表現(xiàn)出很大優(yōu)勢。Makihara等人(2006)提出以步態(tài)能量圖(gait energy image,GEI)(Han和Bhanu,2006)為步態(tài)模板的視角轉(zhuǎn)換模型(view transformation model,VTM),利用奇異值分解來計算GEI的投影矩陣和視角不變特征。Hu等人(2013)提出視角無關(guān)判別投影(view-invariant discriminative projection,ViDP)方法,在無需知道視角情況下使用線性變換將步態(tài)模板投影到特征子空間中,但在視角變化大時識別率較低。近年來,深度學(xué)習(xí)應(yīng)用于解決步態(tài)識別問題已成為主流方向。Wu等人(2017)提出基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的方法從任意視角中自動識別具有判別性的步態(tài)特征,在跨視角和多狀態(tài)識別中效果顯著。Shiraga等人(2016)提出基于CNN框架的GEINet應(yīng)用于大型步態(tài)數(shù)據(jù)集,將GEI作為模型輸入,其在視角變化范圍較小時有較好表現(xiàn)?;贑NN提取視角不變特征進行跨視角步態(tài)識別方法表現(xiàn)出卓越的性能,但CNN是一個黑盒模型,缺乏視角變化的可解釋性。生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)(Goodfellow等,2014)對數(shù)據(jù)分布建模具有強大性能,在人臉旋轉(zhuǎn)(Tran等,2017)和風(fēng)格轉(zhuǎn)換(Zhu等,2017)等應(yīng)用中取得顯著效果。目前,基于GAN的方法重構(gòu)目標(biāo)視角的身份特征進行步態(tài)識別,可提供良好的可視化效果。Yu等人(2017a)提出步態(tài)生成對抗網(wǎng)絡(luò)(gait generative adversarial network,GaitGAN),將不同視角的步態(tài)模板標(biāo)準(zhǔn)化為側(cè)面視角的步態(tài)模板進行匹配。He等人(2019)提出多任務(wù)生成對抗網(wǎng)絡(luò)(multi-task generative adversarial network,MGAN)用于學(xué)習(xí)特定視角的步態(tài)特征表示。Wang等人(2019)提出雙通道生成對抗網(wǎng)絡(luò)(two-stream generative adversarial network,TS-GAN)進行步態(tài)模板的視角轉(zhuǎn)換以學(xué)習(xí)標(biāo)準(zhǔn)視角的步態(tài)特征。盡管目前基于GAN的步態(tài)識別方法通過合成圖像提供了良好的可視化效果,但這些方法只能進行特定視角的步態(tài)轉(zhuǎn)換,誤差隨視角跨度增大而不斷累積,而且在視角轉(zhuǎn)換過程中未能充分利用特征間的全局依賴關(guān)系進行建模,生成圖像的細節(jié)信息仍然不夠清晰。而自注意力機制能更好地建立像素點遠近距離依賴關(guān)系并且在計算效率上表現(xiàn)出良好性能,在圖像生成(Zhang等,2018)和圖像超分辨率重建(歐陽寧 等,2019)上有較好表現(xiàn)。
為了實現(xiàn)任意視角間的步態(tài)模板轉(zhuǎn)換并提升生成圖像的質(zhì)量,本文提出融合自注意力機制的生成對抗網(wǎng)絡(luò)的跨視角步態(tài)識別方法。通過設(shè)計帶有自注意力機制的生成器和判別器網(wǎng)絡(luò),學(xué)習(xí)更多全局特征的相關(guān)性,進而提高生成圖像的質(zhì)量并增強提取特征的區(qū)分度,同時在網(wǎng)絡(luò)結(jié)構(gòu)中引入譜規(guī)范化,提高訓(xùn)練過程的穩(wěn)定性。本文網(wǎng)絡(luò)框架由生成器G、視角判別器D和身份保持器Φ構(gòu)成,采用計算簡單且有效的步態(tài)能量圖作為步態(tài)模板,從而更好地實現(xiàn)跨視角步態(tài)識別。生成網(wǎng)絡(luò)中使用具有編碼器—解碼器結(jié)構(gòu)的生成器G以學(xué)習(xí)不同視角步態(tài)模板間的潛在關(guān)系,引入像素級損失以生成更準(zhǔn)確的目標(biāo)視角步態(tài)模板;在判別網(wǎng)絡(luò)中使用兩個獨立判別器D和Φ,在視角轉(zhuǎn)換的同時保留身份信息,并引入視角分類損失和身份保留損失來保持步態(tài)結(jié)構(gòu)信息和身份特征,使生成的步態(tài)模板更加逼真并具有判別力。
圖1 網(wǎng)絡(luò)模型整體框架Fig.1 The framework of network
在訓(xùn)練網(wǎng)絡(luò)時,利用對抗損失來約束生成器和判別器,目標(biāo)函數(shù)為
(1)
圖2 生成器網(wǎng)絡(luò)Fig.2 Generator
生成器網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)置如表1所示,對于下采樣區(qū)Genc,在每個卷積層后均使用批標(biāo)準(zhǔn)化(batch normalization,BN)和ReLU激活函數(shù);對于上采樣區(qū)Gdec,除了輸出層使用Tanh激活函數(shù)外,在每個反卷積層后均使用譜規(guī)范化(spectral normalization,SN)(Miyato等,2018)、BN和ReLU激活函數(shù)。
表1 生成器網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)置Table 1 The parameter setting of generator
(2)
本文構(gòu)建了兩個判別器:視角判別器D和身份保持器Φ,從而對真實的步態(tài)圖像和生成器生成的步態(tài)圖像進行區(qū)分,并在視角轉(zhuǎn)換過程中保持身份特征。
1.3.1 視角判別器
表2 視角判別器網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)置Table 2 The parameter setting of view classifier
(3)
式中,Dcls(xi)是輸入目標(biāo)視角中真實的步態(tài)模板x在視角域的概率分布。優(yōu)化G時,輸入生成的步態(tài)模板及相應(yīng)的視角指示器,目標(biāo)函數(shù)為
(4)
通過最小化該目標(biāo)函數(shù),生成器G試圖合成可以分類到視角指示器v指定視角的步態(tài)模板。
1.3.2 身份保持器
傳統(tǒng)的GAN模型生成的樣本缺乏多樣性,生成器會在某種情況下重復(fù)生成完全一致的圖像,而對于跨視角步態(tài)識別任務(wù),在步態(tài)模板視角轉(zhuǎn)換過程中保持身份信息是至關(guān)重要的。因此,在本文模型中引入身份保持器Φ,縮減目標(biāo)視角與生成視角的步態(tài)模板間差距,進而保持身份信息。身份保持器Φ基于GaitGAN中的身份判別器DA的結(jié)構(gòu),與視角判別器D類似,引入譜規(guī)范化來增加模型的穩(wěn)定性。如圖3所示,身份保持器Φ以(xanc,xpos,xneg)3個圖像作為輸入,輸出xanc相關(guān)性標(biāo)簽 。
圖3 身份保持器網(wǎng)絡(luò)Fig.3 Identity preserving discriminator
為了使生成的步態(tài)模板更好地保持身份信息,本文引入困難樣本三元組Tri-Hard損失(Hermans等,2017)作為身份保留損失來增強生成圖像的可判別性。以(xanc,xpos,xneg)3個圖像作為輸入,最小化如下身份保持損失
(5)
式中,xanc和xpos是正樣本對,它們的身份標(biāo)簽相同,xpos所屬的圖片集為A;xanc和xneg是負樣本對,它們的身份標(biāo)簽不同,xneg所屬的圖片集為B。困難樣本三元組指對于每一個訓(xùn)練batch,隨機挑選P個不同身份的行人,每個行人隨機選K幅不同的圖像,對于訓(xùn)練批次中每一個xanc,選取類內(nèi)距離最遠的樣本作為xpos,在訓(xùn)練批次內(nèi)所有負樣本中選取距離最近的作為xneg。d(·,·)表示兩個輸入元素的歐氏距離,而δ≥0表示三元組損失的邊界。在實驗中根據(jù)經(jīng)驗將δ設(shè)為0.2。通過使Tri-Hard損失最小化,d(xanc,xpos)趨于0,而d(xanc,xneg)以一定的邊界距離大于d(xanc,xpos)。當(dāng)損失變?yōu)?時,不會向后傳播梯度。
雖然基于GAN的步態(tài)識別方法可實現(xiàn)步態(tài)模板的視角轉(zhuǎn)換,但在視角轉(zhuǎn)換過程中未能有效捕獲特征間的全局依賴關(guān)系,生成圖像的細節(jié)信息不夠清晰,而且會伴隨模糊的偽影。這是由于卷積核大小受限,無法在有限的網(wǎng)絡(luò)層次結(jié)構(gòu)中直接獲取圖像所有位置特征間的關(guān)聯(lián)關(guān)系;而自注意力機制可以更好地處理圖像中長范圍、多層次的依賴關(guān)系,有助于增強步態(tài)特征的表達能力,提高步態(tài)識別的性能。因此,本文將自注意力機制(Zhang等,2018)引入到生成器和判別器網(wǎng)絡(luò)中,在生成器的上采樣區(qū)引入自注意力模塊能更好地整合全局和局部的空間信息,提高生成圖像的協(xié)調(diào)性和質(zhì)量;在判別器引入自注意力模塊可以更準(zhǔn)確地將真實圖像和生成圖像進行區(qū)分。
如圖2所示,自注意力模塊將前一層提取的特征圖x∈RC×N分別送入兩個卷積核為1、輸出通道數(shù)是C/8的特征空間f(x),g(x)和卷積核為1、輸出通道數(shù)為C的特征空間h(x),其中f(x)=Wfx,g(x)=Wgx,h(x)=Whx,式中,Wf、Wg、Wh分別為特征空間f(x)、g(x)、h(x)對應(yīng)的權(quán)重矩陣,且Wf∈RC/8×N,Wg∈RC/8×N,Wh∈RC×N。通過對f(x)和g(x)進行張量相乘來計算兩個特征空間相似度sij,再使用softmax函數(shù)進行歸一化,得到第j個區(qū)域?qū)Φ趇個位置所占權(quán)重的注意力圖βj,i,具體為
(6)
隨后,將特征圖x經(jīng)過特征空間h(x),再與βj,i構(gòu)成的注意力權(quán)重矩陣相乘,注意力層的輸出為
(7)
式中,oi為注意力層的輸出,h(xi)為輸入信息x與權(quán)重矩陣Wh∈RC×N的乘積。
最后,將注意力層的輸出與比例系數(shù)γ相乘,并添加回輸入特征圖x,最終輸出為
yi=γoi+xi
(8)
式中,γ是初始值為0的比例系數(shù),yi表示最終的輸出。輸出的注意力特征圖會進入下一個網(wǎng)絡(luò)中繼續(xù)特征提取與學(xué)習(xí)的過程。隨著網(wǎng)絡(luò)訓(xùn)練的進行,注意力特征圖逐漸為非局部區(qū)域分配更多的權(quán)重。
本文采用Goodfellow等人(2014)提出的交替迭代訓(xùn)練的策略,當(dāng)更新一方的參數(shù)時,另一方的參數(shù)固定住不更新。網(wǎng)絡(luò)的訓(xùn)練過程如下:
輸入:訓(xùn)練集X。
輸出:網(wǎng)絡(luò)D,G,Φ。
1)判別過程:
(2)視角判別器D網(wǎng)絡(luò)輸出圖像真/偽標(biāo)簽并分類到相應(yīng)的視角域,計算LD;
2)生成過程:
(2)對目標(biāo)視角以等概率來隨機采樣目標(biāo)視角指示器v;
(4)視角判別器D網(wǎng)絡(luò)輸出圖像真/偽標(biāo)簽并分類到相應(yīng)的視角域,計算LD;
(6)反向傳遞損失至G網(wǎng)絡(luò)并計算Lpixel;
3)重復(fù)步驟1)和2),直至網(wǎng)絡(luò)收斂。
本文的目標(biāo)是將步態(tài)模板從驗證集中的任意視角轉(zhuǎn)換至注冊集中的目標(biāo)視角,同時保留身份信息。為了實現(xiàn)這個目標(biāo),聯(lián)合上述損失函數(shù)協(xié)同訓(xùn)練,總體目標(biāo)函數(shù)為
(9)
式中,λt,t∈{1,2,3,4}是超參數(shù),用來平衡不同的損失。隨著模型訓(xùn)練次數(shù)增加,視角判別器區(qū)分真/偽和視角分類性能越來越強,身份保持器更準(zhǔn)確地保留輸入步態(tài)圖像的身份標(biāo)簽,而生成器更好地生成具有目標(biāo)視角并保持身份信息的步態(tài)圖像。整個訓(xùn)練過程得益于4個方面:1)Genc學(xué)習(xí)輸入步態(tài)圖像的特征表示f(x),將保留更多具有鑒別性的身份信息;2)D中視角分類可引導(dǎo)步態(tài)圖像的視角轉(zhuǎn)換更加準(zhǔn)確;3)視角指示器和身份特征連接向量作為Gdec的輸入,可引導(dǎo)生成器生成不同視角的步態(tài)圖像;4)引入自注意力機制,提高了生成圖像的協(xié)調(diào)性和質(zhì)量。
3.1.1 公共數(shù)據(jù)集
CASIA-B(Chinese Academy of Sciences’Institute of Automation gait database——dataset B)步態(tài)數(shù)據(jù)集(Yu等,2006)是廣泛用于評估跨視角步態(tài)識別效果的公共數(shù)據(jù)集,包含124人、3種行走狀態(tài)和11個不同視角(0°,18°,…,180°)。每個人在正常狀態(tài)下有6個序列(NM #01—06),穿著外套狀態(tài)下有2個序列(CL#01—02),攜帶背包狀態(tài)下有2個序列(BG#01—02),所以,每個人有11×(6+2+2)=110個序列。
OU-MVLP(multi-view large population dataset)步態(tài)數(shù)據(jù)集(Takemura等,2018)是迄今為止世界上最大的跨視角步態(tài)數(shù)據(jù)庫,包含10 307人、14個不同視角(0°,15°,…,90°;180°,195°,…,270°)以及每個角度有2個序列(#00—01),步行狀態(tài)沒有變化。官方將數(shù)據(jù)庫分為5 153人的訓(xùn)練集和5 154人的測試集。在測試階段,序列#01作為注冊集,序列#00作為測試集。
3.1.2 幀移式合成GEI數(shù)據(jù)集
本文方法是基于CNN實現(xiàn)的GAN網(wǎng)絡(luò),其性能在一定程度上取決于訓(xùn)練樣本的數(shù)據(jù)規(guī)模??紤]到CASIA-B數(shù)據(jù)量較少,而OU-MVLP數(shù)據(jù)量大,因此通過對CASIA-B的GEI數(shù)據(jù)集進行數(shù)據(jù)增強來評估對步態(tài)識別準(zhǔn)確率的影響。
本文采用幀移式方法來增加合成GEI的數(shù)量,幀移式生成GEI的原理如圖4所示。輸入步態(tài)序列為N幀,根據(jù)輪廓的寬高比,得到步態(tài)周期為k幀(k≤N),首先將前k幀的步態(tài)序列圖合成一幅GEI,再以i幀間隔抽取第i幀到第i+k幀的步態(tài)序列圖合成下一幅GEI,以此類推,直至c×i+k為N,則合成完該序列所有GEI,本文設(shè)置i為2。大多學(xué)者是將所有周期內(nèi)的輪廓圖合成最終一幅GEI,數(shù)據(jù)量略顯不足。本文利用步態(tài)序列的前后循環(huán)性和連貫性,將步態(tài)序列按照周期幀移方式合成更多GEI。
圖4 幀移式生成GEI的原理圖Fig.4 Schematic diagram of frame-shift generation of GEI
3.2.1 評價指標(biāo)
(10)
然后根據(jù)歐氏距離搜尋注冊集中距離最近的步態(tài)特征,從而判斷是否具有相同身份。
3.2.2 實驗設(shè)置
實驗基于深度學(xué)習(xí)框架Pytorch在顯卡為NVIDA RTX2080Ti×2的Dell工作站上進行訓(xùn)練。本文在CASIA-B數(shù)據(jù)集的實驗設(shè)置是將數(shù)據(jù)集均勻劃分為兩組,前62人用于訓(xùn)練,后62人用于測試。網(wǎng)絡(luò)輸入和輸出的GEI尺寸設(shè)置為64 × 64像素,批量大小batch_size設(shè)為64??紤]到CASIA-B數(shù)據(jù)集訓(xùn)練人數(shù)較少,使用GEI數(shù)據(jù)增強進行實驗。在OU-MVLP數(shù)據(jù)集的設(shè)置與官方(Takemura等,2018)一致,由于OU-MVLP中GEI數(shù)據(jù)量遠超CASIA-B,故將batch_size設(shè)為32。
如第2節(jié)所述,本文采用交替訓(xùn)練G、D和Φ網(wǎng)絡(luò)的方式。由于判別器的學(xué)習(xí)能力強于生成器,為了保持兩者同步,當(dāng)判別器D和Φ訓(xùn)練5次后,對生成器G更新1次。在訓(xùn)練過程中,所有網(wǎng)絡(luò)模型的權(quán)重通過均值為0、方差為0.02的高斯分布進行隨機初始化。采用Adam優(yōu)化器更新網(wǎng)絡(luò)參數(shù),β1=0.5,β2=0.999,生成器和判別器網(wǎng)絡(luò)分別采用0.000 1和0.000 4的初始化學(xué)習(xí)率進行單獨訓(xùn)練。對于CASIA-B數(shù)據(jù)集,本文訓(xùn)練模型40 K迭代次數(shù),前20 K迭代時學(xué)習(xí)率保持不變,剩下20 K輪迭代采用step策略,每5 K輪迭代學(xué)習(xí)率下降為原來的10%,直至衰減為0。對于OU-MVLP數(shù)據(jù)集,本文訓(xùn)練模型200 K,前150 K迭代時學(xué)習(xí)率保持不變,剩下50 K輪迭代,每10 K輪迭代學(xué)習(xí)率變?yōu)樵瓉淼?0%。在本文實驗中,憑經(jīng)驗設(shè)置式(9)中的權(quán)重系數(shù),λ1=λ2=1、λ3=λ4=10。
3.3.1 消融實驗
為探究自注意力模塊在網(wǎng)絡(luò)中所處位置對識別性能的影響,本文將自注意力模塊添加到生成器的不同位置,并在CASIA-B數(shù)據(jù)集進行對比實驗,如表3所示??梢钥闯?,自注意力模塊添加到解碼器第2層反卷積之后位置識別效果更好,而位置靠前、靠后或添加到編碼器的識別效果均不理想。當(dāng)添加位置較靠前時,采集到的信息較粗糙,噪聲較大;而當(dāng)對較小的特征圖建立依賴關(guān)系時,其作用與局部卷積作用相似。因此在特征圖較大情況下,自注意力能捕獲更多的信息,選擇區(qū)域的自由度也更大,從而使生成器和判別器能建立更穩(wěn)定的依賴關(guān)系。自注意力模塊需在中高層特征圖之間使用,所以本文將自注意力機制添加到解碼器第2層反卷積后的特征圖上。而同時在編碼器中加入自注意力模塊會導(dǎo)致部分生成的步態(tài)模板信息丟失,所以沒有單獨在解碼器中加入自注意力模塊的效果好。此外,通過對比生成器中添加自注意力模塊與未使用自注意力模塊的實驗結(jié)果,前者識別率較高,進一步驗證了自注意力模塊的有效性。
表3 自注意力模塊處于生成器不同位置對識別率的影響Table 3 The effect of different position of the generator of self-attention module on recognition performance /%
通過上述實驗,自注意力模塊對步態(tài)模板生成具有較好的識別效果,為進一步提高生成圖像的判別能力,在身份保持器中融合身份保留損失,為驗證其對步態(tài)識別效果的影響,在CASIA-B數(shù)據(jù)集進行消融實驗。實驗結(jié)果如表4所示。
表4 本文不同方案在CASIA-B的識別率對比Table 4 Comparison of recognition performance among different schemes under proposed framework /%
從表4可以看出,在網(wǎng)絡(luò)模型中沒有自注意力模塊或身份保留損失的情況下,本文方法仍然比基準(zhǔn)方法GaitGAN的識別率高。當(dāng)引入自注意力模塊和身份保留損失訓(xùn)練網(wǎng)絡(luò)時,在CASIA-B數(shù)據(jù)集上的識別率有顯著提升,平均rank-1準(zhǔn)確率提升了15%。實驗結(jié)果表明,自注意力模塊有效解決了目標(biāo)視角步態(tài)模板生成的不完全的問題,提升了生成圖像的協(xié)調(diào)性;身份保留損失使生成的步態(tài)模板更好地保持身份信息,增強了生成圖像的可判別性。自注意力模塊和身份保留損失兩者結(jié)合有效提高了步態(tài)視角轉(zhuǎn)換的效果與質(zhì)量。
為進一步驗證GEI數(shù)據(jù)增強對步態(tài)識別效果的影響,在CASIA-B數(shù)據(jù)集上進行實驗,結(jié)果如圖5所示。
圖5 GEI數(shù)據(jù)增強在CASIA-B數(shù)據(jù)集的實驗結(jié)果Fig.5 Impact of GEI data augmentation evaluated on CASIA-B
從圖5可以看出,經(jīng)過GEI數(shù)據(jù)增強,達到了最佳識別精度。與GaitGAN方法相比,即使未經(jīng)數(shù)據(jù)增強訓(xùn)練的方法也能取得較高的識別率。通過GEI數(shù)據(jù)增強,既避免了因生成的步態(tài)能量圖過少導(dǎo)致的識別率不高問題,也避免了不同身份的GEI樣本過于接近問題,有助于提高跨視角步態(tài)識別率。
3.3.2 與最新方法對比
1)在CASIA-B數(shù)據(jù)集實驗結(jié)果。為驗證本文方法的有效性,與C3A(complete canonical correlation analysis)(Xing等,2016)、SPAE(stacked progressive auto-encoders)(Yu等,2017b)、GaitGAN(Yu等,2017a)和MGAN(He等,2019)等最新方法進行比較,選擇驗證集視角為54°、90°、126°進行跨視角步態(tài)識別的對比實驗。圖6顯示了排除相同視角的所有注冊集視角的跨視角步態(tài)識別率。
圖6 在Probe NM的3個代表性視角54°、90°和126°下與最新方法比較結(jié)果(排除相同視角)Fig.6 Comparison with the state-of-the-art methods under the probe views 54°,90° and 126° excluding identical view((a)54°;(b)90°;(c)126°)
表5 排除相同視角下,在CASIA-B數(shù)據(jù)集中3種驗證集視角的平均識別率比較Table 5 Comparison of average identification rates among three probe views excluding identical view on CASIA-B dataset /%
2)在OU-MVLP數(shù)據(jù)集實驗結(jié)果。本文對4個在OU-MVLP數(shù)據(jù)集實驗的方法不多,所以選擇與GEINet(Shiraga等,2016)、3in+2diff(Takemura等,典型視角(0°、30°、60°、90°)進行實驗,由于近幾年2019)和GaitSet(Chao等,2019)等3種方法進行比較,結(jié)果如表6所示,所有結(jié)果都是在排除相同視角的注冊集視角下取平均值得到的識別率。從表6可以看出,GEINet和3in+2diff方法在OU-MVLP這種大規(guī)模的跨視角步態(tài)識別評估實驗中識別性能較差,而本文方法可以達到65.9%的平均識別精度,遠高于這兩種方法。由于GaitSet采用人體輪廓序列作為輸入特征,比GEI包含更多的時空特征信息,所以識別率更高。實驗結(jié)果表明,與采用GEI步態(tài)模板的其他方法相比,本文方法在大規(guī)模的跨視角步態(tài)數(shù)據(jù)庫中仍具有較好的適用性。
表6 排除相同視角下,在OU-MVLP數(shù)據(jù)集中4種典型視角的平均識別率比較Table 6 Comparison of average identification rates among four representative probe views on OU-MVLP dataset /%
3.3.3 實驗結(jié)果定性分析
目前基于GAN的步態(tài)識別方法中,MGAN需要事先對視角進行估計才能實現(xiàn)特定視角的步態(tài)圖像生成,GaitGAN和TS-GAN則是將任意視角的步態(tài)模板標(biāo)準(zhǔn)化到側(cè)面視角進行識別,如果要將某一視角的步態(tài)模板轉(zhuǎn)換到任意視角,則需構(gòu)建多個模型,而本文方法建立的統(tǒng)一模型可將步態(tài)模板從任意視角轉(zhuǎn)換到目標(biāo)視角。本文將OU-MVLP數(shù)據(jù)集中的4個典型視角(0°,30°,60°,90°)合成的步態(tài)模板進行可視化,如圖7所示。其中,左側(cè)圖像為驗證集中的輸入GEI,上側(cè)圖像是注冊集中真實的目標(biāo)GEI,右下4 × 4矩陣中的圖像是生成的GEI。由圖7可以看出,本文訓(xùn)練的任意視角間步態(tài)模板轉(zhuǎn)換模型即使在視角變化較大情況下,生成的步態(tài)圖像也與真實的目標(biāo)視角的步態(tài)圖像高度相似。
圖7 輸入視角為0°,30°,60°和90°的步態(tài)模板合成的可視化結(jié)果Fig.7 Visualization of generated gait templates at 0°,30°,60° and 90° with different input views
針對步態(tài)識別中的跨視角問題,本文提出融合自注意力機制的生成對抗網(wǎng)絡(luò)框架,建立可實現(xiàn)任意視角間的步態(tài)模板轉(zhuǎn)換模型,由生成器、視角判別器和身份保持器構(gòu)成,解決了目前生成式方法只能進行特定視角的步態(tài)轉(zhuǎn)換并且生成圖像的特征信息容易丟失問題,達到了使用統(tǒng)一模型生成任意視角的步態(tài)模板的效果,并在視角轉(zhuǎn)換過程中保留步態(tài)特征信息,提升了生成圖像的質(zhì)量。
為驗證本文方法對跨視角步態(tài)識別的有效性,在CASIA-B步態(tài)數(shù)據(jù)庫上分別進行對比、消融和增強實驗,設(shè)計將自注意力模塊添加到生成器的不同位置進行對比實驗,結(jié)果表明在解碼器第2層反卷積后加入自注意力模塊效果更好;對自注意力模塊和身份保留損失進行消融實驗,相比于Gait GAN方法,兩者結(jié)合時的步態(tài)識別率有顯著提升;采用幀移式方法對CASIA-B數(shù)據(jù)集進行GEI數(shù)據(jù)增強實驗,進一步提升了識別率。在OU-MVLP大規(guī)模的跨視角步態(tài)數(shù)據(jù)庫中進行對比實驗,與GEINet、3in+2diff兩種方法相比,所提方法仍具有較好的適用性,可以達到65.9%的平均識別精度。
本文方法以步態(tài)能量圖為模型輸入,計算簡單有效,但在實際場景中,行人檢測與分割的好壞會直接影響合成步態(tài)能量圖的質(zhì)量;同時在實際應(yīng)用中,視角變化會與其他協(xié)變量(如衣著、攜帶物)結(jié)合。因此,如何建立功能更強大的網(wǎng)絡(luò)模型來解決復(fù)雜場景的步態(tài)識別問題,仍是未來步態(tài)識別研究的技術(shù)難點。