王科俊 丁欣楠 邢向磊 劉美辰
步態(tài)識(shí)別是指通過(guò)人走路的姿態(tài)或足跡對(duì)身份進(jìn)行認(rèn)證或識(shí)別,被認(rèn)為是遠(yuǎn)距離身份識(shí)別中最具潛力的方法之一[1].優(yōu)勢(shì)主要包括無(wú)需接觸、非侵犯、識(shí)別過(guò)程不需要配合、難于隱藏和偽裝等.因此步態(tài)識(shí)別在安全監(jiān)控、人機(jī)交互、醫(yī)療診斷和門禁系統(tǒng)等領(lǐng)域具有廣泛的應(yīng)用前景和經(jīng)濟(jì)價(jià)值.
步態(tài)識(shí)別在實(shí)際應(yīng)用中面臨許多難點(diǎn),主要表現(xiàn)在行人在行走過(guò)程中會(huì)受到外在環(huán)境和自身因素的影響[2?3](例如不同行走路面、不同時(shí)間、不同視角、不同服飾、不同攜帶物等因素),導(dǎo)致提取到的步態(tài)特征呈現(xiàn)很強(qiáng)的類內(nèi)變化.其中視角因素是影響系統(tǒng)識(shí)別性能最主要的因素之一.當(dāng)行人行走方向發(fā)生變化,或由一個(gè)攝像監(jiān)控區(qū)域轉(zhuǎn)入另一個(gè)具有不同設(shè)置的攝像監(jiān)控區(qū)域時(shí)都會(huì)發(fā)生視角變化.圖1為同一個(gè)人在不同視角下的步態(tài)圖像,可以觀察到不同視角下的步態(tài)圖像均具有較大差異.研究[4?6]普遍認(rèn)為側(cè)面視角的步態(tài)輪廓包含了更有價(jià)值的信息,特征提取絕大多數(shù)也都是基于側(cè)面輪廓的,而傳統(tǒng)的單視角步態(tài)識(shí)別技術(shù)在視角變化時(shí),識(shí)別性能也隨之明顯下降[7?8].
圖1 不同視角下的步態(tài)圖像(CASIA-B)Fig.1 Gait images from different views(CASIA-B)
自1994年Niyogi等[9]最早利用步態(tài)信息作為特征進(jìn)行身份認(rèn)證后,步態(tài)識(shí)別得到發(fā)展快速,并涌現(xiàn)出大量的步態(tài)識(shí)別算法,其中不乏相關(guān)的綜述文章[10?12],但多是基于對(duì)步態(tài)識(shí)別的整體概述(相同視角下的步態(tài)周期檢測(cè)與識(shí)別),無(wú)針對(duì)解決視角這一主要難點(diǎn)對(duì)現(xiàn)有研究成果進(jìn)行歸納總結(jié).為了彌補(bǔ)這個(gè)不足,有必要對(duì)現(xiàn)階段多視角步態(tài)識(shí)別研究情況進(jìn)行總結(jié)分析,以期對(duì)本領(lǐng)域研究人員有所裨益.
數(shù)據(jù)庫(kù)對(duì)于學(xué)習(xí)角度因素對(duì)步態(tài)識(shí)別的影響、評(píng)估和性能比較是至關(guān)重要的.本文首先總結(jié)可用于多視角識(shí)別的步態(tài)數(shù)據(jù)庫(kù).然后對(duì)現(xiàn)有文獻(xiàn)的研究方法進(jìn)行綜述.根據(jù)特征提取的方式不同,將當(dāng)前已提出的多視角步態(tài)識(shí)別方法分為四類,分別是3D模型法、視角不變性特征法、映射投影法和深度神經(jīng)網(wǎng)絡(luò)法.最后指出當(dāng)前研究的局限性和發(fā)展方向.
表1 多視角步態(tài)庫(kù)Table 1 Databases for multiview gait
進(jìn)行身份識(shí)別算法研究、系統(tǒng)開(kāi)發(fā)和評(píng)估必須要有共同的數(shù)據(jù).因此,大型步態(tài)數(shù)據(jù)庫(kù)是必不可少的.為此,步態(tài)數(shù)據(jù)庫(kù)應(yīng)該包含一個(gè)大的類別數(shù)以及各種協(xié)變量條件.要消除角度因素對(duì)步態(tài)識(shí)別的影響,需數(shù)據(jù)庫(kù)提供針對(duì)各種復(fù)雜角度設(shè)定的步態(tài)序列.為了便于研究,目前國(guó)際上已經(jīng)建立了多個(gè)用步態(tài)識(shí)別研究的數(shù)據(jù)庫(kù),其中具有角度變量,可用于的多視角識(shí)別研究的數(shù)據(jù)庫(kù)主要有 USF[3]、CASIA-A[13]、CASIA-B[14]、HIDUMD1 和2[15]、CMU MoBo[16]、OU-ISIR Treadmill[17]、OU-ISIR LP[18]和SZU RBG-D[19]等,表1詳細(xì)地總結(jié)了上述多角度步態(tài)數(shù)據(jù)集.
此外, 還有 UMST[20]、 KY4Ddata[21]、AVAMVG[22]和TUM-IITKGP[23]等3D步態(tài)數(shù)據(jù)庫(kù),用于3D步態(tài)建模.
而現(xiàn)存的多視角步態(tài)數(shù)據(jù)庫(kù)雖已系統(tǒng)地對(duì)各個(gè)行人不同視角的下的數(shù)據(jù)進(jìn)行注冊(cè),但仍存在以下不足:
1)高維的步態(tài)特征和小樣本問(wèn)題:除OU-ISIR LP數(shù)據(jù)庫(kù)外,步態(tài)數(shù)據(jù)庫(kù)的注冊(cè)樣本都不足200人.但通常情況下,步態(tài)識(shí)別技術(shù)的特征維數(shù)很高,而數(shù)據(jù)集中的訓(xùn)練樣本數(shù)目很少,一般的識(shí)別算法可能會(huì)造成數(shù)據(jù)過(guò)擬合.
2)視角問(wèn)題:需應(yīng)用步態(tài)識(shí)別的視頻監(jiān)控場(chǎng)景的攝像頭通常安裝是有一定俯角的,然而現(xiàn)存數(shù)據(jù)庫(kù)大多是人的行走方向與攝像機(jī)鏡頭主軸方向垂直,視角變量?jī)H限制在行走平面的360度內(nèi),無(wú)立體視角變量的大型步態(tài)庫(kù).
3)遮擋、服飾或攜帶物和夜間識(shí)別問(wèn)題:實(shí)際的步態(tài)識(shí)別中,很可能存在障礙物和行人之間的相互遮擋,現(xiàn)存的步態(tài)數(shù)據(jù)庫(kù)中,無(wú)論室內(nèi)室外都是在空曠環(huán)境中且畫(huà)面只有一個(gè)行人情況下采集的;同時(shí)現(xiàn)有的步態(tài)數(shù)據(jù)庫(kù)服飾和攜帶物變量較少,通常不超過(guò)5種,且所有行人都采用同樣的服飾和攜帶物進(jìn)行注冊(cè);夜間紅外攝像頭采集的視頻信息通常光線較暗,步態(tài)輪廓與背景較為接近,視角因素與夜間因素相互影響大大增加了識(shí)別難度,而目前仍沒(méi)有夜間的多視角步態(tài)數(shù)據(jù)庫(kù).
步態(tài)分析最早是醫(yī)學(xué)[24]、心理學(xué)方面的課題[25],如果考慮步態(tài)運(yùn)動(dòng)的所有信息,每個(gè)人的步態(tài)都是唯一的.隨著計(jì)算機(jī)運(yùn)算能力的增強(qiáng)和生物特征識(shí)別技術(shù)的興起,步態(tài)分析在計(jì)算機(jī)視覺(jué)領(lǐng)域的發(fā)展逐漸引起了關(guān)注.美國(guó)國(guó)防部高級(jí)研究項(xiàng)目署在2000年資助了遠(yuǎn)距離身份識(shí)別的重大研究項(xiàng)目[1],研究遠(yuǎn)距離步態(tài)和動(dòng)態(tài)人臉以及其他因素對(duì)身份識(shí)別的影響,最終開(kāi)發(fā)遠(yuǎn)距離下具有高可靠性、魯棒性的大規(guī)模身份識(shí)別系統(tǒng),對(duì)步態(tài)識(shí)別的研究產(chǎn)生了深遠(yuǎn)的影響,在一定程度上促進(jìn)了步態(tài)識(shí)別的發(fā)展.國(guó)內(nèi)外許多知名的研究機(jī)構(gòu)都開(kāi)展了步態(tài)識(shí)別方面的研究,國(guó)外比較著名的有麻省理工學(xué)院、馬里蘭大學(xué)、南安普頓大學(xué)、南佛羅里達(dá)大學(xué)等.國(guó)內(nèi)的研究機(jī)構(gòu)主要有中國(guó)科學(xué)院自動(dòng)化研究所、山東大學(xué)、哈爾濱工程大學(xué)、復(fù)旦大學(xué)、深圳大學(xué)等.但目前步態(tài)識(shí)別研究均是理論性的,尚沒(méi)有成熟的步態(tài)識(shí)別系統(tǒng)出現(xiàn).多數(shù)的步態(tài)識(shí)別算法是在理想環(huán)境下(背景簡(jiǎn)單,無(wú)遮擋、攜帶物和服飾變換且畫(huà)面中只有一行人)對(duì)目標(biāo)側(cè)影圖像的分析,與實(shí)際應(yīng)用環(huán)境差別較大.因此,雖然現(xiàn)有的方法大多都已取得超過(guò)80% 識(shí)別率[26],但把步態(tài)用于個(gè)人身份識(shí)別還沒(méi)有達(dá)到在實(shí)際復(fù)雜環(huán)境中應(yīng)用的要求.
本文將現(xiàn)有的多視角步態(tài)識(shí)別研究方法分為基于三維建模和基于二維圖像或視頻序列特征兩大類.其中,三維建模主要采用多臺(tái)校準(zhǔn)的不同視角的攝相機(jī)構(gòu)建3D人體步態(tài)模型;而基于二維圖像或視頻序列特征的方法,構(gòu)造能夠有效整合步態(tài)視頻輪廓與時(shí)域信息的步態(tài)特征模板直接影響步態(tài)識(shí)別的精度,故本文先介紹各常用類能量圖的構(gòu)造方法,再根據(jù)特征提取方式的不同,又分為提取視角不變性特征法,學(xué)習(xí)不同視角下映射投影關(guān)系法和深度神經(jīng)網(wǎng)絡(luò)法三類.
由于步態(tài)信息本質(zhì)是三維的,而二維步態(tài)圖像序列只提供單一視角信息,限制了任意視角的步態(tài)識(shí)別.通過(guò)多攝像機(jī)對(duì)人體結(jié)構(gòu)或人體運(yùn)動(dòng)進(jìn)行三維建模,能夠更準(zhǔn)確地表達(dá)人體各個(gè)部位的物理空間,充分利用關(guān)節(jié)的角度約束和人體各個(gè)部位的運(yùn)動(dòng)特性.且在3D空間中,步態(tài)識(shí)別的人體檢測(cè)、人體跟蹤等預(yù)處理工作變得比較簡(jiǎn)單,能夠降低遮擋等因素的負(fù)面影響.
Shakhnarovich等[27]提出基于圖像的可視外殼(Image-based visual hull,IBVH)以繪制用于步態(tài)識(shí)別的視角.IBVH從多個(gè)校準(zhǔn)攝像機(jī)的一系列單視角中計(jì)算得出.該方法首先估計(jì)規(guī)范視覺(jué)相機(jī)的位置,然后使用從這些視角獲得的繪制圖像來(lái)做視角規(guī)范化.Bodor等[28]應(yīng)用基于圖像的繪制技術(shù)于3D可視外殼模型,得以在任意所需視角下重構(gòu)步態(tài)特征.該方法可以將不同視角下的多個(gè)攝像機(jī)所獲取的步態(tài)信息綜合起來(lái),但需要在校準(zhǔn)單個(gè)攝像機(jī)的基礎(chǔ)上進(jìn)行交叉校準(zhǔn)使得它們具有相同的參考幀.Zhang等[29]提出基于3D角線性模型和貝葉斯規(guī)則的視角對(duì)立步態(tài)識(shí)別方法.該方法在傅立葉表示的樣本中使用主成分分析來(lái)構(gòu)建3D線性模型.通過(guò)最大后驗(yàn)概率估計(jì)將不同視角下的2D步態(tài)序列投影到一個(gè)3D模型中,由此得出一系列系數(shù)用來(lái)描述步態(tài)特征.Tang等[30]利用先進(jìn)的3D成像設(shè)備進(jìn)行3D重建和目標(biāo)跟蹤,但很難只用距離數(shù)據(jù)精確地分割出人體輪廓.為了解決這個(gè)問(wèn)題,Tang等[31]提出建立3D人體模型,通過(guò)二維輪廓和姿態(tài)建立拉普拉斯形變能量函數(shù)將模型產(chǎn)生相應(yīng)角度和姿勢(shì)變形,再將局部投影至二維空間構(gòu)建部分步態(tài)能量圖再識(shí)別的方法.Zhao等[32]從多個(gè)攝像機(jī)捕獲的視頻序列中重構(gòu)3D步態(tài)模型.該方法使用從3D模型中提取的下肢的運(yùn)動(dòng)軌跡作為動(dòng)態(tài)特征,同時(shí)利用線性時(shí)間規(guī)整化進(jìn)行匹配和識(shí)別.López-Fernández[22]等同樣利用多攝像機(jī)構(gòu)成的多視點(diǎn)視頻序列重構(gòu)三維步態(tài)序列,提出了一種基于3D角度分析的旋轉(zhuǎn)不變的特征,運(yùn)用子空間分量與判別分析和支持向量機(jī)(Support vector machine,SVM)進(jìn)行分類識(shí)別.Deng等[33?34]提出了一種基于多視點(diǎn)融合和確定性學(xué)習(xí)的方法,利用不同視角合成輪廓圖像.Iwashita等[35]利用4D步態(tài)數(shù)據(jù)庫(kù)合成虛擬圖像估計(jì)行走方向,提取仿射不變矩為特征進(jìn)行識(shí)別.
一般3D分析至少需要兩臺(tái)攝像機(jī),通常因?yàn)榇嬖谡趽?為了進(jìn)行充分的3D步態(tài)分析,至少需要來(lái)自4臺(tái)攝像機(jī)的步態(tài)信息.然而,由于復(fù)雜的攝像機(jī)平衡視角和建模計(jì)算,這一系列的方法一般只適用于完全可控的多攝像機(jī)協(xié)作環(huán)境,且難以在實(shí)際的實(shí)時(shí)應(yīng)用中使用.
2.2.1 步態(tài)特征表征模板(類能量圖)
與基于三維建模的方法不同,基于二維圖像的步態(tài)識(shí)別通常需構(gòu)造步態(tài)表征模板集中整合步態(tài)的靜態(tài)、動(dòng)態(tài)和時(shí)序信息,一般是對(duì)視頻圖像序列按照一定規(guī)則的疊加,即構(gòu)造步態(tài)類能量圖.學(xué)習(xí)不同視角下映射投影關(guān)系方法的研究絕大多數(shù)都是在類能量圖基礎(chǔ)上進(jìn)行二次特征提取完成的;也可從能量圖中直接提取視角不變特征或?qū)⑵渌腿肷疃壬窠?jīng)網(wǎng)絡(luò).因此類能量圖的構(gòu)造與選擇直接影響了步態(tài)識(shí)別精度.
類能量圖法將一個(gè)人周期性的、連續(xù)的時(shí)空運(yùn)動(dòng)序列生成一幅或幾幅圖像,對(duì)步態(tài)圖像質(zhì)量要求不高,且無(wú)需考慮人體模型結(jié)構(gòu)和計(jì)算人體各部分的精確參數(shù),能夠節(jié)省存儲(chǔ)空間和計(jì)算代價(jià),對(duì)圖像噪聲有較好的魯棒性.同時(shí)基于序列的步態(tài)表征方法更有效地利用了步態(tài)序列的時(shí)空連續(xù)性,包含更多運(yùn)動(dòng)特征.Lv等[12]根據(jù)類能量圖的生成方式將其分成步態(tài)信息累計(jì)類、步態(tài)信息引入類、步態(tài)信息融合類能量圖三類,并全面地對(duì)已提出的各種類能量圖的特性進(jìn)行了理論分析和對(duì)比實(shí)驗(yàn)研究.其中較為常用的類能量圖主要有運(yùn)動(dòng)歷史圖像(Motion history image,MHI)[36]、步態(tài)能量圖(Gait energy image,GEI)[37]、運(yùn)動(dòng)輪廓圖(Gait energy image,MSI)[38]、步態(tài)歷史圖(Gait history image,GHI)[39]、主動(dòng)能量圖(Active energy image,AEI)[40]、步態(tài)熵圖(Gait entropy image,GEnI)[41]、幀差能量圖(Frame difference energy image,FDEI)[42]和基于時(shí)間保持的步態(tài)能量圖(Chrono-gait image,CGI)[43]等.其構(gòu)造方法與性能分析如表2所示.
2.2.2 提取視角不變性特征
直接提取不同視角下視頻序列或圖像中不隨著角度或行走方向而改變的步態(tài)特征進(jìn)行身份識(shí)別,從而避免因角度變化而引起的人體輪廓的巨大差異對(duì)識(shí)別的影響.直接提取視角不變性步態(tài)特征的方法各式,通常思路直觀,計(jì)算較為簡(jiǎn)單,而提取的特征也較為多樣.由于基于局部特征和聚類圖像的方法較多,本文大體將其分為局部特征法、聚類圖像法和其他三類.
1)局部特征
Jean等[44]提出一種計(jì)算視頻序列中人體部位軌跡的視角規(guī)范化方法.該方法選取輪廓序列中規(guī)范化腳和頭的2D軌跡將行走軌跡分割成分段線形的部分.然而,該技術(shù)僅對(duì)有限范圍內(nèi)的視角有效.為了解決Jean等的方法由于遮擋等原因,提取到的人體輪廓中可能丟失頭部或腳的問(wèn)題,Ng等[45]提出從自動(dòng)檢測(cè)到的人體關(guān)節(jié)(臀、膝和腳踝)中計(jì)算關(guān)節(jié)的角軌跡,并應(yīng)用透視校正來(lái)提取視角不變的步態(tài)特征.彭彰等[46]提出了一種基于肢體長(zhǎng)度參數(shù)的方法,利用腳間距計(jì)算方法和動(dòng)態(tài)身體分割方法,擬合出場(chǎng)景的轉(zhuǎn)換參數(shù),并以此估計(jì)出人運(yùn)動(dòng)情況下的5個(gè)肢體長(zhǎng)度參數(shù)用于識(shí)別.這種方法受限于圖像分割的準(zhǔn)確度且只適用于視角與行人水平的情況,立體視角的變化對(duì)肢體長(zhǎng)度參數(shù)影響較大.Goffredo等[47]提出基于模型的步態(tài)特征自標(biāo)定視角不變步態(tài)識(shí)別.下肢姿態(tài)由無(wú)標(biāo)記運(yùn)動(dòng)來(lái)估計(jì),然后這些姿態(tài)在腿關(guān)節(jié)運(yùn)動(dòng)近似平坦的假設(shè)下,使用視點(diǎn)矯正在矢狀面進(jìn)行重構(gòu).但該方法對(duì)于下肢姿態(tài)的估計(jì)缺乏魯棒性且無(wú)法應(yīng)用于正面視角,兩視角差異較小時(shí)性能較差.
2)聚類圖像法
Lu等[48]將不同的視角分成幾個(gè)聚類,提出聚類的平均步態(tài)圖像(Average gait image,AGI)作為特征表達(dá),利用稀疏重構(gòu)的度量學(xué)習(xí)(Sparse reconstruction metric learning,SRML)進(jìn)行身份分類.Darwish[49]采用聚類的空間域能量偏差圖像(Energy deviation image,EDI)[50]作為步態(tài)特征,再利用區(qū)間二型模糊K近鄰(Interval type-2 fuzzy K-nearest neighbor,IT2FKNN)進(jìn)行步態(tài)識(shí)別.聚類圖像法大多先利用聚類進(jìn)行視角估計(jì)解決角度問(wèn)題,需要大量的注冊(cè)樣本,且如果在步態(tài)序列中沒(méi)有相似的視角,識(shí)別率將下降.
3)其他
Han等[37]從GEI中提取視角不變特征.該方法僅選取部分在視角間相互重疊的步態(tài)序列來(lái)構(gòu)建交叉視角的步態(tài)匹配表示.Kale等[51]提出一種從任意視角生成側(cè)視圖的方法.該方法采用透視投影模型和基于運(yùn)動(dòng)方程的光流結(jié)構(gòu).這種方法要求行人距離相機(jī)的距離足夠遠(yuǎn),當(dāng)像平面和矢狀面之間的夾角變大時(shí),該方法受到自遮擋的影響性能顯著下降.
直接提取視角不變特征的方法適用于視角變化范圍有限或較小的情形,并且該類方法提取步態(tài)特征的過(guò)程易受到遮擋因素或服飾變化的破壞.
2.2.3 學(xué)習(xí)不同視角下的映射或投影關(guān)系
在步態(tài)相似性度量之前,訓(xùn)練好的映射關(guān)系模型可以將不同視角下的步態(tài)特征規(guī)范化到相同視角的特征空間中,利用多個(gè)角度的訓(xùn)練數(shù)據(jù)學(xué)習(xí)視角判別子空間,步態(tài)特征被投影到子空間(通常在較低的維度)中獲得視角不變特征,以解決多角度問(wèn)題.基于投影映射的方法是一種很好的實(shí)時(shí)應(yīng)用解決方案,已有的研究成果多具有較高的識(shí)別精度.其中已采用的映射投影方法很多,包括典范相關(guān)分析(Canonical correlation analysis,CCA)、視角轉(zhuǎn)換模型(View transformation model,VTM)、線性判別分析(Linear discriminant analysis,LDA)、多線性主成分分析(Multilinear principal component analysis,MPCA)、核主成分分析(Kernel principal component analysis,KPCA)和耦合學(xué)習(xí)等.由于LDA、MPCA、耦合學(xué)習(xí)與核思想多交叉融合構(gòu)造子空間,將其歸為一類,故本文將從CCA、VTM和其他三類分別說(shuō)明.
表2 類能量圖構(gòu)造方法與性能分析Table 2 The construction methods and performances analysis of class energy image
1)典范相關(guān)分析(CCA)
典范相關(guān)分析(CCA)[52]是一種著名的多元分析方法,其目的是尋找和量化兩個(gè)多維變量之間的相關(guān)性.CCA利用兩種相同模式的視圖,并將它們投射到一個(gè)使其相關(guān)性最大的低維空間中.應(yīng)用CCA解決跨視角步態(tài)識(shí)別問(wèn)題,將不同視角的步態(tài)特征投影到一個(gè)統(tǒng)一的特征空間,并在該公共空間中進(jìn)行相似性度量.
Bashir等[53]采用高斯過(guò)程分類框架進(jìn)行視角估計(jì),再利CCA進(jìn)行不同角度建模.Hu[54]將判別典范相關(guān)分析(Discriminant canonical correlation analysis,DCCA)進(jìn)行了高階張量擴(kuò)展,應(yīng)用多重線性分析,利用張量到向量投影直接從張量數(shù)據(jù)中提取不相關(guān)判別特征,增進(jìn)了DCCA方法在多視角步態(tài)識(shí)別中的性能.Xing等[55]針對(duì)傳統(tǒng)CCA方法在處理兩個(gè)高維數(shù)據(jù)集合時(shí),存在的廣義特征分析的奇異矩陣問(wèn)題以及解的不穩(wěn)健和不完備性,提出完備典范相關(guān)分析方法(Complete canonical correlation analysis,C3A),并將其應(yīng)用于多視角步態(tài)識(shí)別,提升了傳統(tǒng)CCA在步態(tài)識(shí)別中的性能.Wang等[56]對(duì)通過(guò)改進(jìn)優(yōu)化目標(biāo)函數(shù)和類關(guān)系矩陣對(duì)原有的核判別典型相關(guān)分析進(jìn)行優(yōu)化,在CCA中引入了類信息并減少對(duì)應(yīng)元素的相關(guān)性,在跨視角識(shí)別取得了較好的識(shí)別效果.Luo等[57]將GEI分割成5個(gè)子部分進(jìn)行CCA,并在不同攜帶物和行走條件下優(yōu)化訓(xùn)練每組子GEI,減少攜帶物和行走條件等變量因素的影響.
然而,基于CCA類的方法僅能利用兩個(gè)視角間的互補(bǔ)信息,處理N個(gè)視角時(shí)要重復(fù)N次來(lái)學(xué)習(xí)N對(duì)特征映射,計(jì)算負(fù)擔(dān)沉重.
2)視角轉(zhuǎn)換模型(VTM)
視角轉(zhuǎn)化模型可以將不同視角下的步態(tài)特征轉(zhuǎn)化到相同的視角下,解決多角度的步態(tài)識(shí)別問(wèn)題.Makihara等[58]提出視角轉(zhuǎn)化模型的概念,由采用奇異值分解的矩陣分解過(guò)程創(chuàng)建.訓(xùn)練數(shù)據(jù)集中的步態(tài)矩陣每行包含來(lái)自相同視角不同對(duì)象的步態(tài)信息,每列包含來(lái)自相同對(duì)象,不同視角的步態(tài)信息,應(yīng)用奇異值分解(Singular value decomposition,SVD)將步態(tài)矩陣分解成視角獨(dú)立的矩陣和對(duì)象獨(dú)立的矩陣,對(duì)象獨(dú)立矩陣用于構(gòu)建VTM.該方法基于傅立葉變換獲得的頻域步態(tài)特征來(lái)創(chuàng)建VTM.為了增進(jìn)性能,Kusakunniran等[59?60]基于線性判別分析所獲取的最優(yōu)GEI特征來(lái)創(chuàng)建VTM,應(yīng)用截?cái)嗥娈愔捣纸?Truncated singular value decomposition,TSVD)來(lái)緩解訓(xùn)練VTM 時(shí)的過(guò)擬合現(xiàn)象.進(jìn)一步將VTM的構(gòu)建重新表述成回歸問(wèn)題.使用回歸概念來(lái)揭示不同視角間步態(tài)的運(yùn)動(dòng)相關(guān)性.Zheng等[61]通過(guò)首先對(duì)步態(tài)矩陣進(jìn)行低秩分解再應(yīng)用SVD分解構(gòu)造VTM的方法來(lái)實(shí)現(xiàn)魯棒的VTM 模型.Hu等[62]應(yīng)用高階奇異值分解將VTM模型擴(kuò)展為在四階張量空間的多重線性投影模型,然后提取視角獨(dú)立、站姿獨(dú)立的單位矢量,以對(duì)多視角、不完整步態(tài)周期的步態(tài)序列進(jìn)行識(shí)別.Muramatsu等[63?65]在VTM中引入一種質(zhì)量評(píng)價(jià)措施.由于一般是通過(guò)VTM 視角轉(zhuǎn)換至規(guī)定視角的步態(tài)圖像與目標(biāo)視角圖像進(jìn)行相似性度量評(píng)判是否為同一身份,步態(tài)特征組引入了相似度的不均勻偏差.通過(guò)引入轉(zhuǎn)化質(zhì)量(源視角內(nèi)在特征質(zhì)量)和不均勻邊緣質(zhì)量(目標(biāo)視角內(nèi)在特征質(zhì)量),利用這兩個(gè)質(zhì)量度量來(lái)計(jì)算真實(shí)配對(duì)的后驗(yàn)概率和原始特征的相似度量結(jié)合作為最終的匹配結(jié)果以提高識(shí)別精度.
VTM類方法雖然可以將一個(gè)視角下的步態(tài)特征轉(zhuǎn)化為另一視角下的步態(tài)特征,從而解決不同視角之間的相似性度量問(wèn)題,但無(wú)法有效地同時(shí)利用多個(gè)視角之間的互補(bǔ)信息.且基于VTM的方法都有在進(jìn)行模型構(gòu)建和視角轉(zhuǎn)化時(shí)容易造成噪聲傳播,致使識(shí)別性能退化的問(wèn)題.
3)其他(LDA、耦合學(xué)習(xí)、MPCA與核擴(kuò)展等)
LDA是一種監(jiān)督學(xué)習(xí)的降維技術(shù),投影后類內(nèi)方差最小,類間方差最大,提取需要的判別信息并減少維度.通常步態(tài)特征空間的維數(shù)非常高,且有許多在相似度測(cè)量中冗余的零值的像素,在經(jīng)過(guò)LDA投影后減小同一行人不同視角下的類內(nèi)方差,提高識(shí)別精度.Choudhury等[66]提出一種首先分割得到腿部步態(tài)能量圖用于估計(jì)視角,再利用隨機(jī)子空間學(xué)習(xí)進(jìn)行身份分類的方法.Liu等[67]在每個(gè)視角下的訓(xùn)練數(shù)據(jù)集中提取步態(tài)特征在LDA子空間中的判別信息.在測(cè)試階段,每個(gè)步態(tài)特征分別投影到每個(gè)子空間中,然后最終的步態(tài)距離由每個(gè)子空間匹配結(jié)果的加權(quán)和組成.Liu等[68]提出一種聯(lián)合子空間學(xué)習(xí)的方法(Joint subspace learning,JSL),構(gòu)造含有不同視角原型的JSL,不同視角的注冊(cè)和待測(cè)樣本分別被表示為這些原型在相應(yīng)視角中的線性組合,并提取特征表示的系數(shù)利用最近鄰識(shí)別分類.
核方法[69]是對(duì)SVM中主要思想核映射的應(yīng)用的擴(kuò)展,很多線性子空間算法都可以運(yùn)用核函數(shù)擴(kuò)展為非線性子空間,如核主成分分析[70]和核判別分析[71]等.Connie等[72]以雙核主成分分析進(jìn)行系數(shù)膨脹建立非線性子空間,形成Grassman流形描述多角度的步態(tài)特征,非線性子空間的結(jié)構(gòu)能夠更恰當(dāng)?shù)卦谝暯亲兓斜A舨綉B(tài)特征.
耦合度量學(xué)習(xí)(Coupled metric learning,CML)受啟發(fā)于局部保留投影,旨在通過(guò)尋找保留局部信息的低維嵌入獲得一個(gè)可以保持?jǐn)?shù)據(jù)內(nèi)部流形結(jié)構(gòu)的子空間.與局部保留投影不同,耦合距離度量學(xué)習(xí)尋找一對(duì)線性變換矩陣將不同的樣本映射到共同的子空間,在這個(gè)子空間中不同視角的步態(tài)數(shù)據(jù)差異被削減.Xu等[73]提出一種耦合局部保留投影的方法,學(xué)習(xí)耦合投影矩陣,在保證基本流形結(jié)構(gòu)的同時(shí),將交叉視角特征投影到統(tǒng)一的子空間中.Ben等[74]基于耦合距離度量學(xué)習(xí)思想,通過(guò)廣義特征值分解將不同視角下的步態(tài)特征聯(lián)系起來(lái),提高了跨域生物特征的識(shí)別率,在跨視角步態(tài)識(shí)別中也取得了良好的效果.在此基礎(chǔ)上,Ben等[75]引入了核的思想,通過(guò)核耦合距離度量學(xué)習(xí)(Kernel coupled distance metric learning,KCDML)使不同類樣本線性可分,并保持樣本局部結(jié)構(gòu)數(shù)據(jù)的幾何特征.Wang等[76]在傳統(tǒng)CML中引入可分離標(biāo)準(zhǔn),將標(biāo)簽信息加入其中,應(yīng)用這種新的方法將步態(tài)特征從不同視角轉(zhuǎn)換為一個(gè)耦合特征空間.但基于耦合度量學(xué)習(xí)的方法同CCA方法有相同缺點(diǎn),僅能利用兩個(gè)視角間的互補(bǔ)信息.
MPCA是一種無(wú)監(jiān)督多線性子空間學(xué)習(xí)方法,實(shí)現(xiàn)了由張量至張量的投影技術(shù),將高階張量對(duì)象投影到下維張量中,即直接在張量維度進(jìn)行降維.Al-Tayyan等[77]提出了一種基于累計(jì)預(yù)測(cè)圖像的方法,同時(shí)定義累積流量圖像和邊緣掩蔽活性能量圖像兩種新的步態(tài)表達(dá)方式,采用MPCA與LDA結(jié)合通過(guò)K近鄰進(jìn)行身份分類,以最大化類間散射矩陣與類內(nèi)散射矩陣之間的比例,提高分類的準(zhǔn)確性.
子空間學(xué)習(xí)的方法通常計(jì)算較為復(fù)雜,步態(tài)圖像轉(zhuǎn)換成向量后維數(shù)常常高達(dá)上萬(wàn)維,計(jì)算量很大.此外,在視角的變化較大時(shí),這一類方法性能下降較大.
2.2.4 基于深度神經(jīng)網(wǎng)絡(luò)
深度學(xué)習(xí)[78]是含多隱層的多層感知器的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示.因其在語(yǔ)音識(shí)別、圖像目標(biāo)分類等實(shí)際應(yīng)用中的出色性能近年來(lái)備受關(guān)注.但將深度學(xué)習(xí)應(yīng)用于解決多視角步態(tài)識(shí)別問(wèn)題的研究相對(duì)較少.
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)[79]近年發(fā)展迅速,并引起廣泛重視.其避免了對(duì)圖像的復(fù)雜前期預(yù)處理,可以直接輸入原始圖像,對(duì)于大型圖像處理有出色表現(xiàn).且具有非常強(qiáng)的自主學(xué)習(xí)能力和高度非線性映射的能力,能夠?qū)W習(xí)非線性度量函數(shù)以解決跨視角步態(tài)識(shí)別問(wèn)題.Yan等[80]提出將步態(tài)能量圖送入CNN來(lái)提取高級(jí)步態(tài)特征,并引入多任務(wù)學(xué)習(xí)模型,在步態(tài)識(shí)別的同時(shí)預(yù)測(cè)狀態(tài),聯(lián)合每個(gè)任務(wù)的損失函數(shù)進(jìn)行反向傳播,獲得比單獨(dú)步態(tài)識(shí)別更好的性能.Wu[81]提出一種對(duì)一組圖片集進(jìn)行特征提取的方法,有效抑制過(guò)擬合問(wèn)題.將步態(tài)輪廓集送入相同的CNN網(wǎng)絡(luò)中,積累這些特征以獲得集合的全局表示,能夠較好地應(yīng)對(duì)步態(tài)中的角度變換.Zhang等[82]提出將GEI送入具有兩個(gè)卷積子網(wǎng)絡(luò)的對(duì)稱結(jié)構(gòu)的孿生深度卷積神經(jīng)網(wǎng)絡(luò).Tan等[83]提出將GEI送入使用共享權(quán)重的雙通道卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練匹配模型,從而匹配步態(tài)識(shí)別人的身份,對(duì)跨較大視角的步態(tài)變化有很強(qiáng)的魯棒性.Wu等[84]提出深度CNN網(wǎng)絡(luò)用于步態(tài)識(shí)別,網(wǎng)絡(luò)分為局部特征匹配的底層網(wǎng)絡(luò)、中級(jí)特征匹配和全局特征匹配的上層網(wǎng)絡(luò),在跨視角和多狀態(tài)識(shí)別中都有較好表現(xiàn).Wolf等[85]提出了一種用于步態(tài)識(shí)別的3D CNN方法,網(wǎng)絡(luò)的輸入由灰度步態(tài)圖像和光流組成,能夠在多個(gè)角度下提取步態(tài)的時(shí)空特征.Li等[86]提出一種基于深度學(xué)習(xí)VGG網(wǎng)絡(luò)[87]的識(shí)別方法.步態(tài)序列經(jīng)過(guò)周期檢測(cè)后直接送入VGG網(wǎng)絡(luò)進(jìn)行特征提取,最后利用聯(lián)合貝葉斯進(jìn)行步態(tài)識(shí)別.
自動(dòng)編碼器(AutoEncoder)[78]是近年來(lái)流行的網(wǎng)絡(luò)模型,它可以用來(lái)提取緊湊的特征.Yu等[88]提出基于GEI進(jìn)行的層疊式逐步自動(dòng)編碼(Stacked progressive auto-encoders,SPAE)的完成視角轉(zhuǎn)化,每層轉(zhuǎn)化18?的視角.即利用自動(dòng)編碼器搭建VTM模型,來(lái)解決跨視角步態(tài)識(shí)別問(wèn)題.
深度學(xué)習(xí)本質(zhì)是數(shù)據(jù)驅(qū)動(dòng)的,需要大量的不同行人的不同角度的步態(tài)信息,而現(xiàn)有的數(shù)據(jù)量相對(duì)較少.且現(xiàn)有的方法大多基于步態(tài)能量圖和卷積神經(jīng)網(wǎng)絡(luò)的.然而步態(tài)能量圖在輪廓序列的周期疊加后會(huì)丟失時(shí)序信息.卷積神經(jīng)網(wǎng)絡(luò)本身無(wú)法直接處理時(shí)間序列信號(hào),也缺乏對(duì)時(shí)間序列信號(hào)的記憶功能.而基于自動(dòng)編碼的視角轉(zhuǎn)換也有在轉(zhuǎn)化時(shí)容易造成噪聲傳播使識(shí)別性能退化的問(wèn)題.
為了對(duì)現(xiàn)有方法的性能進(jìn)行直觀比較,表3選取了在CASIA-B數(shù)據(jù)集上驗(yàn)證過(guò)的若干方法的實(shí)驗(yàn)結(jié)果作為對(duì)比.由于跨視角情況下的步態(tài)識(shí)別暫沒(méi)有統(tǒng)一的性能評(píng)價(jià)標(biāo)準(zhǔn),研究中通常進(jìn)行多組實(shí)驗(yàn),選擇每個(gè)行人不同的一個(gè)或若干個(gè)角度為注冊(cè)樣本,驗(yàn)證其他視角下的識(shí)別率以全面評(píng)估性能(即選取不同的Gallery和Probe set進(jìn)行驗(yàn)證).表3中僅僅展示以90?為待檢測(cè)樣本(Probe)的情況下,不同方法分別在54~126?為已知參考樣本(Gallery)的識(shí)別準(zhǔn)確率.
實(shí)驗(yàn)中都只采用正常行走狀態(tài)下的行人步態(tài)樣本(即無(wú)攜帶物和著裝變化的視頻樣本).而在訓(xùn)練與測(cè)試集的劃分上,不少工作采用在庫(kù)中124行人中選擇部分行人的樣本作為訓(xùn)練,剩余行人作為測(cè)試集的驗(yàn)證方式,也有部分工作選擇了其他的劃分方式.3D模型局部能量圖投影和KCDML的驗(yàn)證方式分別為選取數(shù)據(jù)庫(kù)中所有行人的6個(gè)正常步態(tài)視頻中的3個(gè)和2個(gè)作為訓(xùn)練,剩余視頻作為測(cè)試集;其余方法均使用上述主要驗(yàn)證方式,其中GEI+CCA訓(xùn)練和測(cè)試集行人樣本數(shù)量劃分為74/50,GEI+SPAE為62/62,剩余方法為24/100.
早期的多視角步態(tài)識(shí)別方法主要是提取視角不變的步態(tài)特征[37,44?51].隨著三維建模與多攝像機(jī)協(xié)作技術(shù)的發(fā)展,建立3D步態(tài)模型[22,27?35]也很好地解決了識(shí)別中的視角問(wèn)題;同時(shí)基于度量學(xué)習(xí)的方法也被用于多視角的步態(tài)識(shí)別中[53?77],通過(guò)投影到子空間獲取視角不變特征,取得了相對(duì)較高的識(shí)別精度.而深度學(xué)習(xí)利用深層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)出高層抽象的步態(tài)特征,在步態(tài)識(shí)別的視角變化中也取得了良好的識(shí)別效果[80?88].表4比較了現(xiàn)有的多視角步態(tài)識(shí)別算法.
表3 CASIA-B數(shù)據(jù)集上現(xiàn)有步態(tài)識(shí)別方法的準(zhǔn)確率對(duì)比Table 3 Recognition accuracy of existing approaches on CASIA-B datasets
表4 現(xiàn)有多視角步態(tài)識(shí)別方法Table 4 Existing approaches for multiview gait recognition
當(dāng)前的研究難點(diǎn)主要集中以下在三個(gè)方面:
1)與指紋、人臉識(shí)別等相比,步態(tài)數(shù)據(jù)庫(kù)的樣本量過(guò)小,且通常的實(shí)際生活中攝像機(jī)的安裝位置為俯視視角,但當(dāng)前研究主要集中在行人行走平面的多視角識(shí)別,即缺乏模擬真實(shí)環(huán)境下立體視角的具有大量樣本的大型步態(tài)數(shù)據(jù)庫(kù).同時(shí)現(xiàn)有的數(shù)據(jù)庫(kù)都是在行人已知的情況下采集步態(tài)信息的,注冊(cè)行人在面對(duì)復(fù)雜的采集環(huán)境時(shí)可能產(chǎn)生不自覺(jué)的姿態(tài)變化.
2)實(shí)際行走過(guò)程中會(huì)受到行走路面、不同時(shí)間、不同視角、不同服飾和不同攜帶物等的多種因素綜合影響,目前的研究多著重于解決視角問(wèn)題,但在視角與其他影響因素結(jié)合的復(fù)雜真實(shí)環(huán)境中的識(shí)別率仍然較低.
3)當(dāng)前的基于圖像或視頻序列的多視角步態(tài)識(shí)別多是利用步態(tài)序列疊加合成圖像構(gòu)造類能量圖模板.而圖像的合成過(guò)程中可能會(huì)丟失信息,且因涉及周期檢測(cè)等問(wèn)題,此過(guò)程中可能已經(jīng)引入了誤差,影響識(shí)別率.
1)現(xiàn)有的數(shù)據(jù)庫(kù)與真實(shí)環(huán)境中步態(tài)識(shí)別差距較大且樣本數(shù)量較少.一致的評(píng)估和性能比較需要構(gòu)造一個(gè)大型的、涵蓋各種變量、環(huán)境因素并適合實(shí)際應(yīng)用的數(shù)據(jù)庫(kù).同時(shí)構(gòu)造隱藏?cái)z像機(jī)的步態(tài)采集環(huán)境,獲取在行人未知狀態(tài)下的步態(tài)信息也是未來(lái)研究中數(shù)據(jù)庫(kù)建設(shè)的一個(gè)發(fā)展方向.
2)深度學(xué)習(xí)用更多的數(shù)據(jù)或是更好的算法來(lái)提高學(xué)習(xí)算法的結(jié)果.對(duì)某些應(yīng)用而言,深度學(xué)習(xí)在大數(shù)據(jù)集上的表現(xiàn)比其他機(jī)器學(xué)習(xí)方法都要好.其中長(zhǎng)短期記憶網(wǎng)絡(luò)(Long short term memory networks,LSTM)[89]對(duì)時(shí)序信息的處理能力為實(shí)現(xiàn)步態(tài)視頻幀序列直接輸入提供了可能性;深度學(xué)習(xí)的實(shí)現(xiàn)需要大數(shù)據(jù)集作為依托,而實(shí)際中很難采集同一行人遍歷所有不同變量的大量樣本,生成對(duì)抗網(wǎng)絡(luò)(Generative adversarial network,GAN)[90]可以通過(guò)生成的方式生成多角度、多狀態(tài)的大量不同步態(tài)樣本用于深度學(xué)習(xí)的訓(xùn)練中.
3)深度學(xué)習(xí)可以依靠深層的網(wǎng)絡(luò)結(jié)果自動(dòng)提取特征,但過(guò)深的結(jié)構(gòu)不利于參數(shù)訓(xùn)練,同時(shí)導(dǎo)致信息不斷稀釋.在深度學(xué)習(xí)中引入傳統(tǒng)的步態(tài)特征提取方法,并將兩者結(jié)合起來(lái)或許能取得更好的步態(tài)識(shí)別效果.
4)人體骨骼關(guān)鍵點(diǎn)檢測(cè)技術(shù)[91]能夠?qū)崟r(shí)的抽象出人體的比例結(jié)構(gòu)與姿態(tài)信息,而步態(tài)識(shí)別本質(zhì)也是通過(guò)行人的輪廓和運(yùn)動(dòng)姿態(tài)信息進(jìn)行識(shí)別.可考慮將提取的人體骨骼步態(tài)模板用于步態(tài)識(shí)別中,此種方法還可以避免服飾、攜帶物和遮擋帶來(lái)的影響.
5)研究中步態(tài)識(shí)別視頻數(shù)據(jù)的形式往往是采用已分割好的個(gè)體步態(tài)視頻流.實(shí)現(xiàn)個(gè)體步態(tài)視頻流的自動(dòng)截取,是未來(lái)實(shí)現(xiàn)端對(duì)端的步態(tài)識(shí)別系統(tǒng)的實(shí)際應(yīng)用的關(guān)鍵步驟.
6)步態(tài)識(shí)別僅僅利用步態(tài)信息進(jìn)行身份認(rèn)證,但每種生物特征識(shí)別都有相應(yīng)的適用場(chǎng)合,以及各自的優(yōu)缺點(diǎn).故開(kāi)發(fā)多模態(tài)系統(tǒng),代替現(xiàn)有的使用單一特征的生物特征識(shí)別,使其能在各種環(huán)境下都能提供有效的身份認(rèn)證與識(shí)別,有至關(guān)重要的意義.
步態(tài)作為生物特征識(shí)別領(lǐng)域的一個(gè)新的研究方向,多視角識(shí)別對(duì)其應(yīng)用具有極大的實(shí)際意義,近年來(lái)也引起了廣大科研工作者的廣泛關(guān)注.針對(duì)步態(tài)識(shí)別中的視角問(wèn)題,本文首先介紹了現(xiàn)有的可用于多視角步態(tài)識(shí)別的數(shù)據(jù)庫(kù),然后分別從3D模型法、視角不變特征法、映射或投影法和深度神經(jīng)網(wǎng)絡(luò)法4個(gè)方面對(duì)現(xiàn)有研究成果進(jìn)行綜述,闡述了各種方法的原理和優(yōu)缺點(diǎn);同時(shí)結(jié)合步態(tài)識(shí)別實(shí)際應(yīng)用的需求,針對(duì)現(xiàn)有工作中存在的不足,提出一些有待深入研究的問(wèn)題并指明未來(lái)的研究方向.這些問(wèn)題的解決將促使步態(tài)識(shí)別具有更寬泛的識(shí)別條件、更好的實(shí)時(shí)性與識(shí)別率,從而將步態(tài)識(shí)別真正用于實(shí)際的遠(yuǎn)距離身份判斷中.