劉艷麗 任芳
摘要:對于步態(tài)樣本不足而出現(xiàn)的過擬合現(xiàn)象,提出將注意力機制和AlexNet網(wǎng)絡(luò)相結(jié)合的識別算法。算法中對圖像作預(yù)處理后,提取步態(tài)周期的輪廓,計算步態(tài)能量圖;將注意力機制和AlexNet網(wǎng)絡(luò)相結(jié)合,有效的提取了圖像的高層信息,降低了神經(jīng)網(wǎng)絡(luò)的參數(shù),實驗結(jié)果顯示提高了測試樣本的識別率,對跨視角有較好的魯棒性,與AlexNet網(wǎng)絡(luò)實驗結(jié)果相比較,達(dá)到了理想的效果。
關(guān)鍵詞:步態(tài)能量圖;注意力機制;AlexNet;深度學(xué)習(xí)
中國分類號:TP31? ?文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2022)17-0068-02
1 引言
步態(tài)識別是一種新興的、非接觸的生物特征識別技術(shù),旨在通過走路的姿態(tài)進(jìn)行身份識別,與其他生物識別如指紋識別、人臉識別、虹膜識別相比,步態(tài)識別具有非接觸、遠(yuǎn)距離、不容易偽裝和易于獲取等優(yōu)點,不需要被測對象的配合,唯一的一種可以遠(yuǎn)距離檢測和識別的生物特征,因此是智能視頻和信息安全領(lǐng)域研究的重點和熱點[1]。
現(xiàn)有的步態(tài)識別方法主要有基于模型和基于非模型兩個類別[2],基于模型的步態(tài)識別是對行人的人體結(jié)構(gòu)或者行人運動進(jìn)行建模,通過數(shù)學(xué)建模的參數(shù)對行人步態(tài)進(jìn)行識別,如骨架模型,幾何相似模型等?;诜悄P偷牟綉B(tài)識別利用行人運動的特征和規(guī)律提取周期性輪廓特征,如步態(tài)能量圖GEI、步態(tài)流圖GFI 、幀差能量圖 (FDEI)、計時步態(tài)圖CGI、步態(tài)熵圖 (GEnI)等。
基于非模型的步態(tài)識別,對行人外在穿戴較為敏感,如果僅僅使用步態(tài)能量圖提取行人的特征,忽略了步態(tài)中時空的信息,容易產(chǎn)生樣本集偏小的過擬合問題;基于模型的步態(tài)識別,容易受到行人所處環(huán)境的影響。為了避免因為樣本不足導(dǎo)致網(wǎng)絡(luò)模型過擬合的現(xiàn)象,本文將注意力機制融入AlexNet卷積神經(jīng)網(wǎng)絡(luò)中,在 CASIA-B 數(shù)據(jù)集為訓(xùn)練樣本,提取行人運動的特征進(jìn)行步態(tài)識別,步態(tài)識別流程圖如圖1所示,實驗結(jié)果顯示,該方法提高了步態(tài)識別的魯棒性和正確率。
2 步態(tài)輪廓分割
把運動目標(biāo)步態(tài)輪廓從背景中分割出來的方法有幀差法、光流法和背景減除法,本文選取背景減除法,背景減除法提取行人輪廓,具有計算復(fù)雜度適中,速度快,輪廓邊界較清晰的特點。利用背景的參數(shù)模型來近似背景圖像的像素值,將當(dāng)前幀與背景圖像進(jìn)行差分比較,實現(xiàn)對運動區(qū)域的檢測,其中區(qū)別較大的像素區(qū)域被認(rèn)為是運動區(qū)域,而區(qū)別較小的像素區(qū)域被認(rèn)為是背景區(qū)域,提取運動物體的輪廓,然后對提取的輪廓進(jìn)行形態(tài)學(xué)和二值化處理,最后歸一化輪廓序列[3]。原圖和去除背景的圖像效果如圖2所示:
3 步態(tài)能量圖GEI
GEI是Han等人對前人做法的基礎(chǔ)上總結(jié)出來的,提出構(gòu)造步態(tài)能量圖(GEI)的設(shè)計理念,既包含行人行走的靜態(tài)信息,也包含動態(tài)信息;它是將行人一個步態(tài)周期內(nèi)的所有步態(tài)二值化提取輪廓圖像,將其均值化處理后得到行人步態(tài)輪廓圖像的平均值圖像,實現(xiàn)對步態(tài)周期進(jìn)行能量累積,步態(tài)能量圖中運動越頻繁、幅度越大,表示能量越高,則對應(yīng)的像素值就越大,反正則像素值越小,較好地反映了行人在一個周期的步態(tài)特征,包含頻率、幅度、節(jié)奏、位置等信息,并減少了視頻中步態(tài)的運算量,減低了計算的復(fù)雜度,并且GEI步態(tài)能量圖與其他的步態(tài)模板,更能準(zhǔn)確地表征行人的外在特征、速度和行走習(xí)慣等特征,對外部環(huán)境也有較好的魯棒性[4]。
步態(tài)能量圖計算公式如下:
G(x,y) =[1N t=1NFtx,y]
其中,G(x,y)為步態(tài)能量圖,N為步態(tài)視頻中序列幀數(shù),F(xiàn)t(x,y)為在t個步態(tài)序列中步態(tài)輪廓圖中坐標(biāo)為(x,y)的像素值。以頭頂為中心的步態(tài)能量圖如圖3所示:
4 基于注意力機制的卷積神經(jīng)網(wǎng)絡(luò)
4.1 注意力機制
注意力機制[5]來源于對人類視覺的研究,在復(fù)雜的信息中,注意力會集中在重要的信息上,而忽略次要信息;在計算機圖像處理中注意力機制是機器學(xué)習(xí)中的一種數(shù)據(jù)處理和資源分配方法,核心思想是突出圖像中的重要特征,關(guān)注特定的部分,提升系統(tǒng)的效果和效率。在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,注意力機制是根據(jù)數(shù)據(jù)之間的關(guān)聯(lián),賦予重要的信息權(quán)重,以凸顯其重要程度,注意力機制有通道注意力,像素注意力,多階注意力等。Squeeze-and-Excitation Networks(SENet)是由自動駕駛公司Momenta在2017年公布的一種全新的圖像識別結(jié)構(gòu),它通過對特征通道間的相關(guān)性進(jìn)行建模,把重要的特征強化,次要特征弱化來提升準(zhǔn)確率。SENet工作原理如圖4所示,主要包含壓縮操作和激勵操作。
壓縮設(shè)計( Squeeze)通過卷積獲得和池化后圖像特征維度為H*W*C,H為Height,W為width,C為channel。壓縮操作的過程就是將H*W*C壓縮為1*1*C,把二位的特征通道轉(zhuǎn)換為一個實數(shù)列,一維的實數(shù)獲得了二維參數(shù)的全局感知野,輸出的維度和輸入特征的通道數(shù)一致,表示在輸出特征通道上響應(yīng)全局感知野。
激勵設(shè)計(Excitation)將壓縮操作后得到的1*1*C實數(shù)列,加入一個全連接層,預(yù)測每個通道的重要性,得到特征通道權(quán)重和特征通道之間的相關(guān)性,最后將特征通道權(quán)重添加到圖像特征上,完成對圖像特征的重標(biāo)定。
4.2 基于注意力機制的卷積神經(jīng)網(wǎng)絡(luò)
深度學(xué)習(xí)在聲音、圖像、視頻等識別領(lǐng)域有較好的效果,通過端到端的訓(xùn)練方式,自主學(xué)習(xí)樣本的淺在特征,尋找樣本的內(nèi)在規(guī)律和表示層次,從而獲得樣本深層次的、隱藏的特征。深度學(xué)習(xí)經(jīng)典模型之一的卷積神經(jīng)網(wǎng)絡(luò)受人類視覺神經(jīng)系統(tǒng)啟發(fā),通過卷積層和池化層提取樣本特征,在網(wǎng)絡(luò)訓(xùn)練過程中,前饋機制不斷更新卷積核的參數(shù)值,最終獲得合適的權(quán)值,卷積和池化簡化了神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜度,有效減少了模型的參數(shù),減低了過擬合的風(fēng)險,得到了廣泛應(yīng)用。
AlexNet是卷積神經(jīng)網(wǎng)絡(luò)的一個模型,由Hinton和學(xué)生Alex Krizhevsky設(shè)計,參加2012年ImageNet競賽獲得冠軍,AlexNet網(wǎng)絡(luò)是由5個卷積層,有些卷積層后是最大池化層,3個全連接層,原理是基于卷積神經(jīng)網(wǎng)絡(luò),并探究了更深層次的網(wǎng)絡(luò),激活函數(shù)用ReLU代替;使用最大池化代替平均池化,減少模糊化效果。卷積層使用非線性激活函數(shù)RELU,特征映射公式如下:
Ft = ReLU(WtUFt-1+βt)
ReLU(x) = max(0,x)
池化層模仿人類的視覺系統(tǒng)進(jìn)行降維操作,提取圖像更高層次的特征,常用池化操作有平均池化和最大池化,AlexNet網(wǎng)絡(luò)采用最大池化,即選取圖像區(qū)域中的最大值作為池化后的值?;谧⒁饬C制的AlexNe卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
5 步態(tài)識別實驗及分析
本實驗使用的步態(tài)數(shù)據(jù)是由中國科學(xué)院自動化研究所提供的專門用于步態(tài)研究的CASIA數(shù)據(jù)庫,CASIA-B是多視角的大規(guī)模步態(tài)庫,共有124位行人步態(tài)數(shù)據(jù),分別從11個角度(0°、18°、36°、54°…180°)和三種狀態(tài)(正常、穿大衣、背包)步態(tài)采集,其中正常狀態(tài)(NM)每人6組步態(tài)序列,穿大衣狀態(tài)(CL)每人2組步態(tài)序列,背包狀態(tài)(BG)每人2組序列。提取每個人在每種狀態(tài)每個角度的步態(tài)能量圖。本實驗在AlexNet卷積神經(jīng)網(wǎng)絡(luò)中加入了注意力機制,提高對步態(tài)信息中重要信息的關(guān)注,因為步態(tài)樣本不足單純的卷積神經(jīng)網(wǎng)絡(luò)在卷積和池化操作中容易丟失步態(tài)圖像的重要信息,在識別過程中出現(xiàn)過擬合現(xiàn)象;選取CASIA-B步態(tài)數(shù)據(jù)庫中80位行人步態(tài)數(shù)據(jù)作為訓(xùn)練樣本,44位行人步態(tài)數(shù)據(jù)作為測試樣本。
對圖片進(jìn)行預(yù)處理操作,便于提高網(wǎng)絡(luò)的泛化能力和識別效率,將圖片尺寸規(guī)格調(diào)整為227*227*3。AlexNet網(wǎng)絡(luò)的超參數(shù)的初始值是隨機生成的,在網(wǎng)絡(luò)的訓(xùn)練過程中,根據(jù)卷積神經(jīng)網(wǎng)絡(luò)的反饋機制不斷更新網(wǎng)絡(luò)模型的超參數(shù),經(jīng)過反復(fù)實驗最終得到最佳超參數(shù)值,本實驗最終的超參數(shù)值為:迭代次數(shù)為48,步長為96,學(xué)習(xí)率為0.0089。
將80位行人在不同角度的步態(tài)能量圖輸入網(wǎng)絡(luò)訓(xùn)練網(wǎng)絡(luò)模型,網(wǎng)絡(luò)模型訓(xùn)練結(jié)束后,將測試樣本中44位行人的圖像輸入到網(wǎng)絡(luò)模型中進(jìn)行步態(tài)識別。本實驗在使用訓(xùn)練樣本進(jìn)行迭代后得到網(wǎng)絡(luò)模型后,將測試樣本對訓(xùn)練好的網(wǎng)絡(luò)模型進(jìn)行驗證,在各個視角三種狀態(tài)(正常、穿大衣、背包)情況下的跨視角的平均識別率如表1所示。
從網(wǎng)絡(luò)模型訓(xùn)練過程中得出,在第8次迭代過程后,訓(xùn)練樣本準(zhǔn)確率明顯上升;第8-32次的迭代過程,訓(xùn)練樣本準(zhǔn)確率呈現(xiàn)急速提高的態(tài)勢,迭代32-48次的迭代過程,訓(xùn)練樣本準(zhǔn)確率上升緩慢,并達(dá)到最大識別率。
通過CASIA-B數(shù)據(jù)庫樣本實驗,AlexNet卷積神經(jīng)網(wǎng)絡(luò)對于測試樣本的識別正確率在迭代55次就達(dá)到了85.9%,但是驗證樣本的正確率只有69%,出現(xiàn)了過擬合的情況,究其原因有兩個,一是數(shù)據(jù)庫樣本數(shù)量不足,每個人只有三種狀態(tài)11個角度步態(tài)信息;二是參數(shù)過多,AlexNet卷積網(wǎng)絡(luò)參數(shù)達(dá)到了6000多萬個,神經(jīng)元達(dá)到了60多萬個;本實驗將注意力機制加入到了AlexNet卷積網(wǎng)絡(luò)中,注意力機制增強高層重要的卷積特征圖通道,抑制不重要的卷積特征圖通道,降低卷積參數(shù)的維數(shù),提高識別速度和正確率,提高步態(tài)識別的魯棒性。
而本實驗基于注意力機制的AlexNet卷積網(wǎng)絡(luò)模型,經(jīng)過48次迭代后,平均識別率達(dá)到了87.7%,其中對于正常狀態(tài)下的步態(tài)識別準(zhǔn)確率達(dá)到95.6%,背包準(zhǔn)確率達(dá)到84.4%,穿大衣準(zhǔn)確率達(dá)到83.2%。比AlexNe卷積網(wǎng)絡(luò)模型的平均識別率高出1.8%,正常狀態(tài)下識別率高出2.5%,背包狀態(tài)識別率高出1.6%,大衣識別率高出1.3%,表明了注意力模型有效的提取了高層的特征,抑制了次要的特征。而正常狀態(tài)識別率遠(yuǎn)遠(yuǎn)高于其他兩種狀態(tài),是因為在CASIA-B步態(tài)數(shù)據(jù)庫中正常狀態(tài)的圖片數(shù)量要遠(yuǎn)遠(yuǎn)高于背包和穿大衣的數(shù)量,所以正常狀態(tài)圖片對網(wǎng)絡(luò)模型影響較大,對正常步態(tài)識別率較高,而對于背包和穿大衣的識別率就受到影響。
6結(jié)論
通過步態(tài)識別行人,不需要刻意地配合,不受距離遠(yuǎn)近等客觀因素的影響,同時步態(tài)識別又是復(fù)雜的過程,受到行人穿戴狀態(tài)的影響,所以需要更多的圖像來訓(xùn)練網(wǎng)絡(luò)模型,本文通過提取步態(tài)周期,并生成步態(tài)能量圖,將注意力機制融入了AlexNet卷積神經(jīng)網(wǎng)絡(luò),有效減少了參數(shù),降低了過擬合現(xiàn)象,在步態(tài)數(shù)據(jù)缺乏的情況下,提高了步態(tài)識別準(zhǔn)確率。
參考文獻(xiàn):
[1] 王新年,胡丹丹,張濤,等.姿態(tài)特征結(jié)合2維傅里葉變換的步態(tài)識別[J].中國圖象圖形學(xué)報,2021,26(4):796-814.
[2] 趙黎明,張榮,張超越.基于深度學(xué)習(xí)的3D時空特征融合步態(tài)識別[J].傳感器與微系統(tǒng),2021,40(2):23-25,29.
[3] 閆河,羅成,李煥,等.基于步態(tài)能量圖與VGG結(jié)合的步態(tài)識別方法[J].重慶理工大學(xué)學(xué)報(自然科學(xué)),2020,34(5):166-172.
[4] 李凱,曹可凡,沈皓凝.基于步態(tài)序列的跨視角步態(tài)識別[J].河北大學(xué)學(xué)報(自然科學(xué)版),2021,41(3):311-320.
[5] 胡少暉,王修暉.結(jié)合注意力卷積網(wǎng)絡(luò)與分塊特征的步態(tài)識別[J].計算機工程與應(yīng)用,2022,58(3):266-273.
收稿日期:2022-01-13
作者簡介:劉艷麗(1979—),女,河南新野縣人,講師,碩士,研究方向為模式識別與人工智能;任芳(1993—),女,甘肅張掖人,講師,碩士,研究方向為圖形圖像處理。