趙 國(guó) 順 ,方 建 安 ,瞿 斌 杰 ,Samah A.F.Manssor,孫 韶 媛
(1.東華大學(xué) 信息科學(xué)與技術(shù)學(xué)院,上海201620;2.數(shù)字化紡織服裝技術(shù)教育部工程研究中心,上海201620)
步態(tài)特征,通俗來(lái)說(shuō)就是人行走時(shí)的姿態(tài)外觀,具體包括手臂、大腿、小腿等身體輪廓的變化,由于步態(tài)的采集不需要與被識(shí)別者有物理上的接觸,也不需要近距離的接觸,因此應(yīng)用場(chǎng)景比較完善。 醫(yī)學(xué)研究表明,每一個(gè)人的步態(tài)都有自己的形態(tài),具有唯一性[1],使用步態(tài)識(shí)別具有一定的安全性,不會(huì)導(dǎo)致信息的錯(cuò)誤。 將步態(tài)識(shí)別技術(shù)應(yīng)用于當(dāng)今智能監(jiān)控領(lǐng)域,可以在多場(chǎng)景下對(duì)人員進(jìn)行監(jiān)控,防止意外情況發(fā)生,也有利于鎖定犯罪嫌疑人,節(jié)省人力物力。
目前,關(guān)于步態(tài)識(shí)別的方法主要有兩種。 一種是基于步態(tài)模板的方法,主要是通過(guò)構(gòu)建步態(tài)特征,比如關(guān)節(jié)點(diǎn)的位置變化、重心的起伏周期等幾何數(shù)字特征,將一個(gè)人的行走視頻序列壓縮成一個(gè)模板,然后通過(guò)匹配待預(yù)測(cè)行人的步態(tài)與模板的相似度進(jìn)行識(shí)別[2-4]。 另一種方法是通過(guò)深度學(xué)習(xí)直接抽取原始圖像序列的步態(tài)信息,通過(guò)深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)高維時(shí)空信息來(lái)匹配行人的步態(tài),這種方法不需要大量精細(xì)的特征構(gòu)建,是一種端到端的識(shí)別方法[5-7]。
雖然基于步態(tài)模板的方法取得了一定的準(zhǔn)確率,但是這種特征構(gòu)造方法復(fù)雜,而且受角度、環(huán)境、穿著變化影響較大,同時(shí)這種特征缺失了時(shí)空信息的抽取,在精度上具有一定的限制性。 深度學(xué)習(xí)方法是一種端到端的學(xué)習(xí)方法,魯棒性強(qiáng),易于操作,但是由于模型參數(shù)巨大,如何保證準(zhǔn)確性與實(shí)時(shí)性成了關(guān)鍵。
本文基于深度學(xué)習(xí)的方法,改良了三維卷積網(wǎng)絡(luò)(C3D)的網(wǎng)絡(luò)結(jié)構(gòu),提出頻域注意力卷積操作,主要通過(guò)劃分頻域空間,引進(jìn)頻域卷積。 同時(shí)另一個(gè)創(chuàng)新主要是注意力機(jī)制的引入,這使得網(wǎng)絡(luò)更加關(guān)注不同步態(tài)之間的不同,調(diào)整步態(tài)分布的重要性,提升網(wǎng)絡(luò)學(xué)習(xí)效果。 經(jīng)由中科大數(shù)據(jù)集CASIA dataset B 檢測(cè),本文方法在跨視角實(shí)驗(yàn)和方法對(duì)比實(shí)驗(yàn)中具有提升。
針對(duì)圖像的高低頻域所對(duì)應(yīng)信息特點(diǎn),引入頻域卷積的思想,同時(shí)根據(jù)注意力機(jī)制的思想,針對(duì)不同信息給予不同注意力。 通過(guò)頻域卷積思想,可以進(jìn)一步減少冗余信息的干擾,同時(shí)注意力的加入有利于增強(qiáng)模型的學(xué)習(xí)能力,達(dá)到精簡(jiǎn)結(jié)構(gòu)、提升網(wǎng)絡(luò)能力的效果。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)生成的特征圖的空間維度上存在大量冗余,其中每個(gè)位置獨(dú)立存儲(chǔ)自己的特征描述符,而忽略了可以一起存儲(chǔ)和處理的相鄰位置之間的公共信息。 自然圖像可以分解為描述平滑變化的結(jié)構(gòu)的低頻分量和描述快速變化的精細(xì)細(xì)節(jié)的高頻分量[8-9]。同樣,如果卷積層的輸出特征圖也可以分解為不同空間頻率的特征,高頻和低頻特征如何映射到不同頻率特征的組這一信息將會(huì)被CNN 學(xué)習(xí)到,通過(guò)在相鄰位置之間共享信息以減少空間冗余,可以安全地降低低頻組的空間分辨率。
為此,本文引入頻域卷積(OctConv),流程如圖1所示。 頻域卷積將輸入和輸出分為高頻、低頻兩個(gè)部分,在進(jìn)行卷積操作的時(shí)候分別進(jìn)行交互,輸出的特征圖同樣分為高頻與低頻兩個(gè)部分,尺寸與輸入相同。 具體公式如下:
注意力已經(jīng)被廣泛用作序列建模的計(jì)算模塊,因?yàn)樗哂胁东@長(zhǎng)距離交互的能力,針對(duì)視覺(jué)任務(wù)已經(jīng)提出了多種注意力機(jī)制, 以解決卷積的弱點(diǎn)。例如,Gather-Excite[10]和Squeeze-and-Excitation[11]使用從整個(gè)特征圖抽取信號(hào)重新賦值特征通道,而BAM[12]和CBAM[13]在通道和空間維度上獨(dú)立地定義卷積特征。 在非局部神經(jīng)網(wǎng)絡(luò)中[14],通過(guò)在卷積架構(gòu)中使用一些采用自注意力的非局部殘差塊,使視頻分類和目標(biāo)檢測(cè)得到了改進(jìn)。 但是,非局部模塊僅在ImageNet 預(yù)訓(xùn)練之后才添加到網(wǎng)絡(luò)結(jié)構(gòu)中,并以不破壞預(yù)訓(xùn)練的方式進(jìn)行初始化。
圖1 頻域卷積示意圖
給定尺寸為(H,W,F(xiàn)in)的輸入張量,將其展平為矩陣X∈RHW×Fin, 按照Transformer 體系結(jié)構(gòu)中的多頭注意力結(jié)構(gòu)[15],單頭h 的自我注意機(jī)制的輸出可以表示為:
然后將所有頭部的輸出連接并再次拼接,如下所示:
其中Wo∈Rdv×dv是學(xué)習(xí)的線性變換。 然后將MHA(X)重塑為(H,W,dv)形狀的張量以匹配原始空間尺寸。 多頭注意力會(huì)導(dǎo)致O((HW)2dk)的復(fù)雜性和O((HW)Nh2)的存儲(chǔ)成本提高,因?yàn)樗枰鎯?chǔ)每個(gè)頭的注意力圖。
注意力是一種對(duì)于圖像局部信息重要性的一種度量,在圖像特征中對(duì)于高頻和低頻應(yīng)該有著不同的注意力,同時(shí)對(duì)于不同時(shí)間的步態(tài)應(yīng)該也有著不同的注意力。 在引入注意力機(jī)制后,有利于學(xué)習(xí)步態(tài)的時(shí)間和空間信息,而且有利于進(jìn)一步減少冗余信息的學(xué)習(xí)。 因此,本文在頻率卷積的基礎(chǔ)上結(jié)合注意力機(jī)制提出頻率注意力卷積模塊。
改進(jìn)的頻率注意力模塊結(jié)構(gòu)如圖2 所示,輸入HIGH:H ×W ×αC,LOW:0.5H ×0.5W ×(1 -α)C, 由Oct-Conv 卷積生成Q、K、V 頻率特征圖,其尺寸分別為:
圖2 頻域注意力卷積流程示意圖及模塊結(jié)構(gòu)
其中,head-h 表示每個(gè)頭部的高頻特征輸出尺寸,head-l 表示每個(gè)頭部的低頻特征輸出尺寸。 經(jīng)過(guò)試驗(yàn)發(fā)現(xiàn),多頭注意力相比較單注意力機(jī)制具有更好的表現(xiàn)能力,故采用Nh=2 的多頭注意力機(jī)制,將兩個(gè)頻率注意力頭部進(jìn)行拼接操作,得到多頭頻率注意力特征圖MFHA(Multiple Frequency Head Attention)尺寸為:
為了提高精度,防止由于注意力機(jī)制忽略對(duì)于某些位置信息的學(xué)習(xí),將原始輸入經(jīng)過(guò)Oct-Conv 得到頻率特征圖:
其中,Oct-Conv-High 表示頻率卷積高頻輸出特征圖尺寸,F(xiàn)out表示頻率卷積輸出通道數(shù),Oct-Conv-Low 表示頻率卷積低頻輸出特征圖尺寸。 將其與MFHA 進(jìn)行拼接,得到結(jié)合頻率信息與注意力信息的特征圖,輸出尺寸為:
其中,HIGH 表示Atten-Oct-CNN 高頻輸出尺寸,LOW 表示Atten-Oct-CNN 低頻輸出尺寸。
圖3 改進(jìn)的C3D 步態(tài)識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)圖
給定3DCNN 塊的局部時(shí)空特征, 可以認(rèn)為3DCNN 模塊關(guān)注了值得注意的時(shí)空的顯著空間信息區(qū)域。 另一方面,由于頻域注意力卷積會(huì)將特征圖劃分為高頻和低頻兩個(gè)部分,故當(dāng)首次輸入到頻域注意力卷積First-3D 模塊中時(shí),內(nèi)部會(huì)將低頻通道進(jìn)行池化以縮小特征圖尺寸。 當(dāng)輸入Media-3D 中時(shí),將進(jìn)行正常頻域卷積操作,而輸入Last-3D 中會(huì)將低頻部分上采樣進(jìn)行尺寸恢復(fù)。 本文使用C3D網(wǎng)絡(luò)作為主體,引入硬線層[16]劃分輸入,使用三個(gè)3DCNN 層, 同時(shí)將里面的三維3DCNN 更換為本文改進(jìn)的卷積模塊,全連接改為FC-512、FC-124,具體網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。
本文實(shí)驗(yàn)使用Pytorch 框架,實(shí)驗(yàn)的軟硬件環(huán)境如表1 所示。
表1 實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)使用中科院自動(dòng)化所公開的大型步態(tài)數(shù)據(jù)庫(kù)CASIA dataset B。 該數(shù)據(jù)庫(kù)包含124 個(gè)行人,每個(gè)行人有11 個(gè)視角,分別從0°~180°每18°產(chǎn)生一個(gè)步態(tài)序列,每個(gè)視角下有三種步態(tài)狀態(tài),分別為正常狀態(tài)(Normal)、穿大衣狀態(tài)(Coat)以及背包狀態(tài)(Bag)。
實(shí)驗(yàn)都是在同種狀態(tài)下進(jìn)行對(duì)比,Normal 狀態(tài)下有6 個(gè)序列01~06,其中01~04 序列用來(lái)訓(xùn)練模型,05~06 用來(lái)測(cè)試網(wǎng)絡(luò)模型;Bag 狀態(tài)有兩個(gè)序列01~02,01 序列作為訓(xùn)練集,02 序列作為測(cè)試樣本;Coat 狀 態(tài) 有 兩 個(gè) 序 列01 ~02,01 序 列 作 為 訓(xùn) 練 樣本,02 序列作為測(cè)試樣本。
實(shí)驗(yàn)采用了GenI、GPPE、STIPS 與Deep CNN 作為對(duì)比方法,在Normal、Bag 與Coat 三種狀態(tài)下,這幾種方法Normal 狀態(tài)識(shí)別準(zhǔn)確率最高均為90%以上。而初始準(zhǔn)確率最低的穿大衣狀態(tài)起初只有50%多的準(zhǔn)確率,隨著方法的創(chuàng)新,Deep CNN 已經(jīng)達(dá)到89%的準(zhǔn)確率。 最后在本文方法下,正常狀態(tài)下準(zhǔn)確率提高了0.3%,背包狀態(tài)下提升了4.7%,穿大衣狀態(tài)下提高了3.7%。實(shí)驗(yàn)結(jié)果對(duì)比如表2 所示。
表2 不同狀態(tài)下各方法實(shí)驗(yàn)結(jié)果對(duì)比 (%)
進(jìn)一步地,檢查每個(gè)角度下單獨(dú)的準(zhǔn)確率可以發(fā)現(xiàn),Normal 狀態(tài)比較均衡,在126°時(shí)有略微下降,在18°~108°之間本文方法具有顯著提升,這表明注意力比原先對(duì)于這兩個(gè)角度有了較多關(guān)注。 同時(shí)Bag狀態(tài)提升較為明顯,在28°、54°、90°與144°分布與Deep CNN 分布不同,注意力重新劃分。 Coat 狀態(tài)下的分布規(guī)律較為一致,同時(shí)在頻域卷積的強(qiáng)大學(xué)習(xí)力下準(zhǔn)確率有很大的提升。各視角準(zhǔn)確率曲線如圖4 所示。
由于傳統(tǒng)基于步態(tài)模板的識(shí)別方法對(duì)于圖像的預(yù)處理較多,大多使用步態(tài)能量圖(GEI)模板,而GEI 對(duì)于時(shí)間維度上步態(tài)的先后順序沒(méi)有要求,缺失了時(shí)間維度上的重要信息,本文通過(guò)硬線層將輸入劃分為5 組圖像序列進(jìn)行輸入, 結(jié)合三維卷積的時(shí)空信息抽取能力, 實(shí)現(xiàn)了一種端到端的學(xué)習(xí)方法。 同時(shí)針對(duì)普通網(wǎng)絡(luò)參數(shù)量大、 步態(tài)特征的重要性分布不均提出一種頻域注意力卷積的操作方法, 通過(guò)合理分配網(wǎng)絡(luò)學(xué)習(xí)的注意力分布,同時(shí)劃分頻域特征,大大減小了冗余信息。 通過(guò)在CASIA dataset B 的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn), 發(fā)現(xiàn)本文方法在相同狀態(tài)下的識(shí)別準(zhǔn)確率具有顯著提升, 同時(shí)對(duì)于每種狀態(tài)的不同角度也有一定的準(zhǔn)確率提升。
圖4 各視角準(zhǔn)確率曲線