艾 達,王 倩,樊煒鑫,郝 瑞,劉 穎
(1.西安郵電大學(xué) 公安部電子信息勘驗應(yīng)用技術(shù)實驗室,陜西 西安 710121;2.西安郵電大學(xué) 通信與信息工程學(xué)院,陜西 西安 710121)
隨著智能手機的普及,基于智能手機傳感器的人體行為識別逐漸成為研究熱點。人體行為識別(human activity recognition,HAR)[1]是通過分析人類活動的運動信息,從而對運動行為進行分類認識,已廣泛應(yīng)用在人機交互、醫(yī)療輔助和公共安全等領(lǐng)域。
根據(jù)使用設(shè)備和檢測方法的不同,人體行為識別可分為基于計算機視覺和基于智能終端傳感器兩種方法。基于計算機視覺方法是從監(jiān)控設(shè)備中獲取人體運動信息,并對獲取的圖像或視頻進行處理,但這種方法會受到光照條件不同、視角多樣性和空間復(fù)雜等諸多因素的影響[2];基于智能終端傳感器方法通過分析手持式傳感器、穿戴式傳感器和智能手機多傳感器,獲取傳感器數(shù)據(jù)進行分析,具有設(shè)備體積小、功能豐富和人體活動數(shù)據(jù)采集便捷等優(yōu)點[3]。
智能手機相對于其他終端設(shè)備,能夠同時完成數(shù)據(jù)的采集、處理、傳輸和接收[4],并能與其他設(shè)備或傳感器連接[5],已在人體行為識別技術(shù)中取得了一定的進展。本文通過歸納智能手機傳感器數(shù)據(jù)采集和處理方法,總結(jié)現(xiàn)有人體行為特征的提取和分類方法,討論基于機器學(xué)習(xí)和深度學(xué)習(xí)各類算法的優(yōu)缺點。對比常用的手機傳感器行為數(shù)據(jù)集,展望基于智能手機傳感器的行為識別技術(shù)在刑偵領(lǐng)域的應(yīng)用,指出人體行為識別技術(shù)的發(fā)展趨勢。
智能手機開發(fā)過程中,開發(fā)板上集成傳感器類型在最初的加速度傳感器、重力傳感器、陀螺儀、距離傳感器、壓力傳感器、磁力傳感器和光感應(yīng)器等8種傳感器的基礎(chǔ)上,又集成了霍爾感應(yīng)器、電子羅盤、指紋識別、面部識別等傳感器,各傳感器功能介紹如表1所示。利用嵌入智能手機的多傳感器進行數(shù)據(jù)采集,給獲取數(shù)據(jù)提供了高效便捷的方式。
表1 常用多傳感器功能介紹
目前,利用傳感器進行行為識別較為常用的方法是從加速度傳感器和陀螺儀進行數(shù)據(jù)采集,從中提取特征,建立行為識別模型[6]。利用獨立加速度傳感器采集步態(tài)特征數(shù)據(jù),驗證了基于加速度傳感器進行人體識別的可行性[7];結(jié)合加速度和陀螺儀傳感器,可實時讀取人體運動的加速度和角速度信息,從而識別跌倒行為[8];通過增加光線傳感器和距離傳感器,可在行為識別過程中表現(xiàn)出較強的特征代表,提高識別準(zhǔn)確率[9];增加壓力傳感器,采集人體足部的運動數(shù)據(jù)進行分析,進而識別行為運動[10]。
數(shù)據(jù)采集過程中由于受到外界環(huán)境和人為誤差等因素干擾,傳感器原始數(shù)據(jù)通常含有噪聲(缺失值、錯誤值或異常值等),并且數(shù)據(jù)量較大,持續(xù)時間較長[11],因此,需對原始數(shù)據(jù)進行預(yù)處理。常用的數(shù)據(jù)預(yù)處理方法主要為數(shù)據(jù)濾波和加窗分割。
數(shù)據(jù)濾波是為了清除傳感器原始數(shù)據(jù)中的噪聲,使數(shù)據(jù)更接近實際值。使用信號處理領(lǐng)域常用特定濾波技術(shù)可以消除噪聲以及平滑數(shù)據(jù),主要方法有低通濾波、巴特沃斯濾波、卡爾曼濾波和滑動均值濾波等。
加窗分割有助于解決人體行為活動持續(xù)時間不同,活動準(zhǔn)確邊界難以界定的問題。常用的數(shù)據(jù)分割方法為滑動窗口法[12],窗口理想大小是在時間為2~5 s、頻率為20~50 Hz之間變化。
傳感器數(shù)據(jù)是由一系列信號組成,需對其進行數(shù)據(jù)轉(zhuǎn)換后提取特征,通過構(gòu)建特征向量再進行識別。特征提取方法主要包括時域特征提取和頻域特征提取兩大類。
特征選擇是在獲取到行為活動的各種特征后,選擇適合表征的特定行為構(gòu)成運動行為識別所需的特征向量。例如,文獻[13]通過分析特征的信息增益和每個特征之間的相互關(guān)系,提取重要特征;文獻[14]將多特征融合技術(shù)應(yīng)用于特征提取步驟。
特征通常維數(shù)較高,數(shù)量過多,導(dǎo)致行為識別過程變得復(fù)雜,所以要對數(shù)據(jù)進行降維。常見降維方法主要有主成分分析法(principal component analysis,PCA)[15]、線性判別分析法(linear discriminant analysis,LDA)[16]以及核判別分析法(kernel discriminant analysis,KDA)[17]。例如,利用非參數(shù)加權(quán)特征提取方法結(jié)合PCA減小慣性信號的特征尺寸,降低了慣性信號的特征維數(shù)[15];提取原始傳感器數(shù)據(jù)時域特征,利用KDA對非線性重要特征進行鑒別,達到了降維目的[17];從原始傳感器數(shù)據(jù)中提取時域和頻域特征,結(jié)合LDA可大幅度降低特征向量維數(shù)[18]。
在特征提取工作中,利用PCA的降維方法使用較為廣泛,降維的計算開銷小,適合于無監(jiān)督學(xué)習(xí)分類;LDA主要以類別為主要因素,生成的特征適合于有監(jiān)督學(xué)習(xí)分類,但LDA可能會過度擬合數(shù)據(jù);KDA可以對非線性重要特征進行標(biāo)記處理,以提高識別精度[15]。
分類算法通過生成分類模型推斷人體行為活動,從特征提取角度可分為傳統(tǒng)機器學(xué)習(xí)算法(人工特征提取)和深度學(xué)習(xí)算法(自動特征提取)。
2.2.1 基于傳統(tǒng)機器學(xué)習(xí)算法
目前傳統(tǒng)機器學(xué)習(xí)算法有支持向量機(support vector machine,SVM)、決策樹(decision tree,DT)、樸素貝葉斯(naive bayes,NB)和K近鄰(K-nearest neighbor,KNN)算法等。
SVM[19]是一種廣泛使用的監(jiān)督學(xué)習(xí)模型,其基本思想是通過非線性變換將數(shù)據(jù)從原空間映射到高維空間,然后在這個高維空間構(gòu)造線性分類器,常用于解決二分類問題。例如,利用歐拉角法解決傳感器坐標(biāo)系漂移問題時,結(jié)合SVM可對用戶步態(tài)特征變化進行分類識別[20];將提取加速度計數(shù)據(jù)的自回歸系數(shù)作為活動識別的特征,利用SVM對跑步、站立、跳躍和行走等人類活動行為進行分類識別,取得了良好的識別效果[20]。
DT[21]是一種高效的分類算法,其基本思想是構(gòu)建一個樹狀的層次決策圖,每個非葉子節(jié)點表示特征屬性的判斷條件,每個分支表示在其父節(jié)點上特征屬性分類的結(jié)果,葉子節(jié)點表示所判定的最終類別,它的復(fù)雜程度只與樹的層數(shù)有關(guān)。文獻[22]利用加速度計,構(gòu)建了基于DT算法的位置無關(guān)的活動識別模型,對五類日常行為分類取得了較好識別效果。
NB是一種基于統(tǒng)計的分類算法,其基本思想是通過計算待分類數(shù)據(jù)在各類別中的概率,判定的類別即為概率最大類別。文獻[23]采用NB算法,計算每個日常行為動作的閾值,提高動作識別的準(zhǔn)確率。
KNN[24]算法的基本思想是通過計算待測樣本與實際樣本間的歐式距離,統(tǒng)計距離最小的k個樣本所屬類別,待測樣本的類別即為出現(xiàn)頻率最高的類別。文獻[25]提取了5種不同步行運動時足底壓力數(shù)據(jù)的特征,利用KNN實現(xiàn)對步行、跑步和跳躍等不同行走類型的分類識別,結(jié)果較為理想。
傳統(tǒng)機器學(xué)習(xí)算法優(yōu)缺點如表2所示。
表2 傳統(tǒng)機器學(xué)習(xí)算法性能的優(yōu)缺點
由表2可知,在傳統(tǒng)機器算法中,進行傳感器缺失數(shù)據(jù)處理時,NB和KNN對缺失數(shù)據(jù)不敏感,穩(wěn)定性較優(yōu),而SVM對缺失數(shù)據(jù)較敏感,穩(wěn)定性較差;對站立、靜坐和躺下等靜止行為識別時,SVM性能優(yōu)于DT和NB;對跑步、跳躍和步行等動態(tài)行為識別時,KNN性能優(yōu)于其他算法,DT 性能較差;對步行和慢跑等特征較為相似行為識別時,KNN 性能最優(yōu),SVM和NB性能較差。
2.2.2 基于深度學(xué)習(xí)算法
深度學(xué)習(xí)方法[27]與傳統(tǒng)模式識別方法的最大不同在于,改變了傳統(tǒng)方法的提取和特征選擇步驟,在分類模型訓(xùn)練時可以自動生成特征,而非采用手工設(shè)計的特征,針對復(fù)雜場景和數(shù)據(jù)類型能更準(zhǔn)確地表征真實人體行為特征[28]。
目前常用的分類算法有卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network ,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network ,RNN)、長短期記憶網(wǎng)絡(luò)(long short-term memory ,LSTM)和受限玻爾茲曼機(restricted boltzmann machine ,RBM)。
CNN處理運動數(shù)據(jù)時,可采集相同時間內(nèi)多個傳感器通道的數(shù)據(jù),將一維的時間列重組成“圖像”數(shù)據(jù)輸入網(wǎng)絡(luò)。利用遞歸圖捕獲時間序列動態(tài)特征,結(jié)合CNN對動態(tài)特征進行活動分類,對步行、上樓和下樓等動態(tài)活動識別效果較好[29];利用CNN進行局部特征提取,分析時間序列長度對識別精度的影響,可對連續(xù)的實時活動進行分類[30]。
RNN是一種具有記憶功能的網(wǎng)絡(luò),它能夠存儲過去的輸入,并在當(dāng)前時間產(chǎn)生所需的輸出,但是無法訓(xùn)練較長的時間序列數(shù)據(jù),容易出現(xiàn)梯度消失問題[31]。
三電平逆變器在通信電源的AC-DC變換、DC-DC變換和DC-AC變換以及高壓大功率交流電源(UPS)等領(lǐng)域得到了廣泛的應(yīng)用[1-2]。
LSTM和RNN結(jié)構(gòu)相似,解決了RNN結(jié)構(gòu)中梯度點消失的問題,可以長時間保存信息。通過建立LSTM網(wǎng)絡(luò),自動選擇對分類有決定性影響的時間序列,獲取最重要的時間相關(guān)性特征作為網(wǎng)絡(luò)輸入,可提高識別的精確度[32];利用多層LSTM網(wǎng)絡(luò)從原始傳感器數(shù)據(jù)中自動提取時間序列特征,并增加 LSTM并行單元以降低計算復(fù)雜度[33];建立基于LSTM-RNN深度神經(jīng)結(jié)構(gòu)識別結(jié)構(gòu)模型,結(jié)合二者優(yōu)點,對6種行為進行實時預(yù)測,并具有較好的泛化能力[34]。
RBM是一種隨機神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)的神經(jīng)元節(jié)點被激活時會有隨機行為,隨機取值。通過建立RBM網(wǎng)絡(luò),在特征提取之前利用訓(xùn)練數(shù)據(jù)訓(xùn)練模型,確定模型參數(shù),能較好地提取局部特征,對拳擊和拍手等較為復(fù)雜行為的識別效果優(yōu)于傳統(tǒng)算法[35];通過歸一化訓(xùn)練數(shù)據(jù)的特征(方差和均值),利用RBM網(wǎng)絡(luò)訓(xùn)練,達到了較好地識別效果[36]。
深度學(xué)習(xí)算法的優(yōu)缺點如表3所示。
表3 深度學(xué)習(xí)算法性能的優(yōu)缺點
由表3可知,在深度學(xué)習(xí)算法中,CNN對重復(fù)性動態(tài)行為分類效果最優(yōu);RNN對跳躍和下蹲等識別短時行為分類效果最優(yōu);LSTM對跑步、步行、上樓和下樓等長時間周期性行為分類效果最優(yōu);RBM對打拳和拍手等復(fù)雜行為分類效果最優(yōu),對步行和慢跑等特征較為相似行為分類效果較差。
目前國內(nèi)外有多個公開人體行為數(shù)據(jù)集,使用公共數(shù)據(jù)庫能方便地驗證相關(guān)算法的可行性及對比不同算法的性能,手機傳感器常用的公開數(shù)據(jù)集如表4所示。
表4 手機傳感器常用公開數(shù)據(jù)集
除此之外,還有瑞士洛桑理工學(xué)院的OPPORTUNITY數(shù)據(jù)集[41],主要記錄日常手勢、生活和運動行為;社區(qū)密集活動數(shù)據(jù)集PlaceLab[42],可提供長期的日?;顒有袨橛涗?。
在常用數(shù)據(jù)庫中,為更好的表征人體行為特性,實驗通常使用加速度傳感器和陀螺儀進行數(shù)據(jù)采集,且大多數(shù)都為步行、跑步、上樓梯、下樓梯、站立、靜坐和躺下等日常簡單基礎(chǔ)行為的識別分類。
從文獻計量學(xué)角度,檢索2016-2019年以來人體行為識別技術(shù)在國際學(xué)術(shù)研究論文發(fā)表情況。分別對IEL、web of science、Science Direct、SpringerLink和ACM等5個常用的數(shù)據(jù)庫文獻標(biāo)題進行human activity recognition(HAR)、HAR &sensor、HAR &phone sensor 和HAR &phone security等關(guān)鍵詞查詢,得到的文獻計量統(tǒng)計結(jié)果如表5所示。
由表5可知,題目中包含關(guān)鍵詞“human activity recognition” 的論文共計920篇;含有關(guān)鍵詞“human activity recognition & sensor”的論文共計295篇;含“human activity recognition &phone sensors”的論文共計6篇;含“human activity recognition&phone sensor&security”關(guān)鍵字的論文有1篇。上述所有檢索文獻中,主要是對人體行為識別的相關(guān)技術(shù)進行研究,而涉及實際應(yīng)用場景的并不多見,在刑偵相關(guān)研究領(lǐng)域僅有文獻[43]1篇。
表5 文獻計量統(tǒng)計結(jié)果
刑偵現(xiàn)場環(huán)境復(fù)雜、數(shù)據(jù)量大、數(shù)據(jù)屬性多,使得犯罪行為特征識別更加復(fù)雜。若將基于智能手機傳感器人體行為識別技術(shù)擴展到公安刑偵領(lǐng)域,為公安偵查和預(yù)防違法犯罪提供有力支撐,則有很大的實際應(yīng)用價值,但相關(guān)研究工作仍需要研究。
從傳感器數(shù)據(jù)采集、特征提取、分類算法和常用公開數(shù)據(jù)集等4個方面對基于智能手機傳感器的人體活動識別技術(shù)進行了分析總結(jié)?,F(xiàn)有的基于智能手機傳感器數(shù)據(jù)的HAR研究都已取得了較好的實驗結(jié)果,在未來進一步研究中提出以下6點建議。
1)擴大數(shù)據(jù)量。目前的研究中,樣本數(shù)據(jù)多是人工采集,數(shù)據(jù)數(shù)量較少,且需手工標(biāo)記訓(xùn)練數(shù)據(jù)標(biāo)簽,無法快速獲得大量的訓(xùn)練數(shù)據(jù),為達到更好的識別效果,需擴大數(shù)據(jù)量。
2)優(yōu)化傳感器選擇方案。選取更能表征行為特性的傳感器,進行多傳感器關(guān)聯(lián),如結(jié)合加速度計和陀螺儀更能有效識別跑、跳、上下樓梯等動態(tài)活動。
3)優(yōu)化數(shù)據(jù)特征。合理融合特征,降低維度,有效降低類內(nèi)方差和增大類間方差。
4)優(yōu)化活動識別的通用模型。智能手機位于身體不同位置會給識別造成一定影響,因此生成活動識別的通用模型仍是一個需要克服的挑戰(zhàn)。
5)豐富人體行為活動種類。目前人體活動識別大多是對簡單日?;顒拥淖R別,探索結(jié)合實際情景 (如刑偵勘驗現(xiàn)場) 進行更高語義行為上的識別也是待研究的方向。
6)面向刑偵領(lǐng)域,包括涉案傳感器數(shù)據(jù)集的構(gòu)建、數(shù)據(jù)特征的分析、案件現(xiàn)場還原等,相關(guān)研究工作有待開展。