史殿習(xí),李勇謀,丁博(國(guó)防科技大學(xué)計(jì)算機(jī)學(xué)院,湖南長(zhǎng)沙410073)
無監(jiān)督特征學(xué)習(xí)的人體活動(dòng)識(shí)別*
史殿習(xí),李勇謀,丁博
(國(guó)防科技大學(xué)計(jì)算機(jī)學(xué)院,湖南長(zhǎng)沙410073)
針對(duì)人的局限性可能會(huì)導(dǎo)致在提取特征中丟失重要信息,從而影響最終的識(shí)別效果問題,提出無監(jiān)督特征學(xué)習(xí)技術(shù)的慣性傳感器特征提取方法。其核心思想是使用無監(jiān)督特征學(xué)習(xí)方法學(xué)習(xí)多個(gè)特征映射,再將所有特征映射拼接起來形成最終的特征計(jì)算方法。其優(yōu)點(diǎn)是不會(huì)造成重要信息的損失,而且可以顯著減少所使用的無監(jiān)督特征學(xué)習(xí)模型的規(guī)模。為了驗(yàn)證所提出的特征提取方法在活動(dòng)識(shí)別中的有效性,運(yùn)用一個(gè)公開的活動(dòng)識(shí)別數(shù)據(jù)集,使用三種常用無監(jiān)督模型進(jìn)行特征提取,并使用支持向量機(jī)進(jìn)行活動(dòng)識(shí)別。實(shí)驗(yàn)結(jié)果表明,特征提取方法取得了良好的效果,與其他方法相比具有一定的優(yōu)勢(shì)。
人體活動(dòng)識(shí)別;無監(jiān)督特征學(xué)習(xí);智能手機(jī);傳感器
目前廣泛使用的智能手機(jī)如Apple iPhone以及Android的各種型號(hào)的智能手機(jī),大都內(nèi)置了多種傳感器,例如加速度傳感器、陀螺儀傳感器、距離傳感器、光傳感器以及GPS等。內(nèi)嵌了各種傳感器的智能手機(jī)的廣泛普及和應(yīng)用,催生了嶄新的基于智能手機(jī)傳感器的應(yīng)用和研究,例如人體活動(dòng)識(shí)別、跌倒檢測(cè)、身份識(shí)別等[1]。其中,人體活動(dòng)識(shí)別是當(dāng)前的熱點(diǎn)研究問題?;顒?dòng)識(shí)別可以作為健康評(píng)估和醫(yī)療保健的干預(yù)工具,通過長(zhǎng)時(shí)間識(shí)別和記錄用戶的活動(dòng),可以計(jì)算出用戶的活動(dòng)水平和能量消耗,為活動(dòng)太多或太少的用戶提供反饋信息,幫助其建立健康的生活方式。
文獻(xiàn)[1]中對(duì)現(xiàn)有的活動(dòng)識(shí)別研究做了比較全面的論述,按識(shí)別的活動(dòng)的類別可以分為:運(yùn)動(dòng)類、交通模式類、鍛煉類、日常類和手機(jī)使用方式類活動(dòng)等。目前,運(yùn)動(dòng)類活動(dòng)識(shí)別是當(dāng)前的研究熱點(diǎn)問題,也是史殿習(xí)等關(guān)注的重點(diǎn),通常包括走路、上樓梯、下樓梯、跑步、坐、站、躺等,通常涉及加速度計(jì)和陀螺儀兩種慣性傳感器的一種或者兩種。
活動(dòng)識(shí)別是一個(gè)典型的時(shí)間序列分類問題,其問題可以定義為:確定傳感器數(shù)據(jù)流的某一連續(xù)部分是由哪種人體活動(dòng)產(chǎn)生的?;顒?dòng)識(shí)別的處理過程一般分為以下三個(gè)過程:數(shù)據(jù)預(yù)處理、特征提取和分類[1]。
數(shù)據(jù)預(yù)處理通常包括噪聲消除和數(shù)據(jù)流分割。采集數(shù)據(jù)時(shí),由于外界環(huán)境的影響如路面不平以及智能手機(jī)位置的變動(dòng),會(huì)使數(shù)據(jù)包含大量的噪聲,噪聲消除通常采用的是低通濾波器技術(shù)。由于從連續(xù)的傳感器數(shù)據(jù)流提取有用信息比較困難,并且大部分的分類算法無法處理連續(xù)的數(shù)據(jù)流,因此一般使用具有50%重疊、長(zhǎng)度固定的滑動(dòng)窗口將數(shù)據(jù)分割為等長(zhǎng)的段,如圖1所示。
圖1 50%重疊的滑動(dòng)窗口Fig.1 Sliding windowswith 50%overlap
經(jīng)過預(yù)處理后,得到固定長(zhǎng)度的數(shù)據(jù),直接用于分類時(shí)效果較差,一般需要先進(jìn)行特征提取。所謂特征,通常是指原始數(shù)據(jù)的抽象表示,好的特征是分類成功的關(guān)鍵。特征提取的本質(zhì)是確定從原始數(shù)據(jù)到特征的變換方法,這種變換方法大部分都是由研究人員,根據(jù)一些特定領(lǐng)域的專業(yè)知識(shí)人工設(shè)計(jì)的。常用的特征分為時(shí)域特征和頻域特征:時(shí)域特征是直接從時(shí)域數(shù)據(jù)中計(jì)算出的一些統(tǒng)計(jì)值,例如均值、標(biāo)準(zhǔn)差、能量、熵和相關(guān)系數(shù)等;頻域特征通常是使用快速傅里葉變換得到原始數(shù)據(jù)的頻域表示,然后基于頻域表示提取特征。常用的這兩類特征依賴領(lǐng)域知識(shí),在應(yīng)用于不同類別的活動(dòng)時(shí),一是可能會(huì)存在不適應(yīng)特定數(shù)據(jù)的問題;二是它們通常是由人工設(shè)計(jì)的,可能由于設(shè)計(jì)的失誤,導(dǎo)致在提取特征后,丟失重要信息,從而影響分類效果。為了減少這兩個(gè)問題的影響,可以使用無監(jiān)督特征學(xué)習(xí)技術(shù)[2],該技術(shù)能夠直接從傳感器數(shù)據(jù)中學(xué)習(xí)特征的變換方法。在使用無監(jiān)督特征學(xué)習(xí)技術(shù)提取特征時(shí),不需要依賴領(lǐng)域知識(shí),而且由于是從數(shù)據(jù)中學(xué)習(xí)特征,因此也不存在數(shù)據(jù)不適應(yīng)問題。據(jù)悉,目前使用該技術(shù)對(duì)慣性傳感器數(shù)據(jù)進(jìn)行特征提取,進(jìn)而進(jìn)行活動(dòng)識(shí)別的研究?jī)H有文獻(xiàn)[3-5]。文獻(xiàn)[3]最早使用無監(jiān)督特征學(xué)習(xí)技術(shù)如深度信念網(wǎng)絡(luò)(Deep Belief Networks,DBN)和主成分分析(Principal Components Analysis,PCA)技術(shù)對(duì)加速度傳感器數(shù)據(jù)進(jìn)行處理,學(xué)習(xí)特征變換方法,進(jìn)而提取相應(yīng)的特征對(duì)廚房活動(dòng)、日?;顒?dòng)以及汽車生產(chǎn)流水線中工人的活動(dòng)等進(jìn)行識(shí)別;文獻(xiàn)[4]在文獻(xiàn)[3]的工作基礎(chǔ)上,使用平移不變性稀疏編碼技術(shù)提取特征;文獻(xiàn)[5]亦使用稀疏編碼技術(shù)進(jìn)行特征提取,進(jìn)而對(duì)運(yùn)動(dòng)類活動(dòng)和交通模式類活動(dòng)如靜止、走路、乘車、騎自行車等進(jìn)行識(shí)別。
活動(dòng)識(shí)別的最后一步是分類。首先,選擇合理的分類算法對(duì)分類器進(jìn)行訓(xùn)練;然后,使用通過訓(xùn)練得到的分類器進(jìn)行分類。目前,活動(dòng)識(shí)別中所用的分類算法大多數(shù)是有監(jiān)督分類算法[1],比如支持向量機(jī)(Support Vector Machine,SVM)、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)、決策樹C4.5、樸素貝葉斯和K近鄰等算法。相對(duì)而言,目前使用半監(jiān)督的分類方法的研究相對(duì)較少,文獻(xiàn)[6]研究了自我學(xué)習(xí)、協(xié)同學(xué)習(xí)和主動(dòng)學(xué)習(xí)三種經(jīng)典的半監(jiān)督的分類方法在活動(dòng)識(shí)別領(lǐng)域的應(yīng)用;文獻(xiàn)[7]使用無監(jiān)督聚類算法來提高已有分類器的性能,亦屬于半監(jiān)督的分類方法。對(duì)于半監(jiān)督的分類方法來說,由于其可以利用無標(biāo)注的數(shù)據(jù),在實(shí)際應(yīng)用中效果較好,其識(shí)別準(zhǔn)確率可以達(dá)到80%以上[1]。雖然目前有很多分類算法,選擇合適的分類算法仍然是比較煩瑣和具有挑戰(zhàn)性的工作。
在活動(dòng)識(shí)別的處理過程中,雖然活動(dòng)類型是由分類器來識(shí)別和分類的,但是活動(dòng)識(shí)別的前兩個(gè)階段也都具有十分重要的作用,預(yù)處理和特征表示都是獲取高性能的分類結(jié)果的關(guān)鍵因素。針對(duì)活動(dòng)識(shí)別領(lǐng)域使用的常用特征的一些缺陷,史殿習(xí)等提出一種基于無監(jiān)督特征學(xué)習(xí)技術(shù)的慣性傳感器特征提取方法,在此基礎(chǔ)上,使用支持向量機(jī)SVN分類方法,在一個(gè)活動(dòng)識(shí)別公開數(shù)據(jù)上進(jìn)行了實(shí)驗(yàn)驗(yàn)證。
1.1 基本思想
所涉及的慣性傳感器包括三軸加速度傳感器和陀螺儀傳感器。這兩種傳感器都具有三個(gè)方向,與生活的三維空間相對(duì)應(yīng)。但是手機(jī)的三維坐標(biāo)系是基于手機(jī)屏幕的,如圖2[15]所示。
圖2 智能手機(jī)坐標(biāo)系Fig.2 Coordinate system of smartphones
當(dāng)智能手機(jī)在人身上的位置和方向相對(duì)固定時(shí),其采集的三維數(shù)據(jù)比較穩(wěn)定,能夠正確地反映身體的運(yùn)動(dòng);當(dāng)方向變化較大時(shí),其合成量仍然可以可靠地測(cè)量身體運(yùn)動(dòng)的程度。基于上述考慮,增加一個(gè)維度的信息,特征提取時(shí)將使用四個(gè)維度的信息,即{X,Y,Z,R},將每個(gè)維度稱為一個(gè)channel,即四個(gè)channel。在此基礎(chǔ)上,提出一種基于無監(jiān)督特征學(xué)習(xí)的慣性傳感器特征提取方法,并將其集成到經(jīng)典的分類問題處理流程中,如圖3所示。首先,將傳感器數(shù)據(jù)流使用滑動(dòng)窗口技術(shù)分割為等長(zhǎng)的數(shù)據(jù)段,分割后得到等長(zhǎng)數(shù)據(jù)段有三個(gè)channel,即{X,Y,Z};然后,計(jì)算合成量,將這四個(gè)channel的數(shù)據(jù)作為無監(jiān)督特征學(xué)習(xí)模型的輸入。該特征提取方法主要包含以下兩個(gè)步驟:
1)對(duì)每個(gè)channel的數(shù)據(jù)使用無監(jiān)督特征學(xué)習(xí)技術(shù),學(xué)習(xí)特征變換方法,如圖3所示,{X,Y,Z,R}四個(gè)channel分別得到四個(gè)特征映射方法: map_X,map_Y,map_Z,map_R。
圖3 基于無監(jiān)督特征學(xué)習(xí)的活動(dòng)識(shí)別Fig.3 Activity recognition based on unsupervised feature learning
2)把{X,Y,Z,R}四個(gè)channel的數(shù)據(jù)分別使用對(duì)應(yīng)的特征映射方法map_X,map_Y,map_Z,map_R得到的特征拼接起來,作為最終的特征向量,用于分類。
將這種首先分channel使用無監(jiān)督特征學(xué)習(xí)技術(shù)進(jìn)行學(xué)習(xí)特征映射,然后將其拼接到一起的特征提取方法,稱作基于無監(jiān)督特征學(xué)習(xí)的channel-wise特征提取方法[8]。與之相對(duì)應(yīng)的是不分channel的無監(jiān)督特征學(xué)習(xí)[3-5],即將三個(gè)channel或者四個(gè)channel的原始數(shù)據(jù)拼接起來,作為一個(gè)無監(jiān)督特征學(xué)習(xí)模型的輸入,學(xué)習(xí)特征表示。這種基于無監(jiān)督特征學(xué)習(xí)的channel-wise特征提取方法的優(yōu)點(diǎn)主要包括:①使用特征學(xué)習(xí)技術(shù)能夠克服對(duì)領(lǐng)域知識(shí)的依賴,也不會(huì)造成重要信息的損失;②channel-wise方式使用無監(jiān)督特征學(xué)習(xí)技術(shù),與不分channel的方式相比,可以顯著減少所使用的無監(jiān)督特征學(xué)習(xí)模型的規(guī)模,例如在基于神經(jīng)網(wǎng)絡(luò)的無監(jiān)督特征學(xué)習(xí)方法中,可以將權(quán)值數(shù)量降為1/4,從而減少訓(xùn)練時(shí)間和所需要的數(shù)據(jù)規(guī)模;③channel-wise方式更為靈活,可以在不同的channel使用不同的超參數(shù),甚至不同的模型;④使用channel-wise方式,使實(shí)現(xiàn)模型的并行訓(xùn)練更為容易。雖然,這種channel-wise方式不能提取不同channel間的相關(guān)信息,但是由于無監(jiān)督特征學(xué)習(xí)技術(shù)能夠控制好特征提取帶來的信息損失,所以不同channel的相關(guān)信息仍然可以被分類算法所利用。
1.2 特征學(xué)習(xí)模型
在所提出的特征提取方法中,需要用到無監(jiān)督特征學(xué)習(xí)技術(shù)從每個(gè)channel學(xué)習(xí)特征映射方法。在經(jīng)過對(duì)常見的無監(jiān)督特征學(xué)習(xí)技術(shù)分析之后,主要研究將兩種基于自編碼器(Auto-Encoder,AE)的模型和主成分分析(Principal Components Analysis,PCA)應(yīng)用于傳感器數(shù)據(jù)特征提取。其原因在于這兩種模型具有一定的代表意義,AE模型是非線性模型,而PCA是線性模型。
AE通常定義為一個(gè)單隱藏層神經(jīng)網(wǎng)絡(luò),其輸入單元的數(shù)量與輸出單元的數(shù)量相同,在訓(xùn)練時(shí)將輸入值作為目標(biāo)值進(jìn)行訓(xùn)練。本質(zhì)上AE是嘗試去學(xué)習(xí)一個(gè)恒等函數(shù),換句話說,它嘗試逼近一個(gè)恒等函數(shù),從而使得輸出^x接近于輸入x。
若令N和K分別表示輸入單元的數(shù)量和隱藏單元的數(shù)量,那么一個(gè)AE的參數(shù)可以形式化地表達(dá)為:W(1)∈(K×N)和W(2)∈(N×K)(W(1),W(2)分別表示從輸入層到隱藏層的權(quán)值和從隱藏層到輸出層的權(quán)值),b(1)∈K和b(2)∈
N(b(1),b(2)分別表示隱藏層偏置和輸出層偏置)。一個(gè)AE可以分解為兩部分,編碼部分和解碼部分。編碼部分將輸入x∈N變換為隱藏層表示h (x)∈K,解碼部分是使用隱藏層表示重建原始輸入。隱藏層表示h(x)和原始輸入的重建^x的計(jì)算方法為:
其中,σ(·)是激活函數(shù),通常使用sigmoid函數(shù)和tanh函數(shù)。AE的目標(biāo)是學(xué)習(xí)隱藏層表示h(x),也可以將h(x)看作特征映射。將用于訓(xùn)練AE的無標(biāo)簽的數(shù)據(jù)集記作X={x(1),…,x(m)},其中x(i)∈N,采用均方誤差作為衡量輸入x和輸出^x的相似程度的標(biāo)準(zhǔn),所以AE的代價(jià)函數(shù)可以表示為:
不作限制地使用AE通常并不能取得好的效果,需要對(duì)AE增加某些限制。為了學(xué)習(xí)獲取有用的表示,一種常用的限制是對(duì)隱藏層單元施加稀疏性約束,一般認(rèn)為超完備的稀疏表示能夠取得的性能高于規(guī)模更小的表示[9]。稀疏性約束是指限制每個(gè)隱藏層單元的平均激活值,使其接近于一個(gè)固定的常數(shù)ρ∈(0,1),ρ通常是一個(gè)接近于0的較小的值(比如ρ=0.05)。其中,隱藏神經(jīng)元j在訓(xùn)練集上的平均活躍度用^ρj表示。這種具有稀疏性約束的AE通常被稱為稀疏自編碼器(Sparse Auto-Encoder,SAE)。稀疏性約束是通過在AE的代價(jià)函數(shù)加入用于描述神經(jīng)元的平均激活值^ρj和ρ的相差程度的KL(Kullback-Leibler)散度(又稱相對(duì)熵)實(shí)現(xiàn)的,其中KL散度的定義為:
式(4)中,第一項(xiàng)為均方誤差,第二項(xiàng)為稀疏性懲罰,β為調(diào)節(jié)兩項(xiàng)的比例的參數(shù)。由于KL散度是平滑且可微的,所以其代價(jià)函數(shù)也是可微的,可以使用基于梯度的優(yōu)化方法進(jìn)行訓(xùn)練。當(dāng)最小化代價(jià)函數(shù)時(shí),第一項(xiàng)是用于減小重構(gòu)時(shí)的信息損失,第二項(xiàng)使隱藏層單元的平均激活值保持在預(yù)設(shè)的水平。值得注意的是,由于KL散度只在(0,1)上有定義,在使用tanh等值域?yàn)?-1,1)的函數(shù)作為激活函數(shù)時(shí),需要將隱藏單元的平均激活值調(diào)整到(0,1)上。
AE模型的另外一個(gè)擴(kuò)展是去噪自編碼器(De-noising Auto-Encoder,DAE),DAE最初是在文獻(xiàn)[10]中作為深度神經(jīng)網(wǎng)絡(luò)的基本構(gòu)造塊引入的。為了使AE能夠?qū)W習(xí)到魯棒性更好的特征,減輕噪聲對(duì)特征的影響,DAE試圖從加入了噪聲破壞的原始輸入重建出無噪聲的原始輸入。在DAE中常用的噪聲有以下兩種[11]:
1)高斯噪聲:用GN(x)表示加入高斯噪聲后的數(shù)據(jù),則GN(x)=x+N(0,σ2I),其中σ2I為所加入的噪聲的協(xié)方差矩陣。
2)Mask噪聲:對(duì)于每個(gè)輸入x,從所有元素中隨機(jī)選擇占比例p的元素,將其設(shè)置為激活函數(shù)的值域的最小值,若使用sigmoid函數(shù)則置0,若使用tanh函數(shù)則置-1。
最后,在使用基于AE的模型進(jìn)行特征學(xué)習(xí)時(shí),為了克服單隱藏層網(wǎng)絡(luò)表示能力的一些缺陷,通常的做法是將多個(gè)AE堆疊起來,即將一個(gè)AE的隱藏層輸出作為另一個(gè)AE的輸入。在訓(xùn)練時(shí),先用原始數(shù)據(jù)訓(xùn)練最外層的AE,得到其隱藏層輸出后將其作為輸入數(shù)據(jù)訓(xùn)練下一層AE。
PCA是一個(gè)被廣泛使用的具有良好數(shù)學(xué)基礎(chǔ)的維度縮減方法。它通過使用正交變換,將可能存在相關(guān)性的一定維度的變量轉(zhuǎn)換成維度更小的無相關(guān)的變量,同時(shí)在維度縮減的過程中保持信息損失最小化。在PCA中,數(shù)據(jù)集的協(xié)方差矩陣的最大的幾個(gè)特征值所對(duì)應(yīng)的特征向量所張成的低維子空間,能夠保持原始數(shù)據(jù)最大的方差。從原始數(shù)據(jù)到方差最大化的子空間的投影可以作為特征表示,也可以用于數(shù)據(jù)的可視化。
PCA可以看作是一種無監(jiān)督特征學(xué)習(xí)方法,主要是由于這種方法可以自動(dòng)地從數(shù)據(jù)中學(xué)習(xí)到緊湊且有意義的原始數(shù)據(jù)的表示,并且不需要依賴于領(lǐng)域知識(shí)。本質(zhì)上,PCA學(xué)習(xí)到一個(gè)線性變換f(x)=WTx,把數(shù)據(jù)映射為特征,這與使用線性激活函數(shù)的AE具有相似的效果。
1.3 超參數(shù)選擇方法
機(jī)器學(xué)習(xí)模型中的參數(shù)可以分為兩類:參數(shù)和超參數(shù)。尋找最優(yōu)參數(shù)問題已經(jīng)得到很好的解決,目前有很多優(yōu)化算法可以使用。而對(duì)于超參數(shù)的選擇,尚未得到很好解決,更多地依賴于經(jīng)驗(yàn)和窮舉搜索。然而,合理的超參數(shù)設(shè)置也對(duì)機(jī)器學(xué)習(xí)方法的性能具有至關(guān)重要的影響[12]。對(duì)于超參數(shù)的選擇,采用基于經(jīng)驗(yàn)與窮舉搜索相結(jié)合的方法,其中,對(duì)于數(shù)值型超參數(shù),選取合理的取值范圍和搜索步長(zhǎng),進(jìn)行網(wǎng)格搜索。
為了驗(yàn)證提出的特征提取方法在活動(dòng)識(shí)別中的有效性,在公開數(shù)據(jù)集合上設(shè)計(jì)實(shí)驗(yàn),共提取了八種特征,最后使用SVM對(duì)常見的六種活動(dòng)進(jìn)行識(shí)別并分析實(shí)驗(yàn)結(jié)果。
2.1 活動(dòng)識(shí)別數(shù)據(jù)集
實(shí)驗(yàn)的數(shù)據(jù)來源于一個(gè)常用的活動(dòng)識(shí)別的數(shù)據(jù)集:UCI機(jī)器學(xué)習(xí)資源庫[13]中的“Human Activity Recognition Using Smartphones Data Set”[14],簡(jiǎn)記為UCI-HAR數(shù)據(jù)集。該數(shù)據(jù)集所收集的數(shù)據(jù)來自一組30個(gè)年齡分布在19~48歲的志愿者,每個(gè)人要求執(zhí)行六種活動(dòng):WALKING,WALKING UPSTAIRS,WALKING DOWNSTAIRS,SITTING,STANDING和LAYING,在執(zhí)行這些活動(dòng)的時(shí)候?qū)⒁徊恐悄苁謾C(jī)固定在腰部。在活動(dòng)的過程中,使用智能手機(jī)內(nèi)置的加速度計(jì)和陀螺儀兩種慣性傳感器,以50Hz固定頻率記錄三軸線性加速度和三軸角速度。在實(shí)驗(yàn)進(jìn)行過程中,使用視頻記錄用于人工的標(biāo)記數(shù)據(jù)。所獲得的數(shù)據(jù)集被隨機(jī)分成兩組,其中70%的志愿者被選擇用于生成訓(xùn)練數(shù)據(jù),另外30%用于生成測(cè)試數(shù)據(jù)。
該數(shù)據(jù)集中的傳感器信號(hào)已經(jīng)經(jīng)過噪聲消除,并且使用長(zhǎng)度2.56s具有50%的滑動(dòng)窗口進(jìn)行分割,分割后的數(shù)據(jù)每個(gè)窗口128個(gè)采樣點(diǎn)?;瑒?dòng)窗口分割后,訓(xùn)練集有7352個(gè)樣例,測(cè)試集有2947個(gè)樣例。每個(gè)樣例的屬性包括三軸加速度、三軸角速度、活動(dòng)標(biāo)簽以及生成數(shù)據(jù)的人的編號(hào)。為了便于在AE中使用sigmoid函數(shù)作為編碼函數(shù)和解碼函數(shù),將所有傳感器數(shù)據(jù)都調(diào)整到[0.1,0.9]。
2.2 特征提取實(shí)驗(yàn)
為了驗(yàn)證特征提取方法的有效性,對(duì)比不同特征的效果,不僅使用兩種基于特征學(xué)習(xí)的方法提取特征,還提取了常用的統(tǒng)計(jì)特征和頻域特征。本節(jié)將簡(jiǎn)單描述以channel-wise和不區(qū)分channel兩種方式使用特征學(xué)習(xí)技術(shù)進(jìn)行特征提取的過程,以及統(tǒng)計(jì)特征和頻域特征的定義和計(jì)算方法。
在進(jìn)行特征學(xué)習(xí)時(shí),使用UCI-HAR數(shù)據(jù)集中訓(xùn)練集與測(cè)試集的所有數(shù)據(jù),共10 299個(gè)訓(xùn)練樣例對(duì)特征學(xué)習(xí)模型進(jìn)行訓(xùn)練。
在基于AE的方法中級(jí)聯(lián)兩層AE,SAE和DAE第一層網(wǎng)絡(luò)結(jié)構(gòu)參照PCA的合適壓縮維度進(jìn)行選擇,SAE第二層仍然采取同樣方法,對(duì)于DAE第二層網(wǎng)絡(luò)結(jié)構(gòu)則參照SAE第二層。
2.2.1 基于SAE的channel-wise方式特征學(xué)習(xí)
通過使用PCA模型進(jìn)行分析,發(fā)現(xiàn)當(dāng)將128維的各個(gè)channel的數(shù)據(jù)壓縮為64維時(shí),所有channel均可以保持超過99%的方差比例。因此將隱藏層單元數(shù)目設(shè)置為64的1.5倍,所以第一層SAE網(wǎng)絡(luò)結(jié)構(gòu)為128×96×128。根據(jù)1.3節(jié)提出的方法,稀疏性稀疏β=128/96≈1.33。再在各個(gè)channel的數(shù)據(jù)中搜索最優(yōu)的ρ,搜索時(shí)對(duì)SAE使用Pylearn2中的帶線搜索的批處理梯度下降法訓(xùn)練200個(gè)周期,模型的評(píng)價(jià)標(biāo)準(zhǔn)為最后5個(gè)周期MSE平均值。搜索結(jié)果(見表1)表明,對(duì)于加速度傳感器數(shù)據(jù){X,Y,Z,R}最優(yōu)ρ分別為{0.25,0.25,0.30,0.15},陀螺儀傳感器數(shù)據(jù){X,Y,Z,R}最優(yōu)ρ值分別為{0.25,0.10,0.10,0.40}。
表1 所有channel第一層SAEρ搜索結(jié)果Tab.1 Search results of SAEρin first layer for all channels
在確定第一層SAE的各個(gè)超參數(shù)后,使用Pylearn2中的帶線搜索的批處理梯度下降法,對(duì)其訓(xùn)練200個(gè)周期。訓(xùn)練后的第一層SAE的隱藏層輸出作為下一層SAE的輸入。
第二層SAE使用與第一層SAE相似的方法確定超參數(shù)。通過對(duì)第一層SAE的隱藏層輸出使用PCA分析,發(fā)現(xiàn)16維為合適的壓縮維度,因此第二層SAE的網(wǎng)絡(luò)結(jié)構(gòu)為64×24×64。使用同樣的方法搜索最優(yōu)ρ取值,根據(jù)搜索結(jié)果,加速度傳感器數(shù)據(jù){X,Y,Z,R}最優(yōu)ρ分別為{0.30,0.30,0.40,0.40},陀螺儀傳感器數(shù)據(jù){X,Y,Z,R}最優(yōu)ρ值分別為{0.40,0.05,0.30,0.20}。
在確定各個(gè)channel第二層SAE的最優(yōu)稀疏性參數(shù)ρ的取值后,使用與第一層類似的訓(xùn)練方法和設(shè)置對(duì)其進(jìn)行訓(xùn)練。將每個(gè)channel第二層SAE的隱藏層輸出作為特征,每個(gè)channel得到24個(gè)特征,這種特征提取方法共提取了192個(gè)特征。
2.2.2 基于DAE的channel-wise方式特征學(xué)習(xí)
根據(jù)使用SAE時(shí)對(duì)數(shù)據(jù)的分析,將第一層DAE隱藏層單元數(shù)設(shè)為64,第二層DAE隱藏層單元數(shù)設(shè)為16。采用網(wǎng)格搜索方式來確定DAE的噪聲類型和噪聲水平,模型的選擇標(biāo)準(zhǔn)基于訓(xùn)練集的10-折交叉驗(yàn)證結(jié)果,分類器使用one-vsone多類擴(kuò)展的、帶有徑向基核函數(shù)(Radial Basis Function,RBF)核函數(shù)的SVM,SVM的兩個(gè)超參數(shù)的搜索空間分別為C∈{2-5,2-4,…,25}和γ∈{2-4,2-3,…,24}。搜索結(jié)果(見表2)表明,第一層DAE使用σ2=0.002 5的GN噪聲、DAE2使用σ2=0.010 0的GN噪聲所取得的效果最好。這種方式共提取了128個(gè)特征。
表2 channel-wise DAE超參數(shù)搜索結(jié)果Tab.2 Search results of channel-wise DAE’s hyper-parameters
2.2.3 基于PCA的channel-wise方式特征學(xué)習(xí)
為了使提取的特征具有可比性,使用PCA將每個(gè)channel 128維數(shù)據(jù)壓縮為16維。最終也提取了128個(gè)特征。
2.2.4 不區(qū)分channel方式特征學(xué)習(xí)
為了對(duì)比channel-wise方式與不區(qū)分channel方式的特征學(xué)習(xí)方式,對(duì)應(yīng)提取了三種不區(qū)分channel方式的特征。為了使結(jié)果具有可比性,對(duì)于不區(qū)分channel方式的學(xué)習(xí),對(duì)每種傳感器數(shù)據(jù)使用與channel-wise方式相對(duì)應(yīng)的結(jié)構(gòu)和參數(shù)。
在使用SAE模型進(jìn)行不區(qū)分channel方式特征學(xué)習(xí)時(shí),即第一層SAE為512×384×512,第二層SAE為384×96×384。使用與channel-wise方式相似的稀疏性參數(shù)搜索過程。由于網(wǎng)絡(luò)規(guī)模較大導(dǎo)致訓(xùn)練時(shí)間較長(zhǎng),在不分channel-wise方式特征學(xué)習(xí)搜索中僅對(duì)模型訓(xùn)練100個(gè)周期。第一層搜索結(jié)果為:加速度數(shù)據(jù)0.05,陀螺儀數(shù)據(jù)0.10。在第一層SAE確定最優(yōu)ρ后,仍然對(duì)其訓(xùn)練200個(gè)周期,然后將其隱藏層輸出作為第二層SAE的輸入對(duì)其進(jìn)行參數(shù)搜索,搜索結(jié)果為:加速度數(shù)據(jù)0.10,陀螺儀數(shù)據(jù)0.05。最后對(duì)第二層SAE使用最優(yōu)參數(shù)訓(xùn)練200個(gè)周期,每種傳感器數(shù)據(jù)得到96個(gè)特征,共計(jì)192個(gè)特征。
在使用DAE模型進(jìn)行不區(qū)分channel方式特征學(xué)習(xí)時(shí),第一層DAE網(wǎng)絡(luò)結(jié)構(gòu)為512×256× 512,第二層DAE網(wǎng)絡(luò)結(jié)構(gòu)為256×64×256。對(duì)于不區(qū)分channel方式,DAE1使用σ2=0.002 5的GN噪聲、DAE2使用p=0.020的MN噪聲所取得效果最好。這種方式共提取了128個(gè)特征。
在使用PCA模型進(jìn)行不區(qū)分channel方式特征學(xué)習(xí)時(shí),將所有加速度數(shù)據(jù)使用PCA壓縮為64維度,陀螺儀數(shù)據(jù)也壓縮為64維度。最終,同樣提取了128維數(shù)據(jù)。
2.2.5 時(shí)域統(tǒng)計(jì)特征和頻域特征
時(shí)域統(tǒng)計(jì)特征是基于智能手機(jī)的活動(dòng)識(shí)別研究中使用最多的特征,其主要優(yōu)點(diǎn)是計(jì)算簡(jiǎn)單,適用于在資源有限的智能手機(jī)上實(shí)現(xiàn)。選取最為常用的幾個(gè)統(tǒng)計(jì)特征,包括從每個(gè)channel提取的均值、標(biāo)準(zhǔn)差、能量和熵,以及每個(gè)傳感器提取的6個(gè)相關(guān)系數(shù),共計(jì)44個(gè)特征。
頻域特征也是基于智能手機(jī)的活動(dòng)識(shí)別研究的常用特征,頻域特征效果一般比統(tǒng)計(jì)特征要好,但是頻域特征計(jì)算復(fù)雜度更高。頻域特征一般是先對(duì)信號(hào)進(jìn)行離散傅里葉變換得到傅里葉系數(shù),然后基于傅里葉系數(shù)提取特征。對(duì)每個(gè)channel的數(shù)據(jù)進(jìn)行離散傅里葉變換后,取其最大的8個(gè)系數(shù)作為特征,每個(gè)系數(shù)記錄其頻率和振幅,每個(gè)channel提取16個(gè)特征,所有channel共128個(gè)頻域特征。
2.3 實(shí)驗(yàn)結(jié)果與分析
在完成特征提取后,使用支持向量機(jī)SVM識(shí)別上文所提的6種活動(dòng)。所使用的SVM的多分類擴(kuò)展使用one-vs-one方式,核函數(shù)使用常用的高斯核函數(shù)。實(shí)驗(yàn)過程中,首先在訓(xùn)練集上使用10-折交叉驗(yàn)證,在C∈{2-5,2-4,…,25}和γ∈{2-4,2-3,…,24}網(wǎng)格中搜索最優(yōu)的C和γ值,然后使用最優(yōu)的C和γ在訓(xùn)練集上訓(xùn)練出分類器,最后報(bào)告交叉驗(yàn)證的準(zhǔn)確率和在測(cè)試集上的準(zhǔn)確率,見表3。從表3中的結(jié)果可以看出:
1)對(duì)于兩種特征學(xué)習(xí)方式,channel-wise方式要優(yōu)于不區(qū)分channel方式,所以在處理慣性傳感器數(shù)據(jù)時(shí),channel-wise方式使用特征學(xué)習(xí)技術(shù)更為合適。
2)使用channel-wise方式的三種特征學(xué)習(xí)技術(shù)都明顯優(yōu)于常用的統(tǒng)計(jì)特征和頻域特征,這說明該特征提取方法具有一定的優(yōu)勢(shì)。
3)在使用channel-wise方式的三種特征學(xué)習(xí)技術(shù)中,線性方法PCA取得最好的結(jié)果,非線性的SAE的準(zhǔn)確率略低于PCA,這是由于用于特征學(xué)習(xí)的數(shù)據(jù)較少。在兩種基于AE的技術(shù)中,SAE要比DAE更好,說明SAE更適合處理傳感器數(shù)據(jù)。
表3 不同特征使用SVM識(shí)別準(zhǔn)確率Tab.3 Recognition accuracy of SVM for different features
本文提出了一種基于無監(jiān)督特征學(xué)習(xí)的慣性傳感器數(shù)據(jù)特征提取方法。這種方法具有以下特點(diǎn):由于無監(jiān)督特征學(xué)習(xí)一般使用信息損失最小化方法學(xué)習(xí)特征映射,所以可以避免重要信息損失;能夠自動(dòng)地從數(shù)據(jù)學(xué)習(xí)特征表示,對(duì)于領(lǐng)域?qū)I(yè)知識(shí)的依賴更少;細(xì)粒度的特征提取方式速度快、規(guī)模小,對(duì)于其他問題也有一定的借鑒意義。
基于上述方法提取的特征在公開數(shù)據(jù)集上進(jìn)行活動(dòng)識(shí)別實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,channel-wise方式特征學(xué)習(xí)在活動(dòng)識(shí)別的準(zhǔn)確率上優(yōu)于不分channel方式,并且也優(yōu)于時(shí)域統(tǒng)計(jì)特征和頻域特征。在所研究的三種特征學(xué)習(xí)模型中,SAE和PCA大致相當(dāng)并優(yōu)于DAE。由于實(shí)驗(yàn)所使用的數(shù)據(jù)較少,而無監(jiān)督特征學(xué)習(xí)模型通常需要大量數(shù)據(jù),在下一步工作中將會(huì)收集更多數(shù)據(jù)用于學(xué)習(xí)特征表示。
References)
[1]Incel O D,Kose M,Ersoy C.A review and taxonomy of activity recognition on mobile phones[J].BioNanoScience, 2013,3(2):145-171.
[2]Bengio Y,Courville A C,Vincent P.Unsupervised feature learning and deep learning:a review and new perspectives[J].CoRR,2012:1.
[3]Pl?tz T,Hammerla N Y,Olivier P.Feature learning for activity recognition in ubiquitous computing[C]//Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence,2011,2:1729-1734.
[4]Vollmer C,Gross H M,Eggert J P.Learning features for activity recognition with shift-invariant sparse coding[C]// Proceedings of ICANN,2013:367-374.
[5]Bhattacharya S,Nurmi P,Hammerla N,et al.Using unlabeled data in a sparse-coding framework for human activity recognition[J].Pervasive and Mobile Computing,2014,15:242-262.
[6]Longstaff B,Reddy S,Estrin D.Improving activity classification for health applications on mobile devices using active and semi-supervised learning[C]//Proceedings of Pervasive Computing Technologies for Healthcare(Pervasive Health),2010 4th International Conference on-No Permissions,IEEE,2010:1-7.
[7]Zhao Z T,Chen Y Q,Liu JF,et al.Cross-people mobilephone based activity recognition[C]//Proceedings of International Joint Conference on Artificial Intelligence,2011,22(3):2545-2550.
[8]Li Y M,Shi D X,Ding B,et al.Unsupervised feature learning for human activity recognition using smartphone sensors[C]//Proceedings of Second International Conference,MIKE,2014:99-107.
[9]Yang JC,Yu K,Gong Y H,et al.Linear spatial pyramid matching using sparse coding for image classification[C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,CVPR,IEEE,2009:1794-1801.
[10]Vincent P,Larochelle H,Bengio Y S,et al.Extracting and composing robust features with denoising autoencoders[C]// Proceedings of the 25th International Conference on Machine Learning,ACM,2008:1096-1103.
[11]Vincent P,Larochelle H,Lajoie I,et al.Stacked denoising autoencoders:learning useful representations in a deep network with a local denoising criterion[J].The Journal of Machine Learning Research,2010,11:3371-3408.
[12]Bergstra J,Bengio Y.Random search for hyper-parameter optimization[J].The Journal of Machine Learning Research,2012,13(1):281-305.
[13]Frank A,Asuncion A.UCImachine learning repository[M/OL].http://archive.ics.uci.edu/ml.
[14]Anguita D,Ghio A,Oneto L,etal.A public domain dataset for human activity recognition using smartphones[C].European Symposium on Artificial Neural Networks,Computational Intelligence and Machine Learning,ESANN,2013.
[15]Android.Sensor Event Class[M/OL].http://developer.android.com/reference/android/hardware/SensorEvent.html.
Unsupervised feature learning for human activity recognition
SHIDianxi,LIYongmou,DINGBo
(College of Computer,National University of Defense Technology,Changsha 410073,China)
To solve the problems that human limitationsmay cause the loss of important information,thus affecting the classification results,a feature extraction method based on unsupervised feature learning techniqueswas proposed.Unsupervised feature learningmethod to learnmultiple featuremaps was used and concatenated together.Thismethod can avoid the loss of important information,and also can significantly reduce the scale of unsupervised feature learningmodel used.To evaluate the proposed method,experiments on a public human activity recognition dataset were performed,using three commonly used unsupervised feature learningmodels,and finally using support vectormachines to classify activities.The results show that the proposed feature extraction method achieves good results,and has certain advantages compared with othermethods.
human activity recognition;unsupervised feature learning;smartphone;sensors
TP391
A
1001-2486(2015)05-128-07
10.11887/j.cn.201505020
http://journal.nudt.edu.cn
2015-05-03
國(guó)家自然科學(xué)基金資助項(xiàng)目(61202117,91118008)
史殿習(xí)(1966—),男,山東龍口人,教授,博士,E-mail:dxshi@nudt.edu.cn