• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于長短時記憶網(wǎng)絡(luò)的人體姿態(tài)檢測方法

      2018-08-28 08:52:22劉守印
      計算機應(yīng)用 2018年6期
      關(guān)鍵詞:姿態(tài)時刻人體

      鄭 毅,李 鳳,張 麗,劉守印

      (華中師范大學(xué)物理科學(xué)與技術(shù)學(xué)院,武漢430079)

      (* 通信作者電子郵箱 syliu@mail.ccnu.edu.cn)

      0 引言

      根據(jù)國家統(tǒng)計局2016年的統(tǒng)計數(shù)據(jù)可知,在中國,60周歲及以上人口23086萬人,占總?cè)丝诘?6.7%;65周歲及以上人口15003萬人,占總?cè)丝诘?0.8%[1]。根據(jù)聯(lián)合國對“老齡化社會”的定義:區(qū)域中65歲以上的人口比率超過總?cè)丝诘?%,中國已經(jīng)屬于老齡化嚴重的國家之一。而老年人隨著年齡的增長,身體機能逐年下降,而隨著生活節(jié)奏的加快,子女由于自己的事業(yè)往往不能在其身邊陪伴;當突發(fā)事件(例如跌倒)發(fā)生時,老人無法第一時間得到幫助;對于一些患有輕微老年癡呆癥的老年人,更需要耗費人力物力監(jiān)測其日常行為。人體姿態(tài)檢測技術(shù)有助于子女對其生活狀態(tài)與日常行為的掌握,也有助于醫(yī)療機構(gòu)對老年人的身體機能與健康程度的判斷。因此,尤其是對于老齡化嚴重的中國來說,老年人姿態(tài)的檢測算法研究具有重要的意義。

      人體姿態(tài)檢測按照檢測內(nèi)容可以分為兩大類:突發(fā)性動作姿態(tài)檢測與持續(xù)性動作姿態(tài)檢測。突發(fā)性動作姿態(tài)檢測是指僅檢測出特定的、作用時間短的人體姿態(tài)。在對于老年人的這類研究中,由于跌倒對于老年人心理與生理上的危害特別大,所以跌倒檢測系統(tǒng)的設(shè)計顯得尤為重要。另一方面,持續(xù)性動作姿態(tài)檢測則是檢測出被測者保持在何種運動狀態(tài),這對于老年人的日常行為起到記錄的作用。本文所用算法將跌倒作為一種特殊的運動狀態(tài),同時檢測老年人的持續(xù)性與突發(fā)性動作姿態(tài)。

      人體姿態(tài)檢測按照數(shù)據(jù)獲取來源可以分為基于圖片的姿態(tài)檢測與基于傳感器序列的姿態(tài)檢測。張承璽[2]使用攝像頭獲得的RGB圖像作為數(shù)據(jù)源,通過計算前景圖像的幾何特征結(jié)合支持向量機(Support Vector Machine,SVM)分類器完成固定場景下的人體姿態(tài)識別;李靖意[3]使用微軟開發(fā)的Kinect傳感器采集人體深度圖像,通過結(jié)合人體動作描述符與SVM分類器相結(jié)合,設(shè)計了人體動作識別算法;Bourke等[4]通過垂直速度閾值法(Vertical Velocity Threshold method,VVT)設(shè)計了一套光學(xué)運動捕捉系統(tǒng)并將其嵌入至可穿戴設(shè)備中?;诳纱┐髟O(shè)備或者攝像頭的數(shù)據(jù)采集設(shè)計一方面增加了設(shè)備硬件成本,另一方面,必須強制穿戴數(shù)據(jù)采集設(shè)備或在家中安裝攝像頭也會使老年人心理上產(chǎn)生一種被監(jiān)視的感覺,不利于老年人的身心健康。而現(xiàn)如今,針對老年人設(shè)計的智能手機越來越多,老年人使用智能手機是必然的趨勢。而智能手機本身所包含的傳感器越來越多,使用其作為數(shù)據(jù)采集器可以很好地避免以上的不利因素,所以本文采取智能手機采集數(shù)據(jù)。

      現(xiàn)在人工智能時代正在到來,機器學(xué)習(xí)算法已經(jīng)應(yīng)用到了各行各業(yè)中。依靠傳統(tǒng)算法手工提取特征值會遇到特征值提取不充分和無法區(qū)分相似度較高的動作。人工智能技術(shù)高速發(fā)展的今天,使用機器學(xué)習(xí)技術(shù)對老年人姿態(tài)進行檢測可以通過算法自動提取不同動作的特征,得到更準確的分類結(jié)果,從而為老年人提供更全面的照顧與保護。在國際上,通過智能手機采集數(shù)據(jù)后,Anguita等[5]通過SVM算法與固定點連續(xù)(Fixed-Point Continuation,F(xiàn)PC)算法相結(jié)合,對六種日常動作分類并獲得了89.3%的實驗結(jié)果;Tong等[6]則使用了隱馬爾可夫(Hidden Markov Model,HMM)算法,對于智能手機采集的加速度時間序列數(shù)據(jù)分為跌倒與正常兩種狀態(tài),在訓(xùn)練集上達到100%的正確率。國內(nèi)這一領(lǐng)域的研究有吳科艷等[7]提出使用領(lǐng)域一致性指標與離散二進制粒子群算法相結(jié)合對老年人跌倒行為進行檢測,其輸出層使用K最近鄰(K-Nearest Neighbor,KNN)分類器得到98.77%的訓(xùn)練集正確率;張舒雅等[8]使用SVM與KNN結(jié)合算法判斷跌倒動作,測試集正確率達到97.35%。然而,如何在老年人實際活動中的檢測達到實驗訓(xùn)練集中的高正確率,仍然是尚未解決的難題。

      根據(jù)上文所提到的相關(guān)工作可以總結(jié)出目前人體姿態(tài)檢測算法所遇到的難題仍有如下4點:

      1)如何更準確、更高效地從傳感器數(shù)據(jù)中提取特征值。

      2)如何提高檢測算法的泛化能力,即將實驗訓(xùn)練集上高正確率在實際測試中復(fù)現(xiàn)出來。

      3)人體的姿態(tài)不單單是靜態(tài)的姿態(tài),如站立、平躺等,更多時候處于運動的狀態(tài),如走路、爬樓梯等,如何使用一種算法模型同時檢測靜態(tài)與動態(tài)的多種人體姿態(tài)。

      4)動作的持續(xù)時間有長有短,無記憶模型需要通過滑窗算法獲取一段時間的動作信息,無法實時處理不同持續(xù)時間的動作,并將其分至正確的類別。

      1 長短時記憶網(wǎng)絡(luò)

      1.1 長短時記憶網(wǎng)絡(luò)概述

      1990年,Lecun等[9]歷史性地提出了神經(jīng)網(wǎng)絡(luò)的反向傳播算法并提出了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的概念。2006年以來,隨著 Hinton等[10]在 Science期刊上提出“多隱層神經(jīng)網(wǎng)絡(luò)具有更為優(yōu)異的特征學(xué)習(xí)能力,并且其在訓(xùn)練上的復(fù)雜度可以通過逐層初始化來有效緩解”,深度學(xué)習(xí)開始飛速發(fā)展。CNN通過其特有的權(quán)值共享機制輸入是空間上的變化,即以圖像為典型例子的空域數(shù)據(jù)表現(xiàn)非常好[11]。但對于樣本序列出現(xiàn)的時間順序上的變化,即時域數(shù)據(jù)無法建模。

      循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[12]正是針對時域序列數(shù)據(jù)提出的,其特殊的網(wǎng)絡(luò)結(jié)構(gòu)使神經(jīng)元的輸出可以在下一個時間點作為輸入直接作用到自身,實現(xiàn)網(wǎng)絡(luò)的輸出為該時刻的輸入與歷史所有時刻共同作用的結(jié)果,達到對序列建模的目的。Lecun等[13]提出CNN并不完全適用于學(xué)習(xí)時間序列,如果使用CNN學(xué)習(xí)時間序列會需要補充輔助性處理,且效果也不一定好。面對對時間序列敏感的任務(wù),RNN通常會比較合適。即RNN作為一種回歸型網(wǎng)絡(luò),由于其具有一定的記憶效應(yīng)更適用于序列數(shù)據(jù),而CNN更側(cè)重于空間映射,在圖像數(shù)據(jù)處理方面更為貼合。

      然而,Lecun等[11]進一步提出RNN網(wǎng)絡(luò)雖然目的是學(xué)習(xí)時序數(shù)據(jù)的長期依賴性,但是理論和經(jīng)驗上的證據(jù)都表明RNN很難學(xué)習(xí)和保存長期的信息。其原因被認為是出現(xiàn)了時間軸上的梯度彌散(Gradient Vanishing)的現(xiàn)象,即當前時刻產(chǎn)生的梯度只能向歷史時刻傳播有限層,對于超過一定時間的歷史時刻無法產(chǎn)生影響,這導(dǎo)致了RNN在長序列數(shù)據(jù)上效果并不好。為了解決這個問題,Hochreiter等[14]提出的長短時記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)通過特有的門單元解決了這一問題。LSTM越來越多地被應(yīng)用在時域序列數(shù)據(jù)的處理上,Sundermeyer等[15]將LSTM應(yīng)用于自然語言模型上,比傳統(tǒng)的語言處理方法取得了較好的實驗結(jié)果。Graves等[16]在語音識別問題上使用了雙向LSTM網(wǎng)絡(luò),使語音分類精度得到了提高。

      1.2 LSTM 的優(yōu)勢

      LSTM應(yīng)用于人體姿態(tài)檢測算法中相比其他分類器更有效地利用了其3個優(yōu)勢:

      1)相比手工設(shè)置閾值分類方法,LSTM可以準確、自動地從數(shù)據(jù)中提取特征。LSTM作為一種機器學(xué)習(xí)方法,可以從復(fù)雜的高維數(shù)據(jù)中自動地提取特征。對比傳統(tǒng)的憑借經(jīng)驗提供先驗知識手工設(shè)置閾值的分類方法,LSTM自動提取特征的過程更加高效,且機器學(xué)習(xí)的過程學(xué)習(xí)的是數(shù)據(jù)集的概率分布,其方法提取的特征比經(jīng)驗更加符合數(shù)據(jù)本身的概率分布。

      2)相比淺層機器學(xué)習(xí)算法,屬于深度學(xué)習(xí)方法的LSTM擁有較強的非線性能力,能從數(shù)據(jù)中提取出更加具體的特征,其模型具有更強的泛化能力。淺層機器學(xué)習(xí)算法,例如SVM、KNN等,在訓(xùn)練集樣本空間能學(xué)習(xí)到分類效果較好的超平面將訓(xùn)練集數(shù)據(jù)正確分類。然而在實際應(yīng)用中面對尚未進行學(xué)習(xí)的新數(shù)據(jù)——測試集數(shù)據(jù)的分類效果卻不理想,其原因在于淺層機器學(xué)習(xí)算法非線性能力較弱,所提取到的特征較為抽象,模型泛化能力較差。而深度學(xué)習(xí)算法則通過多層連接、權(quán)值共享的網(wǎng)絡(luò)結(jié)構(gòu),逐層提取出更具體的特征,增強模型的泛化能力。

      3)相比同為深度學(xué)習(xí)模型中表現(xiàn)出色的前饋神經(jīng)網(wǎng)絡(luò)(feed-forward neural net),屬于循環(huán)神經(jīng)網(wǎng)絡(luò)的LSTM模型具有記憶性,能對數(shù)據(jù)中時間上的先后順序建模,對于時序數(shù)據(jù)有較好的擬合效果。在深度學(xué)習(xí)領(lǐng)域,傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)在許多方面表現(xiàn)出色。卷積神經(jīng)網(wǎng)絡(luò)作為前饋神經(jīng)網(wǎng)絡(luò)的代表,在圖像、視頻等定長的空域數(shù)據(jù)分類問題上效果顯著;然而,對于人體姿態(tài)檢測數(shù)據(jù)所屬的時序數(shù)據(jù)處理上,由于其自身網(wǎng)絡(luò)結(jié)構(gòu)的約束,效果并不太理想。LSTM則依靠獨特的遞歸結(jié)構(gòu)善于處理人體姿態(tài)檢測任務(wù)這種具有復(fù)雜時間關(guān)聯(lián)性的數(shù)據(jù),并且模型可以接受任意長度的輸入,更適合應(yīng)用在持續(xù)時間不一的人體姿態(tài)行為分類任務(wù)上。

      由于人體姿態(tài)檢測數(shù)據(jù)集的時域變化特點,為了克服目前人體姿態(tài)檢測算法所存在的難題,本文選取以LSTM為核心,在GPU上實現(xiàn)了人體姿態(tài)的算法模塊。該算法使用深度學(xué)習(xí)的方法自動高效地從傳感器數(shù)據(jù)中提取準確的特征,并利用LSTM的記憶特點僅需輸入當前時刻傳感器數(shù)據(jù)即可預(yù)測使用者當前行為,為上述難題提供了一種解決方案。

      2 基于LSTM的姿態(tài)檢測算法

      2.1 數(shù)據(jù)集介紹

      本文主要通過安卓手機內(nèi)置的傳感器作為人體姿態(tài)數(shù)據(jù)感知層,其具體數(shù)據(jù)主要來源于手機內(nèi)置的加速度傳感器、陀螺儀和氣壓計。

      由于數(shù)據(jù)采集中包含跌倒這種對于老年人來說十分危險的突發(fā)性動作,所以人體姿態(tài)檢測的數(shù)據(jù)采集是由20名年輕志愿者模仿老年人各種行為來代替;又因為智能手機在不使用時大多時候隨身攜帶,所以智能手機作為數(shù)據(jù)采集裝置采集數(shù)據(jù)時被放置在志愿者褲子口袋中。具體的姿態(tài)被分為突發(fā)性動作與持續(xù)性動作共9類,共采集3 336個數(shù)據(jù),分為2755個數(shù)據(jù)的訓(xùn)練集與581個數(shù)據(jù)的測試集,如表1所示。

      表1 人體姿態(tài)分類數(shù)據(jù)集Tab.1 Datasets of human posture classification

      訓(xùn)練集單次數(shù)據(jù)是由志愿者單一完成某項動作時的傳感器采樣后標記構(gòu)成,測試集為傳感器采樣包含各項動作的自然行為后截取標記而成。在后續(xù)模型訓(xùn)練中僅使用訓(xùn)練集,測試集則用于通過模擬老年人真實日常行為來評估模型泛化能力。

      數(shù)據(jù)集格式為:

      [data,label]

      其中:data為一種姿態(tài)的傳感器數(shù)據(jù);label為人工標注的當前數(shù)據(jù)所屬姿態(tài)類別。data的具體格式為:

      data= [sample,axis*sensor]

      其中:sample為一次姿勢狀態(tài)的采樣點數(shù),不同的姿態(tài)持續(xù)時間不同,所以sample維度不定;axis為傳感器軸數(shù);sensor為傳感器個數(shù)。數(shù)據(jù)集由3個傳感器共9維數(shù)據(jù)構(gòu)成。

      跌倒作為典型的突發(fā)性動作,訓(xùn)練集中采集到的跌倒數(shù)據(jù)可視化后如圖1所示。跌倒時三軸加速度傳感器(圖1(a))與三軸陀螺儀(圖1(c))波動非常劇烈,且持續(xù)時間非常短,經(jīng)過短暫地劇烈波動之后所有數(shù)據(jù)都歸于平靜。從氣壓計(圖1(b))中可以看出,氣壓略有升高,反映了跌倒動作發(fā)生時海拔高度略有降低。訓(xùn)練集中的持續(xù)性動作行走數(shù)據(jù)可視化后如圖2所示,上樓梯時三軸加速度傳感器(圖2(a))與三軸陀螺儀(圖2(c))數(shù)據(jù)呈現(xiàn)周期性波動,氣壓計(圖2(b))數(shù)據(jù)基本保持不變。

      圖1 跌倒數(shù)據(jù)可視化示意圖Fig.1 Schematic diagram of falling data visualization

      測試集則從志愿者連續(xù)完成多種動作行為截取單一動作行為并進行標注。如圖3所示,測試集加速度數(shù)據(jù)可視化后可以更直觀地看出,跳躍、奔跑、行走、跌倒與平靜的具有波形上的可分性。

      從圖3中可以發(fā)現(xiàn),無論是突發(fā)性動作還是持續(xù)性動作,不同動作的波形具有可分性,可以通過尋找其波形特征的差異區(qū)分開不同動作的波形。使用人工神經(jīng)網(wǎng)絡(luò)可以自動地尋找這些差異性特征,具體的分類方法將在后文中介紹。

      圖2 行走數(shù)據(jù)可視化示意圖Fig.2 Schematic diagram of walking data visualization

      圖3 測試集數(shù)據(jù)可視化示意圖Fig.3 Schematic diagram of test set data visualization

      2.2 神經(jīng)網(wǎng)絡(luò)整體結(jié)構(gòu)

      本文所構(gòu)建的姿態(tài)檢測算法是為了解決在現(xiàn)實場景中,通過攜帶的智能手機傳感器檢測人體當前的姿勢狀態(tài),算法的總流程如圖4所示。

      圖4 人體姿態(tài)檢測總流程Fig.4 General flowchart of human posture detection

      由于人體姿態(tài)是一種動態(tài)的數(shù)據(jù),且每一種姿態(tài)持續(xù)時間各不相同,所以本文將一條采樣數(shù)據(jù)按時序分割。在第t時刻,模型獲得傳感器當前時刻采集的12維數(shù)據(jù),經(jīng)過數(shù)據(jù)歸一化,使輸入的12維數(shù)據(jù)映射到值域為[0,1]的區(qū)間中,轉(zhuǎn)化為無量綱表達式,有利于消除各維度之間的量綱影響。然后將歸一化的數(shù)據(jù)與t-1時刻LSTM網(wǎng)絡(luò)單元的輸出一起輸入到LSTM網(wǎng)絡(luò)單元,重復(fù)此操作直到此次長度為sample的數(shù)據(jù)被讀取完畢,最后將sample次迭代的LSTM網(wǎng)絡(luò)單元輸出特征輸入至輸出層,最終得到分類結(jié)果。

      2.3 人體姿態(tài)檢測神經(jīng)網(wǎng)絡(luò)設(shè)計

      人體姿態(tài)數(shù)據(jù)屬于時間序列,過去時刻發(fā)生的狀態(tài)信息對當前時刻有較強的影響。使用長短時記憶(LSTM)網(wǎng)絡(luò)既可以有效地將過去的信息傳遞到當前的計算中,又能克服RNN結(jié)構(gòu)中無法傳遞相隔較遠信息的缺陷[17]。

      人體姿態(tài)檢測網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示,左邊為網(wǎng)絡(luò)整體示意。假設(shè)數(shù)據(jù)長度為n(即數(shù)據(jù)集中變長采樣點數(shù)sample),輸入x為歸一化后維度為12的數(shù)據(jù),經(jīng)過隱藏層n次迭代后得到輸出y。右邊為時域展開后的網(wǎng)絡(luò)結(jié)構(gòu),在第t時刻,隱藏層接收t時刻輸入數(shù)據(jù)x(t)和上一時刻隱藏層輸出c(t-1)后輸出t時刻的隱藏層輸出c(t)。隱藏層為LSTM網(wǎng)絡(luò)單元,其具體結(jié)構(gòu)[18]如圖6所示。

      圖5 人體姿態(tài)檢測網(wǎng)絡(luò)示意圖Fig.5 Schematic diagram of human posture detection network

      圖6 LSTM網(wǎng)絡(luò)單元結(jié)構(gòu)圖Fig.6 Structure diagram of LSTM network unit

      該網(wǎng)絡(luò)結(jié)構(gòu)在隱藏層中加入了先驗知識——輸入門、遺忘門和輸出門,這些門將不同時刻的層間信息與某一時刻的輸入信息處理得更加透明。根據(jù)LSTM網(wǎng)絡(luò)單元結(jié)構(gòu)圖,可以得到輸入門、輸出門與遺忘門的函數(shù)表達式如下:

      其中:Wx為輸入權(quán)值矩陣;Wh為t-1時刻隱藏層狀態(tài)權(quán)值矩陣;b為偏置項。t時刻線性自連接單元狀態(tài)c(t)與隱藏層狀態(tài)h(t)表達式為:

      分析式(1)~(5)可以發(fā)現(xiàn),通過調(diào)整各門的權(quán)值矩陣W,輸入門i(t)可以控制流入自連接單元狀態(tài)c(t)的信息量;遺忘門f(t)可以控制當前時刻的自連接單元狀態(tài)c(t)所包含c(t-1)的信息量,即控制遺忘多少上一時刻的自連接單元狀態(tài);輸出門o(t)控制可以流入到當前隱藏層狀態(tài)h(t)的自連接單元狀態(tài)c(t)信息。其中,線性自連接單元狀態(tài)c(t)的作用是完成歷史信息的積累,其積累方式為:

      這里info為本次要積累的信息來源,將式(6)代入式(4)可得:

      由式(7)可以得知,線性自連接單元狀態(tài)c(t)在積累歷史信息時,依靠遺忘門f(t)限制上一時刻c(t-1)傳遞的信息,同時依靠輸入門i(t)來約束新輸入的信息。根據(jù)式(5),當前隱藏層狀態(tài)h(t)是由輸出門約束的,由于是以線性方式更新,所以加入帶有非線性功能的tanh函數(shù)。

      整個LSTM網(wǎng)絡(luò)單元的信息來源為當前的輸入x(t)、上一時刻的隱藏層狀態(tài)h(t-1)與上一時刻線性自連接單元狀態(tài)c(t-1),由于其中c(t-1)是根據(jù)式(4)計算出來的,所以三個門單元的控制依據(jù)實際都來源于當前的輸入x(t)與上一時刻的隱藏層狀態(tài)h(t-1)。

      如圖5右上所示,在第n時刻時,即一組數(shù)據(jù)已經(jīng)全部輸入完畢后,將LSTM網(wǎng)絡(luò)單元最終隱藏層狀態(tài)h(n)作為輸入傳遞進輸出層。由于是分類標簽大于2個為多分類問題,輸出層函數(shù)為:

      通過式(8)計算得出最終姿態(tài)預(yù)測分類結(jié)果的概率分布。

      2.4 網(wǎng)絡(luò)訓(xùn)練及訓(xùn)練參數(shù)的調(diào)整

      訓(xùn)練人體姿態(tài)檢測網(wǎng)絡(luò)是獲得構(gòu)建網(wǎng)絡(luò)所以參數(shù)的過程,通過訓(xùn)練得到的參數(shù)是式(1)~(8)中的權(quán)值矩陣W與偏置項b。

      在網(wǎng)絡(luò)搭建完成后,第一步是將網(wǎng)絡(luò)權(quán)值矩陣初始化。對于LSTM網(wǎng)絡(luò),由于正交初始化(Orthogonal Initialization)能減緩梯度彌散(Gradient Vanishing)與鞍點(Saddle Point)帶來的問題[18],本文采取正交初始化來初始化網(wǎng)絡(luò)權(quán)值。第二步,將一組數(shù)據(jù)輸入完畢后經(jīng)過權(quán)值矩陣計算得到網(wǎng)絡(luò)輸出y與本組數(shù)據(jù)標簽y'(Label)計算交叉熵(Cross-entropy)作為誤差,誤差表達式如下:

      第三步計算誤差函數(shù)loss對權(quán)值矩陣W的梯度,將獲得的梯度反向傳播調(diào)整網(wǎng)絡(luò)各部分權(quán)值矩陣,通過Adam下降方式(Adaptive Moment Estimation)反復(fù)迭代降低誤差loss直到網(wǎng)絡(luò)收斂至e。

      為了方便重復(fù)實驗與人體姿態(tài)檢測的后續(xù)研究,表2列出了人體姿態(tài)檢測神經(jīng)網(wǎng)絡(luò)中所設(shè)置的參數(shù)名稱與對應(yīng)的參數(shù)值供研究參考。其中:隱藏層數(shù)為模型中所含有的LSTM網(wǎng)絡(luò)單元數(shù)目,隱藏層特征數(shù)為數(shù)據(jù)通過隱藏層后提取出的特征個數(shù)。

      表2 人體姿態(tài)檢測神經(jīng)網(wǎng)絡(luò)參數(shù)Tab.2 Parameters of human posture detection neural network

      3 實驗與結(jié)果分析

      3.1 實驗驗證方法

      為了驗證人體姿態(tài)檢測網(wǎng)絡(luò)的性能,本文使用獨立于訓(xùn)練集分開采集的581條數(shù)據(jù)作為測試集驗證人體姿態(tài)檢測神經(jīng)網(wǎng)絡(luò)模型的效果,由于測試集數(shù)據(jù)為截取自然行為數(shù)據(jù)標注而成,其包含有部分非標準行為特征與不同行為切換時的數(shù)據(jù),與通過志愿者做出單一動作時采集的標準訓(xùn)練集存在差異。本文利用訓(xùn)練集與測試集采集時的差異驗證該模型從實驗室采集數(shù)據(jù)對連續(xù)自然行為的泛化能力。

      本文使用Top-1正確率與模型參數(shù)量作為評測指標:Top-1正確率為網(wǎng)絡(luò)最終分類結(jié)果正確的次數(shù)占總次數(shù)的百分比,如圖7所示,其值越高表明人體姿態(tài)網(wǎng)絡(luò)的分類越準確;模型參數(shù)量是指訓(xùn)練模型所需的參數(shù)數(shù)量,其值越高說明模型越復(fù)雜,訓(xùn)練難度越大。擬合效果;測試集曲線則體現(xiàn)了網(wǎng)絡(luò)對新輸入的數(shù)據(jù)集的泛化能力。

      圖7 網(wǎng)絡(luò)訓(xùn)練中Top-1正確率變化Fig.7 Correct rate change of Top-1 in network training

      3.2 對照實驗設(shè)置

      為了驗證LSTM網(wǎng)絡(luò)在處理人體姿態(tài)檢測任務(wù)上的優(yōu)勢,本文使用經(jīng)典的淺層學(xué)習(xí)方法支持向量機(SVM)、決策樹方法與基于KD樹的K近鄰算法(KNN-kd)三種常用的機器學(xué)習(xí)算法與卷積神經(jīng)網(wǎng)絡(luò)(CNN)、全連接神經(jīng)網(wǎng)絡(luò)(Fully Connected neural network,F(xiàn)C)兩種深度學(xué)習(xí)網(wǎng)絡(luò)作為對照組與LSTM網(wǎng)絡(luò)做對比實驗。表3、4、5分別列出了SVM、決策樹與KNN算法的參數(shù)。

      表3 SVM對照組參數(shù)表Tab.3 Parameters of SVM control group

      表4 決策樹對照組參數(shù)Tab.4 Parameters of decision tree control group

      表5 KNN對照組參數(shù)Tab.5 Parameters of KNN control group

      深度學(xué)習(xí)對照組CNN與FC網(wǎng)絡(luò)所使用參數(shù)如表6所示。

      表6 深度學(xué)習(xí)對照組參數(shù)Tab.6 Parameters of deep learning control group

      3.3 結(jié)果分析

      比較結(jié)果如表7所示,從表7中可以得知,本文方法(LSTM)在測試集上得到了最高的正確率98.02%,與次好的機器學(xué)習(xí)算法(KNN-kd)的93.53%相比提高了4.49個百分點,獲得了更好的分類效果。進一步分析發(fā)現(xiàn),SVM等淺層學(xué)習(xí)方法在訓(xùn)練集上可以得到較高的正確率,而在測試集上效果降低了很多。這說明這些方法對于數(shù)據(jù)的泛化能力不如本文所使用的方法,即受訓(xùn)練樣本的約束過大,沒有從有限的樣本提取到最合適的特征。

      由于人體姿態(tài)檢測網(wǎng)絡(luò)使用深度學(xué)習(xí)方法,本文設(shè)置了同為深度學(xué)習(xí)的全連接神經(jīng)網(wǎng)絡(luò)(FC)與卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為對照實驗。由于CNN網(wǎng)絡(luò)需要輸入為固定長度的數(shù)據(jù),所以本文將數(shù)據(jù)處理為采樣點數(shù)sample=128(約為3 s)的定長數(shù)據(jù)集。對比結(jié)果如表8所示,其中FC-1為隱藏層為1的全連接神經(jīng)網(wǎng)絡(luò),F(xiàn)C-2為隱藏層為2的全連接神經(jīng)網(wǎng)絡(luò),CNN-1為隱藏層為1的卷積神經(jīng)網(wǎng)絡(luò),以此類推。

      表7 不同方法的實驗結(jié)果對比Tab.7 Comparison of experimental results of differents methods

      表8 LSTM網(wǎng)絡(luò)與深度學(xué)習(xí)對照組結(jié)果對比Tab.8 Comparison of LSTM network and control groups of deep learning

      全連接神經(jīng)網(wǎng)絡(luò)(FC)由于其網(wǎng)絡(luò)結(jié)構(gòu)特點會對網(wǎng)絡(luò)輸入數(shù)據(jù)整體感知,其模型訓(xùn)練參數(shù)十分巨大,并會隨輸入數(shù)據(jù)長度即采樣點數(shù)sample的增加而大幅度增加。卷積神經(jīng)網(wǎng)絡(luò)(CNN)通過局部感知參數(shù)共享的方式能大幅度降低網(wǎng)絡(luò)訓(xùn)練參數(shù),然而其本質(zhì)是將時域輸入數(shù)據(jù)轉(zhuǎn)換至空域卷積計算,對128個采樣點無關(guān)先后順序賦以相同權(quán)重,128個采樣點發(fā)生之前的數(shù)據(jù)對當前輸出無任何影響,這對于持續(xù)時間較長的行為或較短時間內(nèi)發(fā)生的突發(fā)行為來說,需要手動調(diào)節(jié)合適的采樣點數(shù)才能獲得較好的結(jié)果。

      由表8可得,隱藏層為3的CNN網(wǎng)絡(luò)能和本文使用的LSTM網(wǎng)絡(luò)獲得相近的正確率,但是進一步分析CNN網(wǎng)絡(luò)后發(fā)現(xiàn),由于CNN的輸入需要為定長且包含至少一個完整姿態(tài)動作周期的數(shù)據(jù),對照組的采樣點數(shù)為sample=128,在采樣頻率為50 Hz的條件下,進行一次檢測判斷需要延遲約為3 s左右。這會導(dǎo)致將CNN網(wǎng)絡(luò)應(yīng)用在人體姿態(tài)檢測中耗時過長,若采用滑窗采樣的數(shù)據(jù)采集形式,又會帶來重復(fù)的計算開銷。本文使用的LSTM網(wǎng)絡(luò)因為其具有對歷史時刻的記憶性質(zhì),每次輸入為當前采樣時刻的數(shù)據(jù),可以實時計算并避免額外的計算開銷,更適合于人體姿態(tài)檢測的應(yīng)用。

      4 結(jié)語

      本文提出了基于LSTM的人體姿態(tài)檢測方法,利用循環(huán)神經(jīng)網(wǎng)絡(luò)對歷史時刻數(shù)據(jù)的可記憶性,結(jié)合LSTM中特殊的門結(jié)構(gòu)控制當前時刻與歷史時刻的數(shù)據(jù)輸入,提取了人體姿態(tài)時序數(shù)據(jù)中的特征并對其進行分類預(yù)測。通過對比經(jīng)典的淺層學(xué)習(xí)方法得出,本文提出的方法能提取到準確且有效的特征值且具有較好的泛化能力,取得了較好的實驗效果;通過對比CNN網(wǎng)絡(luò)的分析研究得出,本文提出的方法能避免額外的計算開銷,并可以實時檢測老年人姿態(tài)狀況。

      由于數(shù)據(jù)集本身對于神經(jīng)網(wǎng)絡(luò)具有約束作用,數(shù)據(jù)集數(shù)目的增加對模型的特征提取與泛化能力都有幫助,所以下一步的工作主要是擴大數(shù)據(jù)集,并結(jié)合更復(fù)雜的神經(jīng)網(wǎng)絡(luò)在保證誤差和正確率的情況下訓(xùn)練出更具備泛化能力的網(wǎng)絡(luò)結(jié)構(gòu)。

      猜你喜歡
      姿態(tài)時刻人體
      人體“修補匠”
      冬“傲”時刻
      人體冷知識(一)
      捕獵時刻
      排便順暢,人體無毒一身輕
      攀爬的姿態(tài)
      全新一代宋的新姿態(tài)
      汽車觀察(2018年9期)2018-10-23 05:46:40
      跑與走的姿態(tài)
      中國自行車(2018年8期)2018-09-26 06:53:44
      奇妙的人體止咳點
      特別健康(2018年3期)2018-07-04 00:40:10
      街拍的歡樂時刻到來了
      平江县| 岳阳市| 石泉县| 东海县| 淄博市| 景宁| 屏东市| 绍兴县| 桃源县| 吴川市| 罗城| 达孜县| 长沙市| 澎湖县| 嫩江县| 宁都县| 富阳市| 福建省| 本溪市| 得荣县| 内乡县| 东阿县| 大兴区| 江永县| 罗甸县| 马关县| 肇州县| 金川县| 青浦区| 呼伦贝尔市| 静乐县| 涡阳县| 金华市| 夹江县| 边坝县| 奉化市| 鲁甸县| 靖远县| 潞城市| 新晃| 北票市|