鄭士基 李觀勝
摘? 要:人體行為識別和分析是計算機視覺領域的研究熱點,考慮到環(huán)境的復雜性和人體行為的多樣性,行為識別在處理速度、識別準確率等方面還有很大的提升空間。近年來,深度學習技術的發(fā)展和在人工智能領域的成功應用,為人體行為識別提供了全新的解決方法。本文主要研究將深度學習中的卷積神經網絡技術應用于人體行為識別,結合具體的教室應用場景,設計能夠主動學習的智能化人體行為識別模型,對量化分析教室的學生的學習情況和教學情況具有重要的現(xiàn)實意義。
關鍵詞:計算機視覺;行為識別;深度學習;卷積神經網絡
中圖分類號:TP391.41? ? ?文獻標識碼:A 文章編號:2096-4706(2019)07-0087-03
Abstract:Human behavior recognition and analysis is a research hotspot in the field of computer vision. Considering the complexity of the environment and the diversity of human behavior,there is still much room to improve the processing speed and recognition accuracy of human behavior recognition. In recent years,the development of in-depth learning technology and its successful application in the field of artificial intelligence have provided a new solution for human behavior recognition. This paper mainly studies the application of convolutional neural network technology in deep learning to human behavior recognition,and combines with specific classroom application scenarios,designs an intelligent human behavior recognition model that can actively learn,which has important practical significance for quantitative analysis of classroom students’learning and teaching situation.
Keywords:computer vision;behavior recognition;in-depth learning;convolutional neural network
0? 引? 言
人體行為識別是指通過人工智能、模式識別等方法,從視頻、圖像中提取與行為有關的有效特征信息,通過算法和分類器模型完成識別判定的過程。近年來,利用信息化技術智能地對實際場景中的人體行為進行識別已成為社會的新興需求和研究熱點。本文設計了一個應用于教室的人體行為識別模型,使用安裝在教室的高清攝像機,捕獲學生在課堂上的實時畫面,研究利用深度學習中的卷積神經網絡技術,智能地識別出學生在教室中的行為和動作,能夠量化、有效地反映出學生在課堂上的學習狀態(tài),監(jiān)控和評估課堂的教學情況,具有非常重要的現(xiàn)實意義。
1? 行為識別的方法
人體行為識別的研究目前主要有兩個方向:基于機器學習和基于深度學習。
機器學習需要人為地先設計好相關特征的充分表征行為,然后采用機器學習中的分類方法對圖像顯示的行為進行分類。機器學習所設計的特征可分為局部特征和全局特征。全局特征需先對人體進行前景背景分離,再對以人體為核心的關鍵區(qū)域進行整體描述。局部特征是一種更廣泛使用的方法,它與全局特征不同的是無需進行前景背景分離,可以直接從圖像相關的興趣點中進行特征的采集。
深度學習技術近年來在圖像識別、分類等方面取得了迅猛的發(fā)展,結合深度學習的研究和應用也越來越多。常用的深度學習模型有深度置信網絡(DBN)、卷積神經網絡(CNN)和循環(huán)神經網絡(RNN)等。研究表明,基于深度神經網絡的圖像識別技術,具有卓越的非線性映射能力、自學習能力和并行處理能力,無須人為干預就可以對學習到的特征行為進行表征和分類。
通過以上的分析可以看到,在傳統(tǒng)的基于機器學習的方法中,特征計算是由人工設計的,而在深度學習中,則是通過設計的模型和標簽,讓網絡自適應地學習不同行為的特征。因此,相比于傳統(tǒng)的機器學習識別方法,深度學習在人體行為識別方面明顯具有更大的優(yōu)勢。
2? 卷積神經網絡
卷積神經網絡是應用最為廣泛的深度學習模型,它能夠通過訓練,自主地對輸入特征進行全面有效的學習。與傳統(tǒng)的神經網絡相比,卷積神經網絡利用了卷積算法的特性,通過稀疏連接、局部感受野、權值共享和池化等手段,極大地降低了網絡結構的復雜度和運算量。目前,卷積神經網絡在自然語言處理、氣候預測、人工智能等領域都有廣泛的應用。由于卷積神經網絡能從大量數(shù)據(jù)中學習到不同層級的特征,因此其在人體行為識別領域必然也有著非常廣闊的應用前景。經典的卷積神經網絡模型主要由五部分組成:輸入層、卷積層、池化層、全連接層和分類層,如圖1所示。
2.1? 卷積層
卷積層是卷積神經網絡中最重要的組成部分,特征圖輸入到卷積層后會與卷積核進行卷積操作,卷積操作公式如下:
其中,是tanh函數(shù),pj為局部感受野,是第l-1層的特征在第i個窗戶上的值,是第l層上位置為(i,j)對應的卷積核的權重,是特征的偏置。
卷積層在進行卷積運算時,卷積核按照設置好的步長在整個輸入特征上滑動,并同時與局部感受野相對應的部分相乘、求和進行卷積操作,一直重復到卷積核滑出輸入特征為止。
2.2? 池化層
池化層的作用主要是降低特征的維度和篩選掉冗余的特征,從而減少網絡的運算量和提高網絡的泛化能力。池化層通過池化窗口在輸入特征上的滑動進行采樣,根據(jù)采樣方式的不同,可分為最大池化和均值池化兩種方式。池化過程可表示公式如下:
其中,表示第l-1層輸入特征中第i個窗口的值,是第l層第j個窗口的偏置,pool表示采樣函數(shù)。
2.3? 全連接層
卷積神經網絡在卷積層和池化層之后,一般都會配置一個全連接層。全連接層的神經元與前一層的每一個神經元都相互連接,運算過程公式如下:
其中,f(ul)為激活函數(shù),Wl是第l-1層至1層的權重,bl為第l層的偏置,xl-1是第l-1層的輸出特征。
2.4? 分類層
卷積神經網絡模型對人體行為識別的效果在很大程度上取決于特征的選取以及分類層分類器的選擇。一般情況下,如果擁有好的特征,即使選擇簡單的分類器,如支持向量機SVM(Support Vector Machine)等也能夠獲得不錯的效果,但SVM在大規(guī)模的識別應用時,通常會受到時間和空間復雜度的約束,其識別分類的效率不高。本文采用Softmax作為分類器,Softmax適用于多分類的情況,它的表達函數(shù)如下:
函數(shù)的輸出結果為1個k維的向量(各向量元素的和為1),用其來表示這k個估計的概率值。即對于給定的k維輸入x向量,對每一個類別j計算出其概率p(y=i|x),達到估算輸入x的每一種分類輸出結果的概率值的目的。
3? 行為識別模型
3.1? 模型結構
本文所設計的人體行為識別模型主要由圖像輸入模塊、圖像處理模塊、特征學習模塊和行為識別模塊四部分組成,如圖2所示。
圖像輸入模塊負責圖像的捕獲和傳輸;圖像處理模塊負責圖像的灰度化和壓縮,將圖片轉換為卷積神經網絡善于處理的灰度圖,實現(xiàn)人體行為識別問題向圖像識別問題的轉化,利用圖像中的紋理特征對人體行為進行判別。特征學習模塊通過卷積神經網絡對人體行為的特征進行提取和學習。行為識別模塊則是使用卷積神經網絡、Softmax算法等對輸入圖像的特征進行判別,從而識別分類出不同的人體行為。
3.2? 教室人體行為分類
為了方便對教室中的人體行為進行識別、量化和統(tǒng)計,本文在參考了相關的文獻資料和經過分析后,將教室中的人體行為分成了以下6種類別,如表1所示。
3.3? 模型參數(shù)選擇
模型參數(shù)的選擇需考慮以下幾方面的問題:卷積神經網絡的層數(shù),即網絡的深度;每層網絡神經元的數(shù)量;激活函數(shù)的選擇;損失函數(shù)的確定。在具體的設計中,以先簡單后復雜為原則,先從3層卷積神經網絡開始,其中包含1個輸入層、3個卷積層、3個池化層、1個全連接層和1個分類層,在這個基礎上再根據(jù)實際的效果調整模型的深度和容量。
(1)卷積層參數(shù)。主要涉及到卷積核大小、個數(shù)和卷積步長。可采用5×5卷積核,步長設置為1,卷積核的個數(shù)設置為64。
(2)池化層參數(shù)。與卷積層相似,池化層可采用3×3的池化核,步長設置為1。
(3)其他參數(shù)設置。學習率的設定,一個理想的學習率能夠使模型收斂得更快,可以從0.001開始,適當增大學習率可以加快模型的收斂速度。迭代次數(shù)一般在操作過程中進行設置,卷積神經網絡在訓練的過程中,小批次會表現(xiàn)得更好,可以從小開始逐漸增大迭代的次數(shù)。為了防止模型擬合過強,泛化能力不足,還需進行正則化的Dropout處理,該參數(shù)一般設置為0.5。
4? 結? 論
本文將目前最流行的深度卷積神經網絡應用于人體行為識別模型,并與教室的實際應用場景相結合。提出了模型的設計結構、參數(shù)的選擇與圖像的分類方法,為教室人體行為識別研究提供了一種新的設計理念和思路。在接下來的工作中,主要的工作一是研究將本模型在實際應用中進行測試;二是研究如何在增加模型卷積神經網絡層數(shù)的同時,減少模型訓練和運算的時間,并進一步提高模型分類的精度和模型泛化的能力。
參考文獻:
[1] 陸霖霖.基于改進ISA深度網絡的人體行為識別研究與實現(xiàn) [D].成都:電子科技大學,2016.
[2] BOUZOUANE A,BOUCHARD B,GIROU XS.Action Description Logic for Smart Ho me Agent Recognition [J].Journal of the American Society of Echocardiography Official Publication of the A merican Society of Echocardiography,2005,22(11):1269-74.
[3] 惠通.基于軌跡和卷積神經網絡的人體行為識別方法 [D].西安:西安電子科技大學,2017.
[4] 余興.基于深度學習的視頻行為識別技術研究 [D].成都:電子科技大學,2018.
[5] 王明.基于卷積神經網絡的網絡入侵檢測系統(tǒng) [D].北京:北京郵電大學,2018.
[6] 孔令爽.基于深度學習和遷移學習的入侵檢測研究 [D].濟南:山東大學,2018.
作者簡介:鄭士基(1979-),男,漢族,廣東江門人,高級工程師,學士,研究方向:計算機網絡、物聯(lián)網、人工智能。