孫月馳 平 偉 徐明磊
(山東科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 山東 青島 266590)
近年來(lái),人體行為識(shí)別研究逐漸成熟,在視頻的智能分析、虛擬現(xiàn)實(shí)、人機(jī)交互、視頻摘要、視頻信息檢索、運(yùn)動(dòng)分析方面都具有廣闊的應(yīng)用前景[1]。行為識(shí)別已經(jīng)成為深度學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)之一,深度學(xué)習(xí)算法的研究推動(dòng)了行為識(shí)別研究的進(jìn)步。
深度學(xué)習(xí)的基本原理是通過(guò)構(gòu)建具有提取非線(xiàn)性特征的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),完成學(xué)習(xí)、訓(xùn)練過(guò)程,提取數(shù)據(jù)集的本質(zhì)特征。目前比較成熟的深度學(xué)習(xí)算法包括對(duì)抗神經(jīng)網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)、深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)等。深度學(xué)習(xí)在多個(gè)領(lǐng)域展現(xiàn)出強(qiáng)大的學(xué)習(xí)能力和適應(yīng)能力,深入研究深度學(xué)習(xí)算法對(duì)推動(dòng)人工智能及拓展其應(yīng)用具有重要意義。隨著運(yùn)動(dòng)目標(biāo)識(shí)別技術(shù)的廣泛應(yīng)用,如何提高算法的泛化性能和非線(xiàn)性擬合能力,減少冗余特征信息的提取,提升算法對(duì)行為識(shí)別的準(zhǔn)確率,將是未來(lái)研究的重點(diǎn)。很多學(xué)者采用深度學(xué)習(xí)算法獲取深層次的特征信息,通過(guò)非監(jiān)督學(xué)習(xí)方式來(lái)學(xué)習(xí)特征,訓(xùn)練模型進(jìn)行目標(biāo)和行為的識(shí)別。目前基于深度學(xué)習(xí)算法的行為識(shí)別研究可以分為如下四種類(lèi)別:
1) 基于卷積神經(jīng)網(wǎng)絡(luò)的行為識(shí)別。卷積神經(jīng)網(wǎng)絡(luò)[2](Convolution neural network,CNN)是深度前饋神經(jīng)網(wǎng)絡(luò)的一個(gè)分支,在圖像識(shí)別領(lǐng)域得到廣泛的應(yīng)用,并取得很大成功。CNN由一維、二維以及三維卷積神經(jīng)網(wǎng)絡(luò)組成,分別應(yīng)用于序列類(lèi)的數(shù)據(jù)處理、圖像類(lèi)文本的識(shí)別、醫(yī)學(xué)圖像以及視頻類(lèi)數(shù)據(jù)識(shí)別。Ji等[3]構(gòu)建了一種新的3D CNN動(dòng)作識(shí)別方法,通過(guò)3D卷積層卷積操作分別從空間、時(shí)間維度獲得特征信息,從搭建的多信息通道中獲得輸入數(shù)據(jù)的運(yùn)動(dòng)信息,最終的特征表示組合來(lái)自所有通道的信息融合。Cheron等[4]提出了一種新的基于姿勢(shì)的卷積神經(jīng)網(wǎng)絡(luò)描述符(P-CNN)用于動(dòng)作識(shí)別,描述符沿著人體部位的軌跡聚集運(yùn)動(dòng)和外觀信息,通過(guò)研究時(shí)間聚合的不同方案,并且對(duì)自動(dòng)估計(jì)和手動(dòng)注釋的人體姿勢(shì)獲得的P-CNN特征進(jìn)行了實(shí)驗(yàn),結(jié)果表明該模型在識(shí)別結(jié)果方面表現(xiàn)穩(wěn)定。Yan等[5]提出基于卷積神經(jīng)網(wǎng)絡(luò)對(duì)駕駛員行為識(shí)別的方法,首先利用高斯混合模型獲取駕駛?cè)藛T皮膚狀區(qū)域的特征圖像,提取的區(qū)域特征圖輸入深度卷積神經(jīng)網(wǎng)絡(luò),即R*CNN,以生成動(dòng)作標(biāo)簽。皮膚狀區(qū)域能夠提供具有足夠辨別能力的豐富語(yǔ)義信息。此外,R*CNN能夠從候選者中選擇信息最豐富的區(qū)域以促進(jìn)最終動(dòng)作識(shí)別。
2) 基于自動(dòng)編碼器無(wú)監(jiān)督行為識(shí)別。自動(dòng)編碼器[6](AutoEncoder)是一種無(wú)監(jiān)督學(xué)習(xí)算法,該算法通過(guò)自動(dòng)編碼獲取能夠代表輸入數(shù)據(jù)的主要成分,進(jìn)行復(fù)現(xiàn)輸入信息的處理。Le等[7]通過(guò)對(duì)視頻數(shù)據(jù)進(jìn)行無(wú)監(jiān)督特征學(xué)習(xí),獲取視頻數(shù)據(jù)的學(xué)習(xí)特征,構(gòu)建了獨(dú)立子空間分析算法,從未標(biāo)記的視頻數(shù)據(jù)中學(xué)習(xí)不變的時(shí)空特征。Deng等[8]提出了一種基于多層自動(dòng)編碼器和監(jiān)督約束的深度學(xué)習(xí)方法,能夠很好地使用有限的訓(xùn)練圖像。
3) 基于受限制玻爾茲曼機(jī)及其擴(kuò)展模型的行為識(shí)別。受限玻爾茲曼機(jī)[9](Restricted Boltzmann Machine,RBM)是一種基于能量函數(shù)能夠描述變量之間的相互作用的建模方法,擁有比較健全的數(shù)學(xué)知識(shí)理論基礎(chǔ)。Wu等[10]提出了基于受限玻爾茲曼機(jī)器(RBM)及其變體構(gòu)建的面部形狀先驗(yàn)?zāi)P?,?gòu)建一個(gè)基于深度信念網(wǎng)絡(luò)的模型,以捕捉由于近前視圖的面部表情變化而導(dǎo)致的臉部形狀變化。為了處理姿勢(shì)變化,將正面形狀先驗(yàn)?zāi)P徒Y(jié)合到三向RBM模型中,該模型可以捕獲正面形狀和非正面形狀之間的關(guān)系。Feng等[11]通過(guò)用模糊數(shù)替換所有實(shí)值參數(shù),從限制玻爾茲曼機(jī)擴(kuò)展模糊受限玻爾茲曼機(jī),提出了基于模糊數(shù)的脆弱可能均值的新型學(xué)習(xí)算法,該算法利用模糊數(shù)的清晰可能平均值對(duì)模糊自由能函數(shù)進(jìn)行去模糊化。
4) 基于遞歸神經(jīng)網(wǎng)絡(luò)及其擴(kuò)展模型的行為識(shí)別。遞歸神經(jīng)網(wǎng)絡(luò)[12](Recursive neural network,RNN)可以分為兩類(lèi):時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)和結(jié)構(gòu)遞歸神經(jīng)網(wǎng)絡(luò)。遞歸神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)算法相比,在處理聲音、文本、視頻等信息表征時(shí),能夠反映序列前后關(guān)聯(lián)信息,學(xué)習(xí)到信息的邏輯順序。Ng等[13]構(gòu)建含有特征池的遞歸神經(jīng)網(wǎng)絡(luò),特征池網(wǎng)絡(luò)使用CNN獨(dú)立處理每個(gè)幀,然后使用各種池層組合幀級(jí)信息。與特征池一樣,LSTM網(wǎng)絡(luò)在幀級(jí)CNN激活上運(yùn)行,并且可以學(xué)習(xí)如何隨時(shí)間整合信息。Yu等[14]提出了一種適用于非常長(zhǎng)期跟蹤(例如一個(gè)月)的多攝像機(jī)監(jiān)視場(chǎng)景的多人跟蹤算法,跟蹤算法利用身份信息在流形學(xué)習(xí)框架中用作稀疏標(biāo)簽信息。Du等[15]提出了一種基于骨架的動(dòng)作識(shí)別的端到端分層遞歸神經(jīng)網(wǎng)絡(luò)模型,根據(jù)人體骨骼劃分為五部分作為該模型的輸入層,分別進(jìn)入五個(gè)子網(wǎng)絡(luò)提取特征信息,并在高層進(jìn)行特征的融合,最后由感知器輸出結(jié)果。
上述基于卷神經(jīng)網(wǎng)絡(luò)擴(kuò)展模型對(duì)人體行為識(shí)別的研究均需要人工完成特征標(biāo)記,其計(jì)算量、模型的泛化能力,以及特征獲取能力需要進(jìn)一步提高。針對(duì)上述問(wèn)題,本文提出了基于優(yōu)化的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的人體行為識(shí)別方法。首先通過(guò)優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)模型,構(gòu)建嵌套Maxout多層感知器層(Multy-Layer Perception,MLP)網(wǎng)絡(luò)結(jié)構(gòu),卷積層對(duì)前景目標(biāo)進(jìn)行特征提取,通過(guò)嵌套MaxoutMLP網(wǎng)絡(luò)結(jié)構(gòu)可以線(xiàn)性地組合特征圖并選擇最有效特征信息,對(duì)獲取的特征圖進(jìn)行向量化處理,利用分類(lèi)器Softmax進(jìn)行人體行為分類(lèi)識(shí)別。實(shí)驗(yàn)結(jié)果表明,該方法的人體行為識(shí)別準(zhǔn)確率取得較好結(jié)果。
卷積神經(jīng)網(wǎng)絡(luò)是擁有深層網(wǎng)絡(luò)結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),具有較強(qiáng)的容錯(cuò)、自學(xué)習(xí)及并行計(jì)算能力。近年來(lái)卷積神經(jīng)網(wǎng)絡(luò)廣泛應(yīng)用于處理分類(lèi)和識(shí)別問(wèn)題,特別是人臉識(shí)別、輔助醫(yī)療診斷、自動(dòng)駕駛系統(tǒng)等領(lǐng)域,極大程度上促進(jìn)了深度學(xué)習(xí)快速發(fā)展和推廣應(yīng)用。
卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的多層感知器、卷積核、池化層、局部連接和權(quán)值共享等網(wǎng)絡(luò)結(jié)構(gòu)的應(yīng)用,不但使神經(jīng)網(wǎng)絡(luò)的時(shí)間復(fù)雜度和空間復(fù)雜度得到降低,而且使網(wǎng)絡(luò)結(jié)構(gòu)的權(quán)值參數(shù)也大量地縮減,更利于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。
1.1.1局部連接
局部連接也叫稀疏連接,受生物學(xué)中視覺(jué)神經(jīng)結(jié)構(gòu)的啟發(fā),視覺(jué)皮層的神經(jīng)元進(jìn)行局部信息的接收(即這些神經(jīng)元只響應(yīng)某些特定區(qū)域的刺激)。圖像像素的空間聯(lián)系與距離近的像素相關(guān)性強(qiáng),反之相關(guān)性就弱。因此,神經(jīng)元只接收自己負(fù)責(zé)的局部感受域而不需要對(duì)所有像素進(jìn)行感知,感知的局部信息再由下一層進(jìn)行局部信息融合,整合成全局感知。采用局部連接能夠很大程度上減少卷積神經(jīng)網(wǎng)絡(luò)層與層之間的權(quán)值數(shù)量,進(jìn)行特征降維處理并篩選有效的特征,進(jìn)行神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)和訓(xùn)練提高模型的學(xué)習(xí)效率[16]。
1.1.2權(quán)值共享
權(quán)值共享實(shí)現(xiàn)原理:使用同一個(gè)卷積核處理輸入的整幅圖像,局部提取的特征與其他部分提取的特征是相同的,其他位置都能使用同樣的學(xué)習(xí)特征[17]。卷積神經(jīng)網(wǎng)絡(luò)權(quán)值共享降低了特征維度和參數(shù)數(shù)量,神經(jīng)網(wǎng)絡(luò)的時(shí)間復(fù)雜度和空間復(fù)雜度也得到降低。
1.1.3多層卷積核
卷積神經(jīng)網(wǎng)絡(luò)的第一層卷積層進(jìn)行卷積操作之后,卷積層得到的特征圖是圖像的一些淺層特征,如邊緣信息、線(xiàn)條輪廓等信息。對(duì)于圖像的識(shí)別,需要的是深層特征,淺層特征不能夠充分表達(dá)圖像的語(yǔ)義信息。一種卷積核只能獲得同一種特征圖,要獲得更深層次特征,需要進(jìn)行多層卷積核進(jìn)行特征信息的提取,形成多種信息的特征圖[18]。
在圖像識(shí)別領(lǐng)域,輸入圖像的特征層次結(jié)構(gòu)是與生俱來(lái)的。如圖1所示,從原始輸入的像素開(kāi)始,到由像素構(gòu)成的簡(jiǎn)單的線(xiàn)條和紋理,再到由線(xiàn)條與紋理構(gòu)成了圖案,最終是由各個(gè)圖案構(gòu)成圖像中的物體。整個(gè)過(guò)程通過(guò)原始輸入找到淺層特征,再對(duì)淺層特征進(jìn)一步挖掘找到中層特征,最后一步獲得深層特征。要從原始輸入直接找到深層特征無(wú)疑是行不通的,簡(jiǎn)而言之,單層的卷積獲取到的往往是淺層的特征,增加卷積的層數(shù)才有可能獲取到更深層的特征。
圖1 特征提取過(guò)程示意圖
1.1.4卷積過(guò)程的原理
卷積神經(jīng)網(wǎng)絡(luò)的卷積層對(duì)圖像進(jìn)行卷積操作,獲取的特征圖含有原始圖像的結(jié)構(gòu)性特征,深層次的特征更能夠表達(dá)出圖像本質(zhì)含義信息。函數(shù)卷積的定義如下:對(duì)于R上可積的兩個(gè)連續(xù)函數(shù)f(x)、g(x),它們的卷積h(x)為:
(1)
式中:f(x)在g(x)上的卷積記作f(x)*g(x),表示在定義域中f(x)與g(α-x)乘積的積分;α代表卷積函數(shù)h(x)的自變量,即卷積的位置。
卷積計(jì)算過(guò)程即把圖片轉(zhuǎn)換成數(shù)據(jù)矩陣,游走的窗口為卷積核矩陣,一個(gè)N×N的圖像經(jīng)過(guò)M×M的卷積核卷積處理之后,將得到(N-M+1)×(N-M+1)的特征圖。
Logistic回歸模型的推廣應(yīng)用形成Softmax分類(lèi)器用來(lái)解決多分類(lèi)問(wèn)題,本文優(yōu)化的卷積神經(jīng)網(wǎng)絡(luò)模型使用Softmax分類(lèi)器對(duì)行為進(jìn)行分類(lèi)處理。假設(shè)將異常行為分為k個(gè),并對(duì)k個(gè)行為進(jìn)行分類(lèi),樣本數(shù)據(jù)視頻序列有m個(gè),視頻序列的樣本維度為n。假設(shè)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)集為T(mén):
T={(x(1),y(1)),(x(2),y(2)),…,(x(m),y(m))}
(2)
式中:x(i)為第i個(gè)輸入樣本;y(i)為第i個(gè)樣本的行為標(biāo)簽,y(i)∈{1,2,…,k}。
對(duì)于每個(gè)輸入x(i),Softmax分類(lèi)器會(huì)計(jì)算對(duì)應(yīng)每個(gè)類(lèi)的概率,計(jì)算公式如下:
P(y=j|x)y=1,2,…,k
(3)
從向量角度來(lái)看,計(jì)算函數(shù)的公式如下:
(4)
式中:θ表示神經(jīng)網(wǎng)絡(luò)參數(shù)??梢?jiàn),行為有k個(gè),每個(gè)行為對(duì)應(yīng)一個(gè)概率值,概率的取值范圍在[0,1]之間,k個(gè)異常行為的概率和為1。神經(jīng)網(wǎng)絡(luò)的輸出對(duì)應(yīng)行為的概率以及該概率對(duì)應(yīng)行為的標(biāo)簽。
神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中利用Softmax進(jìn)行行為分類(lèi),損失函數(shù)計(jì)算公式如下:
(5)
式中:1{y(i)=j}表示指示函數(shù),當(dāng)y(i)與j相等時(shí),輸出為1,反之,輸出為0,其輸出為異常行為的標(biāo)簽矩陣。
通常情況下,利用梯度下降算法計(jì)算反向傳播過(guò)程中損失函數(shù),計(jì)算公式如下:
(6)
利用式(6)得到損失函數(shù)對(duì)權(quán)值參數(shù)的梯度,利用該梯度指導(dǎo)神經(jīng)網(wǎng)絡(luò)模型參數(shù)調(diào)整,直至神經(jīng)網(wǎng)絡(luò)訓(xùn)練結(jié)束并得到最佳的權(quán)值參數(shù)。
傳統(tǒng)CNN在卷積層使用單層線(xiàn)性卷積,對(duì)非線(xiàn)性特征的提取和復(fù)雜圖像隱含的抽象特征提取表現(xiàn)不突出。激活函數(shù)具有強(qiáng)大的擬合能力,在神經(jīng)元數(shù)量足夠的情況下,能夠擬合所有特征模式,因此采用嵌套MaxoutMLP層與激活函數(shù)組合來(lái)提升算法的擬合能力,提高模型的識(shí)別準(zhǔn)確率。
嵌套Maxout層的神經(jīng)網(wǎng)絡(luò)中線(xiàn)性區(qū)域的數(shù)量隨著Maxout層的數(shù)量增加而增加,此外激活函數(shù)ReLU和Maxout網(wǎng)絡(luò)中的線(xiàn)性區(qū)域的數(shù)量隨著層數(shù)呈指數(shù)增長(zhǎng)[19]。Maxout網(wǎng)絡(luò)在沒(méi)有模型正則化的情況下容易過(guò)度擬合訓(xùn)練數(shù)據(jù)集,歸因于Maxout網(wǎng)絡(luò)在訓(xùn)練過(guò)程中能夠識(shí)別輸入的最有價(jià)值信息,并且易于進(jìn)行特征共同適應(yīng)[20]。
使用不同數(shù)量的Maxout層片段在數(shù)據(jù)集上測(cè)試了本文方法,如圖2所示。不同數(shù)量的Maxout片段與使用Maxout層與批量歸一化(Batch Normaliztion,BN)層片段組合測(cè)試結(jié)果,當(dāng)Maxout片段為5時(shí)嵌套模型已經(jīng)達(dá)到飽和狀態(tài)。
圖2 不同數(shù)量的Maxout層測(cè)試結(jié)果
一般情況下,研究者會(huì)選擇最大池化層進(jìn)行下采樣,最大池化層在提取特征方面更具代表性。在所有匯集層中使用平均池化匯聚有效特征,輸入圖像中的無(wú)關(guān)特征信息可以通過(guò)平均池化來(lái)抑制,并通過(guò)最大合并來(lái)丟棄。平均池是全局平均池的擴(kuò)展,其中模型試圖從每個(gè)本地補(bǔ)丁中提取信息以便于抽象到特征映射。嵌套結(jié)構(gòu)能夠從每個(gè)局部中獲取抽象的代表性信息,使得更多可辨別的信息嵌入特征映射中,在每個(gè)池化層中使用空間平均池來(lái)聚合局部空間信息。在無(wú)數(shù)據(jù)擴(kuò)充的CIFAR-10數(shù)據(jù)集上,最大、平均池化層測(cè)試錯(cuò)誤率比較結(jié)果如表1所示。
表1 最大、平均池化層測(cè)試錯(cuò)誤率比較
嵌套多層Maxout網(wǎng)絡(luò)的卷積層,即基于嵌套網(wǎng)絡(luò)結(jié)構(gòu)使用MaxoutMLP進(jìn)行特征提取,構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)模型使用批量標(biāo)準(zhǔn)化來(lái)降低飽和度并使用壓差來(lái)防止過(guò)度擬合。此外,為了增加對(duì)象空間轉(zhuǎn)換的穩(wěn)健性,在所有池層中應(yīng)用平均池以聚合MaxoutMLP獲得的基本特征。
(7)
式中:(i,j)是特征圖中像素的位置;xi,j是以像素點(diǎn)(i,j)為中心的輸入塊;km是用于索引特征映射的通道fi,j,k;n則是MLP的層數(shù)。從另一個(gè)角度來(lái)看,Maxout單位相當(dāng)于卷積層上的跨通道最大池化層,跨通道最大池化層選擇要輸入下一層的最大輸出。Maxout單元有助于解決漸變消失的問(wèn)題,因?yàn)闈u變能夠流過(guò)每個(gè)最大單元。
嵌套Maxout MLP層模塊中的特征映射計(jì)算如下:
(8)
(9)
(10)
式中:BN(·)表示批量歸一化層;(i,j)是特征圖中像素的位置;xi,j是以像素點(diǎn)(i,j)為中心的輸入塊;kn等是特征圖中的各通道序號(hào);n則是嵌套Maxout MLP的層數(shù)。批量標(biāo)準(zhǔn)化層可以在激活函數(shù)之前應(yīng)用,在這種情況下,非線(xiàn)性單元傾向于產(chǎn)生具有穩(wěn)定分布的激活,降低飽和度。如圖3所示,構(gòu)建嵌套Maxout層的卷積層結(jié)構(gòu)圖。
圖3 構(gòu)建嵌套Maxout層的卷積層結(jié)構(gòu)圖
通過(guò)疊加四個(gè)嵌套Maxout層的卷積層模塊形成本文嵌套MaxoutMLP層的卷積神經(jīng)網(wǎng)絡(luò)整體結(jié)構(gòu),如圖4所示。
圖4 嵌套Maxout層的卷積神經(jīng)網(wǎng)絡(luò)整體結(jié)構(gòu)
嵌套MaxoutMLP層的網(wǎng)絡(luò)結(jié)構(gòu)相當(dāng)于級(jí)聯(lián)的跨通道參數(shù)池和卷積層上的跨通道最大池,嵌套結(jié)構(gòu)可以線(xiàn)性地組合特征圖并選擇最有效信息的組合輸出到下一層。嵌套結(jié)構(gòu)通過(guò)應(yīng)用批量歸一化來(lái)降低飽和度,并且可以對(duì)路徑或Maxout碎片的激活模式中的信息進(jìn)行編碼,增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)深層架構(gòu)的辨別能力。
神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練過(guò)程采用誤差反向傳播算法,訓(xùn)練過(guò)程分為正向傳播階段和反向傳播階段。神經(jīng)網(wǎng)絡(luò)訓(xùn)練的正向傳播為神經(jīng)網(wǎng)絡(luò)的各隱含層收到上一層的輸出,利用激活函數(shù)激活計(jì)算出該層的輸出;神經(jīng)網(wǎng)絡(luò)訓(xùn)練的反向傳播階段為利用損失函數(shù)計(jì)算神經(jīng)網(wǎng)絡(luò)的輸出誤差,并逐層向前傳播計(jì)算神經(jīng)網(wǎng)絡(luò)各隱藏層的誤差,各隱含層的誤差作為前一隱含層權(quán)值參數(shù)的更新依據(jù)。神經(jīng)網(wǎng)絡(luò)算法的訓(xùn)練步驟,如圖5所示。
圖5 神經(jīng)網(wǎng)絡(luò)算法的訓(xùn)練步驟
步驟1隨機(jī)初始化網(wǎng)絡(luò)中的所有權(quán)值和閾值,取值范圍為(-1,1)。
步驟2對(duì)訓(xùn)練樣本(xi,yi),計(jì)算網(wǎng)絡(luò)的實(shí)際輸出計(jì)算公式如下:
(11)
式中:f(·)表示激活函數(shù)Sigmoid函數(shù);θj表示神經(jīng)網(wǎng)絡(luò)輸出層第j個(gè)神經(jīng)元的閾值;βj表示神經(jīng)網(wǎng)絡(luò)輸出層第j個(gè)神經(jīng)元的輸入。
(12)
式中:wi,j表示神經(jīng)網(wǎng)絡(luò)隱含層第i個(gè)神經(jīng)元與神經(jīng)網(wǎng)絡(luò)輸出層第j個(gè)神經(jīng)元之間的權(quán)重。
步驟3對(duì)卷積神經(jīng)網(wǎng)絡(luò)在(xi,yi)上的均方誤差進(jìn)行計(jì)算,計(jì)算公式如下:
(13)
步驟4判斷是否達(dá)到介紹條件,即誤差是否小于學(xué)習(xí)誤差允許的最小值或者學(xué)習(xí)次數(shù)達(dá)到設(shè)置的最低次數(shù)。若未滿(mǎn)足條件,則進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)的權(quán)值更新,神經(jīng)網(wǎng)絡(luò)的權(quán)值和閾值等參數(shù)依據(jù)目標(biāo)的梯度方向調(diào)整。設(shè)神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程的學(xué)習(xí)率為η,神經(jīng)網(wǎng)絡(luò)的權(quán)值更新計(jì)算公式如下:
(14)
步驟5重復(fù)步驟2-步驟4,直到滿(mǎn)足結(jié)束條件為止,神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程結(jié)束,即神經(jīng)網(wǎng)絡(luò)訓(xùn)練完成,固定神經(jīng)網(wǎng)絡(luò)的權(quán)值、閾值。
在Intel(R) Core(TM) i5-2450M,3.0 GHz CPU、64位Windows 7操作系統(tǒng),采用Open CV、Python 2.7作為開(kāi)發(fā)工具在UCF-YouTube、KTH兩個(gè)數(shù)據(jù)庫(kù)上進(jìn)行本文算法實(shí)驗(yàn)驗(yàn)證。
KTH數(shù)據(jù)集包含25個(gè)表演者在四個(gè)不同的場(chǎng)景下的6類(lèi)動(dòng)作包括:走、慢跑、跑、拳擊、揮手、拍掌等,涉及的四個(gè)場(chǎng)景分別為:室外場(chǎng)景、室外且包含尺度變化、室外且有著裝變化以及室內(nèi)場(chǎng)景,如圖6所示。選取每個(gè)場(chǎng)景不同動(dòng)作的25個(gè)動(dòng)作對(duì)象進(jìn)行研究,20個(gè)動(dòng)作對(duì)象進(jìn)行訓(xùn)練,5個(gè)動(dòng)作對(duì)象來(lái)測(cè)試。
圖6 KTH數(shù)據(jù)集中人體行為示例圖
本文方法與文獻(xiàn)[21-23]中方法在KTH數(shù)據(jù)集上對(duì)每個(gè)行為類(lèi)別識(shí)別率的對(duì)比結(jié)果分析如圖7所示。本文方法在“跑”“慢跑”“拍掌”人體動(dòng)作識(shí)別準(zhǔn)確率上都有提高。
圖7 本文方法與其他方法在KTH數(shù)據(jù)上的識(shí)別率對(duì)比
結(jié)果顯示,本文方法在KTH 數(shù)據(jù)集上的準(zhǔn)確識(shí)別率達(dá)到95.6%,實(shí)驗(yàn)結(jié)果的混淆矩陣如圖8所示。KTH 數(shù)據(jù)集上不同方法的平均準(zhǔn)確率的比較如表2所示。本文方法比文獻(xiàn)[24]提出改進(jìn)的3D CNN的方法在識(shí)別準(zhǔn)確率上提高了1.8個(gè)百分點(diǎn);比文獻(xiàn)[25]提出的3D CNN方法在識(shí)別準(zhǔn)確率上提高了5.4個(gè)百分點(diǎn);比文獻(xiàn)[26]提出的最大邊緣HCRF方法在識(shí)別準(zhǔn)確率上提高了3.1個(gè)百分點(diǎn);比文獻(xiàn)[27]提出的局部三元模式SVM方法在識(shí)別準(zhǔn)確率上提高了5.5個(gè)百分點(diǎn);比文獻(xiàn)[28]提出的空時(shí)詞組核SVM方法在識(shí)別準(zhǔn)確率上高出1.0個(gè)百分點(diǎn)。
圖8 本文算法在KTH數(shù)據(jù)集上的混淆矩陣
表2 KTH數(shù)據(jù)集上不同方法的平均準(zhǔn)確率的比較
UCF-YouTubeAction dataset是一個(gè)人類(lèi)動(dòng)作視頻數(shù)據(jù)集,包括11個(gè)動(dòng)作類(lèi):籃球投籃、自行車(chē)、潛水、高爾夫揮桿、騎馬、足球雜耍、蕩秋千、網(wǎng)球、蹦床上跳來(lái)跳去、排球扣球和遛狗,如圖9所示。視頻被分為25組,其中有超過(guò)4個(gè)動(dòng)作片段。同一組中的視頻片段具有相同的特征,如相同的演員、相似的背景、相似的視角等。
圖9 UCF-YouTube數(shù)據(jù)集中人體行為示例圖
本文方法在UCF-YouTube數(shù)據(jù)集上達(dá)到88.5%識(shí)別精度,實(shí)驗(yàn)結(jié)果的混淆矩陣如圖10所示,在UCF-YouTube數(shù)據(jù)集上不同方法的平均準(zhǔn)確率比較如表3所示。本文方法比文獻(xiàn)[28]提出的基于詞組核的SVM方法在識(shí)別準(zhǔn)確率上高出15.6個(gè)百分點(diǎn);比文獻(xiàn)[29]提出的擴(kuò)散圖內(nèi)嵌方法在識(shí)別準(zhǔn)確率上高出12.4個(gè)百分點(diǎn);比文獻(xiàn)[30]提出的基于BOW的SVM方法在識(shí)別準(zhǔn)確率上高出3.1個(gè)百分點(diǎn)。
圖10 本文算法在UCF-YouTube數(shù)據(jù)集上的混淆矩陣
表3 UCF-YouTube數(shù)據(jù)集上不同方法的平均準(zhǔn)確率的比較
本文提出一種基于優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的人體行為識(shí)別算法,通過(guò)嵌套Maxout MLP層的網(wǎng)絡(luò)結(jié)構(gòu),提高了神經(jīng)網(wǎng)絡(luò)對(duì)非線(xiàn)性特征以及復(fù)雜圖像隱含的抽象特征提取能力。嵌套層中使用激活函數(shù)ReLU,在神經(jīng)元數(shù)量足夠的情況下,能夠提升神經(jīng)網(wǎng)絡(luò)擬合特征模式的性能,嵌套結(jié)構(gòu)使用批量歸一化來(lái)降低飽和度,并且可以對(duì)路徑或Maxout碎片的激活模式中的信息進(jìn)行編碼,增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)深層架構(gòu)的辨別能力。在UCF-YouTube、KTH數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn)驗(yàn)證,該模型在泛化性能和非線(xiàn)性擬合能力兩方面都有所提高,與傳統(tǒng)方法和傳統(tǒng)CNN方法比較,取得了較高的識(shí)別率。