黎曉昀,賈 杰
1.江西應(yīng)用科技學院 人工智能學院,南昌330100
2.南昌航空大學 信息工程學院,南昌330063
在當今社會形勢下,人工智能應(yīng)用已遍布人類生活的各個方面,成為人們生活所依賴的技術(shù)。其中,智慧小區(qū)就是近年來熱點研究和建設(shè)的項目與應(yīng)用。然而簡單的門禁管理和人員來訪登記已無法滿足需求,對小區(qū)監(jiān)控視頻的結(jié)構(gòu)化分析正成為智慧小區(qū)領(lǐng)域的研究重點。這其中,對小區(qū)人員的行為分析,尤其是斗毆行為識別和分析尤為迫切和重要,這既是社區(qū)安防的需要,也是視頻監(jiān)控領(lǐng)域亟待解決的問題。
本文提出一種新的基于三維卷積神經(jīng)網(wǎng)絡(luò)(Three-Dimensional Convolution Neural Network,3D-CNN)的斗毆行為檢測方法,應(yīng)用于智慧社區(qū)視頻監(jiān)控領(lǐng)域。主要貢獻如下:
(1)提出了一種斗毆行為關(guān)鍵區(qū)域檢測算法。通過應(yīng)用姿態(tài)估計算法模塊,得到人體目標關(guān)節(jié)和肢體的單位位移信息,從而確定斗毆行為的起始位置,形成斗毆行為預識別空間。
(2)提出了一種時空采樣算法,使得訓練視頻數(shù)據(jù)被采樣至一個設(shè)定的降維空間,同時保留視頻數(shù)據(jù)的時空特征,保證深度學習網(wǎng)絡(luò)的單次訓練任務(wù)能學習到整個行為過程的信息。
(3)構(gòu)建了一個基于三維卷積的神經(jīng)網(wǎng)絡(luò)進行時空特征提取和識別。
本文提出的方法在兩個公共數(shù)據(jù)集上取得了較好的性能。
近年來,行為識別的研究引起了中外學者的廣泛關(guān)注。隨著智慧社區(qū)建設(shè)的深入和深度學習算法[1-3]的發(fā)展,斗毆行為檢測在安防領(lǐng)域中被提出了新的更高的要求。傳統(tǒng)的基于傳感器的行為識別方法[4],無法保證設(shè)備的長期穩(wěn)定性和魯棒性,并且傳感器設(shè)備十分容易收到外部環(huán)境的干擾,難以有效對斗毆行為進行識別和檢測。文獻[5]提出了基于圖像的斗毆行為檢測方法,其采用直方圖的方向和幅值的熵以及速度的方差來判斷是否發(fā)生打斗行為,對斗毆行為檢測做了探討和研究。文獻[6]提出了聯(lián)合加權(quán)重構(gòu)軌跡與直方圖熵的異常行為檢測算法。文獻[7]提出了一種基于3D-CNN 結(jié)構(gòu)的暴力檢測方法,通過三維深度神經(jīng)網(wǎng)絡(luò)直接對輸入進行操作。文獻[8]立足于目標距離關(guān)系以及圖像光流特征進行跟蹤定位,以確定幀圖像中目標間位置距離關(guān)系,再基于光流方向直方圖熵來判定打架行為。文獻[9]提出一種雙流CNN模型的打斗行為識別方法。由Hinton等人提出的深度學習網(wǎng)絡(luò)[10],使得基于圖像的深度學習研究快速發(fā)展,如目標檢測[11]、圖像分類[12]等研究,已發(fā)展較為成熟并逐步實現(xiàn)了工業(yè)化?;谏窠?jīng)網(wǎng)絡(luò)的行為識別[13-14]研究也得到了較大的發(fā)展。近幾年,對智慧社區(qū)監(jiān)控視頻中斗毆行為識別檢測的研究正成為越來越多學者關(guān)注的焦點。
本文為了解決上述問題,提出了一種新的基于三維卷積神經(jīng)網(wǎng)絡(luò)的斗毆行為檢測方法,利用基于人體姿態(tài)信息的關(guān)鍵區(qū)域檢測算法定位目標行為區(qū)域,形成斗毆行為預識別空間。同時,針對深度學習訓練數(shù)據(jù),提出了時空采樣算法,配合構(gòu)建三維卷積神經(jīng)網(wǎng)絡(luò)的單次訓練輸入設(shè)置,使網(wǎng)絡(luò)學習到整個行為動作的時空信息。相關(guān)實驗證明了本文方法的優(yōu)越性能。
本文提出了一種新的基于三維卷積神經(jīng)網(wǎng)絡(luò)的斗毆行為檢測方法。首先利用人體姿態(tài)算法將監(jiān)控視頻做姿態(tài)估計處理,形成骨架信息。然后獲取人體手腕關(guān)節(jié)點的單位位移量,從而作為斗毆行為動作的起始判斷依據(jù),形成斗毆行為預識別空間。訓練模型過程中,針對深度學習訓練數(shù)據(jù)冗余和優(yōu)化程度不夠的問題,提出了時空采樣算法,配合所提出的三維卷積神經(jīng)網(wǎng)絡(luò)的單次訓練輸入設(shè)置,使網(wǎng)絡(luò)學習到整個行為動作的時空信息,進行特征提取和分類判斷。所提方法流程圖如圖1所示。
針對監(jiān)控視頻行為檢測起始定位的難點,首先將視頻進行姿態(tài)估計處理,如openpose算法[15]和alphapose算法[16]。因為斗毆行為幾乎都伴隨著手腕關(guān)節(jié)點的快速位移,所以獲取手部關(guān)節(jié)點的速度成為預判的關(guān)鍵。定義相鄰兩幀,第n 幀和第n+1 幀間手部關(guān)節(jié)點的距離如式(1)所示:
其中,D(n+1,n)表示距離,xn+1、yn+1、xn、yn分別表示相鄰兩幀間手部關(guān)節(jié)點的坐標信息。頸部到髖部的距離,即軀干長度如式(2)所示:
其中,D(neck,hip)表示距離,xneck、yneck、xhip、yhip分別表示頸部和髖部關(guān)節(jié)點的坐標信息。根據(jù)姿態(tài)估計算法得到的數(shù)據(jù),做了樣本統(tǒng)計,當手腕速度滿足式(3)時,則可預判為揮拳斗毆行為,將第n 幀標注為預識別空間的起始。
根據(jù)統(tǒng)計結(jié)果,一次完整揮拳的持續(xù)時間約為0.5~1.2 s。因此對監(jiān)控視頻來說,即持續(xù)15~36幀。保險起見,本文取40 幀作為單個預識別空間元素的容量。如圖2所示為預識別處理的對比。
圖1 斗毆行為檢測總體構(gòu)架
圖2 預識別空間處理對比
針對上一節(jié)的預識別空間內(nèi)的視頻幀,本文提出了一種基于時空采樣的視頻幀采樣算法。為了有效地學習視頻的整體時間信息,本文模型能夠一次處理所有幀。然而,一個主要的挑戰(zhàn)是處理長度不等的各種視頻。在現(xiàn)有的大多數(shù)方法中,每個視頻都被分成16 幀的短片段,然后模型從這些短片段中學習時間信息。3D-CNN[17]將每個視頻分成16幀。然而,在每秒30幀的視頻中,16幀只能持續(xù)約0.5 s,無法表達全部的動作信息。視頻幀是高度冗余的,一些連續(xù)的幀幾乎是相同的,如圖3(a)所示的斗毆行為視頻的前8幀。現(xiàn)有的方法以這種方式為其網(wǎng)絡(luò)提供信息,因此必須通過特征或評分融合的后處理來聚合來自單個幀或短剪輯的部分時間信息。在圖3(b)中這段視頻的8 個均勻采樣幀可以很好地捕捉到整體的時間動態(tài)信息。
與原始視頻幀相比,采樣后的幀在相同數(shù)量的圖像幀下提供了更多的動態(tài)信息。因此,相當于在40 幀的視頻上,采樣出長度為8幀的視頻。將40幀平均分為8個部分,每部分5 幀,在各部分的5 幀中隨機采樣1 幀,組成采樣后的視頻,如式(4)所示:
當視頻被采樣到一個恒定長度后,構(gòu)建了三維卷積神經(jīng)網(wǎng)絡(luò)在一個過程中處理后的視頻。
三維卷積最早是在文獻[17]中提出用于動作識別的,后來在文獻[18]中改進為11 層3D 網(wǎng)絡(luò)?;谌S卷積的模型在許多基于視頻的應(yīng)用中得到了廣泛的應(yīng)用。與2D-CNN相比,3D-CNN同時從多個幀中提取空間和時間特征。2D-CNN僅作用于二維輸入,因此在二維卷積過程中也會丟失時間信息。在2D-CNN中,在卷積層上進行二維卷積,從上一層的特征圖上提取局部鄰域的特征,然后施加一個偏置,通過激活函數(shù)傳遞結(jié)果。在(a,b)處的單位值如式(5)所示:
其中,tanh(?)為雙曲正切函數(shù),t 和x 是當前特征圖的連接參數(shù),H 和W 是特征圖的高度和寬度,z 是特征圖的偏置。當應(yīng)用于視頻分析問題時,需要獲得多個連續(xù)幀中的動作信息。三維卷積解決了這個問題,如式(6)所示:
其中,D 是三維卷積核在時間維度的值。因此,通過執(zhí)行3D 卷積從空間和時間兩個維度提取特征,可獲取多個相鄰幀中的動作信息。
圖3 視頻幀采樣對比圖
圖4 三維卷積神經(jīng)網(wǎng)絡(luò)
通常3D-CNN 的輸入是16 個連續(xù)的原始RGB 幀,從16幀剪輯中提取外觀和時間信息。然而16個連續(xù)的幀不足以表示整個操作。因此根據(jù)2.2節(jié)得到的采樣后的視頻,設(shè)置單次輸入訓練的幀數(shù)為8,設(shè)計了如圖4的三維神經(jīng)網(wǎng)絡(luò)。
本文提出的三維卷積網(wǎng)絡(luò)有6 個卷積層,5 個最大池化層和2 個全連接層,最后連接著Softmax 層。所有的三維卷積核在時間和空間維度上都是3×3×3 和步長為1,過濾器的數(shù)量在圖中標出。3D 池化層表示從pool1 到pool5。除了前兩個池化層的核尺寸是1×2×2,其余所有池化層的核大小都是2×2×2。每個全連接層有1 024個輸出單元。
本文在兩個公共數(shù)據(jù)集上進行實驗和分析。CASIA數(shù)據(jù)集[19]作為實驗數(shù)據(jù),該數(shù)據(jù)由中國科學院自動化研究所模式識別實驗室采集提供,共1 446段視頻,在室外環(huán)境下拍攝,交互行為包括打斗、跟隨、超越、會合等。所有視頻由分布在水平視角、斜角和俯角的三個靜止的攝像機同時拍攝,幀率為25 frame/s,分辨率為320×240。UT 交互數(shù)據(jù)集(http://cvrc.ece.utexas.edu/SDHA2010/Human_Interaction.html)是一個人類交互動作視頻數(shù)據(jù)集,具有握手、指點、擁抱、擊打、推、踢6 類人類交互動作,共120 個視頻段,視頻格式為720×480,30 frame/s,視頻中人像的大小為200像素。UT交互數(shù)據(jù)集的數(shù)據(jù)量較小,為了深度學習模型的準確性,通過數(shù)據(jù)增強處理,如加噪、水平翻轉(zhuǎn)、縮放等手段,將數(shù)據(jù)集拓展為總量約1 000 段視頻的增強數(shù)據(jù)集。同時,將兩個數(shù)據(jù)集中打斗行為作為異常數(shù)據(jù)集,其余作為正常行為標注。為了平衡正負樣本數(shù)據(jù),對異常數(shù)據(jù)集做數(shù)據(jù)增強處理,保持正負樣本比例1∶1左右。本文將訓練集和測試集的樣本按4∶1的比例劃分。
本文實驗設(shè)備采用配置為Intel?Xeon?E-2136 CPU,16 GB RAΜ,NVIDIA QUDARO P5000(16 GB)GPU,操作系統(tǒng)為Ubuntu 18.04。采用Caffe 深度學習框架完成了深度學習模型的實現(xiàn)。相應(yīng)的算法是在Μatlab2016b 和VS2017 中開發(fā)的。3D-CNN 的最大迭代次數(shù)為12 000,初始學習速率為0.001。
本文設(shè)計了4 個實驗來證明所提方法的優(yōu)越性。首先,對預識別空間進行實驗分析,檢驗其作用和性能。如表1所示,在兩個數(shù)據(jù)集上對有無預識別空間處理進行了分析。預識別空間在監(jiān)控視頻檢測時可縮小搜索范圍,在數(shù)據(jù)訓練時可有效去除非目標動作干擾視頻幀部分。
表1 預識別空間的作用和準確率比較%
時空采樣算法能夠進一步地優(yōu)化訓練數(shù)據(jù),在預識別空間數(shù)據(jù)的基礎(chǔ)上去除冗余視頻幀。同時,根據(jù)保留的單個視頻的幀數(shù),設(shè)計了相應(yīng)的3D-CNN 網(wǎng)絡(luò)參數(shù),使兩者相等。也就是說,3D-CNN不會將視頻數(shù)據(jù)切割成多個小塊后再通過一致性函數(shù)做分數(shù)融合操作,而是一次性提取和學習到整個視頻的動作時空特征。表2和表3 分別展示了時空采樣算法的性能和不同采樣幀數(shù)的性能,可以看出8幀采樣的時空采樣算法檢測準確率最高。
表2 時空采樣算法的作用和準確率比較%
表3 時空采樣不同幀數(shù)的準確率比較 %
本文還對近年來的一些斗毆行為檢測算法進行了分析,并與本文所提方法進行比較。文獻[20]提出了基于加權(quán)樣本選擇與主動學習的視頻異常行為檢測算法。文獻[6]提出了聯(lián)合加權(quán)重構(gòu)軌跡與直方圖熵的異常行為檢測算法。但是,它們都忽略了行為動作的時空特性,單純的瞬時信息無法準確地識別斗毆行為,正確率較低。文獻[7]提出了一種基于3D-CNN 結(jié)構(gòu)的暴力檢測方法,通過三維深度神經(jīng)網(wǎng)絡(luò)直接對輸入進行操作,但是對神經(jīng)網(wǎng)絡(luò)的訓練數(shù)據(jù)沒有做優(yōu)化處理,并且沒有提出針對監(jiān)控視頻檢測過程的處理方法。文獻[8]立足于目標距離關(guān)系以及圖像光流特征進行跟蹤定位,以確定幀圖像中目標間位置距離關(guān)系,再基于光流方向直方圖熵來判定打架行為。文獻[9]提出了一種雙流CNN 模型的打斗行為識別方法,忽視了對訓練數(shù)據(jù)的優(yōu)化和光流模態(tài)計算量大的缺點。表4 展示了本文所提方法和近期其他算法的準確率的比較數(shù)據(jù),顯示了本文方法的優(yōu)越性和魯棒性。
表4 本文方法和其他算法準確率的比較 %
本文提出了一種新的基于三維卷積神經(jīng)網(wǎng)絡(luò)的斗毆行為檢測方法。首先針對監(jiān)控視頻行為檢測起始定位的難點,利用基于人體姿態(tài)信息的關(guān)鍵區(qū)域檢測算法定位斗毆行為起始幀,進而形成斗毆行為預識別空間。針對深度學習訓練數(shù)據(jù)冗余和優(yōu)化程度不夠的問題,提出了時空采樣算法,結(jié)合本文提出的三維卷積神經(jīng)網(wǎng)絡(luò)的單次訓練輸入設(shè)置,使網(wǎng)絡(luò)學習到整個行為動作的時空信息。實驗結(jié)果證明了本文方法的優(yōu)越性和魯棒性。