張海民
(安徽信息工程學(xué)院 計(jì)算機(jī)與軟件工程學(xué)院,安徽 蕪湖 241000)
智能監(jiān)控系統(tǒng)是人工智能和傳統(tǒng)視頻監(jiān)控系統(tǒng)的結(jié)合,是計(jì)算機(jī)圖像視覺技術(shù)在安防領(lǐng)域應(yīng)用的形式之一。智能監(jiān)控系統(tǒng)有效應(yīng)用了領(lǐng)先的圖像處理算法以及日益進(jìn)步的計(jì)算機(jī)處理技術(shù),如256色轉(zhuǎn)灰度圖、模板卷積運(yùn)算以及Gamma校正法等[1]。目前,智能監(jiān)控系統(tǒng)已在機(jī)關(guān)單位、道路交通、教育機(jī)構(gòu)、社區(qū)等領(lǐng)域全面應(yīng)用,以實(shí)現(xiàn)對異常情況的智能監(jiān)控。
在排除掉視頻畫面中沒有實(shí)際用途或者意義很小的信息后,可以獲得視頻數(shù)據(jù)中的有效信息,比如行人狀態(tài)、車輛信息等[2]。根據(jù)視頻監(jiān)控所具備的對異常情況的識別能力對可能發(fā)生或已經(jīng)發(fā)生的異常情況進(jìn)行監(jiān)測、識別和定位。
智慧社區(qū)是一種新型的社區(qū)管理理念,借助物聯(lián)網(wǎng)、智能通信、路網(wǎng)監(jiān)控等技術(shù),整合社區(qū)現(xiàn)有的服務(wù)資源,為社區(qū)民眾提供生活、工作、娛樂、教育、醫(yī)護(hù)等多種便捷服務(wù),以提高民眾生活質(zhì)量、提升社區(qū)服務(wù)品質(zhì)[3]。智能安全防護(hù)是智慧社區(qū)的一大特色,將路網(wǎng)監(jiān)控與視頻異常信息識別過程相結(jié)合,如利用智慧社區(qū)視頻監(jiān)控對人體異常行為進(jìn)行識別,能夠有效實(shí)現(xiàn)“指揮安防”,極有效地保證了社區(qū)居民的生命財產(chǎn)安全。因此,在智慧社區(qū)建設(shè)領(lǐng)域,相關(guān)的視頻監(jiān)控異常識別方法也受到了廣泛關(guān)注。
吳沛佶等[4]設(shè)計(jì)了基于深度網(wǎng)絡(luò)模型的視頻序列中異常行為檢測方法,通過卷積神經(jīng)網(wǎng)絡(luò)完成特征提取,在此基礎(chǔ)上,結(jié)合Adam算法,通過引入池化層的方式篩選出待判別的特征信息,實(shí)現(xiàn)對視頻序列中所存在的異常行為快速識別。胡薰尹等[5]設(shè)計(jì)了基于3D-LCRN的視頻異常行為識別方法,首先分析視頻圖像幀間的結(jié)構(gòu)相似性并完成背景建模,從而獲取矯正光流場與矯正運(yùn)動歷史。針對異常與正常行為視頻數(shù)據(jù)存在的失衡問題,提取并聚類視覺詞塊,結(jié)合3D-CNN模型獲取局部短時序時空-域特征用于異常行為識別。胡正平等[6]設(shè)計(jì)了視頻監(jiān)控系統(tǒng)異常目標(biāo)行為檢測識別與定位方法,在視頻幀的基礎(chǔ)上提取二維視覺特征并對幀間信息進(jìn)行學(xué)習(xí),然后對含有運(yùn)動信息的時空塊進(jìn)行3D時空特征學(xué)習(xí),并構(gòu)建視頻異常描述和視頻異常分類模型,通過模式分類檢測識別異常情況及其位置。然而,上述方法在識別精確度方面的效果理想度較差。
王家鵬等[7]設(shè)計(jì)了視頻監(jiān)控環(huán)境下行人異常識別方法,該方法主要針對能夠反映行人的局部、全局特征的信息進(jìn)行檢測和識別。首先,根據(jù)輪廓特征、運(yùn)動速度等信息構(gòu)建行為輪廓變化曲線模型,借助特征信息融合過程和模板庫實(shí)現(xiàn)對異常行為的檢測識別。鄭良仁等[8]設(shè)計(jì)了監(jiān)控場景下視頻中全局移動對象異常行為自動識別方法,通過最小外接矩形框記錄對象移動軌跡,根據(jù)特征提取結(jié)果,通過異常測量函數(shù)實(shí)現(xiàn)異常行為自動識別。李文等[9]設(shè)計(jì)了人群監(jiān)控圖像異常軌跡數(shù)據(jù)聚類識別方法,該方法將監(jiān)控圖像中行人的軌跡數(shù)據(jù)看作為一個序列,采用最小外接矩形的中心點(diǎn)替代行人重心,通過矩形中心的變化描述行人異常軌跡,根據(jù)軌跡連接線的波峰波谷存在性實(shí)現(xiàn)異常識別。然而上述方法存在識別過程較長的弊端,導(dǎo)致識別效率較低。
鄭浩等[10]設(shè)計(jì)了視頻監(jiān)控下基于混合算法的人體異常行為檢測和識別方法,該方法應(yīng)用連續(xù)自適應(yīng)均值漂移技術(shù),通過引入校正背景權(quán)重直方圖過濾掉遮擋和相似顏色對象的干擾,繼而采用基于稀疏表達(dá)的檢測方式對目標(biāo)對象的異常行為進(jìn)行檢測和識別。趙仁鳳[11]設(shè)計(jì)了視頻監(jiān)控中人體異常行為識別方法,基于運(yùn)動信息分類方法獲得人體行為的特征描述符,利用隱馬爾科夫模型學(xué)習(xí)觀察監(jiān)控視頻幀的光流方向,從而判定當(dāng)前視頻幀與現(xiàn)有正常幀之間的差異性,實(shí)現(xiàn)異常行為識別。徐蕾等[12]設(shè)計(jì)了基于改進(jìn)瞬時能量的人群異常行為識別方法,該方法再將提取到的人群分布信息和運(yùn)動信息融合后,計(jì)算期間的瞬時能量,并將其與預(yù)設(shè)的異常閾值比較,從而實(shí)現(xiàn)對人群異常行為的識別。然而,上述方法難以在短時間內(nèi)觀察到目標(biāo)運(yùn)動狀態(tài)的微小特征,造成識別精準(zhǔn)度不高的問題。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域的一個分支,其目標(biāo)是為了讓機(jī)器設(shè)備能夠具有對數(shù)據(jù)、圖像、音視頻分析學(xué)習(xí)的能力。目前,深度學(xué)習(xí)過程已在信息搜索、數(shù)據(jù)挖掘、語言處理個性化服務(wù)等領(lǐng)域得以廣泛應(yīng)用,有效推動了人工智能技術(shù)的發(fā)展。為此,針對傳統(tǒng)方法存在識別精度低、識別過程耗時長的問題,該文以深度學(xué)習(xí)技術(shù)為基礎(chǔ),設(shè)計(jì)一種面向智慧社區(qū)的視頻監(jiān)控異常識別方法,以期提升智慧社區(qū)指揮安防工作的質(zhì)量和效果。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的分支,其本質(zhì)為一種模式分析過程。深度學(xué)習(xí)主要涉及3類方法,分別為卷積神經(jīng)網(wǎng)絡(luò)、自編碼神經(jīng)網(wǎng)絡(luò)和深度置信網(wǎng)絡(luò)。本研究應(yīng)用的是卷積神經(jīng)網(wǎng)絡(luò),即在搭建深度學(xué)習(xí)網(wǎng)絡(luò)的基礎(chǔ)上,搭配相關(guān)層級訓(xùn)練,同時對圖像執(zhí)行預(yù)處理操作,運(yùn)用動態(tài)自適應(yīng)池化獲取方式選定目標(biāo)候選框[13],實(shí)現(xiàn)面向智慧社區(qū)的視頻監(jiān)控異常識別。
首先,利用卷積神經(jīng)網(wǎng)絡(luò)技術(shù)構(gòu)建深度學(xué)習(xí)網(wǎng)絡(luò)框架,其優(yōu)勢是可以無需對顯示特征進(jìn)行提取,可直接達(dá)成網(wǎng)絡(luò)各層次中神經(jīng)元權(quán)值參數(shù)共享的目的[14-15]。以卷積神經(jīng)網(wǎng)絡(luò)技術(shù)為依托的深度學(xué)習(xí)網(wǎng)絡(luò)模型共包含6層結(jié)構(gòu),其結(jié)構(gòu)如圖1所示。
圖 1 深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)示意圖
如圖1所示,所構(gòu)建的深度學(xué)習(xí)網(wǎng)絡(luò)的第1層為數(shù)據(jù)輸入層,所有待處理的數(shù)據(jù)只有在輸入層次執(zhí)行相應(yīng)預(yù)處理操作后才可以進(jìn)入下一層;第2層為第一卷積層,此層的作用是獲取相同的視頻圖像特征;第3層為池化層,此層的作用是對目標(biāo)行為特征進(jìn)行提取和壓縮;第4層為第二卷積層,將第二卷積層與之后的隱藏層想結(jié)合,可獲取局部檢測圖的特征信息[16-17],并通過輸出層實(shí)現(xiàn)特征輸出,為后續(xù)的智慧社區(qū)視頻監(jiān)控異常行為識別奠定基礎(chǔ)。
1) 輸入層 輸入層為深度學(xué)習(xí)網(wǎng)絡(luò)的起始層,其主要作用是獲得待識別的視頻圖像數(shù)據(jù),并對視頻圖像數(shù)據(jù)執(zhí)行預(yù)處理操作,包括圖像隨機(jī)剪裁、尺度縮放、去均值化以及歸一化處理等,最后獲取有效待測數(shù)據(jù)。輸入層僅包含一個數(shù)據(jù)輸出操作端口,只有經(jīng)過輸入層的預(yù)處理后,數(shù)據(jù)才能被輸出至第一卷積層。這一過程中,深度學(xué)習(xí)網(wǎng)絡(luò)將輸出的圖像數(shù)據(jù)信息稱之為特征圖,并將數(shù)據(jù)的特征圖作為網(wǎng)絡(luò)結(jié)構(gòu)層。
2) 卷積層 卷積層是深度學(xué)習(xí)網(wǎng)絡(luò)的核心層,借助特殊的卷積核核心結(jié)構(gòu)對接收到的全部數(shù)據(jù)執(zhí)行卷積操作,并將卷積結(jié)果用特征圖的形式輸出,從而提取數(shù)據(jù)特征。深度學(xué)習(xí)網(wǎng)絡(luò)中的卷積層借助卷積核執(zhí)行數(shù)據(jù)傳輸及提取的獨(dú)特卷積形式,具有提取精準(zhǔn)、效率高優(yōu)勢,在深度學(xué)習(xí)網(wǎng)絡(luò)中的處理中至關(guān)重要[18]。
3) 池化層 池化層在深度學(xué)習(xí)網(wǎng)絡(luò)中的作用是對輸入其中的數(shù)據(jù)樣本執(zhí)行采樣操作,從而有效減小無效特征量,防止數(shù)據(jù)過度擬合。在池化過程中,一般會對特征圖像依據(jù)2×2的尺寸進(jìn)行采樣處理,對特殊大區(qū)域的特征圖也可依據(jù)4×4的尺寸進(jìn)行采樣處理,但過大尺寸會使得在池化操作過程中會造成流失信息的現(xiàn)象[19-20]。通常情況下,可選用的池化方法有2種,分別為均值池化法與最大值池化法。
在執(zhí)行池化操作時,均值池化是把各區(qū)域內(nèi)的元素執(zhí)行均值計(jì)算,并將計(jì)算結(jié)果充當(dāng)輸出特征值,最大值池化是把區(qū)域內(nèi)每個元素中的最大值充當(dāng)輸出特征值。2種池化方式均可以正確有效提取數(shù)據(jù)樣本的有效特征值[21-22]。
4) 隱藏層 卷積神經(jīng)網(wǎng)絡(luò)中的隱藏層是一個統(tǒng)稱,除輸入層和輸出層以外的其他各層均包含在隱藏層內(nèi)。但是,隱藏層不能直接與外界進(jìn)行通信。
5) 輸出層 隱藏層可以將輸入到其中的信息轉(zhuǎn)換為輸出層可以接受的格式,輸出層也可以將隱藏層內(nèi)的信息轉(zhuǎn)換為任何比例。
視頻和圖像的不同點(diǎn)在于圖像是靜態(tài)的數(shù)據(jù),而視頻是動態(tài)的數(shù)據(jù),是由互相關(guān)聯(lián)的多幀圖像組成的。時間與空間共同組成了視頻的維度[23-24]。為此,本研究采用AlexNet網(wǎng)絡(luò)提取智慧社區(qū)監(jiān)控視頻中目標(biāo)的時空特征。AlexNet網(wǎng)絡(luò)加深了卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),使之能夠?qū)W習(xí)更豐富的圖像特征。在這一過程中,利用Relu函數(shù)作為激活函數(shù),在雙層卷積+池化操作的基礎(chǔ)上提取圖像的特征。
首先,需對所輸入樣本數(shù)據(jù)做如下處理:對樣本數(shù)據(jù)集中的彩色圖像數(shù)據(jù)執(zhí)行灰度化處理操作,再將圖像尺寸規(guī)范化并執(zhí)行多時間采樣操作。由于運(yùn)動目標(biāo)的運(yùn)動狀態(tài)變化是非均勻的,倘若僅僅應(yīng)用單一的時間間隔對數(shù)據(jù)集進(jìn)行采樣會造成很多細(xì)節(jié)信息被忽略,因此,選擇不一樣的時間間隔執(zhí)行隔幀采樣[25-26],過程如圖2所示。
圖 2 數(shù)據(jù)處理過程
在此基礎(chǔ)上,假設(shè)智慧社區(qū)視頻的第x幀圖像特征為Px,首先選取3幀圖像,可得到第一特征集Px,1={px-2,px-1,px},以此作為輸入的第一樣本;然后每隔1幀選取3幀圖像,可得到第二特征集Px,2={px-4,px-2,px},以此作為輸入的第二樣本;最后每隔2幀選取3幀圖像,可得到第三特征集Px,3={px-6,px-3,px},以此作為輸入的第三樣本,利用第一、第二、第三樣本共同組成樣本集。
根據(jù)時間采樣獲取3幀圖像,與由AlexNet網(wǎng)絡(luò)輸入圖像RGB的3個通道數(shù)據(jù)相對應(yīng),使得所形成的輸入數(shù)據(jù)符合網(wǎng)絡(luò)輸入格式。
在軌跡提取過程中,結(jié)合稠密軌跡對目標(biāo)運(yùn)動行為軌跡進(jìn)行平滑約束處理。在軌跡跟蹤的操作中,軌跡容易從其初始位置生成漂移。為消除該現(xiàn)象,把軌跡長度范圍定在t幀內(nèi),并建立時空小方塊。如果某段軌跡的長度超過t,便將該段軌跡從跟蹤的范圍中排除。為更有效地提取運(yùn)動目標(biāo)軌跡信息,在軌跡周圍的時空小方塊內(nèi)需要針對描述子執(zhí)行迭代操作,直至提取到最優(yōu)軌跡信息。
應(yīng)用背景差分與幀差分結(jié)合的方式執(zhí)行運(yùn)動目標(biāo)識別任務(wù),并將探測到的運(yùn)動目標(biāo)執(zhí)行陰影消除操作,同時獲取運(yùn)動目標(biāo)質(zhì)心。根據(jù)質(zhì)心運(yùn)動軌跡判斷運(yùn)動目標(biāo)是否存在異常行為。智慧社區(qū)視頻監(jiān)控異常識別過程如下:
1) 將智慧社區(qū)監(jiān)控視頻圖像讀取進(jìn)Matlab平臺中執(zhí)行處理操作,讀取后執(zhí)行圖像預(yù)處理操作,為運(yùn)動目標(biāo)檢測作好鋪墊;
2) 結(jié)合幀差分法和背景差分法執(zhí)行運(yùn)動目標(biāo)檢測工作;
3) 根據(jù)目標(biāo)質(zhì)心運(yùn)動軌跡特征判斷視頻監(jiān)控中的運(yùn)動目標(biāo)是否存在消失、攀爬、跌倒、物體遺留等異常狀況。
綜上所述,深度學(xué)習(xí)下智慧社區(qū)視頻監(jiān)控異常識別方法的具體識別流程如圖3所示。
圖 3 智慧社區(qū)視頻監(jiān)控異常識別流程
為證明深度學(xué)習(xí)下智慧社區(qū)視頻監(jiān)控異常識別方法的有效性,設(shè)計(jì)對比檢測實(shí)驗(yàn)加以驗(yàn)證。
硬件:處理器為i5 9400F 酷睿六核(盒裝CPU),GPU為戴爾(DELL)Precision,內(nèi)存大小為16 GB,并配置GPU加速功能;軟件:操作系統(tǒng)為Windows 8,仿真環(huán)境為Visual Studio 2013&Open CV,操作語言為C++。
將文獻(xiàn)[5]中的基于3D-LCRN視頻異常行為識別方法和文獻(xiàn)[8]中的監(jiān)控場景下視頻中全局移動對象異常行為自動識別方法作為對照組,將本文方法作為檢驗(yàn)組,在相同的實(shí)驗(yàn)環(huán)境下完成性能驗(yàn)證。
以識別精準(zhǔn)度和識別過程耗時作為檢測指標(biāo):識別精準(zhǔn)度用于判斷識別能力的強(qiáng)弱,能夠直接反映不同識別方法的有效性;識別過程耗時可以反映不同識別方法的識別效率和時效性。
將跌倒、攀爬、跳躍行為確定為視頻監(jiān)控下人體異常行為。由實(shí)驗(yàn)人員依次做出上述3種動作(實(shí)驗(yàn)人員身高為170 cm,頭部往下,重心約在95 cm處),在此基礎(chǔ)上,提取原始視頻幀圖像,在對其進(jìn)行預(yù)處理后,繪制不同行為下人體重心的坐標(biāo)移動軌跡,即可獲取異常行為軌跡目標(biāo)。對跌倒、攀爬、跳躍行為下人體目標(biāo)軌跡進(jìn)行繪制,如圖4所示。
(a) 跌倒
(b) 攀爬
(c) 跳躍
由圖4可知,在跌倒行為中,人體重心較低,初始重心高度約為95 cm,跌倒后重心前移且高度下降;在攀爬行為中,攀爬人員需爬上一個高和寬均為1 m的高臺,初始重心高度約為95 cm,攀爬到指定位置后,重心右移且高度上升;在跳躍行為中,攀爬人員需從高臺上跳下,初始重心高度約為195 cm,重心左移且高度下降。
在此基礎(chǔ)上,檢驗(yàn)不同方法的識別精度。識別精度能夠反映不同方法對異常情況的識別效果,識別精度越高表明識別結(jié)果有效性越高。
在檢驗(yàn)時,分別利用本文方法、文獻(xiàn)[5]方法和文獻(xiàn)[8]方法對視頻中的異常行為進(jìn)行識別,通過比較識別軌跡與實(shí)際軌跡的重合度來計(jì)算判斷不同方法的識別精度。測試結(jié)果如表1所示。
表 1 不同方法識別精準(zhǔn)度對比結(jié)果
Tab.1 The accuracy of different methods is compared %
識別方法異常行為實(shí)驗(yàn)次數(shù)1020304050文獻(xiàn)[5]跌倒72.475.170.673.275.6 攀爬75.870.778.574.971.8 跳躍73.173.970.570.474.0 文獻(xiàn)[8]跌倒83.678.375.585.775.9 攀爬84.176.279.480.675.5 跳躍82.380.881.477.773.8本文 跌倒97.195.095.296.997.1 攀爬97.295.094.396.597.6 跳躍96.896.094.494.096.7
分析表2可知,文獻(xiàn)[5]方法的識別精度范圍在70.4%~78.5%之間;文獻(xiàn)[8]方法的識別精度范圍在73.8%~85.7%之間;而本文方法的識別精度范圍在94.0%~97.6%之間。相比之下,本文方法對異常行為的識別精度更高,證明該方法的有效識別能力更強(qiáng)。
產(chǎn)生這一結(jié)果的原因在于本文方法在信息采樣過程中,選擇不一樣的時間間隔執(zhí)行隔幀采樣操作,從而有效避免了因單一時間間隔采樣難以應(yīng)對運(yùn)動目標(biāo)狀態(tài)的非均勻變化,而導(dǎo)致的視頻細(xì)節(jié)信息被忽略的問題。同時,因本文方法利用了深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò),借助其卷積層中的卷積核執(zhí)行數(shù)據(jù)傳輸和提取,并將卷積結(jié)果用特征圖的形式輸出,從而提高了對異常行為的識別精度。
進(jìn)一步測試不同方法的識別過程耗時。識別過程耗時能夠反映不同方法的時效性和識別效率。識別過程耗時越短,表明識別方法的時效性和識別效率越高。識別過程耗時結(jié)果由操作系統(tǒng)后臺自動統(tǒng)計(jì)。對比結(jié)果如圖5所示。
圖 5 不同方法識別過程耗時對比結(jié)果
從圖5可知,隨著實(shí)驗(yàn)次數(shù)的增加,不同方法的識別過程耗時也在不斷發(fā)生變化。根據(jù)圖中上限值線段可以看出,文獻(xiàn)[5]方法的最大識別過程耗時為2.4 s,文獻(xiàn)[8]方法的最大識別過程耗時為4.2 s,本文的最大識別過程耗時為2.1 s。由此可知,本文方法的識別速度最快,證明本文方法具有較高的識別效率和時效性。
產(chǎn)生這一結(jié)果的原因在于本文方法在識別異常行為之前,對監(jiān)控視頻圖像進(jìn)行了預(yù)處理操作,在保證視頻圖像尺寸規(guī)范化的基礎(chǔ)上,將采集到的視頻圖像數(shù)據(jù)串聯(lián)形成時間維度時空塊輸入數(shù)據(jù),與由AlexNet網(wǎng)絡(luò)輸入圖像的RGB的3個通道數(shù)據(jù)相對應(yīng),使得輸入數(shù)據(jù)符合網(wǎng)絡(luò)輸入格式,避免格式轉(zhuǎn)化過程耗時過程,從而縮短了異常行為識別過程耗時。
本文算法對異常行為識別有較高的識別精準(zhǔn)度和時效性。當(dāng)有異?;蛘呤怯锌赡墚惓5那闆r,智能監(jiān)控系統(tǒng)的警報裝置將被觸發(fā),協(xié)助安防部門迅速發(fā)現(xiàn)異?,F(xiàn)象。在研究過程中,發(fā)現(xiàn)在提取智慧社區(qū)監(jiān)控視頻中目標(biāo)的時空特征后,可根據(jù)時間采樣獲取幀圖像。將獲取結(jié)果與由AlexNet網(wǎng)絡(luò)輸入圖像RGB的3個通道數(shù)據(jù)相對應(yīng),可結(jié)合空間陰影消除方法在消除視頻圖像的陰影部分,使得視頻圖像預(yù)處理過程更便捷。
雖然本文方法獲取的檢測效果較優(yōu),然而因?qū)υ摲矫娴难芯可性诔跫夒A段,實(shí)際應(yīng)用時,仍存在一些問題,如能耗大、針對不同數(shù)據(jù)集的異常行為判定標(biāo)準(zhǔn)未達(dá)到多元化等。在未來的研究階段,將進(jìn)一步對該方法進(jìn)行優(yōu)化,擴(kuò)大該方法的應(yīng)用范圍和有效性。