程銘瑾
(福建開放大學職業(yè)學院 福建 福州 350001)
在當今社會,隨著城市化的不斷推進和科技的飛速發(fā)展,視頻監(jiān)控系統(tǒng)已經(jīng)成為維護個人和社會安全的重要工具之一[1]。然而,傳統(tǒng)的視頻監(jiān)控系統(tǒng)往往僅僅能夠提供對靜態(tài)場景的觀測,對于動態(tài)場景下的異常行為檢測卻面臨著巨大的挑戰(zhàn)。因此,為了更加高效地應(yīng)對復雜多變的安全威脅,本研究提出了一種基于深度學習的視頻監(jiān)控異常行為檢測方法。
本研究通過構(gòu)建一個完整的視頻智能監(jiān)控系統(tǒng)總體框架,致力于實現(xiàn)對多樣化場景的全面監(jiān)測。該框架以實時性和準確性為核心目標,通過整合先進的技術(shù),為后續(xù)的異常行為檢測奠定了堅實的基礎(chǔ)。為了更加精準地捕捉監(jiān)控畫面中的關(guān)鍵信息,本研究在目標檢測與跟蹤階段采用了深度學習的YOLO(you only look once)[2]目標檢測算法。該算法以其高效的實時性和精確的目標定位為視頻監(jiān)控系統(tǒng)提供了可靠的目標識別能力,從而為后續(xù)的異常行為分析提供了有力的支持。本研究的關(guān)鍵創(chuàng)新點在于,在動作識別階段采用了三維卷積神經(jīng)網(wǎng)絡(luò)(3-dimensional convolutional neural network, 3D-CNN)[3],以更加全面地捕捉目標在時空上的演變規(guī)律。通過對視頻序列進行立體感知,該方法能夠更準確地捕捉人體動作的細微變化,為異常行為的早期識別提供了可靠的數(shù)據(jù)支撐。最后,為了驗證所提出方法的有效性,本研究進行了一系列實驗,并對實驗結(jié)果進行了分析。實驗結(jié)果充分證明了本方法在異常行為檢測方面的卓越性能,為未來智能視頻監(jiān)控系統(tǒng)的發(fā)展提供了有益的借鑒。
本研究所提出的視頻監(jiān)控異常行為檢測方法的總體框架如圖1 所示,包括了視頻采集、目標檢測跟蹤、動作識別以及異常行為判斷等,以實現(xiàn)對監(jiān)測場景的全面而高效的分析。
圖1 視頻智能監(jiān)控的總體框架
首先,系統(tǒng)通過視頻采集模塊實時獲取監(jiān)測區(qū)域的畫面信息。其次,系統(tǒng)采用YOLO 算法對監(jiān)測畫面中的目標進行迅速而準確的識別與定位,該模塊不僅能夠有效檢測場景中的多個目標,而且能夠跟蹤它們在畫面中的運動軌跡,為后續(xù)的動作識別提供了可靠的基礎(chǔ)。最后,在目標檢測跟蹤的基礎(chǔ)上采用3D-CNN 實現(xiàn)動作識別,該模塊以視頻序列為輸入通過對時空信息的深度學習分析,能夠捕捉到目標在不同時間段內(nèi)的動作演變規(guī)律,實現(xiàn)對人體行為的高度敏感識別。在動作識別的基礎(chǔ)上,系統(tǒng)進一步判斷是否為特定的異常動作。若檢測到特定異常動作,則系統(tǒng)會立即產(chǎn)生預警信號;反之,如果未檢測到異常動作,則系統(tǒng)將繼續(xù)進行視頻采集,保持對監(jiān)測區(qū)域的全面監(jiān)視。
定義監(jiān)測區(qū)域為R,視頻幀序列為{It},其中t表示時間。在YOLO 模型中,目標檢測和跟蹤是分開進行的。
YOLO 使用一個單一的神經(jīng)網(wǎng)絡(luò),將目標檢測問題轉(zhuǎn)化為回歸問題。設(shè)D表示每個目標的邊界框坐標,C表示目標的類別,那么對于一個目標i, 其在圖像中的得分Pi可以表示為:
式(1)中,Pr(Ci) 是目標屬于某一類別的概率,IoU(Di,) 是目標框Di與真實框的交并比。模型的最終輸出是所有目標的得分矩陣P:
式(2)中,N是目標的數(shù)量。
在目標檢測的基礎(chǔ)上,本研究使用卡爾曼濾波器[4]實現(xiàn)目標跟蹤。設(shè)目標在時間t的狀態(tài)為St=[xt,yt,wt,ht],其中(xt,yt) 是目標中心的坐標,wt和ht分別是目標的寬和高,則卡爾曼濾波器的預測方法為:
式(3)、式(4)中,A是狀態(tài)轉(zhuǎn)移矩陣,Pt-1是時間t -1 時刻的狀態(tài)協(xié)方差矩陣,Q是過程噪聲的協(xié)方差矩陣。接著,可以通過觀測得到的目標位置更新狀態(tài):
式(5)~式(7)中,H是觀測矩陣,R是觀測噪聲的協(xié)方差矩陣,O是在時間t時刻通過目標檢測得到的位置。
通過以上方法,YOLO 模型能夠在視頻監(jiān)控中實現(xiàn)對目標的準確檢測和魯棒跟蹤,為后續(xù)的行為分析提供了可靠的基礎(chǔ)。
3D-CNN 是一種在時空域?qū)?shù)據(jù)進行卷積操作的深度學習模型,其結(jié)構(gòu)如圖2 所示。該結(jié)構(gòu)輸入層接收來自視頻的三維數(shù)據(jù),卷積層使用卷積運算來提取特征,池化層用于減少輸出特征圖的大小同時保留重要的特征,全連接層將輸出特征圖轉(zhuǎn)換為一個標量值。
圖2 3D-CNN 的模型結(jié)構(gòu)
假設(shè)有一個視頻序列V, 其中每一幀圖片為Ft, 表示為:
式(8)中,T是視頻的幀數(shù)。為了進行動作識別引入了3D 卷積操作來考慮時序上鄰近幀之間的關(guān)系。設(shè)3D卷積核的大小為C×H×W,其中C為通道數(shù),H和W分別為高度和寬度。在時序上,卷積核將沿時間軸滑動,從而捕捉到視頻中目標的時序特征。
動作識別的過程可以表示為在每個時間步t上,使用3D 卷積核對當前幀F(xiàn)t及其相鄰的若干幀進行卷積操作。假設(shè)輸出的特征圖為Mt,則該操作可以表達為:
式(9)中,?表示3D 卷積操作,σ是激活函數(shù),W和b分別是卷積核的權(quán)重和偏置,Tk是卷積核的時間跨度,決定了網(wǎng)絡(luò)在時序上捕捉的信息量。通過3D 卷積的逐幀滑動,可以得到一系列時序上的特征圖{M1,M2,…,MT},這些特征圖已經(jīng)融合了視頻序列中目標的時空信息。接下來,為了全局理解目標動作,可以使用全局平均池化(global average pooling,GAP)[5]對時序維度進行池化操作,得到整體的時序特征表示:
式(10)中,GAP 表示全局平均池化操作。通過這一過程,得到了對整個視頻序列進行時空建模的時序特征表示Mglobal,最后,將該時序特征表示輸入到全連接層進行分類,得到視頻中目標的動作類別預測P:
式(11)中,Softmax 是用于產(chǎn)生概率分布的激活函數(shù),Wfc和bfc分別是全連接層的權(quán)重和偏置。通過上述過程,3D-CNN 能夠從時空維度上學習到視頻中目標的動作信息,實現(xiàn)了對目標在視頻序列中的動作識別。
本研究采用A2D 數(shù)據(jù)集對所提方法進行測試,該數(shù)據(jù)集A2D 是用于視頻中的目標識別跟蹤與行為檢測的一個大型數(shù)據(jù)集,包含多種類型的動作、場景和運動模式,并且數(shù)據(jù)集的標注質(zhì)量較高,標注準確、完整。本研究采用的硬件和軟件配置如表1 所示。
表1 實驗配置
本實驗的實驗方案為:
(1)數(shù)據(jù)準備:下載A2D 數(shù)據(jù)集,并將數(shù)據(jù)集劃分為70%訓練集和30%測試集。
(2)搭建深度學習環(huán)境,安裝Python、TensorFlow、Keras 等深度學習框架。
(3)目標檢測與跟蹤:使用YOLO 模型對訓練集進行目標檢測與跟蹤,調(diào)整參數(shù)以適應(yīng)特定數(shù)據(jù)集。
(4)動作識別模型建立:設(shè)計并搭建3D-CNN 模型,用于視頻中目標的動作識別。
(5)使用訓練集對3D-CNN 模型進行訓練,調(diào)整參數(shù)以提高模型性能。
(6)模型融合與預測:將訓練好的YOLO 模型與3DCNN 模型進行融合,形成完整的異常行為檢測系統(tǒng)。
(7)使用測試集進行綜合測試。
本實驗的部分檢測結(jié)果如圖3 所示,圖3(a)是室內(nèi)場景中,一個寶寶正在奔跑,目標檢測結(jié)果準確并正確識別出其動作為“running”。圖3(b)和圖3(c)的目標檢測和動作識別也基本正確。圖3(d)是一個寶寶跌倒,目標檢測結(jié)果準確并正確識別出其動作為“rolling”。從上述實驗結(jié)果可以看出,該方法在正常情況下的目標檢測和動作識別方面表現(xiàn)良好,能夠準確檢測出目標和動作。在危險動作情況下,該方法也能夠正確識別出動作,即“寶寶摔倒了”??傮w而言,該方法在目標檢測和動作識別方面取得了良好的效果,具有一定的應(yīng)用價值。
圖3 實驗結(jié)果
本研究旨在解決視頻監(jiān)控系統(tǒng)中異常行為檢測的挑戰(zhàn),通過融合YOLO 目標檢測與跟蹤以及3D-CNN 的方法,實現(xiàn)了對監(jiān)控場景中目標行為的全面感知。在實驗中,充分考慮了目標位置變化和動作時序的時空信息,構(gòu)建了一套完整的異常行為檢測系統(tǒng)。通過詳細的實驗設(shè)計與分析,驗證了所提方法的有效性和性能優(yōu)越性,為視頻監(jiān)控系統(tǒng)的智能化提供了有益的參考。未來的研究方向可包括引入更復雜的模型結(jié)構(gòu)、多模態(tài)信息的融合,以進一步提升系統(tǒng)性能。