韓培珊,吳瀅瀅,熊茂華(通信作者)
(1 廣東外語外貿(mào)大學(xué)南國商學(xué)院 廣東 廣州 510545) (2 廣州商學(xué)院信息技術(shù)與工程學(xué)院 廣東 廣州 511363)
近年來,國內(nèi)外眾多學(xué)者在深度學(xué)習(xí)(deep learning,DL)、人群異常行為檢測(cè)、目標(biāo)跟蹤、視覺認(rèn)知分析與神經(jīng)機(jī)理、多視角步態(tài)識(shí)別、群體分析等領(lǐng)域均取得了非常多的研究成果。
對(duì)于DL早期采用低級(jí)視覺特征描述方法,如:軌跡、方向梯度直方圖(histogram of oriented gradient,HOG)、光流直方圖(histogram of flow,HOF)、混合動(dòng)態(tài)紋理(mixtures of dynamic textures,MDT)和光流場等。主要研究視頻行為描述、行為建模、行為分類和智能視頻檢測(cè)方法,如:軌跡特征分析法、單階段的視頻行為檢測(cè)、動(dòng)態(tài)混合紋理模型、光流場模型等,還有基于對(duì)數(shù)似然比(log-likelihood ratio,LLR)算法、子空間聚類算法、基于三維方向梯度算法和稀疏重構(gòu)算法;深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)、多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(multi-task convolutional neural network,MTCNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)等算法。
目前,行為檢測(cè)中廣泛采用的方法有[1]:①局部特征提取的方法;②基于三維時(shí)空的特征角點(diǎn)的檢測(cè)方法,即以子空間聚類的算法和分類器結(jié)合進(jìn)行姿態(tài)識(shí)別;③新型的智能馬爾科夫邏輯網(wǎng)絡(luò),即基于時(shí)空的動(dòng)作關(guān)聯(lián)網(wǎng)絡(luò),其作用是提高體姿態(tài)動(dòng)態(tài)識(shí)別效果;④消除攝像機(jī)抖動(dòng)或運(yùn)行而影響視頻行為特征提取的改進(jìn)增強(qiáng)型特征提取方法與算法;⑤對(duì)光流圖像進(jìn)行優(yōu)化的增強(qiáng)改進(jìn)型密集軌跡算法等。
系統(tǒng)的拓?fù)浣Y(jié)構(gòu)如圖1所示。系統(tǒng)的主要功能包括:
圖1 系統(tǒng)拓?fù)浣Y(jié)構(gòu)
(1)基于遷移學(xué)習(xí)的目標(biāo)檢測(cè)。首先從標(biāo)準(zhǔn)數(shù)據(jù)集中學(xué)習(xí)檢測(cè)子,再根據(jù)實(shí)際監(jiān)控?cái)?shù)據(jù)特性將檢測(cè)子從標(biāo)準(zhǔn)數(shù)據(jù)集中遷移過來。
(2)基于多任務(wù)深度學(xué)習(xí)的行為識(shí)別與分析。采用硬參數(shù)共享方式,在網(wǎng)絡(luò)的卷積層采用共享的參數(shù)。
(3)基于多視點(diǎn)多尺度的行為摘要與檢索。采用多視點(diǎn)的行為摘要分析有助于從多個(gè)角度分析描述行為,且多個(gè)攝像頭下的協(xié)同操作能夠應(yīng)對(duì)復(fù)雜環(huán)境下的遮擋等干擾。在后端的檢索過程中,借助多維度多尺度的信息作為特征,從而實(shí)現(xiàn)快速精準(zhǔn)的檢索。
(4)行為智能分析的應(yīng)用。嵌入新的行為分析模塊,其中包括:可疑行為檢測(cè),如徘徊、遺留物品等;違規(guī)行為檢測(cè),如絆線、逆行等;行為檢索,如設(shè)立不同的標(biāo)注,檢索出滿足標(biāo)注行為的目標(biāo)片段等。
智能視頻行為分析算法流程如圖2所示。分為行為檢測(cè)、目標(biāo)識(shí)別和行為分析3個(gè)層次[2]。
圖2 智能視頻行為分析算法流程
(1)行為檢測(cè)是屬于行為分析系統(tǒng)算法流程的最底層,行為分析系統(tǒng)在前端是用行為圖像獲取裝置來采集實(shí)時(shí)動(dòng)態(tài)的圖像幀,過濾、去噪后對(duì)目標(biāo)和背景進(jìn)行建模、分析,完成目標(biāo)檢測(cè)。目標(biāo)跟蹤是通過視頻圖像的場景來選擇采用單場跟蹤還是多場景跟蹤,最終可獲得運(yùn)動(dòng)目標(biāo)的運(yùn)動(dòng)時(shí)間、活動(dòng)位置、運(yùn)動(dòng)方向、運(yùn)動(dòng)速度、目標(biāo)大小和外表屬性等相關(guān)信息。
(2)目標(biāo)識(shí)別是屬于智能行為分析系統(tǒng)算法流程的中間層,對(duì)所獲取的運(yùn)動(dòng)目標(biāo)信息進(jìn)行分析、推測(cè),再用智能分類算法和智能目標(biāo)識(shí)別算法進(jìn)行目標(biāo)識(shí)別。
(3)行為分析是屬于智能行為分析系統(tǒng)算法流程的高層,借助智能行為分析算法,依據(jù)目標(biāo)場景、語義場景、應(yīng)用場景和背景場景等復(fù)雜場景,對(duì)行為姿態(tài)識(shí)別、異常行為識(shí)別和行為事件分析。
系統(tǒng)中目標(biāo)檢測(cè)技術(shù)的應(yīng)用場景為視頻監(jiān)控系統(tǒng),不同的應(yīng)用場景和視點(diǎn)視角所采集的真實(shí)目標(biāo)檢測(cè)數(shù)據(jù)與現(xiàn)有常用的人體檢測(cè)數(shù)據(jù)集不同,且規(guī)模更大,包含的目標(biāo)姿態(tài)信息更豐富,目標(biāo)背景也更復(fù)雜和更具多樣性。系統(tǒng)采用基于遷移學(xué)習(xí)的目標(biāo)檢測(cè)算法,將已有的人體數(shù)據(jù)集作為源域,實(shí)際監(jiān)控視頻中所得到的視頻數(shù)據(jù)作為目標(biāo)領(lǐng)域,從原始領(lǐng)域向目標(biāo)領(lǐng)域進(jìn)行遷移學(xué)習(xí)。即使在現(xiàn)有實(shí)際場景標(biāo)注樣本較少的情況下,依然能夠從源域數(shù)據(jù)(已有標(biāo)注數(shù)據(jù)集)得到有效遷移信息,從而得到準(zhǔn)確的分類器和檢測(cè)器?;谶w移學(xué)習(xí)的目標(biāo)檢測(cè)算法,如圖3所示。
圖3 基于遷移學(xué)習(xí)的目標(biāo)檢測(cè)算法
首先,通過目標(biāo)檢測(cè)獲取原始領(lǐng)域樣本,采用相應(yīng)的樣本選擇策略對(duì)樣本進(jìn)行二值分類,由樣本分類器分析、判斷檢測(cè)窗口中是否包含有運(yùn)動(dòng)目標(biāo),并進(jìn)行樣本標(biāo)記。然后,從包含運(yùn)動(dòng)目標(biāo)的窗口中獲取目標(biāo)領(lǐng)域內(nèi)樣本和圖像;目標(biāo)領(lǐng)域樣本經(jīng)樣本篩選智能算法分析推測(cè),獲取檢測(cè)的目標(biāo)。其次,采用基于遷移學(xué)習(xí)的目標(biāo)檢測(cè)算法先對(duì)原始領(lǐng)域樣本訓(xùn)練、分類、標(biāo)記,以獲得目標(biāo)領(lǐng)域樣本;再對(duì)目標(biāo)領(lǐng)域未標(biāo)記的樣本進(jìn)行檢測(cè)、分類、標(biāo)記。最后,對(duì)目標(biāo)領(lǐng)域樣本訓(xùn)練、進(jìn)行權(quán)重、學(xué)習(xí)和計(jì)算,訓(xùn)練出更加適合目標(biāo)領(lǐng)域的目標(biāo)檢測(cè)器,以獲得更理想的檢測(cè)結(jié)果。
主流的異常行為識(shí)別技術(shù)有基于圖像異常行為識(shí)別和基于視頻異常行為識(shí)別。基于單幅圖像的行為識(shí)別缺乏了運(yùn)動(dòng)信息,不能使用傳統(tǒng)的時(shí)空特征編碼靜態(tài)圖像中的行為,而基于視頻的行為識(shí)別則可以從時(shí)空塊中提取低層特征,如視頻時(shí)空興趣點(diǎn)(spatio-temporal interest point,STIP),對(duì)不同行為進(jìn)行分類。單看一張圖像可能難以對(duì)其中的某一動(dòng)作進(jìn)行區(qū)分,而對(duì)視頻聯(lián)系前后關(guān)聯(lián),則可以輕松地對(duì)目標(biāo)行為進(jìn)行識(shí)別與分析[3]。
在行為識(shí)別的過程中,由于可標(biāo)記的樣本數(shù)量少,因此更需要多任務(wù)學(xué)習(xí)方式來避免目標(biāo)任務(wù)的過度擬合?;诙嗳蝿?wù)深度學(xué)習(xí)的異常行為識(shí)別技術(shù)是一種機(jī)器學(xué)習(xí)方法,若多個(gè)任務(wù)之間有關(guān)聯(lián)且并行學(xué)習(xí)或?qū)τ趯W(xué)習(xí)結(jié)果存在互相影響,則可采用聯(lián)合學(xué)習(xí)方法。
2.3.1 多視點(diǎn)的行為摘要技術(shù)
在多視點(diǎn)行為分析過程中,多攝像頭網(wǎng)絡(luò)之間的時(shí)間拓?fù)浣Y(jié)構(gòu)能夠?qū)σ曨l數(shù)據(jù)中的目標(biāo)進(jìn)行相應(yīng)的時(shí)空約束,從而可實(shí)現(xiàn)基于多攝像機(jī)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的多視點(diǎn)摘要分析。根據(jù)多攝像頭提供的相關(guān)冗余信息,可融合多攝像頭重疊視域的行為摘要模型,對(duì)多視角下的目標(biāo)動(dòng)作與行為進(jìn)行協(xié)同表達(dá)與摘要分析。融合多時(shí)空尺度下的目標(biāo)運(yùn)動(dòng)信息,實(shí)現(xiàn)對(duì)視頻數(shù)據(jù)的層次化摘要分析與描述。
在構(gòu)建過程中需考慮多視點(diǎn)視頻之間不同的屬性關(guān)系,如時(shí)間鄰近性、內(nèi)容相似性和高層語義特征聯(lián)系等。具體的構(gòu)建方法:超圖中的每個(gè)節(jié)點(diǎn)代表從視頻中提取的畫面,而超邊則對(duì)應(yīng)畫面之間的一種類型的屬性關(guān)系,最后將超圖轉(zhuǎn)換成一個(gè)有權(quán)重的時(shí)空鏡頭圖,圖上的邊權(quán)值就可以定量的衡量多視點(diǎn)視頻之間的聯(lián)系。這樣復(fù)雜而龐大的多視點(diǎn)視頻數(shù)據(jù)可以轉(zhuǎn)化為圖問題的求解了。在此基礎(chǔ)上,可以結(jié)合前期行為分析中所計(jì)算的指標(biāo)計(jì)算與視頻的低級(jí)視覺特征,如色彩、運(yùn)動(dòng)向量等進(jìn)行視頻畫面的重要性評(píng)價(jià),從而更有針對(duì)性的提取特征。
2.3.2 多尺度的行為檢索技術(shù)
當(dāng)前的視頻檢索多是通過從原始數(shù)據(jù)中挖掘各種特征作為線索,然而單一的基于內(nèi)容的視頻檢索模型難以充分挖掘視頻本身所蘊(yùn)含的豐富語義信息,從而難以得到精準(zhǔn)的檢索結(jié)果。系統(tǒng)將側(cè)重研究多維度的視覺信息之間融合,從各維度數(shù)據(jù)的相關(guān)性出發(fā),獲取更具豐富語義信息的高層次特征,從而實(shí)現(xiàn)精準(zhǔn)有效的檢索。此外,在檢索過程中,從之前視頻行為分析的多任務(wù)學(xué)習(xí)過程中,視頻行為被打上了不同的語義標(biāo)簽,不同的語義標(biāo)簽可以整合成獨(dú)立的檢索模塊,形成子檢索模塊,采用隨機(jī)森林策略,將不同的子檢索模塊看成是一個(gè)個(gè)弱分類器,根據(jù)不同的深度決策樹原則進(jìn)行模型設(shè)計(jì)與優(yōu)化求解[4]。
異常行為檢測(cè)數(shù)據(jù)集包括個(gè)體異常行為檢測(cè)數(shù)據(jù)集和群體異常行為檢測(cè)數(shù)據(jù)集2大類[5]。異常行為檢測(cè)數(shù)據(jù)集非常多,主要有UCSD、UCF、RWC、UCF-Crime、UMN、VIF、PETS和MALL等。
(1)個(gè)體異常行為檢測(cè)的數(shù)據(jù)集
① UCSD像素級(jí)數(shù)據(jù)集,異常種類包括騎自行車、滑冰、小推車、行人橫穿人行道、侵入草地等。
② UCF視頻級(jí)數(shù)據(jù)集,包含的人群和其他高密度移動(dòng)物體的視頻。
③ RWC視頻級(jí)數(shù)據(jù)集,是運(yùn)動(dòng)的個(gè)人軌跡。
④ UCF-Crime視頻級(jí)數(shù)據(jù)集,異常種類包括打斗、搶劫、縱火、逮捕、爆炸、事故等。
(2)群體異常行為檢測(cè)數(shù)據(jù)集
① UMN幀級(jí)數(shù)據(jù)集,異常種類包括人群四處逃散、人群單方向跑動(dòng)、聚集等。
② VIF幀級(jí)數(shù)據(jù)集,包括人群暴力行為,為檢驗(yàn)暴力/非暴力分類和暴力標(biāo)準(zhǔn)提供測(cè)試依據(jù)等。
③ PETS視頻級(jí)數(shù)據(jù)集,包含了多傳感器的不同人群的活動(dòng)序列。
④ MALL幀級(jí)數(shù)據(jù)集,MALL數(shù)據(jù)庫有密集十字路口交通流視頻和購物中心的視頻2個(gè)子集。
異常行為檢測(cè)數(shù)據(jù)集大多數(shù)都可用于低密度人群或單人行為的檢測(cè)與識(shí)別,但部分只能用于群體異常行為檢測(cè)。
異常行為檢測(cè)的場景和目標(biāo)對(duì)象對(duì)其目標(biāo)跟蹤的特性起關(guān)鍵作用。不同的場景與不同的目標(biāo)其跟蹤特點(diǎn)不同,同一場景下的不同目標(biāo),其跟蹤特性也不盡相同。
表1列出了單場景目標(biāo)跟蹤、重疊場景、非重疊場景等目標(biāo)跟蹤算法的特點(diǎn)。
表1 目標(biāo)跟蹤算法與特點(diǎn)
(1)對(duì)于單場景目標(biāo)跟蹤要求時(shí)空連續(xù),這種單場景目標(biāo)跟蹤算法特別適應(yīng)于對(duì)單個(gè)目標(biāo)的持續(xù)跟蹤。對(duì)前景目標(biāo)建模,可將跟蹤看作是前景和背景的二分類,通過學(xué)習(xí)分類器,在當(dāng)前幀搜索得到與背景最具區(qū)分度的前景區(qū)域,即判別式跟蹤??砂茨繕?biāo)跟蹤策略精準(zhǔn)定位跟蹤,目標(biāo)跟蹤與目標(biāo)檢測(cè)可同步進(jìn)行。
(2)在重疊場景目標(biāo)跟蹤中,采用多攝像頭從多視角對(duì)目標(biāo)檢測(cè),若出現(xiàn)重疊目標(biāo)場景,目標(biāo)就會(huì)從一個(gè)場景進(jìn)入另一個(gè)場景,可用連續(xù)的空間關(guān)系確定進(jìn)入新場景的目標(biāo)身份;也可用單應(yīng)性矩陣關(guān)聯(lián)不同場景下的目標(biāo),精準(zhǔn)推演計(jì)算目標(biāo)在對(duì)應(yīng)場景下的位置。
(3)在非重疊場景目標(biāo)跟蹤中,場景之間盲區(qū)可能導(dǎo)致同一目標(biāo)在不同攝像機(jī)獲取目標(biāo)信息中的時(shí)空信息缺失,從而造成目標(biāo)跟蹤的難度,可采用攝像機(jī)網(wǎng)絡(luò)拓?fù)涔烙?jì)和跨攝像機(jī)目標(biāo)再識(shí)別算法解決此問題。
綜上所述,行為分析系統(tǒng)中主要是以傳統(tǒng)機(jī)器學(xué)習(xí)算法進(jìn)行視頻行為識(shí)別與分析、以手工特征描述行人外觀和運(yùn)動(dòng)特征,構(gòu)建特征空間。系統(tǒng)采用的技術(shù)方案,即基于遷移學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)、基于多任務(wù)深度學(xué)習(xí)的行為識(shí)別與分析技術(shù)、基于多視點(diǎn)多尺度的行為摘要與檢索技術(shù)等,能較好地實(shí)現(xiàn)視頻行為的檢測(cè)、識(shí)別與分析,尤其在三維時(shí)空的多視角點(diǎn)的檢測(cè)、姿態(tài)動(dòng)態(tài)識(shí)別效果良好。克服了單一的視頻行為識(shí)別與分析方法易產(chǎn)生盲區(qū)、單視點(diǎn)等弱點(diǎn),具有較高的實(shí)用價(jià)值。