李南君 李爽 李拓 鄒曉峰 王長(zhǎng)紅
摘 要:現(xiàn)有基于CNN模型的視頻異常事件檢測(cè)方法在精度不斷提升的同時(shí),面臨架構(gòu)復(fù)雜、參數(shù)龐大、訓(xùn)練冗長(zhǎng)等問(wèn)題,致使硬件算力需求高,難以適配無(wú)人機(jī)等計(jì)算資源有限的邊緣端設(shè)備。為此,提出一種面向邊緣端設(shè)備的輕量化異常事件檢測(cè)方法,旨在平衡檢測(cè)性能與推理延遲。首先,由原始視頻序列提取梯度立方體與光流立方體作為事件表觀與運(yùn)動(dòng)特征表示;其次,設(shè)計(jì)改進(jìn)的小規(guī)模PCANet獲取梯度立方體對(duì)應(yīng)的高層次分塊直方圖特征;再次,根據(jù)每個(gè)局部分塊的直方圖特征分布情況計(jì)算表觀異常得分,同時(shí)基于內(nèi)部像素光流幅值累加計(jì)算運(yùn)動(dòng)異常得分;最后,依據(jù)表觀與運(yùn)動(dòng)異常得分的加權(quán)融合值判別異常分塊,實(shí)現(xiàn)表觀與運(yùn)動(dòng)異常事件聯(lián)合檢測(cè)與定位。在公開(kāi)數(shù)據(jù)集UCSD的Ped1與Ped2子集上進(jìn)行實(shí)驗(yàn)驗(yàn)證,該方法的幀層面AUC分別達(dá)到86.7%與94.9%,領(lǐng)先大多數(shù)對(duì)比方法,且參數(shù)量明顯降低。實(shí)驗(yàn)結(jié)果表明,該方法在低算力需求下,可以實(shí)現(xiàn)較高的異常檢測(cè)穩(wěn)定性和準(zhǔn)確率,能夠有效兼顧檢測(cè)精度與計(jì)算資源,因此適用于低功耗邊緣端設(shè)備。
關(guān)鍵詞:智能視頻監(jiān)控;邊緣端設(shè)備;異常事件檢測(cè);主成分分析網(wǎng)絡(luò);分塊直方圖特征
中圖分類(lèi)號(hào):TP391?? 文獻(xiàn)標(biāo)志碼:A?? 文章編號(hào):1001-3695(2024)01-049-0306-08
doi:10.19734/j.issn.1001-3695.2023.04.0225
Lightweight video abnormal event detection method for edge devices
Abstract:Existing CNN-based video anomaly detection methods improve the accuracy continuously,which are faced with issues such as complex architecture,large parameters and lengthy training.Therefore,the hardware computing power requirements of them are high,which makes it difficult to adapt to edge devices with limited computing resources like UAVs.To this end,this paper proposed a lightweight abnormal event detection method for edge devices.Firstly,the method extracted gradient cuboids and optical flow cuboids from video sequence as appearance and motion feature representation.Secondly,the method designed a modified PCANet network to obtain high-level block-wise histogram features of gradient cuboids.Then,the method calculated the appearance anomaly score of each block based on histogram feature distribution,and calculated the motion ano-maly score based on the accumulation of optical flow amplitudes of internal pixels.Finally,the method fused the appearance and motion anomaly scores to identify anomalous blocks,achieving appearance and motion abnormal events detection and localization simultaneously.The frame-level AUC of proposed method reached 86.7% on UCSD Ped1 dataset and 94.9% on UCSD Ped2 dataset,which were superior to other methods and the parameters were much smaller.Experimental results show that the method achieves better anomaly detection performance under low computational power requirements,making the ba-lance between detection precision and computing resources,which is suitable for low-power edge devices.
Key words:intelligent video surveillance;edge device;abnormal event detection;principle component analysis network;block-wise histogram feature
0 引言
當(dāng)前,全球城市化進(jìn)程加快,人口數(shù)量激增,社會(huì)公共安全問(wèn)題日漸突出。面對(duì)現(xiàn)實(shí)公共區(qū)域中頻發(fā)的各類(lèi)安全事故與突發(fā)情況,以監(jiān)控?cái)z像機(jī)為核心設(shè)備的視頻監(jiān)控系統(tǒng)逐漸凸顯優(yōu)勢(shì)。視頻監(jiān)控系統(tǒng)通過(guò)前端攝像機(jī)能夠全天候采集監(jiān)控區(qū)域場(chǎng)景畫(huà)面,利用網(wǎng)絡(luò)傳輸技術(shù)將采集到的視頻信息輸送回監(jiān)控室并在電視屏幕上實(shí)時(shí)播放,工作人員對(duì)視頻畫(huà)面進(jìn)行觀察分析,及時(shí)發(fā)現(xiàn)可疑情況并采取措施,以維護(hù)社會(huì)秩序、保障人民生命財(cái)產(chǎn)安全。因此大量監(jiān)控設(shè)備被廣泛安裝在街道、辦公樓、商場(chǎng)等公共場(chǎng)所,以及醫(yī)院、機(jī)場(chǎng)、火車(chē)站等重要機(jī)構(gòu),逐漸形成大規(guī)模視頻監(jiān)控聯(lián)網(wǎng)建設(shè)應(yīng)用,如“天網(wǎng)監(jiān)控系統(tǒng)”。然而,傳統(tǒng)監(jiān)控系統(tǒng)依賴人工進(jìn)行視頻場(chǎng)景事件分析與信息提取的方式在面對(duì)眾多監(jiān)控設(shè)備產(chǎn)生的海量視頻數(shù)據(jù)時(shí)存在執(zhí)行效率低下、運(yùn)行成本昂貴等問(wèn)題,亟待發(fā)展能夠自主理解視頻內(nèi)容并反饋異常情況的智能監(jiān)控系統(tǒng)。
作為智能監(jiān)控系統(tǒng)的核心功能之一,視頻異常事件檢測(cè)技術(shù)受到產(chǎn)業(yè)界與學(xué)術(shù)界研究人員的共同關(guān)注,研究人員不斷探索新方法并提供創(chuàng)新研究成果。該技術(shù)旨在采用圖像處理與機(jī)器學(xué)習(xí)相關(guān)方法,自主識(shí)別監(jiān)控視頻場(chǎng)景中各類(lèi)目標(biāo)(行人、汽車(chē)等)引發(fā)的各種偏離常規(guī)的事件。因此可以最大程度地協(xié)助工作人員及時(shí)發(fā)現(xiàn)異常事件,在降低人力成本的同時(shí)提高監(jiān)控效率,并減少誤報(bào)和漏報(bào)情況,提升現(xiàn)有視頻監(jiān)控系統(tǒng)的智能化水平。
近期,以卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)為代表的深度學(xué)習(xí)模型在由淺自深提取視頻圖像特征方面展現(xiàn)出優(yōu)異性能,并在各項(xiàng)計(jì)算機(jī)視覺(jué)(computer vision,CV)任務(wù)上,如行為識(shí)別、目標(biāo)檢測(cè)、姿態(tài)估計(jì)等取得極佳效果。由此,諸多研究工作將CNN應(yīng)用于視頻異常檢測(cè)任務(wù)。
不同于其他CV任務(wù),視頻異常事件檢測(cè)實(shí)現(xiàn)過(guò)程面臨諸多難點(diǎn):a)異常事件定義場(chǎng)景相關(guān)性,相同事件根據(jù)其所處的時(shí)空上下文場(chǎng)景不同,異常屬性判定存在差異;b)異常事件樣本稀疏性,通常情況下,異常事件屬于偶發(fā)事件,發(fā)生頻率遠(yuǎn)低于正常事件,且通常持續(xù)時(shí)間很短難以被記錄,導(dǎo)致可用的異常樣本不足。因此,當(dāng)前基于CNN的異常事件檢測(cè)方法廣泛采用半監(jiān)督學(xué)習(xí)策略,即在訓(xùn)練階段只使用正常事件樣本訓(xùn)練檢測(cè)模型,并在推理階段,將明顯偏離檢測(cè)模型的待測(cè)樣本判為異常。其中,兩種常用的CNN模型為卷積自編碼器(convolutional autoencoder,CAE)與生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)。
當(dāng)前基于CAE與GAN的半監(jiān)督異常事件檢測(cè)主流框架有基于重構(gòu)的方法、基于預(yù)測(cè)的方法以及基于判別的方法。其中,基于重構(gòu)的方法充分利用CAE對(duì)輸入樣本的復(fù)現(xiàn)能力,其核心思想是:訓(xùn)練階段對(duì)正常事件樣本進(jìn)行編解碼操作,并以較低誤差重構(gòu)正常輸入為目標(biāo)訓(xùn)練網(wǎng)絡(luò);在測(cè)試階段,重構(gòu)訓(xùn)練過(guò)程未出現(xiàn)異常事件樣本時(shí)將得到較差的重構(gòu)樣本,進(jìn)而獲得較大的重構(gòu)誤差?;陬A(yù)測(cè)的方法充分利用CAE與GAN的生成能力,大多數(shù)情況CAE會(huì)用作GAN中的生成器(gene-rator),與重構(gòu)過(guò)程單純復(fù)現(xiàn)已知輸入事件不同,其核心思想是采用連續(xù)歷史時(shí)刻事件作為先驗(yàn)信息,預(yù)測(cè)未知的未來(lái)時(shí)刻事件,預(yù)測(cè)值與真實(shí)值間的偏差為預(yù)測(cè)誤差,用作異常判定標(biāo)準(zhǔn)。同樣地,使用正常事件樣本訓(xùn)練的預(yù)測(cè)網(wǎng)絡(luò)僅能對(duì)其進(jìn)行精準(zhǔn)預(yù)測(cè),而對(duì)于異常樣本的預(yù)測(cè)結(jié)果不理想,從而產(chǎn)生較大的預(yù)測(cè)誤差。基于判別的方法則充分利用GAN中判別器(discriminator)對(duì)生成樣本與真實(shí)樣本的區(qū)分能力,其核心思想是利用正常事件樣本學(xué)習(xí)的GAN無(wú)法識(shí)別生成正常樣本,但能夠識(shí)別生成異常樣本?,F(xiàn)階段大多數(shù)方法沿用上述三種基本框架,通過(guò)在原始網(wǎng)絡(luò)中引入長(zhǎng)短期記憶單元[1]、注意力模塊[2,3]、記憶模塊[4~6]、概率模型[7,8]、跨越連接機(jī)制[9,10]來(lái)解決CAE的強(qiáng)泛化能力以及GAN的訓(xùn)練過(guò)程不穩(wěn)定等問(wèn)題,從而優(yōu)化異常檢測(cè)結(jié)果。具體而言,Zhong等人[2]提出一種基于CAE的雙向視頻幀預(yù)測(cè)框架,設(shè)計(jì)基于空間注意力與通道注意力的雙向特征融合機(jī)制,同時(shí)進(jìn)行前向幀預(yù)測(cè)與后向幀預(yù)測(cè)。肖進(jìn)勝等人[6]構(gòu)建概率記憶自編碼網(wǎng)絡(luò),在自編碼主干網(wǎng)絡(luò)中嵌入概率模型和記憶模塊,提升其視頻幀重建質(zhì)量;同時(shí)使用因果三維卷積和時(shí)間維度共享全連接層,避免未來(lái)信息丟失,強(qiáng)化編碼器特征提取性能。類(lèi)似地,針對(duì)現(xiàn)有重構(gòu)方法忽略正常數(shù)據(jù)內(nèi)部結(jié)構(gòu)致使效率較低的問(wèn)題,鐘友坤等人[8]整合自編碼器與高斯概率模型,提出深度自動(dòng)編碼高斯混合網(wǎng)絡(luò)。其中,自編碼器映射輸入視頻片段的低維隱層表示并生成重構(gòu)樣本,而高斯混合模型擬合正常片段的概率分布,進(jìn)而通過(guò)能量密度概率判斷異常。周航等人[11]研究基于時(shí)空融合圖網(wǎng)絡(luò)學(xué)習(xí)的視頻異常檢測(cè)方法,在充分挖掘視頻空間相似性與時(shí)序延續(xù)性的基礎(chǔ)上開(kāi)展異常事件推理。
除此之外,Transformer網(wǎng)絡(luò)[12]作為具有全局感受野的前沿深度學(xué)習(xí)模型,能夠利用自注意力機(jī)制挖掘視頻圖像全局依賴關(guān)系,表現(xiàn)出比經(jīng)典CNN更強(qiáng)的特征提取能力?;谝曈X(jué)Transformer(vision Transformer,ViT)的半監(jiān)督異常事件檢測(cè)方法[13~15]應(yīng)運(yùn)而生。需要特別說(shuō)明的是,大多數(shù)ViT方法仍然使用前面所述的三種基本框架。Lee等人[14]構(gòu)建多分支ViT預(yù)測(cè)架構(gòu),在充分利用視頻時(shí)空上下文的基礎(chǔ)上,開(kāi)展不同任務(wù)設(shè)置下的未來(lái)幀預(yù)測(cè),以完成異常識(shí)別。劉成明等人[15]設(shè)計(jì)融合門(mén)控自注意力機(jī)制的生成對(duì)抗網(wǎng)絡(luò),在原始GAN的生成器部分引入門(mén)控自注意力機(jī)制,逐層對(duì)采樣過(guò)程中的特征圖進(jìn)行權(quán)重分配,抑制輸入視頻幀中與異常檢測(cè)任務(wù)不相關(guān)背景區(qū)域的特征表達(dá),從而優(yōu)化時(shí)空信息建模。
然而,上述方法在依靠復(fù)雜深度學(xué)習(xí)模型取得高精度異常檢測(cè)結(jié)果的同時(shí),也面臨網(wǎng)絡(luò)規(guī)模大、訓(xùn)練參數(shù)多、計(jì)算開(kāi)銷(xiāo)大等問(wèn)題。特別是ViT網(wǎng)絡(luò),由于需要捕獲全局注意力,訓(xùn)練參數(shù)量往往達(dá)到千萬(wàn)級(jí)別。這決定了這些方法必須依賴高算力的硬件設(shè)備進(jìn)行訓(xùn)練與推理,無(wú)法部署到計(jì)算資源有限且功耗要求嚴(yán)格的邊緣端設(shè)備上,同時(shí)難以實(shí)現(xiàn)在線實(shí)時(shí)檢測(cè)。為此,提出一種面向邊緣端設(shè)備的輕量化視頻異常檢測(cè)方法LVAD(lightweight video abnormal event detection),該方法利用一種性能高效、架構(gòu)簡(jiǎn)潔的主成分分析網(wǎng)絡(luò)(principle component analysis network,PCANet)[16]進(jìn)行視頻序列不同局部區(qū)域圖像高層次特征提取,其具備規(guī)模小、參數(shù)少、無(wú)須迭代訓(xùn)練等優(yōu)勢(shì)。在此基礎(chǔ)上設(shè)計(jì)一種全新的快速異常識(shí)別策略,根據(jù)不同區(qū)域的特征分布直接計(jì)算異常得分作為異常判別標(biāo)準(zhǔn),進(jìn)而實(shí)現(xiàn)視頻序列中局部異常事件定位。同時(shí),為了實(shí)現(xiàn)運(yùn)動(dòng)與表觀異常事件聯(lián)合檢測(cè),該方法采用雙流分支結(jié)構(gòu),其中表觀分支中使用梯度特征作為視頻事件外觀表示,運(yùn)動(dòng)分支中使用光流特征作為視頻事件運(yùn)動(dòng)表示。由于PCANet無(wú)須依靠大量人工預(yù)標(biāo)注的視頻事件樣本進(jìn)行參數(shù)迭代訓(xùn)練的特性,使得該方法硬件算力要求不高,適用于低功耗邊緣端設(shè)備下的高速推理。
具體而言,本文的主要貢獻(xiàn)如下:
a)提出一種全新的基于PCANet的輕量化異常事件檢測(cè)方法LVAD。首先使用PCANet在原始視頻序列劃分的梯度時(shí)空立方體中提取高層次分塊直方圖特征,進(jìn)而直接依據(jù)特征分布計(jì)算標(biāo)準(zhǔn)差作為表觀異常得分,并與基于光流值計(jì)算的運(yùn)動(dòng)異常得分進(jìn)行融合,用于異常分塊判定,以同時(shí)實(shí)現(xiàn)異常事件檢測(cè)與定位。
b)設(shè)計(jì)一種改進(jìn)的PCANet架構(gòu)。利用差異擴(kuò)展化操作替代原始網(wǎng)絡(luò)中去均值化操作,通過(guò)該措施增大視頻圖像不同重疊采樣塊間差異,保證后續(xù)PCA濾波器能夠更容易捕獲特征變化,進(jìn)而有助于識(shí)別異常圖像塊。此外,不同于原始網(wǎng)絡(luò)僅能處理單幀圖像,改進(jìn)網(wǎng)絡(luò)以特征立方體為輸入,在全面考慮時(shí)序信息與空間信息基礎(chǔ)上生成卷積濾波器。
c)在多個(gè)公開(kāi)標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文方法在更小空間占用、更低算力需求、更快推理速度下的性能優(yōu)于部分基于大規(guī)模CNN的方法,實(shí)現(xiàn)了異常檢測(cè)精度與運(yùn)算延遲間的最佳平衡。
1 本文方法
基于改進(jìn)PCANet的輕量化異常事件檢測(cè)方法LVAD的基本流程如圖1所示。首先,針對(duì)原始視頻序列進(jìn)行預(yù)處理,基于滑動(dòng)窗口提取梯度特征立方體與光流特征立方體作為視頻事件表觀與運(yùn)動(dòng)表達(dá);繼而,采用改進(jìn)PCANet處理梯度特征立方體,獲取其高層次分塊直方圖特征向量,并通過(guò)計(jì)算每個(gè)局部分塊對(duì)應(yīng)直方圖特征分布的標(biāo)準(zhǔn)差作為其表觀異常得分;最后,將表觀異常得分與基于光流特征幅值計(jì)算的運(yùn)動(dòng)異常得分進(jìn)行加權(quán)融合,同時(shí)采用單類(lèi)別分類(lèi)器對(duì)融合后異常得分進(jìn)行閾值化處理,判別每幀視頻圖像內(nèi)的異常分塊,實(shí)現(xiàn)局部異常事件定位。值得注意的是,PCANet屬于一種簡(jiǎn)化的深度學(xué)習(xí)模型,其卷積層數(shù)少、參數(shù)量低、無(wú)須冗長(zhǎng)迭代訓(xùn)練,適用于在計(jì)算資源有限的邊緣端設(shè)備上運(yùn)算。
1.1 視頻序列特征立方體劃分
針對(duì)視頻序列進(jìn)行預(yù)處理,將其劃分為用于分析處理的基本單位,是實(shí)現(xiàn)視頻中局部異常事件區(qū)域定位的必要步驟。為此,采用一種基于滑動(dòng)窗口的視頻預(yù)處理方法,具體流程如圖2所示。首先,設(shè)置大小為W×H×T的滑動(dòng)窗口,其中W和H分別為滑動(dòng)窗口的寬度和高度,T為時(shí)間深度。使用滑動(dòng)窗口將每個(gè)圖像幀分割成大小為W×H、互不重疊的多個(gè)二維圖像單元(patch);繼而,將連續(xù)T幀時(shí)序維度上相鄰的視頻圖像中同一空間坐標(biāo)的二維單元堆疊在一起,構(gòu)成三維時(shí)空立方體(spatial-temporal cuboid),用于視頻處理與異常檢測(cè)的基本單位;最后,提取每個(gè)立方體對(duì)應(yīng)梯度特征立方體與光流特征立方體作為表觀信息與運(yùn)動(dòng)信息載體,用于表觀與運(yùn)動(dòng)異常事件聯(lián)合檢測(cè)。
針對(duì)梯度特征立方體,首先基于式(1)計(jì)算視頻幀F(xiàn)t中每個(gè)像素點(diǎn)的時(shí)空梯度得到時(shí)空梯度圖,其中p表示Ft中的像素點(diǎn)。其時(shí)空梯度Fp共包含三個(gè)元素:前兩個(gè)元素Fp,x和Fp,y分別為圖像水平方向與垂直方向的梯度值,用于描述目標(biāo)的姿態(tài)與形狀;第三個(gè)元素Fp,t為時(shí)間方向的梯度值,用于刻畫(huà)目標(biāo)表觀特征隨時(shí)間的變化。因此,每個(gè)時(shí)空梯度圖包含三個(gè)通道,隨后采用上述滑動(dòng)窗口對(duì)多個(gè)時(shí)空梯度圖構(gòu)成的序列進(jìn)行采樣,獲得梯度立方體。
針對(duì)光流特征立方體,首先采用Horn-Schunck光流法計(jì)算每個(gè)像素點(diǎn)的水平方向光流值Ip,x與垂直方向光流值Ip,y作為光流圖前兩個(gè)通道;之后,使用式(2)計(jì)算每個(gè)像素點(diǎn)的合成光流幅值Ip作為光流圖的第三個(gè)通道;最后,利用滑動(dòng)窗口處理光流圖序列獲得光流立方體。
1.2 基于改進(jìn)PCANet的高層次表觀特征提取
PCANet作為一種結(jié)構(gòu)簡(jiǎn)潔的深度學(xué)習(xí)模型,已在人臉識(shí)別、手寫(xiě)字符識(shí)別以及目標(biāo)識(shí)別等基于視覺(jué)語(yǔ)義的分類(lèi)任務(wù)上取得較高精度,充分驗(yàn)證其在高層次表觀特征提取方面的有效性。與CNN相似,PCANet采用分層級(jí)聯(lián)的特征學(xué)習(xí)結(jié)構(gòu),由淺自深地自動(dòng)提取精細(xì)特征。然而,相較于CNN,PCANet規(guī)模較小(一般僅包含兩層卷積),且無(wú)須使用梯度下降法進(jìn)行反復(fù)調(diào)參、訓(xùn)練以獲取更佳效果,因而算力需求不高,適用于計(jì)算能效有限的邊緣端處理器。
PCANet基本特征提取流程包括主成分分析PCA(principal component analysis)、二值化哈希編碼(binary hashing)、分塊直方圖(block-wise histograms)三步,三個(gè)步驟分別對(duì)應(yīng)CNN中的卷積、非線性處理以及下采樣操作。首先利用PCA算法學(xué)習(xí)多層濾波器(卷積核),然后使用二值化哈希編碼進(jìn)行非線性處理,最后采用分塊直方圖進(jìn)行重采樣,輸出分塊直方圖特征,該特征具備一定變換上的穩(wěn)定性(如尺度不變性)。
很明顯,輸出的PCA濾波器W1l中記錄了輸入梯度立方體中最為關(guān)鍵的時(shí)空信息。
將每個(gè)Ol,nt輸入二值化函數(shù)H(z)處理后進(jìn)行哈希編碼,編碼位數(shù)與W2n個(gè)數(shù)相同,表示為
1.3 視頻分塊表觀異常得分計(jì)算
針對(duì)局部分塊Bt(i,j)的表觀異常得分,基于其直方圖特征進(jìn)行計(jì)算。一般來(lái)說(shuō),只包含正常事件的分塊對(duì)應(yīng)直方圖特征分布較為集中,像素特征值主要分布在前端取值區(qū)間;而對(duì)于異常分塊,由于包含異常像素,直方圖特征分布更為均勻,像素特征值分布占據(jù)更多取值區(qū)間,如圖4所示。其中,分塊3中包含騎自行車(chē)異常事件,而分塊2僅包含行人行走正常事件,分塊1僅包含背景信息。由圖4可以看出,分塊1像素特征值集中分布于前幾個(gè)區(qū)間,分塊2特征值更均勻地分布于區(qū)間1~8,相較之下,分塊3特征值則更廣泛地分布于區(qū)間1~12。
因此,通過(guò)計(jì)算直方圖特征的標(biāo)準(zhǔn)偏差作為Bt(i,j)表觀異常得分:對(duì)于正常分塊,由于其像素特征值集中分布在直方圖前端區(qū)間內(nèi),在后續(xù)取值區(qū)間沒(méi)有分布,致使直方圖特征不同區(qū)間的高度值離散程度較大,將產(chǎn)生較高標(biāo)準(zhǔn)差;相反地,對(duì)于異常分塊,直方圖特征不同,區(qū)間高度值則更加連續(xù),將產(chǎn)生較低標(biāo)準(zhǔn)差。Bt(i,j)直方圖特征標(biāo)準(zhǔn)差計(jì)算如下:
其中:sapp(i,j)為表觀異常得分;v(i,j){δ}表示其直方圖特征第δ個(gè)區(qū)間對(duì)應(yīng)高度值。
1.4 視頻分塊異常判別
針對(duì)局部分塊Bt(i,j)的運(yùn)動(dòng)異常得分,對(duì)其包含所有像素的光流幅值進(jìn)行求和,獲得
其中:Nf為Bt(i,j)中像素個(gè)數(shù)。通常來(lái)說(shuō),smot(i,j)越大,代表Bt(i,j)中像素運(yùn)動(dòng)速度越快,其中包含非常規(guī)運(yùn)動(dòng)事件概率越高(如正常行走人群中突然駛?cè)氲能?chē)輛),而sapp(i,j)越小,代表Bt(i,j)中像素表觀與常規(guī)偏差越大,Bt(i,j)中包含非正常外觀目標(biāo)概率越高(如正常行走人群中緩慢進(jìn)入的自行車(chē))。因此,運(yùn)動(dòng)異常得分與表觀異常得分的融合過(guò)程為
sfus=αsmot+β(1-sapp)(8)
其中:α與β為加權(quán)融合權(quán)重。
設(shè)定檢測(cè)閾值θ,根據(jù)融合異常得分,利用單類(lèi)別分類(lèi)器(one-class classifier)判別異常局部塊,實(shí)現(xiàn)異常事件檢測(cè)與定位:
2 實(shí)驗(yàn)結(jié)果與分析
2.1 數(shù)據(jù)集
本章在UCSD[17]與UMN[18]兩個(gè)公開(kāi)標(biāo)準(zhǔn)異常事件數(shù)據(jù)集上對(duì)本文方法的有效性進(jìn)行實(shí)驗(yàn)驗(yàn)證。
2.1.1 UCSD數(shù)據(jù)集
UCSD數(shù)據(jù)集由Ped1和Ped2兩個(gè)子集組成,分別包含兩臺(tái)固定視角攝像機(jī)拍攝的加利福尼亞大學(xué)圣迭戈分校(University of California,San Diego,UCSD)校園內(nèi)兩條不同道路場(chǎng)景的多段視頻。兩個(gè)子集中均將視頻場(chǎng)景中的行人按正常道路方向以常規(guī)速度行走定義為正常事件,而將突然進(jìn)入人行道的非人目標(biāo)(如手推車(chē)、汽車(chē)等)及行人非常規(guī)行為模式(如滑滑板、騎自行車(chē))定義為異常事件。
Ped1子集的訓(xùn)練集由34段只包含正常事件的視頻序列組成,測(cè)試集由36段包含不同類(lèi)型異常事件的視頻序列組成,每段視頻均由200幀圖像構(gòu)成,空間分辨率為238×158。相較于Ped1,Ped2子集體量更小,訓(xùn)練集和測(cè)試集分別包含16段正常視頻序列和12段異常視頻序列,每段視頻圖像幀數(shù)不等,由120幀變化到200幀,空間分辨率為360×240。
Ped1子集中僅有10段測(cè)試視頻的異常事件幀層面與像素層面真實(shí)值標(biāo)注被同時(shí)提供,而Ped2子集中所有測(cè)試視頻的異常事件幀層面與像素層面真實(shí)值標(biāo)注被同時(shí)提供。
2.1.2 UMN數(shù)據(jù)集
UMN數(shù)據(jù)集來(lái)源于明尼蘇達(dá)大學(xué)(University of Minnesota System,UMN)人工智能實(shí)驗(yàn)室,記錄了3個(gè)不同場(chǎng)景(2個(gè)強(qiáng)光照室外場(chǎng)景和1個(gè)昏暗室內(nèi)場(chǎng)景)發(fā)生的共11段視頻序列,共包含分辨率為320×240的7 739幀圖像。每段視頻以人群正常地隨意行走為開(kāi)始,以突然逃散或奔跑為結(jié)束。該數(shù)據(jù)集僅提供異常事件的幀層面真實(shí)值標(biāo)注,未提供像素層面的真實(shí)值標(biāo)注。換言之,只知道視頻序列中哪些幀存在異常,但不知道異常幀中哪些像素是異常的(即異常發(fā)生的具體區(qū)域)。相較于UCSD,該數(shù)據(jù)集包含的異常事件側(cè)重群體行為(人群逃散、奔跑)。因此,本章在UMN數(shù)據(jù)集上進(jìn)行測(cè)試以評(píng)估本文方法面向群體異常事件檢測(cè)性能。
2.2 評(píng)價(jià)標(biāo)準(zhǔn)
本文實(shí)驗(yàn)同時(shí)使用如下兩種準(zhǔn)則或其中之一評(píng)估本文方法的異常檢測(cè)效果:視頻幀層面(frame-level)標(biāo)準(zhǔn)和像素層面(pixel-level)標(biāo)準(zhǔn),分別對(duì)應(yīng)視頻異常的幀層面與像素層面真實(shí)值標(biāo)注。兩個(gè)準(zhǔn)則的基本原理均是通過(guò)統(tǒng)計(jì)實(shí)際檢測(cè)結(jié)果與真實(shí)值標(biāo)注的匹配程度評(píng)估性能,定義異常結(jié)果與正常結(jié)果為陽(yáng)性(positive)與陰性(negative)。
1)幀層面準(zhǔn)則 視頻幀中只要一個(gè)像素被判為異常(本文中異常分塊所含像素全部被認(rèn)定為異常),則被認(rèn)定為異常幀,若其對(duì)應(yīng)幀層面真實(shí)值同樣為異常,將視為真陽(yáng)性(true positive,TP)檢測(cè);否則,視為假陽(yáng)性(false positive,F(xiàn)P)檢測(cè)。該評(píng)價(jià)準(zhǔn)則一般用于衡量算法在視頻序列時(shí)序維度上的異常事件檢測(cè)(判斷視頻中哪幀圖像包含異常)準(zhǔn)確率。
2)像素層面準(zhǔn)則 視頻幀中判為異常的像素覆蓋至少40%的真實(shí)異常像素時(shí),才視為T(mén)P檢測(cè);而與幀層面準(zhǔn)則一致,正常幀中只要一個(gè)像素被檢測(cè)為異常,將視為FP檢測(cè)。該評(píng)價(jià)準(zhǔn)則適用于衡量算法在視頻序列空間維度上的異常事件定位(判斷異常圖像幀中哪些像素為異常)準(zhǔn)確率。
基于幀層面或像素層面準(zhǔn)則評(píng)判視頻序列每幀圖像后,計(jì)算真陽(yáng)率(true positive rate,TPR)和假陽(yáng)率(false positive rate,F(xiàn)PR)。
通過(guò)變換檢測(cè)閾值(式(9)中的θ)的取值,可以得到多組 FPR-TPR值,以FPR為橫坐標(biāo),TPR為縱坐標(biāo),繪制幀層面和像素層面的受試者操作特征(receiver operating characteristic,ROC)曲線。
利用ROC曲線,計(jì)算下述三個(gè)量化指標(biāo)進(jìn)行方法性能評(píng)估:
a)ROC曲線下的面積(area under curve,AUC)。
b)等錯(cuò)率(equal error rate,EER)。當(dāng)假陽(yáng)率等于漏檢率時(shí)被誤判為異常的視頻幀比例,即在ROC曲線上FPR=1-TPR時(shí)的FPR值,通常用于幀層面評(píng)價(jià)標(biāo)準(zhǔn)。
c)等檢率(equal detected rate,EDR)。等錯(cuò)率處的檢測(cè)率,即EDR=1-EER,通常用于像素層面評(píng)價(jià)標(biāo)準(zhǔn)。
AUC與EDR值越大,EER值越小,代表方法性能越好,異常檢測(cè)精度更高。
2.3 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)過(guò)程中,數(shù)據(jù)集中視頻序列的每幀圖像尺寸被調(diào)整為360×240,相應(yīng)的梯度圖與光流圖大小為360×240×3?;瑒?dòng)窗口大小W×H×T設(shè)置為40×40×7,由此二維圖像單元(patch)大小為40×40,而三維視頻立方體(cuboid)大小為40×40×7。在改進(jìn)PCANet中,濾波器大?。ú蓸哟笮。﹌1×k1初始化為5×5,第一層和第二層的濾波器個(gè)數(shù)分別設(shè)置為L(zhǎng)1=8和L2=6,局部分塊(block)大小設(shè)置為10×10,每個(gè)分塊的直方圖特征向量長(zhǎng)度為2L2-2=16,即16個(gè)取值區(qū)間。融合權(quán)重系數(shù)α和β為0.5。
算法推理代碼在Windows系統(tǒng)下運(yùn)行,僅使用Intel i5-4460@3.20 GHz CPU、8 GB內(nèi)存,無(wú)須高算力、大功耗GPU顯卡。
2.4 實(shí)驗(yàn)結(jié)果
2.4.1 UCSD Ped1數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
圖5展示了本文方法在UCSD Ped1數(shù)據(jù)集上可視化異常事件檢測(cè)結(jié)果示例,異常事件區(qū)域使用紅色矩形標(biāo)記(參見(jiàn)電子版)??梢园l(fā)現(xiàn),本文方法LVAD能夠同時(shí)檢測(cè)與定位運(yùn)動(dòng)異常事件,如突然駛?cè)氲钠?chē),以及表觀異常事件,如緩慢出現(xiàn)的輪椅,這得益于LVAD采用的雙流分支融合策略。
至于定量分析,選取近年發(fā)表于頂級(jí)會(huì)議或期刊上的前沿方法(絕大多數(shù)來(lái)源于近三年)與LVAD基于幀層面和像素層面量化指標(biāo)進(jìn)行對(duì)比。同時(shí),為了更清晰地闡明LVAD在輕量化異常檢測(cè)方面的優(yōu)勢(shì),針對(duì)其與對(duì)比方法的模型參數(shù)量、硬件平臺(tái)、推理速度進(jìn)行詳盡統(tǒng)計(jì),如表1所示(表中“—”代表文獻(xiàn)未公布相應(yīng)結(jié)果或信息,其余表格與此相同)。由表1可以看出,在異常檢測(cè)輕量化方面,LVAD擁有最小的模型參數(shù)量,相應(yīng)地僅需要CPU設(shè)備完成異常檢測(cè)訓(xùn)練與推理。而大部分對(duì)比方法的參數(shù)量在十萬(wàn)級(jí)以上,必須依賴高算力GPU開(kāi)展模型訓(xùn)練與異常推理。值得注意的是,LVAD在僅使用CPU的前提下達(dá)到了0.11 s/幀的推理速度,印證其可以進(jìn)行實(shí)時(shí)異常檢測(cè),易于部署到實(shí)際應(yīng)用。
除此之外,在異常檢測(cè)效果方面,LVAD在幀層面評(píng)價(jià)標(biāo)準(zhǔn)上取得最低EER值與最高AUC值,分別為19.5%與86.7%,相較于排名第二的方法分別提升2.5%與0.8%,充分驗(yàn)證了其優(yōu)異的異常檢測(cè)性能。而像素層面評(píng)價(jià)標(biāo)準(zhǔn),近期工作大多未基于其進(jìn)行異常定位精度評(píng)估,因此公開(kāi)的量化指標(biāo)有限。LVAD的像素層面EDR值與AUC值分別為62.1%與62.8%,說(shuō)明其面向異常定位的有效性。需要特別說(shuō)明的是,對(duì)比同樣僅使用CPU執(zhí)行異常推理的方法GLVP與SHAP(GPU只用于預(yù)處理階段目標(biāo)檢測(cè)),LVAD的幀層面AUC分別增加了5.4%與0.8%。SHAP采用小規(guī)模降噪自編碼器(僅包含3個(gè)全連接層)作為異常檢測(cè)模型,表明了LVAD設(shè)計(jì)改進(jìn)PCANet進(jìn)行高層次特征提取并基于提取特征的分布特性執(zhí)行異常檢測(cè)的優(yōu)勢(shì)。綜上所述,LVAD在較低算力需求下,取得了更高的異常事件檢測(cè)與定位準(zhǔn)確率,更加適用于邊緣端推理場(chǎng)景。
2.4.2 UCSD Ped2數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
圖6展示了本文方法在UCSD Ped2數(shù)據(jù)集上可視化異常事件檢測(cè)結(jié)果示例,異常事件區(qū)域使用紅色矩形標(biāo)記。能夠看出LVAD在不同攝像機(jī)拍攝視角下仍可以同時(shí)檢測(cè)和定位多種類(lèi)型的異常事件,例如正常行走人群中出現(xiàn)的騎自行車(chē)者、突然駛?cè)氲钠?chē)等。
表2提供了在Ped2數(shù)據(jù)集上的基于AUC、EER和EDR指標(biāo)的定量比較結(jié)果及對(duì)比方法參數(shù)量等信息統(tǒng)計(jì)。可以看出,在幀層面評(píng)價(jià)標(biāo)準(zhǔn)上,LVAD的AUC值在所有對(duì)比方法中最高,達(dá)到94.9%,超過(guò)次優(yōu)方法Siamese-Net 0.9%。至于EER指標(biāo),略差于ISTL(△1.2%)。在像素層面評(píng)價(jià)標(biāo)準(zhǔn)上,LVAD的EDR值與AUC值分別為82%與86.2%,在所有公開(kāi)結(jié)果中最高,再次驗(yàn)證其在局部異常定位方面的優(yōu)勢(shì)。相較于GLVP與SHAP,與Ped1子集上的結(jié)果一致,EER與AUC指標(biāo)實(shí)現(xiàn)了大幅提升,進(jìn)一步闡明了LVAD在輕量化異常檢測(cè)方面的出色性能。
2.4.3 UMN數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
圖7展示了本文方法LVAD在UMN數(shù)據(jù)集上可視化群體異常事件檢測(cè)結(jié)果示例,異常事件所在幀使用紅色長(zhǎng)條標(biāo)記,局部異常區(qū)域使用紅色矩形標(biāo)記。能夠看出其不僅可以在時(shí)序維度上實(shí)現(xiàn)群體逃散異常事件檢測(cè),還可以在空間維度上完成逃散個(gè)體定位。
由于UMN數(shù)據(jù)集僅提供幀層面的異常真實(shí)值標(biāo)注,所以只采用幀層面準(zhǔn)則與先進(jìn)方法對(duì)比,圖8給出了在UMN數(shù)據(jù)集上LVAD與其他方法幀層面ROC曲線對(duì)比,而詳細(xì)的基于EER與AUC的定量結(jié)果比較如表3所示。能夠發(fā)現(xiàn),所有方法在UMN數(shù)據(jù)集上都取得了較為理想的異常檢測(cè)表現(xiàn),LVAD同樣實(shí)現(xiàn)了極佳效果,EER值為4.6%,AUC值達(dá)到98.7%。相較于spatial-temporal net,在量化指標(biāo)上的細(xì)微差距可能是由于將視頻序列劃分為時(shí)空立方體作為檢測(cè)單元,當(dāng)視頻中人群逃散過(guò)程接近結(jié)束時(shí),隨著行人相繼跑離場(chǎng)景視野,每個(gè)人占據(jù)區(qū)域面積過(guò)小無(wú)法劃分到時(shí)空立方體內(nèi),從而導(dǎo)致漏檢。
3 實(shí)驗(yàn)討論
3.1 雙流分支融合有效性分析(消融實(shí)驗(yàn))
為了驗(yàn)證本文方法所用的運(yùn)動(dòng)分支與表觀分支融合機(jī)制的有效性,本節(jié)開(kāi)展消融研究。具體而言,基于融合系數(shù)α和β的不同設(shè)置值在UCSD Ped2進(jìn)行實(shí)驗(yàn):a)α=0,β=1,僅使用表觀信息進(jìn)行異常檢測(cè);b)α=0.5,β=0.5,同時(shí)使用表觀信息與運(yùn)動(dòng)信息進(jìn)行異常檢測(cè);c)α=1,β=0,僅使用運(yùn)動(dòng)信息進(jìn)行異常檢測(cè)。表4展示了上述三種系數(shù)設(shè)置下的EDR和AUC指標(biāo)對(duì)比結(jié)果,能夠發(fā)現(xiàn),通過(guò)表觀信息與運(yùn)動(dòng)信息的加權(quán)融合能夠有效提升實(shí)驗(yàn)表現(xiàn),有力說(shuō)明了其有效性。
3.2 差異擴(kuò)展化操作有效性分析
為了闡明改進(jìn)PCANet中設(shè)計(jì)的差異擴(kuò)展化操作的優(yōu)勢(shì),本節(jié)在UCSD Ped2數(shù)據(jù)集上對(duì)改進(jìn)PCANet與傳統(tǒng)PCANet的實(shí)驗(yàn)表現(xiàn)進(jìn)行對(duì)比,量化指標(biāo)結(jié)果如表5所示??梢钥闯?,改進(jìn)PCANet在EDR與AUC指標(biāo)上有了大幅度提升,進(jìn)而驗(yàn)證了使用差異擴(kuò)展化操作替代原始去均值化操作的優(yōu)勢(shì)。
3.3 超參數(shù)敏感性分析
為了探究超參數(shù)對(duì)模型性能,進(jìn)而對(duì)實(shí)驗(yàn)結(jié)果的影響,本節(jié)在Ped2數(shù)據(jù)集上進(jìn)行超參數(shù)敏感性分析,重點(diǎn)針對(duì)網(wǎng)絡(luò)層數(shù)、濾波器尺寸及濾波器個(gè)數(shù)三個(gè)關(guān)鍵參數(shù),實(shí)驗(yàn)結(jié)果使用視頻幀層面 AUC指標(biāo)值表示。表6展示了PCANet層數(shù)變化時(shí)對(duì)異常檢測(cè)效果產(chǎn)生的影響,至于濾波器尺寸及個(gè)數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響,分別在表7和8中列出。由表6可以看出,對(duì)于單層PCANet,由于其視頻事件刻畫(huà)能力不足,相應(yīng)實(shí)驗(yàn)結(jié)果較差。之后將網(wǎng)絡(luò)層數(shù)增加至兩層,異常檢測(cè)精度提升,但持續(xù)增加層數(shù)精度提升有限。相反地,層數(shù)過(guò)多會(huì)出現(xiàn)精度下降的情況,同時(shí)延長(zhǎng)檢測(cè)運(yùn)算耗時(shí)(特征提取步驟增多)。因此,本文以平衡檢測(cè)精度與運(yùn)行效率為目的,將網(wǎng)絡(luò)層數(shù)設(shè)置為2。
由表7能夠發(fā)現(xiàn),濾波器尺寸在一定范圍內(nèi)變化時(shí)對(duì)異常檢測(cè)效果影響不大,然而當(dāng)其不斷增大超過(guò)閾值后,由于難以捕獲圖像局部精細(xì)特征,致使異常檢測(cè)精度大幅下降。而濾波器個(gè)數(shù)對(duì)實(shí)驗(yàn)結(jié)果整體干擾不大,但取值過(guò)高會(huì)導(dǎo)致特征圖映射階段卷積運(yùn)算增多,增加異常推理耗時(shí)。
4 結(jié)束語(yǔ)
本文提出一種面向邊緣端設(shè)備的輕量化異常事件檢測(cè)方法LVAD。首先,將原始視頻序列劃分為多個(gè)局部時(shí)空立方體,并提取相應(yīng)的梯度特征立方體與光流特征立方體;其次,引入改進(jìn)PCANet獲取梯度特征立方體對(duì)應(yīng)的高層次分塊直方圖特征;再次,基于每個(gè)局部塊的直方圖特征計(jì)算其表觀異常得分,同時(shí)基于內(nèi)部像素光流幅值求和計(jì)算運(yùn)動(dòng)異常得分;最后,將表觀與運(yùn)動(dòng)異常得分進(jìn)行加權(quán)融合,使用單類(lèi)別分類(lèi)器判別異常局部塊,實(shí)現(xiàn)運(yùn)動(dòng)與表觀異常事件聯(lián)合檢測(cè)與定位。所使用的PCANet屬于架構(gòu)簡(jiǎn)潔的輕量化深度學(xué)習(xí)模型,特征提取過(guò)程無(wú)須耗費(fèi)大量計(jì)算資源反復(fù)進(jìn)行參數(shù)訓(xùn)練,因此可以高效部署到邊緣端設(shè)備上。在公開(kāi)標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文方法在低算力需求下取得了優(yōu)異的異常事件檢測(cè)表現(xiàn)。然而,該方法依賴視頻序列RGB圖像對(duì)應(yīng)的特征表示,容易受到由可見(jiàn)光透視投影引起的目標(biāo)尺度變化影響,距離攝像機(jī)設(shè)備遠(yuǎn)近不同的同類(lèi)別目標(biāo)在視頻圖像中所占區(qū)域面積大小變化極大,致使異常檢測(cè)結(jié)果不佳。因此,未來(lái)工作中考慮在PCANet中設(shè)計(jì)金字塔卷積結(jié)構(gòu),以精確捕獲不同尺度目標(biāo)細(xì)節(jié),從而提升異常檢測(cè)效果。
參考文獻(xiàn):
[1]Luo Weixin,Liu Wen,Gao Shenghua.Remembering history with con-volutional LSTM for anomaly detection[C]//Proc of IEEE International Conference on Multimedia and Expo.2017:439-444.
[2]Zhong Yuanhong,Chen Xia,Hu Yongting,et al.Bidirectional spatio-temporal feature learning with multiscale evaluation for video anomaly detection[J].IEEE Trans on Circuits and Systems for Video Technology,2022,32(12):8285-8296.
[3]Le V T,Kim Y G.Attention-based residual autoencoder for video ano-maly detection [J].Applied Intelligence,2023,53(3):3240-3254.
[4]Wang Le,Tian Junwen,Zhou Sanping,et al.Memory-augmented appearance-motion network for video anomaly detection[J].Pattern Recognition,2023,138:109335.
[5]孫敬波,季節(jié).視頻監(jiān)控下利用記憶力增強(qiáng)自編碼的行人異常行為檢測(cè) [J].紅外與激光工程,2022,51(6):368-374.(Sun Jingbo,Ji Jie.Memory-augmented deep autoencoder model for pedestrian abnormal behavior detection in video surveillance [J].Infrared and Laser Engineering,2022,51(6):368-374.)
[6]肖進(jìn)勝,郭浩文,謝紅剛,等.監(jiān)控視頻異常行為檢測(cè)的概率記憶自編碼網(wǎng)絡(luò) [J].軟件學(xué)報(bào),2023,34(9):4362-4377.(Xiao Jinsheng,Guo Haowen,Xie Honggang,et al.Probabilistic memory auto-encoding network for abnormal behavior detection in surveillance videos[J].Journal of Software,2023,34(9):4362-4377.)
[7]于曉升,許茗,王瑩,等.基于卷積變分自編碼器的異常事件檢測(cè)方法 [J].儀器儀表學(xué)報(bào),2021,42(5):151-158.(Yu Xiaosheng,Xu Ming,Wang Ying,et al.Anomaly detection method based on con-volutional variational auto-encoder[J].Chinese Journal of Scienti-fic Instrument,2021,42(5):151-158.)
[8]鐘友坤,莫海寧.基于深度自編碼-高斯混合模型的視頻異常檢測(cè)方法 [J].紅外與激光工程,2022,51(6):375-381.(Zhong Youkun,Mo Haining.A video anomaly detection method based on deep autoencoding Gaussian mixture model [J].Infrared and Laser Engineering,2022,51(6):375-381.)
[9]Saypadith S,Onoye T.Video anomaly detection based on deep generative network [C]// Proc of IEEE International Symposium on Circuits and Systems.2021:1-5.
[10]Nguyen T N,Meunier J.Anomaly detection in video sequence with appearance-motion correspondence [C]// Proc of IEEE/CVF International Conference on Computer Vision.2019:1273-1283.
[11]周航,詹永照,毛啟容.基于時(shí)空融合圖網(wǎng)絡(luò)學(xué)習(xí)的視頻異常事件檢測(cè) [J].計(jì)算機(jī)研究與發(fā)展,2021,58(1):48-59.(Zhou Hang,Zhan Yongzhao,Mao Qirong.Video anomaly detection based on space-time fusion graph network learning[J].Journal of Computer Research and Development,2021,58(1):48-59.)
[12]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Advances in Neural Information Processing Systems.2017.
[13]Feng Xinyang,Song Dongjin,Chen Yuncong,et al.Convolutional Transformer based dual discriminator generative adversarial networks for video anomaly detection [C]// Proc of the 29th ACM International Conference on Multimedia.New York:ACM Press,2021:5546-5554.
[14]Lee J,Nam W J,Lee S W.Multi-contextual predictions with vision transformer for video anomaly detection[C]//Proc of International Conference on Pattern Recognition.2022:1012-1018.
[15]劉成明,薛然,石磊,等.融合門(mén)控自注意力機(jī)制的生成對(duì)抗網(wǎng)絡(luò)視頻異常檢測(cè) [J].中國(guó)圖象圖形學(xué)報(bào),2022,27(11):3210-3221.(Liu Chengming,Xue Ran,Shi Lei,et al.The gaining self-attention mechanism and GAN integrated video anomaly detection[J].Journal of Image and Graphics,2022,27(11):3210-3221.)
[16]Chan T,Jia Kui,Gao Shenghua,et al.PCANet:a simple deep learning baseline for image classification? [J].IEEE Trans on Image Processing,2015,24(12):5017-5032.
[17]Mahadevan V,Li Weixin,Bhalodia V,et al.Anomaly detection in crowded scenes[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.2010:1975-1981.
[18]Mehran R,Oyama A,Shah M,et al.Abnormal crowd behavior detection using social force model[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.2009:935-942.
[19]Xu Dan,Yan Yan,Ricci E,et al.Detecting anomalous events in videos by learning deep representations of appearance and motion [J].Computer Vision and Image Understanding,2017,156:117-127.
[20]Wu Peng,Liu Jing,Li Mingming,et al.Fast sparse coding networks for anomaly detection in videos[J].Pattern Recognition,2020,107:107515.
[21]Nawaratne R,Alahakoon D,De Silva D,et al.Spatiotemporal anomaly detection using deep learning for real-time video surveillance[J].IEEE Trans on Industrial Informatics,2019,16(1):393-402.
[22]胡正平,趙夢(mèng)瑤,辛丙一.結(jié)合全局與局部視頻表示的視頻異常檢測(cè)算法[J].模式識(shí)別與人工智能,2020,33(2):133-140.(Hu Zhengping,Zhao Mengyao,Xin Bingyi.Video anomaly detection algorithm combining global and local video representation[J].Pattern Recognition and Artificial Intelligence,2020,33(2):133-140.)
[23]Guo Aibin,Guo Lijun,Zhang Rong,et al.Self-trained prediction mo-del and novel anomaly score mechanism for video anomaly detection[J].Image and Vision Computing,2022,119:104391.
[24]Ramachandra B,Jones M,Vatsavai R.Learning a distance function with a siamese network to localize anomalies in videos[C]//Proc of IEEE Winter Conference on Applications of Computer Vision.2020:2598-2607.
[25]Zhang Qianqian,F(xiàn)eng Guorui,Wu Hanzhou.Surveillance video ano-maly detection via non-local U-Net frame prediction[J].Multimedia Tools and Applications,2022,81(19):27073-27088.
[26]Kommanduri R,Ghorai M.Bi-READ:bi-residual autoEncoder based feature enhancement for video anomaly detection[J].Journal of Visual Communication and Image Representation,2023,95:103860.
[27]Wu Chongke,Shao Sicong,Tunc C,et al.An explainable and efficient deep learning framework for video anomaly detection [J].Cluster Computing,2021,25:2715-2737.
[28]Fan Yaxiang,Wen Gongjian,Li Deren,et al.Video anomaly detection and localization via gaussian mixture fully convolutional variational autoencoder[J].Computer Vision and Image Understanding,2020,195:102920.
[29]Song Hao,Sun Che,Wu Xinxiao,et al.Learning normal patterns via adversarial attention-based autoencoder for abnormal event detection in videos[J].IEEE Trans on Multimedia,2019,22(8):2138-2148.
[30]Deepak K,Chandrakala S,Mohan C K.Residual spatiotemporal autoencoder for unsupervised video anomaly detection [J].Signal,Image and Video Processing,2021,15(1):215-222.
[31]Ali M M.Real-time video anomaly detection for smart surveillance[J].IET Image Processing,2023,17(5):1375-1388.
[32]Szymanowicz S,Charles J,Cipolla R.Discrete neural representations for explainable anomaly detection[C]//Proc of IEEE Winter Confe-rence on Applications of Computer Vision.2022:148-156.
[33]Chen Tianyu,Hou Chunping,Wang Zhipeng,et al.Anomaly detection in crowded scenes using motion energy model [J].Multimedia Tools and Applications,2018,77(11):14137-14152.
[34]Zhou Shifu,Shen Wei,Zeng Dan,et al.Spatial-temporal convolutional neural networks for anomaly detection and localization in crowded scenes[J].Signal Processing:Image Communication,2016,47:358-368.
[35]Aziz Z,Bhatti N,Mahmood H,et al.Video anomaly detection and localization based on appearance and motion models[J].Multimedia Tools and Applications,2021,80(17):25875-25895.
[36]Zhang Sijia,Gong Maoguo,Xie Yu,et al.Influence-aware attention networks for anomaly detection in surveillance videos[J].IEEE Trans on Circuits and Systems for Video Technology,2022,32(8):5427-5437.
[37]Sabih M,Vishwakarma D K.A novel framework for detection of motion and appearance-based anomaly using ensemble learning and LSTMs [J].Expert Systems with Applications,2022,192:116394.
[38]Xia Limin,Li Zhenmin.An abnormal event detection method based on the Riemannian manifold and LSTM network [J].Neurocomputing,2021,463:144-154.