楊亞虎,王 瑜,陳天華
(北京工商大學(xué) 人工智能學(xué)院,北京 100048)
隨著現(xiàn)代科技的迅猛發(fā)展,以及人們對(duì)安全性要求的顯著提高,成像設(shè)備的使用數(shù)量越來(lái)越多,覆蓋范圍也越來(lái)越廣。傳統(tǒng)的成像設(shè)備只能捕捉、存儲(chǔ)和回放視頻,對(duì)于異常圖像[1],例如模糊、遮擋和場(chǎng)景切換等,并不能立即向監(jiān)控中心發(fā)出警報(bào),且多由工作人員值守,容易疲勞、誤報(bào),尤其對(duì)于復(fù)雜場(chǎng)景更是難以應(yīng)對(duì)。因此,研究全自動(dòng)遠(yuǎn)程視頻監(jiān)控異常圖像智能檢測(cè)方法很有必要。
智能視頻監(jiān)控系統(tǒng)是在計(jì)算機(jī)視覺(jué)(Computer Vision)發(fā)展的基礎(chǔ)上提出來(lái)的,目前已有較多研究成果和實(shí)際應(yīng)用的案例,但大多數(shù)僅針對(duì)某一類異常干擾進(jìn)行識(shí)別。文獻(xiàn)[2]考慮到不同模糊檢測(cè)算法的互補(bǔ)特性,進(jìn)而提出了基于隨機(jī)森林的像素級(jí)融合、基于條件隨機(jī)場(chǎng)的圖像級(jí)融合,以及基于回歸樹(shù)場(chǎng)圖像內(nèi)容感知的融合三種融合方法。文獻(xiàn)[3]通過(guò)結(jié)合稀疏自編碼器的自動(dòng)提取圖像特征的能力和深度置信網(wǎng)絡(luò)優(yōu)秀的分類性能,提出了一種基于深度學(xué)習(xí)的監(jiān)控視頻樹(shù)葉遮擋檢測(cè)方法。文獻(xiàn)[4]將RGB圖像進(jìn)行雙邊濾波,并將濾波后的圖像轉(zhuǎn)換到HSV空間,在HSV彩色空間內(nèi)利用矢量求導(dǎo)方法計(jì)算彩色圖像的梯度,最后利用改進(jìn)的線段分割檢測(cè)(Line Segmentation Detection,LSD)算法實(shí)現(xiàn)圖像直線的提取。文獻(xiàn)[5]根據(jù)動(dòng)態(tài)高低閾值判斷是否發(fā)生場(chǎng)景突變和場(chǎng)景漸變,有效克服了傳統(tǒng)灰度法的誤檢和直方圖法的漏檢問(wèn)題。此外,南京航空航天大學(xué)[6]、中國(guó)石油大學(xué)[7]也開(kāi)展了相關(guān)研究。中國(guó)科學(xué)院自動(dòng)化研究所[8]從底層、中層、高層對(duì)對(duì)智能視頻監(jiān)控技術(shù)進(jìn)行了詳細(xì)綜述。以上算法在其特定應(yīng)用場(chǎng)景下具有良好的識(shí)別效果,但不能同時(shí)識(shí)別出多種異常干擾。
近年來(lái),深度學(xué)習(xí)技術(shù)在分類、檢測(cè)和識(shí)別等領(lǐng)域表現(xiàn)優(yōu)越?;诰矸e神經(jīng)網(wǎng)絡(luò)而衍生的分類網(wǎng)絡(luò)中,最具代表的是VGG16、VGG19、SqueezeNet、InceptionV4、DenseNet121、ResNet18和ResNet50等端到端的圖像分類網(wǎng)絡(luò)?;谶@些技術(shù),視頻監(jiān)控中的異常事件檢測(cè)也有很大進(jìn)展[3,9-10]。相比于傳統(tǒng)通過(guò)人工提取特征,再使用支持向量機(jī)(Support Vector Machine,SVM)分類器進(jìn)行攝像頭異常干擾的分類識(shí)別[11],或利用尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)函數(shù)獲取圖像的特征,通過(guò)圖像特征的變化來(lái)判斷攝像頭是否發(fā)生干擾[12],將深度學(xué)習(xí)技術(shù)引入攝像頭異常干擾識(shí)別當(dāng)中,結(jié)合云計(jì)算和圖像處理器的優(yōu)秀加速計(jì)算性能,為攝像頭異常干擾識(shí)別提供了全新的思路。
為此,本文針對(duì)上述算法的不足,提出了一種基于深度學(xué)習(xí)的全自動(dòng)遠(yuǎn)程視頻監(jiān)控異常圖像識(shí)別算法。算法利用設(shè)計(jì)的CNN網(wǎng)絡(luò)提取標(biāo)準(zhǔn)化后的視頻差分圖特征,實(shí)時(shí)輸出多種異常干擾圖像識(shí)別結(jié)果,且具有較高的識(shí)別準(zhǔn)確率。
成像設(shè)備采集到的視頻序列具有連續(xù)性的特點(diǎn),如果鏡頭沒(méi)有遮擋、場(chǎng)景切換、模糊等異常發(fā)生,則連續(xù)幀的變化很微弱;如果有上述異常發(fā)生,則連續(xù)的幀與幀之間會(huì)有明顯的變化。幀間差分法借鑒了上述思想,可以獲得幀間差異明顯的差分圖。該類算法對(duì)視頻流中的兩幀圖像Fn(x,y)和Fn-1(x,y)進(jìn)行差分運(yùn)算,獲得視頻差分圖像Dn(x,y),如式(1)所示:
Dn(x,y)=|Fn(x,y)-Fn-1(x,y)| 。
(1)
通過(guò)對(duì)視頻流中的彩色圖像求取差分圖,以削弱圖像的相似部分,突出圖像的變化部分,可以為深度學(xué)習(xí)網(wǎng)絡(luò)的特征提取提供強(qiáng)有力的基準(zhǔn)。
獲得視頻差分圖后,由于差分圖可能具有不同的分辨率,不適合直接輸入到神經(jīng)網(wǎng)絡(luò)的輸入層。此外,為了使得訓(xùn)練后的模型更具有泛化性,需要對(duì)其進(jìn)行標(biāo)準(zhǔn)化處理。圖像標(biāo)準(zhǔn)化將數(shù)據(jù)實(shí)現(xiàn)中心化處理,根據(jù)凸優(yōu)化理論與數(shù)據(jù)概率分布相關(guān)知識(shí),數(shù)據(jù)中心化符合數(shù)據(jù)分布規(guī)律,更容易取得訓(xùn)練之后的泛化效果。對(duì)于采用不同成像設(shè)備采集到的視頻圖像,或者是來(lái)源不同的視頻圖像,由于明暗、對(duì)比度等各種問(wèn)題,會(huì)出現(xiàn)像素值過(guò)大的情況,此時(shí)進(jìn)行圖像標(biāo)準(zhǔn)化以后,數(shù)據(jù)與數(shù)據(jù)之間的差異被控制在一個(gè)很小的范圍內(nèi),避免了梯度發(fā)生振蕩,可以加速收斂速度,也可以在一定程度上提高收斂精度。
本文先將原始視頻差分圖像統(tǒng)一成256×256格式,再進(jìn)行圖像標(biāo)準(zhǔn)化,如式(2)所示:
(2)
式中:x表示圖像,μ是圖像的均值,σ表示標(biāo)準(zhǔn)方差。視頻圖像標(biāo)準(zhǔn)化前后對(duì)比如圖1所示。
圖1 視頻圖像標(biāo)準(zhǔn)化前后對(duì)比
對(duì)于標(biāo)準(zhǔn)化后的視頻差分圖Cn(x,y),當(dāng)其超過(guò)一定閾值T時(shí),像素值設(shè)為1,否則為0,即可獲得二值差分圖Rn′(x,y),如式(3)所示:
(3)
獲得標(biāo)準(zhǔn)化后的視頻差分圖后,利用自行設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)模型可以全自動(dòng)地實(shí)現(xiàn)遠(yuǎn)程視頻監(jiān)控異常圖像檢測(cè)。
1.3.1 卷積層
卷積神經(jīng)網(wǎng)絡(luò)中的卷積操作可以看作是輸入樣本和卷積核的內(nèi)積運(yùn)算,第一層卷積層對(duì)輸入樣本進(jìn)行卷積操作后就可以得到特征圖。為了得到和原始輸入樣本大小相同的特征圖,本文采用對(duì)輸入樣本進(jìn)行SAME的填充方式,填充后再進(jìn)行卷積操作。卷積層是使用同一卷積核對(duì)每個(gè)輸入樣本自上而下、自左向右進(jìn)行卷積操作的。對(duì)256×256的輸入樣本填充,并使用3×3×16的卷積核進(jìn)行卷積操作后,得到256×256×16的特征圖。另外,卷積結(jié)果不能直接作為特征圖,需通過(guò)激活函數(shù)計(jì)算后,把函數(shù)輸出結(jié)果作為特征圖。常見(jiàn)的激活函數(shù)有sigmoid、tanh、ReLU等函數(shù),本文使用的是ReLU函數(shù),圖2中卷積核的滑動(dòng)步長(zhǎng)為1。本文第二個(gè)卷積層的卷積核大小及尺寸為3×3×32,卷積過(guò)程中同樣使用SAME的填充方式進(jìn)行填充。
圖2 卷積操作示意圖
由于Xavier初始化方法結(jié)合了ReLU函數(shù),并得到了優(yōu)秀的分類效果,因此本文方法使用的兩個(gè)卷積層中,卷積核的參數(shù)都由Xavier初始化產(chǎn)生。
由于低層特征在這里主要表現(xiàn)為視頻干擾圖像的外觀特征,包括紋理、顏色、邊緣和形狀,區(qū)分時(shí)是逐塊進(jìn)行,并未涉及太多語(yǔ)義層,因而設(shè)計(jì)了兩層卷積層。
1.3.2 池化層
池化層的作用是減小卷積層產(chǎn)生的特征圖尺寸。選取一個(gè)區(qū)域,根據(jù)該區(qū)域的特征圖得到新的特征圖,這個(gè)過(guò)程被稱為池化操作。例如,對(duì)一個(gè)2×2的區(qū)域進(jìn)行池化操作后,得到的新特征圖會(huì)被壓縮為原來(lái)尺寸的1/4,因此池化操作可以降低特征圖的維度。主要的池化操作有最大池化、平均池化和Lp池化,如圖3所示。本文所用的是圖3(a)所示的最大池化,最大池化是選取圖像區(qū)域內(nèi)的最大值作為新的特征圖。
圖3 主要的池化操作
1.3.3 局部響應(yīng)歸一化層
為了提高準(zhǔn)確率,本文在網(wǎng)絡(luò)設(shè)計(jì)時(shí)加入了局部響應(yīng)歸一化層(Local Response Normalization,LRN),對(duì)局部神經(jīng)元的活動(dòng)創(chuàng)建競(jìng)爭(zhēng)機(jī)制,使得其中響應(yīng)比較大的值變得相對(duì)更大,并抑制其他反饋較小的神經(jīng)元,可以增強(qiáng)模型的泛化能力。局部響應(yīng)歸一化公式如式(4)所示:
(4)
1.3.4 全連接層
和多層感知器一樣,全連接層也是首先計(jì)算激活值,然后通過(guò)激活函數(shù)計(jì)算各單元的輸出值。本文使用ReLU函數(shù)。由于全連接層的輸入即是卷積層或池化層的輸出,表現(xiàn)為二維的特征圖,所以需要對(duì)二維特征圖進(jìn)行降維處理。本文第一個(gè)全連接層和第二個(gè)全連接層中神經(jīng)元的個(gè)數(shù)分別為256,全連接層的操作如圖4所示。
圖4 全連接層操作示意圖
通過(guò)卷積對(duì)輸入圖像進(jìn)行特征提取,池化將得到的特征圖像進(jìn)行分塊降維,最后全連接層將學(xué)到的分布式特征表示映射到樣本標(biāo)記空間。
1.3.5 輸出層
和多層感知器的輸出層一樣,卷積神經(jīng)網(wǎng)絡(luò)的輸出層也是使用似然函數(shù)計(jì)算各類別的似然概率。因?yàn)楸疚妮敵鲇兴姆N類別,具體包括遮擋、場(chǎng)景切換、模糊和正常,所以共有4個(gè)輸出單元,每個(gè)單元對(duì)應(yīng)一個(gè)類別,使用式(5)的softmax函數(shù)可以計(jì)算輸出單元的似然概率,然后把概率最大的數(shù)字作為最終的分類結(jié)果輸出。
(5)
式中:Q表示總的輸出單元數(shù),本文取值為4;xq為輸出層的輸入;p(yk)表示第k個(gè)輸出單元的概率。
為了驗(yàn)證本文提出的算法效果,具體實(shí)驗(yàn)設(shè)計(jì)過(guò)程包括訓(xùn)練數(shù)據(jù)的準(zhǔn)備、模型參數(shù)的確定、模型訓(xùn)練,以及模型對(duì)視頻監(jiān)控異常圖像檢測(cè)的結(jié)果等。實(shí)驗(yàn)環(huán)境為Ubuntu16.04 LTS,Python 3,全自動(dòng)遠(yuǎn)程視頻監(jiān)控異常圖像檢測(cè)網(wǎng)絡(luò)模型在深度學(xué)習(xí)框架TensorFlow 1.8.0上搭建,模型在一塊顯存為12 GB的GPU(NVIDIA Titan XP)上訓(xùn)練。
1.4.1 模型相關(guān)參數(shù)
在網(wǎng)絡(luò)模型訓(xùn)練時(shí),本文采用了Xavier的神經(jīng)網(wǎng)絡(luò)權(quán)值初始化方法,保證每層神經(jīng)元輸入輸出方差一致,從而避免變化尺度在最后一層網(wǎng)絡(luò)中爆炸或者彌散。Xavier初始化方法即將參數(shù)初始化成式(6)范圍內(nèi)的均勻分布:
(6)
式中:nk和nk+1分別表示輸入層和輸出層神經(jīng)元個(gè)數(shù)。
由于卷積層和池化層都可以看作是有部分連接的全連接層,因此,卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)訓(xùn)練也是使用誤差反向傳播算法進(jìn)行訓(xùn)練。網(wǎng)絡(luò)訓(xùn)練時(shí)采用批處理方式,批處理量為10,學(xué)習(xí)率0.000 1,最大訓(xùn)練次數(shù)(epochs)為100。各層的參數(shù)匯總?cè)绫?所示,其中,參數(shù)Shape表示卷積核的大小和個(gè)數(shù),Strides表示進(jìn)行卷積操作時(shí)卷積核移動(dòng)的步長(zhǎng)。
表1 網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)
CNN中采用反向傳播算法時(shí)的權(quán)值調(diào)整表示如下:
(7)
式中:ΔWj為權(quán)值調(diào)整量,η為學(xué)習(xí)率,E為輸出誤差。
經(jīng)過(guò)上述網(wǎng)絡(luò)訓(xùn)練后,得到的用于全自動(dòng)遠(yuǎn)程視頻監(jiān)控異常圖像檢測(cè)的模型結(jié)構(gòu)如圖5所示,其中,送入網(wǎng)絡(luò)結(jié)構(gòu)輸入層的是經(jīng)過(guò)標(biāo)準(zhǔn)化以后的視頻差分圖。
圖5 網(wǎng)絡(luò)結(jié)構(gòu)
1.4.2 模型評(píng)價(jià)指標(biāo)
利用訓(xùn)練數(shù)據(jù)訓(xùn)練模型后,用測(cè)試數(shù)據(jù)評(píng)估模型的性能,具體如式(8)所示:
(8)
本文提出的全自動(dòng)遠(yuǎn)程視頻監(jiān)控異常圖像檢測(cè)算法具體包括四步:第一步,對(duì)視頻流數(shù)據(jù)每隔30幀取差分圖,并標(biāo)準(zhǔn)化差分圖;第二步,設(shè)計(jì)全自動(dòng)遠(yuǎn)程視頻監(jiān)控異常圖像檢測(cè)模型;第三步,設(shè)置訓(xùn)練模型的相關(guān)參數(shù)和策略并將訓(xùn)練后的模型保存在saved_model文件夾下;第四步,用測(cè)試集數(shù)據(jù)驗(yàn)證saved_model文件夾下模型的分類性能,并采用客觀評(píng)測(cè)方法評(píng)估模型。
實(shí)驗(yàn)所用的視頻數(shù)據(jù)集源于北京工商大學(xué)計(jì)算成像實(shí)驗(yàn)室自主拍攝的視頻,共有正常、遮擋、模糊、場(chǎng)景切換4類視頻,每類100個(gè),每個(gè)時(shí)長(zhǎng)約30 s。其中,遮擋異常定義為視頻監(jiān)控時(shí)出現(xiàn)圖6(a)所示的鏡頭遮擋現(xiàn)象,模糊異常定義為視頻監(jiān)控時(shí)出現(xiàn)圖6(b)所示的鏡頭模糊現(xiàn)象,切換異常定義為視頻監(jiān)控時(shí)突然出現(xiàn)圖6(c)所示的鏡頭轉(zhuǎn)換現(xiàn)象。利用320個(gè)視頻得到的差分圖進(jìn)行訓(xùn)練,160個(gè)全新的視頻用來(lái)測(cè)試,即用于訓(xùn)練的視頻差分圖共有15 550幅,其中正常3 791幅,遮擋3 813幅,模糊3 864幅,場(chǎng)景切換4 082幅,測(cè)試視頻160個(gè)。視頻像素大小為1 920 pixel×1 080 pixel。圖3為從4類監(jiān)控視頻中截取的部分視頻圖像。
圖6 四種監(jiān)控視頻圖像示例
為了驗(yàn)證本文提出方法的有效性,精心設(shè)計(jì)了模型的實(shí)驗(yàn)過(guò)程,并從四種情況中隨機(jī)選擇三種進(jìn)行組合,以考察模型的魯棒性。實(shí)驗(yàn)使用深度學(xué)習(xí)框架TensorFlow1.8.0搭建智能檢測(cè)模型,在一個(gè)顯存為12 GB的GPU(NVIDIA Titan XP)上進(jìn)行模型訓(xùn)練,設(shè)置最大迭代次數(shù)(epochs)為100,當(dāng)Loss足夠小時(shí),模型訓(xùn)練完畢。圖7為訓(xùn)練過(guò)程中Accuracy和Loss隨訓(xùn)練次數(shù)的變化圖,可見(jiàn)經(jīng)過(guò)100次訓(xùn)練,Loss值已降到0.04左右并保持穩(wěn)定,模型訓(xùn)練完畢。
圖7 Accuracy-Loss變化圖
為了得到最佳的網(wǎng)絡(luò)參數(shù)組合,本文通過(guò)調(diào)節(jié)變量,具體包括卷積核大小、學(xué)習(xí)率的大小、激活函數(shù)的種類等,考察這些參數(shù)對(duì)模型的影響。實(shí)驗(yàn)結(jié)果如表2所示。
表2 參數(shù)對(duì)模型的影響
從表2的實(shí)驗(yàn)結(jié)果可以得到以下結(jié)論:
(1)通過(guò)分析不同卷積核大小對(duì)準(zhǔn)確率的影響,可知利用3×3大小的卷積核得到的結(jié)果最優(yōu)。
(2)學(xué)習(xí)率太小,更新速度慢,學(xué)習(xí)率過(guò)大,可能跨過(guò)最優(yōu)解。因此,在剛開(kāi)始訓(xùn)練,距離最優(yōu)解較遠(yuǎn)時(shí)可以采用稍大的學(xué)習(xí)率,隨著迭代次數(shù)增加,在逼近最優(yōu)解的過(guò)程中,逐漸減小學(xué)習(xí)率。可見(jiàn),學(xué)習(xí)率對(duì)于模型也具有很大的影響。
(3)sigmoid在壓縮數(shù)據(jù)幅度方面有優(yōu)勢(shì),對(duì)于深度網(wǎng)絡(luò),使用sigmoid可以保證數(shù)據(jù)幅度不會(huì)出現(xiàn)振蕩,只要數(shù)據(jù)幅度平穩(wěn)就不會(huì)出現(xiàn)太大的失誤。但是sigmoid存在梯度消失的問(wèn)題,在反向傳播上有劣勢(shì),所以在優(yōu)化過(guò)程中存在不足。ReLU不會(huì)對(duì)數(shù)據(jù)做幅度壓縮,所以如果數(shù)據(jù)的幅度不斷擴(kuò)張,那么模型的層數(shù)越深,幅度的擴(kuò)張也會(huì)越厲害,最終會(huì)影響模型的表現(xiàn)。但是ReLU在反向傳播方面可以將相同的梯度傳到后面,這樣在學(xué)習(xí)過(guò)程中可以更好地發(fā)揮作用。在實(shí)際效果中,Xavier初始化也和ReLU非常匹配。
訓(xùn)練好的模型對(duì)輸入的標(biāo)準(zhǔn)化后的視頻差分圖處理過(guò)程可視化如圖8所示。
圖8 網(wǎng)絡(luò)模型中間層輸出的可視化示例
由圖8可以看出,淺層神經(jīng)網(wǎng)絡(luò)對(duì)于標(biāo)準(zhǔn)化的視頻差分圖邊緣特征提取較好,提取的特征內(nèi)容全面,而深層網(wǎng)絡(luò)提取的特征則更加抽象,這也正好驗(yàn)證了淺層網(wǎng)絡(luò)提取精細(xì)的外觀特征、深層網(wǎng)絡(luò)提取抽象的語(yǔ)義特征的結(jié)論。
最佳網(wǎng)絡(luò)參數(shù)組合下的模型在測(cè)試數(shù)據(jù)上的準(zhǔn)確率如表3所示。
表3 測(cè)試集表現(xiàn)
從表3的實(shí)驗(yàn)結(jié)果可以看出,本文提出的遠(yuǎn)程視頻監(jiān)控異常圖像檢測(cè)方法具有良好的檢測(cè)準(zhǔn)確率,可以同時(shí)對(duì)多種異常進(jìn)行檢測(cè),是對(duì)單一異常情況檢測(cè)的拓展和提升,具有多種視頻監(jiān)控異常圖像在線檢測(cè)的功能。
進(jìn)一步地,為了突出本文所提算法的有效性,本文與文獻(xiàn)[3-4,11-13]的算法進(jìn)行了對(duì)比實(shí)驗(yàn),并采用文獻(xiàn)[11]的客觀評(píng)價(jià)準(zhǔn)則,比較結(jié)果如表4所示。
表4 不同算法的實(shí)驗(yàn)結(jié)果對(duì)比
根據(jù)實(shí)驗(yàn)對(duì)比結(jié)果可以看出,與傳統(tǒng)的和基于深度學(xué)習(xí)的監(jiān)控?cái)z像頭異常干擾識(shí)別算法相比,本文方法在準(zhǔn)確率和漏檢率上有大的提升,誤識(shí)率上次于改進(jìn)的LSD算法和稀疏自編碼器(Sparse Auto-Encoder,SAE)與深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)組合的算法;所設(shè)計(jì)的網(wǎng)絡(luò)較經(jīng)典CNN網(wǎng)絡(luò)AlexNet在準(zhǔn)確率、漏檢率和誤識(shí)率方面均有所提升,因此整體上表現(xiàn)更佳。
損失函數(shù)用于估計(jì)模型的預(yù)測(cè)值和真實(shí)值之間的不一致程度,它是一個(gè)非負(fù)實(shí)值函數(shù)。本文使用的損失函數(shù)是交叉熵?fù)p失函數(shù),如式(9)所示:
(9)
式中:M表示類別數(shù)量;yc表示指標(biāo)變量,如果類別和樣本具有相同的類別,則為1,否則為0;pc表示觀察到的樣本屬于類別c的預(yù)測(cè)概率。本文模型和文獻(xiàn)[11]模型的損失函數(shù)對(duì)比如圖9所示。
圖9 兩種模型的損失函數(shù)對(duì)比圖
圖9的實(shí)驗(yàn)結(jié)果表明,本文方法和文獻(xiàn)[11]方法損失函數(shù)值的趨勢(shì)都在減小,但本文減小得更快而且變化較平穩(wěn),預(yù)測(cè)值更接近真實(shí)值,并最終穩(wěn)定在了0.04左右;文獻(xiàn)[11]方法減小得相對(duì)較慢而且變化過(guò)程中有大的抖動(dòng),預(yù)測(cè)值離真實(shí)值較遠(yuǎn),最終穩(wěn)定在了0.085左右。
為了考察模型的魯棒性,統(tǒng)計(jì)模型在三種異常共四種組合上的檢測(cè)準(zhǔn)確率,如表5所示。
表5 模型在各組合上的表現(xiàn)
由表5可以看出,該模型不僅具備同時(shí)檢測(cè)多種視頻監(jiān)控異常圖像的功能,同時(shí)還具有良好的魯棒性,這為模型應(yīng)用于實(shí)際復(fù)雜場(chǎng)景奠定了堅(jiān)實(shí)基礎(chǔ)。
本文提出了一種基于深度學(xué)習(xí)的遠(yuǎn)程視頻監(jiān)控異常圖像檢測(cè)算法,結(jié)合視頻差分圖和卷積神經(jīng)網(wǎng)絡(luò),先對(duì)視頻差分圖像進(jìn)行標(biāo)準(zhǔn)化,然后利用自行設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)提取特征及下采樣,最后對(duì)監(jiān)控視頻進(jìn)行分類檢測(cè)。實(shí)驗(yàn)結(jié)果表明,該方法相較于傳統(tǒng)的單一異常檢測(cè),不僅在檢測(cè)性能上得到了整體的提升,而且可同時(shí)檢測(cè)出多種異常,模型預(yù)測(cè)值更接近真實(shí)值,可有效避免人工提取特征的麻煩,更好地應(yīng)用于安防監(jiān)控領(lǐng)域。在下一步的工作中,應(yīng)該考慮將視頻中的動(dòng)作識(shí)別方法[14-16]引入監(jiān)控?cái)z像頭異常干擾識(shí)別,在達(dá)到更好的分類識(shí)別效果的基礎(chǔ)上,研制出能夠高速處理海量視頻數(shù)據(jù)的端到端異常檢測(cè)系統(tǒng)。