俞士賢 陳湘軍 周睿康 馬靜
摘 要:監(jiān)控視頻智能分析是智慧校園的關鍵內容之一,可自動提取并識別監(jiān)控視頻中的有效事件信息。本文基于深度學習實現(xiàn)校園監(jiān)控車輛管理,基于深度圖像特征提取識別車輛,基于車輛檢測實現(xiàn)跟蹤、速度檢測和超速以及違停等事件檢測,實現(xiàn)了應用系統(tǒng),檢測效果優(yōu)于傳統(tǒng)方法。
關鍵詞:監(jiān)控視頻分析 深度學習 目標檢測 事件識別
中圖分類號:TN94 文獻標識碼:A 文章編號:1672-3791(2018)08(a)-0013-04
Abstract: Intelligent analysis of surveillance video is one of the key elements of smart campus, which can automatically extract and identify effective event information in surveillance video. This article realized vehicle management of campus surveillance based on depth learning. The extraction and identifications of vehicles is constructed on the depth image feature, and based on vehicle detection to achieve tracking, speed detection is realized, which can help find events of over speed and illegal stop. At last, an application system is realized, and demonstrates better detection effect than the traditional method.
Key Words: Monitoring video analysis; Deep learning; Object detection; Event recognition
隨著經濟水平的提高和高校社會化管理的增強,高校校園車輛日益增多,校園車輛超速行駛和車輛違停等事件給校園管理帶來了諸多挑戰(zhàn)。雖然目前校園普遍安裝了監(jiān)控攝像,但安保人員難以實現(xiàn)24h全方位監(jiān)控。而近幾年,深度卷積神經網絡[1]成為了計算機視覺領域的研究熱點,從5層的LeNet[2],到8層的AlexNet[3],再到19層的VGG[4]和22層的GoogleNet[5],甚至到上百層的ResNets[6],無論是其網絡的學習能力還是深度都得到了顯著的提高。從技術的角度來看,基于計算機視覺的校園監(jiān)控自動分析已經可行。因此,本文通過構建深度學習神經網絡框架,通過殘差網絡訓練行人和車輛的目標特征,實現(xiàn)監(jiān)控視頻車輛目標檢測與跟蹤,進而提取速度,實現(xiàn)校園監(jiān)控視頻中的車輛違停及車輛超速檢測,實現(xiàn)對違規(guī)事件的自動識別與取證。深度學習理論拓展至校園監(jiān)控視頻分析中,有望突破傳統(tǒng)圖像特征因場景復雜而魯棒性不足、缺乏自主學習能力等限制。
1 深度學習環(huán)境和網絡模型
基于深度學習的校園監(jiān)控視頻車輛管理系統(tǒng)采用SSD模型,SSD[7]通過直接采用卷積的方法對不同的特征圖像進行提取檢測。對于每個單元的每個檢測框,SSD都會輸出一套獨立的檢測值,對應一個邊界框,其檢測值主要分為兩個部分:一是各個類別的置信度或者評分;二是邊界框的location,其中包含4個值,分別表示邊界框的中心坐標以及寬高。SSD的訓練包括確定樣本和損失函數(shù)兩部分,在驗證匹配并確定樣本后,便可利用損失函數(shù),得出位置誤差與置信度誤差的加權和,其中,損失函數(shù)表示為公式(1):
(1)
式(1)中,Xi表示第i張圖片的數(shù)據(jù),W為權重矩陣,Δ為所定的一個參數(shù),得分結果由向量Si=f(Xi,W)表示,則第j類的得分可記作Syi=f(Xi,W)j。
Caffe[8]是流行的深度學習實現(xiàn)框架,支持卷積神經網絡的實現(xiàn),具有表達力強、速度快和模塊化的思想,廣泛應用于圖像目標檢測和分類的工程領域。深度學習圖像特征提取方法常用深度殘差網絡(ResNets)實現(xiàn),采用殘差網絡塊作為網絡的基本組成部分,以解決深度神經網絡隨著深度增加而帶來的網絡退化問題。ResNets在原始卷基層外部加入越層連接支路構成基本殘差塊,使原始的映射被表示為H(X)=F(X)+x。ResNets通過殘差塊結構將網絡對H(X)的學習轉化為對F(X)的學習,而對F(X)的學習較H(X)而言,更為簡單?;跉埐顗K更易學習的特性,ResNets通過順序累加殘差塊成功地緩解了深度神經網絡的退化問題,提高了網絡的性能。
殘差網絡原理如圖1所示,其中,ReLU表示激活函數(shù),用來緩解過擬合的問題,weight表示權重,通過取權重的最佳值,使訓練結果更加準確。殘差網絡的具體實現(xiàn)如公式(2)(3)所示。其中,F(xiàn)(x)表示殘差映射,x和y分別代表殘差塊的輸入和輸出。當F維數(shù)和x相同時,用公式(2),此時越層連接既沒有增加額外參數(shù)也沒有增加計算復雜度,反之,當F維數(shù)和x不相同時,用公式(3),通過越層連接執(zhí)行1x1卷積映射G(x)以匹配維數(shù)。
(2)
(3)
2 系統(tǒng)設計與實現(xiàn)
2.1 系統(tǒng)實現(xiàn)流程
校園車輛管理系統(tǒng)實現(xiàn)流程如圖2所示,具體步驟如下:讀取監(jiān)控視頻、車輛目標檢測,基于車輛目標檢測,實現(xiàn)車輛跟蹤與車輛速度檢測,判斷車輛是否超速與違停。當服務器檢測出車輛超速、車輛違停時,記錄車輛違規(guī)信息,并將信息推送給有關人員,如學校保衛(wèi)人員或車主。
2.2 車輛目標檢測
從校園監(jiān)控視頻中收集車輛的圖像,使用殘差網絡對圖像進行卷積,在最后一層得到1×1024×15×20的特征圖陣列,把它轉置成300×1024的特征圖陣列。然后通過SSD子模塊處理每一個1024維向量。對于每一個輸出的狀態(tài),經過兩個不同的全連接層,一個直接輸出框的位置和寬高,一個再經過softmax層輸出這個框的置信度。每個1024維向量經過SSD處理之后可以得到對應原圖中64×64的5個檢測框以及對應的置信度。通過一個給定的閾值去掉置信度底的框。對于已經確定的框,如果一個待選框與它相交,則去掉這個框。使用(m,d)衡量上述的匹配,m評估二者是否相交,取值(0,1),d衡量兩個框之間的曼哈頓距離。先比較m大小,如果不能得出結論,再比較d的大小。模型訓練時的損失函數(shù)如公式(1)所示,匹配算法如公式(4)所示:
(4)
式(4)中,oij取值為{0,1},若待選框中心落在真值框中,則為0,否則為1,rj為待選框生成的序號,目的是在匹配的時候,偏于先生成置信度高的框,故匹配同一個目標時,排序越靠前的代價越低,dij是兩個框之間的距離誤差。深度神經網絡訓練完成后,學習到了顏色、車輛邊緣、復雜紋理、車身等比較有區(qū)別性的特征,選取這些特征,進行車輛目標的檢測。
2.3 車輛跟蹤
由上文車輛目標檢測去除圖像干擾獲得車輛目標,并利用以下公式(5)和公式(6),計算車輛中心點:
(5)
(6)
其中,n為車輛目標所占像素個數(shù),(xi,yi)為像素點坐標。
根據(jù)車輛目標在連續(xù)幀間的位置與相似度,可確定車輛移動軌跡,從而實踐目標的跟蹤。
設ft-1,f,ft+1分別表示3個時間的幀圖像,t-1,t,t+1表示三個跟蹤時刻,每個時刻中目標車輛的目標中心點Vi,f,t在幀矩陣f中的位置為(x,y)i,t,利用車輛特征的相似度計算,可得鄰近目標中心點的運動軌跡,取目標特征矩陣D,則相鄰幀的兩個目標相似度計算方法如公式(7):
(7)
對S進行歸一化處理,得S,當相似度S大于設計閾值時,則認為是同一目標,文中取閾值0.7。
在實際跟蹤中,可能出現(xiàn)目標在某幀中未檢出,或者存在多個相似車輛目標的情況,可根據(jù)前后幀的位置進行區(qū)分。
最終得出車輛目標Vi,運動軌跡Trac={…,(x,y)i,t-1,(x,y)i,t, (x,y)i,t+1,…}。
2.4 車輛速度檢測
相機設備將三維場景中的物體以光學投影方式轉化為二維圖像后,由于維度降低,導致成像結果與現(xiàn)實場景中存在一定的投影變化,同時現(xiàn)實場景中的平行道路因相機縮放,圖像中同一物體所占像素隨著與相機距離變化而變化??梢酝ㄟ^圖像中標定物觀測值,構建整幅圖像中像素與距離之間的對應關系。
如圖3所示,在道路中設置兩條檢測線,記檢測點Z1、Z2,測量現(xiàn)實場景中測量Z1、Z2實際距離,記為L。
由2.2的車輛跟蹤軌跡Trac,當車輛中心點進入檢測區(qū)Z1時,該幀視頻對應的時間記為t1,經過一段時間,車輛進入檢測區(qū)域Z2,該幀視頻對應的時間記為t2。由式(8)得出車輛速度V:
(8)
系統(tǒng)在實際運行時,外界環(huán)境會對結果產生很大影響,尤其是受光照的影響。
2.5 車輛違停檢測
車輛違停檢測算法步驟如下。
(1)預設檢測區(qū)域,啟動車輛檢測模塊。
(2)當檢測區(qū)出現(xiàn)車輛目標時,啟動車輛跟蹤與速度檢測。
(3)實時判斷跟蹤目標速度與位置的變化。若目標駛出目標區(qū)域,則放棄跟蹤,若目標速度為零,則開啟計時器T。
(4)當計時器T>0時,若車輛速度>0,則將計時器T置0,當計時器T>閾值時,則記錄并發(fā)送違停信息。
3 實驗與成果
本文的目標檢測系統(tǒng)在GPU環(huán)境下的Caffe框架中實現(xiàn),實驗條件如下。
(1)軟件環(huán)境:Ubuntu 16.04, Python2.7,OpenCV3.2,Caffe框架。
(2)硬件環(huán)境:CPU,Intel Xeon E5-2620 v3 @2.40 GHz六核;內存;GPU,Nvidia GeForce CTX TITAN X。
(3)樣本訓練:本文基于ImageNet數(shù)據(jù)集的行人和車輛訓練監(jiān)控目標模型,并在校園監(jiān)控中標注了1200幀視頻作為補充,訓練SSD目標檢測模型。
本文實現(xiàn)了基于校園監(jiān)控視頻的車輛速度檢測及車輛違停檢測,實際場景下的目標檢測、車輛速度提取和車輛違停檢測,檢測效果見圖4(a)~(b)。
表1列出了各種場景下目標檢測、車輛跟蹤、車輛速度、違停事件的檢測效果,實驗數(shù)據(jù)表明,不同視角與擁擠會影響目標檢測的準確率,進而影響基于目標檢測的車輛跟蹤,夜間紅外視頻成像目標輪廓清晰,不影響檢測效果。從實驗效果可以看出,本文基于深度學習的監(jiān)控視頻目標檢測和車輛跟蹤、事件檢測應用,相比于傳統(tǒng)的機器學習,無論在準確率或者運行效率上都大大提高,完全能滿足校園監(jiān)控視頻實時自動檢測的需求。
4 結語
實際應用中,也表現(xiàn)出一些問題,例如:校園中有大量不規(guī)則的快遞車、外賣電瓶車,由于標準訓練樣本未覆蓋,漏檢率比較高,并且校園人流較大,攝像機角度變化時,也明顯影響檢測效果,后續(xù)將進一步研究遷移學習等機制,提高復雜條件下檢測的準確率。
參考文獻
[1] Long J,Shelhamer E,Darrell T.Fully c-onvolutional networks for semantic seg-mentation[A].Proc of IEEE Conference o-n Computer Vision and Pattern Recogni-tion.[S.l.]: CVPR Press[C].2015:1109-1123.
[2] LeCun Y,Bottou L, Bengio Y,et al.Gr-adientbased learning applied to docum-ent recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.
[3] Krizhevsky A,Sutskever I,Hinton GE.Imagenet classification with deep conv-olutional neural networks[A].Advances in neural information processing systems[C].2012:1097-1105.
[4] Simonyan K,Zisserman A.Very deep convolutional networks for large-scale im-age recognition[EB/OL]. https://arxiv.org/abs/1409.1556.
[5] SZEGEDY C,Liu W,JIA Y,et al.GoingDeeper with Convolutions [A]. IEEE Conference on Compute-r Vision and Pattern Recognition[C].2015:1-9.
[6] K Zhang,M Sun,Tony X. Han,et al.Residual Networks of Residual Networks: Multilevel Residual Networks[J].IEEE Transactions on Circuits & Systems for Video Technology,2016,28(6):1303-1314.
[7] Liu W,Anguelov D,Erhan D,et al.SS-D: Single Shot MultiBox Detector[A].Eu-ropean Conference on Computer Vision[C].2016.
[8] Jia,Yangqing,Shelhamer,et al.Caffe:convolutional architecture for fast feature embedding[A].MM'14 Proceedings of the 22nd AcM international conference on Multinedia[C].2014:675-678.
[9] 劉明.基于目標檢測與跟蹤的機動車視頻測速方法研究[D].南昌:南昌大學,2007.