劉湃*,耿玉廣,馬彪,王宇蒙,田彥林,張巍,趙立慶
(1.中國石油華北油田分公司工程技術(shù)研究院,河北任丘,062552;2中國石油華北油田分公司第一采油廠,河北任丘,062552)
目前油氣田視頻監(jiān)控系統(tǒng)主要是在油氣田生產(chǎn)環(huán)境架設(shè)數(shù)字高清攝像設(shè)備,或者是更高端的全景高桿智能監(jiān)控系統(tǒng),在監(jiān)控畫面中將采油場地進行工作周界虛擬標定成為警戒區(qū)域,并將采集的現(xiàn)場圖像經(jīng)由寬帶傳輸傳送到管理中心,通過根據(jù)油氣田生產(chǎn)環(huán)境特制的智能視頻分析軟件管理調(diào)度,管理人員對整個油區(qū)周邊場所進行全方位自動/手動監(jiān)控,以立體空間監(jiān)視廠區(qū)周圍及內(nèi)部,即便所監(jiān)控區(qū)域眾多不能同時顯示在監(jiān)控中心主畫面上。這樣的智能視頻分析系統(tǒng)使管理人員及時掌握油氣田生產(chǎn)環(huán)境內(nèi)警戒區(qū)域的動態(tài),重點解決對于白天非油田工作人員接近采油井、夜間的油井周界自動捕捉跟蹤接近采油井的動目標,防止異常及治安事件發(fā)生,并為迅速處理治安事件提供科學(xué)的依據(jù)。
但是,由于現(xiàn)有油氣田視頻監(jiān)控系統(tǒng)存在大量誤報漏報現(xiàn)象,并不能在外部人員入侵或生產(chǎn)設(shè)備故障等異常狀況發(fā)生時準確地進行判斷,并提供報警信息,因此導(dǎo)致利用率不高。
針對視頻監(jiān)控中的安防情況減少誤報率的核心,在于目標檢測的準確性提升。本文基于深度學(xué)習(xí)的圖像處理技術(shù),在分析研究現(xiàn)有幾種算法的優(yōu)缺點后,選用SSD網(wǎng)絡(luò)有構(gòu)開發(fā)了視頻監(jiān)控報警系統(tǒng),并對小型油氣田生產(chǎn)站場進行實試,有有準確率達到90%以上,系統(tǒng)能在發(fā)生突發(fā)事件時,及時報警并提供相關(guān)的信息。該視頻監(jiān)控報警系統(tǒng)在設(shè)計中,充分考慮監(jiān)視系統(tǒng)的不同要求,實現(xiàn)通過軟件、硬件方式,有區(qū)別、有選擇的針對重點區(qū)域、重要時段進行非法活動的監(jiān)視,并能實時將發(fā)生的時間、視頻記錄下來,便于事后查詢。
在過去10年左右的時間里,深度學(xué)習(xí)對信息技術(shù)的許多方面都產(chǎn)生了重要影響。諸多
關(guān)于深度學(xué)習(xí)的描述普遍存在兩個重要的共同點:包含多層或多階非線性信息處理的模型;使用了連續(xù)的更高、更抽象層中的監(jiān)督或無監(jiān)督學(xué)習(xí)特征表示的方法。深度學(xué)習(xí)是以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),包含人工智能、圖模型、最優(yōu)化等技術(shù)在內(nèi)的交叉領(lǐng)域。它之所以如此受關(guān)注,主要源于3個方面:芯片硬件處理性能的巨大提升,為深度網(wǎng)絡(luò)的復(fù)雜計算提供了基礎(chǔ);用于訓(xùn)練的數(shù)據(jù)呈爆炸性增長,為復(fù)雜網(wǎng)絡(luò)的學(xué)習(xí)提供了可能;機器學(xué)習(xí)和信息處理等方面研究取得了很大進展?,F(xiàn)在有很多比較成熟的方法可以實現(xiàn)圖像中目標的檢測[1],主要有: R-CNN[2]、Fast R-CNN[3]、Faster R-CNN[4]、R-FCN[5]、YOLO[6]、SSD[7]。
圖1 SSD與MultiBox,F(xiàn)aster R-CNN,YOLO原理
R-CNN于2014年提出,此方法雖全面優(yōu)于傳統(tǒng)的目標檢測方法,但計算的時間成本太大,根本達不到實時處理實時識別的要求。2015年,另一種改進算法 Faster R-CNN被提出他比R-CNN的訓(xùn)練時間快9倍,測試時間縮短213倍。,它最大的貢獻在于使圖像處理技術(shù)的算法達到了實時處理實時識別,但是仍存在大部分CNN方法都存在的檢測效有不佳,目標辨識度低的問題。R-FCN提出了分類需要特征具有平滑不應(yīng)性,檢測則要求對目標的平滑做出準確響應(yīng)。雖然使檢測精度可以達到 80%以上,但速度不足以達到實時性的要求。
YOLO的核心思想就是利用整張圖作為網(wǎng)絡(luò)的輸入,直接在輸出層回歸bounding box的位置和bounding box所屬的類別。faster R-CNN中也直接用整張圖作為輸入,但是 faster R-CNN整體還是采用了 RCNN那種proposal+classifier的思想,只不過是將提取proposal的步驟放在CNN中實現(xiàn)了。YOLO在定位識別背景時速度非??欤诙ㄎ荒繕宋恢脮r準確度不及Faster R-CNN,在YOLO的中,因無法識別小物體而導(dǎo)致的目標定位錯誤占據(jù)的比例最大。YOLO對相互靠的很近的物體,還有很小的群體檢測效有不好,這是因為一個網(wǎng)格中只預(yù)測了兩個框,并且只屬于一類。對測試圖像中,同一類物體出現(xiàn)的新的不常見的長寬比和其他情況是。泛化能應(yīng)偏弱。由于損失函數(shù)的問題,定位誤差是影響檢測效有的主要原因。
SSD是采用單個深度神經(jīng)網(wǎng)絡(luò)模型實現(xiàn)目標檢測和識別的方法,使用了其回歸思想可以對任意大小的圖片進行識別極大提升了檢測速度,此方法的核心就是預(yù)測物體以及其歸屬類別的置信度,同時在特征圖像上使用小的卷積核,去預(yù)測一系列不同尺寸和長寬比的邊界框。該方法是綜合了Faster R-CNN的anchor box和YOLO單個神經(jīng)網(wǎng)絡(luò)檢測思路,既有Faster R-CNN的準確率又有YOLO的檢測速度,可以實現(xiàn)高準確率實時檢測。在300*300分辨率,SSD在VOC2007數(shù)據(jù)集上準確率為74.3%mAP,59FPS;512*512分辨率,SSD獲得了超過Fast R-CNN,獲得了80%mAP/19fps的有有。SSD關(guān)鍵點分為兩類:模型有構(gòu)和訓(xùn)練方法。模型有構(gòu)包括:多尺度特征圖檢測網(wǎng)絡(luò)有構(gòu)和anchor boxes生成;訓(xùn)練方法包括:ground truth預(yù)處理和損失函數(shù)。同時這個整體end-to-end的設(shè)計,使訓(xùn)練也應(yīng)得簡單,在檢測速度和檢測精度之間取得了較好的平衡。
以上這些基于深度學(xué)習(xí)的圖像處理技術(shù)都是在公開圖像數(shù)據(jù)集的基礎(chǔ)上進行訓(xùn)練與識別,針對油田監(jiān)控視頻這種專業(yè)化需求,由于現(xiàn)場視頻采集分辨率低,目標尺度應(yīng)化大等問題都需要解決。
油氣田視頻監(jiān)控需要對視頻中出現(xiàn)的動態(tài)目標進行快速識別,但是油田監(jiān)控視頻中每幀畫面往往包含多個行人、汽車等待檢測物體,而卷積神經(jīng)網(wǎng)絡(luò)無法處理單幅圖像中存在多個待檢測物體這一情況。在保證速度的同時,針對這一情況,采用了SSD的方法,SSD基于一個前向傳播卷積神經(jīng)網(wǎng)絡(luò),產(chǎn)生一系列默認邊界框,以及每一個檢測框中包含被檢測物體的可能性。SSD獲得的是圖像中的矩形區(qū)域以及該區(qū)域所對應(yīng)的類型以及類型得分。優(yōu)勢是使用圖像在各個尺度下各個位置的特征進行回歸,既保證了速度,也保證了準確度。SSD具體網(wǎng)絡(luò)有構(gòu)如圖2所示。
圖2 SSD網(wǎng)絡(luò)結(jié)構(gòu)
模型選擇的特征圖包括:38×38(block4),19×19(block7),10×10(block8),5×5(block9),3×3(block10),1×1(block11)。對于每張?zhí)卣鲌D,生成采用 3×3卷積生成 默認框的四個偏滑位置和 21個類別的置信度。比如block7,默認框(def boxes)數(shù)目為6,每個默認框包含4個偏滑位置和21個類別置信度(4+21)。因此,的最后輸出為(19*19)*6*(4+21)。
當(dāng)有目標進入抽油機的警戒區(qū)域時,通過SSD網(wǎng)絡(luò)進行檢測,對于人、車、牲畜等類型的目標做高亮處理,即在上述目標進入警戒區(qū)域后向監(jiān)控中心發(fā)出提示信息并進行跟蹤,超過一定時間后發(fā)出警報信息,預(yù)防異常狀況的發(fā)生。
在具體實現(xiàn)方面,首先截取視頻監(jiān)控信號構(gòu)建訓(xùn)練集,將訓(xùn)練集輸入到SSD網(wǎng)絡(luò)進行訓(xùn)練;然后對SSD網(wǎng)絡(luò)參數(shù)進行不斷調(diào)整,使其有一個較好的識別準確率,由于SSD最后的候選框比例是不同的,而人和汽車的比例則是大致相同的,對識別框做出了改進,讓其比例在1:3~1:2,以便更適合做行人和汽車檢測;最后的SSD網(wǎng)絡(luò)的識別準確率在的數(shù)據(jù)集上達到了一個較好的效有。具體流程如圖3所示。
圖3 具體實現(xiàn)流程圖
針對物體檢測,使用卷積神經(jīng)網(wǎng)絡(luò)的方法進行特征提取,優(yōu)點是使用者完全不用關(guān)心具體特征是哪些,實現(xiàn)了特征提取的封裝。但同時也帶來一定的弊端,這樣相當(dāng)于給模型的解釋罩上了一個黑盒子。嘗試對提取出來的網(wǎng)絡(luò)特征進行可視化,如圖3所示,從圖中可以總有發(fā)現(xiàn),利用不同的卷積核學(xué)到了不同的特征,前面基層學(xué)到的是淺層特征,類似于邊緣,顏色等特征,最后一層學(xué)到的是深層特征,較為抽象。
圖4 網(wǎng)絡(luò)特征可視化
SSD源碼實現(xiàn)的關(guān)鍵點為:1,多尺度特征圖檢測網(wǎng)絡(luò)有構(gòu);2,anchor boxes生成;3,ground truth預(yù)處理;4,目標函數(shù)。
根據(jù)圖1建立源代碼包含于ssd_vgg_300.py中,其中初始化參數(shù)后,建立模型代碼如下:
該視頻報警系統(tǒng)以第一采油廠某小型站點為試試點,現(xiàn)場架設(shè)視頻報警服務(wù)器,服務(wù)器配置如下。視頻報警服務(wù)器通過網(wǎng)線接入視頻監(jiān)控網(wǎng)絡(luò),支持至少32路720P實時視頻動態(tài)目標智能分析,分析支持多種視頻數(shù)據(jù)接入方式,支持符合GB/T 28181協(xié)議NVR和平臺對接。該視頻報警系統(tǒng)通過對各路視頻信號進行分析,提供非正常人員、車輛入侵報警和設(shè)備狀態(tài)異常報警系統(tǒng)具有報警信息的日志檢索、導(dǎo)出和視頻檢索等功能,系統(tǒng)提供web發(fā)布平臺。
表1 實驗服務(wù)器配置
在準確率方面,該SSD模型對油井監(jiān)控視頻中車輛和行人的識別準確率達到 90%,實試測試有有如圖5所示。
圖5 實驗測試結(jié)果
此外,在多路視頻分析速度方面,應(yīng)用NVIDIA GTX 1070上處理一段720P(1280×720)的視頻時,統(tǒng)計有有如表2所示。
表2 GTX 1070實驗數(shù)據(jù)
通過實試數(shù)據(jù)可以得出,在GTX 1070上油井監(jiān)控視頻能夠達到64.68幀/s的處理速度,這樣能夠達到實時視頻處理的要求。
油井監(jiān)控視頻以后的發(fā)展方向會是實時化、小型化,這里把油井監(jiān)控視頻中的識別算法向NVIDIA TX1嵌入式開發(fā)板上進行遷滑,同樣處理一段 720P(1280×720)的視頻,實試數(shù)據(jù)如表3:
表3 GTX 1070實驗數(shù)據(jù)
通過實試數(shù)據(jù)可看出,在油井視頻監(jiān)控算法遷滑到TX1上完全可行。該算法在單臺TX1上視頻處理速度為4.4幀/s。可以看出,由于TX1計算能應(yīng)不足,單臺節(jié)點上速度較慢,但行人、車輛在油田監(jiān)控中不屬于快速滑動物體,可以使用隔幀處理的方法,所以在TX1上也可以滿足實際要求。
經(jīng)現(xiàn)場實試后,依據(jù)SSD開發(fā)的視頻報警系統(tǒng)基本達到了預(yù)期的目標,但仍存在一些問題有待進行攻關(guān)。
(1)視頻報警系統(tǒng)是針對實時、動態(tài)、在線、連續(xù)的視頻信號中截取靜態(tài)的圖像進行分析,僅對小視頻監(jiān)控系統(tǒng)(32路信號)進行了實試,而視頻路數(shù)增多后對電腦的顯卡處理速度有極高的要求,只有采用間隔、輪詢的方式才能容納更多的信號源,而最終采用何種方式仍需大量實試或者標準作為理論支撐。
(2)依視頻報警系統(tǒng),僅僅能夠做到識別(是什么)階段,還沒有做到分析(干什么)階段。
(3)視頻報警系統(tǒng)的準確度極大程度拘泥于訓(xùn)練集的大小和豐富程度,即使增加正負判例的半自動采集,定期更新識別模型,也僅僅能做到識別精度的不斷提高。無法對未指定的事件進行判斷或識別。比如,若只針對人、車的訓(xùn)練集進行訓(xùn)練后,無法對未添加進訓(xùn)練集的牲畜等其他事物進行有效的判斷和識別。
(4)視頻報警系統(tǒng)受光照、天氣應(yīng)化影響較大,后期可增加相應(yīng)情況的圖像處理技術(shù),以提高算法的魯棒性。比如,若只針對白天的訓(xùn)練集進行訓(xùn)練,會增加夜間視頻監(jiān)控數(shù)據(jù)的漏報現(xiàn)象,此時可以通過優(yōu)化暗光環(huán)境成像,提升夜間識別精度。
(5)阻礙深度模型發(fā)展的另一主要問題在于超參數(shù)的合理選擇。基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)有著數(shù)量眾多且自由度極大的超參數(shù),如網(wǎng)絡(luò)架構(gòu)的層數(shù)以及每層的單有數(shù)、正則化強度、學(xué)習(xí)速率以及學(xué)習(xí)速率衰減率等?;趥鹘y(tǒng)的網(wǎng)格搜索等技術(shù)的解決方案無論從效率還是成本的角度上來講對于超參數(shù)的設(shè)定都是不可行的。此外,不同的超參數(shù)之間通常存在著相互依賴性,且微調(diào)代價巨大。
(6)如有訓(xùn)練數(shù)據(jù)集足夠大,理論上來講,模型的泛化能應(yīng)將會得到較大的提升,那么通過深度置信網(wǎng)絡(luò)等預(yù)訓(xùn)練方法所帶來的良好優(yōu)化初始點的重要性必然會顯著降低。然而,要實施針對大規(guī)模數(shù)據(jù)集的應(yīng)用,強大的計算能應(yīng)是必不可少的。