歐陽康淼 康曉樂 曹蕊 王綜勇 康來松
(1.北京京投城市管廊投資有限公司 北京市 100027 2.北京交通大學(xué) 北京市 100044)
隨著城市化進(jìn)程的加快,北京市市政工程的建設(shè)規(guī)模越來越大,綜合管廊得到了長(zhǎng)足的發(fā)展。綜合管廊通過統(tǒng)一運(yùn)營管理以及集約化建設(shè),緩解了城市快速發(fā)展對(duì)市政設(shè)施的負(fù)荷需求。同時(shí),綜合管廊整體建于地下,內(nèi)部空間相對(duì)密封,只有少量的交互接口與外界相通。因此,外來人員的非法入侵不僅對(duì)廊內(nèi)基礎(chǔ)設(shè)施帶來威脅,甚至還會(huì)造成人員傷亡等災(zāi)難性后果[1]。
為了保障綜合管廊的安全運(yùn)營,管廊內(nèi)部安裝了大量攝像機(jī),從而形成一個(gè)監(jiān)控網(wǎng)絡(luò)。基于攝像機(jī)的監(jiān)控網(wǎng)絡(luò)產(chǎn)生了海量的視頻數(shù)據(jù)。采用人工監(jiān)控的方式進(jìn)行處理不僅需要耗費(fèi)大量的人力、物力和財(cái)力,而且還容易受人為主觀因素的影響,從而降低監(jiān)控的有效性。因此,迫切需要利用大數(shù)據(jù)技術(shù),高效地獲取綜合管廊視頻數(shù)據(jù)所含有的監(jiān)測(cè)信息,實(shí)現(xiàn)對(duì)視頻監(jiān)控?cái)?shù)據(jù)的快速有效處理,從而保障對(duì)監(jiān)控區(qū)域進(jìn)行長(zhǎng)時(shí)間、大范圍的監(jiān)控任務(wù)[2]。
當(dāng)前,人工智能技術(shù)在安防領(lǐng)域得到了極大的應(yīng)用,作為安防基礎(chǔ)核心的智能監(jiān)管系統(tǒng)具有良好的應(yīng)用前景。智慧視頻監(jiān)控已經(jīng)成為安全監(jiān)控領(lǐng)域的研究熱點(diǎn)[3-6]。卷積神經(jīng)網(wǎng)絡(luò)是前饋神經(jīng)網(wǎng)絡(luò)的一種,這種神經(jīng)元連接模式受動(dòng)物視覺皮層檢測(cè)光學(xué)信號(hào)原理的啟發(fā)[7]。
綜上所述,將智慧視頻監(jiān)控應(yīng)用于綜合管廊具有如下三方面的意義:
(1)對(duì)進(jìn)入廊內(nèi)的工作人員進(jìn)行識(shí)別,從而對(duì)其行為進(jìn)行監(jiān)測(cè),保障其操作的規(guī)范性。
圖1:基于人員再識(shí)別的綜合管廊智慧監(jiān)管系統(tǒng)總體設(shè)計(jì)圖
圖2:基于人員再識(shí)別的綜合管廊智慧監(jiān)管算法架構(gòu)圖
(2)當(dāng)發(fā)生突發(fā)情況時(shí),管理人員清楚地掌握管廊內(nèi)工作人員的具體狀況,從而指導(dǎo)廊內(nèi)人員的安全撤離,以及對(duì)突發(fā)情況的有效處理。
(3)對(duì)非法進(jìn)入廊內(nèi)的外來人員進(jìn)行識(shí)別,防止其對(duì)管廊造成損害。
基于人員再識(shí)別的綜合管廊智慧監(jiān)管系統(tǒng)由三大部分組成:視頻采集客戶端、特征識(shí)別服務(wù)端和綜合監(jiān)控展示端。其對(duì)應(yīng)的總體框架如圖1 所示。
視頻采集客戶端是直接與用戶進(jìn)行交互的接口。客戶端根據(jù)用戶類別可分為管理員和普通用戶。視頻采集客戶端在用戶初次使用時(shí),引導(dǎo)用戶進(jìn)行注冊(cè)和登錄,使用手機(jī)實(shí)時(shí)驗(yàn)證碼登錄。視頻采集客戶端用于采集管廊內(nèi)特定目標(biāo)的視頻數(shù)據(jù),將該視頻數(shù)據(jù)發(fā)送到異常檢測(cè)模塊,特定目標(biāo)可以為人員、物體、設(shè)備等。其中,視頻捕獲模塊可以由多個(gè)攝像機(jī)組成(例如291 個(gè)),包括子彈型攝像機(jī)和半球型攝像機(jī)。這些攝像機(jī)放置在管廊中的關(guān)鍵位置,例如上下樓梯,拐角和重要設(shè)施處,以對(duì)這些關(guān)鍵位置進(jìn)行監(jiān)視。由于子彈型攝像機(jī)始終專注于固定視野,主要用于監(jiān)視設(shè)施艙;半球型攝像機(jī)具有更寬的視角,用于監(jiān)視管道通道。所有攝像機(jī)均具有H.264 壓縮編碼的1080P 標(biāo)準(zhǔn),并且視頻數(shù)據(jù)的存儲(chǔ)時(shí)間不少于15天。
特征識(shí)別服務(wù)端將特征值與特征值庫中的信息比對(duì),從而進(jìn)行人員識(shí)別。特征識(shí)別服務(wù)端通過CenterNet 從所述視頻數(shù)據(jù)中提取興趣區(qū)域的特征,并通過卷積自動(dòng)編碼器對(duì)視頻數(shù)據(jù)中人員行為進(jìn)行異常評(píng)分,確定興趣區(qū)域內(nèi)人員行為是否正常。具體包括:從視頻數(shù)據(jù)中檢測(cè)場(chǎng)景中的興趣區(qū)域并提取相應(yīng)的特征,生成基于這些特征的圖元以描述興趣區(qū)域,然后對(duì)興趣區(qū)域內(nèi)有關(guān)人員行為進(jìn)行異常評(píng)分,確定人員行為是否正常;然后將視頻處理結(jié)果存儲(chǔ)并發(fā)送給監(jiān)控顯示模塊。
綜合監(jiān)控展示端用于接收并顯示特征識(shí)別服務(wù)端發(fā)送的結(jié)果。如果檢測(cè)結(jié)果是異常事件,則彈出窗口并發(fā)出警報(bào);如果檢測(cè)結(jié)果正常,僅顯示實(shí)時(shí)視頻。根據(jù)不同類型的人員行為異常結(jié)果,綜合監(jiān)控展示端將不同的系統(tǒng)鏈接在一起,實(shí)現(xiàn)與管廊中其他系統(tǒng)的智能鏈,包括風(fēng)扇系統(tǒng),照明系統(tǒng),廣播系統(tǒng),電話系統(tǒng),門禁系統(tǒng)??梢约皶r(shí)針對(duì)人員行為異常采取有效措施,以保證管廊的穩(wěn)定運(yùn)行和人員安全。
算法通過人員的兩類特征:1.跑步姿態(tài)2.衣著服飾,對(duì)進(jìn)入管廊應(yīng)急通道的人進(jìn)行識(shí)別。算法結(jié)構(gòu)如圖2 所示。
本文針對(duì)步態(tài)識(shí)別與衣著識(shí)別問題,提出了一種改進(jìn)的深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)。該架構(gòu)共有10 層,包括4 層卷積層和4 層采樣層,每一層共有8 個(gè)特征圖。在每一卷積層中利用8 個(gè)卷積濾波器進(jìn)行初始化,且在每一采樣層均有8 個(gè)采樣映射。該架構(gòu)使用反向傳播學(xué)習(xí)算法對(duì)這些層進(jìn)行訓(xùn)練,同時(shí)利用具有自適應(yīng)學(xué)習(xí)速率隨機(jī)梯度下降的均方根傳播來優(yōu)化算法以最小化成本函數(shù)。
本文使用Xavier 均勻方差縮放方法來初始化卷積濾波器的權(quán)重:
應(yīng)用步長(zhǎng)為1,尺寸為5×5 的卷積濾波器。卷積層中的每個(gè)特征映射計(jì)算如下:
其中?表示卷積運(yùn)算,F(xiàn)Mi-1是前一層的特征映射。在第一層,F(xiàn)Mi-1代表GEI 的原始像素。每個(gè)特征圖都具有偏差項(xiàng)β,偏差項(xiàng)初始化為零值。本文使用HyperTan 函數(shù)作為本文的激活函數(shù),該函數(shù)為:
其中x 為卷積運(yùn)算的結(jié)果,該運(yùn)算被添加到該特征映射的偏差項(xiàng)中,如式(2)所示。
在本文所提出的DCNN 模型中,每個(gè)池化層輸出8 個(gè)池化的特征映射,匯總每個(gè)核映射的相鄰神經(jīng)元組的輸出值。同時(shí)池化層還有助于減少輸入數(shù)據(jù)中的頻譜變化并產(chǎn)生平移不變特征,因?yàn)椴綉B(tài)識(shí)別中的身體形狀是可以經(jīng)歷許多波動(dòng)的非剛性形狀,因此,這種優(yōu)勢(shì)在步態(tài)識(shí)別中非常有價(jià)值。
在本文的模型中,池化單元以池化因子C=2 執(zhí)行最大池化。同時(shí),設(shè)置步長(zhǎng)為2,使用池化單元大小為2×2 的最大池化過濾器對(duì)數(shù)據(jù)進(jìn)行下采樣。具體操作定義如下:
其中MaxP 表示最大池操作。在第一個(gè)子采樣層中,8 個(gè)合并濾波器中的每一個(gè)產(chǎn)生68×68 輸出。在第4 層中,每個(gè)池化濾波器產(chǎn)生32×32 輸出。在第六層中,每一層產(chǎn)生14×14 輸出。在最后一個(gè)池化層中,8 個(gè)池化過濾器中的每一個(gè)都產(chǎn)生5×5 輸出。在完全連接的部分,只有兩層(輸入層和輸出層),其中soft-max 是本文的分類器。本文所提架構(gòu)沒有任何隱藏的圖層。輸入層有200 個(gè)神經(jīng)元,其主要來自最后一個(gè)池化層(5×5×8)。
在本文所提出的DCNN 模型中,l 層中的每個(gè)特征圖FMi僅連接到來自前l(fā)-1 層的一個(gè)特征地圖FMi。這極大地降低了計(jì)算成本,加快了訓(xùn)練時(shí)間并減少了參數(shù)的數(shù)量。
實(shí)驗(yàn)環(huán)境。本文設(shè)計(jì)的實(shí)驗(yàn)硬件如下:CPU 為IntelCorei5 6200U,GPU 為NVIDIA GeForce GTX 1050Ti,內(nèi)存為8G。本文設(shè)計(jì)的實(shí)驗(yàn)軟件如下:操作系統(tǒng)為windows 10,開發(fā)環(huán)境為Python 3.6 以及Pytorch。
實(shí)驗(yàn)數(shù)據(jù)與度量標(biāo)準(zhǔn)。本文采用兩類數(shù)據(jù)集:
(1)公開人體動(dòng)作數(shù)據(jù)集,包括KTH 數(shù)據(jù)集、Weizmann 數(shù)據(jù)集和UCF Sports 數(shù)據(jù)集;
(2)自收集的數(shù)據(jù)集,該數(shù)據(jù)集包含了多段綜合管廊場(chǎng)景下的人員監(jiān)控視頻。本文采用平均準(zhǔn)確率(MAP)對(duì)算法的有效性進(jìn)行度量。
實(shí)驗(yàn)結(jié)果:本實(shí)驗(yàn)是在公開的標(biāo)準(zhǔn)人體動(dòng)作數(shù)據(jù)集上進(jìn)行的。包括KTH 數(shù)據(jù)集、Weizmann 數(shù)據(jù)集、UCF Sports 數(shù)據(jù)集,并且本實(shí)驗(yàn)把視頻數(shù)據(jù)轉(zhuǎn)化為靜態(tài)圖像進(jìn)行實(shí)驗(yàn)。本文采用的比較方法,包括DMP、CaffeNet、CNN。其中,CaffeNet 是深度學(xué)習(xí)框架中CaffeNet 提供的經(jīng)過調(diào)優(yōu)訓(xùn)練之后的模型。同時(shí),本文采用CNN和CaffeNet 結(jié)合DPM 進(jìn)行對(duì)比?;诠_數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果如表1 所示,可以發(fā)現(xiàn)本文所提出的方法(ImprovedCNN)在三類公開數(shù)據(jù)集上都取得了最好的效果?;诰C合管廊數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果如表2 所示,整體符合預(yù)期結(jié)果,表明本文所提出的方法對(duì)人體動(dòng)作識(shí)別的精確度的提高是有效的。
綜合管廊規(guī)模的擴(kuò)大帶來了非法入侵的風(fēng)險(xiǎn)。采用智慧監(jiān)管系統(tǒng)對(duì)進(jìn)入綜合管廊內(nèi)部的人員進(jìn)行識(shí)別,是對(duì)抗非法入侵的有效方法。本文提出融合改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)算法(Improved CNN)識(shí)別進(jìn)入管廊內(nèi)部的人員。在特征提取階段,對(duì)人員的步態(tài)姿態(tài)以及衣著服飾進(jìn)行提取。同時(shí),對(duì)CNN 模型進(jìn)行梯度優(yōu)化訓(xùn)練,加強(qiáng)人體動(dòng)作識(shí)別。在特征融合階段,用加權(quán)求和的方式把兩類特征進(jìn)行融合。用softmax 分類器進(jìn)行人體動(dòng)作的分類識(shí)別。在公開數(shù)據(jù)集以及綜合管廊數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法能夠?qū)芾葍?nèi)部人員進(jìn)行有效識(shí)別。
表1:基于公開數(shù)據(jù)集的算法有效性比較