莫輝強(qiáng) 邵唐紅 王 偉 楊 寒 曹 越 張 城 閆 茜
(1.浙江省軌道交通運(yùn)營(yíng)管理集團(tuán)有限公司 杭州 310020)(2.深圳北斗應(yīng)用技術(shù)研究院有限公司 深圳 518055)
目前智慧地鐵是軌道交通領(lǐng)域數(shù)字化探索的熱門(mén)方向,旨在地鐵線網(wǎng)和地鐵站內(nèi)應(yīng)用互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等技術(shù),提高運(yùn)營(yíng)效率,保障運(yùn)營(yíng)安全[1]。車(chē)站是地鐵線網(wǎng)中的重要組成部分,其中針對(duì)站內(nèi)乘客行為的安全管控是重要的一環(huán),運(yùn)用視頻分析技術(shù)識(shí)別乘客的特定行為已經(jīng)成為人工智能的熱門(mén)研究領(lǐng)域。在車(chē)站內(nèi)應(yīng)用乘客行為檢測(cè)技術(shù)可以有效降低車(chē)站人員巡站的工作強(qiáng)度,是實(shí)現(xiàn)智慧地鐵的關(guān)鍵指標(biāo)之一。
智能視頻分析采用基于計(jì)算機(jī)視覺(jué)和圖像處理的相關(guān)技術(shù),實(shí)現(xiàn)對(duì)數(shù)字視頻信號(hào)的處理、分析和理解,從而完成監(jiān)控區(qū)域內(nèi)的目標(biāo)識(shí)別、追蹤和行為檢測(cè)[2]。
視頻監(jiān)控系統(tǒng)作為安防的重要手段,但是系統(tǒng)需要安排專人看管不免費(fèi)時(shí)費(fèi)力,所以基于視頻分析技術(shù)的人體異常行為分析需求應(yīng)運(yùn)而生。目前視頻監(jiān)控技術(shù)已經(jīng)經(jīng)歷了三代的發(fā)展,從基本視頻監(jiān)控到自動(dòng)化視頻監(jiān)控,再到最新的智能視頻監(jiān)控[3],在智能視頻監(jiān)控時(shí)代,人體異常行為分析是目前計(jì)算機(jī)是視覺(jué)分析領(lǐng)域的熱點(diǎn)主題。其核心利用監(jiān)控系統(tǒng)輸入的圖像完成計(jì)算機(jī)視覺(jué)處理和分析,從連續(xù)的圖像中檢測(cè)人體目標(biāo)、跟蹤和識(shí)別其特定肢體動(dòng)作并進(jìn)行描述和呈現(xiàn)[4],在分析過(guò)程中主要通過(guò)深度學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)、骨架檢測(cè)模型等多重方法相結(jié)合[5~6]。
因此本文將將介紹一種基于視頻分析的異常行為識(shí)別算法應(yīng)用,首先介紹算法的設(shè)計(jì)實(shí)現(xiàn)思路,然后介紹該算法在地鐵車(chē)站的應(yīng)用效果[7]。
異常行為識(shí)別算法使用了深度學(xué)習(xí)中的目標(biāo)檢測(cè)算法,通過(guò)模型分析視頻中的所有人員,檢測(cè)是否存在異常行為。
該算法命名為YOLO-sibat,是基于YOLO算法改進(jìn)而來(lái),YOLO-sibat將輸入的視頻幀劃分成G*G個(gè)單元格(grid),若某個(gè)物體(Ground truth)的中心位置的坐標(biāo)落入到某個(gè)單元格中,則該單元格只負(fù)責(zé)檢測(cè)這個(gè)物體的類別及位置,每個(gè)單元格預(yù)測(cè)數(shù)量(anchor)設(shè)定為A個(gè),置信度(confidence score),類別概率設(shè)置為C個(gè)。某個(gè)物體的位置信息轉(zhuǎn)化為(x,y,w,h)的形式,分別表示該物體的中心點(diǎn)位置相對(duì)單元位置的偏移、寬度和高度,且該位置信息均是歸一化的形式。置信度實(shí)際反映的是該單元格是否存在目標(biāo)物以及存在目標(biāo)物情況下位置的準(zhǔn)確性[8~11],可定義為式(1):
每一個(gè)單元格預(yù)測(cè)G*G*(A*(5+C)),其中G為單元格,A為每個(gè)單元格的anchors,C為類別。
馬賽克(Mosaic)數(shù)據(jù)增強(qiáng)是參考了CutMix數(shù)據(jù)增強(qiáng)的方式,CutMix只使用了兩張圖片進(jìn)行隨機(jī)拼接,對(duì)數(shù)據(jù)集的豐富并無(wú)太大作用,故采用隨機(jī)4張圖片進(jìn)行了隨機(jī)縮放、裁剪、排布的方式拼接成1張圖片,該方法為Mosaic,極大地豐富了數(shù)據(jù)集[12]。
Focus結(jié)構(gòu):切片,對(duì)RGB三通道圖片進(jìn)行切片的示意圖,右邊的4×4×3的RGB圖像經(jīng)過(guò)切片后變成12個(gè)2×2結(jié)構(gòu),將其堆疊后表示為2×2×12的特征圖(feature map),以YOLO-sibat的結(jié)構(gòu)為例,原始的視頻幀經(jīng)過(guò)比例縮放后得到640×640×3的圖像大小,縮放后的圖像經(jīng)過(guò)Focus結(jié)構(gòu),采用切片的操作后,先變成320×320×32大小的特征圖(feature map),再經(jīng)過(guò)一次32個(gè)卷積核的卷積操作后,最終變成320×320×32的特征圖[13]。
CSP結(jié)構(gòu):YOLO-sibat中參考了CSPnet網(wǎng)絡(luò)設(shè)計(jì),得到CSP1_X、CSP2_X網(wǎng)絡(luò)結(jié)構(gòu),以YOLO-sibat網(wǎng)絡(luò)為例,在主干網(wǎng)絡(luò)(Backbone)使用CSP1_X網(wǎng)絡(luò)結(jié)構(gòu),用于提取目標(biāo)的特征,在模型的Neck部分使用了CSP2_X網(wǎng)絡(luò)結(jié)構(gòu),用于結(jié)合高維度的語(yǔ)義信息和低維度的位置信息傳遞到網(wǎng)絡(luò)預(yù)測(cè)部分。
Neck采用FPN+PAN的結(jié)構(gòu),Neck這部分除了使用FPN網(wǎng)絡(luò)結(jié)構(gòu)外,還在此基礎(chǔ)上結(jié)合了PAN網(wǎng)絡(luò)結(jié)構(gòu),PAN網(wǎng)絡(luò)結(jié)構(gòu)則和FPN網(wǎng)絡(luò)傳向相反,PAN從低維度的位置信息向高維度傳遞,經(jīng)過(guò)下采樣卷積后和高維度的語(yǔ)義信息進(jìn)行融合,兩個(gè)不同方向傳遞的網(wǎng)絡(luò)結(jié)構(gòu)相互融合后,進(jìn)一步提升了網(wǎng)絡(luò)特征表達(dá)的能力[14]。
GIOU Loss:為了使模型預(yù)測(cè)的結(jié)果和真實(shí)值盡量的靠近,需要損失函數(shù)來(lái)進(jìn)行判斷模型的預(yù)測(cè)值是否和真實(shí)值相近,YOLO-sibat模型的任務(wù)為預(yù)測(cè)目標(biāo)的類別和目標(biāo)的位置信息,故損失函數(shù)為分類損失函數(shù)(Classificition Loss)、位置回歸損失函數(shù)(Bounding Box Regeression Loss)兩部相結(jié)合,其中GIOU Loss為位置回歸損失函數(shù),如式(2)所示:
NMS非極大值抑制:YOLO-sibat模型預(yù)測(cè)結(jié)果會(huì)存在非常多的目標(biāo)框,需要對(duì)對(duì)于的目標(biāo)框進(jìn)行后處理,對(duì)所有模型預(yù)測(cè)的目標(biāo)框進(jìn)行一個(gè)篩選,采用了加權(quán)非極大值抑制(NMS)算法,經(jīng)過(guò)該算法篩選后的目標(biāo)框?yàn)樽罱K結(jié)果。
1)評(píng)價(jià)指標(biāo)
標(biāo)檢測(cè)算法進(jìn)行檢測(cè)識(shí)別,使用評(píng)價(jià)指標(biāo)是mAP(mean average precision),這是一個(gè)可以用來(lái)度量模型預(yù)測(cè)框類別和位置是否準(zhǔn)確的指標(biāo),AP值是Precision-Recall曲線下方的面積?;煜仃嚾绫?。
表1 混淆矩陣
查準(zhǔn)率(Precision):算法模型預(yù)測(cè)出來(lái)的所有正樣本數(shù)量中,正樣本占所有正負(fù)樣本的比率。
召回率也稱查全(Recall):在所有正樣本數(shù)量中,被算法模型預(yù)測(cè)為正樣本數(shù)量的比例。
2)模型訓(xùn)練
模型訓(xùn)練過(guò)程及最終結(jié)果如圖1所示,所有橫坐標(biāo)為模型訓(xùn)練的輪數(shù)(epoch),縱坐標(biāo)分表表示損失函數(shù)的值,第一行為訓(xùn)練過(guò)程坐標(biāo)位置回歸損失、是否存在目標(biāo)損失、分類損失、精度、召回率;相對(duì)應(yīng)的第二行為在驗(yàn)證集損失值。在最右邊兩列為mAP為98%,精度為97%,召回率為97.3%
圖1 模型訓(xùn)練過(guò)程
3)模型驗(yàn)證與結(jié)果
測(cè)試一張圖片在RTX 2080Ti的GPU上20ms后的效果如圖2所示。
圖2 模型驗(yàn)證
根據(jù)地鐵安監(jiān)部與客運(yùn)部的相關(guān)職責(zé)和要求,將該算法嵌入至智慧車(chē)站系統(tǒng)中,基于該算法還衍生出其他異常行為算法:人員摔倒、打架斗毆、人員滯留徘徊、人員入侵、人員電扶梯逆行、出入口商販擺攤等算法車(chē)站運(yùn)營(yíng)人員可自定義操作算法和攝像頭的配置,對(duì)于分析出的異常行為以及異常事件將會(huì)提示告警并且對(duì)偵測(cè)到的瞬間進(jìn)行照片抓拍,如圖3所示。
圖3 人員摔倒檢測(cè)
本文首先介紹了異常行為的研究現(xiàn)狀以及基于視頻分析的摔倒識(shí)別算法,基于深度學(xué)習(xí)目標(biāo)檢測(cè)算法,開(kāi)發(fā)了一套能夠分析視頻的智慧車(chē)站系統(tǒng)。除能夠讀入視頻并顯示之外,還嵌入了人體行為識(shí)別算法模塊,能夠?qū)τ脩糁付ǖ臄z像頭配置所選擇的算法,并在異常行為發(fā)生的時(shí)候?qū)崿F(xiàn)記錄、告警,同時(shí)將告警記錄保存至數(shù)據(jù)庫(kù),實(shí)現(xiàn)了視頻數(shù)據(jù)與告警數(shù)據(jù)的統(tǒng)一管理,具有良好的操作性。用戶可以在地圖上查看預(yù)警攝像頭位置,實(shí)現(xiàn)監(jiān)控技術(shù)和視頻分析技術(shù)的統(tǒng)一,構(gòu)建了一個(gè)低成本、強(qiáng)擴(kuò)展性,方便安裝操作以及靈活使用且高效監(jiān)控的系統(tǒng)。