• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于視頻監(jiān)控的手扶電梯乘客異常行為識別

      2020-09-11 11:25:40杜啟亮黃理廣田聯(lián)房黃迪臻靳守杰李淼
      關(guān)鍵詞:扶梯置信度關(guān)鍵點

      杜啟亮 黃理廣 田聯(lián)房 黃迪臻 靳守杰 李淼

      (1.華南理工大學(xué) 自動化科學(xué)與工程學(xué)院,廣東 廣州 510640;2.華南理工大學(xué) 自主系統(tǒng)與網(wǎng)絡(luò)控制教育部重點實驗室,廣東 廣州 510640;3.廣州地鐵集團有限公司,廣東 廣州 510335;4.日立電梯(廣州)自動扶梯有限公司,廣東 廣州 510660)

      手扶電梯通常安裝在城市人流量密集的重要場合,給市民出行帶來便利。但由于乘客搭乘扶梯時安全防范意識不夠,導(dǎo)致扶梯上的安全事故層出不窮。因此,通過對手扶電梯的監(jiān)控視頻進行算法分析,自動檢測出乘客搭乘扶梯時的異常行為,對加強城市安全建設(shè)有重要的意義。隨著計算性能的提升和算法研究的日益成熟,深度學(xué)習(xí)給人們的生活帶來了巨大的變化,其中包括視頻監(jiān)控領(lǐng)域[1]。

      近年來,行人的行為識別研究得到了廣泛的關(guān)注,成為視頻理解中一個重要的組成部分。一般來說,行人的動作可以通過多種模式識別出來,如人體骨架[2]、時空信息[3- 4]、光流信息[5- 6]以及時間特征[7]等。文獻[8]對視頻幀的人提取輪廓,根據(jù)輪廓計算人體重心以及各枝干頂點,并將重心和頂點構(gòu)成的矢量作為特征向量來判斷異常行為,但只能用于簡單的環(huán)境中。文獻[9]使用歷史運動圖和能量圖來表示人體運動,并使用模板匹配的方式來識別異常行為,但模板匹配能識別的異常行為較為單一,適用性不強。文獻[10]使用光流特征來提取運動信息,進而定位感興趣區(qū)域,然后使用方向梯度以及光流直方圖提取出運動特征,最后使用支持向量機對異常行為進行分類,但光流提取過程計算量較大,因此不能實時處理。文獻[11]先使用 Kinect提取骨架,然后使用隱馬爾可夫模型對歸一化后的骨架向量序列進行行為分類,但Kinect在室外容易受強自然光的影響,導(dǎo)致編碼光被淹沒,骨架提取效果較差;而且使用馬爾可夫模型雖然可以對時序很好地建模,但并不能很好地利用人體部位的連接信息。在多種動作模式中,人體骨架在行人行為識別任務(wù)中往往能傳達更多的信息。隨著深度學(xué)習(xí)的發(fā)展,基于骨架建模的深度學(xué)習(xí)行為識別方法不斷涌現(xiàn),如使用循環(huán)神經(jīng)網(wǎng)絡(luò)[12- 13]、時域卷積神經(jīng)網(wǎng)絡(luò)[14- 15]來提取骨架信息并對行為進行端到端識別。盡管這些深度學(xué)習(xí)方法都強調(diào)了人體部位連接的重要性,但在建模過程中,都需要特定的人體運動專業(yè)領(lǐng)域知識,較為復(fù)雜。文獻[16]使用Openpose[17]提取骨架,結(jié)合人臉檢測進行相鄰幀之間的行人跟蹤,最后使用動態(tài)時間規(guī)整(DTW)的模板匹配對異常行為進行分類。由于骨架本身就有語義信息,可以很好地代表行人,而且骨架提取比文獻[16]中的SVM人臉檢測準(zhǔn)確度要高,因此骨架相比人臉可以作為更好的特征用于行人跟蹤。另外,文獻[16]中的骨架提取方法是自下而上的,當(dāng)兩個人很靠近,關(guān)鍵點組合成骨架時會容易產(chǎn)生分配錯誤的問題,且模板匹配方法檢測異常行為會出現(xiàn)模板難挑選、適用性不強的問題。因此,現(xiàn)有算法不能對復(fù)雜場景中乘客的異常行為進行準(zhǔn)確、快速的識別。

      本文基于文獻[16]的骨架提取-行人跟蹤-行為分析的系統(tǒng)設(shè)計框架,提出了一種基于手扶電梯智能視頻監(jiān)控的乘客異常行為識別方法:首先對扶梯場景乘客的骨架進行提取,然后利用骨架距離及匈牙利匹配算法對乘客骨架進行跟蹤,最后使用圖卷積神經(jīng)網(wǎng)絡(luò)結(jié)合滑動窗統(tǒng)計的方法對單幀乘客骨架進行行為分類和識別。

      1 手扶電梯乘客異常行為識別算法

      手扶扶梯監(jiān)控攝像頭的安裝位置如圖1所示。使用3.6 mm焦距的攝像頭,從扶梯斜上方往下進行拍攝,以保證能夠得到較清晰的成像。文中算法由3部分組成,包括乘客骨架提取、乘客跟蹤和乘客行為分類,算法流程圖如圖2所示。

      圖1 攝像機安裝位置示意圖Fig.1 Schematic diagram of location of camera installation

      圖2 文中算法流程圖Fig.2 Flowchart of the proposed algorithm

      乘客骨架提取是識別和定位出圖像中所有乘客的關(guān)鍵點,并根據(jù)人體的骨骼關(guān)聯(lián)性將其連接起來。人體骨架通??梢詡鬟f重要的運動信息,因此可以作為行為識別的主要依據(jù)?,F(xiàn)有方法可以分為自上而下[18- 20]和自下而上[17,21- 22]的方法。自上而下的方法首先使用行人檢測方法將圖像中的行人檢測出來,然后使用單人關(guān)鍵點提取方法對關(guān)鍵點進行定位;而自下而上的方法先從圖像中檢測出所有人體的關(guān)鍵點,然后基于各種數(shù)據(jù)關(guān)聯(lián)技術(shù)將這些關(guān)鍵點連接起來形成骨架。其中自下而上的方法對于行人擁擠的情況存在關(guān)鍵點混淆的缺點,難以將個別關(guān)鍵點歸到對應(yīng)正確的人,這對后續(xù)使用關(guān)鍵點作為依據(jù)的乘客行為識別的影響較大。因此,本文使用自上而下的關(guān)鍵點提取方法,先使用YOLOv3[23]對圖像中乘客的位置進行檢測,再使用MobileNetv2[24]作為基網(wǎng)絡(luò),結(jié)合反卷積層對檢測出來的乘客進行人體關(guān)鍵點提取,能較好地克服行人密集時關(guān)鍵點組合成骨架分配錯誤的缺點。

      乘客跟蹤的目的是為了保證相同的乘客在不同視頻幀中具有相同的ID號,這是后續(xù)分析視頻中乘客異常行為的基礎(chǔ)。為了判別處于不同視頻幀中的乘客是否屬于同一個人,顯然需要一種標(biāo)準(zhǔn)來定量衡量兩個乘客的相似度。傳統(tǒng)跟蹤方法(如均值漂移方法等)通過提取圖像的色彩、梯度特征(如直方圖特征、HOG特征),并根據(jù)特征向量的距離來計算相似度,因此受圖像噪聲的影響較大。而深度學(xué)習(xí)方法往往通過一個孿生卷積網(wǎng)絡(luò)來分別提取乘客的深度特征向量,并通過計算乘客深度特征向量的距離來計算乘客相似度,但這樣的孿生網(wǎng)絡(luò)將使跟蹤部分顯得冗余,徒增計算量。乘客骨架是通過神經(jīng)網(wǎng)絡(luò)來提取的,且不同乘客的骨架坐標(biāo)和置信度有較大的區(qū)別,因此乘客骨架除了用于后續(xù)的行為識別外,還可用作衡量兩個乘客相似度,且魯棒性較高。但遮擋、光照不均勻等的干擾,會導(dǎo)致骨架提取結(jié)果缺少部分關(guān)鍵點,人體的完整骨架并不能完全提取得到,因此在計算兩個骨架的相似度時,往往會由于維度丟失而難以計算。為此,本文提出了一種骨架距離計算方法,該方法考慮了兩個骨架相同關(guān)鍵點的置信度和距離;并基于該骨架距離,采用匈牙利匹配算法來實現(xiàn)視頻幀間的乘客骨架重識別,從而實現(xiàn)監(jiān)控視頻中的多人跟蹤。

      通過人體骨架提取及乘客跟蹤,可得到視頻中每個乘客的人體骨架序列,以用作乘客異常行為分類。由于乘客同種異常行為發(fā)生時各不相同,如摔倒行為中有的乘客在摔倒前會由于站立不穩(wěn)而搖晃并做出多余的動作,有的乘客摔倒的過程慢,有的乘客摔倒得毫無征兆、觸不及防,因此以異常行為的發(fā)生過程作為檢測依據(jù)[14],會由于實際中異常行為的多樣性而導(dǎo)致難以枚舉出真實情況下異常行為發(fā)生的所有過程,使樣本的收集極其困難。同時,對視頻序列中異常行為的檢測通常是以滑動窗的形式,如果以異常行為的發(fā)生過程作為檢測依據(jù),會使滑動窗較大,在滑動步長不變的情況下,會大大增加算法的計算量。為此,本文使用圖卷積神經(jīng)網(wǎng)絡(luò)[25](GCN)作為行為識別神經(jīng)網(wǎng)絡(luò)對單幀骨架的異常行為進行分類,然后對同一個乘客進行滑動窗投票,如果多幀中有超過閾值的幀數(shù)分類為某種異常行為,則判斷乘客發(fā)生了該類異常行為。

      2 乘客骨架提取

      本文使用YOLOv3、MobileNetv2與反卷積結(jié)合的自上而下的人體骨架提取方法進行乘客骨架的提取,具體流程圖如圖3所示。

      圖3 骨架提取流程圖Fig.3 Flowchart of skeleton extraction

      2.1 基于YOLOv3的乘客檢測

      首先使用YOLOv3對攝像頭采集的圖像進行行人檢測。YOLOv3是單階段的檢測神經(jīng)網(wǎng)絡(luò),相比Faster R-CNN、Mask R-CNN等網(wǎng)絡(luò)具有檢測速度快的特點,同時相比于YOLOv1、YOLOv2引入了多尺度,對離攝像頭不同距離的行人均有較好的檢測效果。基于YOLOv3的行人檢測結(jié)果見圖4。

      圖4 基于YOLOv3的行人檢測結(jié)果Fig.4 Human detection result based on YOLOv3

      2.2 基于MobileNetv2和反卷積的乘客關(guān)鍵點提取

      用于行為識別的人體關(guān)鍵點共有14個,包括頭、頸、左肩、右肩、左肘、右肘、左腕、右腕、左髖、右髖、左膝蓋、右膝蓋、左腳踝、右腳踝,人體骨架由關(guān)鍵點和相連骨骼組成,見圖5(a)。

      對檢測出來的乘客進行關(guān)鍵點提取,關(guān)鍵點提取網(wǎng)絡(luò)使用MobileNetv2作為基網(wǎng)絡(luò),該基網(wǎng)絡(luò)使用了深度可分離卷積,可以避免傳統(tǒng)卷積計算量龐大的問題,加快深度特征的提取速度。本文的關(guān)鍵點提取網(wǎng)絡(luò)先使用基網(wǎng)絡(luò)對原圖像進行5次下采樣,再使用反卷積層對提取出來的特征進行3次上采樣,訓(xùn)練和推理的主要流程如圖6所示。

      在前向推理過程中,為了去除噪聲干擾,將圖像進行水平翻轉(zhuǎn)后,與原圖像一起輸入到神經(jīng)網(wǎng)絡(luò)中,并對水平翻轉(zhuǎn)圖的輸出熱點特征圖通道進行交換,使其與原圖像的輸出特征圖的通道順序保持一致;然后將原圖像與左右翻轉(zhuǎn)后的圖像的輸出熱點特征圖求和取平均,以達到濾除噪聲的效果;最后找到輸出熱點特征圖各個通道最大響應(yīng)的位置,并將其位置乘以神經(jīng)網(wǎng)絡(luò)下采樣倍數(shù),即對應(yīng)原圖像人體關(guān)鍵點的坐標(biāo)。人體骨架提取結(jié)果見圖5(b)。

      圖5 人體骨架提取結(jié)果圖Fig.5 Results of human skeleton extraction

      圖6 關(guān)鍵點提取網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Network structure of key points extraction

      3 基于骨架距離和匈牙利匹配的乘客跟蹤

      為了對視頻中的多個乘客進行跟蹤,需要先計算相鄰幀間乘客骨架的距離矩陣,在對距離矩陣進行濾波之后,再采用匈牙利匹配算法對矩陣進行求解并實現(xiàn)乘客重識別。另外,乘客的進入以及離開監(jiān)控范圍通過文獻[26]的置信度規(guī)則進行管理,即為每個新進入監(jiān)控范圍的乘客分配一個置信度并初始化為0,在跟蹤成功時置信度會升高,而在跟蹤匹配不成功時,置信度會下降,在乘客離開監(jiān)控范圍時置信度會下降至0以下,此時將該乘客從跟蹤列表中剔除,從而實現(xiàn)跟蹤管理。

      3.1 骨架距離矩陣的計算

      視頻監(jiān)控中的乘客i,從進入監(jiān)控到離開監(jiān)控范圍,都有其對應(yīng)的上一時刻t-1的歷史骨架H(t-1)i。H(t-1)在后續(xù)過程中計算骨架距離以及跟蹤時起到重要的作用。在t=0時刻,使用提取出來的人體骨架N(0)對歷史骨架進行初始化,即H(0)=N(0)。

      設(shè)t時刻(t>0)提取出來的人體骨架N(t)有J個,用N(t)j表示第j個骨架;t時刻對應(yīng)的歷史骨架H(t-1)有I個骨架,用H(t-1)i表示第i個歷史骨架;骨架距離矩陣D為J行、I列,其元素dji表示t時刻提取的第j個骨架到其第i個歷史骨架的距離;定義兩個骨架的距離為d。

      首先,計算兩個骨架間相同關(guān)鍵點的歐式距離,若相同關(guān)鍵點的距離超過設(shè)定的最小距離閾值dth或相同關(guān)鍵點的置信度有一者小于設(shè)定的最小置信度閾值cth,則兩個骨架間的距離增加1,即

      (1)

      式中:E(·)為求相同關(guān)鍵點的歐式距離;I(·)為條件判斷函數(shù),當(dāng)括號中的條件滿足時,I(·)=1,否則I(·)=0。因此,當(dāng)兩個骨架中相同關(guān)鍵點的距離越大,或兩個骨架的置信度越小時,兩骨架間的距離d(P1,P2)會越大,符合實際應(yīng)用場景。

      然后,采用以上骨架距離的計算方法,構(gòu)建骨架距離矩陣D,其元素dji=d(N(t)j,H(t-1)i)。

      3.2 骨架距離矩陣的濾波

      由于距離矩陣D并沒有考慮行人進入及離開監(jiān)控范圍的情況,因此需要對D進行濾波。

      濾波規(guī)則如下:首先定義兩個集合C、R,其中C表示歷史骨架中離開監(jiān)控范圍的骨架,R表示新進入監(jiān)控范圍內(nèi)的骨架;然后剔除D中整一行距離都大于距離閾值dmax的行,以及整一列距離都大于閾值dmax的列,并將被剔除的行號和列號分別加入到集合R、C中。

      D中大于閾值dmax的行表示新提取骨架N(t)中與所有歷史骨架距離都較大的骨架H(t-1),這些行可以代表新進入監(jiān)控的骨架,在H(t-1)中找不到與其匹配的骨架,因此需要將其剔除,并加入到R中,待匹配完成后再進行操作。

      D中大于閾值dmax的列表示歷史骨架H(t-1)中與所有新提取骨架N(t)距離都較大的骨架,這些列可以表示歷史骨架中離開監(jiān)控范圍的骨架,在N(t)中找不到與其匹配的骨架,因此需要將其剔除,并加入到C中,待匹配完成后再進行操作。

      設(shè)距離矩陣D經(jīng)過濾波后的矩陣為D′(其行、列數(shù)分別為J′和I′),即為后續(xù)用于匈牙利匹配的代價矩陣。

      3.3 基于匈牙利算法的乘客ID號分配

      匈牙利算法是一種在多項式時間內(nèi)求解任務(wù)分配問題的組合優(yōu)化算法,是二分圖匹配中最常用的算法,算法的核心是尋找增廣路徑。匈牙利算法的基本理論如下:將代價矩陣的一行或者一列數(shù)據(jù)加上或者減去一個數(shù),其最優(yōu)任務(wù)分配求解問題不變,其中的代價矩陣使用濾波之后的骨架距離矩陣D′。乘客跟蹤過程如下:

      (1)使用匈牙利算法對矩陣D′進行求解,用匹配成功的新提取的人體骨架更新其配對的歷史骨架,并根據(jù)文獻[26]中的置信度規(guī)則增加匹配成功骨架的置信度。

      (2)將匈牙利匹配中未匹配成功的骨架在距離矩陣D中對應(yīng)的列號添加到集合C中,這樣C中的元素代表歷史軌跡骨架中離開監(jiān)控范圍的行人骨架,并根據(jù)文獻[26]中的置信度規(guī)則減小這些骨架的置信度,在置信度減小至0以下時將該骨架從歷史骨架集合C中剔除;若置信度仍大于0,則保留該骨架信息。

      (3)將匈牙利匹配中未匹配成功的骨架在距離矩陣D中對應(yīng)的行號添加到集合R中,這樣R中的元素代表新進入監(jiān)控范圍內(nèi)的行人骨架,因此需要把R中元素對應(yīng)的骨架,作為新的骨架添加到歷史骨架序列H(t-1)中。

      圖7為匈牙利匹配示意圖。對于后續(xù)的時刻,不斷執(zhí)行以上的骨架矩陣計算以及匈牙利匹配,即可實現(xiàn)乘客跟蹤。圖8為乘客跟蹤實際效果圖,用點序列代表乘客中心的軌跡。

      4 基于GCN的乘客異常行為識別

      本文異常行為識別算法的主要應(yīng)用場景是地鐵站、百貨商場、辦公樓等公共場所,通過對乘客的人體關(guān)鍵點坐標(biāo)及置信度進行圖卷積建模來實現(xiàn)乘客行為識別。

      圖7 匈牙利匹配算法示意圖Fig.7 Schematic diagram of Hungarian assignment algorithm

      圖8 乘客跟蹤結(jié)果及軌跡Fig.8 Results of passenger tracking and trajectories

      4.1 傳統(tǒng)卷積與圖卷積

      對一般歐式空間上的標(biāo)準(zhǔn)二維卷積操作,給定卷積核大小為K×K,輸入特征圖為fin,輸入通道數(shù)為c,則輸出特征圖的每個通道上,位置x的輸出值fout(x)可以表示為

      (2)

      式中:s:Z2×Z2→Z2為采樣函數(shù),枚舉了所有在位置x的鄰域;權(quán)重函數(shù)w:Z2→Rc將偏移量(h,w)映射到一個用于計算內(nèi)積的c維向量。

      (3)

      式中:Zi(vj)=|{vk|li(vk)=li(vj)}|,用于均衡不同部分鄰域節(jié)點的權(quán)重;

      li(vj)={

      0,rj=ri

      1,rj

      2,rj>ri

      (4)

      ri為節(jié)點i到人體重心的距離。

      上述的圖卷積采樣過程如圖9所示。

      圖9 圖卷積采樣示意圖Fig.9 Schematic diagram of graph convolution sampling

      4.2 圖卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

      基于上述圖卷積操作,可構(gòu)建用于乘客行為識別的圖卷積神經(jīng)網(wǎng)絡(luò),其結(jié)構(gòu)如圖10所示,其中cn(n∈Z)表示通道數(shù)為n。

      圖10 行為識別神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)Fig.10 Structure of behavior recognition neural network

      首先,將14個關(guān)鍵點的坐標(biāo)及置信度通過人體骨骼連接成3通道的圖作為輸入骨架,輸入骨架在經(jīng)過3次圖卷積及Relu激活函數(shù)后,提取得到128個通道的深度圖特征;然后對每個通道進行全局平均池化,再通過1×1卷積將通道數(shù)降為7;最后通過Softmax層回歸7種乘客行為發(fā)生的概率。

      4.3 乘客異常行為識別

      將乘客搭乘扶梯時發(fā)生的行為劃分為正常站立、向前摔倒、向后摔倒、攀爬扶手帶、向扶梯外伸頭、向扶梯外伸手、背靠扶手帶7類行為,其他行為可以歸為上述7類行為之中。

      對于t時刻,將檢測出來的人體骨架坐標(biāo)及置信度作為圖10的輸入骨架圖,在經(jīng)過圖10的網(wǎng)絡(luò)后,選取概率最大的行為作為輸出,設(shè)t時刻第k個人的骨架在經(jīng)過行為識別神經(jīng)網(wǎng)絡(luò)后決策出來的行為為Bt(k)。在實際應(yīng)用中,由于存在光照、遮擋等干擾因素,個別幀骨架的提取會存在噪聲,導(dǎo)致行為分類錯誤,因此如果將Bt(k)作為最終決策的行為進行輸出,識別率會大大降低。由于乘客在扶梯上的行為往往會持續(xù)一段時間(十余幀至百余幀不等,這段時間內(nèi)第k個乘客的行為決策結(jié)果B(k)中絕大部分為同一行為,但有噪聲),因此本文使用滑動窗投票的方法,對每個乘客多幀的行為分類結(jié)果B(k)進行投票統(tǒng)計后,得到該乘客最終的行為決策結(jié)果,這樣可以有效地減少由骨架噪聲引起的分類錯誤。

      預(yù)先設(shè)定滑動窗長度為T,對于序列長度|B(k)|≥T的所有乘客k,其行為決策如下:取其最近T次(即(t-T,t]區(qū)間)的行為進行投票分析,設(shè)7種行為的票數(shù)為d1-d7,d1+d2+…+d7=T,如果最大票數(shù)大于設(shè)定閾值Tth(Tth

      (5)

      滑動窗投票方法通過略微犧牲檢測時間來大大提高實際應(yīng)用中行為的分類準(zhǔn)確性,起到了低通濾波器的效果,可以濾除由個別幀中行為識別錯誤造成的高頻噪聲。當(dāng)T=10、Tth=5時取得最優(yōu)效果。乘客行為識別的部分結(jié)果如圖11所示。

      圖11 乘客行為識別部分結(jié)果Fig.11 Partial results of passenger behavior recognition

      5 實驗和結(jié)果分析

      本文使用的數(shù)據(jù)來源于真實地鐵數(shù)據(jù)集和志愿者模擬的異常行為數(shù)據(jù)集。其中真實地鐵視頻數(shù)據(jù)均為乘客正常搭乘扶梯場景,視頻數(shù)量較多,截取部分視頻幀用于行人檢測模型的遷移學(xué)習(xí)。而異常行為由志愿者在不同場景(隔空層、半戶外)的扶梯上進行模擬。受攝像頭拍攝角度及視角的影響,扶梯監(jiān)控圖像中較為完整的乘客最多人數(shù)為5。本文算法對遮擋嚴重的極端情況并不適用,如在人數(shù)過多的情況中,后面乘客被大面積遮擋,以及在2人場景中,前面的人比較大,完全遮擋住后面人等。這些情況將導(dǎo)致被遮擋的乘客漏檢測或者關(guān)鍵點提取結(jié)果大部分缺失(前面沒被遮擋的人影響不大)。因此,本文在志愿者模擬時,只考慮稀疏場景以及擁擠場景下遮擋情況不嚴重的情況。本文實驗志愿者模擬的視頻包括不同環(huán)境下的7類行為:正常站立、向前摔倒、向后摔倒、攀爬扶手帶、向扶梯外伸頭、向扶梯外伸手、背靠扶手帶,環(huán)境變量為光照強度、乘客密集程度,如圖12所示。對于異常行為數(shù)據(jù)集,首先將視頻進行分段,共1 613段,每段涵蓋了不同環(huán)境乘客行為發(fā)生的完整過程,長度為20~30 s不等;然后將短視頻依據(jù)行為、環(huán)境變量,按約3∶1的比例劃分為訓(xùn)練集和驗證集,隨后分別從中抽取關(guān)鍵行為幀作為圖卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集和驗證集,這樣先劃分視頻數(shù)據(jù)集再截取圖像的操作相比先截取圖像再劃分圖像數(shù)據(jù)集,可以避免訓(xùn)練集和驗證集中的樣本圖像來源于同一短視頻,以保證訓(xùn)練出來的模型不會對驗證集產(chǎn)生過擬合現(xiàn)象。硬件平臺為聯(lián)想工作站,i7-6700 3.4 GHz CPU、NVIDIA GTX 1080 GPU、64GB RAM,操作系統(tǒng)為Ubuntu 16.04,程序編寫語言為Python3.6,處理速度達到15 f/s。

      圖12 部分實驗場景Fig.12 Some experimental scenarios

      5.1 乘客骨架提取實驗及結(jié)果分析

      由于使用自上而下的關(guān)鍵點提取方法,因此乘客骨架提取分為乘客檢測及單人關(guān)鍵點提取兩部分。

      5.1.1 乘客檢測實驗及結(jié)果分析

      乘客檢測算法YOLOv3在COCO數(shù)據(jù)集預(yù)訓(xùn)練好的基礎(chǔ)上進行扶梯行人數(shù)據(jù)集上的微調(diào),其中扶梯行人數(shù)據(jù)集包括6 384幅訓(xùn)練圖像、1 596幅驗證圖像,將圖像歸一化到608×608。將訓(xùn)練樣本隨機抽取進行7 980次迭代,每次迭代樣本數(shù)為8,使用Adam優(yōu)化器,學(xué)習(xí)率為10-4。在驗證時,若檢測框與真實標(biāo)記框的IOU(交并比)大于0.5,則認為檢測成功。置信度閾值和非極大值抑制閾值分別取為0.8、0.4。采用文獻[27]中的精確率、召回率、調(diào)和均值F1(F1分數(shù))作為乘客檢測的性能指標(biāo)。模型在驗證集上的檢測結(jié)果見表1。

      表1 YOLOv3算法的乘客檢測結(jié)果

      表1表明,在不同光照環(huán)境、不同擁擠程度的條件下,YOLOv3算法都能對乘客進行準(zhǔn)確穩(wěn)定的檢測,總F1達到97.5%。YOLOv3算法在各種場景下的檢測精確率都達到97%以上,說明算法在各種場景下出現(xiàn)誤檢的情況較少。隨著環(huán)境的不同,召回率有較大的變化,這說明YOLOv3的召回率受光照和擁擠程度的影響較大,其中光照不足環(huán)境下的召回率比光照充足環(huán)境下的下降了1.4%~1.6%,擁擠環(huán)境下的召回率比稀疏環(huán)境下的下降了0.6%~0.8%。究其原因,光照不足會導(dǎo)致圖像亮度下降,從而導(dǎo)致模型辨識率下降,產(chǎn)生漏檢;而擁擠環(huán)境下會發(fā)生遮擋,非極大值抑制會將被遮擋嚴重的乘客檢測框濾除,從而產(chǎn)生漏檢。環(huán)境較為惡劣(光照不足且擁擠)時,F(xiàn)1分數(shù)也在96%以上,說明算法在不同環(huán)境下具有魯棒性,這為后續(xù)關(guān)鍵點精準(zhǔn)提取提供了必要的條件。

      5.1.2 單人關(guān)鍵點提取結(jié)果及分析

      由于直接對檢測框切割出來的行人進行關(guān)鍵點提取,會使得切割出來的行人不夠完整,同時切割出來的圖像中全局信息也會過少。此外,由于離攝像頭的距離不同,檢測框的大小也不同,因此在關(guān)鍵點提取網(wǎng)絡(luò)的訓(xùn)練及推理前,需要對行人檢測結(jié)果進行預(yù)處理和歸一化。首先,將檢測框向外擴張1.2倍,并以固定長寬比4∶3裁剪出行人,以保證圖像不會發(fā)生較大的扭曲形變;然后將裁剪出來的行人縮放到固定尺寸,高度為384,寬度為288。

      MobileNetv2關(guān)鍵點提取網(wǎng)絡(luò)使用COCO2017數(shù)據(jù)集進行訓(xùn)練(包括了15萬個標(biāo)注行人)。迭代epoch數(shù)為400,每次迭代樣本數(shù)為16,使用Adam優(yōu)化器,初始學(xué)習(xí)率為5×10-4,學(xué)習(xí)率衰減系數(shù)為0.5,每隔60個epoch衰減一次學(xué)習(xí)率,使用L2正則化,正則化系數(shù)為10-5,使用均方誤差(MSE)回歸損失函數(shù)。

      為了衡量關(guān)鍵點提取模型在扶梯場景下的推理效果,對扶梯場景各種環(huán)境下的乘客關(guān)鍵點進行手動標(biāo)注,其中每種場景標(biāo)注70幅圖像。使用文獻[28]的物體關(guān)鍵點相似度(OKS)中的AP50、AR50作為乘客關(guān)鍵點提取指標(biāo),結(jié)果如表2所示。

      表2 乘客單人關(guān)鍵點提取結(jié)果Table 2 Single passenger key point extraction results

      表2表明,MobileNetv2結(jié)合反卷積層的方法能夠在不同環(huán)境下對提取乘客關(guān)鍵點有較好的效果,總F1分數(shù)達到91.6%。各種場景下的關(guān)鍵點提取精確率都達到92%以上,說明該方法在各種場景下出現(xiàn)定位不準(zhǔn)的情況較少。召回率受光照和擁擠程度的影響較大,其中光照不足環(huán)境下的召回率比光照充足環(huán)境下的下降了1.5%~7.1%,擁擠環(huán)境下的召回率比稀疏環(huán)境下的下降了2.9%~8.5%。究其原因,主要有:①行人檢測模型的影響,由于采用自上而下的關(guān)鍵點提取方法,因此檢測模型的漏檢會導(dǎo)致骨架漏檢,光照不足及擁擠環(huán)境都會導(dǎo)致YOLOv3漏檢率上升,從而導(dǎo)致關(guān)鍵點提取召回率下降;②惡劣環(huán)境對關(guān)鍵點提取模型本身產(chǎn)生一定的影響,光照惡劣及遮擋也會導(dǎo)致召回率的下降;③訓(xùn)練集和驗證集的不匹配,由于關(guān)鍵點是在COCO數(shù)據(jù)集上訓(xùn)練的,而驗證環(huán)境是在手動標(biāo)注的電梯驗證集上,因此訓(xùn)練集的環(huán)境背景、攝像頭的拍攝角度、人工標(biāo)注的誤差分布等都和驗證集不一致,從而導(dǎo)致召回率下降。在環(huán)境較為惡劣的情況下,F(xiàn)1分數(shù)也在88%以上,說明單人關(guān)鍵點提取方法能夠在扶梯場景的不同環(huán)境下具有穩(wěn)定性。

      5.2 乘客跟蹤結(jié)果及分析

      從乘客進入監(jiān)控范圍開始進行乘客跟蹤,在乘客發(fā)生異常行為或者離開監(jiān)控范圍時停止乘客跟蹤,假設(shè)乘客在這段時間連續(xù)出現(xiàn)的幀數(shù)為Np(Np>T,T為滑動窗長度)。首先做如下定義:對于某個長度為T的滑動窗,若乘客的標(biāo)號都為同一ID,則這個滑動窗口跟蹤成功;對于該乘客的所有Np-T+1個滑動窗口,如果有超過95%的滑動窗口跟蹤成功,則該乘客跟蹤成功(并計跟蹤成功的乘客數(shù)為NTS),否則該乘客跟蹤失敗(并計跟蹤失敗的乘客數(shù)為NTF)。由此可以得到跟蹤精度At=NTS/(NTS+NTF)。表3為乘客跟蹤結(jié)果。

      表3 乘客跟蹤結(jié)果Table 3 Results of passenger tracking

      從表3可知,使用骨架距離作為衡量標(biāo)準(zhǔn)以及采用匈牙利算法進行跟蹤匹配,可以提高不同環(huán)境下對乘客的跟蹤精度,總跟蹤精度達到97.3%。進一步分析,在擁擠和光照不足的環(huán)境下,跟蹤精度會降低。究其原因,擁擠情況下會發(fā)生乘客遮擋,導(dǎo)致部分圖像的乘客骨架提取失敗,進而導(dǎo)致跟蹤精度降低;而光照不足會使圖像清晰度下降,導(dǎo)致乘客檢測以及關(guān)鍵點提取模型的召回率降低,從而導(dǎo)致跟蹤精度降低。對比表2和表3發(fā)現(xiàn),在骨架提取不精準(zhǔn)的時候,跟蹤精度也會很高,其原因可能是本文骨架距離的計算方法引入了相鄰視頻幀的先驗乘客距離知識(即相同乘客在相鄰幀的距離近,而不同乘客在相鄰幀的距離遠),從而有效地改善了跟蹤過程因骨架提取精度不足引起的問題。即使是在光照不足和乘客擁擠的情況下,乘客跟蹤精度也能保持在95%以上,這為乘客行為準(zhǔn)確識別提供了必要條件。

      5.3 乘客行為識別結(jié)果及分析

      本文采用圖卷積神經(jīng)網(wǎng)絡(luò)對乘客行為進行分類。訓(xùn)練數(shù)據(jù)集包括5 150個骨架,驗證集為1 966個骨架。將訓(xùn)練樣本隨機抽取進行20 000次迭代,每次迭代樣本數(shù)為2 000,使用Adam優(yōu)化器,學(xué)習(xí)率為10-3,正則化系數(shù)為10-3,使用交叉熵損失函數(shù)。最終的圖卷積模型在訓(xùn)練集上的分類準(zhǔn)確率為99.3%,在驗證集上的分類準(zhǔn)確率為92.2%。

      在445個短視頻驗證集上驗證本文的乘客行為識別算法,設(shè)乘客行為發(fā)生的時刻為第t幀,若在[t,t+T)幀內(nèi)行為能被及時正確識別,則行為識別成功,否則行為識別失敗。將被正確識別的短視頻數(shù)記為NRS,識別錯誤的短視頻數(shù)記為NRF,則識別準(zhǔn)確率Ar=NRS/(NRS+NRF)。表4給出了乘客行為的識別結(jié)果,表5為乘客行為識別的混淆矩陣。

      表4 乘客行為識別結(jié)果Table 4 Results of passenger behavior recognition

      表5 乘客行為識別的混淆矩陣Table 5 Confusion matrix of passenger behavior recognition

      從表4可知,在稀疏場景下乘客行為識別準(zhǔn)確率達100%,而擁擠情況下識別精度降低。結(jié)合圖11可知:在稀疏場景下,乘客骨架提取結(jié)果較為完整,不確定性較低,故此時訓(xùn)練集和驗證集的骨架分布相似度較高且貼近真實稀疏場景的骨架提取情況,識別準(zhǔn)確率高;在擁擠場景下,由于乘客互相遮擋,遮擋部位的不同及遮擋面積的不同,使不確定性提高,且樣本的數(shù)量級別遠遠沒有達到不確定性的數(shù)目,此時訓(xùn)練集和驗證集的骨架分布并沒有多到可以很好地擬合出真實擁擠情況的分布,故訓(xùn)練集和驗證集的相似度較低,GCN在訓(xùn)練集上的擬合效果好,而在驗證集上的識別準(zhǔn)確率降低。

      由表5可得,某些行為之間,如向扶手帶外伸手與向扶手帶外伸頭、攀爬扶手帶與背靠扶手帶之間會產(chǎn)生誤判,這是因為擁擠情況下部分遮擋導(dǎo)致關(guān)鍵點提取不完全,從而致使這些行為骨架在經(jīng)過GCN提取后的高維行為特征發(fā)生了較大的空間位移,最終映射得到的分類結(jié)果也偏移到了錯誤類別中,導(dǎo)致識別結(jié)果錯誤。盡管如此,本文異常行為識別算法的最終識別準(zhǔn)確率高達94.3%,GCN在驗證集骨架中的分類準(zhǔn)確率為92.2%,這說明通過圖卷積的分類結(jié)果進行滑動窗投票統(tǒng)計后,可以在稍微犧牲算法響應(yīng)的同時,降低噪聲干擾,提高行為識別分類準(zhǔn)確率。通過以上分析可知,本文算法對扶梯乘客的異常行為有良好的識別效果,對采集的手扶電梯監(jiān)控視頻具有較強的檢測穩(wěn)定性。

      需要指出的是,乘客行為中一些與扶手帶互動的行為,如向扶梯外伸頭、向扶梯外伸手、背靠扶手帶,雖然在本文中可以通過圖卷積神經(jīng)網(wǎng)絡(luò)提取到的高級行為特征來得到較為準(zhǔn)確的識別結(jié)果,但這僅說明本文算法能夠較好地提取出能區(qū)分這些動作之間的特征,并沒有考慮動作發(fā)生的位置,因此在實際應(yīng)用中,為了得到與扶手帶的行為交互結(jié)果,需要結(jié)合算法分類結(jié)果與已知的扶手帶的位置做進一步判斷。本文在進行性能分析時,假定乘客與扶手帶的相對位置已經(jīng)事先正確得到,故僅對乘客的行為分類結(jié)果進行分析。

      在相同短視頻數(shù)據(jù)集上,使用多分類支持向量機[29]、正態(tài)貝葉斯分類器[30]、光流法[31]、動態(tài)粒子流場[32]、行為序列匹配[16]和本文算法對乘客行為進行分類,結(jié)果如表6所示。從表中可知,與其他5種算法相比,本文提出的基于視頻監(jiān)控的行為識別算法在處理速度上更快且識別準(zhǔn)確率更高。這是因為本文算法使用的GCN層數(shù)較淺,模型較為簡單,且使用了GPU進行圖卷積前向推理,因此處理速度比較快;同時,由于GCN使用人體關(guān)鍵點及其連接作為圖輸入,能夠更好地對乘客動作進行描述,因此行為識別率較高;另外,滑動窗投票統(tǒng)計的方法也進一步提高了識別準(zhǔn)確率。

      表6 幾種行為識別算法的性能比較

      由于本文使用了文獻[16]的骨架提取-行人跟蹤-行為分析架構(gòu),因此將本文算法與文獻[16]算法進行比較分析。相比文獻[16]算法,本文算法有以下優(yōu)點:①本文算法使用了自上而下的骨架提取方法,可以避免文獻[16]中乘客骨架容易產(chǎn)生分配錯誤的問題,而且本文的骨架提取方法具有人數(shù)越少、處理速度越快的優(yōu)勢;②本文采用匈牙利匹配算法對相鄰幀乘客進行匹配,避免了文獻[16]中最小距離匹配會因運動偏移而導(dǎo)致的匹配錯誤問題;③本文使用骨架距離作為乘客相似度的衡量標(biāo)準(zhǔn),骨架提取效果比文獻[16]的人臉檢測抗遮擋能力好,而且可以減少人臉檢測算法額外的計算開銷;④本文使用淺層GCN結(jié)合滑動窗投票的方法對乘客異常行為進行識別,相比文獻[16]使用余弦相似度特征進行模版匹配,GCN通過學(xué)習(xí)可以得到更有利于動作識別的深度姿態(tài)特征,提高動作識別準(zhǔn)確率。

      6 結(jié)語

      為了解決現(xiàn)有方法在扶梯場景下不能實時準(zhǔn)確識別乘客異常行為的問題,本文提出了一種基于視頻監(jiān)控的手扶電梯乘客異常行為識別算法。首先,采用YOLOv3檢測圖像中乘客的位置,并使用MobileNetv2結(jié)合反卷積的方法來提取乘客骨架;接著,使用以骨架距離為基準(zhǔn)的匈牙利匹配算法對乘客進行跟蹤;然后,使用GCN和滑動窗投票統(tǒng)計的方法對乘客的異常行為進行識別。實驗結(jié)果表明,本文算法的處理速度達15 f/s,異常行為識別準(zhǔn)確率為94.3%,可以快速、準(zhǔn)確、穩(wěn)定地處理扶梯監(jiān)控視頻。然而,本文算法依然有很大的限制,在擁擠場景下,扶梯乘客會發(fā)生嚴重的遮擋,骨架會發(fā)生部分缺失,從而導(dǎo)致缺失的骨架在輸入圖卷積網(wǎng)絡(luò)后得到錯誤的行為識別結(jié)果,今后將針對多人場景下的部分遮擋問題(完全遮擋無解)增加訓(xùn)練樣本和數(shù)據(jù)的多樣性,以提高異常行為識別算法的性能。

      猜你喜歡
      扶梯置信度關(guān)鍵點
      拆梯人和扶梯人
      聚焦金屬關(guān)鍵點
      硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
      肉兔育肥抓好七個關(guān)鍵點
      安全乘扶梯
      正負關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法
      乘扶梯
      好孩子畫報(2016年6期)2016-05-14 09:54:26
      置信度條件下軸承壽命的可靠度分析
      軸承(2015年2期)2015-07-25 03:51:04
      醫(yī)聯(lián)體要把握三個關(guān)鍵點
      鎖定兩個關(guān)鍵點——我這樣教《送考》
      語文知識(2014年7期)2014-02-28 22:00:26
      民权县| 临漳县| 错那县| 洛隆县| 长武县| 黄山市| 白沙| 衡阳市| 花垣县| 合山市| 济南市| 乐至县| 漯河市| 浦东新区| 泸州市| 兴城市| 海南省| 兴山县| 调兵山市| 桦甸市| 诸城市| 德昌县| 衡山县| 馆陶县| 阿坝县| 屏东市| 泸州市| 阿图什市| 龙州县| 西乡县| 凤冈县| 高密市| 盐边县| 华池县| 鹰潭市| 宜宾市| 宁城县| 巴东县| 晋城| 五莲县| 苏尼特右旗|