孔德龍 蒲 凡
(中南民族大學(xué)計(jì)算機(jī)科學(xué)學(xué)院, 430074,武漢 ∥ 第一作者,講師)
為防止乘客不慎跌落站臺造成安全事故,大部分地鐵在車站站臺都設(shè)置了站臺門。但由于站臺門與列車門之間存在寬20~30 cm的間隙,因而在客運(yùn)高峰期容易發(fā)生乘客被夾情況[1]。國內(nèi)地鐵線路已發(fā)生過數(shù)起因乘客夾在空隙中而產(chǎn)生的運(yùn)營安全事故?,F(xiàn)有對該空隙的異物檢測主要依賴司機(jī)人工目視,或采用紅外、激光等輔助方法。但人工目視容易因疏忽產(chǎn)生漏判,而紅外、激光等方法由于站臺環(huán)境復(fù)雜會出現(xiàn)準(zhǔn)確度差、誤報(bào)率高的問題,不利于列車的行車安全[2-3]。隨著地鐵無人駕駛技術(shù)的迅速發(fā)展,針對無人值守列車更加需要一種準(zhǔn)確度高、實(shí)時(shí)性好的站臺自動(dòng)異物檢測方法。
隨著人工智能技術(shù)的迅速發(fā)展,以深度學(xué)習(xí)為代表的人工智能圖像識別技術(shù)已廣泛應(yīng)用于醫(yī)療、軍事等領(lǐng)域中,并取得了良好的應(yīng)用效果[4]。殘差神經(jīng)網(wǎng)絡(luò)模型是一種性能優(yōu)異的神經(jīng)網(wǎng)絡(luò)模型,相比于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型具有訓(xùn)練時(shí)間短、圖像識別準(zhǔn)確率高、實(shí)時(shí)性好等優(yōu)點(diǎn)[5]。因此,本文提出構(gòu)建基于深度殘差神經(jīng)網(wǎng)絡(luò)ResNet50模型的空隙自動(dòng)異物檢測系統(tǒng),通過獲取并處理站臺閉路電視監(jiān)控系統(tǒng)傳輸給發(fā)車指示器的站臺門與列車門視頻幀信息,完成對站臺門與列車門之間異物的自動(dòng)檢測。
深度殘差神經(jīng)網(wǎng)絡(luò)是卷積神經(jīng)網(wǎng)絡(luò)的一種,其結(jié)構(gòu)主要由卷積層、池化層和全連接層組成[6]。其典型結(jié)構(gòu)是由卷積層和池化層交替排列組成多組特征提取網(wǎng)絡(luò),并在網(wǎng)絡(luò)尾部設(shè)置全連接層。當(dāng)系統(tǒng)中輸入一個(gè)大小為W(長)×H(寬)×C(通道數(shù))的張量T,首先在網(wǎng)絡(luò)卷積層中利用卷積函數(shù)計(jì)算系統(tǒng)輸入張量與卷積核的卷積結(jié)果,再使用激活函數(shù)以張量的形式輸出卷積層的特征圖。設(shè)張量Tc為張量T在通道c上的分量,定義卷積函數(shù)為Conv,則可以得到張量T與第n個(gè)卷積核張量Kn的卷積結(jié)果To為:
Mc∈Tc,Tc∈T,mw,h,c∈Mc,kw,h∈Kn
(1)
其中,張量Mc為張量T在卷積窗口內(nèi)的子張量M在通道c上的分量。Tc的卷積計(jì)算原理如圖1所示。
圖1 卷積的計(jì)算原理
將卷積結(jié)果To作為激活函數(shù)的輸入量,遍歷張量To的每一個(gè)像素點(diǎn)To,w′,h′,c′。令b為偏置變量,可得到非線性激活函數(shù)在卷積核Kn上的輸出張量T1為:
(2)
將卷積層的輸出張量T1輸入池化層進(jìn)行降采樣處理,從而降低輸出張量的維度并在減少計(jì)算量的同時(shí)不丟失圖像特征。池化層通過利用Mc中的最大像素點(diǎn)取代卷積計(jì)算中的Mc·Kc,其中,卷積核張量Kc為在通道c上的分量。設(shè)最大池化函數(shù)為Pool,則T的最大池化結(jié)果為:
(3)
將To輸入到非線性激活函數(shù)中,可得到池化層的輸出結(jié)果。系統(tǒng)輸入在經(jīng)過多個(gè)由卷積層與池化層交替排列的特征提取網(wǎng)絡(luò)后進(jìn)入全連接層中進(jìn)行處理。設(shè)全連接函數(shù)為Full,則T的全連接計(jì)算結(jié)果可以表示為:
Tc∈T,tc1,w,h,c∈Tc,kw,h∈K
(4)
提出深度殘差神經(jīng)網(wǎng)絡(luò)是為了解決傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)模型在結(jié)構(gòu)向深層化發(fā)展時(shí),由于發(fā)生梯度彌散而出現(xiàn)測試與訓(xùn)練誤差比淺層網(wǎng)絡(luò)模型大的問題[7]。通過在網(wǎng)絡(luò)模型中引入殘差學(xué)習(xí)的概念,可以有效地解決傳統(tǒng)多層卷積神經(jīng)網(wǎng)絡(luò)中梯度彌散的問題。一個(gè)基本的殘差學(xué)習(xí)模塊如圖2所示。
圖2 殘差學(xué)習(xí)模塊
圖2中,x為系統(tǒng)輸入,H(x)為系統(tǒng)目標(biāo)映射,F(xiàn)(x)為求和前的網(wǎng)絡(luò)映射。其核心思想為:由于系統(tǒng)很難直接實(shí)現(xiàn)由x至H(x)的映射,因此不直接通過堆疊卷積網(wǎng)絡(luò)來實(shí)現(xiàn)一個(gè)理想目標(biāo)映射H(x)的學(xué)習(xí),而是使網(wǎng)絡(luò)去學(xué)習(xí)殘差函數(shù)F(x)=H(x)-x。深度殘差神經(jīng)網(wǎng)絡(luò)就是由多個(gè)殘差塊堆疊組成的。由于殘差學(xué)習(xí)突出學(xué)習(xí)過程中的微小變化,自動(dòng)消除了隱含層中的部分冗余層,相對于傳統(tǒng)的映射方式,殘差映射更容易實(shí)現(xiàn)優(yōu)化,從而解決了深層網(wǎng)絡(luò)性能退化的問題。為了進(jìn)一步提升系統(tǒng)性能,本文采用bottleneck結(jié)構(gòu)建立殘差學(xué)習(xí)模型,其基本原理如圖3所示。
圖3 Bottleneck殘差學(xué)習(xí)模塊
該殘差學(xué)習(xí)模塊包括了3個(gè)卷積層。其中,第一個(gè)1×1的卷積層主要用于降維處理,降維后再由第二個(gè)3×3卷積層處理,最后由第三個(gè)1×1卷積層實(shí)現(xiàn)升維恢復(fù)。通過這兩個(gè)1×1的卷積層的設(shè)置減少了網(wǎng)絡(luò)中的參數(shù)數(shù)量,同時(shí)增加了網(wǎng)絡(luò)深度,相比基本模型有更好的性能。
2.1.1 站臺空隙異物定義
由于地鐵站臺門與列車門都包含機(jī)械式防夾設(shè)備,當(dāng)列車門或站臺門由于異物存在而無法關(guān)閉時(shí),會向列車控制系統(tǒng)進(jìn)行報(bào)警。因此,本文的主要研究對象為站臺門與列車門間隙處的異物檢測。該處異物的定義為:當(dāng)站臺門與列車門完全關(guān)閉時(shí),間隙處存在威脅行車與乘客安全的人體或物品。通過查閱相關(guān)文獻(xiàn)并實(shí)際試驗(yàn),該處異物的外形尺寸不小于30 mm(長)×12 mm(寬)×20 mm(高)。
2.1.2 異物檢測系統(tǒng)總體設(shè)計(jì)與流程
利用深度殘差神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)地鐵站臺車門與站臺門間的異物自動(dòng)檢測。首先,要建立圖像數(shù)據(jù)集,通過在訓(xùn)練站站臺模擬多種異物入侵與乘客被夾方式,并對所模擬圖像進(jìn)行處理,建立殘差神經(jīng)網(wǎng)絡(luò)訓(xùn)練集與測試集;其次,利用所建網(wǎng)絡(luò)訓(xùn)練集對深度殘差神經(jīng)網(wǎng)絡(luò)ResNet50模型進(jìn)行迭代訓(xùn)練并完成對測試集的識別;最后將真實(shí)站臺圖像數(shù)據(jù)輸入已訓(xùn)練完成的殘差神經(jīng)網(wǎng)絡(luò)中,給出檢測結(jié)果以實(shí)現(xiàn)自動(dòng)異物檢測。其流程如圖4所示。
圖4 自動(dòng)異物檢測系統(tǒng)檢測流程圖
2.2.1 系統(tǒng)特征集的建立
由于安全原因,無法直接在真實(shí)地鐵車站中獲取站臺門與列車門間存在的異物圖像數(shù)據(jù)。因此,采用在地鐵訓(xùn)練站模擬多種實(shí)際上、下客狀況并采集圖像信息,共得大小為224 mm×224 mm的1 906張圖像數(shù)據(jù)。通過樣本擴(kuò)充處理,最終得到12 245張圖像數(shù)據(jù)。并按8…2 的比例劃分為訓(xùn)練集與測試集,共得到訓(xùn)練集數(shù)據(jù)9 796張,驗(yàn)證集數(shù)據(jù)2 449張。
2.2.2 模型驗(yàn)證與結(jié)果分析
本文采用目前較為先進(jìn)的ResNet50(殘差50)模型。該模型是由多個(gè)殘差網(wǎng)絡(luò)堆疊而成的深層卷積神經(jīng)網(wǎng)絡(luò),總計(jì)有152層。在圖像識別領(lǐng)域有較為成熟的應(yīng)用,共進(jìn)行了1 000類常見物體的訓(xùn)練,取得了不錯(cuò)的成績[8]。因此,基于遷移學(xué)習(xí)原理借助已成熟的訓(xùn)練模型,針對本文圖像分類問題的特殊情況,只對該模型中的140~152層進(jìn)行針對性訓(xùn)練。
模型采用2 個(gè)節(jié)點(diǎn)的Softmax層,使用非線性Sigmoid激活函數(shù),Dropout概率p設(shè)置為0.25,學(xué)習(xí)率a設(shè)置為0.1;系統(tǒng)訓(xùn)練最大迭代次數(shù)設(shè)置為100次。通過訓(xùn)練集數(shù)據(jù)訓(xùn)練使該模型最終實(shí)現(xiàn)優(yōu)化。對該模型進(jìn)行100 次迭代訓(xùn)練后,訓(xùn)練集與驗(yàn)證集準(zhǔn)確率與數(shù)據(jù)集損失值如圖5~6所示。
由圖5~6可得,在初始階段訓(xùn)練集準(zhǔn)確率為98.38%,損失值為0.046 6;而驗(yàn)證集的準(zhǔn)確率為98.98%,損失值為0.051 3。隨著訓(xùn)練次數(shù)的增加,模型趨于收斂。最終訓(xùn)練集準(zhǔn)確率達(dá)到100%、損失值為4.39×10-7,驗(yàn)證集準(zhǔn)確率達(dá)到99.9%,損失值為6.04×10-6,證明該模型具有較強(qiáng)的泛化能力,滿足檢測需要。重復(fù)多次試驗(yàn)該模型皆能收斂,且相對誤差很小,并在容許范圍內(nèi)。
圖5 系統(tǒng)準(zhǔn)確率
圖6 系統(tǒng)數(shù)據(jù)損失值
特征提取的能力決定了系統(tǒng)對驗(yàn)證集數(shù)據(jù)的識別準(zhǔn)確率。因此,對系統(tǒng)輸入層、淺層卷積層、深層卷積層的輸出進(jìn)行可視化處理。通過對輸出通道進(jìn)行遍歷得出Channel個(gè)大小為Size×Size的圖像,并將其拼接為一張圖片。輸入層的輸出維度為224×224×3,對第三維遍歷得到3 張分辨率為224像素×224像素的特征圖,將其拼接后如圖7所示。
圖7 輸入層特征圖
淺層卷積層輸出維度為112×112×64,對第三維遍歷得到64張分辨率為112像素×112像素的特征圖,將其拼接后如圖8所示。
圖8 淺層卷積層特征圖
深層卷積層輸出維度為14×14×256,對第三維遍歷得到256 張分辨率為14像素×14像素的特征圖,將其拼接后如圖9所示。
圖9 深層卷積層特征圖
從圖7~9可以看出,系統(tǒng)準(zhǔn)確的提取出了輸入數(shù)據(jù)中的特征,達(dá)到了預(yù)期的識別目的。由于地鐵安全運(yùn)營要求該異物識別系統(tǒng)應(yīng)具有較強(qiáng)的實(shí)時(shí)處理能力,因此對1 000張數(shù)據(jù)集的讀取和預(yù)測耗時(shí)進(jìn)行統(tǒng)計(jì)。其中,處理平臺環(huán)境:操作系統(tǒng)為Windows 10系統(tǒng),處理器為Core i7-6700,內(nèi)存為雙通道16 GB,顯卡為NVIDIA GTX 1050Ti(4 GB顯存)。系統(tǒng)總耗時(shí)統(tǒng)計(jì)結(jié)果如圖10所示。
圖10 系統(tǒng)總耗時(shí)
從圖10中可以得出,該模型對單張數(shù)據(jù)集的預(yù)測總耗時(shí)不超過47 ms。由于幀率是1 s可以處理的圖片數(shù)量,系統(tǒng)處理一張圖不超過47 ms。因此系統(tǒng)的處理幀率不低于21幀/s,具有良好的實(shí)時(shí)處理能力,能夠滿足實(shí)際應(yīng)用需求。利用該自動(dòng)異物檢測系統(tǒng)對武漢地鐵某車站中間位置站臺門與列車門1周視頻數(shù)據(jù)進(jìn)行處理驗(yàn)證。以線路運(yùn)行過程中每小時(shí)模型預(yù)測準(zhǔn)確性與單張視頻幀總耗時(shí)的最低值為統(tǒng)計(jì)目標(biāo),取1周內(nèi)的平均值進(jìn)行統(tǒng)計(jì),可得表1。
表1 實(shí)際預(yù)測準(zhǔn)確率與單張視頻幀總耗時(shí)統(tǒng)計(jì)
由表1可以得出,在線路早、晚高峰時(shí)段,系統(tǒng)的預(yù)測準(zhǔn)確率與處理總耗時(shí)有部分下降。產(chǎn)生該現(xiàn)象的原因主要為在早、晚高峰時(shí)段車站上、下客人數(shù)增多,乘客在站臺門前的候車與擁擠行為導(dǎo)致測試環(huán)境變?yōu)閺?fù)雜,導(dǎo)致系統(tǒng)預(yù)測性能相對下降。但系統(tǒng)全時(shí)段最低準(zhǔn)確率仍不低于98.7%,最高單張視頻幀總耗時(shí)不超過64 ms,處理幀率不低于15幀/s,總體性能優(yōu)良滿足地鐵線路正常運(yùn)營的需求。
由于現(xiàn)有地鐵站臺門與列車門間空隙異物檢測方法存在檢測精度差、誤報(bào)率高,有一定的安全隱患,影響了列車的安全運(yùn)營。本文通過模擬地鐵正常運(yùn)營中上、下客方式建立圖像數(shù)據(jù)集,搭建并訓(xùn)練基于深度殘差神經(jīng)網(wǎng)絡(luò)ResNet50模型的自動(dòng)異物檢測系統(tǒng),利用真實(shí)車站發(fā)車指示器視頻幀數(shù)據(jù)對自動(dòng)異物檢測系統(tǒng)進(jìn)行測試。測試結(jié)果表明,利用該方法實(shí)現(xiàn)對地鐵站臺門與列車門間空隙的異物自動(dòng)檢測是可行的,且具有較高的檢測精度與實(shí)時(shí)能力。