彭凱貝,呂曉軍,李 超,魏 昊
(中國鐵道科學研究院集團有限公司 電子計算技術(shù)研究所,北京 100081)
近年來,我國高速鐵路迅速發(fā)展,鐵路已經(jīng)成為旅客出行的主要交通方式,鐵路客流量日益增加,鐵路客運站的管理越來越困難,車站安全風險發(fā)生的概率越來越大,因此需要通過科學的方法預估鐵路車站安全風險,確保旅客出行安全[1]。
目前已有大量學者對安全風險的評估以及模型的構(gòu)建進行研究。李德龍等[2]構(gòu)建了基于白名單制度的防爆博弈模型,對推進安檢系統(tǒng)白名單制度的實施具有一定的啟發(fā);史天運等[3]模擬了安檢的真實場景,優(yōu)化了風險閾值以及安檢通道配置數(shù),有效提高了安檢效率;楊益興等[4]使用AnyLogic軟件建立了安檢系統(tǒng)仿真模型,并優(yōu)化了安檢尾部擁擠等問題;羅躍等[5]采用層次分析法分析風險權(quán)重,采用可拓理論安全風險評價方法,較為準確地分析了車站安全等級。莊艷輝等[6]將模糊petri 網(wǎng)理論與動態(tài)權(quán)重相結(jié)合,更加合理地評估了車站的安全風險。
以上方法多數(shù)以安檢設備狀態(tài)、配備質(zhì)量來評估鐵路安檢風險,缺少違禁品風險等級和旅客個人風險的分析。伴隨著新一代科技與鐵路業(yè)務結(jié)合,在智能鐵路客運站發(fā)展目標下,鐵路安檢系統(tǒng)智能化有待提高[7],通過與人工智能結(jié)合來強化安檢違禁品智能識別、人員風險評估等功能,有助于提高安檢查處效率,是鐵路安檢發(fā)展的重要趨勢之一[8-9]。針對以上問題,構(gòu)建基于YOLOv5s 的安檢違禁品模型,實現(xiàn)6 種違禁品的自動識別;在安檢儀出口采集旅客人臉表情,設計基于ResNet50 的旅客表情識別模型,提出違禁品檢測和人臉表情相結(jié)合的車站人員物品風險評估機制;仿真結(jié)果表明,所提出的車站人員物品風險評估機制可以準確、綜合地協(xié)助車站工作人員發(fā)現(xiàn)安檢風險。
目前,最主流的目標檢測算法主要包括2 種,一種是基于檢測幀和分類器的兩階段算法,如RCNN[8],F(xiàn)ast RCNN[9]和Faster RCNN with RPN[10]等,它們的主要問題是網(wǎng)絡結(jié)構(gòu)太復雜,檢測速度太慢。另一種是基于回歸的一步算法,如SSD[11],YOLOv4[12]和YOLOv5[13]等。其中YOLOv5 模型憑借其定位準確、模型結(jié)構(gòu)精簡及運行速度快的特點,表現(xiàn)出明顯超出其他算法的性能優(yōu)勢和檢測效果。
所研究的目標測試算法面向鐵路安全檢查環(huán)境下的X 光安檢圖像,并要求建模輕量、檢測速率快、并且能應用于線上或嵌入式的系統(tǒng)開發(fā)。因此,選用YOLOv5系列中最輕量化、深度最小、特征圖寬度最小的YOLOv5s 來進行危險物品檢測。YOLOv5s 模型結(jié)構(gòu)如圖1 所示[14],該結(jié)構(gòu)分為4 個部分:輸入、主干網(wǎng)絡(Backbone)、Neck網(wǎng)絡和輸出(Prediction)。
圖1 YOLOv5s模型結(jié)構(gòu)Fig.1 Structure of YOLOv5s model
基于鐵路安檢背景,采用SIXray數(shù)據(jù)集,該數(shù)據(jù)集中共有1 059 231 張X 射線照片,這些X 射線照片采集于多個鐵路客運站,并包含6 種類別的危險物品:槍、刀、扳手、鉗子、剪刀和錘子[15]。這些危險物品的分布與真實的鐵路安檢現(xiàn)場一致。根據(jù)該數(shù)據(jù)集的統(tǒng)計數(shù)據(jù),得到危險物品類別統(tǒng)計如圖2 所示。將數(shù)據(jù)集中8 000 多張已標注的危險物品照片進行訓練測試,數(shù)據(jù)以7∶3 的比率隨機分為訓練集和測試集。每張照片都通過安檢儀掃描獲得,安檢儀對不同材料的物品分配以不一樣的顏色。所有的照片均為JPG格式,平均每張照片大小為200 K像素。
圖2 危險物品類別統(tǒng)計Fig.2 Classification of dangerous goods
危險物品識別模型選用YOLOv5s 算法,模型采用隨機梯度下降法訓練(SGD),學習率為0.01,YOLOv5s模型參數(shù)如表1所示。
表1 YOLOv5s模型參數(shù)Tab.1 Parameters of YOLOv5s model
在目標檢測任務的訓練過程中常常選用目標函數(shù)損失(Objectness Loss)和廣義交集損失(GIOU)作為評價指標,通過損失函數(shù)整體地評價危險物品檢測模型檢測結(jié)果與實際標簽的差距。目標函數(shù)損失為YOLOv5s 目標檢測損失均值,其值越小則危險物品識別越準確。廣義交集損失可以度量預測框和真實框之間的重疊程度,是一種位置損失,其公式如下。
式中:LGLOU為廣義交集損失;A為預測的框;B為真實的框;IOU為A和B之間交并比之差;C為A,B兩框的最小外框。
YOLOv5s 模型在訓練過程中的危險物品檢測損失函數(shù)收斂曲線如圖3所示,從圖3中可以看出,當?shù)_到150 次時,廣義交集損失趨于穩(wěn)定在0.025左右,目標函數(shù)損失趨于0.014左右。從分析結(jié)果可以看出,網(wǎng)絡在訓練階段表現(xiàn)良好。將訓練好的YOLOv5s 模型與常用的目標檢測算法:SSD算法和Fast RCNN 算法進行對比實驗,YOLOv5s的均值平均精度(mean Average Precision,map)可達93.45%,而SSD算法的map為69.79%,F(xiàn)ast RCNN算法的map 為74.78%。測試集部分圖片檢測結(jié)果如圖4 所示。從圖4 中可以看出,所采用的模型可以準確地識別出X光照片中的危險物品。仿真結(jié)果表明YOLOv5s模型整體定位準確,識別效果理想,可用于風險評估系統(tǒng)中進行危險物品檢測。
圖3 危險物品檢測損失函數(shù)收斂曲線Fig.3 Convergence curve of loss function for dangerous goods detection
圖4 測試集部分圖片檢測結(jié)果Fig.4 Test results of some pictures in the test set
隨著人工智能的不斷發(fā)展,深度學習算法結(jié)構(gòu)的深度不斷增加,但其性能反而沒有隨著層數(shù)的增加獲得很大的提升。何愷明于2015年提出ResNet[16],通過殘差塊中的捷徑鏈接,彌補了網(wǎng)絡層數(shù)加深造成的危害,為深度神經(jīng)網(wǎng)絡層數(shù)的進一步加深提供了可能。
研究使用ResNet50對表情進行識別。ResNet50分別由輸入端、階段1 至階段5 的殘差層和輸出端組成,ResNet50 模型結(jié)構(gòu)如圖5 所示[17]。卷積層作用為歸一化并加速收斂;激活函數(shù)采用線性整流激活函數(shù);池化層使信息傳輸?shù)酶鼮橥暾?;全連接層作用為降維,負責卷積層至全連接層之間的過渡。
圖5 ResNet50模型結(jié)構(gòu)Fig.5 Structure of ResNet50 model
擴展Cohn Kanade (CK+)數(shù)據(jù)集是人臉表情識別研究中最常用的數(shù)據(jù)集之一[18]。根據(jù)鐵路安檢時可能發(fā)生的從壞到好的各種情緒,從中選取了8 197張表情圖片,包括害怕、憤怒、悲傷、驚訝、平靜、高興6 種表情,并將數(shù)據(jù)以7∶3 的比率隨機分為訓練集和測試集,其中數(shù)據(jù)庫中6 種表情示意圖如圖6所示。
圖6 6種表情示意圖Fig.6 Schematic of six expressions
表情識別部分使用ResNet50 模型對危險表情進行識別。ResNet50 模型訓練采用Adam 優(yōu)化器,學習率為0.001,ResNet50模型參數(shù)如表2所示。
表2 ResNet50模型參數(shù)Tab.2 Parameters of the ResNet50 model
本實驗選擇交叉熵損失函數(shù)作為模型訓練過程的損失函數(shù)。交叉熵損失函數(shù)是表情分類中廣泛應用的損失函數(shù),常與softmax 函數(shù)結(jié)合,具體計算公式如下。
式中:LCE為交叉熵損失函數(shù);yi為真實樣本標簽;pi為預測輸出;i為輪次。
利用ResNet50 模型訓練的表情識別損失函數(shù)收斂曲線如圖7 所示。可以看出,訓練過程結(jié)束時交叉熵損失函數(shù)趨于穩(wěn)定,損失值趨于0.086左右,表明模型在訓練過程表現(xiàn)較好。將所采用的方法與表情分類常用的GoogLeNet 算法和AlexNet 算法進行對比:ResNet50模型準確率為96.7%,GoogLeNet算法的準確率為87.88%,AlexNet 算法的準確率為87.31%,仿真結(jié)果表明ResNet50 模型準確率高于其他2 種算法,分類效果較好,可以穩(wěn)定準確地識別出人臉表情,這有助于準確地預估鐵路系統(tǒng)未知的風險,可以將此訓練好的ResNet50 模型用于風險評估系統(tǒng)中對危險表情進行識別。
圖7 表情識別損失函數(shù)收斂曲線Fig.7 Convergence curve of expression recognition loss function
為了更加全面地評估鐵路安檢系統(tǒng)風險,車站人員物品風險評估系統(tǒng)結(jié)構(gòu)設計參照《鐵路安全管理條例》規(guī)定:“旅客應當接受并配合鐵路運輸企業(yè)在車站、列車實施的安全檢查,不得違法攜帶、夾帶管制器具,不得攜帶、托運煙花爆竹、槍支彈藥等危險物品或者其他違禁物品”。利器、鈍器是確定性的指標,然而威脅旅客安全卻是一個較為模糊的概念。為了更加科學地判斷鐵路安檢過程威脅旅客安全風險的程度,將危險表情識別與危險物品檢測相結(jié)合納入鐵路安檢風險評估考察范圍內(nèi)。風險評估機制系統(tǒng)流程如圖8 所示。在鐵路風險評估系統(tǒng)中,槍、刀和剪刀對旅客有著極大的危險性,是絕不允許帶進車站的,一旦檢測出立刻發(fā)出A級風險預警;若檢測出扳手、鉗子、錘子這些工具類的鈍器,同時在安檢機出口拿包處附近的攝像頭拍下人臉照片并識別出害怕、憤怒、悲傷、驚訝4 類危險表情時,這些物品威脅旅客安全的概率大大提高,系統(tǒng)同樣發(fā)出A級風險預警,同時通過安檢儀放取包攝像頭記錄旅客放取包動作,通過時間戳將旅客放取包圖像與X光圖像進行關(guān)聯(lián)。當未識別出危險表情則發(fā)出B級風險預警;若未檢測出任何危險物品,但安檢機出口人員的臉部表情識別出害怕、憤怒、悲傷、驚訝4 類危險表情,則發(fā)出C 級風險預警;若未檢測出危險物品以及危險表情,則為無風險,按照正常流程進行安檢。車站安保人員根據(jù)風險預警程度和車站的實際情況采取相應的措施。此風險評估機制減少了人力的消耗,對車站工作人員預防未知的安檢風險起到一定的幫助作用。
針對安檢查處對人力依賴大的問題,采用YOLOv5s 模型對安檢X 光照片中違禁品自動檢測,協(xié)助安檢作業(yè)人員發(fā)現(xiàn)行李中的違禁品,為了更加快捷地判斷鐵路安檢過程旅客威脅安全風險的程度,構(gòu)建了基于ResNet50 模型的旅客表情識別模型對車站安檢儀出口的人臉表情進行識別,建立了基于YOLOv5s 模型的X 光違禁品物品檢測和人臉表情識別相結(jié)合的車站人員物品風險評估機制。仿真結(jié)果表明,所采用的方法可以較準確地檢測和識別出違禁品和旅客面部表情。所提出的基于深度學習的旅客及物品安檢風險評估機制可以準確識別出安檢查處過程中存在的風險,有效地幫助車站工作人員預防安檢風險,降低車站安全評估對人力的依賴,為車站安全保障提供支持。