鄭澤熙,范 楷,鄧晶雪
(1.中國鐵道科學研究院集團有限公司 通信信號研究所,北京 100081;2.中國鐵道科學研究院集團有限公司 國家鐵路智能運輸系統(tǒng)工程技術研究中心,北京 100081)
包括國家鐵路和城市軌道交通在內的軌道交通運輸方式,承載著我國大眾出行和貨物運輸?shù)闹卮笕蝿???旃?jié)奏的經(jīng)濟生產(chǎn)活動對交通的時效性、便捷性、安全性要求日益提高,因此進一步保證列車運行環(huán)境安全具有重大意義。但是,目前的列車運行環(huán)境安全現(xiàn)狀有待改善。
國家鐵路方面,由山體滑坡、塌方、崩石、泥石流等自然災害,前車、人、畜、物等隨機障礙物造成的限界入侵,嚴重威脅著列車行車安全。面對以上問題,目前主要采取安裝和架設防護網(wǎng)、視頻監(jiān)控設備等手段,同時輔以道路巡檢和司機瞭望的人工檢查方式共同完成侵限異物的檢測,傳統(tǒng)檢測手段對人員要求高、工作強度大、效率低。城市軌道交通方面,支持全自動運行的基于通信的列車控制系統(tǒng)(CBTC),已成為地鐵列車控制系統(tǒng)主流。無人駕駛技術是全自動運行的標志性技術,搭載無人駕駛技術的列車應在不配置司機的情況下實現(xiàn)正線運營中的一系列常規(guī)運營工作,列車如何在不配置司機的情況下處理異物侵限的緊急情況成為制約全自動運行技術發(fā)展的瓶頸。因此,實現(xiàn)列車前方障礙物的主動智能檢測是列車全自動運行的前提。從軌道交通的實際運營需求可知,進一步保障軌道交通運行安全需要一套非接觸式的實時監(jiān)測系統(tǒng),智能、實時檢測列車前方一定區(qū)域內的障礙物(包括前車、人、畜、物等),在偵測到障礙物后配合車載信號系統(tǒng)對列車進行緊急制動,從而降低事故發(fā)生的概率,減少事故造成的損失。
近年來,隨著卷積神經(jīng)網(wǎng)絡的出現(xiàn),在模型算法的快速迭代中,圖像識別的準確率、處理速度、所需硬件資源等核心技術指標不斷優(yōu)化,國內已有眾多學者致力于計算機視覺技術在軌道交通行業(yè)的應用研究[1-2]。侵限障礙物的檢測在技術上分為2個部分,一是需要劃定檢測區(qū)域,二是在檢測區(qū)域內有效檢測和識別障礙物。劃定檢測區(qū)域是實現(xiàn)侵限障礙物檢測的基礎,對軌道交通鋼軌的有效檢測是劃定侵限檢測區(qū)域的最合理方法。我國鐵路鋼軌間距具有高度結構化特點,軌距具有非常嚴格的標準,因此在早期的研究中,通常借助鋼軌的顏色、紋理、邊緣等視覺特征,構建算法提取鋼軌連續(xù)的直線邊緣,從而實現(xiàn)軌道檢測與識別[3-5]。但是,這種方法在遇到彎道、岔區(qū)場景和圖像噪聲較大時效果不佳,間接造成系統(tǒng)誤報率的提升。
在基于計算機視覺的障礙物檢測和識別方面,國內外學者通過使用StixelNet,YOLO,F(xiàn)FDet,DisNet等網(wǎng)絡模型[6-7],以及公開或搭建的鐵路對象數(shù)據(jù)集,完成人、動物、前方列車等目標的檢測和識別。但是,目標檢測模型能否應用于實際生產(chǎn)當中的重要指標主要在于模型的準確率及處理效率。特別是在鐵路運輸領域,較高的檢測準確率可以在保障列車安全運行的前提下降低誤報警所帶來的運輸效率損失;而在列車運行速度日益提高的背景下,模型的處理效率直接決定模型能否部署在更高速度的列車之上。
研究在明確列車運行環(huán)境感知系統(tǒng)需求及結構的基礎上,將Mask-R-CNN 實例分割網(wǎng)絡應用于障礙物感知任務,并重點對該網(wǎng)絡進行改進優(yōu)化,在不降低準確率的前體下使其滿足高速鐵路應用處理效率需求。
列車運行環(huán)境感知系統(tǒng)結構由視覺采集模塊和感知模塊組成,視覺采集模塊負責實時采集視覺信息,并將之發(fā)送給感知模塊。感知模塊首先對原始圖像進行增強操作,減小環(huán)境因素對感知功能的影響,進而將圖像輸入計算機視覺感知模型,由模型完成列車運行環(huán)境的智能感知。由于受到隧道彎曲遮擋,以及目前視覺傳感器分辨率、可視角度等參數(shù)的限制,安裝于列車前部的視覺傳感器不能應對彎道、坡道等運行場景。因此,列車運行環(huán)境感知系統(tǒng)在結構上應分為安裝于列車前部的車載感知部分和安裝于彎道、坡道等特殊地段的地面感知部分,二者通過車地通信機制彼此進行通信,共同完成車地協(xié)同的環(huán)境感知。列車運行環(huán)境障礙物感知系統(tǒng)結構如圖1所示。
圖1 列車運行環(huán)境障礙物感知系統(tǒng)結構Fig.1 Structure of obstacle perception system in train running environment
功能需求層面上,車載感知部分和地面感知部分略有差異,車載感知部分只關注當前列車運行環(huán)境內的障礙物探測,而地面感知部分則要對視野范圍全部軌道運行環(huán)境內的障礙物進行檢測。由此,可以總結出列車運行環(huán)境感知系統(tǒng)的功能需求包括以下幾點。
(1)通過對視野范圍內的鋼軌進行像素級分割,完成檢測范圍的劃定。
(2)對車載感知部分,需要進行當前軌道和相鄰軌道的區(qū)分,防止誤報警。
(3)通過對鋼軌連續(xù)性的判斷,完成鋼軌被積水淹沒、鋼軌被土石掩埋等重大事故的檢測。
(4)在檢測范圍內部,對前車、人、動物、落石等障礙物進行檢測、識別,產(chǎn)生不同級別的報警信息。
滿足以上需求的關鍵在于計算機視覺感知模型的設計和實現(xiàn),該模型需要滿足一定的實時性和準確性,在及時、準確地產(chǎn)生報警信號的同時,將誤報率降低到可以接受的程度,從而在不影響正常運營的前提下,減少事故發(fā)生,降低事故損失。
圖像目標檢測任務目的是將輸入圖片當中的物體分類并利用不同顏色的矩形框標出物體的具體位置,每一個矩形框都有一個標簽,標注了物體的類別和該物體為此類別的置信度概率。語義分割則指的是從像素級別區(qū)分分割出圖片中的不同語義對象,以不同顏色對像素進行標注。圖像實例分割任務建立在圖像目標檢測和語義分割任務的基礎之上。目標檢測任務和語義分割任務均不能區(qū)分同一類別下的不同物體,而實例分割是結合目標檢測和語義分割的任務成果,基于圖中目標的完整分割掩碼,即輸入圖像中的每個像素具體對應于圖像中哪個目標實例,這樣可以使圖像中的每一個對象得到不同的分割掩碼,因此實例分割可以區(qū)分出相同類別的不同物體??梢?,實例分割的任務成果最接近于人類對視覺的感觀,可以滿足軌道交通運行環(huán)境感知的需求。
Mask-R-CNN 網(wǎng)絡由經(jīng)典的目標檢測算法Faster R-CNN網(wǎng)絡與語義分割FCN 網(wǎng)絡相結合而成,在分別兼具Faster RCNN 網(wǎng)絡具有的高檢測精度、速度和FCN 網(wǎng)絡具有的高語義分割精度的同時,又提出很多的改進措施,因此Mask-RCNN 網(wǎng)絡雖然結構較為復雜,但最終仍有媲美Faster R-CNN 網(wǎng)絡的檢測速度和FCN網(wǎng)絡的語義分割精度[8]。
Mask-R-CNN 網(wǎng)絡結構如圖2 所示,由圖2 可以看出,Mask-R-CNN網(wǎng)絡是一個具有3個并行輸出結果的多任務框架,其3 個輸出分別完成目標檢測、目標分類和語義分割任務。Mask-R-CNN網(wǎng)絡首先利用Resnet50/101 網(wǎng)絡構建骨干特征提取網(wǎng)絡,對輸入圖像進行特征提取,再通過特征金字塔網(wǎng)絡(FPN)獲取不同大小的一系列有效特征層;再利用區(qū)域推薦網(wǎng)絡(RPN)生成一系列的建議框;進而通過RoIAlign層對特征層進行初步篩選,得到由建議框截取的局部特征層;最后通過分類回歸模型進行分類及邊界框回歸,得到目標分類和檢測結果;語義分割結果則是將分類回歸模型產(chǎn)生的精確檢測框與有效特征層輸入RoIAlign層,得到精確檢測框截取的局部特征層,再將其輸入Mask 語義分割模型,得到語義分割結果。
圖2 Mask-R-CNN網(wǎng)絡結構Fig.2 Mask--R-CNN network structure
雖然在實例分割領域Mask-R-CNN 網(wǎng)絡是當前應用最多、功能最強大的模型之一,但根據(jù)實驗可以發(fā)現(xiàn),該網(wǎng)絡在單個GPU(GTX2080TI)上的運行速度不足5 fps,無法滿足列車運行環(huán)境的實時性需求,同時也側面說明模型的運算資源占用較多,部署難度較大。并且,Mask-R-CNN網(wǎng)絡在上采樣的過程中會造成較大的掩膜邊界誤差,從而使分割出的物體邊緣輪廓不夠準確,在列車運行環(huán)境感知場景下會造成距離較遠情況下誤報率較高的問題??梢姡嫉腗ask-R-CNN 網(wǎng)絡在實時性、準確性、部署難度等方面還存在較大問題。
2.3.1 輕量級MobileNetV2骨干網(wǎng)絡
根據(jù)計算機視覺模型時間消耗的研究[9],可以清晰地看到,不管是使用GPU還是CPU運行,耗時最長的是卷積層。因此,想要提高網(wǎng)絡的運行速度,亟需提高卷積層也就是主干特征提取網(wǎng)絡的計算效率。
Mask-R-CNN網(wǎng)絡的主干特征提取網(wǎng)絡使用的是Resnet50/101 網(wǎng)絡,雖然該網(wǎng)絡使用殘差結構很好地解決了高層數(shù)帶來的網(wǎng)絡退化問題,但高層數(shù)帶來的大量參數(shù)還是使網(wǎng)絡的時間消耗量大幅增加,嚴重影響網(wǎng)絡的實時性和易部署性。需要使用輕量級網(wǎng)絡對該網(wǎng)絡進行替代,在精確性損失可控的情況下,提高整體實例分割網(wǎng)絡的實時性和易部署性。
MobileNet 是一種小型、低延遲、低功耗的輕量級特征提取模型,可以用于實現(xiàn)分類、檢測、嵌入和分割等。該模型計算量與Resnet50/101 相比近乎降低了一個數(shù)量級,可以更好地滿足高實時性且資源受限的應用場景。MobileNetV1 網(wǎng)絡最大的創(chuàng)新點是引入了深度可分離卷積[10],與標準卷積不同的是,深度可分離卷積將卷積核拆分成單通道結構,也就是在不改變輸入圖像深度的情況下,對各個通道進行卷積計算,從而得到和輸入圖像通道數(shù)一樣的輸出特征圖,這部分稱為深度卷積(DW)。過少的維度無法保障能夠提取出足夠的有效特征信息,因此需要進一步對輸出特征圖進行逐點卷積操作(PW)以達到升維的目的,最終得到與標準卷積結果相同維度的輸出特征圖。深度可分離卷積與標準卷積對比如圖3所示。
圖3 深度可分離卷積與標準卷積對比Fig.3 Depthwise separable convolution vs standard convolution
假設給定標準卷積的卷積核尺寸、維度、數(shù)量和輸出特征圖的尺寸,深度可分離卷積與標準卷積的參數(shù)量減少比和計算量減少比分別如公式⑴及公式⑵所示。
式中:Lo×Wo為輸出特征圖的尺寸;L×W為卷積核尺寸;M為卷積核維度;N為卷積核數(shù)量。
MobileNetV2 是對MobileNetV1 的改進,最主要的改進點是在深度可分離卷積的基礎上借鑒Resnet 的殘差結構,引入倒置殘差模塊(Inverted Residual)[11]。在MobileNetV1 的DW+PW 卷 積 中,計算量主要集中于PW 卷積上。含有倒置殘差模塊的深度可分離卷積結構如圖4 所示,倒置殘差模塊的主要思想是將1 個PW 卷積改進為在DW 之前的1 個升維操作PW 和之后的1 個降維操作PW,升維系數(shù)均定為6。從而在提升DW 工作維度、改善其提取效果的同時,進一步降低PW 的計算量,提升網(wǎng)絡性能。倒置殘差模塊的計算量如公式⑶所示。
圖4 含有倒置殘差模塊的深度可分離卷積結構Fig.4 Depthwise separable convolutional architecture with inverted residual module
綜上,以MobileNetV2 網(wǎng)絡中的倒置殘差模塊替換標準Mask-R-CNN 主干特征提取網(wǎng)絡Resnet50/101 中的所有標準卷積,以達到減少網(wǎng)絡參數(shù)量及計算量的目的,在基本不降低模型準確程度的同時,極大提高Mask-R-CNN 模型的圖像處理效率,使模型滿足車載使用環(huán)境的實時性要求。
2.3.2 PointRend模塊
實例分割網(wǎng)絡在特征提取過程中,通過反復使用卷積、池化等操作,提高特征密度,再經(jīng)過上采樣操作,將圖像尺寸恢復至原始大小,獲得圖像中的語義信息。但是,由于邊界輪廓信息在對象像素中占比很小,上采樣操作過程必然會丟失部分輪廓信息,造成較大的語義分割邊界誤差,限制語義分割的準確性。這在列車運行環(huán)境感知方面帶來的問題是在距離較遠時,不能很好地對物體的種類進行分類,并且軌道和障礙物邊緣輪廓的不清晰還會對檢測范圍的判定造成影響,造成誤報率提高的問題。
以往的研究表明[12-14],語義分割中,模型最容易誤判的像素基本上都在物體邊緣。用傳統(tǒng)方法解決語義分割邊界誤差較大問題的難點在于,要實現(xiàn)高像素的實例分割,需要對像素進行逐一計算,必然會帶來大算力的問題,因此就需要權衡算力和高像素語義分割之間的關系。而采用PointRend 算法可有效解決語義分割邊界誤差較大問題。
PointRend 算法將圖像渲染思想與語義分割過程中的上采樣進行結合,在上采樣過程中通過迭代生成高質量的語義分割[15]。在迭代過程中,不斷通過選取邊界上不確定的像素點進行運算,達到最終效果。PointRend算法示意如圖5所示,分為以下步驟。①使用雙線性插值對CNN 網(wǎng)絡輸出結果進行2倍雙線性插值上采樣,得到大顆粒度的預測結果;②根據(jù)預測結果在上采樣結果中挑選出若干個預測概率接近0.5的點,作為邊界分割“難點”;③對于每個“難點”通過2 個方面獲取其特征向量,一是通過“難點”坐標在細顆粒度淺層特征圖上進行雙線性插值獲得,二是來自于步驟①獲得的大顆粒度預測結果;④使用多層感知機(MLP)對以上特征向量進行預測,得到更加精細的預測結果。通過在模型的上采樣過程中重復這樣的算法,能夠盡可能地保留輪廓信息,獲得精確的語義分割邊界點,有效提高分割精度。
圖5 PointRend算法示意Fig.5 Algorithm schematic of PointRend
高質量的數(shù)據(jù)集對于計算機視覺任務來說至關重要,借助國家鐵路智能運輸系統(tǒng)工程技術研究中心的優(yōu)勢資源,在環(huán)形鐵道試驗中心的試驗車輛上安裝視覺采集設備,隨車在試驗當中采集大量環(huán)形鐵道試驗場試驗車輛前方展望圖像數(shù)據(jù)材料。該數(shù)據(jù)集的采集使用了2 個單目攝像頭、1 套網(wǎng)絡視頻錄像(NVR)記錄設備,具體配置為:圖像采集攝像頭采用??低旾P 攝像頭B12HV2-IA;網(wǎng)絡視頻錄像機采用??低昇VR7104N-F1/4P。
完成數(shù)據(jù)的采集后,需要進行標注才能應用于模型的訓練。為此,首先將采集的視頻材料每隔10 幀截圖1 張,進而利用開源的Labelme 數(shù)據(jù)集標注軟件,采用點線標注的方式對其中的列車前方占用的鋼軌進行密集標注。最后,建立了一個包含6 000余張圖片的軌道檢測數(shù)據(jù)集。
訓練模型的設備為CPU I9 10900K 8 核,雙GTX2080Ti 顯卡,64G 內存的PC 機。深度學習框架是Tensorflow開源平臺和Keras人工神經(jīng)網(wǎng)絡庫,通過編程軟件完成模型的實現(xiàn),再使用CUDA10及Cudnn工具調用GPU對模型進行訓練,使模型中的參數(shù)取值達到最優(yōu)化。
使用的訓練集分為兩部分,一部分是公開數(shù)據(jù)集,另一部分是自有數(shù)據(jù)集。其中,公開數(shù)據(jù)集使用的是微軟COCO數(shù)據(jù)集,而自有數(shù)據(jù)集則是在環(huán)形試驗場采集、標注的6 000 余張圖片的軌道檢測數(shù)據(jù)集。這樣就可以使模型同時具備列車運行區(qū)域的識別能力和前車、人、大型牲畜等常見障礙物的識別能力。
為進行室內仿真試驗,以列車前方展望視角錄制一段人員在軌道區(qū)域反復穿梭的視頻。從該視頻中選取了200 幀人員進入列車運行區(qū)域的圖片,以及200 幀人員不在運行區(qū)域的圖片作為對照。模型處理情況對比如圖6所示。
試驗使用常用的F-Measure評價標準,作為評價結果的標準。F-Measure 評價體系結合準確率、精確率和召回率等參數(shù)綜合計算調和平均數(shù),是信息檢索、機器學習等領域的常用的評價標準,常用于綜合考量模型的實用性。在仿真試驗過程中,沒有對人員存在的識別發(fā)生誤判,且對列車運行區(qū)域的分割始終正確、清晰。模型是否輸出報警信號取決于人員輪廓邊界值與列車運行區(qū)域邊界值的比較,但模型對于人員輪廓的分割準確性還有待進一步提高,特別是當人員與攝像頭的距離拉大以后,導致實例分割難度加大,共造成17 個圖片的誤判,最終模型取得95.56%的F-Measure評價值。仿真試驗結果如表1所示。
表1 仿真試驗結果Tab.1 Simulation test results
相關研究表明,司機在遇到緊急情況時,觀察、判斷、反應到最終完成緊急制動操作的一系列過程耗時為3 s 左右,因此可以很容易得出列車在司機反應時間內的走行距離。運行環(huán)境感知系統(tǒng)的優(yōu)勢在于反應時間極快,根據(jù)室內仿真試驗的結果,優(yōu)化后的單幀圖像模型處理耗時平均為70 ms左右,相比于司機,這樣的耗時幾乎可以忽略不計。將司機反應時間與各種軌道交通列車運行速度、緊急制動平均減速度和最大緊急制動距離參數(shù)相結合,可以進一步計算得出緊急情況下由運行環(huán)境感知系統(tǒng)代替司機輸出緊急制動命令,司機反應時間內列車降低的速度和列車動能減小的幅度。
受限于相機等傳感器的性能,目前的運行環(huán)境感知系統(tǒng)最大感知距離為300 m,還遠低于司機在良好環(huán)境下2 000 m 以上的瞭望距離,這也是運行環(huán)境感知系統(tǒng)目前無法在國家鐵路線路得到大量應用的主要原因。在司機注意力不集中或視野受限情況下,司機未能參與緊急情況處置,則障礙物在進入運行環(huán)境感知系統(tǒng)感知范圍后,由運行環(huán)境感知系統(tǒng)立刻下達緊急制動命令,可以計算出列車在感知距離內降低的速度及動能降低幅度。運行環(huán)境感知系統(tǒng)應用分析相關數(shù)據(jù)如表2所示。
表2 運行環(huán)境感知系統(tǒng)應用分析相關數(shù)據(jù)Tab.2 Operating environment awareness system application analysis related parameters
(1)對于城市軌道交通,目前運行環(huán)境感知系統(tǒng)所具備的感知范圍及感知實時性完全可以在遇到緊急情況時使列車在感知范圍內停穩(wěn),從而阻止事故的發(fā)生,使城軌交通全自動運行成為可能,運行環(huán)境感知系統(tǒng)在城軌交通領域的應用意義最大。
(2)對于市域快線及普速鐵路,雖然無法使列車在感知范圍內及時停車,但運行環(huán)境感知系統(tǒng)相比于司機的快速反應可以為列車緊急制動爭取寶貴時間,最不利情況下在感知距離內下達的緊急制動命令也可以大幅降低列車的速度和動能。運行環(huán)境感知系統(tǒng)在市域快線及普速鐵路領域的應用可以有效降低事故損失。
(3)對于動車組及高速鐵路,運行環(huán)境感知系統(tǒng)的感知距離與其緊急制動距離差距過于懸殊,無法對二者緊急情況下的處置起到明顯作用,因此,在傳感器技術沒有突破性發(fā)展大幅延長運行環(huán)境感知系統(tǒng)的感知距離以前,運行環(huán)境感知系統(tǒng)在動車組及高速鐵路領域的應用不能起到明顯作用。
(4)以上分析均是基于列車在完全監(jiān)控模式下以最高線路速度運行的條件下做出的,在降級運行的情況下,需要司機以低于25 km/h 的速度目視行車。在這種情況下運行環(huán)境感知系統(tǒng)的參與可以對司機的操作提供監(jiān)測及預警,是對司機操作的有力補充。
實現(xiàn)列車前方障礙物的主動智能檢測對保證列車運行環(huán)境安全具有重大意義,同時也是軌道交通實現(xiàn)全自動運行的重要前提[16]。研究在明確列車運行環(huán)境感知系統(tǒng)需求和結構的基礎上,將Mask-RCNN 網(wǎng)絡應用于障礙物感知任務,并創(chuàng)造性地對該網(wǎng)絡進行優(yōu)化改進,在不損失其識別準確率的前提下大幅提升模型的實時性。未來,在改進型Mask-R-CNN視覺網(wǎng)絡基礎上,還應研究多種傳感器信息融合感知技術,進一步提升障礙物感知系統(tǒng)性能表現(xiàn)。