基于地鐵運營日志文本挖掘的危險源辨識算法研究*

2022-04-26 01:55:46牟慶泉丁小兵劉志鋼吳先源

中國安全生產(chǎn)科學(xué)技術(shù) 2022年3期

牟慶泉，丁小兵，劉志鋼，吳先源

(上海工程技術(shù)大學(xué) 城市軌道交通學(xué)院，上海 200336)

0 引言

目前，國內(nèi)外大型城市內(nèi)部交通堵塞、環(huán)境污染、土地資源緊張等問題已為常態(tài)，而以地鐵為主的城市軌道交通憑借其高運能、低能耗、安全度高等優(yōu)點，在各類大型城市中廣泛運行。截至2020年12月31日，全國開通運營城市軌道交通的城市共44個，運營線路共233條，線路長度7 545.5 km，車站4 660座，共開行列車2 528萬列次，累計客運量175.9億人次[1],可有效解決大型城市交通面臨的多種問題，同時帶來巨大的社會效益。同時，各類險性事件的發(fā)生對乘客的人身安全以及運營企業(yè)的財產(chǎn)安全造成嚴(yán)重威脅。

為解決以上問題，國內(nèi)外學(xué)者開展大量研究[2]。近年來，自然語言處理技術(shù)趨向成熟，并在多個領(lǐng)域廣泛應(yīng)用[3-5]。羅文慧等[6]對道路交通事故報告進(jìn)行文本預(yù)處理，建立雙隱層適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)，并通過樣本進(jìn)行訓(xùn)練，實現(xiàn)對安全風(fēng)險源的辨識；李玨等[7]對建筑施工高處墜落事故報告進(jìn)行特征提取，得到致因特征項、致因網(wǎng)絡(luò)及致因集合，利用詞云和網(wǎng)絡(luò)結(jié)構(gòu)圖對結(jié)果進(jìn)行展示；Li等[8]對美國天然氣管道事故報告數(shù)據(jù)進(jìn)行建模，通過文本挖掘提取有效信息，探究天然氣管道事故嚴(yán)重程度和影響因素之間的時空相關(guān)性模式；Nasri等[9]運用文本挖掘中的情感和模糊詞方法挖掘視頻平臺中評論的安全風(fēng)險問題，證實該方法可被制造商和消費產(chǎn)品安全組織用來從在線視頻中有效識別產(chǎn)品安全問題；Fa等[10]基于煤礦事故報告，采用文本挖掘技術(shù)建立煤礦人因分析分類系統(tǒng)，從多個角度識別人機交互系統(tǒng)框架中的層次結(jié)構(gòu)關(guān)系；Xu等[11]利用文本挖掘技術(shù)設(shè)計翻譯管理框架，并提出信息熵加權(quán)的術(shù)語頻率，用于術(shù)語重要性評價，最終提取出影響建筑安全的核心因素。

現(xiàn)有研究針對行業(yè)事故報告，運用文本挖掘技術(shù)有效實現(xiàn)對風(fēng)險或風(fēng)險致因的挖掘和分析。但針對軌道交通領(lǐng)域，文本挖掘技術(shù)的應(yīng)用研究較少，本文提出AFP-tree(Ameliorate Frequent Pattern-tree)算法，深度挖掘城市軌道交通運營日志中危險源與險性事件之間的強關(guān)聯(lián)規(guī)則，最后得到地鐵交通系統(tǒng)運營過程中的關(guān)鍵危險源集合，研究結(jié)果可為地鐵運營單位實現(xiàn)“事前”風(fēng)險預(yù)防提供方向和依據(jù)。

1 地鐵運營日志數(shù)據(jù)預(yù)處理

運營日志作為地鐵運營過程中的關(guān)鍵數(shù)據(jù)，包括地鐵運營過程中所遇到的各種故障、突發(fā)事件、事件發(fā)生時間地點等多維度的信息記錄。這些信息通常是對事件的一段描述，不能直接作為數(shù)據(jù)挖掘的對象，需要進(jìn)行數(shù)據(jù)預(yù)處理，將其轉(zhuǎn)化為適合算法分析的數(shù)據(jù)格式。

1)數(shù)據(jù)預(yù)處理流程

首先，地鐵運營日志的原始數(shù)據(jù)中包含大量的正常調(diào)度、定期檢查等信息，但上述信息與地鐵運營險性事件不相關(guān)，將其定義為干擾數(shù)據(jù)，并做刪除操作；對去干擾后的數(shù)據(jù)進(jìn)行分詞，在分詞之前需要加載自定義專業(yè)術(shù)語詞典，以提高分詞準(zhǔn)確率；最后進(jìn)行去停用詞操作，以提高危險源辨識的準(zhǔn)確性。具體流程如圖1所示。

2)干擾數(shù)據(jù)清理

選取上海地鐵軌道交通的運營日志作為原始數(shù)據(jù)，共m條，首先使用Python語言對該部分?jǐn)?shù)據(jù)進(jìn)行去干擾操作，最后剩余n條有效數(shù)據(jù)，刪除干擾數(shù)據(jù)的偽代碼如圖2所示。

3)Jieba分詞及去停用詞處理

本文借助Pycharm開發(fā)平臺，分詞使用Python中的Jieba庫進(jìn)行。Jieba庫內(nèi)置3種分詞辦法，本文選取更適合做文本分析的精確模式[12]。在對數(shù)據(jù)分詞前加載自定義專業(yè)術(shù)語詞典，用來提高分詞的準(zhǔn)確性，為保障文本處理質(zhì)量，共構(gòu)建643個地鐵軌道交通危險源詞匯與326個地鐵軌道交通專業(yè)術(shù)語；分詞完成后進(jìn)行去停用詞操作，刪除日志文本中與研究不相關(guān)的詞匯，以哈工大停用詞表為依據(jù)，結(jié)合地鐵運營特點，形成自定義停用詞表，共包含1 894個停用詞。具體處理結(jié)果見表1。

表1 Jieba分詞與去停用詞操作列舉Table 1 Lists of Jieba words segmentation and stop words removal operation

經(jīng)過文本預(yù)處理，將地鐵運營日志轉(zhuǎn)化為可用于進(jìn)行文本挖掘的格式，即可以輸入AFP-tree算法中進(jìn)行定量分析。

2 基于AFP-tree算法運營危險源辨識

經(jīng)典的Apriori關(guān)聯(lián)規(guī)則算法缺點明顯，學(xué)者通過改進(jìn)提出FP-growth算法[13]，但FP-growth算法需要重復(fù)訪問樹節(jié)點，在數(shù)據(jù)量較大時算法效率依然不能滿足需求，本文借鑒FP-growth算法處理思想，并對其算法效率進(jìn)行改進(jìn)，提出AFP-tree算法，據(jù)此算法進(jìn)行數(shù)據(jù)分析。

2.1 數(shù)據(jù)格式轉(zhuǎn)換

假設(shè)在日志文件預(yù)處理后，每條數(shù)據(jù)中的單詞個數(shù)為n，則其中連續(xù)2條數(shù)據(jù)表示如式(1)所示：

(1)

式中：Xi表示第i條數(shù)據(jù)，i∈(1,m)；xj表示第j個單詞的嵌入，j∈(1,n)，對于相同的單詞，用同1個xj表示。以此類推，可以將全部的單詞以xj的形式進(jìn)行表示。

基于列車運營時的調(diào)度日志數(shù)據(jù)，闡述利用FP-growth算法對原始日志數(shù)據(jù)進(jìn)行處理，并深入挖掘關(guān)聯(lián)規(guī)則的過程。首先，將獲取的日志運用前述方法和步驟進(jìn)行數(shù)據(jù)預(yù)處理，產(chǎn)生日志數(shù)據(jù)的存儲形式，見表2。表中ID表示每條日志數(shù)據(jù)的編碼，xj表示第j個單詞的嵌入。將數(shù)據(jù)轉(zhuǎn)化為可以用FP-growth算法處理的格式后，需要構(gòu)建1個FP樹，用以存儲數(shù)據(jù)。

表2 運營日志預(yù)處理后的事件描述形式Table 2 Event description forms after preprocessing of operation log

2.2 FP樹的構(gòu)建及算法的改進(jìn)

本文在計算過程中使用支持度和置信度2項指標(biāo)作為數(shù)據(jù)處理過程中的判定依據(jù)，其中支持度用于計算數(shù)據(jù)關(guān)聯(lián)出現(xiàn)的概率，置信度用以挖掘文本中的強關(guān)聯(lián)規(guī)則，如式(2)～(3)所示：

(2)

(3)

式中：X,Y分別代表不同數(shù)據(jù)元素；P(XY)表示X和Y同時發(fā)生的概率；mXY表示X和Y同時發(fā)生的頻數(shù)；Mall表示總數(shù)據(jù)量；P(X|Y)表示Y發(fā)生的條件下X發(fā)生的概率；P(Y)表示元素Y發(fā)生的概率。

構(gòu)建FP樹作為FP-growth算法的第1步，要先掃描全部數(shù)據(jù)，對所有元素項的頻數(shù)進(jìn)行累加計數(shù)，然后根據(jù)設(shè)定的支持度，過濾掉不滿足支持度的數(shù)據(jù)，再對滿足的數(shù)據(jù)由高到低進(jìn)行排序，生成頻繁項集事件元素表，設(shè)定支持度計數(shù)為2，所以在表3中重新排序后的x16、x17、x18等數(shù)據(jù)均被刪除，如表3所示。

表3 頻繁項集事件元素表Table 3 Event element table of frequent itemsets

FP-growth算法需要構(gòu)建頭指針表，用以存儲全部元素項的出現(xiàn)頻數(shù)，該指針指向樹中對應(yīng)元素項的首位節(jié)點，本文使用Python程序中的“字典”儲存頭指針表。最終構(gòu)建結(jié)果如圖3所示。

圖3 構(gòu)建FP樹Fig.3 Establishment of FP-tree

在構(gòu)建FP樹后，要從FP樹中挖掘頻繁模式，由于FP-growth算法在產(chǎn)生條件模式基時，需要多次遍歷公共路徑，將占用大量計算機內(nèi)存，同時使計算時間顯著延長[14-15]。為提高算法效率，降低算法復(fù)雜度，對FP-growth算法進(jìn)行改進(jìn)，提出AFP-tree算法，運用遍歷中先序遍歷的思想讀取FP樹，使取得頻繁1-項集的全部條件模式基僅需要掃描1次FP樹，AFP-tree算法產(chǎn)生條件模式基主要包括以下6個步驟：

1)搭建通用路徑(CP)并將初值設(shè)定為空，掃描結(jié)點x5，此時CP內(nèi)存儲的是x5的前綴路徑，因為CP現(xiàn)在為空，所以x5的條件模式基同樣為空。

2)將x5存入CP，然后掃描結(jié)點x10，此時SP存儲的是x10的前綴路徑，所以x5是x10的1個條件模式基的1個條件模式基，支持度計數(shù)4，記為x5:4。

3)將x10存入CP，更新CP內(nèi)容為x5x10。接著掃描x2，此時CP存儲的是x2的前綴路徑，所以x5，x10是x2的條件模式基，支持度計數(shù)3，記為x5,x10:3。

4)將x2存入CP，更新CP內(nèi)容為x5x10x2。接著掃描x6，同步驟2)～3)可得出x6的前綴路徑，繼續(xù)掃描可得到x8的前綴路徑為x5,x10,x2,x6,x9,x4,x7:1,此時發(fā)現(xiàn)x8為終端結(jié)點，返回至最近分支處，遍歷未被掃描的分支結(jié)點x9，同時CP內(nèi)容更新為x5x10x2x6。

5)繼續(xù)掃描x9的另一個子結(jié)點x12，得到x12的1個條件模式基x5,x10x2,x6,x9:1，同時更新CP內(nèi)容為x5x10x2x6x9x12，然后掃描x15，得到x15的1個條件模式基x5,x10,x2,x6,x9,x12:1。

6)繼續(xù)掃描發(fā)現(xiàn)，x15是葉結(jié)點，返回到未被掃描的分支結(jié)點x10，以此類推，可全部掃描樹中剩余的子結(jié)點，并最終得到全部的條件模式基，見表4。

表4 通過條件模式基尋找頻繁模式Table 4 Finding frequent patterns by conditional pattern bases

AFP-tree算法對樹進(jìn)行掃描即運用先序遍歷的思想，只需對FP樹所有結(jié)點掃描1次，便可獲得數(shù)據(jù)中所有頻繁1-項集的條件模式基，其中，算法的復(fù)雜度包括時間復(fù)雜度和空間復(fù)雜度，與樹的節(jié)點數(shù)一致，均為O(n)，n為FP樹全部結(jié)點的數(shù)目。

本文采取實時剪枝的方法，僅保留滿足支持度的頻繁項集，將不滿足支持度閾值的項刪除，建立去冗余的條件FP樹，如圖4所示。

圖4 條件FP樹Fig.4 Conditional FP-tree

從表3及圖4的挖掘結(jié)果中，獲得頻繁模式：(x5,x10,x2,x6,x9:2)，可確定x5,x10,x2,x6,x9之間為強關(guān)聯(lián)規(guī)則，即車門、晚點、上行、故障、終到之間存在強關(guān)聯(lián)規(guī)則，進(jìn)一步得到(x5,x10:4)，既車門、晚點之間存在更強的關(guān)聯(lián)規(guī)則。當(dāng)挖掘的樣本量足夠大時，可出現(xiàn)更多的頻繁項集，進(jìn)一步可得到完整的規(guī)則，最終得到造成地鐵運營風(fēng)險事件的關(guān)鍵危險源。

3 算例分析

3.1 數(shù)據(jù)描述

地鐵運營調(diào)度日志由車站調(diào)度工作人員，在地鐵運營活動過程中實時記錄的某些情況發(fā)生時車站工作人員的行為、動作及事件狀態(tài)的文本描述，其中包括正常事件和險性事件相關(guān)的描述。本文文本挖掘的原始數(shù)據(jù)為某地鐵公司運營線路的2017—2019年地鐵運營調(diào)度日志。其核心字段“content”是對事件內(nèi)容進(jìn)行客觀記錄的字段。

3.2 實驗環(huán)境

實驗平臺選取Intel(R) Core(TM) i5-10210U CPU 2.11GHz、16G內(nèi)存、Windows10、64位操作系統(tǒng)，數(shù)據(jù)處理在Pycharm軟件中運用Python語句完成。

3.3 基于改進(jìn)Apriori算法的危險源挖掘

1)數(shù)據(jù)預(yù)處理

首先對地鐵運營日志原始數(shù)據(jù)中的干擾數(shù)據(jù)進(jìn)行清理，從102 834條原始數(shù)據(jù)中得到38 465條與造成運營風(fēng)險事件有關(guān)的數(shù)據(jù)，去除干擾數(shù)據(jù)，結(jié)果見表5。

表5 數(shù)據(jù)去干擾結(jié)果Table 5 Results of data de-interference

運用Jieba庫對去干擾后的數(shù)據(jù)進(jìn)行分詞及去停用詞操作，并對得到的數(shù)據(jù)進(jìn)行詞向量的嵌入,預(yù)處理后的數(shù)據(jù)見表6。

表6 預(yù)處理后的數(shù)據(jù)描述Table 6 Data description after preprocessing

2)數(shù)據(jù)分析

將經(jīng)過預(yù)處理后的運營日志數(shù)據(jù)輸入AFP-tree算法中，運用Pycharm運行工具進(jìn)行數(shù)據(jù)分析，得出最終的事務(wù)頻繁模式，由于最終的事務(wù)頻繁模式規(guī)模較大，本文僅選取部分模式作為展示，見表7。

表7 最終的事務(wù)頻繁模式Table 7 Final transaction frequent pattern

通過AFP-tree算法計算得出各個關(guān)聯(lián)規(guī)則的置信度，通過多次實驗對比，本文數(shù)據(jù)在設(shè)定支持度為20%、置信度閾值為60%時，實驗可以取得較為理想的效果。

取置信度超過閾值的危險源為關(guān)鍵危險源，通過計算共辨識出25種關(guān)鍵危險源，計算結(jié)果輸出以詞云形式展現(xiàn)，如圖5所示。圖中字號越大，字體顏色越明顯，表示該危險源的置信度越高。置信度越高，表示該危險源導(dǎo)致風(fēng)險事件的概率越大，需要重點防范與控制。

圖5 關(guān)鍵危險源詞云Fig.5 Words cloud of key hazard sources

根據(jù)置信度對25種關(guān)鍵危險源進(jìn)行分級，見表8。以10%為1個間隔，共將危險源劃分為4個等級，I級表示最高等級，該范圍內(nèi)的危險源需要重點防范與控制，Ⅳ級表示關(guān)鍵危險源分類后的最低等級，但仍然需要格外關(guān)注，防范其發(fā)生危險，以及與其相關(guān)的其他衍生危險事件。

表8 關(guān)鍵危險源等級劃分Table 8 Classification of key hazard sources

根據(jù)對地鐵運營調(diào)度日志的關(guān)聯(lián)規(guī)則進(jìn)行分析，挖掘出的25種危險源中，主要集中在車輛、通號以及客觀原因(大客流、屏蔽門夾人、夾物等)中，進(jìn)一步通過對關(guān)鍵危險源的分級，針對不同等級的危險源實施有區(qū)別的管控辦法。針對Ⅰ級危險源，應(yīng)該對其實施重點管控，具體包括車門、屏蔽門、廣播、VOBC此類置信度高、易發(fā)危險的設(shè)施部件，同時注意由于天氣原因、重要節(jié)假日等導(dǎo)致的大客流問題；Ⅱ級與Ⅲ級危險源，主要為系統(tǒng)、硬件設(shè)備故障問題，可根據(jù)其具體故障頻次，結(jié)合某一硬件故障所導(dǎo)致的后果(主要以該車輛或者相關(guān)區(qū)域是否可以繼續(xù)運營為依據(jù))，安排定期巡檢、更換、維修等措施，預(yù)防危險的發(fā)生；針對Ⅳ級危險源，主要注意地鐵運營時車輛和車站內(nèi)的乘客動態(tài)，系統(tǒng)及硬件問題可結(jié)合Ⅱ級與Ⅲ級危險源的處理辦法，同時車站工作人員要密切注意站臺乘客動向，尤其在客流量較大時，注意防范意外風(fēng)險的發(fā)生。

3)改進(jìn)算法與原算法效率對比

為驗證本文算法改進(jìn)的有效性，選取10萬條未去除干擾數(shù)據(jù)的地鐵運營調(diào)度日志數(shù)據(jù)作為實驗數(shù)據(jù)，對FP-growth、Apriori和AFP-tree算法分別驗證其計算時間。實驗中每項數(shù)據(jù)由計算機運行8次后取平均值得出，在一定程度上避免由于計算機本身原因出現(xiàn)的偶然結(jié)果。

3種算法在數(shù)據(jù)類型和數(shù)據(jù)量完全相同條件下，支持度發(fā)生變化時算法的運行時間對比如圖6所示。對比最小支持度設(shè)置為0.1的條件下，樣本數(shù)據(jù)庫中數(shù)據(jù)規(guī)模逐漸增加時，3種算法的計算時長對比如圖7所示。由圖7可知，當(dāng)實驗條件相同時，改變唯一變量，AFP-tree算法耗時更短，所以AFP-tree算法在挖掘關(guān)聯(lián)規(guī)則時有更好的效率優(yōu)勢。

圖6 不同支持度下的算法效率對比Fig.6 Comparison of algorithm efficiency under different support degrees

圖7 不同數(shù)據(jù)規(guī)模下的算法效率對比Fig.7 Comparison of algorithm efficiency under different data scales

4 結(jié)論

1)通過構(gòu)建AFP-tree算法，對地鐵運營日志中的危險源進(jìn)行深入文本分析，挖掘其中關(guān)鍵危險源并進(jìn)行分級管控，通過實例證實該算法可有效應(yīng)用于地鐵軌道交通危險源辨識工作中，對于實踐有現(xiàn)實指導(dǎo)意義。

2)通過實驗對算法的效率提升進(jìn)行驗證，改進(jìn)之后的算法相較于傳統(tǒng)算法效率得到有效提升，且數(shù)據(jù)規(guī)模越大、支持度越小時，算法效率優(yōu)勢越顯著，可以對大規(guī)模的文本數(shù)據(jù)進(jìn)行分析計算。