• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于地鐵運營日志文本挖掘的危險源辨識算法研究*

      2022-04-26 01:55:46牟慶泉丁小兵劉志鋼吳先源
      關(guān)鍵詞:分詞危險源日志

      牟慶泉,丁小兵,劉志鋼,吳先源

      (上海工程技術(shù)大學(xué) 城市軌道交通學(xué)院,上海 200336)

      0 引言

      目前,國內(nèi)外大型城市內(nèi)部交通堵塞、環(huán)境污染、土地資源緊張等問題已為常態(tài),而以地鐵為主的城市軌道交通憑借其高運能、低能耗、安全度高等優(yōu)點,在各類大型城市中廣泛運行。截至2020年12月31日,全國開通運營城市軌道交通的城市共44個,運營線路共233條,線路長度7 545.5 km,車站4 660座,共開行列車2 528萬列次,累計客運量175.9億人次[1],可有效解決大型城市交通面臨的多種問題,同時帶來巨大的社會效益。同時,各類險性事件的發(fā)生對乘客的人身安全以及運營企業(yè)的財產(chǎn)安全造成嚴(yán)重威脅。

      為解決以上問題,國內(nèi)外學(xué)者開展大量研究[2]。近年來,自然語言處理技術(shù)趨向成熟,并在多個領(lǐng)域廣泛應(yīng)用[3-5]。羅文慧等[6]對道路交通事故報告進(jìn)行文本預(yù)處理,建立雙隱層適應(yīng)卷積神經(jīng)網(wǎng)絡(luò),并通過樣本進(jìn)行訓(xùn)練,實現(xiàn)對安全風(fēng)險源的辨識;李玨等[7]對建筑施工高處墜落事故報告進(jìn)行特征提取,得到致因特征項、致因網(wǎng)絡(luò)及致因集合,利用詞云和網(wǎng)絡(luò)結(jié)構(gòu)圖對結(jié)果進(jìn)行展示;Li等[8]對美國天然氣管道事故報告數(shù)據(jù)進(jìn)行建模,通過文本挖掘提取有效信息,探究天然氣管道事故嚴(yán)重程度和影響因素之間的時空相關(guān)性模式;Nasri等[9]運用文本挖掘中的情感和模糊詞方法挖掘視頻平臺中評論的安全風(fēng)險問題,證實該方法可被制造商和消費產(chǎn)品安全組織用來從在線視頻中有效識別產(chǎn)品安全問題;Fa等[10]基于煤礦事故報告,采用文本挖掘技術(shù)建立煤礦人因分析分類系統(tǒng),從多個角度識別人機交互系統(tǒng)框架中的層次結(jié)構(gòu)關(guān)系;Xu等[11]利用文本挖掘技術(shù)設(shè)計翻譯管理框架,并提出信息熵加權(quán)的術(shù)語頻率,用于術(shù)語重要性評價,最終提取出影響建筑安全的核心因素。

      現(xiàn)有研究針對行業(yè)事故報告,運用文本挖掘技術(shù)有效實現(xiàn)對風(fēng)險或風(fēng)險致因的挖掘和分析。但針對軌道交通領(lǐng)域,文本挖掘技術(shù)的應(yīng)用研究較少,本文提出AFP-tree(Ameliorate Frequent Pattern-tree)算法,深度挖掘城市軌道交通運營日志中危險源與險性事件之間的強關(guān)聯(lián)規(guī)則,最后得到地鐵交通系統(tǒng)運營過程中的關(guān)鍵危險源集合,研究結(jié)果可為地鐵運營單位實現(xiàn)“事前”風(fēng)險預(yù)防提供方向和依據(jù)。

      1 地鐵運營日志數(shù)據(jù)預(yù)處理

      運營日志作為地鐵運營過程中的關(guān)鍵數(shù)據(jù),包括地鐵運營過程中所遇到的各種故障、突發(fā)事件、事件發(fā)生時間地點等多維度的信息記錄。這些信息通常是對事件的一段描述,不能直接作為數(shù)據(jù)挖掘的對象,需要進(jìn)行數(shù)據(jù)預(yù)處理,將其轉(zhuǎn)化為適合算法分析的數(shù)據(jù)格式。

      1)數(shù)據(jù)預(yù)處理流程

      首先,地鐵運營日志的原始數(shù)據(jù)中包含大量的正常調(diào)度、定期檢查等信息,但上述信息與地鐵運營險性事件不相關(guān),將其定義為干擾數(shù)據(jù),并做刪除操作;對去干擾后的數(shù)據(jù)進(jìn)行分詞,在分詞之前需要加載自定義專業(yè)術(shù)語詞典,以提高分詞準(zhǔn)確率;最后進(jìn)行去停用詞操作,以提高危險源辨識的準(zhǔn)確性。具體流程如圖1所示。

      2)干擾數(shù)據(jù)清理

      選取上海地鐵軌道交通的運營日志作為原始數(shù)據(jù),共m條,首先使用Python語言對該部分?jǐn)?shù)據(jù)進(jìn)行去干擾操作,最后剩余n條有效數(shù)據(jù),刪除干擾數(shù)據(jù)的偽代碼如圖2所示。

      3)Jieba分詞及去停用詞處理

      本文借助Pycharm開發(fā)平臺,分詞使用Python中的Jieba庫進(jìn)行。Jieba庫內(nèi)置3種分詞辦法,本文選取更適合做文本分析的精確模式[12]。在對數(shù)據(jù)分詞前加載自定義專業(yè)術(shù)語詞典,用來提高分詞的準(zhǔn)確性,為保障文本處理質(zhì)量,共構(gòu)建643個地鐵軌道交通危險源詞匯與326個地鐵軌道交通專業(yè)術(shù)語;分詞完成后進(jìn)行去停用詞操作,刪除日志文本中與研究不相關(guān)的詞匯,以哈工大停用詞表為依據(jù),結(jié)合地鐵運營特點,形成自定義停用詞表,共包含1 894個停用詞。具體處理結(jié)果見表1。

      表1 Jieba分詞與去停用詞操作列舉Table 1 Lists of Jieba words segmentation and stop words removal operation

      經(jīng)過文本預(yù)處理,將地鐵運營日志轉(zhuǎn)化為可用于進(jìn)行文本挖掘的格式,即可以輸入AFP-tree算法中進(jìn)行定量分析。

      2 基于AFP-tree算法運營危險源辨識

      經(jīng)典的Apriori關(guān)聯(lián)規(guī)則算法缺點明顯,學(xué)者通過改進(jìn)提出FP-growth算法[13],但FP-growth算法需要重復(fù)訪問樹節(jié)點,在數(shù)據(jù)量較大時算法效率依然不能滿足需求,本文借鑒FP-growth算法處理思想,并對其算法效率進(jìn)行改進(jìn),提出AFP-tree算法,據(jù)此算法進(jìn)行數(shù)據(jù)分析。

      2.1 數(shù)據(jù)格式轉(zhuǎn)換

      假設(shè)在日志文件預(yù)處理后,每條數(shù)據(jù)中的單詞個數(shù)為n,則其中連續(xù)2條數(shù)據(jù)表示如式(1)所示:

      (1)

      式中:Xi表示第i條數(shù)據(jù),i∈(1,m);xj表示第j個單詞的嵌入,j∈(1,n),對于相同的單詞,用同1個xj表示。以此類推,可以將全部的單詞以xj的形式進(jìn)行表示。

      基于列車運營時的調(diào)度日志數(shù)據(jù),闡述利用FP-growth算法對原始日志數(shù)據(jù)進(jìn)行處理,并深入挖掘關(guān)聯(lián)規(guī)則的過程。首先,將獲取的日志運用前述方法和步驟進(jìn)行數(shù)據(jù)預(yù)處理,產(chǎn)生日志數(shù)據(jù)的存儲形式,見表2。表中ID表示每條日志數(shù)據(jù)的編碼,xj表示第j個單詞的嵌入。將數(shù)據(jù)轉(zhuǎn)化為可以用FP-growth算法處理的格式后,需要構(gòu)建1個FP樹,用以存儲數(shù)據(jù)。

      表2 運營日志預(yù)處理后的事件描述形式Table 2 Event description forms after preprocessing of operation log

      2.2 FP樹的構(gòu)建及算法的改進(jìn)

      本文在計算過程中使用支持度和置信度2項指標(biāo)作為數(shù)據(jù)處理過程中的判定依據(jù),其中支持度用于計算數(shù)據(jù)關(guān)聯(lián)出現(xiàn)的概率,置信度用以挖掘文本中的強關(guān)聯(lián)規(guī)則,如式(2)~(3)所示:

      (2)

      (3)

      式中:X,Y分別代表不同數(shù)據(jù)元素;P(XY)表示X和Y同時發(fā)生的概率;mXY表示X和Y同時發(fā)生的頻數(shù);Mall表示總數(shù)據(jù)量;P(X|Y)表示Y發(fā)生的條件下X發(fā)生的概率;P(Y)表示元素Y發(fā)生的概率。

      構(gòu)建FP樹作為FP-growth算法的第1步,要先掃描全部數(shù)據(jù),對所有元素項的頻數(shù)進(jìn)行累加計數(shù),然后根據(jù)設(shè)定的支持度,過濾掉不滿足支持度的數(shù)據(jù),再對滿足的數(shù)據(jù)由高到低進(jìn)行排序,生成頻繁項集事件元素表,設(shè)定支持度計數(shù)為2,所以在表3中重新排序后的x16、x17、x18等數(shù)據(jù)均被刪除,如表3所示。

      表3 頻繁項集事件元素表Table 3 Event element table of frequent itemsets

      FP-growth算法需要構(gòu)建頭指針表,用以存儲全部元素項的出現(xiàn)頻數(shù),該指針指向樹中對應(yīng)元素項的首位節(jié)點,本文使用Python程序中的“字典”儲存頭指針表。最終構(gòu)建結(jié)果如圖3所示。

      圖3 構(gòu)建FP樹Fig.3 Establishment of FP-tree

      在構(gòu)建FP樹后,要從FP樹中挖掘頻繁模式,由于FP-growth算法在產(chǎn)生條件模式基時,需要多次遍歷公共路徑,將占用大量計算機內(nèi)存,同時使計算時間顯著延長[14-15]。為提高算法效率,降低算法復(fù)雜度,對FP-growth算法進(jìn)行改進(jìn),提出AFP-tree算法,運用遍歷中先序遍歷的思想讀取FP樹,使取得頻繁1-項集的全部條件模式基僅需要掃描1次FP樹,AFP-tree算法產(chǎn)生條件模式基主要包括以下6個步驟:

      1)搭建通用路徑(CP)并將初值設(shè)定為空,掃描結(jié)點x5,此時CP內(nèi)存儲的是x5的前綴路徑,因為CP現(xiàn)在為空,所以x5的條件模式基同樣為空。

      2)將x5存入CP,然后掃描結(jié)點x10,此時SP存儲的是x10的前綴路徑,所以x5是x10的1個條件模式基的1個條件模式基,支持度計數(shù)4,記為x5:4。

      3)將x10存入CP,更新CP內(nèi)容為x5x10。接著掃描x2,此時CP存儲的是x2的前綴路徑,所以x5,x10是x2的條件模式基,支持度計數(shù)3,記為x5,x10:3。

      4)將x2存入CP,更新CP內(nèi)容為x5x10x2。接著掃描x6,同步驟2)~3)可得出x6的前綴路徑,繼續(xù)掃描可得到x8的前綴路徑為x5,x10,x2,x6,x9,x4,x7:1,此時發(fā)現(xiàn)x8為終端結(jié)點,返回至最近分支處,遍歷未被掃描的分支結(jié)點x9,同時CP內(nèi)容更新為x5x10x2x6。

      5)繼續(xù)掃描x9的另一個子結(jié)點x12,得到x12的1個條件模式基x5,x10x2,x6,x9:1,同時更新CP內(nèi)容為x5x10x2x6x9x12,然后掃描x15,得到x15的1個條件模式基x5,x10,x2,x6,x9,x12:1。

      6)繼續(xù)掃描發(fā)現(xiàn),x15是葉結(jié)點,返回到未被掃描的分支結(jié)點x10,以此類推,可全部掃描樹中剩余的子結(jié)點,并最終得到全部的條件模式基,見表4。

      表4 通過條件模式基尋找頻繁模式Table 4 Finding frequent patterns by conditional pattern bases

      AFP-tree算法對樹進(jìn)行掃描即運用先序遍歷的思想,只需對FP樹所有結(jié)點掃描1次,便可獲得數(shù)據(jù)中所有頻繁1-項集的條件模式基,其中,算法的復(fù)雜度包括時間復(fù)雜度和空間復(fù)雜度,與樹的節(jié)點數(shù)一致,均為O(n),n為FP樹全部結(jié)點的數(shù)目。

      本文采取實時剪枝的方法,僅保留滿足支持度的頻繁項集,將不滿足支持度閾值的項刪除,建立去冗余的條件FP樹,如圖4所示。

      圖4 條件FP樹Fig.4 Conditional FP-tree

      從表3及圖4的挖掘結(jié)果中,獲得頻繁模式:(x5,x10,x2,x6,x9:2),可確定x5,x10,x2,x6,x9之間為強關(guān)聯(lián)規(guī)則,即車門、晚點、上行、故障、終到之間存在強關(guān)聯(lián)規(guī)則,進(jìn)一步得到(x5,x10:4),既車門、晚點之間存在更強的關(guān)聯(lián)規(guī)則。當(dāng)挖掘的樣本量足夠大時,可出現(xiàn)更多的頻繁項集,進(jìn)一步可得到完整的規(guī)則,最終得到造成地鐵運營風(fēng)險事件的關(guān)鍵危險源。

      3 算例分析

      3.1 數(shù)據(jù)描述

      地鐵運營調(diào)度日志由車站調(diào)度工作人員,在地鐵運營活動過程中實時記錄的某些情況發(fā)生時車站工作人員的行為、動作及事件狀態(tài)的文本描述,其中包括正常事件和險性事件相關(guān)的描述。本文文本挖掘的原始數(shù)據(jù)為某地鐵公司運營線路的2017—2019年地鐵運營調(diào)度日志。其核心字段“content”是對事件內(nèi)容進(jìn)行客觀記錄的字段。

      3.2 實驗環(huán)境

      實驗平臺選取Intel(R) Core(TM) i5-10210U CPU 2.11GHz、16G內(nèi)存、Windows10、64位操作系統(tǒng),數(shù)據(jù)處理在Pycharm軟件中運用Python語句完成。

      3.3 基于改進(jìn)Apriori算法的危險源挖掘

      1)數(shù)據(jù)預(yù)處理

      首先對地鐵運營日志原始數(shù)據(jù)中的干擾數(shù)據(jù)進(jìn)行清理,從102 834條原始數(shù)據(jù)中得到38 465條與造成運營風(fēng)險事件有關(guān)的數(shù)據(jù),去除干擾數(shù)據(jù),結(jié)果見表5。

      表5 數(shù)據(jù)去干擾結(jié)果Table 5 Results of data de-interference

      運用Jieba庫對去干擾后的數(shù)據(jù)進(jìn)行分詞及去停用詞操作,并對得到的數(shù)據(jù)進(jìn)行詞向量的嵌入,預(yù)處理后的數(shù)據(jù)見表6。

      表6 預(yù)處理后的數(shù)據(jù)描述Table 6 Data description after preprocessing

      2)數(shù)據(jù)分析

      將經(jīng)過預(yù)處理后的運營日志數(shù)據(jù)輸入AFP-tree算法中,運用Pycharm運行工具進(jìn)行數(shù)據(jù)分析,得出最終的事務(wù)頻繁模式,由于最終的事務(wù)頻繁模式規(guī)模較大,本文僅選取部分模式作為展示,見表7。

      表7 最終的事務(wù)頻繁模式Table 7 Final transaction frequent pattern

      通過AFP-tree算法計算得出各個關(guān)聯(lián)規(guī)則的置信度,通過多次實驗對比,本文數(shù)據(jù)在設(shè)定支持度為20%、置信度閾值為60%時,實驗可以取得較為理想的效果。

      取置信度超過閾值的危險源為關(guān)鍵危險源,通過計算共辨識出25種關(guān)鍵危險源,計算結(jié)果輸出以詞云形式展現(xiàn),如圖5所示。圖中字號越大,字體顏色越明顯,表示該危險源的置信度越高。置信度越高,表示該危險源導(dǎo)致風(fēng)險事件的概率越大,需要重點防范與控制。

      圖5 關(guān)鍵危險源詞云Fig.5 Words cloud of key hazard sources

      根據(jù)置信度對25種關(guān)鍵危險源進(jìn)行分級,見表8。以10%為1個間隔,共將危險源劃分為4個等級,I級表示最高等級,該范圍內(nèi)的危險源需要重點防范與控制,Ⅳ級表示關(guān)鍵危險源分類后的最低等級,但仍然需要格外關(guān)注,防范其發(fā)生危險,以及與其相關(guān)的其他衍生危險事件。

      表8 關(guān)鍵危險源等級劃分Table 8 Classification of key hazard sources

      根據(jù)對地鐵運營調(diào)度日志的關(guān)聯(lián)規(guī)則進(jìn)行分析,挖掘出的25種危險源中,主要集中在車輛、通號以及客觀原因(大客流、屏蔽門夾人、夾物等)中,進(jìn)一步通過對關(guān)鍵危險源的分級,針對不同等級的危險源實施有區(qū)別的管控辦法。針對Ⅰ級危險源,應(yīng)該對其實施重點管控,具體包括車門、屏蔽門、廣播、VOBC此類置信度高、易發(fā)危險的設(shè)施部件,同時注意由于天氣原因、重要節(jié)假日等導(dǎo)致的大客流問題;Ⅱ級與Ⅲ級危險源,主要為系統(tǒng)、硬件設(shè)備故障問題,可根據(jù)其具體故障頻次,結(jié)合某一硬件故障所導(dǎo)致的后果(主要以該車輛或者相關(guān)區(qū)域是否可以繼續(xù)運營為依據(jù)),安排定期巡檢、更換、維修等措施,預(yù)防危險的發(fā)生;針對Ⅳ級危險源,主要注意地鐵運營時車輛和車站內(nèi)的乘客動態(tài),系統(tǒng)及硬件問題可結(jié)合Ⅱ級與Ⅲ級危險源的處理辦法,同時車站工作人員要密切注意站臺乘客動向,尤其在客流量較大時,注意防范意外風(fēng)險的發(fā)生。

      3)改進(jìn)算法與原算法效率對比

      為驗證本文算法改進(jìn)的有效性,選取10萬條未去除干擾數(shù)據(jù)的地鐵運營調(diào)度日志數(shù)據(jù)作為實驗數(shù)據(jù),對FP-growth、Apriori和AFP-tree算法分別驗證其計算時間。實驗中每項數(shù)據(jù)由計算機運行8次后取平均值得出,在一定程度上避免由于計算機本身原因出現(xiàn)的偶然結(jié)果。

      3種算法在數(shù)據(jù)類型和數(shù)據(jù)量完全相同條件下,支持度發(fā)生變化時算法的運行時間對比如圖6所示。對比最小支持度設(shè)置為0.1的條件下,樣本數(shù)據(jù)庫中數(shù)據(jù)規(guī)模逐漸增加時,3種算法的計算時長對比如圖7所示。由圖7可知,當(dāng)實驗條件相同時,改變唯一變量,AFP-tree算法耗時更短,所以AFP-tree算法在挖掘關(guān)聯(lián)規(guī)則時有更好的效率優(yōu)勢。

      圖6 不同支持度下的算法效率對比Fig.6 Comparison of algorithm efficiency under different support degrees

      圖7 不同數(shù)據(jù)規(guī)模下的算法效率對比Fig.7 Comparison of algorithm efficiency under different data scales

      4 結(jié)論

      1)通過構(gòu)建AFP-tree算法,對地鐵運營日志中的危險源進(jìn)行深入文本分析,挖掘其中關(guān)鍵危險源并進(jìn)行分級管控,通過實例證實該算法可有效應(yīng)用于地鐵軌道交通危險源辨識工作中,對于實踐有現(xiàn)實指導(dǎo)意義。

      2)通過實驗對算法的效率提升進(jìn)行驗證,改進(jìn)之后的算法相較于傳統(tǒng)算法效率得到有效提升,且數(shù)據(jù)規(guī)模越大、支持度越小時,算法效率優(yōu)勢越顯著,可以對大規(guī)模的文本數(shù)據(jù)進(jìn)行分析計算。

      猜你喜歡
      分詞危險源日志
      對某企業(yè)重大危險源核查引發(fā)的思考
      一名老黨員的工作日志
      華人時刊(2021年13期)2021-11-27 09:19:02
      扶貧日志
      心聲歌刊(2020年4期)2020-09-07 06:37:14
      橋式起重機使用環(huán)節(jié)重大危險源辨識研究
      結(jié)巴分詞在詞云中的應(yīng)用
      智富時代(2019年6期)2019-07-24 10:33:16
      鐵路工程施工危險源辨識的研究
      江西建材(2018年1期)2018-04-04 05:26:30
      游學(xué)日志
      值得重視的分詞的特殊用法
      建筑施工危險源的辨識與管理控制探討
      河南科技(2014年5期)2014-02-27 14:08:42
      一種基于粗集和SVM的Web日志挖掘模型
      娄底市| 邯郸县| 平顶山市| 枝江市| 迁西县| 遂昌县| 义马市| 河间市| 平邑县| 玛多县| 亚东县| 莒南县| 海林市| 郎溪县| 桐柏县| 兴宁市| 九龙城区| 定日县| 正安县| 北碚区| 孟州市| 民勤县| 若尔盖县| 保康县| 独山县| 茌平县| 武平县| 修水县| 突泉县| 蓝田县| 固始县| 博爱县| 营山县| 甘南县| 盐池县| 夏津县| 黑河市| 昌宁县| 淮安市| 安岳县| 巍山|