• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于文本挖掘的鐵路基礎(chǔ)設(shè)施設(shè)備風(fēng)險(xiǎn)隱患識(shí)別模型

      2018-03-01 18:57:04張秋艷
      關(guān)鍵詞:詞頻分詞隱患

      李 擎,張秋艷,白 磊,2

      (1.北京交通大學(xué) 交通運(yùn)輸學(xué)院,北京 100044;2.北京易華錄信息技術(shù)股份有限公司,北京 100043)

      隨著鐵路信息化的不斷推進(jìn),管理者積累了大量與安全生產(chǎn)問(wèn)題相關(guān)的檢查數(shù)據(jù)。這些數(shù)據(jù)全面記錄了鐵路日常生產(chǎn)過(guò)程中發(fā)生的安全問(wèn)題,但大部分都是長(zhǎng)文本格式,管理者難以快速、高效理解與挖掘這些數(shù)據(jù)中隱藏的新的知識(shí)。

      文本挖掘是指將可理解的、事先未知的、最終可用的知識(shí)從海量文本數(shù)據(jù)中抽取出來(lái)的過(guò)程,同時(shí)利用這些知識(shí)更高效地組織信息便于今后借鑒[1]。文本挖掘技術(shù)在生物學(xué)、醫(yī)學(xué)、情報(bào)分析、人文科學(xué)等領(lǐng)域應(yīng)用廣泛[2-6]。

      本文在分析鐵路安全生產(chǎn)問(wèn)題數(shù)據(jù)基礎(chǔ)上,提出一種基于文本挖掘的鐵路基礎(chǔ)設(shè)施設(shè)備風(fēng)險(xiǎn)隱患識(shí)別模型(TMBI-RIR,Text Mining Based Identi-fication Model for Railway Infrastructure Risk),深入分析記錄工務(wù)、電務(wù)和供電專(zhuān)業(yè)的設(shè)備質(zhì)量問(wèn)題的長(zhǎng)文本形式的數(shù)據(jù),確定鐵路存在風(fēng)險(xiǎn)隱患的薄弱設(shè)備類(lèi)型與易發(fā)病害類(lèi)型,提升管理者安全風(fēng)險(xiǎn)管理水平。

      1 鐵路安全生產(chǎn)問(wèn)題數(shù)據(jù)說(shuō)明

      1.1 安全生產(chǎn)問(wèn)題數(shù)據(jù)表結(jié)構(gòu)

      原鐵道部安全監(jiān)察司的鐵路安全檢查管理信息系統(tǒng)已在全路推廣應(yīng)用多年,系統(tǒng)積累了大量的安全問(wèn)題數(shù)據(jù),其登錄界面如圖1所示。系統(tǒng)主要功能包括安全信息處理、安全信息查詢(xún)、安全信息統(tǒng)計(jì)等,實(shí)現(xiàn)對(duì)鐵路安全生產(chǎn)問(wèn)題錄入,班組、車(chē)間整改,鐵路局、站段整改后復(fù)查的閉環(huán)管理,輔助管理者把握鐵路日常生產(chǎn)中的安全風(fēng)險(xiǎn)隱患。

      圖1 鐵路安全檢查管理信息系統(tǒng)登錄界面

      系統(tǒng)中記錄鐵路安全生產(chǎn)問(wèn)題的數(shù)據(jù)表結(jié)構(gòu)見(jiàn)表1。其中,字段“大類(lèi)”填寫(xiě)內(nèi)容為通用、工務(wù)、電務(wù)、供電、車(chē)輛等,“字段類(lèi)別”填寫(xiě)內(nèi)容為設(shè)備質(zhì)量、安全管理、現(xiàn)場(chǎng)作業(yè)、職工素質(zhì)及其他。

      表1 鐵路安全生產(chǎn)問(wèn)題數(shù)據(jù)表結(jié)構(gòu)

      1.2 問(wèn)題詳情描述字段分析

      如表1所示,數(shù)據(jù)表中,問(wèn)題詳情描述字段內(nèi)容是以長(zhǎng)文本形式存在的(340字符),該字段包含了較為豐富的信息,如設(shè)備類(lèi)型、病害類(lèi)型、病害發(fā)生位置、病害嚴(yán)重程度等信息。表2是問(wèn)題詳情描述字段填寫(xiě)內(nèi)容樣例。管理者難以從大量的長(zhǎng)文本形式的數(shù)據(jù)中分析出與病害類(lèi)型、設(shè)備類(lèi)型、病害發(fā)生位置等相關(guān)的新知識(shí),本文采用基于文本挖掘的鐵路基礎(chǔ)設(shè)施設(shè)備風(fēng)險(xiǎn)隱患識(shí)別模型(TMBIRIR),挖掘長(zhǎng)文本形式的鐵路基礎(chǔ)設(shè)施設(shè)備質(zhì)量問(wèn)題詳情描述數(shù)據(jù)中潛在的有價(jià)值信息,為管理者識(shí)別鐵路基礎(chǔ)設(shè)施風(fēng)險(xiǎn)隱患提供支持。

      2 TMBI-RIR

      TMBI-RIR 采用基于層疊隱馬爾科夫(CHMM)的中文分詞算法對(duì)長(zhǎng)文本形式的設(shè)備質(zhì)量問(wèn)題詳情數(shù)據(jù)進(jìn)行分詞處理,根據(jù)分詞結(jié)果統(tǒng)計(jì)詞頻,確定鐵路薄弱設(shè)備類(lèi)型與易發(fā)病害類(lèi)型,并對(duì)分析結(jié)果以詞云圖的方式進(jìn)行直觀、清晰展示,模型計(jì)算流程如圖2所示。

      表2 問(wèn)題詳情描述字段填寫(xiě)內(nèi)容樣例

      圖2 模型TMBI-RIR算法流程圖

      2.1 記錄設(shè)備質(zhì)量問(wèn)題的長(zhǎng)文本形式數(shù)據(jù)分詞

      中文分詞是指把一整段中文文字串切割成最小語(yǔ)義詞條信息的過(guò)程[7]。采用CHMM中文分詞算法,將記錄設(shè)備質(zhì)量問(wèn)題的長(zhǎng)文本形式數(shù)據(jù)切分成一個(gè)一個(gè)單獨(dú)的詞[8],其計(jì)算流程如圖3所示。

      圖3 基于CHMM分詞算法的計(jì)算流程

      原子切分是指將記錄設(shè)備質(zhì)量問(wèn)題的長(zhǎng)文本形式文字串切分為分詞原子(如:?jiǎn)蝹€(gè)漢字、標(biāo)點(diǎn)或非漢字串等)序列。簡(jiǎn)單未登錄詞識(shí)別是指在上一步切分結(jié)果的基礎(chǔ)上,利用一階隱馬爾科夫模型(HMM),識(shí)別出未登錄詞(如:線路名、車(chē)站名、管轄單位名等)。嵌套未登錄詞識(shí)別是指在上一步識(shí)別結(jié)果的基礎(chǔ)上,利用一階HMM,識(shí)別出嵌套了未登錄詞的復(fù)雜地名和機(jī)構(gòu)名?;陬?lèi)的HMM分詞是指在識(shí)別出所有未登記詞后,結(jié)合核心詞典,利用一階HMM,采用N-最短路徑的切分排歧策略,對(duì)普通詞和未登錄詞進(jìn)行統(tǒng)一競(jìng)爭(zhēng)和篩選,確定描述設(shè)備質(zhì)量問(wèn)題字符串的最終分詞結(jié)果。詞類(lèi)的HMM標(biāo)注是指在最終分詞結(jié)果的基礎(chǔ)上,利用一階HMM,確定描述設(shè)備質(zhì)量問(wèn)題字符串中各單詞的詞性(如動(dòng)詞、名詞)。

      其中,基于類(lèi)的隱馬爾科夫分詞算法(第2層HMM),見(jiàn)公式(1)。給定長(zhǎng)文本形式設(shè)備質(zhì)量問(wèn)題字符串S,存在多種分詞結(jié)果W=(w1,w2, …,wn),W∈? ,C=(c1,c2,…,cn) 是分詞結(jié)果W的詞類(lèi)別。分詞序列W作為觀測(cè)狀態(tài),對(duì)應(yīng)的詞類(lèi)別C作為真實(shí)狀態(tài),依據(jù)隱馬爾科夫算法,選取似然函數(shù)概率P(W)最大的分詞結(jié)果W#作為最終的分詞結(jié)果。W#可以通過(guò)Viterbi算法[9]得到。為計(jì)算方便,公式(1)可等價(jià)轉(zhuǎn)化為公式(2)。其他層的隱馬爾科夫HMM算法與之類(lèi)似,不再重復(fù)論述。

      2.2 詞頻統(tǒng)計(jì)

      詞頻統(tǒng)計(jì)是指計(jì)算每類(lèi)單詞在全部文檔中出現(xiàn)的次數(shù)[10],單詞的重要性一般是與它在文檔中出現(xiàn)的頻度成正比,使用較高頻度的單詞能較好地反映文本的特征。模型通過(guò)統(tǒng)計(jì)各類(lèi)詞的頻度,找出哪些是高頻詞,確定出鐵路基礎(chǔ)設(shè)施易發(fā)病害類(lèi)型、薄弱設(shè)備類(lèi)型等。

      2.3 詞云可視化展示

      詞云是由單詞組成的、形狀類(lèi)似云的彩色圖形,是一種信息文本可視化技術(shù)[11]。每個(gè)單詞的相對(duì)大小,由相應(yīng)詞頻的高低決定,輔以多種色彩顯示,直觀反映單詞重要性差異、展示關(guān)鍵信息。模型采用詞云可視化技術(shù),對(duì)分析出的易發(fā)病害類(lèi)型、存在風(fēng)險(xiǎn)隱患薄弱設(shè)備類(lèi)型進(jìn)行直觀、清晰展示。

      3 實(shí)例驗(yàn)證

      本實(shí)例收集整理了蘭州鐵路局鐵路安全檢查管理信息系統(tǒng)中的2012年1月~2016年4月期間4 662條描述工務(wù)、電務(wù)和供電專(zhuān)業(yè)的鐵路基礎(chǔ)設(shè)施設(shè)備質(zhì)量問(wèn)題的數(shù)據(jù),驗(yàn)證TMBI-RIR的有效性。利用R編程語(yǔ)言[12]實(shí)現(xiàn)對(duì)模型的構(gòu)建和求解。R是一個(gè)擁有強(qiáng)大統(tǒng)計(jì)分析及作圖功能的數(shù)據(jù)分析工具,整合了包含大多數(shù)經(jīng)典統(tǒng)計(jì)方法與最新技術(shù)的工具包。問(wèn)題詳情描述長(zhǎng)文本形式數(shù)據(jù)的分析結(jié)果見(jiàn)表3和圖4。

      表3 鐵路設(shè)備質(zhì)量問(wèn)題數(shù)據(jù)中前10個(gè)較高詞頻的單詞

      圖4 鐵路設(shè)備質(zhì)量問(wèn)題詞云圖

      3.1 存在風(fēng)險(xiǎn)隱患的薄弱設(shè)備

      分析表3和圖4可知,存在質(zhì)量問(wèn)題的設(shè)備類(lèi)型按照詞頻由高到底排列依次是:道岔、鋼軌接頭、軌枕、鋼軌小腰、螺栓、扣件等。因此,存在風(fēng)險(xiǎn)隱患的薄弱設(shè)備為道岔、鋼軌接頭、軌枕等。

      3.2 易發(fā)病害類(lèi)型

      根據(jù)表3和圖4,易發(fā)病害類(lèi)型按照詞頻從高到底排列依次是:高低、水平、軌距、三角坑等。因此,易發(fā)病害類(lèi)型為為軌道不平順的高低、水平、規(guī)矩等。

      根據(jù)上述分析結(jié)果,存在風(fēng)險(xiǎn)隱患的薄弱設(shè)備均是工務(wù)專(zhuān)業(yè)的鐵路基礎(chǔ)設(shè)施設(shè)備。鐵路管理者需對(duì)道岔、鋼軌接頭、軌枕等設(shè)備進(jìn)行重點(diǎn)監(jiān)控,對(duì)軌道不平順中的高低、水平、軌距超限等病害加強(qiáng)管理。

      4 結(jié)束語(yǔ)

      為分析大量的記錄鐵路基礎(chǔ)設(shè)施設(shè)備質(zhì)量問(wèn)題的長(zhǎng)文本形式數(shù)據(jù),本文提出了一種基于文本挖掘的鐵路基礎(chǔ)設(shè)施設(shè)備風(fēng)險(xiǎn)隱患識(shí)別模型(TMBI-RIR),通過(guò)統(tǒng)計(jì)各類(lèi)單詞出現(xiàn)的次數(shù),確定出鐵路存在風(fēng)險(xiǎn)隱患的薄弱設(shè)備類(lèi)型及易發(fā)病害類(lèi)型,并利用詞云圖對(duì)分析結(jié)果進(jìn)行了可視化展示。作者采用蘭州鐵路局近5年的4 662條鐵路基礎(chǔ)設(shè)施設(shè)備質(zhì)量問(wèn)題數(shù)據(jù),對(duì)提出模型的有效性進(jìn)行了驗(yàn)證。研究成果可為鐵路安全風(fēng)險(xiǎn)管理、養(yǎng)護(hù)維修決策提供有效的支持。

      [1]Berry M W, Castellanos M. Survey of text mining II: Clustering,classification, and retrieval[M]. New York: Springer, 2008.

      [2]陳勇躍, 田文芳, 吳金紅. 主題領(lǐng)域研究熱點(diǎn)跟蹤及趨勢(shì)預(yù)測(cè)的可視化分析方法研究[J]. 情報(bào)理論與實(shí)踐,2017(6):117-121.

      [3]陳 苗,劉 超,莊俊玲,等. 基于文本挖掘的臨床帶教評(píng)價(jià)分析[J]. 中國(guó)衛(wèi)生統(tǒng)計(jì),2017(1):59-60.

      [4]史玉珍,呂瓊帥. 基于進(jìn)化模糊規(guī)則的Web新聞文本挖掘與分類(lèi)方法[J]. 湘潭大學(xué)自然科學(xué)學(xué)報(bào),2016,38(2):99-103.

      [5]蔡 溢,楊 洋,殷紅梅. 基于ROST文本挖掘軟件的貴陽(yáng)市城市旅游品牌受眾感知研究[J]. 重慶師范大學(xué)學(xué)報(bào):自然科學(xué)版,2015(1):126-134.

      [6]楊張博,高山行. 基于文本挖掘和語(yǔ)義網(wǎng)絡(luò)方法的戰(zhàn)略導(dǎo)向交互現(xiàn)象研究—以生物技術(shù)企業(yè)為例[J]. 科學(xué)學(xué)與科學(xué)技術(shù)管理,2015(1):139-150.

      [7]韓冬煦,常寶寶. 中文分詞模型的領(lǐng)域適應(yīng)性方法[J]. 計(jì)算機(jī)學(xué)報(bào) ,2015,38(2):272-281.

      [8]劉 群, 張華平,俞鴻魁,等. 基于層疊隱馬模型的漢語(yǔ)詞法分析[J]. 計(jì)算機(jī)研究與發(fā)展,2004(8):1421-1429.

      [9]Viterbi A J. Error bounds for convolutional codes and an asymptotically optimum decoding algorithm[J]. IEEE Transactions on Information Theory, 1967,13(2):260-269.

      [10]郭曙綸. 漢語(yǔ)語(yǔ)料庫(kù)應(yīng)用教程[M]. 上海:上海交通大學(xué)出版社,2013.

      [11]Afzal S, Maciejewski R, Yun J, et al. Spatial Text Visualization Using Automatic Typographic Maps[J]. IEEE Transactions on Visualization & Computer Graphics, 2012,18(12): 2556-2564.

      [12]R Core Team. R: A Language and Environment for Statistical Computing[EB/OL].[2014-04-09].http:// www.R-project.org/.

      猜你喜歡
      詞頻分詞隱患
      隱患隨手拍
      隱患隨手拍
      互聯(lián)網(wǎng)安全隱患知多少?
      隱患隨手拍
      基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
      園林科技(2021年3期)2022-01-19 03:17:48
      結(jié)巴分詞在詞云中的應(yīng)用
      值得重視的分詞的特殊用法
      詞頻,一部隱秘的歷史
      云存儲(chǔ)中支持詞頻和用戶(hù)喜好的密文模糊檢索
      以關(guān)鍵詞詞頻法透視《大學(xué)圖書(shū)館學(xué)報(bào)》學(xué)術(shù)研究特色
      博爱县| 英山县| 华蓥市| 灵丘县| 定南县| 沅江市| 秦皇岛市| 舒兰市| 上蔡县| 榆中县| 桦南县| 沁阳市| 蓬莱市| 广德县| 南雄市| 仁布县| 元朗区| 城市| 湾仔区| 二手房| 太仆寺旗| 彭水| 剑川县| 财经| 牟定县| 简阳市| 黔江区| 茶陵县| 荔浦县| 宣汉县| 开平市| 富民县| 文昌市| 页游| 茌平县| 武平县| 金秀| 沙坪坝区| 莒南县| 太仓市| 陇川县|