楊連報(bào),李平,劉藝飛
(中國(guó)鐵道科學(xué)研究院集團(tuán)有限公司 電子計(jì)算技術(shù)研究所,北京 100081)
安全是鐵路運(yùn)輸永恒的主題,為確保鐵路運(yùn)輸安全,鐵路行業(yè)建立了覆蓋全國(guó)鐵路固定基礎(chǔ)設(shè)施和移動(dòng)裝備的傳感器網(wǎng),研發(fā)應(yīng)用了行車(chē)安全綜合監(jiān)控、安全檢查監(jiān)督、工務(wù)安全管理、電務(wù)安全檢測(cè)、牽引供電檢測(cè)、動(dòng)車(chē)組檢修運(yùn)用等多個(gè)系統(tǒng)[1],積累了面向鐵路行車(chē)安全主題的海量業(yè)務(wù)信息,這些信息數(shù)據(jù)絕大多數(shù)為語(yǔ)音、文本、圖形圖像等非結(jié)構(gòu)化數(shù)據(jù)。由于其他形式的信息都可通過(guò)文本描述來(lái)實(shí)現(xiàn),因此當(dāng)前文本是海量信息的主要載體。
鐵路事故調(diào)查報(bào)告是鐵路行車(chē)安全領(lǐng)域體量最大、周期最長(zhǎng)、蘊(yùn)含價(jià)值最豐富的文本文件。根據(jù)《鐵路交通事故調(diào)查處理規(guī)則》的規(guī)定[2],鐵路事故調(diào)查報(bào)告的主要內(nèi)容包括:事故發(fā)生的時(shí)間、地點(diǎn)、區(qū)間(線(xiàn)名、公里、米)、線(xiàn)路條件、事故相關(guān)單位和人員;發(fā)生事故的列車(chē)種類(lèi)、車(chē)次、機(jī)車(chē)型號(hào)、部位、牽引輛數(shù)、噸數(shù)、計(jì)長(zhǎng)及運(yùn)行速度;旅客人數(shù),傷亡人數(shù)、性別、年齡以及救助情況,是否涉及境外人員傷亡;貨物品名、裝載情況,易燃、易爆等危險(xiǎn)貨物情況;機(jī)車(chē)車(chē)輛脫軌輛數(shù)、線(xiàn)路設(shè)備損壞程度等情況;對(duì)鐵路行車(chē)的影響情況;事故原因的初步判斷,事故發(fā)生后采取的措施及事故控制情況;應(yīng)當(dāng)立即報(bào)告的其他情況等。
當(dāng)前鐵路事故調(diào)查報(bào)告大多以Word、PDF等形式存儲(chǔ),且以紙質(zhì)形式存檔,受限于傳統(tǒng)技術(shù)壁壘,這些體量大、價(jià)值豐富的事故故障文本無(wú)法實(shí)現(xiàn)有效存儲(chǔ)和分析。傳統(tǒng)通過(guò)人工手段對(duì)海量原始文檔進(jìn)行提取、處理和分類(lèi),不僅費(fèi)時(shí)費(fèi)力,而且達(dá)不到理想的效果,已經(jīng)無(wú)法適應(yīng)當(dāng)前對(duì)海量數(shù)據(jù)進(jìn)行快速深度分析的需要。因此,在鐵路大數(shù)據(jù)時(shí)代,應(yīng)用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)鐵路非結(jié)構(gòu)化文本數(shù)據(jù)分布式存儲(chǔ)、全文檢索和分析,對(duì)科學(xué)預(yù)測(cè)鐵路事故故障發(fā)生規(guī)律具有重要意義。
文本大數(shù)據(jù)分析技術(shù)是指對(duì)無(wú)結(jié)構(gòu)的文本字符串中包含的詞、語(yǔ)法、語(yǔ)義等信息進(jìn)行表示、理解和抽取,挖掘和分析出其中存在的事實(shí),把從文本中抽取的特征詞量化來(lái)表示文本信息。鐵路行車(chē)安全領(lǐng)域文本大數(shù)據(jù)分析總體框架見(jiàn)圖1。
數(shù)據(jù)集成是將不同來(lái)源、不同格式的數(shù)據(jù)在物理或邏輯上進(jìn)行集成的過(guò)程,是對(duì)文本數(shù)據(jù)進(jìn)行分析的第1步??衫肂RAT、Labellmg、Vatic等工具對(duì)文本、圖像、視頻等非結(jié)構(gòu)化數(shù)據(jù)按指定規(guī)則進(jìn)行篩選、分類(lèi)、結(jié)構(gòu)化標(biāo)注,將非結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)化,以便生成計(jì)算機(jī)可識(shí)別數(shù)據(jù)供計(jì)算機(jī)處理,然后使用Streamsets采集工具并通過(guò)FTP、SFTP等方式進(jìn)行交換處理。
圖1 鐵路行車(chē)安全領(lǐng)域文本大數(shù)據(jù)分析總體框架
數(shù)據(jù)存儲(chǔ)方案采用HDFS分布式文件系統(tǒng),以流式數(shù)據(jù)訪(fǎng)問(wèn)模式存儲(chǔ)大文件。將要存儲(chǔ)的大文件分割后存放在既定的存儲(chǔ)塊中,并通過(guò)預(yù)先設(shè)定的優(yōu)化處理模式對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行預(yù)處理,從而解決大文件儲(chǔ)存與計(jì)算的需求。
文本數(shù)據(jù)處理包括本體庫(kù)構(gòu)建、命名實(shí)體識(shí)別、文本向量表示和中文分詞等技術(shù),是文本分析挖掘的重要步驟。本體庫(kù)構(gòu)建是指對(duì)所研究的領(lǐng)域建立統(tǒng)一的對(duì)象模型框架,之后所有的分析都基于這個(gè)框架進(jìn)行;命名實(shí)體識(shí)別是指對(duì)文本中具有特定意義的實(shí)體進(jìn)行識(shí)別,包括人名、地名、機(jī)構(gòu)名等;文本向量表示是指通過(guò)某些方法把文本數(shù)據(jù)向量化,轉(zhuǎn)化為向量形式的標(biāo)識(shí),從而便于之后各類(lèi)分析方法的計(jì)算;中文分詞是指根據(jù)相應(yīng)領(lǐng)域的字典并利用分詞工具將連續(xù)的文本內(nèi)容切分為單獨(dú)的中文詞匯的過(guò)程。
針對(duì)文本大數(shù)據(jù)分析過(guò)程中數(shù)據(jù)量大、運(yùn)算復(fù)雜的特點(diǎn),文本數(shù)據(jù)計(jì)算包括分布式批量計(jì)算和深度學(xué)習(xí)計(jì)算。
分布式批量計(jì)算是指將1個(gè)復(fù)雜的計(jì)算任務(wù)分配給多個(gè)計(jì)算節(jié)點(diǎn)進(jìn)行運(yùn)算,常用的分布式批量計(jì)算模型有MapReduce和Spark。MapReduce模型可用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算,1個(gè)MapReduce作業(yè)通常會(huì)把輸入的數(shù)據(jù)集切分為若干獨(dú)立的數(shù)據(jù)塊,由Map任務(wù)(task)以完全并行的方式處理它們。對(duì)Map的輸出進(jìn)行排序,然后把結(jié)果輸入給Rreduce任務(wù),通常作業(yè)的輸入和輸出都會(huì)被存儲(chǔ)在文件系統(tǒng)中。Spark是用于分布式內(nèi)存處理的計(jì)算框架,擁有MapReduce所具有的優(yōu)點(diǎn),不同于MapReduce的是Job中間輸出的結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫(xiě)HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)。
深度學(xué)習(xí)是指采用分層的深度神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)的一種機(jī)器學(xué)習(xí)算法,常用的深度學(xué)習(xí)計(jì)算框架主要有TensorFlow和Caffe。由于有大量機(jī)器學(xué)習(xí)算法支持,深度學(xué)習(xí)計(jì)算可用于計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別、自然語(yǔ)言處理與生物信息學(xué)等領(lǐng)域的深度神經(jīng)網(wǎng)絡(luò)計(jì)算,極大降低了深度學(xué)習(xí)研究和開(kāi)發(fā)的難度,可以獲得極好的學(xué)習(xí)效果。
分布式全文檢索實(shí)現(xiàn)了對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容檢索,用以定位關(guān)注的事故及主題,包括索引建立及鐵路專(zhuān)業(yè)語(yǔ)料庫(kù)。索引建立是指將文本數(shù)據(jù)中的部分信息提取出來(lái)并結(jié)構(gòu)化的過(guò)程,全文檢索就是對(duì)索引進(jìn)行搜索的過(guò)程;鐵路專(zhuān)業(yè)語(yǔ)料庫(kù)是指經(jīng)過(guò)加工處理的真實(shí)的大規(guī)模鐵路電子文本庫(kù),有助于實(shí)現(xiàn)鐵路文本數(shù)據(jù)的全文檢索。
文本大數(shù)據(jù)分析是在文本數(shù)據(jù)處理的基礎(chǔ)上,采用適合的文本分析算法及模型對(duì)文本數(shù)據(jù)進(jìn)行分析的過(guò)程,常見(jiàn)的分析方法包括分類(lèi)分析、聚類(lèi)分析、特征提取及關(guān)聯(lián)分析等。分類(lèi)分析是指從數(shù)據(jù)集中提取1個(gè)模型,從而將數(shù)據(jù)集中的對(duì)象歸到某個(gè)已知的分類(lèi)中;聚類(lèi)分析是指通過(guò)特定的分類(lèi)方法,將整個(gè)數(shù)據(jù)集按照對(duì)象的相似性分為不同的類(lèi)別;特征提取是指按照某種特定的方法從非結(jié)構(gòu)化的文本數(shù)據(jù)中提取出具有代表性的文本特征值;關(guān)聯(lián)分析是指在大量的數(shù)據(jù)中發(fā)現(xiàn)某些數(shù)據(jù)項(xiàng)之間存在關(guān)聯(lián)關(guān)系的過(guò)程。
針對(duì)文本的安全大數(shù)據(jù)分析可以應(yīng)用在重點(diǎn)區(qū)域分析、重點(diǎn)故障分析、事故故障關(guān)聯(lián)分析、事故故障預(yù)警及事故故障原因分析等多個(gè)業(yè)務(wù)場(chǎng)景。重點(diǎn)區(qū)域分析可以分析出某一時(shí)間周期內(nèi),事故故障的多發(fā)地點(diǎn)、發(fā)生次數(shù)、發(fā)生明細(xì),為重點(diǎn)防控提供方向性指導(dǎo);重點(diǎn)故障分析可以分析出某一時(shí)間周期內(nèi)的多發(fā)故障;事故故障關(guān)聯(lián)分析可找出與事故故障關(guān)聯(lián)的設(shè)備、人員、管理等安全隱患,有助于重點(diǎn)盯防;事故故障預(yù)警可以通過(guò)機(jī)器學(xué)習(xí)算法,在歷史數(shù)據(jù)基礎(chǔ)上預(yù)測(cè)未來(lái)的事故故障;事故故障原因分析可以通過(guò)深度學(xué)習(xí)算法,準(zhǔn)確提取及推薦發(fā)生事故故障的原因,并提出相應(yīng)的整改措施。
在進(jìn)行文本大數(shù)據(jù)分析的過(guò)程中,數(shù)據(jù)安全性也是重點(diǎn)關(guān)注內(nèi)容。數(shù)據(jù)安全主要包括文本數(shù)據(jù)的采集安全、存儲(chǔ)安全和挖掘安全??刹捎藐P(guān)鍵字詞替代、混洗及加密等措施來(lái)保證文本數(shù)據(jù)的采集安全;文本數(shù)據(jù)的存儲(chǔ)安全則可通過(guò)定期備份策略保證數(shù)據(jù)因意外損壞后可及時(shí)恢復(fù);針對(duì)文本數(shù)據(jù)的挖掘安全,采用了身份認(rèn)證和訪(fǎng)問(wèn)控制機(jī)制,保證只有授權(quán)用戶(hù)才可訪(fǎng)問(wèn)相應(yīng)文本數(shù)據(jù)。
文本數(shù)據(jù)的資產(chǎn)治理包括標(biāo)準(zhǔn)管理、質(zhì)量管理及資產(chǎn)管理等內(nèi)容。標(biāo)準(zhǔn)管理可以對(duì)文本數(shù)據(jù)依據(jù)的標(biāo)準(zhǔn)進(jìn)行瀏覽及增刪改、獲取等操作,是使文本數(shù)據(jù)規(guī)范化的要求;質(zhì)量管理可以對(duì)文本數(shù)據(jù)的規(guī)則進(jìn)行配置并對(duì)文件的質(zhì)量進(jìn)行監(jiān)控及稽核,用于提高文本數(shù)據(jù)的質(zhì)量,從而提高分析結(jié)果的準(zhǔn)確性;資產(chǎn)管理是針對(duì)文本數(shù)據(jù)的各項(xiàng)信息進(jìn)行管理,使文本數(shù)據(jù)可作為企業(yè)資產(chǎn)的一部分進(jìn)行管理。
文本大數(shù)據(jù)分析關(guān)鍵技術(shù)主要包括全文檢索技術(shù)、中文分詞技術(shù)、文本檢索模型、文本特征提取與挖掘技術(shù)等。
為實(shí)現(xiàn)鐵路非結(jié)構(gòu)化文本大數(shù)據(jù)的分析挖掘,首先要實(shí)現(xiàn)非結(jié)構(gòu)化文本的分布式存儲(chǔ)和全文檢索。分布式存儲(chǔ)是應(yīng)用分布式文件系統(tǒng),實(shí)現(xiàn)非結(jié)構(gòu)化文本動(dòng)態(tài)可擴(kuò)展的存儲(chǔ)。EelasticSearch(ES)通過(guò)集群提供分布式全文檢索,1個(gè)ES集群可以由多個(gè)節(jié)點(diǎn)組成,可動(dòng)態(tài)增加。ES各節(jié)點(diǎn)之間通過(guò)唯一的集群名字進(jìn)行識(shí)別,默認(rèn)的集群名字為“EelasticSearch”,集群名字可通過(guò)elasticsearch.yml文件進(jìn)行配置。ES采用去中心化節(jié)點(diǎn)架構(gòu),即各節(jié)點(diǎn)平等,可任意選1個(gè)節(jié)點(diǎn)為主節(jié)點(diǎn)。ES各節(jié)點(diǎn)之間通過(guò)TCP協(xié)議進(jìn)行集群交互,并通過(guò)Restful API接口為其他應(yīng)用提供服務(wù)。
ES需建立索引(Indices),實(shí)現(xiàn)文檔(Document)集合的統(tǒng)一存儲(chǔ)和查詢(xún)。1個(gè)索引內(nèi)可以定義1種或多種類(lèi)型(Type),1種類(lèi)型下可以設(shè)置多個(gè)字段(Field)以便于檢索。同時(shí)ES為了提高性能和吞吐量,對(duì)索引進(jìn)行分片(Shard),默認(rèn)1個(gè)索引分為5個(gè)分片(R0—R4),分布在不同的節(jié)點(diǎn)上,同時(shí)通過(guò)復(fù)制(Replica)分片實(shí)現(xiàn)高可用性,以防止節(jié)點(diǎn)/分片出現(xiàn)故障(見(jiàn)圖2)。
圖2 ES集群邏輯架構(gòu)
基于ES的中文文本全文檢索主要包括文本提取、中文分詞、索引建立與檢索等過(guò)程。其中中文分詞技術(shù)是實(shí)現(xiàn)中文文本全文檢索的基礎(chǔ);索引建立是實(shí)現(xiàn)中文分詞后數(shù)據(jù)轉(zhuǎn)化為索引文件的過(guò)程,主要利用的技術(shù)為倒排索引;檢索過(guò)程是對(duì)要檢索內(nèi)容進(jìn)行中文分詞后,根據(jù)索引文件找到所檢索文檔的過(guò)程。
鐵路事故故障文本分布式全文檢索的首要和基礎(chǔ)工作是實(shí)現(xiàn)事故故障文本的分詞。中文分詞不同于英文分詞,中文詞語(yǔ)之間沒(méi)有空格標(biāo)記進(jìn)行分割[3-4]。不同的上下文環(huán)境、不同的詞語(yǔ)組合和不完備的語(yǔ)料庫(kù)造成了中文分詞的歧義。例如,“軌道電路紅光帶”“軌道區(qū)段紅光帶”“紅光帶”等描述的是同一種故障,但在文本文檔中不同人員的描述不一致,造成同一種故障由多種詞語(yǔ)進(jìn)行描述,如果嚴(yán)格按照中文分詞就出現(xiàn)了3種不同的故障,給文本檢索和分析造成困難。同時(shí)鐵路行業(yè)缺乏語(yǔ)料庫(kù),對(duì)于事故故障命名實(shí)體沒(méi)有統(tǒng)一的規(guī)范,造成事故故障文本中事故故障名稱(chēng)無(wú)法識(shí)別。
中文分詞經(jīng)過(guò)近30年的發(fā)展,主流的分詞技術(shù)主要有基于詞典匹配的中文分詞、基于字統(tǒng)計(jì)模型的中文分詞、基于字標(biāo)注的中文分詞以及基于深度學(xué)習(xí)的中文分詞等方法[5-7]。在此采用Jieba分詞工具,利用通用詞典和自定義領(lǐng)域詞典[8],實(shí)現(xiàn)鐵路事故故障文本的分詞,整體結(jié)構(gòu)見(jiàn)圖3。
事故故障文本檢索的基本過(guò)程是當(dāng)用戶(hù)輸入查詢(xún)條件進(jìn)行搜索時(shí),首先對(duì)查詢(xún)條件進(jìn)行中文分詞;然后計(jì)算查詢(xún)條件里關(guān)鍵詞與單詞詞典中詞語(yǔ)的相關(guān)度,找出相關(guān)度較高的單詞后,再根據(jù)單詞詞典找到倒排文件中對(duì)應(yīng)的倒排列表;最后通過(guò)查詢(xún)倒排列表得到結(jié)果文檔,排序后展示給用戶(hù)。
圖3 融合鐵路領(lǐng)域詞典的中文分詞
事故故障文本檢索可描述為1個(gè)三元組模型,描述的是索引文檔、查詢(xún)及其之間的關(guān)系,表示為:F<D,Q,R>,式中:D為文檔集合;Q為查詢(xún)條件;R為文檔D和查詢(xún)Q之間的相關(guān)程度[9]。
TF-IDF是一種基于統(tǒng)計(jì)的常用加權(quán)方法,廣泛應(yīng)用于檢索和文本分析中[10]。TF-IDF假設(shè):如果1個(gè)詞在1個(gè)文檔中頻繁出現(xiàn),而在其他文檔中出現(xiàn)較少或不出現(xiàn),則將該詞作為該文檔的關(guān)鍵詞,將該文檔與其他文檔區(qū)分開(kāi)來(lái)。
TF-IDF中TF表示詞頻,即該詞在1個(gè)文檔中出現(xiàn)的次數(shù),理論上出現(xiàn)的次數(shù)越多則與文檔的主題越相關(guān),但需要排除一些停用詞,如“的”“地”“了”“但”等。
詞頻TF計(jì)算公式為:
式中:ni,j為詞wi在文檔dj中出現(xiàn)的次數(shù);為文檔dj中所有詞出現(xiàn)的次數(shù)之和。式(1)分母加1是為了避免分母為0的情況。
TF-IDF中IDF表示逆向文檔頻率,計(jì)算公式為:
式中:ki為詞wi在文檔集合D中相關(guān)的文檔個(gè)數(shù);N為D的大小。同理,式(2)分母加1是為了避免分母為0的情況。
將詞頻與逆向文檔頻率結(jié)合起來(lái),即用IDF來(lái)矯正TF,得到文檔dj中詞wi的權(quán)重為:
則某個(gè)文檔dj可用單詞權(quán)重構(gòu)成向量:
同理,對(duì)于某次查詢(xún)qj可得:
通過(guò)計(jì)算文檔向量與查詢(xún)向量間的余弦距離或Jaccard相似度,確定查詢(xún)與文檔之間的相關(guān)程度。選擇計(jì)算余弦距離,公式為:
根據(jù)計(jì)算的余弦距離就可以對(duì)文檔進(jìn)行排序,從而為用戶(hù)推選最相關(guān)的文檔。
鐵路事故故障文本全文檢索實(shí)現(xiàn)了對(duì)文本信息的有效存儲(chǔ)和檢索。結(jié)合文本挖掘的分類(lèi)、預(yù)測(cè)和相關(guān)性分析等,可以挖掘鐵路事故故障發(fā)生規(guī)律,指導(dǎo)現(xiàn)場(chǎng)人員對(duì)重點(diǎn)事故故障進(jìn)行防范,保障鐵路運(yùn)行安全。
鐵路事故故障文本一般有固定的格式,主要包括標(biāo)題、概述、調(diào)查過(guò)程、原因分析、定性定責(zé)、措施及要求等六大部分。因此,采用基于文本結(jié)構(gòu)及正則表達(dá)式的文本特征提取,即通過(guò)正則表達(dá)式找到相應(yīng)的段落,然后對(duì)重點(diǎn)段落的內(nèi)容進(jìn)行中文分詞和特征提取,提取時(shí)需要和事故故障詞庫(kù)、事故地點(diǎn)詞庫(kù)等專(zhuān)業(yè)詞庫(kù)進(jìn)行匹配,若專(zhuān)業(yè)詞庫(kù)中存在則直接提取,若專(zhuān)業(yè)詞庫(kù)中不存在,需要根據(jù)正則表達(dá)式依據(jù)語(yǔ)法結(jié)構(gòu)進(jìn)行提?。ㄒ?jiàn)圖4)。
圖4 事故故障文本特征提取流程
根據(jù)提取的事故故障文本特征,可以應(yīng)用文本挖掘的統(tǒng)計(jì)分析、相關(guān)性分析等技術(shù),分析事故故障規(guī)律,例如多發(fā)故障、故障趨勢(shì)預(yù)測(cè)、故障關(guān)聯(lián)關(guān)系等。
鐵路事故故障追蹤報(bào)告為典型的非結(jié)構(gòu)化文本數(shù)據(jù),是鐵路安監(jiān)部門(mén)對(duì)發(fā)生的事故故障進(jìn)行追責(zé)調(diào)查所形成的詳細(xì)文檔,記載了事故故障發(fā)生地點(diǎn)、發(fā)生時(shí)間、發(fā)生原因、責(zé)任單位等重要信息。以某鐵路局集團(tuán)公司2016年7—12月的事故故障追蹤報(bào)告、共計(jì)300多個(gè)文檔為樣本,進(jìn)行事故故障報(bào)告全文檢索、多發(fā)事故故障詞云展示和事故故障關(guān)聯(lián)性分析。
對(duì)收集的文檔進(jìn)行檢索時(shí)間對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)環(huán)境見(jiàn)表1。由實(shí)驗(yàn)可知,基于ES的事故故障報(bào)告全文檢索可以大大縮短檢索時(shí)間(見(jiàn)圖5),檢索時(shí)間僅為10 ms左右,幾乎為實(shí)時(shí)檢索。同時(shí),由于所用數(shù)據(jù)量較小,ES全文檢索所用時(shí)間基本不變,但隨著文本數(shù)量的增加,傳統(tǒng)檢索所用時(shí)間呈線(xiàn)性增長(zhǎng)。說(shuō)明文本數(shù)據(jù)量越大,越能體現(xiàn)ES全文檢索的優(yōu)勢(shì)。
表1 全文檢索實(shí)驗(yàn)環(huán)境
圖5 ES全文檢索與傳統(tǒng)檢索時(shí)間對(duì)比
此外,傳統(tǒng)檢索只能全文匹配,而基于TF-IDF的檢索可以檢索與關(guān)鍵詞相近的文檔,例如當(dāng)檢索“軌道電路紅光帶故障”時(shí),會(huì)檢索“紅光帶”“軌道區(qū)段紅光帶”等,同時(shí)根據(jù)檢索的排序推薦最相關(guān)的文檔。
通過(guò)對(duì)事故故障報(bào)告進(jìn)行中文分詞和特征提取,找出多發(fā)事故故障,并以大數(shù)據(jù)可視化技術(shù)中的詞云進(jìn)行展示(見(jiàn)圖6)。
圖6 多發(fā)事故故障詞云展示
由圖6可知,2016年7—12月,該鐵路局集團(tuán)公司多發(fā)事故故障為機(jī)車(chē)故障和軌道電路紅光帶故障,需要進(jìn)行原因分析和重點(diǎn)防范。
通過(guò)分析車(chē)、機(jī)、工、電、輛等專(zhuān)業(yè)多發(fā)的事故故障,可以發(fā)現(xiàn)部分專(zhuān)業(yè)的事故故障不僅是由于本專(zhuān)業(yè)內(nèi)部導(dǎo)致,還存在與其他專(zhuān)業(yè)的關(guān)聯(lián)關(guān)系(見(jiàn)圖7)。
由圖7可知,機(jī)務(wù)專(zhuān)業(yè)的機(jī)車(chē)故障和車(chē)輛專(zhuān)業(yè)的緊急制動(dòng)停車(chē)等主要與本專(zhuān)業(yè)有關(guān),但軌道電路紅光帶不僅與電務(wù)專(zhuān)業(yè)有關(guān),還與工務(wù)和供電專(zhuān)業(yè)有關(guān)。這就要求電務(wù)、工務(wù)、供電等專(zhuān)業(yè)在進(jìn)行事故故障排查時(shí),要聯(lián)合診斷,以便及時(shí)發(fā)現(xiàn)問(wèn)題,確保鐵路安全。
圖7 各專(zhuān)業(yè)事故故障關(guān)聯(lián)關(guān)系分析
基于鐵路大數(shù)據(jù)技術(shù),研究提出鐵路行車(chē)安全領(lǐng)域文本大數(shù)據(jù)分析總體框架,介紹全文檢索技術(shù)、中文分詞技術(shù)、文本檢索模型、文本特征提取與挖掘技術(shù)等文本大數(shù)據(jù)分析關(guān)鍵技術(shù)。通過(guò)在某鐵路局集團(tuán)公司進(jìn)行試點(diǎn)應(yīng)用,實(shí)現(xiàn)了分布式存儲(chǔ)、近實(shí)時(shí)全文檢索、多發(fā)事故故障詞云展示和事故故障關(guān)聯(lián)關(guān)系分析,取得良好效果,研究成果可為鐵路相關(guān)業(yè)務(wù)領(lǐng)域的文本大數(shù)據(jù)分析提供參考。