• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于文本分析的高鐵技術(shù)規(guī)章優(yōu)化研究

      2021-01-19 14:28:18楊連報(bào)劉新董興芝李新琴薛蕊東春昭徐貴紅
      中國鐵路 2020年11期
      關(guān)鍵詞:規(guī)章高鐵向量

      楊連報(bào),劉新,董興芝,李新琴,薛蕊,東春昭,徐貴紅

      (1.中國鐵道科學(xué)研究院集團(tuán)有限公司電子計(jì)算技術(shù)研究所,北京100081;2.中國鐵道科學(xué)研究院集團(tuán)有限公司運(yùn)輸及經(jīng)濟(jì)研究所,北京100081;3.中國鐵道科學(xué)研究院集團(tuán)有限公司鐵路基礎(chǔ)設(shè)施檢測中心,北京100081)

      隨著我國高速鐵路的迅猛發(fā)展和新技術(shù)、新設(shè)備的投入使用,對高速鐵路的行車安全和技術(shù)規(guī)章管理提出了更高的要求。高速鐵路技術(shù)規(guī)章是指高速鐵路技術(shù)設(shè)備在交付運(yùn)營后,涉及行車組織、信號顯示、技術(shù)設(shè)備的運(yùn)用、管理、維修等方面的規(guī)章制度。我國已經(jīng)形成國鐵集團(tuán)—鐵路局集團(tuán)公司—站段的三級技術(shù)規(guī)章體系[1-2]。

      制定有效、合理、有針對性的技術(shù)規(guī)章是我國高鐵安全運(yùn)營的重要基礎(chǔ)保障。目前國內(nèi)關(guān)于高鐵技術(shù)規(guī)章的制定和優(yōu)化進(jìn)行了很多研究,郭錦[3]提出我國技術(shù)規(guī)章體系中國鐵集團(tuán)和鐵路局集團(tuán)公司級技術(shù)規(guī)章內(nèi)容重復(fù)、抵觸等問題的優(yōu)化建議;王宇嘉等[4-5]提出應(yīng)用層次分析法的模糊綜合評價(jià)模型評價(jià)鐵路局集團(tuán)公司級鐵路技術(shù)規(guī)章編制和修訂前后對行車組織和安全的影響,并從目標(biāo)、原則、方法及步驟3個方面對客運(yùn)專業(yè)的技術(shù)規(guī)章進(jìn)行優(yōu)化;保魯昆等[6]提出利用詞頻和共詞統(tǒng)計(jì)定量分析鐵路技術(shù)規(guī)章中內(nèi)容和條款適應(yīng)性;孫耿杰等[7]則應(yīng)用系統(tǒng)工程理論實(shí)現(xiàn)工務(wù)專業(yè)技術(shù)規(guī)章目錄的構(gòu)建。

      不同于既有技術(shù)規(guī)章的定性或定量的分析,以下提出一種新的基于歷史非結(jié)構(gòu)化文本數(shù)據(jù)分析的高鐵技術(shù)規(guī)章優(yōu)化方法,即根據(jù)技術(shù)規(guī)章修訂專家制定的技術(shù)規(guī)章分類標(biāo)準(zhǔn)和標(biāo)注的訓(xùn)練數(shù)據(jù),應(yīng)用集成學(xué)習(xí)LightGBM文本分類模型實(shí)現(xiàn)海量高鐵安全巡檢記錄數(shù)據(jù)的智能分析和推理。其中,高鐵安全巡檢記錄數(shù)據(jù)可以為技術(shù)規(guī)章的制定提供實(shí)際的數(shù)據(jù)參考,從而使技術(shù)規(guī)章的制定能更加符合現(xiàn)場作業(yè)的要求,具有實(shí)際的指導(dǎo)和約束作用。

      1 高鐵安全巡檢記錄數(shù)據(jù)

      高鐵安全巡檢記錄是鐵路局集團(tuán)公司安監(jiān)室以及車務(wù)、機(jī)務(wù)、工務(wù)、供電等各專業(yè)安全科人員在現(xiàn)場巡檢時(shí)發(fā)現(xiàn)現(xiàn)場安全問題而形成原始和處理的非結(jié)構(gòu)化文本記錄,是鐵路生產(chǎn)作業(yè)最直接的體現(xiàn)。既有的安全巡檢記錄分類主要是從業(yè)務(wù)角度來區(qū)分,并沒有和技術(shù)規(guī)章進(jìn)行很好對應(yīng)(見表1)。

      表1 高鐵安全巡檢記錄樣例數(shù)據(jù)

      高鐵安全巡檢記錄每年產(chǎn)生的記錄數(shù)達(dá)到千萬余條,傳統(tǒng)通過人工手段對海量原始文檔進(jìn)行提取、處理和分類,不僅費(fèi)時(shí)費(fèi)力,而且達(dá)不到理想效果,已經(jīng)無法適應(yīng)當(dāng)前對海量數(shù)據(jù)進(jìn)行快速深度分析的需要。通過應(yīng)用集成學(xué)習(xí)LightGBM文本分類模型,可實(shí)現(xiàn)巡檢記錄的智能多級分類。

      2 高鐵安全巡檢記錄多級分類

      實(shí)現(xiàn)非結(jié)構(gòu)化高鐵安全巡檢記錄的多級分類主要包含學(xué)習(xí)和推理階段。其中,學(xué)習(xí)階段主要通過制定多級分類標(biāo)準(zhǔn),并隨機(jī)選取2008—2018年的安全巡檢記錄中的部分?jǐn)?shù)據(jù)作為訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)注。標(biāo)注后的數(shù)據(jù)通過正則表達(dá)式進(jìn)行數(shù)據(jù)中特殊字符、標(biāo)點(diǎn)和英文符號的濾除,應(yīng)用融合鐵路領(lǐng)域詞典的中文分詞工具Jieba進(jìn)行分詞,并通過Word2Vec和TF-IDF分別生成特征向量,最后應(yīng)用LightGBM模型實(shí)現(xiàn)模型的調(diào)參,形成訓(xùn)練好的模型。

      2.1 多級分類標(biāo)準(zhǔn)

      高鐵安全巡檢記錄按照技術(shù)規(guī)章的維度分為2級分類,其中一級包含設(shè)備問題、作業(yè)人員違規(guī)、管理人員違規(guī)、信息資料違規(guī)4大類,二級包含設(shè)備故障或損傷、作業(yè)人員出現(xiàn)管理問題、管理人員出現(xiàn)管理問題、信息資料管理違規(guī)等18小類(見表2)。

      表2 高鐵安全巡檢記錄技術(shù)規(guī)章分類標(biāo)準(zhǔn)

      2.2 數(shù)據(jù)預(yù)處理與特征向量表示

      高鐵安全巡檢記錄數(shù)據(jù)預(yù)處理主要是實(shí)現(xiàn)有關(guān)巡檢記錄中常用詞的去除以及標(biāo)點(diǎn)符號的濾除,此外通過對樣本數(shù)據(jù)的觀察,發(fā)現(xiàn)有很多日期、時(shí)間和地點(diǎn)描述,對于實(shí)現(xiàn)文本向量的表示會造成干擾。因?yàn)楦哞F技術(shù)規(guī)章分類的特征向量與日期、時(shí)間和地點(diǎn)都無關(guān),最主要的是檢查發(fā)現(xiàn)的問題和經(jīng)過。因此采用了正則表達(dá)式將日期、時(shí)間和地點(diǎn)等干擾詞進(jìn)行了濾除。

      在實(shí)現(xiàn)高鐵安全巡檢記錄數(shù)據(jù)預(yù)處理之后,需要進(jìn)行中文文本分詞。采用融合鐵路領(lǐng)域詞典的分詞方法和Jieba分詞工具實(shí)現(xiàn)文本分詞[8]。針對分詞后的文件,可以使用TF-IDF和Word2Vec實(shí)現(xiàn)特征向量表示。其中,Word2Vec是2013年Google開源的可以在百萬數(shù)量級的詞典和上億的數(shù)據(jù)集上進(jìn)行訓(xùn)練的詞向量分布式表示算法,成為目前文本向量分布式表示的主要方法[9-10]。

      Word2Vec算法的實(shí)質(zhì)為一個淺層神經(jīng)網(wǎng)絡(luò),主要包含CBoW(Continuous Bag-of-Words Model)模型和Skip-gram模型。CBoW模型主要是利用上下文來預(yù)測某一個目標(biāo)詞的向量表達(dá)。Skip-gram模型則是根據(jù)目標(biāo)詞預(yù)測上下文,從而獲得目標(biāo)詞的詞向量。假設(shè)文本序列集為C={w1,w2,w3,…,wN},對于一個給定詞wt,在選取窗口大小為j時(shí),此時(shí)的Skip-gram模型主要是通過構(gòu)建神經(jīng)網(wǎng)絡(luò),使得在所有給定的詞的情況下,能夠最大可能預(yù)測出周圍的詞,模型的損失函數(shù)采用最大似然估計(jì):

      文本詞向量表示Skip-gram神經(jīng)網(wǎng)絡(luò)模型的整體架構(gòu)見圖1。

      圖1 文本詞向量表示Skip-gram神經(jīng)網(wǎng)絡(luò)模型架構(gòu)

      Skip-gram模型最終目標(biāo)就是通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)隱含層中的權(quán)重,使得根據(jù)給定詞one-hot詞向量預(yù)測出輸出詞的概率最大。在這一計(jì)算過程中,神經(jīng)網(wǎng)絡(luò)的隱含層實(shí)際上就是像1個word embedding查找表,其輸出的1×V維的向量就是詞向量。

      2.3 多級分類模型訓(xùn)練

      高鐵安全巡檢記錄文本按照技術(shù)規(guī)章標(biāo)準(zhǔn)分類是1個2級分類問題,針對多級分類問題可以按照多標(biāo)簽分類的模式進(jìn)行劃分,也可以按照分類器串聯(lián)的方式,即先選擇1個分類模型實(shí)現(xiàn)一級分類的識別,然后在一級分類的基礎(chǔ)上進(jìn)行二級分類。多級分類結(jié)果與普通分類結(jié)果的表示沒有區(qū)別,均是直接為文本打上分類標(biāo)簽。直接選用集成學(xué)習(xí)框架LightGBM[11],對二級分類進(jìn)行識別,之后根據(jù)分類關(guān)系獲得一級分類標(biāo)簽。LightGBM是一個基于決策樹的梯度Boosting框架,比傳統(tǒng)的支持向量機(jī)、樸素貝葉斯分類等可以有更快的訓(xùn)練效率、更高的準(zhǔn)確率,并且可以處理大規(guī)模數(shù)據(jù),支持并行化學(xué)習(xí)。

      LightGBM主要采用直方圖算法實(shí)現(xiàn)連續(xù)的浮點(diǎn)特征值離散化為k個整數(shù)離散值,并構(gòu)造寬度為k的直方圖,這樣可以較大減少內(nèi)存的消耗,減少運(yùn)算的復(fù)雜度。此外,LighGBM使用帶有深度限制的按葉子生長(leaf-wise)算法,即每次從當(dāng)前所有葉子中找出增益最大的葉子節(jié)點(diǎn)進(jìn)行分類,從而避免產(chǎn)生過多的誤差,為防止產(chǎn)生過擬合增加了最大深度的限制。上述算法的關(guān)鍵參數(shù)可以在模型訓(xùn)練中指定和進(jìn)行調(diào)試。Light?GBM主要包含核心參數(shù)、控制參數(shù)、IO參數(shù)、目標(biāo)參數(shù)、度量參數(shù)、網(wǎng)絡(luò)參數(shù)等,在模型訓(xùn)練中常修改的便是核心參數(shù)、控制參數(shù)等(見表3)。

      表3 LightGBM主要參數(shù)說明

      3 實(shí)驗(yàn)結(jié)果

      實(shí)驗(yàn)選取某鐵路局集團(tuán)公司近10年的安全檢查數(shù)據(jù)共計(jì)6億多條,訓(xùn)練數(shù)據(jù)選取共計(jì)6 198條,主要采取準(zhǔn)確率(Precision)、召回率(Recall)和F1值(F1)作為模型評價(jià)指標(biāo)。

      訓(xùn)練數(shù)據(jù)主要是首先根據(jù)多級分類標(biāo)準(zhǔn)進(jìn)行標(biāo)注,即為每條高鐵安全巡檢記錄增加技術(shù)規(guī)章分類的二級標(biāo)簽,然后針對標(biāo)注后的數(shù)據(jù)中的高鐵安全巡檢記錄進(jìn)行融合鐵路詞典的中文文本分詞和基于Word2Vec的文本向量轉(zhuǎn)換,同時(shí)將技術(shù)規(guī)章分類標(biāo)簽數(shù)據(jù)進(jìn)行編碼,最終將所有文本轉(zhuǎn)換為數(shù)字表示的向量形式。

      訓(xùn)練通過GridSearchCV進(jìn)行網(wǎng)格訓(xùn)練和調(diào)優(yōu),其中采用80%的訓(xùn)練數(shù)據(jù)作為訓(xùn)練集,20%的數(shù)據(jù)作為測試集,最終得到最優(yōu)的模型參數(shù)為:LightGBM設(shè)置樹的應(yīng)用類型application=multiclasss,模型使用算法boosting=gbdt,度量函數(shù)metric=multi_logss,最大深度max_depth=15,分類數(shù)量num_class=18,葉子節(jié)點(diǎn)數(shù)num_leaves=64,學(xué)習(xí)速率learning_rate=0.01,隨機(jī)特征設(shè)置比列feature_fraction=0.8,重采樣比例bag?ging_fraction=0.9,重采樣頻率bagging_freq=5,正則化系數(shù)lambda_l1=0.6。最后在測試集上得到訓(xùn)練結(jié)果(見表4)。

      表4 模型訓(xùn)練結(jié)果

      由表4可見,在學(xué)習(xí)階段得到的模型整體的準(zhǔn)確率、召回率和F1值都比較高,可以應(yīng)用推理階段,即實(shí)現(xiàn)剩余數(shù)據(jù)自動分類預(yù)測,為技術(shù)規(guī)章的優(yōu)化提供支撐。

      4 結(jié)束語

      在我國高鐵快速發(fā)展和走出去的關(guān)鍵時(shí)期,高鐵技術(shù)規(guī)章的科學(xué)合理制定和優(yōu)化關(guān)系到高鐵的安全生產(chǎn)作業(yè)和運(yùn)營?;诩蓪W(xué)習(xí)LightGBM的文本智能分類模型,以非結(jié)構(gòu)化高鐵安全巡檢記錄文本數(shù)據(jù)為分析對象,基于現(xiàn)場車務(wù)、機(jī)務(wù)、工務(wù)、供電等專業(yè)的實(shí)際作業(yè)中常見的作業(yè)違規(guī)問題,來進(jìn)行有針對性的技術(shù)規(guī)章制定和優(yōu)化,并可以進(jìn)行有針對性的培訓(xùn)和重點(diǎn)的獎懲。如對于現(xiàn)場作業(yè)中常見的培訓(xùn)管理違規(guī)問題,可從在技術(shù)規(guī)章中增加培訓(xùn)次數(shù)、培訓(xùn)時(shí)長和培訓(xùn)考核的限制,以有效規(guī)避高鐵運(yùn)營中由于技術(shù)規(guī)章制定的疏漏、模糊和不具備針對性等造成現(xiàn)場作業(yè)不到位,從而從技術(shù)規(guī)章制定和優(yōu)化角度規(guī)避風(fēng)險(xiǎn)隱患,避免故障乃至事故的發(fā)生,保障高鐵的安全運(yùn)行。

      猜你喜歡
      規(guī)章高鐵向量
      一起坐高鐵
      第一次乘高鐵
      向量的分解
      聚焦“向量與三角”創(chuàng)新題
      過度限制地方政府規(guī)章重復(fù)立法之思考
      高鐵會飛嗎
      地方政府規(guī)章備案審查:參與及控制
      法律方法(2019年1期)2019-05-21 01:04:10
      青海省人民政府關(guān)于修改和廢止部分省政府規(guī)章的決定
      人地百米建高鐵
      統(tǒng)一招投標(biāo)法規(guī)——談法律與規(guī)章的修改
      临洮县| 鹤庆县| 佛教| 邯郸县| 二连浩特市| 修文县| 江孜县| 都安| 锦州市| 东辽县| 南汇区| 河曲县| 新巴尔虎右旗| 湘潭县| 威海市| 永康市| 年辖:市辖区| 西宁市| 四子王旗| 永宁县| 二连浩特市| 姜堰市| 龙川县| 贵州省| 府谷县| 乐山市| 上林县| 和静县| 江安县| 惠水县| 荆门市| 泗洪县| 姚安县| 扎鲁特旗| 当涂县| 富源县| 泌阳县| 广宁县| 淮南市| 巧家县| 星座|