• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      變電站設備缺陷文本數(shù)據(jù)挖掘及其應用

      2022-01-18 06:24:04胡東林陳偉楊鑫張鵬桑江艷
      云南電力技術 2021年6期
      關鍵詞:分詞語料庫分類器

      胡東林,陳偉,楊鑫,張鵬,桑江艷

      (云南電網(wǎng)有限責任公司昆明供電局,云南 昆明 650011)

      0 前言

      數(shù)據(jù)挖掘(DataMining,DM)是當前人工智能、機器學習領域研究的熱點,是指從大量數(shù)據(jù)中發(fā)現(xiàn)隱含的具有潛在價值信息的過程,旨在讓計算機根據(jù)已有數(shù)據(jù)進行歸納推理,做出正確的決策。隨著計算機及通信網(wǎng)絡的不斷發(fā)展,智能電網(wǎng)建設的不斷推進以及新能源的接入,電力企業(yè)在生產(chǎn)、營銷等領域的各個環(huán)節(jié)積累了海量的數(shù)據(jù)。充分利用數(shù)據(jù)資源,開展數(shù)據(jù)挖掘是電力企業(yè)實現(xiàn)精益化管理,提升綜合競爭力的重要手段。

      在大數(shù)據(jù)處理中,規(guī)模和復雜性之間往往會有一個平衡點,Python語言便是一種折中方案。Python是一種通用型編程語言,具有優(yōu)雅、簡潔、高效的特點,且簡單易學,有著豐富的第三方庫。從數(shù)據(jù)采集、分析一直到應用開發(fā)層面都有比較成熟的庫,使用Python語言進行開發(fā),無需關注過多語言細節(jié),可以將主要精力放到業(yè)務本身[1],適用于Linux、Mac、Windows系統(tǒng),可移植性極強。

      1 變電站設備缺陷數(shù)據(jù)及特點

      變電站的正常運行是保證電網(wǎng)安全穩(wěn)定的基礎,與國計民生息息相關,變電運行人員通過信號監(jiān)測、倒閘操作、定期巡視、特殊巡視等工作來保障變電站設備的正常運行,在工作過程中積累了大量的設備缺陷數(shù)據(jù)。這些缺陷數(shù)據(jù)是設備狀態(tài)的“晴雨表”,對變電站設備運行狀態(tài)分析以及設備全生命周期管理有著至關重要的意義。

      設備缺陷是指生產(chǎn)設備在制造運輸、施工安裝、運行維護等階段發(fā)生的設備質量異常現(xiàn)象,按照嚴重程度分為緊急缺陷、重大缺陷、一般缺陷和其他缺陷[2]。

      南方電網(wǎng)公司資產(chǎn)管理系統(tǒng)中保存的缺陷文本信息包含“發(fā)現(xiàn)時間”、“缺陷設備”、“缺陷等級”、“缺陷表象”、“缺陷描述”等47個類目,涵蓋了從發(fā)現(xiàn)缺陷到處理閉環(huán)的整個流程,除了“缺陷描述”、“遺留問題”、“處理情況描述”、“備注”等四個類目,其余類目均可以從系統(tǒng)中進行模塊化選擇,便于下一步的缺陷信息統(tǒng)計和分析。由于現(xiàn)場設備種類繁多,缺陷情況各不一樣,僅通過模塊化選擇無法完全涵蓋缺陷信息,故“缺陷描述”、“遺留問題”、“處理情況描述”需要手工輸入。這些信息以中文短文本為主,包含英文字詞、希臘字母、數(shù)字、符號等多種樣式,不能直接按常規(guī)的結構化數(shù)據(jù)挖掘技術進行分析。國外有學者運用機器學習的方法,對紐約電網(wǎng)海量歷史缺陷數(shù)據(jù)進行挖掘,進而為電力設備故障預測和維修提供相關依據(jù)[3]。相較于英文單詞組成的文本,中文文本的詞與詞之間并無明顯分界,存在著多歧義、分詞難等特點,使得缺陷數(shù)據(jù)內容沒有充分挖掘。

      為實現(xiàn)更深層次的信息挖掘,本文以變電站設備缺陷描述文本為研究對象,充分挖掘設備缺陷信息。首先,人工建立自定義詞典,對缺陷文本進行分詞,進行TF-IDF值統(tǒng)計,生成詞云;其次,通過對大量缺陷文本進行機器學習,采用SVM聚類算法,建立缺陷等級預測模型,實現(xiàn)對缺陷的定級預測,為缺陷數(shù)據(jù)的信息挖掘提供了另一種思路,基本流程如圖1所示。

      圖1 缺陷文本數(shù)據(jù)挖掘流程圖

      2 設備缺陷數(shù)據(jù)處理及分析

      2.1 數(shù)據(jù)采集

      本文抽取2020年期間已歸檔的1017條缺陷進行分析。

      2.2 數(shù)據(jù)預處理

      針對收集的缺陷數(shù)據(jù)進行初步處理,使其能夠被計算機識別,是數(shù)據(jù)挖掘的基礎,內容如下。

      1)分詞

      本文采用隱馬爾可夫模型(hiddenMarkov model,HMM)進行分詞,隱馬爾可夫模型是可用于標注問題的統(tǒng)計學習模型,在語音識別、自然語言處理、模式識別等領域有著廣泛的應用[4]。jieba分詞庫是Python的一個第三方庫,采用了基于漢字成詞能力的隱馬爾可夫模型,并使用Viterbi算法。本文使用jieba分詞庫將“缺陷描述”類目中詞與詞之間用空格分開,便于后期數(shù)據(jù)分析。

      2)構建自定義詞典

      結果初步分詞后發(fā)現(xiàn),雖然jieba分詞庫對一般常見詞匯分詞效果較好,且具有一定的新詞識別能力,但對電力領域特有名詞以及相關故障涉及詞匯分詞能力不足。通過參考中國南方電網(wǎng)有限責任公司缺陷管理辦法、設備缺陷定級標準及相關規(guī)程,對常見電力設備、部件、缺陷涉及詞匯以及線路名稱進行錄入,提升分詞準確率。編制Python程序對每一條缺陷描述進行分詞處理,根據(jù)缺陷定級分類保存至“緊急”、“重大”、“一般”、“其他”缺陷文件夾,作為語料庫。其中抽取11月20日前919條數(shù)據(jù)作為訓練集,剩余98條數(shù)據(jù)作為測試集。

      表1 是對單條缺陷描述的分詞效果示例,為使顯示更加直觀,采用符號“/”作為示例中的分詞間隔符??梢钥闯?,在導入自定義詞典后,分詞效果有明顯提升,電流互感器、二次接線盒等專業(yè)名詞已經(jīng)能夠被區(qū)分出來,有利于后期統(tǒng)計分析。

      表1 分詞效果示例

      3)關鍵詞及TF-IDF統(tǒng)計

      采用TF-IDF算法對每個詞進行詞頻統(tǒng)計,從而得出關鍵詞進行研究分析。TF-IDF算法是一種統(tǒng)計方法,其主要思想是:詞語的重要性隨著它在文檔中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。詞頻(TermFrequency,TF)是指某個詞或短語在文檔中出現(xiàn)的頻率,逆文檔頻率(InverseDocumentFrequency,IDF)是詞語普遍重要性的度量,如果包含詞語的文檔數(shù)量越少,則IDF值越大,則說明該詞具有很好的類別區(qū)分能力。某一特定文件內的高詞語頻率,以及該詞語在整個語料庫中的低文件頻率,可以產(chǎn)生出高權重的TF-IDF。

      計算公式為:

      其中,

      式(1)中,tfij為詞頻,ni,j為詞語ti在文檔dj中出現(xiàn)的次數(shù),Σknk,j為文檔dj的所有詞語數(shù)量之和,式(2)中,idfi為逆文檔頻率,|D|為語料庫中的文檔總數(shù),|{j:ti∈dj}|為包含詞語ti的文件數(shù)量。

      抽取前5名關鍵詞如表2所示:

      表2 前5名關鍵詞匯及TF-IDF值

      2.3 生成詞云

      詞云是指對文本中出現(xiàn)頻率較高的關鍵詞予以視覺上的突出,并過濾掉大量無關的文本信息,使瀏覽者第一眼就能抓取關鍵詞。根據(jù)得到的關鍵詞及TF-IDF值,利用Python的第三方庫wordcloud,對語料庫中的關鍵詞進行渲染,予以視覺上的突出,選取前200個關鍵詞,生成詞云,如圖2所示。

      圖2 缺陷文本詞云效果

      3 設備缺陷定級預測模型

      3.1 模型建立

      本文采用支持向量機(supportvectormachine,SVM)進行缺陷定級預測。SVM建立在計算學習理論的結構風險最小化原則之上。其主要思想是在兩類分類問題方面,從高維空間中尋找一個超平面,以作為兩類的分割面,從而保證最小的分類錯誤率。而且支持向量機一個重要的優(yōu)點是可以處理線性不可分的情況。支持向量機是一種功能強大的分類器,一旦得到了正確的參數(shù),與貝葉斯分類器、決策樹分類器、神經(jīng)網(wǎng)絡、k-最近鄰算法相比,有可能會不相上下或更勝一籌[6]。在運算速度方面,接受訓練后,SVM只需判斷坐標點位于分界線的哪一側即可,從而對新的觀測數(shù)據(jù)進行分類時速度極快。采用SVM定級預測流程如圖3所示。

      圖3 SVM預測定級流程圖

      編制缺陷定級預測程序,對選取測試集中某一條文本進行缺陷定級預測,效果如表3所示:

      表3 設備缺陷定級預測示例

      現(xiàn)場人員只需要將設備缺陷描述輸入,計算機程序便能夠根據(jù)訓練集進行特征提取,并將輸入文本與之進行比對,迅速輸出缺陷等級,用作現(xiàn)場參考,從而提高現(xiàn)場缺陷定級的速度,提升工作效率。

      3.2 模型評估

      本文研究了分詞前后的模型分類性能參數(shù),生成SVM分類器性能指標(表4、表5)以及SVM分類結果的混淆矩陣(表6、表7)。

      表4 SVM分類性能指標(分詞前)

      表5 SVM分類性能指標(分詞后)

      在性能指標參數(shù)中,precision表示準確率,計算公式為:

      式中,TP表示被識別為該分類的正確記錄數(shù),TP+FP表示實際被識別為該分類的記錄數(shù)。

      recall表示召回率,計算公式為:

      式中,TP+FN表示應被識別為該分類的記錄數(shù)f1-score是準確率和召回率的調和均值,計算公式為:

      Support表示測試集中該分類的記錄總數(shù)。

      從表4、表5對比可分析出,通過分詞后,SVM分類器性能(準確率、召回率、f1-score)總體得分均有提升。

      表6 、表7中是SVM分類結果的混淆矩陣表示(其中橫縱名稱相同的單元格為分類正確數(shù)量),因為用于測試的缺陷有“緊急”“重大”“一般”“其他”個4類別,所以是一個44的矩陣,每一行的所有數(shù)字之和表示測試集中該分類的記錄總數(shù),等于表4、表5中的support值。進行分詞后,SVM分類器對測試數(shù)據(jù)在一般、其他、緊急缺陷的分類上均有提升,但在重大缺陷分類上正確分類數(shù)量有所下降。

      表6 SVM分類混淆矩陣(分詞前)

      表7 SVM分類混淆矩陣(分詞后)

      結合SVM分類性能指標和混淆矩陣可看出,除了重大缺陷正確分類數(shù)量下降了3條,其他指標均得到了明顯優(yōu)化。隨著語料庫的豐富和自定義詞典的不斷完善,預測效果將會得到進一步提升。

      4 結束語

      1)研究了一種從歷史設備缺陷文本中獲取關鍵詞的方法,并根據(jù)TF-IDF值大小以詞云的方式進行可視化展現(xiàn)。

      2)建立了基于Python的變電站設備缺陷文本數(shù)據(jù)挖掘模型,有利于現(xiàn)場人員根據(jù)缺陷描述快速對缺陷定級。

      3)分析了模型指標參數(shù),為下一步優(yōu)化缺陷文本分類模型、提升分類準確率提供了思路。

      4)自定義詞典的錄入不完善,導致還有部分電力領域專業(yè)詞匯被錯誤切分,需要不斷增加電力領域特別是變電站設備缺陷的專業(yè)詞匯,完善自定義詞庫,提升分詞準確率。

      5)研究重點放在設備缺陷信息中非結構化數(shù)據(jù)的分析,與結構化數(shù)據(jù)相結合的數(shù)據(jù)挖掘能力需要進一步提升。

      猜你喜歡
      分詞語料庫分類器
      《語料庫翻譯文體學》評介
      結巴分詞在詞云中的應用
      智富時代(2019年6期)2019-07-24 10:33:16
      BP-GA光照分類器在車道線識別中的應用
      電子測試(2018年1期)2018-04-18 11:52:35
      把課文的優(yōu)美表達存進語料庫
      值得重視的分詞的特殊用法
      加權空-譜與最近鄰分類器相結合的高光譜圖像分類
      結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
      高考分詞作狀語考點歸納與疑難解析
      永胜县| 光泽县| 微博| 上栗县| 乐清市| 高清| 赤水市| 寻乌县| 沈阳市| 玛曲县| 基隆市| 罗山县| 临西县| 平武县| 涟水县| 习水县| 万全县| 西平县| 绵竹市| 阿瓦提县| 横峰县| 民勤县| 亳州市| 凭祥市| 蒙山县| 张家港市| 诸城市| 延津县| 溧阳市| 仪征市| 九台市| 明水县| 武清区| 霸州市| 文化| 朔州市| 安吉县| 唐山市| 本溪市| 乐东| 德清县|