• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      電力設(shè)備缺陷文本智能檢索

      2023-03-30 07:30:14李曈昊李建鋒
      科學技術(shù)創(chuàng)新 2023年5期
      關(guān)鍵詞:電力設(shè)備結(jié)構(gòu)化圖譜

      李曈昊,干 寧,李建鋒,肖 波

      (1.國能長源漢川發(fā)電有限公司,湖北 孝感;2.國能長源武漢青山熱電有限公司,湖北 武漢)

      1 介紹

      隨著能源和智能電網(wǎng)體系的不斷發(fā)展和完善,電力設(shè)備狀態(tài)是保障電力系統(tǒng)安全穩(wěn)定運行的重要支柱[1]。電力設(shè)備故障類型、現(xiàn)象和屬性大幅增加[2],當設(shè)備存在缺陷時,此時現(xiàn)有的電力設(shè)備管理系統(tǒng)可能出現(xiàn)缺陷判斷結(jié)果的解釋性不充足[3]。

      通過自然語言處理技術(shù)和深度學習的結(jié)合[4],可以處理電力通信設(shè)備故障的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)[5]。構(gòu)造知識圖譜,建立電力設(shè)備缺陷模型[6]。利用該模型,電網(wǎng)檢修的工作人員可以快速定位電力設(shè)備的缺陷,并在輔助決策中發(fā)揮有效作用[7]。

      2 電力設(shè)備缺陷知識圖譜構(gòu)建框架

      知識圖譜的構(gòu)建由兩部分內(nèi)容構(gòu)成,一方面是對知識圖譜的構(gòu)架進行建立;另一方面是對知識獲取的方法進行研究。

      2.1 電力設(shè)備缺陷知識圖譜構(gòu)建流程

      電力設(shè)備缺陷知識圖譜構(gòu)架區(qū)別于傳統(tǒng)信息化系統(tǒng)。在電力設(shè)備缺陷判斷方向,積累了海量的設(shè)備缺陷數(shù)據(jù)的案例,需要從案例中將缺陷診斷的知識挖掘出來。日常維護過程記錄電力設(shè)備的缺陷。與缺陷記錄的其他內(nèi)容不同,缺陷描述以短文本的形式記錄,沒有固定的格式和結(jié)構(gòu)。

      由于電力系統(tǒng)的專業(yè)化,電力設(shè)備缺陷的描述涉及電氣設(shè)備的專業(yè)領(lǐng)域,對電力行業(yè)的專業(yè)知識有一定要求,目前和知識圖譜結(jié)合的相關(guān)研究還較少。本課題依據(jù)電力設(shè)備缺陷的數(shù)據(jù)特點,構(gòu)建了知識圖譜。

      2.2 知識抽取

      電力設(shè)備缺陷文本由大量的實體和關(guān)系組成。知識抽取模型的基礎(chǔ)是電力設(shè)備缺陷的實體識別,文本內(nèi)容通過本體類型的標準進行識別和標注,實體識別的的效果好壞決定了知識圖譜構(gòu)建質(zhì)量的高低。由于目前沒有公開的訓練完畢的語料庫,需要人為標注和構(gòu)建數(shù)據(jù)集。對于結(jié)構(gòu)化的電力設(shè)備缺陷實體,可以直接轉(zhuǎn)化為三元組的形式。而對于非結(jié)構(gòu)化的數(shù)據(jù),為了解決部分電力系統(tǒng)行業(yè)詞匯一詞多義的問題,本文基于一種雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BiLSTM)與條件隨機場(CRF)的神經(jīng)網(wǎng)絡(luò)模型的方法,與此同時,將BERT預訓練模型作為詞向輸入加進來,一起實現(xiàn)了實體識別的任務,電力設(shè)備缺陷實體識別模型見圖1。

      圖1 電力設(shè)備缺陷實體識別模型

      BiLSTM模型在實體識別任務中,實體元素的上下文信息對于當前實體的識別和分類非常有效。因此,為了獲得每個實體的上下文特征信息,使用BiLSTM層來提取語義特征。

      由于基于流水線的知識抽取模型存在級聯(lián)錯誤,并且無法充分利用觸發(fā)詞和實體元素之間的關(guān)系來實現(xiàn)準確的實體識別。BERT 通過使用深度雙向Transformer 和大量文本語料庫來訓練通用語言模型。與現(xiàn)有的語言表示模型相比,BERT 訓練的語義向量特征包含上下文信息,可以用于對多義詞的建模,但它不考慮局部特征。對于實體識別,局部特征非常重要。因此,我們聯(lián)合提取實體觸發(fā)器和實體。

      在訓練模型前需要選取一定量的數(shù)據(jù)進行標注,再對模型進行相應的訓練。本課題選取了3 256 條電力設(shè)備缺陷數(shù)據(jù)進行人工標注,構(gòu)建了電力設(shè)備缺陷數(shù)據(jù)集,見表1。采用的是BIOES 序列標注法,其中BIOES 中的B、I、E 分別表示為實體的開始部分、中間部分和結(jié)束部分,而S 代表著實體的單個字詞,O 代表著此部分不是實體。電力設(shè)備缺陷語料庫中的一條實體標注結(jié)果見圖2。

      表1 實驗數(shù)據(jù)集大小及劃分

      圖2 實體標注示例

      標注的實體數(shù)據(jù)集中,實體類型分為5 種,分別是缺陷名稱、缺陷描述、發(fā)生部位,所屬機組、消缺部門。例如缺陷名稱是指具體產(chǎn)生缺陷的電力設(shè)備的名字,如“#3 爐#3 渣漿泵出口管道破”。以上5 類實體標注的情況見表2。

      表2 實體標注情況

      2.3 知識融合

      根據(jù)上述步驟,從非結(jié)構(gòu)化的電力設(shè)備缺陷中抽取到的實體可能存在大量的重復不清晰的數(shù)據(jù)。通過知識融合將實體名稱不同但含義相同的進行高效有機統(tǒng)一融合,并對各類型實體進行相應的分析?!鞍l(fā)生部位”類實體需要補全相應屬性,例如通過知識融合補全屬性統(tǒng)一為“凝結(jié)水輸水泵”。本課題采用編輯距離和Jaro-Winkler 相關(guān)系數(shù)算法相結(jié)合的方式,對各個實體進行相似度的計算,并設(shè)定相應的閾值來判斷待對齊的實體是否匹配能否進行知識融合。

      (1)編輯距離:在兩個詞語之間可以進行替換一個字符、刪除一個字符或者添加一個字符這三種操作,由一個詞語轉(zhuǎn)化成另外一個詞語所用到的最少的操作次數(shù),就是編輯距離。

      (2)Jaro-Winkler 相 關(guān) 系 數(shù) 算 法(JWS):Jaro-Winkler 相關(guān)系數(shù)算法是在Jaro 相關(guān)系數(shù)算法的基礎(chǔ)上做的進一步修改,Jaro-Winkler 更重視實體前綴的重要性,例如在兩個實體中前幾個字都相同的情況下,經(jīng)過Jaro-Winkler 相關(guān)系數(shù)算法得到的相似性更高。此算法的公式如公式(1)、(2)所示。

      式中,m 為兩個電力設(shè)備缺陷實體匹配的長度,t 為換位數(shù)目的一半。

      因此可以結(jié)合電力設(shè)備缺陷數(shù)據(jù)庫提供的數(shù)據(jù),設(shè)定相應的相似度閾值,通過編輯距離和Jaro-Winkler 相關(guān)系數(shù)來整體判斷該融合是否是相同的一個電力設(shè)備缺陷實體。

      2.4 知識存儲

      選擇高效合理的知識圖譜存儲方式是知識存儲的重要關(guān)注點。本文中由于電廠設(shè)備缺陷數(shù)據(jù)種類繁多、冗長復雜,所以傾向于選擇基于圖結(jié)構(gòu)的Neo4j 圖數(shù)據(jù)庫,處理電力設(shè)備缺陷數(shù)據(jù)更為高效。與Neo4j 圖數(shù)據(jù)庫中的節(jié)點、關(guān)系、屬性依次對應匹配,得到相應結(jié)構(gòu)化的三元組,并建立電力設(shè)備的缺陷模型,以實現(xiàn)對電力設(shè)備缺陷形式和處理方法的全面描述。使用Neo4j 圖數(shù)據(jù)庫來存儲實體和關(guān)系,使用Neo4j 構(gòu)建圖表數(shù)據(jù)庫的流程見圖3。

      圖3 電力設(shè)備缺陷知識圖構(gòu)建流程

      3 知識圖譜構(gòu)建結(jié)果與展示

      Neo4j 圖數(shù)據(jù)庫支持對知識數(shù)據(jù)庫中所有的數(shù)據(jù)進行查詢、修改和刪除,可實現(xiàn)對不同類型知識的精細化管理。對于圖譜的人工管理,將其劃分為實體管理及關(guān)系管理。知識圖譜的存儲核心是三元組,實體是構(gòu)建關(guān)系的前提條件,不同的實體由于屬性及所屬范圍不同,每種實體都需要進行單獨的邏輯處理。對于實體信息,可以對不同字段進行模糊搜索。

      將近幾年漢川電廠海量缺陷數(shù)據(jù)導入系統(tǒng)中,并從中抽取出48 552 個實體和989 854 條關(guān)系,一起存儲到Neo4j 圖數(shù)據(jù)庫中。在本文實際應用中,查詢?nèi)毕菝Q“真空開關(guān)有裂紋”相關(guān)的缺陷內(nèi)容過程大致為:由Cypher 語句查詢后,得到了電力設(shè)備缺陷中所有關(guān)于真空開關(guān)有裂紋的缺陷,此時獲得了與其缺陷名稱的相關(guān)實體信息和這些缺陷實體的所有屬性特征,部分示例見圖4。

      圖4 知識圖譜數(shù)據(jù)庫示例

      構(gòu)建電力設(shè)備缺陷的知識實體,并通過與Neo4j的結(jié)合,突破了缺陷信息在存儲描述以及推理上的各種局限性,得到實體模型。針對缺陷實體,從缺陷描述、發(fā)生部位等多種維度進行深入探討分析。本文采用Cypher 語言有針對性并且高效快捷的檢索、推理和挖掘各類數(shù)據(jù)。

      4 結(jié)論

      本課題結(jié)合電力設(shè)備現(xiàn)有的缺陷數(shù)據(jù)文本、維修日志等信息,設(shè)計了基于知識圖譜的電力設(shè)備缺陷模型。該模型引入BERT 預訓練模型對數(shù)據(jù)進行預處理?;贐iLSTM-CRF 模型的命名實體和實體關(guān)系的提取。通過編輯距離和Jaro-Winkler 相關(guān)系數(shù)算法計算相似度判斷能否實現(xiàn)知識融合。使用Neo4j 圖數(shù)據(jù)庫進行存儲。該模型可以幫助現(xiàn)場維修的工作人員高效智能的查找設(shè)備缺陷并改進相關(guān)的維修操作。

      猜你喜歡
      電力設(shè)備結(jié)構(gòu)化圖譜
      促進知識結(jié)構(gòu)化的主題式復習初探
      繪一張成長圖譜
      加強電力設(shè)備運維云平臺安全性管理
      結(jié)構(gòu)化面試方法在研究生復試中的應用
      計算機教育(2020年5期)2020-07-24 08:53:00
      補腎強身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      電力設(shè)備運維管理及安全運行探析
      主動對接你思維的知識圖譜
      基于壓縮感知的電力設(shè)備視頻圖像去噪方法研究
      基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
      計算機工程(2015年8期)2015-07-03 12:20:35
      基于改進Canny算子的電力設(shè)備圖像檢測研究
      孟村| 石台县| 开阳县| 且末县| 抚远县| 绥滨县| 寿阳县| 江源县| 牙克石市| 南京市| 甘泉县| 长阳| 曲麻莱县| 墨玉县| 酉阳| 伊吾县| 富川| 英吉沙县| 宝鸡市| 虞城县| 沧州市| 布尔津县| 八宿县| 巴林右旗| 深水埗区| 甘谷县| 托克逊县| 合山市| 高州市| 阳春市| 察雅县| 丹江口市| 利津县| 哈巴河县| 阿拉善左旗| 天祝| 苍溪县| 张家口市| 新沂市| 廊坊市| 尤溪县|