潘道成鄧衛(wèi)民蔣祝巍何榮超于小晴
(國網(wǎng)黑龍江省電力有限公司鶴崗供電公司,黑龍江 鶴崗 154100)
隨著能源互聯(lián)網(wǎng)建設(shè)的不斷推進(jìn),電力系統(tǒng)的規(guī)模也不斷擴(kuò)大[1]。電力系統(tǒng)作為我國經(jīng)濟(jì)發(fā)展的基礎(chǔ)支撐系統(tǒng)在日常生產(chǎn)過程會存在安全生產(chǎn)隱患,需要及時進(jìn)行處理以減少安全事故的發(fā)生[2]。
由于電力工作人員以自然語言的形式進(jìn)行安全隱患記錄,記錄存在不規(guī)范、隱患內(nèi)容不清楚等問題[3-4]。有文獻(xiàn)通過人工經(jīng)驗(yàn)確定語義框架填充對文本進(jìn)行表示,但語義框架的二維表形式缺乏靈活性,難以適應(yīng)復(fù)雜的電力設(shè)備隱患情況,且框架的定義依賴于人工經(jīng)驗(yàn),難以全面考慮隱患記錄多樣化的表達(dá)方式[5]。為避免人工經(jīng)驗(yàn)的局限,文獻(xiàn)[6]采用機(jī)器學(xué)習(xí)算法,借助計(jì)算機(jī)自動挖掘隱患記錄中詞級別的規(guī)律,從而基于詞的統(tǒng)計(jì)特征對文本進(jìn)行表示。然而,機(jī)器學(xué)習(xí)方法所選取的特征局限于關(guān)鍵詞的出現(xiàn)與否或出現(xiàn)頻率,這些統(tǒng)計(jì)特征雖有一定的規(guī)律性,但對句中關(guān)鍵詞的內(nèi)在邏輯缺乏充分考慮,可解釋性不足,容易局限于隱患記錄的字面特征[7-8]。
因此,本文將電力安全隱患記錄進(jìn)行分析和處理,獲得安全隱患的實(shí)體及其內(nèi)在關(guān)系,并在此基礎(chǔ)上構(gòu)建電力安全隱患知識圖譜。利用構(gòu)建的電力安全隱患知識圖譜對隱患進(jìn)行可視化分析,并對潛在的電力安全隱患進(jìn)行預(yù)測。
電網(wǎng)安全隱患記錄表是一種特殊的非結(jié)構(gòu)化文檔,形式上具有半結(jié)構(gòu)化文檔的特征,但數(shù)據(jù)流實(shí)際上是非結(jié)構(gòu)化的[910]。使用統(tǒng)一的JSON(Java Script Object Notation)生成器,通過配置抽取模版將隱患信息抽取出來,生成JSON 文件,并在此基礎(chǔ)上構(gòu)建相對應(yīng)的數(shù)據(jù)本體。根據(jù)本體定義的數(shù)據(jù)屬性和特征將隱患數(shù)據(jù)進(jìn)行分類。
高效的數(shù)據(jù)存儲與讀取是實(shí)現(xiàn)知識圖譜構(gòu)建的基礎(chǔ),作為一個實(shí)時分布式搜索和分析引擎,可以提供隱患記錄的高效搜索及分析,提高電網(wǎng)智能化水平[11-12]。
ES隱藏了Lucene 的復(fù)雜性,采用了特殊的倒排索引數(shù)據(jù)結(jié)構(gòu)。由電網(wǎng)隱患語料中所有不重復(fù)的詞語組成,建立隱患詞語與包含它的隱患語料列表的映射,文檔列表的每條記錄包括隱患文檔ID、隱患出現(xiàn)的頻率、出現(xiàn)的位置等。ES是由多個索引組成的,而每個索引由多個索引分片組成。每個索引分片數(shù)據(jù)只有1份,獨(dú)立進(jìn)行數(shù)據(jù)存儲,ES搜索引擎結(jié)構(gòu)如圖1所示。
圖1 ES搜索引擎結(jié)構(gòu)
(1)隱患數(shù)據(jù)存儲:ES使用Lucene來處理分片級別的索引和查詢,因此隱患數(shù)據(jù)目錄中的文件由ES和Lucene寫入。新增的隱患數(shù)據(jù)會被存放在內(nèi)存的緩存中,并生成日志。當(dāng)隱患數(shù)據(jù)足夠多或者到達(dá)一定時間點(diǎn)時,就會在緩存中生成一個新的分片,并寫入磁盤生成一個新的提交點(diǎn),記錄當(dāng)前所有可用的分片等待所有數(shù)據(jù)都已寫入磁盤。打開新增的分片,可對新增的文檔進(jìn)行搜索。清空緩存,準(zhǔn)備接收新的隱患數(shù)據(jù)。
(2)隱患數(shù)據(jù)檢索:在進(jìn)行隱患檢索時,節(jié)點(diǎn)將請求轉(zhuǎn)發(fā)到一組包含所有隱患數(shù)據(jù)的分片。ES使用輪訓(xùn)機(jī)制選擇可用的分片(主分片或副本分片),并將搜索請求轉(zhuǎn)發(fā)過去。ES 從這些分片收集結(jié)果,將其聚集到單一的回復(fù),然后將回復(fù)返回給客戶端應(yīng)用程序,檢索流程如圖2所示。
圖2 ES搜索引擎檢索流程
使用NLPIR(Natural Language Processing-Information Retrieval)中文分詞系統(tǒng)對電力安全隱患數(shù)據(jù)進(jìn)行處理。NLPIR系統(tǒng)可以實(shí)現(xiàn)中文分詞、詞性標(biāo)注、關(guān)鍵詞提取、情感分析等功能,并支持多種編碼、多種操作系統(tǒng)、多種開發(fā)語言與平臺。
第1步,將電網(wǎng)隱患語料輸入NLPIR 中文分詞系統(tǒng)分析平臺,完成隱患語料的自動切分。
第2步,使用“用戶自定義詞”功能進(jìn)行調(diào)整。由于電力系統(tǒng)存在大量的專業(yè)術(shù)語,系統(tǒng)不能自動識別。如“中性點(diǎn)接地裝置”,系統(tǒng)自動切分成2個詞,需要進(jìn)行人工修正。
第3步,根據(jù)調(diào)整后的分詞標(biāo)注以空格分隔相鄰的2個詞。
將實(shí)體、屬性及關(guān)系數(shù)據(jù)整合為三元組,形成圖結(jié)構(gòu)的電網(wǎng)隱患知識圖譜。知識圖譜構(gòu)建流程如圖3所示。
圖3 知識圖譜構(gòu)建流程
知識儲存是將電力生產(chǎn)安全隱患文本中產(chǎn)生的數(shù)據(jù)進(jìn)行保存。由于電力生產(chǎn)安全隱患需要長期保存,且電力生產(chǎn)安全隱患數(shù)量龐大,需要高性能的數(shù)據(jù)庫進(jìn)行儲存管理。利用Neo4j圖數(shù)據(jù)庫技術(shù)對電力生產(chǎn)安全隱患進(jìn)行存儲,Neo4j具有成熟數(shù)據(jù)庫的原子性、一致性、隔離性、持久性等所有特性,利用圖結(jié)構(gòu)可以更加高效的存儲數(shù)據(jù),通過Neo4j的Web可視化界面,提供查詢和展示功能。
電網(wǎng)安全隱患知識圖譜包含了安全隱患實(shí)體和實(shí)體間的復(fù)雜關(guān)系。隨著電力建設(shè)的不斷推進(jìn),越來越多電力設(shè)備和智能終端的加入,使得知識圖譜需要進(jìn)行更新和補(bǔ)充,從而保障知識的覆蓋范圍和動態(tài)分析的準(zhǔn)確性。知識圖譜的可視化功能可以更直觀地展示安全隱患之間的內(nèi)在關(guān)聯(lián),方便快速獲取安全隱患信息和處理方法。
由于電網(wǎng)安全隱患記錄含有大量電力領(lǐng)域?qū)I(yè)詞匯,在知識圖譜構(gòu)建一般過程的基礎(chǔ)上進(jìn)行以下修改。
(1)分詞。由于電力領(lǐng)域詞匯具有專業(yè)性強(qiáng)、詞匯組合方式多樣的特點(diǎn),傳統(tǒng)分詞方法難以準(zhǔn)確進(jìn)行詞匯切割。因此,通過構(gòu)建電力領(lǐng)域?qū)I(yè)詞典進(jìn)行輔助分詞。利用專業(yè)詞典進(jìn)行隱患實(shí)體和屬性的匹配,若匹配成功則確定該實(shí)體與屬性。由于電力領(lǐng)域?qū)?shí)體定義明確,因此可以省略實(shí)體消歧步驟。
(2)關(guān)系抽取。通過依存句法分析隱患實(shí)體和屬性各成分間的“主謂賓”、“定狀補(bǔ)”等依存關(guān)系來識別各隱患實(shí)體/屬性間是否存在關(guān)系及相應(yīng)關(guān)系類型。電力生產(chǎn)安全隱患知識圖譜可以結(jié)合實(shí)體/屬性的詞性對關(guān)系進(jìn)行限定。
(3)知識圖譜構(gòu)建。Neo4j圖數(shù)據(jù)庫作為常用的5種數(shù)據(jù)庫之一,具有高性能、輕量級的特點(diǎn)。利用Neo4j圖數(shù)據(jù)庫對電網(wǎng)安全隱患三元組進(jìn)行可視化表示,構(gòu)建電網(wǎng)安全隱患知識圖譜。
考慮到電網(wǎng)隱患知識圖譜可視化技術(shù)的實(shí)現(xiàn),搭建基于知識圖譜的電網(wǎng)安全隱患動態(tài)分析系統(tǒng),前后端分離B/S(Browser/Server)架構(gòu)進(jìn)行開發(fā)和維護(hù),業(yè)務(wù)處理主要在服務(wù)器端實(shí)現(xiàn),盡可能使系統(tǒng)各層保持較低的耦合度,減輕了系統(tǒng)開發(fā)成本。系統(tǒng)架構(gòu)分為三層:表示層、業(yè)務(wù)層、數(shù)據(jù)層,系統(tǒng)的架構(gòu)設(shè)計(jì)如圖4所示。
圖4 系統(tǒng)架構(gòu)
采用圖結(jié)構(gòu)組織知識的電網(wǎng)隱患知識圖譜非常適合用Neo4j進(jìn)行存儲。基于知識圖譜的電網(wǎng)安全隱患動態(tài)分析系統(tǒng),采用B/S模式架構(gòu),完成對Neo4j的訪問,將數(shù)據(jù)返回客戶端并接受客戶端的請求,實(shí)現(xiàn)顯示Neo4j數(shù)據(jù)庫的數(shù)據(jù)到Web端,并采用Echarts 實(shí)現(xiàn)數(shù)據(jù)的圖表可視化。D3.js是一個用js編寫的開源圖庫,他允許用戶與圖形交互,用可視化的方式在Web端展示知識圖譜的網(wǎng)絡(luò)關(guān)系,可以形象化的展示結(jié)果,有助于直觀揭示對象之間的關(guān)系,展示多方面的屬性,理解節(jié)點(diǎn)之間的連接和關(guān)系,確保對關(guān)系的理解更直觀和形象,診斷技術(shù)實(shí)現(xiàn)框架如圖5所示。
圖5 診斷技術(shù)實(shí)現(xiàn)框架
根據(jù)以上流程,首先對電力安全隱患信息進(jìn)行分詞處理,獲得隱患信息字段,如:“35 kV”、“長青線”、“雨天”。利用這些隱患信息字段自動生成35 kV 長清線安全隱患知識圖譜,并在此基礎(chǔ)上實(shí)現(xiàn)隱患原因、隱患處理方法、相關(guān)規(guī)程等信息的檢索,實(shí)現(xiàn)過程如圖6所示。
圖6 隱患信息檢索和分析過程
在Centos上,使用Docker部署Django后臺、LTP、ElasticSearch、Vue前端等請求并配置相關(guān)參數(shù),聯(lián)調(diào)使用。本文以吉林某地區(qū)電網(wǎng)安全隱患數(shù)據(jù)作為數(shù)據(jù)集驗(yàn)證診斷技術(shù)的有效性。數(shù)據(jù)集包含隱患1 355件,其中輸電專業(yè)272件、變電專業(yè)101件、保護(hù)及自動化專業(yè)98件、配電專業(yè)858件,電網(wǎng)專業(yè)14件,信通專業(yè)12件(其中重大隱患2件,占比0.17)。以變電專業(yè)為例進(jìn)行分析,該專業(yè)知識圖譜如圖7所示。
圖7 變電專業(yè)知識圖譜
根據(jù)生成的電網(wǎng)隱患知識圖譜,可以分析得到隱患原因主要有:(1)設(shè)備長期運(yùn)行,易受到環(huán)境因素的影響,存在安全隱患;(2)設(shè)備處置不合理,導(dǎo)致存在安全隱患,如組合電器密度繼電器未加裝防雨罩、主變壓器二次母線未進(jìn)行絕緣化處理等違反反事故措施項(xiàng)目的隱患;(3)設(shè)備設(shè)計(jì)不合理,存在家族型缺陷或頻繁發(fā)生同一類型故障為同一廠家的設(shè)備。
根據(jù)以上分析結(jié)果可以針對性的預(yù)測易發(fā)生隱患位置,部分圖譜見圖8—10。
圖8 互感器部分知識圖譜
(1)運(yùn)行5 a及以上的互感器設(shè)備及電磁型電壓互感器易發(fā)生異常引起故障停運(yùn)。
(2)變壓器瓦斯繼電器、壓力釋放閥防雨措施不完善等反事故措施未落實(shí),易造成保護(hù)誤動。
圖9 瓦斯繼電器、壓力釋放閥部分知識圖譜
(3)部分設(shè)備引流線線夾、壓接管松動問題逐步顯現(xiàn),易造成引流線脫落而引發(fā)事故。
圖10 引流線線夾、壓接管部分知識圖譜
對知識圖譜生成的結(jié)果進(jìn)行分析,得到隱患的預(yù)控和防治方法,可根據(jù)知識圖譜提出針對性的建議。對運(yùn)行15 a及以上的互感器設(shè)備進(jìn)行性能抽樣檢測。對同一廠家、同一型號的互感器應(yīng)至少抽1臺進(jìn)行性能檢測。核查變電設(shè)備外絕緣配置情況,對爬距不滿足標(biāo)準(zhǔn)要求或污穢嚴(yán)重地區(qū)的設(shè)備,采用調(diào)整爬距,噴涂防污閃涂料、加裝硅橡膠輔助傘裙等措施,提高防污閃水平,防止設(shè)備發(fā)生污閃、雨閃事故。結(jié)合變壓器停電檢修,全面進(jìn)行繞組測試,準(zhǔn)確掌握變壓器運(yùn)行狀態(tài)。冬春交替季節(jié),加強(qiáng)設(shè)備基礎(chǔ)情況巡視。
通過深入分析電網(wǎng)智能化建設(shè)過程中隱患數(shù)據(jù)利用率低與隱患預(yù)防困難的問題,設(shè)計(jì)了一種充分利用歷史隱患數(shù)據(jù)的電網(wǎng)安全隱患分析系統(tǒng),提出了基于知識圖譜的電網(wǎng)安全隱患動態(tài)分析,并通過實(shí)例證明了知識圖譜在隱患分析上的優(yōu)勢。其中的非結(jié)構(gòu)化隱患抽取模板,有效實(shí)現(xiàn)了隱患數(shù)據(jù)的處理;基于ES搜索引擎,為電網(wǎng)隱患知識圖譜的構(gòu)建提供數(shù)據(jù)支撐;NLPIR 中文分詞系統(tǒng)可根據(jù)電力系統(tǒng)的詞匯特點(diǎn)實(shí)現(xiàn)了高精度的隱患分詞和詞性標(biāo)注,進(jìn)一步為電網(wǎng)知識圖譜的構(gòu)建奠定了基礎(chǔ)?;谥R圖譜的電網(wǎng)安全隱患分析充分利用了知識圖譜技術(shù)的高效儲存和可視化的功能,有效提高隱患數(shù)據(jù)的利用效率,能有效發(fā)現(xiàn)潛在的電力安全隱患,保障了電網(wǎng)的安全穩(wěn)定運(yùn)行。在后續(xù)研究中,將繼續(xù)提高中文分詞的準(zhǔn)確率從而提升電網(wǎng)安全隱患的分析效果。