錢朝軍,李 俊,宗 震,張 龍,鄔 桐
(1.國網(wǎng)安徽省電力有限公司建設(shè)分公司,安徽 合肥 230071; 2.東北大學(xué) 信息科學(xué)與工程學(xué)院,遼寧 沈陽 110819; 3.國網(wǎng)遼寧省電力有限公司經(jīng)濟(jì)技術(shù)研究院,遼寧 沈陽 110015)
當(dāng)前我國電力建設(shè)的主力機(jī)型發(fā)展方向與輸變電分別以高參數(shù)、大容量與超/特高壓、交直流、長距離為發(fā)展方向[1],電力基建現(xiàn)場不同新工藝與新設(shè)備被普遍應(yīng)用。但電力基建現(xiàn)場施工是一個(gè)多工種、多層次的交叉作業(yè),臨時(shí)設(shè)備品類較多,存在較多不安全因素,極易產(chǎn)生機(jī)械傷害、坍塌以及觸電傷害,因此研究一種有效的電力基建現(xiàn)場風(fēng)險(xiǎn)區(qū)段識別方法具有重要意義。
2020年,夏宇等[2]最先通過推理鏈路質(zhì)量指示(Link Quality Indicator,LQI)和收包率(Packet Reception Rate,PRR)的理論關(guān)系,建立更具實(shí)際物理意義的雙曲正切模型,并提出一種鏈路質(zhì)量估計(jì)方法。通過指數(shù)加權(quán)卡爾曼濾波獲得更為穩(wěn)定的LQI估計(jì)值,再利用雙曲正切模型對鏈路質(zhì)量進(jìn)行定量估計(jì)。Akulenko等[3]首次提出了通過自由桿的最低頻率來識別缺陷的方法,基于將橫截面缺陷建模為已知函數(shù),將近似確定表征其特征的主要參數(shù),通過數(shù)值模擬確定振蕩模式的特征。
自然語言處理(Natural Language Processing,NLP)技術(shù)包含語言學(xué)、數(shù)學(xué)與計(jì)算機(jī)科學(xué)[4],是人工智能與計(jì)算機(jī)科學(xué)領(lǐng)域的主要研究內(nèi)容,可實(shí)現(xiàn)計(jì)算機(jī)與人之間的自然語言溝通。推理引擎亦可稱為推理機(jī),具有推理功能,其優(yōu)勢主要體現(xiàn)在易于理解、易于獲取和易于管理[5]?;诖?,將NLP技術(shù)與推理引擎應(yīng)用于電力基建現(xiàn)場風(fēng)險(xiǎn)區(qū)段識別問題中,提出基于NLP和推理引擎的電力基建現(xiàn)場風(fēng)險(xiǎn)區(qū)段識別方法,并對識別過程進(jìn)行仿真,驗(yàn)證所提方法性能。
NLP作為計(jì)算機(jī)科學(xué)以及人工智能領(lǐng)域的主要研究方向,主要應(yīng)用于計(jì)算機(jī)同人類之間的高效溝通。NLP技術(shù)中包含數(shù)種統(tǒng)計(jì)方法[6],并以此為基礎(chǔ)生成最大熵模型、隱馬爾可夫模型、概率上下文無關(guān)語法模型、貝葉斯模型以及最小邊界距離模型等?;诓煌P驮趯?shí)際應(yīng)用過程中的主要方向與性能優(yōu)勢,在識別電力基建現(xiàn)場風(fēng)險(xiǎn)描述過程中選用隱馬爾可夫模型。
隱馬爾可夫模型的主要功能是體現(xiàn)存在隱含位置參數(shù)的馬爾可夫過程,其在本質(zhì)上可理解為是一種與時(shí)序相關(guān)的概率模型[7]。隱馬爾可夫模型的狀態(tài)無法直接獲取,但可通過觀測向量序列獲取,經(jīng)由概率密度可表現(xiàn)出不同觀測向量的不同表現(xiàn)狀態(tài),不同觀測向量的產(chǎn)生均以相應(yīng)概率密度分布的狀態(tài)序列為基礎(chǔ)[8]。
隱馬爾可夫模型可通過五元組〈D,Y,A,B,π〉表示,其中:
① 狀態(tài)集合D包含4種狀態(tài)[9]:詞頭、詞中、詞尾和單字成詞,這4種狀態(tài)分別標(biāo)記為F,M,E,W。
② 觀察序列Y表示真實(shí)存在的一個(gè)狀態(tài)的有向序列,可通過狀態(tài)y1,y2,…,yn表示,觀測狀態(tài)具有順序特性。
③ 狀態(tài)轉(zhuǎn)移分布A表示狀態(tài)集合內(nèi)不同元素間轉(zhuǎn)移的概率值。若當(dāng)前狀態(tài)和下一相鄰狀態(tài)分別為f3和f8,則可通過f3,8表示轉(zhuǎn)移概率。
④ 不同狀態(tài)產(chǎn)生的概率分布可通過B表示。
⑤ 初始狀態(tài)分布可通過π表示。
根據(jù)機(jī)器學(xué)習(xí)方法的差異性,選取監(jiān)督學(xué)習(xí)方法確定參數(shù)A,B,π。
設(shè)定電力基建現(xiàn)場報(bào)告訓(xùn)練數(shù)據(jù)集內(nèi)包含觀測序列和對應(yīng)的路徑序列[10]。
設(shè)定初始參數(shù)值π,其表達(dá)式為:
π=π(m)=P(m1=q1) ,
(1)
式中,m=1,2,…,N,表示t=1時(shí)刻下觀測值的狀態(tài)概率;qm=F,M,E,W。
基于統(tǒng)計(jì)分析理論,統(tǒng)計(jì)電力基建現(xiàn)場報(bào)告中不同句子開頭第一個(gè)字出現(xiàn)的頻率,根據(jù)第一個(gè)字出現(xiàn)的頻率統(tǒng)計(jì)結(jié)果與報(bào)告內(nèi)句子總數(shù)的比值確定此字的初始狀態(tài)F與W的概率情況[11]。
用a(i→j)表示學(xué)習(xí)狀態(tài)轉(zhuǎn)移矩陣A的子元素,其值可通過下式確定:
(2)
式中,c表示狀態(tài)qi轉(zhuǎn)變?yōu)闋顟B(tài)qj的次數(shù);cz表示狀態(tài)變化的總次數(shù)。在上述過程中僅考慮元素的狀態(tài)改變,忽略觀測值改變。
若以bj(k)表示觀測概率分布B的子元素,則為:
(3)
式中,jk和cq分別表示j狀態(tài)下觀測為k的次數(shù)和全部狀態(tài)的總次數(shù)。
整體來說,監(jiān)督學(xué)習(xí)過程即以頻數(shù)統(tǒng)計(jì)與總數(shù)間的比值為基礎(chǔ)[12-14],獲取對應(yīng)的概率,以此確定模型參數(shù)。利用確定參數(shù)后的隱馬爾可夫模型實(shí)現(xiàn)電力基建現(xiàn)場報(bào)告內(nèi)容分詞。
在電力基建現(xiàn)場報(bào)告內(nèi)容分詞基礎(chǔ)上,采用詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)算法完成電力基建現(xiàn)場報(bào)告內(nèi)容詞頻統(tǒng)計(jì)。TF-IDF算法通過計(jì)算TF與IDF間的乘積,確定語料集內(nèi)一個(gè)字或詞的關(guān)鍵度。
(4)
式中,l和L分別表示存在于電力基建現(xiàn)場報(bào)告i內(nèi)的特征項(xiàng)次數(shù)和電力基建現(xiàn)場報(bào)告i內(nèi)的總詞語數(shù)量。
(5)
式中,N和n分別表示電力基建現(xiàn)場報(bào)告數(shù)量和包含某特征項(xiàng)的報(bào)告總數(shù)量。
基于式(4)和式(5)確定特征提取函數(shù):
F(w)=TF(w)·IDF(w) 。
(6)
對TF-IDF算法表達(dá)式進(jìn)行歸一化處理得到特征項(xiàng)的權(quán)重Wij:
(7)
基于推理引擎的電力基建現(xiàn)場風(fēng)險(xiǎn)區(qū)段識別,即以電力基建現(xiàn)場報(bào)告內(nèi)容中的特征項(xiàng)為基礎(chǔ),利用推理引擎模擬思考推理過程,識別電力基建現(xiàn)場風(fēng)險(xiǎn)區(qū)段。電力基建現(xiàn)場風(fēng)險(xiǎn)區(qū)段識別的本質(zhì)即對比[15-16],對比的方式可分為對比不同來源的風(fēng)險(xiǎn)報(bào)告相互印證和對比當(dāng)前風(fēng)險(xiǎn)報(bào)告與先驗(yàn)知識。先驗(yàn)知識所描述的是原已貯存的知識或經(jīng)驗(yàn)。
大量電力基建現(xiàn)場風(fēng)險(xiǎn)事例存在于電力領(lǐng)域?qū)<夷X內(nèi),可表示其思維模式。當(dāng)電力領(lǐng)域?qū)<颐媾R問題時(shí),其首先回憶以往是否存在相同情況,確定匹配度最高的事例,將以往獲取的識別結(jié)果為基礎(chǔ),結(jié)合當(dāng)前事例與以往事例的差異性進(jìn)行優(yōu)化,獲取最新的識別結(jié)果。在面臨全新情況的條件下,基于一般原理,結(jié)合思維,嘗試不同方法,基于反饋結(jié)果進(jìn)行優(yōu)化?;诖?,利用事例推理模擬專家思維過程,識別電力基建現(xiàn)場風(fēng)險(xiǎn)最適合的方法[17-18]。推理引擎推理過程如圖1所示。
圖1 推理引擎推理過程Fig.1 Reasoning process of reasoning engine
基于當(dāng)前問題描述{Zm,Objm},利用以下過程確定最優(yōu)經(jīng)驗(yàn)事例。
針對全部事例n∈serch_set(待搜索事例集合)利用式(8)依照Objm確定事例效用:
φmn=φ(Objm,Hn)=I(Objm,Hn)·G(Objm,Hn),
(8)
依照風(fēng)險(xiǎn)劃分事例類別,針對全部風(fēng)險(xiǎn)w∈chan_set(待搜索風(fēng)險(xiǎn)集合),sase_set_w={風(fēng)險(xiǎn)為w的事例},利用式(9)確定不同子集內(nèi)優(yōu)良事例的效用均值:
(9)
式中,case_set_gw表示集合case_set_w內(nèi)優(yōu)良事例構(gòu)成的子集;Ngw和Nw分別表示不同集合的元素?cái)?shù)量。
搜索最優(yōu)風(fēng)險(xiǎn)w*=argmaxw∈chan_setEgw[φ]。確定該風(fēng)險(xiǎn)是否發(fā)生,若風(fēng)險(xiǎn)未發(fā)生,則chan_set=chan_set{w*},再次實(shí)施搜索最優(yōu)風(fēng)險(xiǎn)過程;若風(fēng)險(xiǎn)已發(fā)生,則進(jìn)入識別階段。
為獲取高精度的場景相似度,需對不同條件屬性實(shí)施標(biāo)準(zhǔn)化處理[19-20],防止不同量綱及各取值空間對相似性度量產(chǎn)生影響。利用式(10)表示歸一化的條件屬性:
(10)
(11)
式(12)所示為最終經(jīng)驗(yàn)事例的效用:
?mn=(Smn)ξ(φmn)ψ,
(12)
式中,ξ和ψ均表示權(quán)重調(diào)節(jié)因子。
利用推理引擎機(jī)制檢索案例識別出的電力基建現(xiàn)場風(fēng)險(xiǎn)區(qū)段,并不一定完全滿足當(dāng)前電力基建業(yè)務(wù)需求,因此需結(jié)合模擬退火思想對推理引擎機(jī)制進(jìn)行優(yōu)化,實(shí)現(xiàn)啟發(fā)式智能的事例自適應(yīng)搜索。為實(shí)現(xiàn)優(yōu)化過程,對事例庫內(nèi)不同事例添加一項(xiàng)溫度屬性t,同時(shí)設(shè)事例生成時(shí)t=1。
通過優(yōu)化獲取的最終案例存儲入事例庫。
為驗(yàn)證本文所研究的基于NLP和推理引擎的電力基建現(xiàn)場風(fēng)險(xiǎn)區(qū)段識別方法的應(yīng)用性能,選取某市電力基建工程為應(yīng)用對象,在Windows XP平臺下利用Visual C++6.0編程環(huán)境,以SQL Server 2000構(gòu)建數(shù)據(jù)庫,建立應(yīng)用對象電力基建現(xiàn)場模型,其中包含1 050個(gè)區(qū)段。利用本文方法識別應(yīng)用對象風(fēng)險(xiǎn)區(qū)段,仿真結(jié)果如下。
隨機(jī)選取300份應(yīng)用對象內(nèi)不同區(qū)段的電力基建現(xiàn)場報(bào)告,采用本文方法對報(bào)告文本內(nèi)容進(jìn)行分詞處理,將所獲取的分詞結(jié)果作為標(biāo)識電力基建現(xiàn)場報(bào)告的特征,統(tǒng)計(jì)分析整個(gè)文本集內(nèi)不同特征,所得結(jié)果如圖2所示。
圖2 分詞結(jié)果Fig.2 Word segmentation results
分析圖2可知,采用本文方法對所選300份應(yīng)用對象不同區(qū)段的電力基建現(xiàn)場報(bào)告進(jìn)行分詞處理,獲取停電、故障、來電與電表等分詞結(jié)果。
為識別、清除應(yīng)用對象內(nèi)不同區(qū)段的電力基建現(xiàn)場報(bào)告文本特征,需對分詞結(jié)果進(jìn)行特征降維處理,清除掉對報(bào)告文本區(qū)分貢獻(xiàn)較少的特征,如同電力基建現(xiàn)場風(fēng)險(xiǎn)區(qū)段識別關(guān)系微弱的特征,降低后續(xù)文本特征聚類的復(fù)雜度。清除內(nèi)容主要包括:
① 基本每個(gè)電力基建現(xiàn)場報(bào)告文本內(nèi)均出現(xiàn)的詞:如“來電”“供電所”與“抄表”等;
② 常用特殊詞:主要包括普遍使用的稱謂詞,如“我”“你”等與電力基建工程無關(guān)的詞。
③ 詞頻較低的特征:如“電桿”“同時(shí)”等在每個(gè)電力基建現(xiàn)場報(bào)告文本內(nèi)出現(xiàn)頻次較低的詞。
通過對出現(xiàn)頻率設(shè)定響應(yīng)的閾值完成特征降維,清除與電力基建工程無關(guān)的詞匯,留下同電力基建工程相關(guān)的關(guān)鍵詞。結(jié)合實(shí)際電力基建工程情況,進(jìn)一步篩選當(dāng)前保留的關(guān)鍵詞,利用TF-IDF算法確定剩余特征關(guān)鍵性權(quán)重值,提取權(quán)重較大的特征詞頻作為應(yīng)用對象內(nèi)不同區(qū)段的電力基建現(xiàn)場報(bào)告文本挖掘的最終結(jié)果。
將以上獲取的不同區(qū)段的電力基建現(xiàn)場報(bào)告文本挖掘的最終結(jié)果輸入本文方法中的推理引擎內(nèi),利用本文方法識別應(yīng)用對象不同區(qū)段風(fēng)險(xiǎn),利用風(fēng)險(xiǎn)度表示風(fēng)險(xiǎn)識別結(jié)果,所得結(jié)果如圖3所示。
分析圖3可知,采用本文方法進(jìn)行風(fēng)險(xiǎn)區(qū)段識別,所得風(fēng)險(xiǎn)識別結(jié)果同實(shí)際區(qū)段風(fēng)險(xiǎn)基本一致,風(fēng)險(xiǎn)識別誤差控制在6%以內(nèi),誤差均值約為3.5%。仿真結(jié)果充分說明本文方法具有較高的識別精度。
為測試本文方法在區(qū)段風(fēng)險(xiǎn)識別過程中的實(shí)時(shí)能耗,將文獻(xiàn)[14]提出的基于大數(shù)據(jù)的識別方法和文獻(xiàn)[15]提出的基于加權(quán)開斷概率與斷開后果嚴(yán)重度的識別方法進(jìn)行對比,對比3種不同方法進(jìn)行風(fēng)險(xiǎn)區(qū)段識別過程中實(shí)時(shí)能耗,所得結(jié)果如表1所示。
表1 不同方法實(shí)時(shí)能耗對比結(jié)果Tab.1 Comparison results of real-time energy consumption of different methods 單位:J
分析表1可知,本文方法在識別應(yīng)用對象不同區(qū)段風(fēng)險(xiǎn)的過程中,實(shí)時(shí)能耗范圍控制在0.61 J之內(nèi),與基于大數(shù)據(jù)的識別方法和基于加權(quán)開斷概率與斷開后果嚴(yán)重度的識別方法相比,能耗分別降低0.46,0.69 J。實(shí)驗(yàn)結(jié)果說明本文方法與2種對比方法相比更能節(jié)約能源,提升電力基建現(xiàn)場風(fēng)險(xiǎn)區(qū)段識別的經(jīng)濟(jì)性。
利用本文方法識別應(yīng)用對象不同風(fēng)險(xiǎn)區(qū)段,針對應(yīng)用對象風(fēng)險(xiǎn)區(qū)段識別結(jié)果確定應(yīng)用對象薄弱環(huán)節(jié),針對不同薄弱環(huán)節(jié)有針對性地對應(yīng)用對象進(jìn)行優(yōu)化,可降低應(yīng)用對象的風(fēng)險(xiǎn),確保應(yīng)用對象穩(wěn)定運(yùn)行。表2所示為應(yīng)用對象采用本文方法識別風(fēng)險(xiǎn)區(qū)段并有針對性完善后,部分區(qū)段風(fēng)險(xiǎn)變化結(jié)果。
表2 風(fēng)險(xiǎn)度變化情況Tab.2 Change of risk degree
表2中數(shù)據(jù)充分說明采用本文方法識別應(yīng)用對象風(fēng)險(xiǎn)區(qū)段,并根據(jù)識別結(jié)果進(jìn)行針對性優(yōu)化后,應(yīng)用對象內(nèi)各區(qū)段風(fēng)險(xiǎn)均有不同程度的下降,由此說明本文方法風(fēng)險(xiǎn)識別效果較好,具有推廣價(jià)值。
本文研究基于NLP和推理引擎的電力基建現(xiàn)場風(fēng)險(xiǎn)區(qū)段識別方法,利用NLP技術(shù)獲取電力基建現(xiàn)場報(bào)告文本特征,將其輸入推理引擎內(nèi),利用推理引擎完成電力基建現(xiàn)場風(fēng)險(xiǎn)區(qū)段識別。利用仿真軟件對本文方法識別過程進(jìn)行仿真,結(jié)果顯示本文方法能夠準(zhǔn)確識別電力基建現(xiàn)場區(qū)段風(fēng)險(xiǎn)。