劉 斐,文 中,吳 藝
(三峽大學(xué)電氣與新能源學(xué)院,湖北 宜昌 442003)
保障電力安全有助于社會(huì)穩(wěn)定運(yùn)行,但由于電力系統(tǒng)規(guī)模龐大,所處環(huán)境復(fù)雜,電力行業(yè)安全事故頻發(fā)[1]。根據(jù)國(guó)家能源局2012—2022年事故通報(bào),月均安全事故6 起[2],其中多起為同類(lèi)型事故,因事故發(fā)生后缺乏相關(guān)經(jīng)驗(yàn)而導(dǎo)致處理不當(dāng),造成較大經(jīng)濟(jì)損失。準(zhǔn)確識(shí)別事故類(lèi)型,妥善處理事故后果,并從類(lèi)似事故中汲取經(jīng)驗(yàn),可有效減少事故處理時(shí)間,一定程度上降低經(jīng)濟(jì)損失[3-4]。因此,對(duì)電力事故報(bào)告的文本智能分析至關(guān)重要。
相關(guān)事故單位對(duì)于發(fā)生的安全事故,會(huì)有較為詳細(xì)的總結(jié)分析,報(bào)告文本構(gòu)成大量非結(jié)構(gòu)化事故報(bào)告,對(duì)后期同類(lèi)型事故的預(yù)防和處理具有較強(qiáng)的借鑒意義。目前,電力事故處理方式主要依靠現(xiàn)場(chǎng)人員經(jīng)驗(yàn),容易導(dǎo)致事故處理效率降低,且不能及時(shí)發(fā)現(xiàn)仍然存在的安全隱患。利用人工智能技術(shù)可以快速挖掘有效信息[5],得到同類(lèi)型事故的處理方案和預(yù)防措施[6]。目前,相關(guān)領(lǐng)域內(nèi)對(duì)電力事故報(bào)告的文本智能分析已有一些研究:文獻(xiàn)[7]應(yīng)用Apriori算法挖掘電力事故誘因間的深度關(guān)聯(lián)規(guī)則,根據(jù)事故不同突出點(diǎn),建立電力行業(yè)事故誘因分析體系,在短文本事故報(bào)告領(lǐng)域取得不錯(cuò)效果,但對(duì)于長(zhǎng)文本的分析效果并不明顯;文獻(xiàn)[8]通過(guò)Word2vec訓(xùn)練事故文本的詞向量,以熱力圖記錄泛化權(quán)重,對(duì)相似性文本構(gòu)建事理圖譜,從而達(dá)到對(duì)相似電力事故的走向預(yù)測(cè),取得一定效果,但Word2vec訓(xùn)練文本無(wú)法解決文本中存在的一詞多義問(wèn)題,致使其準(zhǔn)確率較低;受限于電力事故存在的長(zhǎng)文本、聯(lián)系緊密和語(yǔ)義復(fù)雜特點(diǎn),考慮對(duì)文本構(gòu)建序列標(biāo)注,利用深度學(xué)習(xí)對(duì)文本處理,從而實(shí)現(xiàn)文本分類(lèi),該類(lèi)方法目前在文本識(shí)別領(lǐng)域取得較好效果;文獻(xiàn)[9]為解決序列標(biāo)注中大量詞類(lèi)的分類(lèi)問(wèn)題,結(jié)合機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型進(jìn)行標(biāo)簽識(shí)別,構(gòu)建TB-LSTM-CRF雙向長(zhǎng)、短期記憶句子級(jí)別標(biāo)簽,提高序列標(biāo)注準(zhǔn)確率,但效率有所降低。
本文在相關(guān)領(lǐng)域內(nèi)部分學(xué)者研究基礎(chǔ)上,引入BERT預(yù)訓(xùn)練模型,其與過(guò)去使用的CBOW 方法不同[10],在向量基礎(chǔ)上添加語(yǔ)言掩碼模型,避免數(shù)據(jù)過(guò)擬合[11],但在文本語(yǔ)義聯(lián)系上,單獨(dú)BERT模型處理效果并不理想[12-13],通過(guò)閱讀國(guó)內(nèi)外相關(guān)的文本分析發(fā)現(xiàn),使用混合模型進(jìn)行特征提取,可獲得更好的綜合效果[14-16]。鑒于電力行業(yè)事故特點(diǎn),嘗試建立BERT-BILSTMCRF混合模型,引入雙重注意力機(jī)制,解決預(yù)訓(xùn)練中因隨機(jī)Mask 字符之間可能存在關(guān)聯(lián)的問(wèn)題,通過(guò)構(gòu)建的《電力事故文本分析》詞典,在詞和字符級(jí)上進(jìn)行特征抽取,解決一詞多義問(wèn)題,進(jìn)一步提高文本識(shí)別效率和準(zhǔn)確率,實(shí)現(xiàn)對(duì)文本標(biāo)簽的預(yù)測(cè)。最后,與現(xiàn)行的其他4種深度學(xué)習(xí)模型進(jìn)行比較分析,結(jié)果表明:本文提出的混合模型明顯優(yōu)于4 種現(xiàn)行模型,具有較強(qiáng)魯棒性;該方法可為電力行業(yè)事故報(bào)告文本分析提供新思路。
本文BERT模型采用雙向Transformer編碼器,可以高效學(xué)習(xí)字符級(jí)、詞級(jí)和句子級(jí)間的詞義特征。同時(shí),由于電力事故文本具備上下聯(lián)系緊密的特點(diǎn),在分析句子特征時(shí),通過(guò)特定詞匯,如斷路器、變壓器等,實(shí)現(xiàn)對(duì)整個(gè)文本序列進(jìn)行并行分析,首先輸入文本序列E={E1,E2,…,En},然后將詞向量Tr經(jīng)過(guò)雙向Transformer編碼器進(jìn)行特征提取后,生成具有特定信息的字符級(jí)向量T=(T1,T2,…,Tn),其預(yù)訓(xùn)練結(jié)構(gòu)如圖1所示。
圖1 BERT預(yù)訓(xùn)練結(jié)構(gòu)示意Fig.1 Schematic diagram of Bert pre-training structure
Transformer通過(guò)預(yù)設(shè)的注意力機(jī)制收集經(jīng)過(guò)分詞后詞語(yǔ)的相關(guān)情境信息,對(duì)相似情景向量進(jìn)行編碼,在遇到文本語(yǔ)句中其他相關(guān)詞語(yǔ)時(shí),該模型能夠通過(guò)自主學(xué)習(xí),對(duì)于相似文本進(jìn)行同樣處理,從而減少重復(fù)學(xué)習(xí)時(shí)間,提升處理效率。為使本文模型高質(zhì)量識(shí)別序列特征,研究構(gòu)建2 個(gè)預(yù)訓(xùn)練任務(wù),其具體實(shí)施步驟如圖2所示。
圖2 帶掩碼語(yǔ)言模型工作流程Fig.2 Workflow of masked language model
第1 步,采用masked language model訓(xùn)練其識(shí)別缺欠文字能力:隨機(jī)隱藏文本中部分文字,通過(guò)訓(xùn)練模型判斷隱藏部分,使其達(dá)到可識(shí)別字級(jí)特征能力,并提升識(shí)別精確度。具體做法為:輸入1 個(gè)序列文本,80%概率用Mask 代替,10%概率被隨機(jī)隱藏,10%概率保持原序列輸入;第2 步,使用NSP任務(wù)訓(xùn)練模型捕捉事故報(bào)告文本中互相聯(lián)系的特征,將序列進(jìn)行切分,然后與實(shí)體進(jìn)行匹配,將正確匹配的實(shí)體標(biāo)記,即可將序列中最長(zhǎng)實(shí)體切分出來(lái),從而使其達(dá)到具備雙向最大匹配能力。每1 個(gè)序列文本,均由序列A+序列B組成,若序列B為序列A連接部分,則標(biāo)注IsNext,否則標(biāo)注“NoNext”,用[cls]表示標(biāo)識(shí)序列開(kāi)始,[sep]表示標(biāo)識(shí)序列A、B間分割。
在上文預(yù)訓(xùn)練任務(wù)中,隨機(jī)隱藏部分可能存在與其他內(nèi)容相關(guān)聯(lián)情況,會(huì)導(dǎo)致字級(jí)之間關(guān)鍵語(yǔ)義丟失,為減少出現(xiàn)該類(lèi)問(wèn)題概率,提出1 種基于Transformer的解碼器。在解碼器間加入卷積門(mén)控單元,并增加1 個(gè)多頭注意力子層(mask multi-head self-attention),加大對(duì)編碼器輸出的關(guān)鍵信息篩選,增強(qiáng)模型信息識(shí)別靈敏度。文本經(jīng)過(guò)編碼器和門(mén)控單元處理后,作為解碼器的輸入,將2 部分融合,雙重解碼器框架如圖3所示,最后利用殘差將所有子層連接起來(lái)。
圖3 雙重解碼器框架Fig.3 Dual decoder fr amework
通過(guò)上文處理,將輸入序列生成字級(jí)特征t和詞典級(jí)特征d,然后將2 種特征t和d 進(jìn)行向量拼接,得到w,w=t⊕d,而后w作為訓(xùn)練好的輸出,輸入到BILSTM層進(jìn)行特征提取。由于BILSTM在處理中不會(huì)考慮標(biāo)簽相關(guān)性,詞向量處理準(zhǔn)確度較差,容易出現(xiàn)誤差,而CRF可以彌補(bǔ)該類(lèi)誤差產(chǎn)生,其基本算法為:訓(xùn)練學(xué)習(xí)過(guò)程中,將所有出現(xiàn)的實(shí)際值標(biāo)記為y,其發(fā)生的概率如式(1)所示:
式中:矩陣p 為BILSTM的輸出;T表示輸入的原始文本;X表示文本序列;y表示實(shí)際值;y′代表理想的標(biāo)記值;Yx表示所有可能出現(xiàn)的BIO標(biāo)記集合。
標(biāo)記序列函數(shù)如式(2)所示:
由式(2)得到最佳標(biāo)記序列,根據(jù)式(3)所示,得到輸出概率分?jǐn)?shù)最高的1 組序列。
經(jīng)過(guò)3 層處理,得到最優(yōu)標(biāo)簽標(biāo)記,使該模型具有較強(qiáng)的魯棒性。引入BERT預(yù)訓(xùn)練模型后,完整框架圖如圖4所示,hi表示輸入到CRF層的序列向量,“B”表示文本名稱(chēng)的開(kāi)端,“I”表示文本名稱(chēng)的內(nèi)部,“O”表示非文本實(shí)體部分。該模型采用transformer encoder作為參數(shù)層,共有112 個(gè)網(wǎng)絡(luò)層數(shù),768 個(gè)隱藏層,其中包括12 個(gè)注意力頭數(shù),文本最大長(zhǎng)度為512,共計(jì)1.1 億個(gè)模型參數(shù)。
圖4 模型框架Fig.4 Model framewor k
為保證文本準(zhǔn)確性,采用Python 在國(guó)家能源局、中國(guó)電力網(wǎng)、北極星電力網(wǎng)等權(quán)威網(wǎng)站,獲取2011—2021年間電力行業(yè)通報(bào)的事故報(bào)告文本,構(gòu)建文本數(shù)據(jù)集。并根據(jù)收集的數(shù)據(jù)集按以下步驟處理:
1)構(gòu)建專(zhuān)業(yè)電力詞典。通過(guò)收集電力行業(yè)專(zhuān)有名詞,如“電纜”、“短路”、“雷擊跳閘”等,形成電力詞典。
2)文本分詞。使用中科院開(kāi)發(fā)的NLPIR分詞系統(tǒng),對(duì)特有名詞進(jìn)行分詞。
3)文本清洗。由于文本中存在大量語(yǔ)氣詞,需要對(duì)事故的文本進(jìn)行清洗、去噪,去除與文本無(wú)關(guān)但對(duì)訓(xùn)練有干擾的無(wú)用數(shù)據(jù),提高模型識(shí)別能力。
4)BERT生成關(guān)鍵信息詞向量。通過(guò)BERT預(yù)訓(xùn)練產(chǎn)生的詞向量作為BILSTM-CRF的輸入。
5)BILSTM-CRF進(jìn)行B-I-O處理。文本經(jīng)過(guò)處理后,將文本中事故類(lèi)別輸出,構(gòu)建電力事故標(biāo)簽,具體事故標(biāo)簽分類(lèi)見(jiàn)圖5所示,并對(duì)模型進(jìn)行算法優(yōu)化。
圖5 數(shù)據(jù)集事故原因分布Fig.5 Accident causes distribution in data set
6)事故標(biāo)簽識(shí)別。將收集的數(shù)據(jù)集輸入到模型中,并對(duì)整個(gè)模型標(biāo)簽識(shí)別效果進(jìn)行檢測(cè)。
7)模型評(píng)價(jià)。模型采用通用命名實(shí)體識(shí)別的4 個(gè)評(píng)價(jià)指標(biāo),分別是精確率P,召回率R,F(xiàn)1值(查準(zhǔn)率)和平均加權(quán)F1average值,從而驗(yàn)證模型識(shí)別的準(zhǔn)確率。
本文研究實(shí)驗(yàn)環(huán)境基于Intel(R) Core(TM)i5-11400H,CPU 3.8GHz處理器,16 GB內(nèi)存,GPU NVIDIA 3050Ti,Windows 11 操作系統(tǒng)。使用Python3.6 編程語(yǔ)言,參數(shù)設(shè)置為迭代次數(shù)50,批處理參數(shù)32,單個(gè)句子最長(zhǎng)不超過(guò)150 個(gè)單詞,dropout為0.2,BILSTM 隱藏層為768。4 類(lèi)指標(biāo)及其可能出現(xiàn)的結(jié)果見(jiàn)表1所示。
表1 指標(biāo)標(biāo)簽Table 1 Indicator labels
實(shí)際中存在標(biāo)簽預(yù)測(cè)誤差情況,如在案列[17]:“2021年6月18日,青海華電諾木洪風(fēng)力發(fā)電有限公司運(yùn)維人員在檢查海西州都蘭縣諾木洪風(fēng)電場(chǎng)SVG裝置模塊異常告警過(guò)程中,1 名作業(yè)人員違章作業(yè),擅自卸下SVG功率柜隔板螺栓,在設(shè)備未停電情況下進(jìn)行作業(yè),導(dǎo)致發(fā)生觸電,經(jīng)搶救無(wú)效死亡”。在該類(lèi)案中,按照事故原因標(biāo)簽歸屬于“觸電”,但在預(yù)測(cè)結(jié)果中,會(huì)將該類(lèi)歸為“工人誤操”,即屬于誤差標(biāo)簽,導(dǎo)致預(yù)測(cè)不準(zhǔn)確,需要重新召回分類(lèi)。
實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)具體計(jì)算如式(4)~(7)所示:
式(4)~(7)中:Tc表示真實(shí)值;Fc表示真實(shí)值中出現(xiàn)的誤差值;Fi表示誤差值中存在的真實(shí)值;Si表示事故標(biāo)簽類(lèi)型為i的樣本數(shù)量,個(gè);n 為標(biāo)簽總數(shù),個(gè);n表示事故標(biāo)簽類(lèi)別,類(lèi)(本文研究中共分為8 類(lèi),所以取值為8);D表示所有事故數(shù)據(jù)容量,條。
F1最高值為1,表示評(píng)價(jià)最好,最低值為0;加權(quán)值F1average與具體標(biāo)簽和數(shù)據(jù)集容量緊密相關(guān),僅在數(shù)據(jù)集出現(xiàn)差值較大時(shí),需計(jì)算加權(quán)值,樣本容量D共1 000條,根據(jù)式(4)~(6)得到BERT-BILSTM-CRF模型實(shí)驗(yàn)結(jié)果矩陣統(tǒng)計(jì)表,如表2所示。
表2 模型混淆矩陣統(tǒng)計(jì)Table 2 Statistical table of model confusion matrix
由表2數(shù)據(jù),再根據(jù)式(6)計(jì)算可知,電纜故障和雷擊跳閘標(biāo)簽預(yù)測(cè)最好,F(xiàn)1值達(dá)到1;桿塔倒塌標(biāo)簽識(shí)別率較低,F(xiàn)1值為0.93,這是因?yàn)闂U塔倒塌除非人為因素外,有部分是由違規(guī)操作所導(dǎo)致;另外,所有標(biāo)簽的F1值均在0.9 以上,且在“雷擊跳閘”標(biāo)簽中,召回率和精確度均達(dá)到最高,這是因?yàn)槔讚籼l作為電力詞典專(zhuān)有名詞,其固有的特性所導(dǎo)致,同時(shí)也驗(yàn)證本文模型準(zhǔn)確率較高。
本文研究是在BERT層構(gòu)建2 個(gè)預(yù)訓(xùn)練任務(wù),并在解碼器上引入雙重注意力機(jī)制,為進(jìn)一步驗(yàn)證本文研究模型在電力行業(yè)實(shí)體標(biāo)簽識(shí)別性能,與目前主流的文本識(shí)別技術(shù)進(jìn)行對(duì)比分析。保持本文實(shí)驗(yàn)環(huán)境不變,與CNN-BILSTM-CRF、BERT、BERT-CNN、BILSTMCRF 4 種模型(記作模型A,B,C,D)作為對(duì)照組,按照上文數(shù)據(jù)集處理步驟7)模型評(píng)價(jià)方法進(jìn)行評(píng)估。評(píng)價(jià)效果統(tǒng)計(jì)如表3~6 所示。
由表3~6 可以看出,本文提出的模型綜合效果高于其他對(duì)照組,在標(biāo)簽識(shí)別方面有較強(qiáng)優(yōu)越性;同時(shí)注意到單獨(dú)使用BERT模型(模型B)時(shí),F(xiàn)1值明顯低于另外4 組模型,模型B識(shí)別時(shí)間均低于其他模型,這與BERT模型對(duì)語(yǔ)句順序依賴(lài)低,在同樣環(huán)境中,處理關(guān)聯(lián)點(diǎn)之間關(guān)系速度更快是吻合的,而單一模型難以兼顧效率與質(zhì)量2 個(gè)方面均達(dá)到較高值,進(jìn)一步說(shuō)明模型在融合了BERT模型,且引入雙重注意力機(jī)制后,可以提高文本識(shí)別效率和精度。此外,雖然CNN-BILSTM-CRF模型識(shí)別效果較好,但是其原理是通過(guò)抽取文本局部特征,再通過(guò)預(yù)訓(xùn)練從而得到字向量后,作為BILSTM 輸入。其相對(duì)運(yùn)行時(shí)間更長(zhǎng),對(duì)于本文中的數(shù)據(jù)集表現(xiàn)并不明顯,但對(duì)于更大容量集的數(shù)據(jù)集而言,處理效率會(huì)大大降低。綜上所述,BERT-BILSTM-CRF模型在事故標(biāo)簽識(shí)別效果中綜合性能較好,與本文對(duì)照組4 種模型中表現(xiàn)最好的一組(模型A)相比,識(shí)別精確率、召回率和F1值分別提高了0.02,0.03,0.02,且耗時(shí)最短。
表3 模型精確度對(duì)比Table 3 Model accuracy comparison
表4 模型召回率對(duì)比Table 4 Model recall rate comparison
表5 模型F1 值對(duì)比Table 5 model F1 value compar ison
表6 模型耗時(shí)對(duì)比Table 6 Model time comparison
1)本文模型在引入BERT后,先構(gòu)建2 個(gè)預(yù)訓(xùn)練任務(wù),再基于Transformer解碼器引入雙重注意力機(jī)制,一方面保證識(shí)別準(zhǔn)確率,另一方面提高運(yùn)行效率。使得文本分析更加智能化,為電力行業(yè)事故命名標(biāo)簽體系識(shí)別提供1 種新思路。
2)與相關(guān)領(lǐng)域內(nèi)常使用單一的BERT模型相比,本文模型將F1值提高了0.1,相較于本文列舉4 種其他現(xiàn)行深度學(xué)習(xí)模型,準(zhǔn)確率、召回率和F1值均為最大,且耗時(shí)最短,表明提出的混合模型性能在文本識(shí)別和分類(lèi)方面具有更好的效果。
中國(guó)安全生產(chǎn)科學(xué)技術(shù)2023年1期