基于新詞發(fā)現(xiàn)與特征融合的電力設備缺陷文本挖掘

2021-05-13 05:44:22陳超吳迪唐昕馮斌張又文郭創(chuàng)新

電氣自動化 2021年2期

陳超，吳迪，唐昕，馮斌，張又文，郭創(chuàng)新

(1.國網(wǎng)浙江平湖市供電有限公司，浙江平湖 314200;2.國網(wǎng)嘉興供電公司，浙江嘉興 314033;3.浙江大學電氣工程學院，浙江杭州 310027)

0 引言

隨著電網(wǎng)在線監(jiān)測裝置的普及，狀態(tài)評價和故障診斷的自動化程度不斷提升。然而受限于在線監(jiān)測裝置的覆蓋率、可靠性與故障研判類型局限性問題，在目前設備運維實踐中，仍有大量設備巡檢記錄依賴人工完成，且這部分信息常以文本形式進行記錄[1]。近年來，學者開始將自然語言處理應用于電力設備文本分析。邱劍博士[2]利用K近鄰方法實現(xiàn)故障文本分類，將文本挖掘技術應用于斷路器全壽命狀態(tài)評價。文獻[3]與文獻[4]在此基礎上深入研究，提出了卷積神經(jīng)網(wǎng)絡與雙向長短期記憶網(wǎng)絡，提升了分類效果。

上述研究對模型結構進行了多種探索，但在文本預處理與特征融合方面并未開展較多研究。為提升電力缺陷文本挖掘效果，本文在文本數(shù)據(jù)預處理與特征融合方面開展研究。首先采用新詞發(fā)現(xiàn)算法，擴充電力專業(yè)詞匯；其次在特征融合方面，融合字與詞級別特征；最終通過注意力機制優(yōu)化的卷積神經(jīng)網(wǎng)絡對電力設備缺陷文本進行訓練，并開展對比試驗。

1 基于新詞發(fā)現(xiàn)的文本數(shù)據(jù)預處理

1.1 基于凝固度-自由度的新詞發(fā)現(xiàn)

為全面覆蓋具體的訓練語料中所有的專業(yè)詞匯，除了通過導則規(guī)范梳理出專業(yè)詞匯外，還需對訓練語料基于新詞發(fā)現(xiàn)算法進行數(shù)據(jù)挖掘，再經(jīng)由人工審核作為詞典的補充。本文采用基于NGRAM凝固度的新詞發(fā)現(xiàn)方法，對于一個字符串序列，用凝固度表征幾個字符之間聯(lián)系的緊密程度。以三個字符構成的字符串為例，其凝固度定義如下：

(1)

式中:P為在語料中該字符串出現(xiàn)的概率；N為字符串的凝固度；abc為由三個字符a、b、c構成的字符串。通過限定不同GRAM的凝固度閾值，篩選出所有高于閾值要求的NGRAM字符串集合，并保留這些字符串的左右鄰居字符，再將這些候選字符串通過自由度進行一定的篩選。某字符串的自由度為所有左鄰居字符和所有右鄰居字符的信息熵中較小的一個，如式(2)所示。

R=min{-∑P(cleft)log2P(cleft),

-∑P(cright)log2P(cright)}

(2)

式中:P為在語料中該字符串出現(xiàn)的概率；Plog2P為該字符的信息熵；cleft和cright為該字符的左鄰居字符和右鄰居字符。對不同GRAM詞語進行自由度的閾值設置，進一步篩選出自由度高于閾值標準的詞語，即可獲得最終的新詞。

1.2 停用詞表構建

在電力設備缺陷記錄文本中，有部分無用信息，需要在分詞階段識別出這些無用特征并加以剔除。停用詞包括：各種中文標點符號；一些無實義的錯誤記錄，如“其他”“1號”和“Ⅱ回”等表征設備編號的詞語。

2 融合字詞特征的文本向量化表示

2.1 文本特征表示

本文采用word2vec模型[5]作為特征提取方法。它是一種常用的文本特征表示方法，利用局部上下文窗口的方式進行滾動訓練，然后利用神經(jīng)網(wǎng)絡訓練結束后的模型參數(shù)作為向量化依據(jù)，生成向量蘊含豐富的上下文信息。

2.2 字詞特征融合

利用字、詞兩種層次對輸入文本進行劃分，能夠更好地保留不同級別的信息供模型分析組合，流程如圖1所示。

圖1 NLP任務中自注意力機制示意圖

3 深度學習模型構建

3.1 文本卷積網(wǎng)絡

文本卷積神經(jīng)網(wǎng)絡[6]輸入為尺寸為N×K的二維空間向量。卷積部分使用三種卷積核尺寸，分別為3×K、4×K和5×K，利用三種不同尺寸卷積核進行特征提取，并利用池化均值池化或最大值池化，進一步縮減特征維度?；诰矸e操作的特征提取是模型的關鍵。

3.2 自注意力機制

注意力機制(attention)[7]是模仿人類注意力所設計的一種學習機制，利用可學習的注意力權重作為輸入的不同部分，分配不同的注意力，以保證模型能夠在大量的輸入特征中快速地獲取有效信息。

注意力機制可以抽象結構為求取Query、Key和Value之間的關系。表示鍵值對，即通過某一鍵Keyi，能夠查詢到某一值Valuei作為輸出，Query則為輸入的問詢。通過計算Query和Key之間的相似度，得到不同的注意力權重，再將權重為Value賦值，可得最終輸出結果。

自注意力機制(self attention)當中，Query、Key和Value本質(zhì)上都采用相同內(nèi)容，從而獲取輸入不同文本特征單元之間的依賴關系，如圖2所示。具體計算公式如式(3)所示。

圖2 NLP任務中自注意力機制示意圖

(3)

式中:Q、K、V分別為輸入問詢Query、鍵Key和Value值；dk為字/詞向量維度；Attention為注意力值;Softmax為歸一化指數(shù)函數(shù)。

3.3 注意力優(yōu)化的卷積網(wǎng)絡文本分類模型

傳統(tǒng)的文本卷積網(wǎng)絡雖能夠?qū)崿F(xiàn)高維特征的抽取，但未對關鍵性的元素加強“注意”，對特征的關鍵程度判別能力不足。自注意力機制，通過對文本向量進行注意力計算獲得加權后的向量特征，再基于文本卷積網(wǎng)絡提取特征，以實現(xiàn)分類模型效果的優(yōu)化，如圖3所示。

圖3 注意力機制優(yōu)化文本卷積網(wǎng)絡結構

4 算例分析

4.1 數(shù)據(jù)劃分與評價指標說明

利用隨機抽樣將某地區(qū)電網(wǎng)缺陷單數(shù)據(jù)按8∶2劃分為訓練集及測試集。

測試評價指標為測試集、測試集的準確率(accuracy)和Ma-cro-F1值。二分類問題中常用的判別指標為準確率(accuracy)、F1-measure等。準確率為分類正確的樣本數(shù)除以總樣本數(shù)，F(xiàn)1-measure為精確率與召回率的調(diào)和平均值，其中精準率是預測和真實類別均為正的樣本數(shù)除以預測類別為正的樣本總數(shù)，召回率是預測和真實類別均為正的樣本數(shù)除以真實類別為正的樣本總數(shù)。

對于N分類問題，可以將每一類數(shù)據(jù)輪流作為正類，其他類別均作為負類，計算N次F1-measure，記作F11，F(xiàn)12，……，F(xiàn)1N。Macro-F1可表示為：

(4)

式中:N為分類數(shù)目；F1i為第i類數(shù)據(jù)作為正類時的F1-measure值。

4.2 數(shù)據(jù)預處理及特征融合效果校驗

為驗證所提出數(shù)據(jù)預處理與特征融合方法的有效性，開展如下對比試驗：第一組為只采用字級別特征；第二組為采用僅基于jieba默認分詞后的詞級別特征；第三組為基于新詞發(fā)現(xiàn)擴充詞典后的詞級別特征；第四組獲取一、三組特征，實現(xiàn)字詞級別特征融合。四組模型均為本文所提出的注意力機制優(yōu)化卷積神經(jīng)網(wǎng)絡(ATT+CNN)，結果如表1所示。

表1 不同輸入特征分類結果對比

通過表1對比試驗顯示，采用詞級別特征比字級別特征能夠獲得更好的分類效果，而基于新詞發(fā)現(xiàn)預處理能夠使效果獲得進一步提升?；谛略~發(fā)現(xiàn)以及融合字、詞級別特征的方法，在測試集和訓練的Macro-F1和準確率上均取得了一般效果。通過融合字和詞級別特征，使模型能夠獲得更豐富的特征輸入，可獲得更好的缺陷分類效果。

4.3 多模型對比試驗

本文主要對比所提出模型與其他深度學習模型分類效果，結果如表2所示。

表2 三種深度學習模型分類效果對比

對比試驗顯示，基于注意力機制優(yōu)化的卷積神經(jīng)網(wǎng)絡，在四項指標上均取得了三種模型中的最佳效果，驗證了本文所提出方法的有效性。

5 結束語

本文考慮了電力領域?qū)Ｓ谜Z料特點，針對電力設備缺陷語料庫提出了基于注意力機制優(yōu)化的卷積神經(jīng)網(wǎng)絡文本信息挖掘方法。新詞發(fā)現(xiàn)和字詞特征融合有效地提升了模型對文本的信息挖掘能力。基于注意力機制優(yōu)化的卷積神經(jīng)網(wǎng)絡文本信息挖掘方法相比于其他傳統(tǒng)的深度學習方法(CNN、BiLSTM)對電力缺陷文本的信息獲取能力更優(yōu)。該方法使電網(wǎng)缺陷文本分類由傳統(tǒng)的人工分類轉變?yōu)樽詣臃诸?，以促進智能化運維。