易 庚, 何 琳, 劉錦明, 趙學花
(國網(wǎng)新疆電力有限公司 經(jīng)濟技術研究院, 烏魯木齊 830000)
隨著我國電力需求的不斷增長,電網(wǎng)運行環(huán)境日益復雜,電力行業(yè)面臨著艱巨的建設任務[1-4].在此背景下,保障電力系統(tǒng)穩(wěn)定地運行具有重要的戰(zhàn)略意義[5-9].為了實現(xiàn)這一目標,電網(wǎng)的控制與調度人員需要獲取各個種類、多設備和大規(guī)模的實時數(shù)據(jù),即實現(xiàn)電網(wǎng)數(shù)據(jù)的實時挖掘[10].然而,傳統(tǒng)的數(shù)據(jù)挖掘技術較難深入地表征電網(wǎng)數(shù)據(jù)的典型特征,從而難以滿足現(xiàn)代智能化電網(wǎng)的實際需要.
近年來,國內外眾多學者通過引入多種人工智能技術,大幅度優(yōu)化了電力系統(tǒng)的故障檢測和診斷技術.MA等[11]基于劃分網(wǎng)絡提出了使用多反向傳播的故障診斷和檢測算法;PENG等[12]利用粗糙集理論,提出了適用于分布式饋線且具有定位功能的故障診斷技術;ZHU等[13]基于Noisy-Or和Noisy-And節(jié)點的貝葉斯網(wǎng)絡,提出了具有一定推導與預測能力的故障診斷模型;BHATTACHARYA[14]與柴爾烜等[15]結合小波變換和神經(jīng)網(wǎng)絡算法,提出了適用于中壓直流船載電力系統(tǒng)的故障診斷模型.然而,以上模型及算法通常無法處理較大規(guī)模的數(shù)據(jù).為了進一步提高實時智能電網(wǎng)的數(shù)據(jù)利用率,優(yōu)化故障檢測和診斷效率,文中利用電力故障信息,基于棧式稀疏自編碼器和循環(huán)神經(jīng)網(wǎng)絡,實現(xiàn)了智能電網(wǎng)故障的檢測與診斷.結合負荷數(shù)據(jù)和聚類分析算法設計智能電網(wǎng)的負荷預測模型,提出基于遷移學習的電力數(shù)據(jù)挖掘模型.相關仿真結果表明,本文所提模型具有更高的數(shù)據(jù)利用率與更優(yōu)的數(shù)據(jù)挖掘效果.
為了精確地檢測出智能電網(wǎng)中的故障,文中提出了基于主成分分析(principal component analysis,PCA)和支持向量機(support vector machine,SVM)的棧式稀疏自編碼器,克服了傳統(tǒng)神經(jīng)網(wǎng)絡易陷入局部最小的缺陷.
棧式稀疏自編碼是一種基于多層自編碼器的訓練方法,具備強大的深度學習能力.從函數(shù)逼近的視角來看,該訓練方法結構可以實現(xiàn)多種數(shù)學函數(shù)的功能.令h表示故障檢測中的隱藏層神經(jīng)元,x表示故障檢測的輸入數(shù)據(jù),其基本結構如圖1所示.
圖1 棧式稀疏自編碼器的基本結構Fig.1 Basic structure of sparse trestle self-encoder
在工作過程中,棧式自編碼器可以通過訓練以多種非線性的形式表示大規(guī)模數(shù)據(jù).假設e表示網(wǎng)絡中各個神經(jīng)元的權重系數(shù),n0與ni分別表示自編碼器的輸入層和第i個隱藏層的單元數(shù)量,Wi表示第i個隱藏層的輸入系數(shù),Hi表示第i個隱藏層的系數(shù).
(1)
(2)
(3)
基于具有強大非線性表示能力的棧式稀疏自編碼器,提出了基于PCA和SVM的改進故障檢測模型,模型具體工作流程如圖2所示.
圖2 基于PCA和SVM故障檢測模型工作流程Fig.2 Workflow of fault detection model based on PCA and SVM
為了更加精確地檢測電力系統(tǒng)存在的故障,首先,故障模型需要采集系統(tǒng)的電力數(shù)據(jù),并形成正常樣本、故障樣本和無標簽樣本.在此過程中,電流數(shù)據(jù)可以反映電力線路的工作狀態(tài),常被用作故障檢測的輸入樣本.同時,為了保證故障提取的有效性,模型在采集數(shù)據(jù)時還應該保留一定的滑窗時間.其次,模型需要對采集的樣本數(shù)據(jù)進行必要的預處理,即對線路電流大小進行標準化轉換,形成無量綱數(shù)據(jù),方便后續(xù)的處理.最后,將轉換后的數(shù)據(jù)輸入棧式稀疏自編碼器,進行逐層的無監(jiān)督式預訓練,形成相應的訓練集和測試集數(shù)據(jù),并通過引入經(jīng)典的機器學習算法,執(zhí)行精確的故障檢測.
為了克服電力系統(tǒng)存在的故障信息較少的缺點,本文通過引入長短期記憶網(wǎng)絡,降低了數(shù)據(jù)挖掘過程的擬合程度,從而實現(xiàn)故障數(shù)據(jù)的精確診斷.
針對循環(huán)神經(jīng)網(wǎng)絡存在的梯度消失問題,文中引入了長短期記憶網(wǎng)絡模型.利用誤差的梯度指標進行反向傳播,其基本原理如圖3所示.
圖3 長短期記憶網(wǎng)絡的基本原理圖Fig.3 Basic principle diagram of long-term and short-term memory network
圖3中,U與M分別為長短期記憶網(wǎng)絡的輸入門和輸出門的中間參數(shù),令xi與yi分別表示長短期記憶網(wǎng)絡的第i個輸入和輸出,si表示長短期記憶網(wǎng)絡的第i個狀態(tài).則根據(jù)圖3的結構,第i個隱藏單元誤差梯度的計算表達式為
(4)
(5)
基于上述循環(huán)神經(jīng)網(wǎng)絡改進方法,令φ和g分別表示sigmoid和tanh函數(shù),通過添加輸入門、輸出門與單元結構等設備實現(xiàn)改進的長短期記憶網(wǎng)絡單元結構,如圖4所示.
圖4 長短期記憶網(wǎng)絡的單元結構Fig.4 Unit structure of long-term and short-term memory network
為了克服傳統(tǒng)神經(jīng)網(wǎng)絡梯度消失的問題,在長短期記憶網(wǎng)絡的基礎上,提出了具有精確診斷能力的電力系統(tǒng)故障診斷模型,其一般架構如圖5所示.
圖5 電力系統(tǒng)故障診斷模型架構圖Fig.5 Architecture of power system fault diagnosis model
本文提出的故障診斷模型工作過程如下:
1) 利用電流、電壓和功率等數(shù)據(jù)樣本,獲取過電流、設備缺陷和外力破壞的具體故障數(shù)據(jù);
2) 利用標準化預處理技術,通過引入K-CV等檢驗方法,實現(xiàn)訓練集和測試集的劃分;
3) 根據(jù)LSTM輸入的維度,分割訓練集和測試集數(shù)據(jù),從而獲取多個時間節(jié)點的子序列,確定LSTM網(wǎng)絡的輸入數(shù)據(jù);
4) 使用訓練集數(shù)據(jù)對LSTM網(wǎng)絡和分類器進行必要的訓練,實現(xiàn)電力數(shù)據(jù)特征的提取和融合;
5) SVM分類器全面接受全連接層提供的數(shù)據(jù)特征,從而實現(xiàn)最終的故障分類和診斷,系統(tǒng)反饋相應的預防和檢修措施.
在故障檢測與診斷模型的基礎上,為了進一步提高數(shù)據(jù)的利用率和挖掘效果,本文利用最大均值差異理論,提出了適用于智能電網(wǎng)的電力數(shù)據(jù)挖掘模型.
為了解決電力數(shù)據(jù)存在的雙樣本檢驗問題,文中在電力數(shù)據(jù)挖掘模型中引入了最大均值差異算法,即利用特定的連續(xù)函數(shù)計算多個樣本的均值差,從而辨別不同的分布.假設f∈F是樣本空間連續(xù)函數(shù)集中的某個函數(shù),p∈P與q∈Q分別是服從數(shù)據(jù)集X和Y的具體數(shù)據(jù),P與Q的數(shù)據(jù)規(guī)模分別為c和d,則這兩者的最大均值差異值定義為
(6)
令I表示數(shù)據(jù)集的內積函數(shù),經(jīng)過推導可知最大均值差異值的求解方法為
(7)
基于遷移學習算法提出了具有實際應用意義的電力數(shù)據(jù)挖掘模型,實際工作流程如圖6所示.
圖6 電力數(shù)據(jù)挖掘模型工作流程圖Fig.6 Workflow of power data mining model
首先利用棧式稀疏自編碼和改進循環(huán)神經(jīng)網(wǎng)絡對故障檢測與診斷模型進行必要的數(shù)據(jù)處理及訓練.其次利用最大均值差異相關理論對電力系統(tǒng)中的源數(shù)據(jù)與目標數(shù)據(jù)之間的差異進行精確的評估和分析,從而獲取模型的調整依據(jù),完成數(shù)據(jù)挖掘模型的參數(shù)遷移.然后利用測試集的標準數(shù)據(jù)與模型的目標數(shù)據(jù)進行計算和比較,若目標數(shù)據(jù)處于允許的誤差范圍內,即達到標準數(shù)據(jù),則輸出電力數(shù)據(jù)挖掘模型;否則,繼續(xù)使用最大均值差異算法對模型中的參數(shù)進行必要的調整.
為了驗證電力數(shù)據(jù)挖掘模型的可行性,本文利用智能電網(wǎng)中的真實電力數(shù)據(jù)對數(shù)據(jù)挖掘模型進行了必要的仿真與性能分析.
為了充分衡量電力數(shù)據(jù)挖掘模型的性能,選取2016~2018年國家電網(wǎng)新疆區(qū)域的電力歷史數(shù)據(jù),數(shù)據(jù)主要包含36條支線線路和大量用電客戶的電氣量使用數(shù)據(jù),形成了規(guī)模分別為36 000和9 000的訓練集和測試集.仿真設備選用型號為R730、內存為32 GB的戴爾架式服務器,其中央處理器為E5-2630 V3,主頻為3.4 GHz,GPU型號是NVIDIA Tesla K40M.此外,本文還對數(shù)據(jù)挖掘網(wǎng)絡的具體結構進行了必要的設置,具體情況如表1所示.
表1 數(shù)據(jù)挖掘網(wǎng)絡的結構參數(shù)設置Tab.1 Structure parameter settings of data mining network
對基于粗糙集的數(shù)據(jù)挖掘模型與所提電力數(shù)據(jù)挖掘模型進行對比分析.粗糙集理論從不同的角度導出多個層次的信息集和規(guī)則集,從而完成電力數(shù)據(jù)的挖掘,所以作為一種經(jīng)典的電力數(shù)據(jù)挖掘算法被用于本文的仿真實驗對比和驗證分析中.
在電力數(shù)據(jù)挖掘模型中,源數(shù)據(jù)和目標數(shù)據(jù)之間的分布差異受最大均值差異值影響較大,如果最大均值差異值較大,則數(shù)據(jù)之間的分布差異將增大,從而影響電力數(shù)據(jù)的挖掘效果;另外,如果用戶數(shù)據(jù)的采樣間隔發(fā)生變化,則數(shù)據(jù)挖掘模型的負荷預測效果將產(chǎn)生劇烈的變化,所以,數(shù)據(jù)采樣間隔和最大均值差異值對數(shù)據(jù)挖掘的最終效果具有較大的影響.通過設置不同的最大均值差異值和不同的時間采樣間隔進行兩種模型的仿真實驗.計算這兩種模型獲取數(shù)據(jù)與原始數(shù)據(jù)之間的平均絕對百分比誤差,從而精確地衡量模型的性能表現(xiàn),相應的結果如圖7、8所示.
圖7 平均絕對百分比誤差隨最大均值差異值的變化曲線Fig.7 Variation curves of average absolute percentage error with maximum mean difference
由圖7可知,隨著最大均值差異數(shù)值的增大,兩種模型獲取電力數(shù)據(jù)的平均絕對百分比誤差值均不斷增大,但所提模型的數(shù)值始終小于傳統(tǒng)模型.這說明本文所提模型在設置相同的最大均值差異值時,具有更高的精確度.由圖8可知,若設置不同的數(shù)據(jù)采樣間隔,則兩種模型的平均絕對百分比誤差值均呈現(xiàn)先減小后增大的趨勢,但本文所提模型的誤差值幅度也始終小于傳統(tǒng)數(shù)據(jù)挖掘模型.綜上所述,在相同的最大均值差異值和數(shù)據(jù)采樣間隔的條件下,與傳統(tǒng)數(shù)據(jù)挖掘模型相比,基于遷移學習的電力數(shù)據(jù)挖掘模型可以獲取具有更高精度的電網(wǎng)數(shù)據(jù).
圖8 平均絕對百分比誤差隨電力數(shù)據(jù)采樣間隔的變化曲線Fig.8 Variation curves of average absolute percentage error with power data sampling intervals
基于棧式稀疏自編碼器和長短期記憶網(wǎng)絡結構,本文提出了一種具有故障檢測和診斷等多種功能的電力數(shù)據(jù)挖掘模型.相關仿真證明,該模型具有較高的數(shù)據(jù)挖掘精確度.然而關于該電力數(shù)據(jù)挖掘模型的研究仍處于初始階段,且存在較大的發(fā)展和提升空間,如何將該電力數(shù)據(jù)挖掘模型融合到智能電網(wǎng)的負荷預測中,這是未來需要重點研究的問題,也是下一步的研究方向.