基于數(shù)據(jù)挖掘技術的用電負荷自動化處理系統(tǒng)仿真

2024-12-31 00:00:00房娟彭嘉寧

粘接 2024年7期

摘要：針對數(shù)據(jù)挖掘分類和響應特征分析存在的難度。提出利用支持向量機算法改進時間序列算法，以提高數(shù)據(jù)自動化挖掘能力，利用分段聚合近似方法用于降低預處理電力系統(tǒng)負載數(shù)據(jù)的維數(shù)。實驗結果表明，當數(shù)據(jù)樣本數(shù)量為5 000時，標準偏差（σ）內0.25準確性達到最高0.98；測試集數(shù)據(jù)組的平均數(shù)據(jù)挖掘誤差為7.2%，訓練集數(shù)據(jù)組的平均數(shù)據(jù)挖掘誤差分別為13.81%和13.55%。當?shù)螖?shù)為10次時，改進時間序列算法精度為0.68，較深度學習算法與神經(jīng)網(wǎng)絡算法分別提高17.8%，8.46%。在迭代次數(shù)為100次時，深度學習算法與改進時間序列算法的挖掘精度均為1.0，神經(jīng)網(wǎng)絡算法精度為0.96；改進時間序列算法具有較高的數(shù)據(jù)挖掘精度。

關鍵詞：時間序列；支持向量機；電力系統(tǒng)；準確性；精度

中圖分類號：TP311；TM714"""""""""""""""""""""""" 文獻標識碼：A""""""""""""""""""" 文章編號：1001-5922（2024）07-0193-04

Simulation of automatic power load processing system

based on data mining technology

FANG Juan， PENG Jianing

（State Grid Ningxia Electric Power Co.，LTD.，Yinchuan 640001， China）

Abstract： In view of the difficulty of data mining classification and response feature analysis， the support vector machine algorithm was proposed to improve the time series algorithm to optimize the ability of automatic data mining， and the segmented aggregation approximation method was used to reduce the dimensionality of preprocessing power system load data. The experimental results indicated that when the number of data samples was 5 000， σ= 0.25 accuracy reached a maximum of 0.98. The average data mining error of the test set dataset was 7.2%， while the average data mining error of the training set dataset was 13.81% and 13.55%， respectively. When the number of iterations was 100， the mining accuracy of the deep learning algorithm and the improved time series algorithm was 1， while the accuracy of the neural network algorithm was 0.96， and the improved time series algorithm has a high data mining accuracy.

Key words： time series；support vector machine；power system；accuracy；accuracy

隨著智能電表的大規(guī)模推廣應用和電網(wǎng)精益化管理帶來的用電數(shù)據(jù)爆炸式增長，對電力用戶的用電負荷數(shù)據(jù)自動化挖掘及準確分類已成為電網(wǎng)企業(yè)的一項重要任務［1］。當對不平衡數(shù)據(jù)集建立分類模型時，錯誤分類較少類型數(shù)據(jù)的成本比錯誤分類多類數(shù)據(jù)的成本更高，因此傳統(tǒng)的分類方法不適用于電力系統(tǒng)用電負荷數(shù)據(jù)挖掘［2?3］。因此需要提出新的方法用于挖掘電力系統(tǒng)用電負荷數(shù)據(jù)。提出基于海量網(wǎng)絡訪問時間分布式提取的特征數(shù)據(jù)挖掘算法，并通過多層自回歸向量分析對數(shù)據(jù)進行改進［4］。通過構建數(shù)據(jù)搜索引擎，實現(xiàn)文本特征提取，并通過嚴格的語義匹配提高語義匹配精度，以提高挖掘的收斂能力［5］。但該算法存在的問題是當數(shù)據(jù)屬性分類效率不明顯或近似網(wǎng)絡干擾數(shù)據(jù)較大時，數(shù)據(jù)挖掘的準確性受到限制，且該算法收斂性差，計算復雜［6］。此外，在電力系統(tǒng)大數(shù)據(jù)環(huán)境下，通常會造成冗余數(shù)據(jù)的干擾。導致用電負荷數(shù)據(jù)挖掘和訪問中出現(xiàn)數(shù)據(jù)偏移和誤差，降低數(shù)據(jù)的準確挖掘［7］。而時間序列算法可以利用時間模式和依賴關系，構建從多變量時間序列協(xié)變量到標量響應變量的映射，具有良好的準確性和泛化性，可以按照時間序列自動化挖掘數(shù)據(jù)［8］。傳統(tǒng)的時間序列算法適用于離線學習。當有機器學習場景在線上時，數(shù)據(jù)會越來越多［9］。對于時間序列數(shù)據(jù)來說，這類數(shù)據(jù)會隨著時間的推移而增加。為了解決傳統(tǒng)增量時間序列數(shù)據(jù)算法的不足，提出時間序列算法，并利用支持向量機，改進時間序列算法，以提高數(shù)據(jù)挖掘效率。

1"" 時間序列算法的數(shù)據(jù)挖掘技術

1.1"" 時間序列算法

假設X表示具有m個變量的時間序列，其長度為n［10］。表明時間序列可以被寫成Xn×m，并且?guī)в衜個變量的n個觀測值，根據(jù)時間順序，假定電力系統(tǒng)用電負荷數(shù)據(jù)包含了整個時間序列［11］。設S表示一個長度為m的向量的正交矩陣。時間序列算法的目標是通過等式的線性變換將Xn×m投影到一個新的空間Sm×m上，如式（1）所示：

[Yn×m=Xn×mSm×m]""""""""""""""""""" （1）

式中：Y是X在新空間S中的表示；Y的性質依賴于正交矩陣S。進一步表明新空間S描述觀測結果越好，特征就越明顯［12］。實際上，時間序列是原始變量和系數(shù)的線性變換。為了構造時間序列系數(shù)（或新空間），時間序列算法通常使用奇異值分解（SVD）到MTS X的協(xié)方差矩陣。如果表示MTS X的協(xié)方差矩陣，則可以用下式計算：

[=cov（x）=E（X-EX）（X-EX）T]"""" （2）

根據(jù)支持向量值的性質，當一個協(xié)方差矩陣被忽略時，可以用支持向量值分解，則有［13］：

[=UΛUT]"""""""""""""""""""""""""""""" （3）

矩陣[U]可以用來表示新的空間S，并包含每個主分量的變量負荷。同時，矩陣Λ的對角線元素是相應的方差［14］。方差越大，數(shù)據(jù)投射到相應向量上的信息就越多。

然而，根據(jù)式（5）的計算，Y在維數(shù)上仍然等于X，所以X的維數(shù)沒有降低。事實上，Y的維數(shù)取決于空間S的大?。碨 = [U]）。因此需要通過PCA選取一個新的空間坐標系統(tǒng)來描述MTS X的觀測結果［15］。新系統(tǒng)通常由[k]個S的正交列向量組成，即[S（1]∶[k）m×k]。因此，方程可以變成：

[Yn×k=Xn×mSk×m]""""""""""""""""""""""" （4）

1.2""" 改進時間序列算法

支持向量機分類法是一種快速、有效、實用的統(tǒng)計分類方法，利用支持向量理論理論構建分類過程［16］。首先，用支持向量方法計算時間序列算法的先驗概率和后驗概率：

[P（DA）P（AD）P（D）P（A）]"""""""""""""""""""" （5）

式中"：[P（D）]是先驗概率；P（A|D）是滿足條件"D"時可以觀察到的條件概率；[P（DA）]是在條件"A"下假定"D"為真的后驗概率。根據(jù)支持向量概率定義，后驗概率[P（DA）]隨先驗概率和條件概率的變化，將變量或條件A、D視為獨立數(shù)據(jù)或函數(shù)相關數(shù)據(jù)，然后使用先驗概率和條件概率預測后驗概率，從而完成數(shù)據(jù)的分類［17］。

上述支持向量分類方法適用于離散隨機變量或離散數(shù)據(jù)特征集。對于連續(xù)隨機變量或數(shù)據(jù)特征集，可以假設隨機變量服從高斯分布，利用高斯分布的連續(xù)函數(shù)來完成后驗概率計算：

[P（DA）=g（D，μA，σA）=12πσA×e（D-μA）22σ2A]" （6）

式中：[g（D，μA，σA）]屬于連續(xù)函數(shù)的高斯函數(shù)；數(shù)據(jù)特征集的貝葉斯分類可以通過均值μA和方差σA來完成。

如果將全部的采樣歸到相同的分類中，就會出現(xiàn)“過配”的情況。此時，有必要對劃分之前的各結點的差值進行指數(shù)的運算并劃分一個閥值。如果差異超過臨界值，就可以進行下一步的分割。在式（3）中表示該差異的計算方法：

[nA=max（ni），n=ini]"""""""""""""""" （7）

假定要對[n]個結點進行分區(qū)，并且要對第[i]類進行分區(qū)的數(shù)據(jù)有[n]個，從上面的方程式中，能夠算出最有可能的類別[nA]，并能夠將目前節(jié)點間的差異進行計算：

[DIF=1-nAn]"""""""""""""""""""""""""" （8）

1.3"" 數(shù)據(jù)預處理

對于任何數(shù)據(jù)挖掘方法來說，數(shù)據(jù)預處理是必要的一步。在本文中，將電力系統(tǒng)用電負荷數(shù)據(jù)[x（t）]的平均值（[μ]）的3個標準差以外的點視為離群點并將其刪除。然后使用Z分數(shù)對用電負荷數(shù)據(jù)進行歸一化處理，使其均值近似為0，然后再將其轉換為支持向量表示法［18］。這一步驟的主要目的是消除某些粗略影響因素的影響，以便更好地挖掘電力系統(tǒng)用電負荷數(shù)據(jù)。

假設原始電力系統(tǒng)用電負荷數(shù)據(jù)為[X={x1 ， … ， xn}]，首先剔除原始用電負荷數(shù)據(jù)中的異常值，然后將處理后的數(shù)據(jù)轉換為[X={x1 ， … ， xn}]，均值為0：

[xi=xi-μσ，i=1，2…，n]"""""""""""""" （9）

式中：[xi]和[xi]分別為第[i]時刻的實際負荷數(shù)據(jù)和Z-score歸一化負荷數(shù)據(jù)；[n]為一天中的負荷采樣點數(shù)；μ和σ分別代表負荷數(shù)據(jù)的平均值和標準偏差。

分段聚合近似（PAA）方法用于降低預處理負載數(shù)據(jù)的維數(shù)［19］。該方法具有直觀、快速、準確的特點，能較好地反映出時間序列的總體趨勢。PAA是對時間序列數(shù)據(jù)進行描述的一種方法。

首先，將Z-score歸一化數(shù)據(jù)X′分成[w]個等長子序列。然后將每個子序列的平均值作為數(shù)據(jù)降維值的表示［20］。對Z-score歸一化數(shù)據(jù)X′進行PAA 降維處理，可得到電力系統(tǒng)用電負荷數(shù)據(jù)的PAA表示方法[X=x1，…xw]。其中[X]的第[i]個元素按下式計算：

[x1=wn×j=nw（i+1）+1nwx2j]""""""""""""""""""" （10）

式中：[w]是PAA 的維數(shù)； [xi]是PAA表示的電力系統(tǒng)用電負荷數(shù)據(jù)值。

2"" 結果與討論

2.1"" 數(shù)據(jù)集

為了檢驗改進時間序列算法在電力系統(tǒng)的應用性能，進行仿真實驗。仿真實驗基于Matlab平臺進行。計算機仿真實驗平臺配置為英特爾，酷睿i5處理器，主頻為2.8 GHz/4 G內存，Windows 10專業(yè)版32位SP2操作系統(tǒng)。測試數(shù)據(jù)為電力系統(tǒng)用電負荷數(shù)據(jù)庫。采用CWT200G數(shù)據(jù)組合模式，啟動簽證資源管理器進行自動化數(shù)據(jù)加載，共獲得約2 000條用電負荷數(shù)據(jù)信息。采集的數(shù)據(jù)垂直精度為16位。假設數(shù)據(jù)挖掘中的干擾強度為-15 dB高斯彩色噪聲，將海量數(shù)據(jù)分為訓練集1和2和測試集。模擬數(shù)據(jù)集由大小為25.2 MB的2個分區(qū)組成。

2.2"" 不同數(shù)據(jù)樣本上的準確性

為了驗證所提出的改進時間序列算法數(shù)據(jù)挖掘準確性，設定不同標準偏差σ（0.25、0.35、0.45），以尋求合適的用電負荷數(shù)據(jù)采集樣本數(shù)量，并在測試集數(shù)據(jù)集上進行實驗。圖1為不同采集數(shù)據(jù)樣本數(shù)量的準確性。

由圖1可知，所提出的改進時間序列算法的準確性隨數(shù)據(jù)樣本數(shù)量而增加，不同標準偏差下的算法準確性均呈非線性增加。當數(shù)據(jù)樣本小于3 000時，標準偏差為0.35與0.45時的改進時間序列算法準確性變化幅度較為相似；而當數(shù)據(jù)樣本數(shù)量相同時，標準偏差為0.25的準確性均大于標準偏差0.35與0.45。當數(shù)據(jù)樣本數(shù)量大于3 000時，不同標準偏差的準確性呈現(xiàn)出σ0.25gt;σ0.45gt;σ0.35。當標準偏差為0.25時，利用改進時間序列算法對用電負荷數(shù)據(jù)進行歸一化處理，使其均值近似為0，然后再將其轉換為支持向量表示法，可以消除某些粗略影響因素的影響，以便更好地挖掘電力系統(tǒng)用電負荷數(shù)據(jù)。當數(shù)據(jù)樣本數(shù)量為5 000時，σ=0.25準確性達到最高0.98。因此，在所有后續(xù)實驗中，對于使用電力系統(tǒng)用電負荷數(shù)據(jù)集的實驗，數(shù)據(jù)量采樣設置為5 000，可以減少電力系統(tǒng)的時間權重和相鄰數(shù)據(jù)的影響，從而提高數(shù)據(jù)挖掘性能。

2.3"" 數(shù)據(jù)挖掘誤差

由于電力系統(tǒng)用電負荷數(shù)據(jù)復雜，數(shù)據(jù)量大，數(shù)據(jù)類型多，給自動化數(shù)據(jù)特征挖掘帶來了巨大的挖掘難度，因此本文對測試集數(shù)據(jù)及訓練集數(shù)據(jù)1、訓練集數(shù)據(jù)2進行仿真模擬實驗，計算數(shù)據(jù)特征挖掘誤差，實驗結果如表1所示。

由表1可知，在迭代600～1 000 次的過程中，3個數(shù)據(jù)組的挖掘誤差逐漸趨于穩(wěn)定，在迭代次數(shù)大于800時，誤差變化均小于4%。測試集數(shù)據(jù)組的平均數(shù)據(jù)挖掘誤差為3.94%，訓練集數(shù)據(jù)組的平均數(shù)據(jù)挖掘誤差分別為6.61%和7.37%。在電力系統(tǒng)測試環(huán)境中，測試集數(shù)據(jù)組的平均數(shù)據(jù)挖掘誤差比訓練集數(shù)據(jù)1低2.67%，比訓練集數(shù)據(jù)2低3.43%。根據(jù)以上測試結果可以看出，所提出的改進時間序列的自動化挖掘數(shù)據(jù)方法，最小數(shù)據(jù)挖掘誤差為2.15%，平均數(shù)據(jù)挖掘誤差為5.98%，且測試集數(shù)據(jù)組的數(shù)據(jù)挖掘誤差優(yōu)于訓練集數(shù)據(jù)1及訓練集數(shù)據(jù)2。

2.4"" 電力系統(tǒng)用電負荷數(shù)據(jù)挖掘精度

為了保證測試的客觀性，分別測試神經(jīng)網(wǎng)絡算法和深度學習算法與本文所提出的改進時間序列算法的數(shù)據(jù)挖掘精度。比較結果如圖2所示。

由圖2可知，所提的方法對電力系統(tǒng)用電負荷數(shù)據(jù)挖掘具有較高的精度。當?shù)螖?shù)為50時，改進時間序列算法的挖掘精度為100%。而深度學習算法與神經(jīng)網(wǎng)絡算法的挖掘精度分別為0.90、0.83，改進時間序列算法的挖掘精度遠高于深度學習算法和神經(jīng)網(wǎng)絡算法。當?shù)螖?shù)為10次時，改進時間序列算法精度為0.68，較深度學習算法與神經(jīng)網(wǎng)絡算法分別提高17.8%，8.46%。在迭代次數(shù)為100次時，深度學習算法與改進時間序列算法的挖掘精度為100%，而神經(jīng)網(wǎng)絡算法精度為0.96，改進時間序列算法平均精度最高。因此，采用改進時間序列算法將更好地應對自動化挖掘電力系統(tǒng)用電負荷數(shù)據(jù)的復雜場景。

3"" 結語

為進一步提高自動化挖掘電力系統(tǒng)用電負荷數(shù)據(jù)性能，利用改進時間序列算法對數(shù)據(jù)進行挖掘。迭代次數(shù)為50時，挖掘精度為100%。與改進時間序列算法相比，當?shù)螖?shù)為100時，挖掘精度達到最高。當數(shù)據(jù)樣本數(shù)量為5 000時，σ=0.25準確性達到最高0.98。在電力系統(tǒng)測試環(huán)境中，測試集數(shù)據(jù)組的數(shù)據(jù)挖掘誤差比訓練集數(shù)據(jù)組1低6.61%，比訓練集數(shù)據(jù)組2低6.35%。仿真結果表明，基于改進時間序列算法數(shù)據(jù)挖掘方法具有較高的挖掘精度和準確率，可以滿足電力系統(tǒng)實際用電負荷數(shù)據(jù)挖掘應用。

【參考文獻】

［1］""" 冉博路，張姝，黃河，等.基于二次聚類的工業(yè)用戶負荷可調節(jié)潛力特征提取與綜合評估方法［J］.電力系統(tǒng)保護與控制，2023，51（18）：157?168.

［2］""" 李想，鮑海波.基于改進Adaboost-BP算法的用電行為大數(shù)據(jù)分析［J］.廣西電力，2022，45（5）：1?6.

［3］""" 王鑫根.基于數(shù)據(jù)挖掘技術的企業(yè)審計模型構建及算法優(yōu)化［J］.粘接，2023，50（4）：187?191.

［4］""" 唐利濤，張智勇，陳俊，等.基于Autoformer的電力負荷預測與分析研究［J］.華東師范大學學報（自然科學版），2023（5）：135?146.

［5］""" 易庚，何琳，劉錦明，等.基于遷移學習算法的電力數(shù)據(jù)挖掘模型［J］.沈陽工業(yè)大學學報，2023，45（5）：510?515.

［6］""" 程鵬.基于三維虛擬現(xiàn)實技術的電力數(shù)據(jù)可視化分析［J］.電氣自動化，2021，43（5）：1?3.

［7］""" 董亮，闞新生，鄧國如，等.短期電力負荷預測的時間序列數(shù)據(jù)深度挖掘模型設計［J］.能源與環(huán)保，2021，43（6）：10?26

［8］""" 彭勃，李作紅，李猛，等.基于近鄰傳播算法的電力用戶負荷曲線聚類分析［J］.機電工程技術，2019，48（4）：183?186.

［9］""" 孫芊，馬建偉，李強，等.面向智慧城市的電力數(shù)據(jù)挖掘多場景應用［J］.電力系統(tǒng)及其自動化學報，2018，30（8）：119?125.

［10］""" 于連城，張譯，張廣德，等.基于canopy?k?means算法的" 電網(wǎng)數(shù)據(jù)挖掘算法的研究［J］.國外電子測量技術，" 2018，37（7）：35?39.

［11］""" 王宣軍，于虹，祁兵，等.基于注意力機制的混合神經(jīng)網(wǎng)" 絡電力設備缺陷文本挖掘方法［J］.電力信息與通信" 技術，2023，21（9）：44?51.

［12］""" 陳澤，鄔桐，左曉軍，等.基于知識圖譜的電力網(wǎng)絡安全" 漏洞挖掘系統(tǒng)設計［J］.制造業(yè)自動化，2023，45（7）：100?105.

［13］""" 上官霞，張航.基于數(shù)據(jù)潛在規(guī)律挖掘的用戶側竊電" 智能監(jiān)測技術優(yōu)化［J］.粘接，2023，50（7）：150?154.

［14］""" 王勇，裘建開，嚴鈺君，等.基于弱監(jiān)督學習的電力信息" 動態(tài)漏洞挖掘系統(tǒng)［J］.電子設計工程，2023，31（13）：41?63

［15］""" 劉穎.大數(shù)據(jù)時代人工智能在計算機網(wǎng)絡技術中的應" 用［J］.粘接，2020，43（7）：180?183.

［16］""" 胡學強.基于大數(shù)據(jù)挖掘的電力客服中臺數(shù)據(jù)智能整" 合方法［J］.自動化技術與應用，2023，42（3）：117?121.

［17］""" 高宇豆，保富，黃祖源，等.基于數(shù)據(jù)挖掘的節(jié)約電力潛" 力用戶智能識別方法［J］.電子設計工程，2022，30（22）：" 117?120.

［18］""" 牛任愷，張鑫磊，王玉君，等.基于數(shù)據(jù)挖掘的電力營銷" 稽查業(yè)務監(jiān)管系統(tǒng)［J］.吉林大學學報（信息科學版），" 2022，40（1）：127?131

［19］""" 吳季樺，朱鵬宇，吳子辰，等.基于無監(jiān)督聚類和頻繁子" 圖挖掘的電力通信網(wǎng)缺陷診斷與自動派單［J］.電信" 科學，2021，37（11）：51?63.

［20］""" 王姣，馬靜雅，谷豐強，等.基于關聯(lián)規(guī)則的數(shù)據(jù)挖掘的" 研究與應用［J］.粘接，2020，41（5）：95?98.