陳世炳, 潘晶晶, 王 斌, 林金山, 羅 雁
(海南電網(wǎng)有限責(zé)任公司,海南 ???70203)
隨著網(wǎng)絡(luò)、通信、傳感器、物聯(lián)網(wǎng)等技術(shù)飛速發(fā)展,電網(wǎng)領(lǐng)域也迎來了黃金發(fā)展時(shí)代。然而隨著電網(wǎng)應(yīng)用領(lǐng)域不斷拓寬,綠色及可持續(xù)發(fā)展理念不斷深入人心,10 kV 及以下低壓配電網(wǎng)中“線損”問題越發(fā)突出[1-2]。然而,目前10 kV 及以下低壓配電網(wǎng)存在數(shù)據(jù)量大,可用特征少,且數(shù)據(jù)質(zhì)量參差不齊等問題[3-4]。
為此,眾多學(xué)者對(duì)10 kV及以下低壓配電網(wǎng)線損率計(jì)算方法進(jìn)行了研究。文獻(xiàn)[5]基于專家系統(tǒng)設(shè)計(jì)了一套臺(tái)區(qū)線損異常智能診斷系統(tǒng)。文獻(xiàn)[6]基于用電信息采集系統(tǒng)建立了臺(tái)區(qū)線損分析平臺(tái)。上述計(jì)算方法較傳統(tǒng)計(jì)算方法結(jié)果更加精確,但收集大量的操作數(shù)據(jù)和結(jié)構(gòu)數(shù)據(jù)需要時(shí)間和人力。文獻(xiàn)[7]基于數(shù)據(jù)驅(qū)動(dòng)提出了一種臺(tái)區(qū)線損評(píng)估方法。然而,該方法需要建立復(fù)雜的計(jì)算模型,因此會(huì)犧牲部分計(jì)算精度。
近年來,人工智能算法在電力系統(tǒng)中得到了廣泛的應(yīng)用,如SVM[8]、BP神經(jīng)網(wǎng)絡(luò)[9]、深度學(xué)習(xí)[10]等為預(yù)測(cè)線損率提供了新的途徑。然而,這些方法很大程度上依賴于大量的數(shù)據(jù)。當(dāng)數(shù)據(jù)質(zhì)量不高或數(shù)據(jù)維數(shù)較大時(shí),將嚴(yán)重影響線損率預(yù)測(cè)結(jié)果。為此,本文提出了一種基于梯度提升決策樹[11](Gradient boosting decision tree,GBDT)的10 kV 及以下低壓配電網(wǎng)線損率計(jì)算方法,以解決數(shù)據(jù)存在異常值的情況下線損率預(yù)測(cè)不高的問題。
考慮到10 kV 及以下低壓配電網(wǎng)中有大量與線損率相關(guān)的特征,一旦特征選取標(biāo)準(zhǔn)不合理,將嚴(yán)重影響線損率計(jì)算結(jié)果。GBDT 是一種經(jīng)典的計(jì)算智能算法,該算法可為10 kV 及以下低壓配電網(wǎng)眾多特征選取提供參考依據(jù)。
令特征為j,則其重要性程度可根據(jù)j在GBDT 的平均重要性計(jì)算,故
式(1)中,為特征j的全局重要性程度,M為樹的數(shù)量,為特征j在第m個(gè)樹中相對(duì)重要性程度。
計(jì)算公式如下所示:
式(2)中,J為樹中葉子節(jié)點(diǎn)個(gè)數(shù)。J- 1為非葉子節(jié)點(diǎn)個(gè)數(shù)。vt為與節(jié)點(diǎn)t有關(guān)的任意特征。為劃分節(jié)點(diǎn)t后的均方損失。B(?)為布爾函數(shù),當(dāng)其參數(shù)為真,則B(?) = 1;否則B(?)= 0。需注意
為實(shí)現(xiàn)特征選擇的一致性,本文使用Spearman 相關(guān)系數(shù)過濾無關(guān)變量。Spearman系數(shù)可評(píng)估2個(gè)變量之間的關(guān)系是否可以用單調(diào)函數(shù)來描述。因此,有
式(3)中,di表示每個(gè)觀測(cè)值之間的差異,n為樣本數(shù)。
本研究采用基于密度的帶噪空間聚類算法(Density-based spatial clustering of applications with noise,DBSCAN)對(duì)數(shù)據(jù)進(jìn)行聚類,實(shí)現(xiàn)數(shù)據(jù)異常檢測(cè)。DBSCAN 是一種典型的可處理帶有噪聲數(shù)據(jù)的聚類算法。
令C={(X1,Y1),…,(Xn,Yn)}為數(shù)據(jù)點(diǎn)集,其中Xi={x1,x2,…,xm}。聚類數(shù)據(jù)點(diǎn)集C的過程可描述為
步驟1:初始化ε和MinPts,其中ε為掃描半徑,MinPts為最小樣本個(gè)數(shù)。
步驟2:確定任意數(shù)據(jù)點(diǎn)之間的歐幾里德距離Dhi,即
式(4)中,Sk為標(biāo)準(zhǔn)距離。
步驟3:?Xi,搜索在其掃描半徑內(nèi)的任意數(shù)據(jù)點(diǎn)構(gòu)建核心簇。
步驟4:確定數(shù)據(jù)集中孤立的數(shù)據(jù)點(diǎn),并將這些數(shù)據(jù)點(diǎn)組成新群。
步驟5:重復(fù)上述過程,直至執(zhí)行完任意數(shù)據(jù)點(diǎn)劃分為核心簇的過程。
步驟6:劃分過程結(jié)束,如果存在任意數(shù)據(jù)點(diǎn)不屬于任意核心簇,則將這些數(shù)據(jù)點(diǎn)標(biāo)記為異常點(diǎn)或噪聲數(shù)據(jù)。
傳統(tǒng)GBDT 是一種典型的串行計(jì)算模型,存在計(jì)算效率低、易過擬合等缺陷。為此,本文提出了一種改進(jìn)的GBDT模型實(shí)現(xiàn)并行計(jì)算,以提高模型預(yù)測(cè)性能,同時(shí)加速模型訓(xùn)練效率,避免過擬合。
改進(jìn)的GBDT 模型中,預(yù)測(cè)值為所有樹模型預(yù)測(cè)值的加權(quán)和,因此有
式(5)中,Xi={(x1,x2,…,xm)}為由特征構(gòu)成的向量。m為模型中所有樹的個(gè)數(shù)。fi(X)為樹i模型的預(yù)測(cè)值。
令M表示最大迭代次數(shù),L[]y,f(x) 為模型計(jì)算時(shí)的損失,c為任意無窮小常數(shù)。因此,第m個(gè)決策樹構(gòu)建過程如下。
步驟1:確定當(dāng)前模型損失,并計(jì)算其負(fù)梯度,即
步驟2:計(jì)算fm-1(X),同時(shí)以最小損失線性估計(jì)每個(gè)葉子節(jié)點(diǎn)的梯度rms(s= 1,2,…,S,s是第m個(gè)樹的葉子節(jié)點(diǎn)個(gè)數(shù)),則在下次評(píng)估時(shí)更新權(quán)重以減少損失。因此,該計(jì)算過程如下所示:
步驟3:模型更新,其更新公式如下所示:
式(8)中,v為學(xué)習(xí)率。I(x∈rms)為指標(biāo)函數(shù),當(dāng)X∈rms時(shí),該值取1;否則取0。
步驟4:循環(huán)至最大迭代次數(shù)M,至此可得到預(yù)測(cè)的線損率。
為了驗(yàn)證本研究所提方法的有效性,本章以10 kV 及以下低壓配電網(wǎng)的數(shù)據(jù)為例,選取1446 個(gè)實(shí)例樣本進(jìn)行仿真與分析。需注意,每個(gè)樣本應(yīng)包含功率因數(shù)、電表數(shù)量、線路總長度、平均負(fù)荷率、主線橫截面積和供電功率6個(gè)電氣特征。
首先,對(duì)1446 個(gè)實(shí)例樣本進(jìn)行數(shù)據(jù)預(yù)處理操作,初篩部分不合格數(shù)據(jù)。其次,結(jié)合GBDT 相對(duì)重要性和Spearman 相關(guān)系數(shù)對(duì)所有電氣特征進(jìn)行評(píng)估,選取均方誤差最小的特征構(gòu)建特征向量,最終統(tǒng)計(jì)結(jié)果如圖1所示。由圖1可以看出,供電功率和主線橫截面積始終是重要的特征,功率因數(shù)和電表數(shù)量2 個(gè)特征貢獻(xiàn)程度相對(duì)較低。因此,本研究將功率因數(shù)及電表數(shù)量2 個(gè)特征略去,最終選取線路總長度、平均負(fù)荷率、主線橫截面積和供電功率建立特征庫。
圖1 不同方法特征貢獻(xiàn)對(duì)比統(tǒng)計(jì)結(jié)果Fig.1 Comparative statistical results of feature contributions of different methods
表1 所示為不同特征聚類中心統(tǒng)計(jì)結(jié)果。其中聚類1 表示4 個(gè)指標(biāo)占比最大;聚類2 次之;接下來是聚類3;聚類4中各指標(biāo)占比最小。
表1 特征聚類中心統(tǒng)計(jì)結(jié)果Fig.Statistical results of feature clustering centers
圖2 所示為支持向量回歸(Support vector regression,SVR)、隨機(jī)森林回歸(Random forest regression,RFR)與本研究所提模型的預(yù)測(cè)誤差對(duì)比結(jié)果。可以看出,SVR 的預(yù)測(cè)曲線誤差最大,其次是RFR,而本研究所提方法誤差最小。與SVR 和RFR 相比較,本研究所提方法的均方誤差分別降低了2.24%和0.86%。
圖2 不同模型預(yù)測(cè)誤差對(duì)比結(jié)果Fig. 2 Comparison of prediction errors of different models
本研究對(duì)10 kV 及以下低壓配電網(wǎng)線損預(yù)測(cè)方案進(jìn)行了研究與分析,提出了一種基于改進(jìn)GBDT 的10 kV 及以下低壓配電網(wǎng)線損預(yù)測(cè)模型。該模型結(jié)合GBDT相對(duì)重要性和Spearman相關(guān)系數(shù)對(duì)所有電氣特征進(jìn)行評(píng)估,選取均方誤差最小的特征構(gòu)建特征向量。進(jìn)一步利用基于密度的帶噪空間聚類算法對(duì)10 kV 及以下低壓配電網(wǎng)數(shù)據(jù)進(jìn)行分類,解決數(shù)據(jù)集中數(shù)值離散性造成的評(píng)估精度低問題。本研究所提方法對(duì)10 kV及以下低壓配電網(wǎng)線損預(yù)測(cè)具有一定的借鑒作用。