張春梅,魏俊鋒
(廣東電網(wǎng)有限責(zé)任公司中山供電局,中山 528400)
隨著經(jīng)濟(jì)的不斷發(fā)展,我國居民及工業(yè)對(duì)電力的需求逐漸變大。對(duì)同一行業(yè)的不同用戶,其用電行為的差異日益明顯,僅以行業(yè)總體特征進(jìn)行用電模式識(shí)別已無法客觀挖掘足夠的信息,用戶用電特性的多樣化對(duì)傳統(tǒng)的用電預(yù)測方法提出了挑戰(zhàn),因此,將用戶用電特性進(jìn)行多維度分解,對(duì)隸屬于不同用電模式的用戶群體采用差異化建模方法,分別建立有較強(qiáng)針對(duì)性的預(yù)測模型,可以提高用電量預(yù)測精度。本文使用CART決策回歸樹、AdaBoost算法進(jìn)行規(guī)則挖掘,并針對(duì)不同用戶用電特點(diǎn),融合隨機(jī)森林(Random forest)、XGBoost等多個(gè)算法匹配用戶最優(yōu)算法進(jìn)行用電量預(yù)測。
首先進(jìn)行特征工程,特征工程包括特征選擇和特征提取[1],對(duì)于特征過多的一些數(shù)據(jù)要做降維處理?,F(xiàn)有數(shù)據(jù)中現(xiàn)成的只有時(shí)間這一維特征,所以需進(jìn)行特征構(gòu)造。在原始數(shù)據(jù)中,以15個(gè)月為一個(gè)劃分區(qū)間,在區(qū)間內(nèi)采取前三個(gè)月的值、總和、方差、平均值以及后三個(gè)月的值、總和、方差、平均值作為特征向量,形成的其中一組特征向量的值如表1所示,并把月份采用了獨(dú)熱碼[2](one-hot)的編碼,在一定程度上起到了擴(kuò)充特征的作用。
CART決策樹[3]是一種有監(jiān)督的學(xué)習(xí)算法,以樹狀圖為基礎(chǔ),對(duì)特征空間進(jìn)行二元?jiǎng)澐?。采用自上而下的方法,在每一步選擇一個(gè)最好的屬性來分裂?!白詈谩钡亩x是使得子節(jié)點(diǎn)中的訓(xùn)練集盡量的純,對(duì)于分類問題可使用Gini系數(shù)進(jìn)行特征選擇,對(duì)于回歸問題用平方誤差最小化準(zhǔn)則進(jìn)行特征選擇,生成二叉樹,即最小二乘偏差(LSD)生成決策樹。
該算法流程如下:
輸入訓(xùn)練集D={(x1,y1),(x2,y2)......(xm,ym)}
(1)CART樹生成,采用啟發(fā)式方法,選擇第j個(gè)變量x和它的取值s作為切分變量和切分點(diǎn),定義兩個(gè)區(qū)域:
表1 特征向量值表
遍歷所有變量,找到最優(yōu)切分變量j和最優(yōu)切分點(diǎn)s,即尋找最優(yōu)特征劃分點(diǎn),接著對(duì)兩個(gè)區(qū)域遞歸操作,算法停止條件是結(jié)點(diǎn)中樣本個(gè)數(shù)少于給定的閾值(切分最小樣本數(shù))、不純度指標(biāo)下降的最大幅度小于用戶指定的幅度(誤差允許下降值)或這切分后某個(gè)子集大小小于給定的閾值。
(2)CART樹剪枝防止過擬合,第一步中有提前終止條件作為預(yù)剪枝,但是對(duì)參數(shù)較為敏感,所以再進(jìn)行后剪枝,常用方法有Reduced-Error Pruning(REP,錯(cuò)誤率降低剪枝)、Cost-Complexity Pruning(CCP、代價(jià)復(fù)雜度)。
歷史課堂教學(xué)中對(duì)學(xué)生學(xué)習(xí)興趣的激發(fā)要注重堅(jiān)持深入挖掘教材,為學(xué)生學(xué)習(xí)歷史知識(shí)營造輕松的氛圍,逐漸的引導(dǎo)學(xué)生對(duì)歷史知識(shí)的學(xué)習(xí)有新的認(rèn)識(shí)。教師要從歷史教材著手,深入的挖掘,找到吸引學(xué)生的知識(shí)點(diǎn)內(nèi)容進(jìn)行發(fā)揮,這是激發(fā)學(xué)生的要點(diǎn)。激發(fā)學(xué)生興趣要注重師生良好關(guān)系的建立,讓學(xué)生對(duì)教師產(chǎn)生信任感,這樣才能拉近師生距離,這對(duì)激發(fā)學(xué)生興趣就打下了基礎(chǔ)。
REP方法:
(a)如果存在任一子集是樹,則在該子集遞歸剪枝;
(b)計(jì)算當(dāng)前兩個(gè)葉子節(jié)點(diǎn)合并后的誤差、不合并的誤差;
(c)如果合并后誤差降低,則合并。
AdaBoost[4]基于boosting流派,屬于集成學(xué)習(xí)方法。對(duì)預(yù)測來說,獲得粗糙的預(yù)測估計(jì)比精確的預(yù)測估計(jì)相對(duì)容易許多,提升方法(boost)從弱學(xué)習(xí)算法出發(fā),反復(fù)學(xué)習(xí),得到一系列弱分類器,組合弱分類器,提升成為一個(gè)強(qiáng)分類器。該算法流程如下:
輸入:T={(x1,y1),(x2,y2)......(xm,ym)}
輸出提升樹 fM(x)
(1)初始化 f0(x)=0
(a)根據(jù)rmi=ymi-fm-1(xi)計(jì)算殘差
(b)擬合殘差rmi學(xué)習(xí)一個(gè)回歸樹,得到T(x;Θm)
(c)更新 fm(x)=fm-1(x)+T(x;Θm)
本文的數(shù)據(jù)取自19個(gè)用電客戶68個(gè)月的月用電量數(shù)據(jù),前60個(gè)月的數(shù)據(jù)作為樣本數(shù)據(jù),后8個(gè)月的數(shù)據(jù)作為測試數(shù)據(jù),使用預(yù)測的8個(gè)月數(shù)據(jù)與測試數(shù)據(jù)計(jì)算誤差,根據(jù)樣本數(shù)據(jù)采用交叉驗(yàn)證訓(xùn)練模型,交叉驗(yàn)證的基本思想是把在某種意義下將原始數(shù)據(jù)(da?taset)進(jìn)行分組,一部分做為訓(xùn)練集(train set),另一部分做為驗(yàn)證集(validation set or test set),首先用訓(xùn)練集對(duì)分類器進(jìn)行訓(xùn)練,再利用驗(yàn)證集來測試訓(xùn)練得到的模型(model),以此來做為評(píng)價(jià)分類器的性能指標(biāo)。如下圖1為CART算法訓(xùn)練出的決策樹模型,測量中使用可決系數(shù)作為綜合度量回歸模型對(duì)樣本觀測值擬合優(yōu)度的度量指標(biāo),R2約接近1代表擬合優(yōu)度越好,表2為其中用戶C的可決系數(shù)值。
表2 用戶可決系數(shù)表
不同用電行為的差異化日益明顯,因此,將用戶用電特性進(jìn)行多維度分解,對(duì)隸屬于不同用電模式的用戶群體采用差異化建模方法,選取合適的數(shù)學(xué)模型進(jìn)行數(shù)據(jù)建模,EW[5]是一類經(jīng)常使用的組合預(yù)測方法,設(shè)yi(i=1,2,…,k)為第i個(gè)模型的預(yù)測值,如果ye代表組和模型的預(yù)測值,則EW方法得到的組合預(yù)測為,EW法不需要了解單一預(yù)測值yi的預(yù)測精度,是在對(duì)各種預(yù)測方法精度未知的情況下采取的一種方法。算法流程如下:
(1)對(duì)于每個(gè)用戶,遍歷算法并統(tǒng)計(jì)MSE,保存MSE最小的模型,并計(jì)算算法根據(jù)測試集所得出的預(yù)測結(jié)果與實(shí)際值的相關(guān)系數(shù),即R2值。相關(guān)系數(shù)是一種比較客觀的評(píng)價(jià)模型方法,本系統(tǒng)采用的是皮爾遜相關(guān)系數(shù)[6](Pearson Product-moment Correlation Coeffi?cient)進(jìn)行數(shù)學(xué)統(tǒng)計(jì),如下面公式(4)。
(2)對(duì)每個(gè)算法進(jìn)行調(diào)優(yōu),并保存調(diào)優(yōu)后的算法模型,以便下次進(jìn)行預(yù)測時(shí)縮短預(yù)測所需等待的時(shí)間。
圖1 CART決策樹
(3)綜合多個(gè)算法進(jìn)行預(yù)測,即遍歷所有用戶,取出系統(tǒng)保存的用戶所對(duì)應(yīng)的最佳算法模型進(jìn)行實(shí)際預(yù)測。表3是單一算法與多算法融合后的誤差統(tǒng)計(jì)。
本文采用集成學(xué)習(xí)方法對(duì)數(shù)據(jù)樣本進(jìn)行了規(guī)則挖掘,針對(duì)單個(gè)預(yù)測模型存在的不足,提出了權(quán)重組合預(yù)測模型,融合了多個(gè)算法進(jìn)行用電量預(yù)測,對(duì)用戶68個(gè)月的月用電量數(shù)據(jù)進(jìn)行特征處理和分類建模,基于CATR、Adaboost等多個(gè)算法以及融合算法對(duì)用電量進(jìn)行預(yù)測,為每個(gè)用戶自動(dòng)選擇最佳模型。通過模型調(diào)優(yōu),提高了用電量預(yù)測準(zhǔn)確率。
表3 算法誤差統(tǒng)計(jì)(部分用戶)
參考文獻(xiàn):
[1]陳霞,安伯義,陳廣林.電力負(fù)荷預(yù)測理論與方法.電氣化,2004(7):6-8
[2]唐小我.預(yù)測理論及其應(yīng)用.成都:電子科技大學(xué)出版社,1992,2-27
[3]張松林.CART-分類與回歸樹方法介紹[J].火山地質(zhì)與礦產(chǎn),1997,18(1):67-75
[4]李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,,2012:138-154
[5]牛東曉,曹樹華,趙磊.電力負(fù)荷預(yù)測技術(shù)及其應(yīng)用.北京:中國電力出版社,1998,1-45
[6]齊志剛,王金文.電力系統(tǒng)中長期符合預(yù)測的新方法.電站系統(tǒng)工程,2002,18(6):39-42