孫越, 洪義成, 劉鑫, 張志強, 鄭雪燕
( 1.延邊大學 理學院, 吉林 延吉 133002; 2.國網(wǎng)吉林省電力有限公司 延邊供電公司, 吉林 延吉 133000 )
電費收入是供電企業(yè)運營中的一項重要經(jīng)濟指標.在我國,由于電力商品并不像其他商品采取現(xiàn)場等價交易的方式,而是采用先購買再使用的方式,因此供電企業(yè)的電費收入不僅受到用戶使用電量的影響,還受到用戶繳納電費全額的影響,即包括了許多隨機因素[1-3].目前,預測電費收入的方法主要分為兩種方法:一是利用時間序列模型(包括AR模型、ARMA模型、ARIMA模型等)進行預測[4-7],這類模型雖然在操作上方便,但是對數(shù)據(jù)要求較高;二是利用機器學習方法進行預測,該模型雖然較為復雜,但是在組織和擬合參數(shù)方面準確度較高,同時擬合任意非線性趨勢的效果較好[8-10].為進一步提高電費收入的預測效果,本文提出一種將時間序列和機器學習相結(jié)合的SARIMA - SVR混合模型,并對模型的有效性進行了驗證.
時間序列模型[11]是從時間序列中找出變量變化的特征、趨勢以及發(fā)展規(guī)律,以此實現(xiàn)對變量的未來變化進行有效預測的模型.按照模型中是否包含季節(jié)性成分,ARIMA模型可分為季節(jié)模型和非季節(jié)模型,其中描述季節(jié)性序列的模型又稱為季節(jié)時間序列模型(seasonal ARIMA model, SARIMA).SARIMA模型中除了用到一般的差分,還用到了季節(jié)性差分S,即用S反映一定的周期(T).用t時刻的值減去t-T時刻的值即可得到季節(jié)性差分序列.
對于時間序列{Yt}, SARIMA模型的一般表達式為:
(1)
本文將公式(1)記為SARIMA(p,d,q)×(P,D,Q)s模型,其中s為季節(jié)周期,p、d和q為非季節(jié)階數(shù),P、D和Q為季節(jié)階數(shù).SARIMA模型的建模流程圖如圖1所示.
圖1 SARIMA模型的建模流程
支持向量回歸(support vector regression, SVR)模型[12]是在線性函數(shù)的兩側(cè)建造一個“間隔帶”,然后通過最小化“間隔帶”的寬度與總損失來優(yōu)化模型,其中損失函數(shù)僅計算間隔帶之外的樣本.SVR模型利用非線性函數(shù)φ(x)將給定的原始數(shù)據(jù)D={(x1,y1),(x2,y2),…,(xm,ym)}映射到高維空間,以此形成高維空間的線性函數(shù),其表達式為:
f(x)=wT(x)+b,
(2)
其中w為權(quán)重,b為截距.假設SVR模型允許f(x)與y之間的最多誤差為ε,且僅當f(x)與y之間的差的絕對值大于ε時才計算損失.根據(jù)結(jié)構(gòu)風險最小化原則可知, 求解f(x)等效于求解優(yōu)化問題,即:
(3)
(4)
將回歸問題轉(zhuǎn)換為求解目標函數(shù)的最小化問題時, SVR模型引入了拉格朗日乘法算子,由此回歸問題轉(zhuǎn)換為較為易解的拉格朗日函數(shù):
(5)
利用對偶原理可得式(5)的對偶問題為:
(6)
(7)
式(7)中的x可以利用核函數(shù)將其表示為φ(xi),從而SVR模型的最終表達式為:
(8)
理論上來說,求解b值可通過選取任意一個滿足0<αi (9) (10) SARIMA - SVR混合模型的流程如圖2所示. 圖2 SARIMA - SVR混合模型的建模流程 2.1.1數(shù)據(jù)集 本文采用的數(shù)據(jù)資料是國網(wǎng)延邊供電公司2010年7月至2021年7月的月電費回收數(shù)據(jù),該數(shù)據(jù)的時序圖如圖3所示. 圖3 月電費收入的時序圖 實驗時,本文將全部數(shù)據(jù)按時間段劃分為訓練集和測試集.其中2010年7月至2020年12月的月電費收入為訓練集,2021年1月至2021年7月的月電費收入為測試集.考慮到電費收入數(shù)據(jù)在不同季節(jié)和特殊日期的波動情況,本文采用3種影響特征(見表1)預測SARIMA - SVR混合模型的有效性. 表1 影響電費收入預測的因素 2.1.2數(shù)據(jù)平穩(wěn)性檢驗 由于需要判斷原始時間序列數(shù)據(jù)是否平穩(wěn),因此需要對序列的平穩(wěn)性進行檢驗.平穩(wěn)性檢驗的方法有兩種:一種是通過時序圖的形狀和走勢來判斷平穩(wěn)性;另一種是通過構(gòu)造檢驗統(tǒng)計量來判斷平穩(wěn)性.由于第2種方法中的單位根檢驗(ADF)能夠準確地判斷序列平穩(wěn)性,因此本文采用單位根檢驗方法來判斷原始序列和差分之后的序列是否平穩(wěn). 2.1.3最優(yōu)參數(shù) 赤池信息準則(Akaike information criterion,AIC)和貝葉斯信息準則(Bayesian information criterion, BIC)是衡量統(tǒng)計模型擬合是否優(yōu)良的常用標準,其表達式為: AIC=2k-2 lnL, (11) BIC=klnn-2 lnL. (12) 其中,k為模型參數(shù)個數(shù),n為樣本數(shù)量,L為似然函數(shù).本文以AIC準則和BIC準則為依據(jù),使用AUTO - ARIMA函數(shù)(python 3.8版)選取最優(yōu)參數(shù),得到的具體參數(shù)設置如表2所示. 表2 SARIMA - SVR混合模型的參數(shù)設置 2.2.1誤差分析 為了對比分析模型的預測結(jié)果,在進行精準度評估時,本文選取平均絕對百分比誤差(MAPE)作為模型的評價標準.平均絕對百分比誤差的計算公式為: (13) 2.2.2平穩(wěn)性檢驗 對原始數(shù)據(jù)進行單位根檢驗顯示,其P值(0.137 728)遠大于0.05,說明原始數(shù)據(jù)是不平穩(wěn)序列,需要進行差分處理.為此本文利用表2中的參數(shù)對原始數(shù)據(jù)進行差分處理,然后再對差分后的數(shù)據(jù)進行計算得到了時間序列數(shù)據(jù)的自相關系數(shù)(ACF)和偏自相關系數(shù)(PACF),如圖4所示.由圖4可以看出,差分后的數(shù)據(jù)已趨于平穩(wěn).另外,根據(jù)平穩(wěn)性檢驗原理對差分后的數(shù)據(jù)進行單位根檢驗得其P值遠小于0.05,這進一步說明差分后的數(shù)據(jù)是平穩(wěn)的. 圖4 序列的自相關系數(shù)和偏自相關系數(shù) 2.2.3殘差分析 對預測數(shù)據(jù)的殘差進行白噪聲分析后得其P值遠小于標準值0.05,由此表明得到的SARIMA模型的殘差不是一組白噪聲序列.這說明殘差中還有有用的信息,需進一步提取有效信息.提取有效信息的方法是:首先對殘差序列進行支持向量回歸分析,以此得到殘差的預測值;然后將殘差的預測值和SARIMA的預測值相加,以此得到更為接近實際值的預測值. 2.2.4對比分析 為了驗證SARIMA - SVR混合模型的預測準確性,在相同的測試集下將SARIMA - SVR混合模型與SARIMA模型、SVR模型進行了對比實驗.兩種模型的參數(shù)值如表3所示,該參數(shù)值可以使SARIMA模型和SVR模型的整體效果達到最佳. 表3 SARIMA、SVR模型的參數(shù)設置 為了更加直觀地觀察預測結(jié)果,將各模型的實際值與預測值進行了可視化處理,如圖5所示.由圖5可以看出, SARIMA - SVR混合模型的預測精準度與實際值最為接近,由此表明混合模型的擬合效果較好. 圖5 各模型的預測結(jié)果 3種模型的MAPE值如表4所示.由表4可以看出, SARIMA - SVR混合模型的數(shù)據(jù)預測效果顯著優(yōu)于其他兩種模型,其中SARIMA - SVR混合模型的MAPE值比SARIMA模型降低了13.50%,比SVR模型降低了73.75%.其原因是SARIMA - SVR混合模型將電費時間序列中包含的主要趨勢融入到了模型中進行了殘差分析,由此使得SARIMA模型的預測結(jié)果得到進一步修正,從而達到了更好的預測效果. 表4 3種模型的預測效果 利用本文構(gòu)建的SARIMA - SVR混合模型對電費收入進行預測表明,SARIMA - SVR混合模型的預測精度顯著優(yōu)于單一的SARIMA模型和SVR模型,因此該模型可為今后電費收入預測方面的研究提供參考.由于本文在研究中使用的月電費收入數(shù)據(jù)相對較少,在尋找訓練模型的變量特征方面仍存在不足;因此,在今后的研究中,我們將進一步挖掘數(shù)據(jù),如量化居民繳費的心理因素、流動人口、消費者指數(shù)等,以此得到更多、更合適的變量特征來訓練模型,從而進一步提高模型的準確度.1.3 SARIMA - SVR混合模型
2 實證分析
2.1 數(shù)據(jù)處理
2.2 結(jié)果分析
3 結(jié)論