王 曙 潘庭龍
(江南大學(xué)物聯(lián)網(wǎng)技術(shù)應(yīng)用教育部工程研究中心 無錫 214122)
電價是電力市場中的重要組成部分,從電價可以看出整個市場的運轉(zhuǎn)效率的高低,以及市場的競爭和成熟的程度。伴隨著大數(shù)據(jù)、物聯(lián)網(wǎng)、傳感器等技術(shù)的飛速發(fā)展,電力市場在運行過程中累積了海量的電價數(shù)據(jù)。在大數(shù)據(jù)時代,擁有了這些數(shù)據(jù)的意義是非凡的,我們可以運用數(shù)據(jù)挖掘的手段去對電力市場中的電價進行預(yù)測,可以為電力市場、運行商、客戶等提供指導(dǎo)[1~4]。然而,歷史電價數(shù)據(jù)的準確性和完整性是使用這些方法的前提。基于數(shù)據(jù)挖掘技術(shù)的電價預(yù)測是在電力市場中已有的歷史電價數(shù)據(jù)基礎(chǔ)上進行的,采集電價數(shù)據(jù)的過程中可能會因為供電不穩(wěn)定、設(shè)備損壞、人為等因素而不可避免的在一些時間點上存在一些缺失值。如果歷史數(shù)據(jù)中的缺失值過多,會給預(yù)測帶來很大的難度、影響到預(yù)測的精度,甚至使整個數(shù)據(jù)失去價值。因此,本章對電價缺失數(shù)據(jù)進行合適的預(yù)處理就顯得十分重要。
在統(tǒng)計學(xué)的定義中,數(shù)據(jù)缺失的類別包括三種:完全隨機缺失、隨機缺失以及非隨機缺失。這些是討論一切數(shù)據(jù)缺失問題的基礎(chǔ)概念。判斷究竟屬于哪種缺失類別的主要依據(jù)是看缺失的數(shù)據(jù)特征和標簽列是否有聯(lián)系。完全隨機缺失顧名思義是完全沒有關(guān)系的,這種情況是非常少見的。隨機缺失是比較常見的缺失類型,其缺失數(shù)據(jù)特征和標簽列是相互有依存關(guān)系的。非隨機缺失的缺失數(shù)據(jù)特征只和本身以及一些不可抗的因素有關(guān)聯(lián),這種缺失也是不容輕視的[5~6]。
對于缺失的數(shù)據(jù),比較常見的填補算法有刪除法、均值填補法、回歸填補法、熱平臺填補法、最近鄰填補法等等。這幾種算法的局限性很大,在數(shù)據(jù)缺失比例較高或數(shù)據(jù)波動幅度較大的狀況下,填補的效果較差。因而本文提出了一種基于馬爾可夫鏈蒙特卡洛(MCMC)填補方法對于缺失電價數(shù)據(jù)進行填補,并和其他兩種常見的填補算法FCS填補法和MICE填補法在不同的評價指標下進行了對比[7~9],實驗證明了該方法具有一定的優(yōu)勢。
全條件定義法(FCS)[10]是由范布倫等人在1999年提出來的,這種方法對單個變量的條件分布構(gòu)建一系列的回歸模型,接著在不考慮被填補變量和已觀測變量的聯(lián)合分布時對缺失值逐一進行填補。
設(shè)無缺失的數(shù)據(jù)Z是從包含了P個數(shù)據(jù)變量的多變量分布P(Z|θ)進行隨機選擇的觀測值,θ所表示的是包含了未知參數(shù)的向量,Z的分布狀況完全取決于它。所以,一旦我們知道了θ,便可以從P(Z|θ)中進行數(shù)據(jù)抽取,然后去對缺失值進行填補。具體的做法是采用吉布斯采樣去進行迭代抽樣。下面開始t次的迭代過程,第t次結(jié)束得到:
其中Z(t)j=(Z o bsj,Z*(t)j),把它作為第t次迭代式的第j個填補值[11]。
MCMC方法[12~15]將馬爾科夫(Markov)過程引入到Monte Carlo模擬中,實現(xiàn)抽樣分布隨模擬的進行而改變的動態(tài)模擬,彌補了傳統(tǒng)的蒙特卡洛積分只能靜態(tài)模擬的缺陷。它能夠在非常復(fù)雜的數(shù)據(jù)情況下對感興趣的參數(shù)進行評估和預(yù)測。這個過程的目標是找到一種可能的數(shù)據(jù)分布也就是貝葉斯后驗分布,然后可以去評估目標參數(shù)。具體使用的貝葉斯公式如下所示:
Y是來自正態(tài)分布的多變量數(shù)據(jù),其中Y o bs和Y mis分別表示已經(jīng)觀測到的和丟失的部分。利用已有的觀測數(shù)據(jù)Y obs,計算出參數(shù)θ。假定是第t次迭代,需要從p(Y mis|Y obs,θ(t))中提取出,然后從p(θ|Y obs,)提取出θ(t+1)。前面一步稱之為填補步(I-Step),后面一步稱之為后驗步(P-Step)。結(jié)果序列形成了一條馬爾可夫鏈,…,,其結(jié)果必須匯聚到p(Y mis|Y obs,θ)分布中去,然后當數(shù)據(jù)有缺失的時候,使用多重插補法估計參數(shù)。
重復(fù)I-Step和P-Step就可以形成了一條馬爾可夫鏈,他們的責(zé)任就是生成一系列值的分布,從中可以獲得所模擬的缺失值的隨機樣本。當數(shù)據(jù)有缺失的時候使用多重插補方法去估計參數(shù)。馬爾可夫鏈的長度需要足夠長以使得元素分布穩(wěn)定到稱為靜態(tài)分布的共同分布上。簡單概括上述過程的流程圖如圖1所示。
圖1 MCMC填補法的流程圖
對電價的大小有影響的因素包括電力負荷、溫度、濕度、風(fēng)速、風(fēng)向、降水量、氣壓等。這些因素和電價數(shù)據(jù)之間也存在著一些聯(lián)系,因此電價數(shù)據(jù)的缺失類別是隨機缺失。如圖2展現(xiàn)了美國PJW電力市場2000年5月1號從18點到22點共5個小時的電價數(shù)據(jù),其中由于采樣的時間間隔是5分鐘,所以這個時間范圍內(nèi)共有100個節(jié)點??梢钥闯鲞@個時間段的電價數(shù)據(jù)大體呈顯正態(tài)分布的趨勢。
圖2 美國PJW電力市場電價變化圖
由于實驗所用的填補方法均為多重填補方法,為了衡量不同填補次數(shù)下的填補效率(Relative Efficiency,RE)的高低,這里定義一個指標:
式子中的γ表示的是由于數(shù)據(jù)不完整所造成的相對增量,m表示填補次數(shù)。
為了評價填補算法填補效果的好壞,我們需要定義幾個指標來做判斷。本文采用的兩個評價指標是均方誤差MSE和平均絕對誤差MAE。MSE的公式為,MAE的公式為其中代表填補算法對缺失位置的填補值,yi表示原始值。MSE對于填補過程中的較大值有更大的懲罰作用,而MAE指標則更加注重較小值,因此兩者相結(jié)合能夠很好地評價填補效果。
本實驗選取的數(shù)據(jù)是來自美國PJW電力市場的電價數(shù)據(jù)。選擇的時間段是從2000年3月6日到2000年4月30日,其包含了每天24小時的數(shù)據(jù)。本實驗所使用的是期間每一天的18點到22點時間段,采樣的頻率是5分鐘。實驗中電價的數(shù)據(jù)特征包括:獨立區(qū)域負荷、總區(qū)域負荷、溫度、濕度、風(fēng)速、風(fēng)向、降水量、氣壓,一共8個數(shù)據(jù)特征。本章內(nèi)容討論的是隨機缺失的電價缺失數(shù)據(jù)的填補,為了對幾種缺失值填補方法做出更加有說服力的評價,使用python的隨機函數(shù)在原始電價數(shù)據(jù)中隨機選擇缺失值,將這些位置的值用numpy包中的表示空值的np.nan來替代,并且設(shè)置缺失比例分別是10%、20%、30%、40%、50%,然后得到相應(yīng)的有缺失的數(shù)據(jù)集。再對有缺失的數(shù)據(jù)集分別采用FCS法、MICE填補法、MCMC方法,且對3種方法的填補次數(shù)分別設(shè)置為3次、5次、10次和15次,用來觀測不同的填補次數(shù)對結(jié)果的改變?nèi)绾巍?/p>
本章的仿真選取的是MCMC方法,它是一種多重填補方法,用它來對PJW電力市場的電價數(shù)據(jù)進行缺失填補,并剖析出填補次數(shù)對填補精度的影響。為了很清晰地看出填補次數(shù)對預(yù)測精度的影響,我們必須要在相同的缺失比例下去實驗,這里我們以缺失值10%為例,對缺失的電價數(shù)據(jù)分別進行3次、5次、10次和15次的填補,電價的數(shù)據(jù)8個數(shù)據(jù)特征的填補效率和填補次數(shù)的對應(yīng)關(guān)系如表1所示。
由表1可見,MCMC方法在隨機缺失的電價數(shù)據(jù)上的填補效率是和填補次數(shù)成一個正相關(guān)的關(guān)系。從理論上分析來看,因為填補次數(shù)的增加造成了數(shù)據(jù)的自由度有所提升。填補次數(shù)為3次、5次、10次、15次時,8組電價數(shù)據(jù)特征的平均填補效率對應(yīng)分別是0.9853、0.9899、0.993、0.9978。而填補次數(shù)的增加相應(yīng)的會造成計算時間的增加,這里我們?nèi)√钛a次數(shù)為10次較為合適,后面的討論也都建立在10次填補的基礎(chǔ)之上。表2展現(xiàn)了本章的3種缺失填補方法在不同缺失比例下的填補效率??梢钥闯鯩CMC方法在不同缺失比例下的填補效率都比其他兩種方法要高,因而MCMC方法在填補效率上是有一定優(yōu)勢的。
表1 MCMC方法在不同填補次數(shù)下的填補效率
表2 不同缺失比例下3種方法的填補效率
為了評價填補算法填補值的好壞,我們需要使用上一節(jié)定義的指標MSE和MAE來對三種填補算法在不同缺失比例下的填補效果。其結(jié)果如表3、4所示。
表3 不同缺失比例下3種方法的MSE
表4 不同缺失比例下3種方法的MAE
經(jīng)過對比實驗,MCMC填補法、FCS填補法、MICE填補法三種算法在不同的數(shù)據(jù)缺失比列下,總體上來說其MSE、MAE都是隨著缺失值的比例的增加而有所增加。當缺失比例在10%,20%左右缺失比例并不是很高的情況下,三種填補方法的效果都差不多,但當缺失比例到30%及以上的時候,MCMC填補算法的填補精度要明顯高于其他兩種方法,也證明了MCMC方法在短期電價數(shù)據(jù)的缺失值填補中有一定的優(yōu)勢。
電價數(shù)據(jù)在獲取的過程中不可避免地會出現(xiàn)有缺失的狀況,這對建立電價預(yù)測模型帶來了很大的阻礙。鑒于此,本文提出了一種基于馬爾可夫鏈蒙特卡洛的缺失值填補方法,通過實驗證明了它的填補效率和填補精度相比于其他常見的填補方法具有一定的優(yōu)勢。雖然填補算法能夠依賴統(tǒng)計學(xué)的知識對缺失值盡可能準確的去填補,但誤差是不可避免的。因而,我們在應(yīng)該對于數(shù)據(jù)采集過程加強監(jiān)控,盡量使得建模的數(shù)據(jù)是一手的。