徐怡悅,吳在軍,王 洋,竇曉波,胡敏強
(東南大學(xué) 電氣工程學(xué)院,江蘇 南京 210096)
隨著可再生能源需求的增長,光伏發(fā)電發(fā)展迅猛[1],在電力系統(tǒng)中所占比例越來越大,其對電力系統(tǒng)規(guī)劃、仿真、調(diào)度和控制的影響也引起極大關(guān)注[2]。由于易受天氣等因素影響[3],光伏輸出功率具有隨機特性,其概率分布特性對分布式電源的規(guī)劃、運行及可靠性分析具有重要的指導(dǎo)意義[4]。
目前,對于光伏電源輸出功率概率分布特性的分析主要分為兩大類,即參數(shù)分析方法和非參數(shù)分析方法。參數(shù)分析方法需先假定光伏電源輸出功率或影響光伏輸出功率的主要因素滿足某些已知分布,再通過實際數(shù)據(jù)求取分布函數(shù)的參數(shù)信息。文獻[5]假定光伏電池板輸出功率服從正態(tài)分布,結(jié)合輻照度的Beta分布、溫度與光伏輸出功率之間的線性函數(shù)關(guān)系,推導(dǎo)得到了同時考慮輻照度與溫度的概率模型。文獻[6]根據(jù)光伏輸出功率的歷史數(shù)據(jù),分別基于 Normal、Weibull、Gamma分布進行了概率建模,但未計算模型誤差,無法判斷模型的準確度。文獻[7]運用古典概率獲得輻射度、傾斜度、集電極輸出等預(yù)期值,將晴朗系數(shù)和散射系數(shù)作為隨機變量進行分析和仿真。這種假設(shè)光伏電源輸出功率、輻照度或散射系數(shù)等服從某種參數(shù)分布的方法盡管較為簡單,但缺乏靈活性,在參數(shù)的選取上帶有主觀性,存在模型的設(shè)定偏差。其次,現(xiàn)有研究表明單一的參數(shù)分布不具有普遍適用性,光伏輸出功率受諸多因素的影響[4]。
參數(shù)估計要求密度函數(shù)已經(jīng)具有某種特定的數(shù)學(xué)形式且只包含少量未知參數(shù),而非參數(shù)分析方法無需對光伏電源輸出功率特性作任何先驗假設(shè),完全通過歷史數(shù)據(jù)挖掘數(shù)據(jù)的分布特征,從而避免了模型分布形式選擇不當(dāng)帶來的誤差[8],具有更好的適用性和穩(wěn)健性。非參數(shù)估計中運用較為廣泛的核密度估計模型,該模型的核心問題在于最優(yōu)帶寬h的求取。文獻[9]采用窮舉法求得積分均方誤差最小時的h。文獻[10]將積分均方誤差作為目標函數(shù),在求目標函數(shù)最小的基礎(chǔ)上加上擬合優(yōu)度檢驗作為約束條件求得最優(yōu)帶寬?,F(xiàn)有的研究表明,核密度估計對于光伏輸出功率的估計有一定的正確性,但對模型進行不同的誤差分析將得到不同的h,目前尚未有統(tǒng)一的計算帶寬值的方法,也無法保證計算方法的適用性。
本文提出了一種基于正交級數(shù)密度估計的光伏輸出功率非參數(shù)估計方法,無需假定數(shù)學(xué)模型,完全根據(jù)已知樣本數(shù)據(jù)進行分析?;诜菂?shù)正交級數(shù)密度估計理論建立光伏電源輸出功率的概率模型,其無需考慮帶寬值的選取,計算過程簡單、速度快;同時,利用南昌和嘉興兩地區(qū)的歷史實測數(shù)據(jù),依據(jù)擬合優(yōu)度檢驗和誤差分析對模型進行了評估,驗證了模型的正確性和普適性。
設(shè)x是屬于實數(shù)集R上的隨機變量,若其概率密度函數(shù) f(x)在區(qū)間[a,b]上滿足 f∈L2(a,b),即(L2是滿足左式的一個空間表達,除非另外說明,否則假定 a=0、b=1)[11],則 f(x)可以表示成正交級數(shù)的形式,為:
其中,φj(x)稱為 L2(a,b)的一組標準正交基。 對任意f∈L2(a,b),φj(x)滿足如下條件:
a.對于所有的 j,φj(x)滿足(即標準化);
b. 對于 i≠j,有(即正交);
c.在序列 φ1、φ2、… 中,與每個 φj都正交的函數(shù)為零函數(shù)。
基的系數(shù)βj表示為:
通常的基函數(shù)有Hermite基、Laguerre基、余弦基。基的選擇主要依賴于密度的支撐[12]。一般情況下,當(dāng) f(x)的支撐是(-∞,∞)或(0,∞)時,使用Hermite 基和 Laguerre 基;如果 f(x)具有緊支撐,可以選取余弦基。 本文中,f(x)具有緊支撐[Pmin,Pmax](Pmax、Pmin分別為光伏輸出的最大、最小有功功率),故選擇余弦基作為標準正交基[12]。
設(shè)某光伏電源的輸出功率 P∈[Pmin,Pmax]為一定義在實數(shù)集上的隨機變量,其概率密度函數(shù)為f(P),P1、P2、…、Pn是來自 P的獨立同分布 IID(Independent and Identically Distributed)樣本,其中n為樣本數(shù)。顯然 P 滿足 f∈L2(Pmin,Pmax)。 將 P 投影到區(qū)間[0,1]上可得隨機變量 p=(P-Pmin)/(Pmax-Pmin),其概率密度函數(shù) g(p)滿足 g∈L2(0,1),p1、p2、…、pn為來自 p 的IID樣本。則p的概率密度函數(shù)可以寫成如下形式:
對于 g∈L2(0,1)選擇余弦基做密度估計,即則因此 βj的無偏估計為:
根據(jù)式(1)—(4),定義 g(p)的正交級數(shù)估計如式(5)所示[11]。
其中,為收縮系數(shù)。本文采用截斷估計法選擇收縮系數(shù),取為示性函數(shù) I(若 j≤J,則 I=1;否則 I=0),則可得到 g(p)的截斷估計為:
其中,J為取舍點。增加J將減小偏差但將增大方差,為了強調(diào)風(fēng)險函數(shù)對于J的依賴,記風(fēng)險估計(J)如式(7)所示[11]。
其中,有(A)+=max(A,0)
選擇使(J)最小化時的J作為。最終,p的概率密度函數(shù)為:
擬合優(yōu)度檢驗是用來檢驗一類數(shù)據(jù)的分布是否與某種理論分布相一致。本文中利用其驗證正交級數(shù)密度估計模型是否能夠反映光伏電源輸出功率的隨機性、間歇性的特點。選取χ2檢驗和K-S檢驗這2種常見的檢驗方法作為衡量指標。
χ2檢驗主要用于無序分類變量的統(tǒng)計推斷,判斷2個樣本率及構(gòu)成比之間的差別。設(shè)歸一化后的光伏電源輸出功率樣本數(shù)據(jù)為 p1、p2、…、pn,其概率分布為G0(p),將樣本數(shù)據(jù)劃分為k組沒有交集的數(shù)據(jù),則 Pearson χ2檢驗統(tǒng)計量為[13]:
其中,vi為第 i個區(qū)間的觀察頻數(shù);pi為 G0(p)在第 i個區(qū)間的理論概率值。
原假設(shè)H0:密度估計與光伏電源輸出功率分布沒有差別。計算得 χ2值,它表示觀測值與理論值的偏離程度。χ2的自由度為m-1,根據(jù)計算結(jié)果及自由度可以確定在H0成立的情況下當(dāng)前統(tǒng)計量的概率 P*。 給定置信水平 α 的條件下,當(dāng) χ2< χ2α,m-1時,P*> α,接受假設(shè) H0;反之,拒絕 H0,即觀測值與理論值存在較大誤差,正交級數(shù)密度估計不適用。
χ2檢驗的結(jié)果與分組情況有關(guān),而分組方法帶有隨意性,會丟失一部分信息,特別對于在分組區(qū)間上有相同概率的不同分布,Pearson χ2檢驗無法區(qū)分[13]。
為了解決上述問題,本文引入一種典型的EDF(Empirical Distribution Function)檢驗——K-S檢驗,其通過描述G0和經(jīng)驗分布函數(shù)Gn之間的差異充分反映樣本信息。通過K-S檢驗的分布無關(guān)性,在一定程度上彌補了Pearsonχ2檢驗的不足[14]。K-S檢驗方法是將樣本數(shù)據(jù)的累計頻數(shù)分布與特定理論分布進行比較,若兩者間的差距很小,則推論該樣本符合理論分布。將光伏輸出功率數(shù)據(jù)由小到大排序得p(1)≤p(2)≤…≤p(n),經(jīng)驗累積分布函數(shù)如下:
理論分布與經(jīng)驗累積分布之間的最大垂直差距Dn定義為:
Dn的值越小,代表2種分布之間的差異越小,即擬合程度越高。
在樣本容量及置信水平確定的情況下,查表或者根據(jù)公式可以得到相應(yīng)的值,稱為臨界值。用檢驗統(tǒng)計量的值與臨界值作比較,小于臨界值時表示通過擬合優(yōu)度檢驗,反之表示未通過。本文中,χ2檢驗的臨界值通過查表得到,K-S檢驗的臨界值根據(jù)公式(置信水平95%)計算得到。
擬合優(yōu)度用于檢驗實際觀測值與理論值之間的差異,在確定密度估計函數(shù)后,需要對其進行誤差分析以判斷準確性。本文采用平均誤差百分數(shù)MAPE(Mean Absolute Percentage Error)和均方根誤差 RMSE(Root Mean Squared Error)作為指標。
其中分別為歸一化后的光伏電源輸出功率的正交級數(shù)密度估計分布和直方圖在第r個區(qū)間的概率。
指標值越小表示經(jīng)驗分布與理論分布之間的差異越小,說明正交級數(shù)密度估計模型與實際觀測數(shù)據(jù)分布的差異越小。
利用江西南昌某地區(qū)典型季度的光伏出力實測數(shù)據(jù)(采樣間隔為10 min)和浙江嘉興某地區(qū)半年的光伏電源實測數(shù)據(jù)(采樣間隔為5 min)進行仿真分析。經(jīng)緯度、日照時間和年均溫度都是影響光伏出力的因素,兩地的地理氣候信息如表1所示,可以通過其分析本文模型在不同光伏發(fā)電環(huán)境下對光伏電源輸出功率密度估計的適用性。
表1 南昌和嘉興兩地地理氣候信息Table 1 Geographic and climatic information of Nanchang and Jiaxing
(1)核密度估計帶寬選擇。
核密度估計主要是運用一組觀測的且來自一個未知分布函數(shù)的隨機變量來估計其密度函數(shù)[15]。核密度估計法在光伏、風(fēng)力發(fā)電等領(lǐng)域已有廣泛使用。文獻[10]驗證了核密度估計法的正確性,同時通過與Beta、Weibull等傳統(tǒng)模型的對比表明了該模型的擬合度更高,適用性更強。
核密度估計模型的關(guān)鍵問題在于最優(yōu)帶寬h的選取。h值過大會造成密度曲線過于平滑,不能正確反映實際數(shù)據(jù)的變化趨勢;h值過小會導(dǎo)致密度曲線欠平滑、波動大。帶寬h的選擇原理是使估計的模型與真實測量值最接近。然而帶寬的選擇不可能使核估計的偏差和方差同時減小,故需要在兩者之間做權(quán)衡[16]。
文獻[17]將漸進積分均方差A(yù)MISE(Asymptotic Mean Integrated Squared Error)作為目標函數(shù)進行最小化的優(yōu)化運算(簡稱方法1),通過求導(dǎo)得到帶寬h的表達式為:h=0.9 min(樣本標準差,樣本四分位距 /1.34)n-1/5。
文獻[10]通過選取正態(tài)分布 N(0,1)和 N(0,4)2種不同的核函數(shù)(簡稱方法2),使兩者均方積分誤差最小,加上 χ2檢驗和K-S檢驗作為約束條件求得帶寬值,再求兩者的平均值作為總體密度的核估計的 h,即:
其中,分別為核密度估計模型的 χ2、K-S 檢驗的統(tǒng)計量;分別為 χ2、K-S 檢驗統(tǒng)計量的門檻值?;诓煌`差分析將得到不同的h。
(2)擬合優(yōu)度檢驗對比。
本文采用正交級數(shù)估計和以上2種核密度估計方法對模型進行擬合優(yōu)度檢驗。
選取南昌3月和嘉興半年的光伏實測數(shù)據(jù),用3種方法得到的概率密度曲線分別如圖1、圖2所示。圖中,p為正則化后的光伏電源輸出功率(標幺值)。
由圖1可以看出:在取一個月光伏數(shù)據(jù)的前提下,本文方法和方法2的密度曲線都可以做到兼顧模型的擬合優(yōu)度和曲線的平滑度,而方法1的曲線過于平滑,無法反映光伏輸出功率的多峰性;在前2個峰值處,本文方法的擬合程度最高,較之方法2更好地反映了峰值特性。
圖1 南昌3月份數(shù)據(jù)的概率密度曲線Fig.1 Probability density curve based on data of March of Nanchang
圖2 嘉興半年數(shù)據(jù)的概率密度曲線Fig.2 Probability density curve based on data of half year of Jiaxing
圖2中,選取嘉興地區(qū)半年的光伏實測數(shù)據(jù),當(dāng)數(shù)據(jù)量增加時,方法2和本文方法的概率密度曲線基本重合,都能夠滿足擬合優(yōu)度的要求,體現(xiàn)多峰性。結(jié)合圖1、圖2可以看出,方法1的概率密度曲線總體形狀相似,適用于單峰值性的光伏數(shù)據(jù)擬合,本文方法和方法2的偏離程度小,與直方圖無顯著差異,對于具有多峰性的數(shù)據(jù)同樣適用。
從圖1、圖2中可以大致看出擬合效果,下文通過 χ2和K-S檢驗具體說明模型給定的理論分布是否可以刻畫實際數(shù)據(jù)的分布情況。
3種密度估計方法的擬合優(yōu)度檢驗結(jié)果(α=0.05)如表2所示。由表可見:方法1的2項指標均大于臨界值,該模型得出的分布不能正確反映實際分布;本文方法和方法2的檢驗結(jié)果均滿足要求,驗證了模型的正確性。在全年的4個典型月份中,本文模型得到的檢驗結(jié)果都是最優(yōu)的,說明模型在不同的時間段內(nèi)都具有一定的適應(yīng)度。以南昌3月的數(shù)據(jù)為例,方法1、方法2的 χ2檢驗統(tǒng)計量分別是本文方法的548倍和55倍;K-S檢驗結(jié)果分別是本文方法的8.33倍和3.37倍。嘉興數(shù)據(jù)的檢驗結(jié)果顯示,當(dāng)數(shù)據(jù)量增大時,3種模型的K-S檢驗維持在一個相對穩(wěn)定的值,本文方法和方法2的χ2檢驗統(tǒng)計量增幅較小,方法1的 χ2值則有明顯增加。此時,核密度估計和正交級數(shù)密度估計可以保持良好的穩(wěn)定性,同時不影響理論分布的準確性,具有良好的模擬精度和模擬效果。
表2 3種密度估計方法的擬合優(yōu)度檢驗結(jié)果Table 2 Results of fitting goodness test for three density estimation methods
正交級數(shù)和核密度估計法都依賴于大量的歷史數(shù)據(jù),無需對模型進行任何假設(shè),通過計算得出參數(shù)的值,但是正交級數(shù)模型無需考慮帶寬值的選取問題。帶寬值作為核密度估計的核心,文獻[10]采用內(nèi)點法進行計算。由式(14)可知,當(dāng)數(shù)據(jù)量增大時,所需的計算時間更多。本文仿真程序均在MATLAB R2014a環(huán)境下編寫,測試計算機硬件環(huán)境為英特爾四核i5-2310 CPU、8GB內(nèi)存,操作系統(tǒng)為Windows7 64 bit。正交級數(shù)密度估計的計算時間總共為1~2 s,核密度估計在帶寬值給定的前提下所需時間也為1~2 s,但是計算帶寬值的時間在分鐘級,所以核密度估計的整體所用時間大于正交級數(shù)估計。
通過檢驗結(jié)果和仿真驗證了本文模型的普遍適用性和良好的穩(wěn)定性。正交級數(shù)密度估計與核密度估計相比,最大的優(yōu)點在于不需要計算帶寬值,簡化了計算量,同時避免了不同誤差分析帶來的不同結(jié)果,減少了估計值的不確定因素。
(3)誤差分析對比。
通過擬合優(yōu)度檢驗確定了模型的可用性,實際應(yīng)用中還需要對其進行誤差分析以判斷得到的擬合曲線與實際數(shù)據(jù)分布之間的差異。以上文中提及的MAPE和RMSE作為指標,對南昌和嘉興的數(shù)據(jù)進行分析,結(jié)果如表3所示。
表3 3種密度估計方法的誤差分析Table 3 Results of error analysis for three density estimation methods
由表3可以看出,在單個月份的誤差分析中,本文所提的正交級數(shù)密度估計模型在各項分析中的誤差均為最?。篗APE在1%以內(nèi),RMSE在0.002以內(nèi)。隨著數(shù)據(jù)量的增大,該模型的RMSE減小,MAPE也在2%以內(nèi),體現(xiàn)了其穩(wěn)定性。對照表2、表3可以看出,在嘉興數(shù)據(jù)的分析過程中,核密度法與正交級數(shù)法的結(jié)果極為接近,說明兩者都能夠適應(yīng)大數(shù)據(jù)量的計算,而本文方法的計算速度更具優(yōu)勢。通過誤差分析,說明本文模型與實測數(shù)據(jù)的差異最小,再次驗證了正交級數(shù)模型的準確性和有效性。
本文基于正交級數(shù)密度估計理論建立光伏電源輸出功率的概率模型,避免了核密度估計模型中帶寬值的計算,并根據(jù)南昌和嘉興兩地的光伏實測數(shù)據(jù)進行了仿真分析。對比不同月份、不同地區(qū)和不同時間維度的仿真結(jié)果可知,本文所建模型能反映光伏電源的隨機特性,不受時間、空間環(huán)境的約束,且擬合精度高、穩(wěn)定性強、計算速度快、適用性廣。本文模型在光伏、風(fēng)力發(fā)電及負荷預(yù)測等方面都有研究價值。
參考文獻:
[1]陳煒,艾欣,吳濤,等.光伏并網(wǎng)發(fā)電系統(tǒng)對電網(wǎng)的影響研究綜述[J]. 電力自動化設(shè)備,2013,33(2):26-32.CHEN Wei,AI Xin,WU Tao,et al.Influence of grid-connected photovoltaic system on power network[J].Electric Power Automation Equipment,2013,33(2):26-32.
[2]趙爭鳴,雷一,賀凡波,等.大容量并網(wǎng)光伏電站技術(shù)綜述[J].電力系統(tǒng)自動化,2011,35(12):101-107.ZHAO Zhengming,LEI Yi,HE Fanbo,et al.Overview of largescale grid-connected photovoltaic power plants[J].Automation of Electric Power Systems,2011,35(12):101-107.
[3]李升,衛(wèi)志農(nóng),孫國強,等.大規(guī)模光伏發(fā)電并網(wǎng)系統(tǒng)電壓穩(wěn)定分岔研究[J]. 電力自動化設(shè)備,2016,36(1):17-23.LI Sheng,WEI Zhinong,SUN Guoqiang,et al.Voltage stability bifurcation of large-scale grid-connected PV system[J].Electric Power Automation Equipment,2016,36(1):17-23.
[4]趙繼超,袁越,傅質(zhì)馨,等.基于Copula理論的風(fēng)光互補發(fā)電系統(tǒng)可靠性評估[J]. 電力自動化設(shè)備,2013,33(1):124-129.ZHAO Jichao,YUAN Yue,F(xiàn)U Zhixin,et al.Reliability assessment of wind-PV hybrid generation system based on Copular theory[J].Electric Power Automation Equipment,2013,33(1):124-129.
[5]FAN M,VITTAL V,HEYDT G T,et al.Probabilistic power flow studies for transmission systems with photovoltaic generation using cumulants[J].IEEE Transactions on Power Systems,2012,27(4):2251-2261.
[6]CHAYAKULKHEEREE K.Probabilistic optimal power flow:an alternative solution for emerging high uncertain power systems[C]∥International Electrical Engineering Congress.Pattaya,Thailand:IEEE,2014:1-4.
[7]KAPLANI E,KAPLANIS S.A stochastic simulation model for reliable PV system sizing providing for solar radiation fluctuations[J]. Applied Energy,2012,97(1):970-981.
[8]王彩霞,魯宗相,喬穎,等. 基于非參數(shù)回歸模型的短期風(fēng)電功率預(yù)測[J]. 電力系統(tǒng)自動化,2011,34(16):78-82.WANG Caixia,LU Zongxiang,QIAO Ying,et al. Short-term wind power forecast based on non-parametric regression model [J].Automation of Electric Power Systems,2011,34(16):78-82.
[9]葉愛華. 電力負荷特性的非參數(shù)核密度估計方法研究[J]. 科技和產(chǎn)業(yè),2010,10(6):72-75.YE Aihua. Study on methods of the non-parameter estimation of electic power load characteristics [J]. Science Technology and Industry,2010,10(6):72-75.
[10]顏偉,任洲洋,趙霞,等. 光伏電源輸出功率的非參數(shù)核密度估計模型[J]. 電力系統(tǒng)自動化,2013,37(10):35-40.YAN Wei,REN Zhouyang,ZHAO Xia,et al. Probabilistic photo -voltaic power modeling based on nonparametric kernel density estimation [J]. Automation of Electric Power Systems,2013,37(10):35-40.
[11]L.沃賽曼.統(tǒng)計學(xué)完全教程[M].張波,劉中華,魏秋萍,等,譯.北京:科學(xué)出版社,2008:117-159.
[12]薛留根.應(yīng)用非參數(shù)統(tǒng)計[M].北京:科學(xué)出版社,2013:102-108.
[13]楊振海,程維虎,張軍艦.?dāng)M合優(yōu)度檢驗[M].北京:科學(xué)出版社,2011:37-45,111-129.
[14]秦志龍. 計及相關(guān)性的含風(fēng)電場和光伏電站電力系統(tǒng)可靠性評估[D]. 重慶:重慶大學(xué),2013.QIN Zhilong. Reliability assessment of power systems with wind farms and photovoltaic power stations considering correlations[D]. Chongqing:Chongqing University,2013.
[15]何耀耀,聞才喜,許啟發(fā). 基于Epanechnikov 核與最優(yōu)窗寬組合的中期電力負荷概率密度預(yù)測方法[J]. 電力自動化設(shè)備,2016,11(18):120-126.HE Yaoyao,WEN Caixi,XU Qifa. Mid-term power load probability density forecast based on Epanechnikov kernel and optimal window bandwidth[J]. Electric Power Automation Equipment,2016,11(18):120-126.
[16]吳振威,蔣小平,馬會萌,等. 基于非參數(shù)核密度估計法的光伏出力隨機分布模型[J]. 中國電力,2013,46(9):126-130.WU Zhenwei,JIANG Xiaoping,MA Huimeng,et al. Random distribution model of photovoltaic output based on nonoparametric kernel density estimation method[J]. Electric Power,2013,46(9):126-130.
[17]趙淵,張夏菲,周家啟. 電網(wǎng)可靠性評估的非參數(shù)多變量核密度估計負荷模型研究[J]. 中國電機工程學(xué)報,2009,29(31):27-33.ZHAO Yuan,ZHANG Xiafei,ZHOU Jiaqi. Load modeling utilizing nonparametric and multivariate kernel density estimation in bulk power system reliability evaluation [J].Proceedings of the CSEE,2009,29(31):27-33.