蔣衛(wèi)濤,李 民2,姚 雄2,朱永燦,馬一迪
(1.西安工程大學(xué)電子信息學(xué)院,陜西 西安 710048; 2.陜西省水利電力勘測設(shè)計研究院,陜西 西安 710001)
隨著社會經(jīng)濟的飛速發(fā)展和科技的不斷進步,能源問題和環(huán)境問題已成為全世界面臨的突出問題。大力推廣清潔、可再生能源,采用高效的節(jié)能技術(shù)正是解決這一問題的重要方法之一。太陽能作為一種新能源,因為其具有取之不盡、用之不竭、無環(huán)境污染等諸多優(yōu)點而受到各行各業(yè)的關(guān)注。太陽能的開發(fā)利用中,太陽能集熱是最成熟、實際應(yīng)用最多且在經(jīng)濟上能與常規(guī)能源競爭的一種可再生能源利用技術(shù)[1-3]。
由于太陽能集熱的效率會受到太陽輻射量、日照時長、氣溫等因素的影響,而不同地區(qū)太陽輻射量、日照時長、氣溫等因素也各不相同,因此利用太陽輻射量、日照時長、氣溫等因素對太陽能集熱效率進行預(yù)測,對選擇太陽能集熱站選址將有著重大的意義。
由于太陽能集熱效率受輻太陽輻射量、日照時長、氣溫等多因素影響,具有很強的隨機性,所以預(yù)測的難度非常大。目前對非線性預(yù)測的方法有多種,如灰色預(yù)測(Grey Model,簡稱GM)、線性回歸(Linear Regression)、時間序列、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,簡稱ANN)、馬爾可夫(Markov Chain, 簡稱MC)等等[4-8]。但是,這些方法都在理論或者應(yīng)用當(dāng)中存在不足,例如:時間序列方法中的高階模型參數(shù)估計難度大,而低階模型預(yù)測精度低;灰色預(yù)測只適合于指數(shù)增長的預(yù)測;ANN存在過擬合、樣本需要量大以及局部極小等問題等問題。支持向量機(Support Vector Machine,簡稱SVM)作為一種智能的預(yù)測方法,在小樣本、非線性、高維模式識別等問題的解決上表現(xiàn)出許多特有優(yōu)勢,已經(jīng)在光伏發(fā)電、核反應(yīng)堆功率預(yù)測、變壓器溫度預(yù)測以及電力負荷預(yù)測等多領(lǐng)域有著廣泛的應(yīng)用[9-12]。最小二乘支持向量機(Least Square Support Vector Machine, 簡稱LSSVM)是SVM的改進算法,在繼承SVM的優(yōu)勢的同時,可以降低SVM的計算復(fù)雜度,提高運算效率。
因此,本文采用LSSVM對太陽能集熱效率進行預(yù)測,首先對得到的數(shù)據(jù)進行歸一化處理,利用遺傳算法(Genetic Algorithm,簡稱GA)對LSSVM參數(shù)進行優(yōu)化,訓(xùn)練得到基于LSSVM的太陽能集熱效率預(yù)測模型。
SVM是由Vapnik等人在20世紀90年代后期提出的[13],是一種基于統(tǒng)計學(xué)理論的機器學(xué)習(xí)方法。SVM是基于結(jié)構(gòu)風(fēng)險最小化原則,尋找最優(yōu)回歸超平面,設(shè)訓(xùn)練的樣本為{xi,yi},i=1,2,…,n,xi∈Rd,則該樣本超平面的表達式為
ωTφ(x)+b=0
(1)
式中:ω為權(quán)值矢量;b為閾值。
SVM將尋找最優(yōu)超平面問題可以歸結(jié)為求解如下優(yōu)化問題:
(2)
(3)
式中:C為懲罰參數(shù),ξi為非負松弛因子。對式(3)引入拉格朗日乘子并依據(jù)卡羅需-庫恩-塔克條件可求解如下線性問題:
(4)
式中:Y=[y1,y2,…yn]T,α=[α1,α2…αn]T,IV=[1,1,…1]T,Ωij=yiyjK(xi,xj),i,j=1,2,…,n為核矩陣,K(xi,xj)為核函數(shù),IN為單位矩陣。利用最小二乘求出α和b后,可得LSSVM的預(yù)測函數(shù)為
(5)
式中:αi為拉格朗日乘子;b為分類閾值。
LSSVM通過核函數(shù)定義的非線性變換將輸入空間變換到高維空間, 并在這個高維空間中尋找輸入變量和輸出變量的線性關(guān)系, 因此核函數(shù)的選擇嚴重影響著LSSVM的預(yù)測精度,常用的核函數(shù)有:線性核函數(shù)、多項式核函數(shù)、高斯徑向基核函數(shù)(RBF)、Sigmoid核函數(shù)。本文選擇高斯徑向基核函數(shù)(RBF)為核函數(shù),如式(6)所示:
(6)
式中:σ是高斯核寬度。在LSSVM的預(yù)測模型中,懲罰參數(shù)C和核參數(shù)σ2是影響LSSVM性能最大的兩個參數(shù)。因此,本文采用遺傳算法對LSSVM參數(shù)進行優(yōu)化,尋得最優(yōu)參數(shù)。
GA是優(yōu)良的智能優(yōu)化算法,在1975年,最初由美國Michigan的Holland提出[15],是一種通過模擬自然進化過程搜索最優(yōu)解的方法。由于GA的整體搜索策略和優(yōu)化搜索方法在計算時不依賴梯度信息或其他輔助信息,只需要影響搜索方向的目標函數(shù)和相應(yīng)的適應(yīng)度函數(shù),所以遺傳算法可以對LSSVM參數(shù)進行尋優(yōu)。其基本原理如下:
遺傳操作包括三個基本算子:選擇、交叉和變異[16]。
綜上所述,對于BPH合并原發(fā)性高血壓的患者,在常規(guī)治療基礎(chǔ)上加用非那雄胺治療,在改善癥狀、縮小PV及降低PSA水平的同時,明顯減少機體IL-6、MMP-1、CRP炎癥因子的水平。由于本研究樣本量小,患者服藥種類,高血壓年限不等等因素可能干擾研究結(jié)果,需加大樣本量、細化分組及增加觀察年限來進一步明確非那雄胺的療效及BPH同原發(fā)性高血壓的關(guān)系。
(1)選擇:從群體中選擇優(yōu)勝的個體,淘汰劣質(zhì)個體的操作叫選擇。目前,最常見且最簡單的選擇方法是輪盤賭選擇法,在該方法中,各個個體的選擇概率和其適應(yīng)度值成比例。設(shè)群體大小為n,其中個體i的適應(yīng)度為fi,則i被選擇的概率為
(7)
個體適應(yīng)度越大,其被選擇的概率就越高,反之亦然。個體被選擇后,可隨機組成配對,以供后面的的交叉操作。
(2)交叉:遺傳算法中起核心作用的是遺傳操作的交叉算子,交叉操作就是把兩個父代個體的部分結(jié)構(gòu)加以替換重組而生成新個體。交叉算子根據(jù)交叉率將種群中的兩個個體隨機地交換某些基因,能夠產(chǎn)生新的基因組合,期望將有益組合在一起。最常用的交叉算子為單點交叉,具體操作是:在個體串中隨機設(shè)定一個交叉點,實行交叉時該點前或后的兩個個體的部分結(jié)構(gòu)進行互換,并生成新個體。
(3)變異:變異算子的基本內(nèi)容是對群體的個體串的某些基因座上的基因值進行變動。一般來說,變異算子首先對群中所有個體以事先設(shè)定的變異概率判斷是否進行變異,其次對進行變異的個體隨機選擇變異位進行變異。
本文選擇格爾木地區(qū)某1年的月平均數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),下一年的月平均數(shù)據(jù)作為測試數(shù)據(jù),通過訓(xùn)練數(shù)據(jù)訓(xùn)練太陽能集熱效率預(yù)測模型,通過測試數(shù)據(jù)檢驗預(yù)測模型的性能。由于數(shù)據(jù)之間相差較大,會影響訓(xùn)練的效果,因此在訓(xùn)練前必須對訓(xùn)練數(shù)據(jù)進行預(yù)處理。本文首先對訓(xùn)練數(shù)據(jù)進行歸一化預(yù)處理,將輸入量都歸一化到[0,1]區(qū)間內(nèi),其具體的歸一化公式如式(8)所示:
(8)
式中:Xmax、Xmin分別為采集到月平均氣溫、月平均日照時數(shù)、月平均太陽總輻射量和月平均日照百分率的最大值和最小值,Xi表示月平均氣溫、月平均日照時數(shù)、月平均太陽總輻射量和月平均日照百分率。
表1所示為太陽能集熱效率預(yù)測模型的輸入和輸出參數(shù)。從表1可以看出,月平均氣溫、月平均日照時數(shù)、月平均太陽總輻射量、月平均日照百分率作為輸入?yún)?shù),太陽能集熱功率作為輸出參數(shù)。圖1表示某一年的輸入變量曲線。通過圖1的測試數(shù)據(jù)輸入變量曲線,利用訓(xùn)練得到的預(yù)測模型對下一年的月平均太陽能集熱功率進行預(yù)測。
表1 預(yù)測模型輸入輸出
圖1 測試數(shù)據(jù)輸入變量曲線
針對LSSVM參數(shù)難以確定的問題,本文采用遺傳算法對LSSVM參數(shù)懲罰因子C和核參數(shù)進行優(yōu)化,其優(yōu)化的步驟如下:
(1)初始化種群,對個體進行編碼,基因序列為懲罰因子C和核參數(shù),生成隨機種群。其中種群最大規(guī)模為20, 參數(shù)C和的尋優(yōu)范圍都設(shè)定為[0,100]。
(2)設(shè)置最大進化代數(shù)為200,并確定適應(yīng)度函數(shù),利用樣本數(shù)據(jù)進行訓(xùn)練測試,根據(jù)規(guī)則計算個體適應(yīng)度。本文將實際光熱效率與預(yù)測出來的光熱效率的均方誤差作為遺傳算法的適應(yīng)度函數(shù),其具體表達式如式(9)所示:
(9)
(3)當(dāng)種群最優(yōu)個體達到滿足條件或達到終止迭代次數(shù)時退出尋優(yōu)過程,得到優(yōu)化解。跳轉(zhuǎn)至第5步,否則進入下一步。
(4)對當(dāng)代存活的種群執(zhí)行選擇、交叉、變異得到下一代種群,返回第3步判斷。其中,交叉概率為0.5,變異概率取0.9。
(5)得到最優(yōu)懲罰因子C與核參數(shù)。并代入到LSSVM中通過訓(xùn)練樣本訓(xùn)練得到預(yù)測模型。
本文通過GA優(yōu)化LSSVM參數(shù),得到基于LSSVM的太陽能集熱效率預(yù)測模型。首先將獲取到的原始數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),為避免訓(xùn)練數(shù)據(jù)的差異性,對訓(xùn)練數(shù)據(jù)進行歸一化處理,通過歸一化后的訓(xùn)練數(shù)據(jù)訓(xùn)練太陽能集熱效率預(yù)測模型,在訓(xùn)練的同時利用遺傳算法對LSSVM參數(shù)進行優(yōu)化,最后確定預(yù)測模型。圖2所示為基于LSSVM的太陽能集熱效率預(yù)測模型流程圖。
圖2 基于GA優(yōu)化LSSVM的太陽能集熱效率預(yù)測模型流程圖
本文以月平均氣溫、月平均日照時數(shù)、月平均太陽總輻射量、月平均日照百分率作為基于GA優(yōu)化LSSVM的太陽能集熱效率預(yù)測模型的輸入?yún)?shù),預(yù)測太陽能集熱功率。通過遺傳算法對LSSVM進行參數(shù)尋優(yōu),經(jīng)過200次迭代后,可以得到如圖3所示的適應(yīng)度曲線,從圖3可以看出,經(jīng)過多次調(diào)整后,適應(yīng)度MSE最終穩(wěn)定于0.051 9。此時得到的最優(yōu)參數(shù),Cbest=2.203 6,best=0.000 953 68。將得到的最優(yōu)參數(shù)代入預(yù)測模型中,就得到了基于LSSVM太陽能集熱效率最優(yōu)預(yù)測模型。
圖3 適應(yīng)度曲線
利用相同的數(shù)據(jù)集,分別對ANN和時間序列進行訓(xùn)練和測試,將其得到的預(yù)測結(jié)果與LSSVM進行比較,比較的結(jié)果如圖4所示。通過圖4結(jié)果曲線的對比可知,基于LSSVM的太陽能光熱效率預(yù)測模型的預(yù)測精度明顯高于ANN預(yù)測模型和時間序列預(yù)測模型。
圖4 不同方法對比圖
為了能夠更全面地評價LSSVM的太陽能光熱效率預(yù)測模型的預(yù)測性能,本文采用兩種不同的評價標準對結(jié)果進行評價比較,它們分別是平均絕對百分誤差(Mean Absolute Percentage Error, 簡稱MAPE)和均方根誤差(Root Mean Squares Error,簡稱RMSE)。當(dāng)誤差越小時,MAPE和RMSE越小,模型性能越好。MAPE和RMSE的表達式如式(10)和式(11)所示:
(10)
(11)
表2 預(yù)測誤差對比 %
結(jié)合MAPE和RMSE兩種不同的評價標準,進一步比較LSSVM、ANN、時間序列這三種模型在太陽能光熱效率預(yù)測方向的性能,其對應(yīng)的預(yù)測結(jié)果評價標準如表2所示,從表2可以看出,在訓(xùn)練和測試階段LSSVM預(yù)測模型的RMSE和MAPE值均小于ANN和時間序列的值,這意味著LSSVM預(yù)測模型的預(yù)測結(jié)果更接近真實值。因此,綜合圖4和表2可以看出,LSSVM預(yù)測模型比ANN預(yù)測模型和時間序列預(yù)測模型具有更小的預(yù)測誤差,其預(yù)測結(jié)果也更接近真實值。
本文提出了一種基于LSSVM的太陽能集熱效率預(yù)測模型,利用訓(xùn)練數(shù)據(jù)對LSSVM預(yù)測模型進行訓(xùn)練,遺傳算法進行LSSVM參數(shù)尋優(yōu),以月平均氣溫、月平均日照時數(shù)、月平均太陽總輻射量、月平均日照百分率作為預(yù)測模型輸入對太陽能集熱效率進行預(yù)測,并將結(jié)果與ANN預(yù)測模型和時間序列預(yù)測模型進行對比,比較結(jié)果表明,LSSVM預(yù)測模型具有更小的預(yù)測誤差,RMSE和MAPE值分別為0.68和1.25。綜上表明,LSSVM預(yù)測模型可以很好地應(yīng)用于太陽能集熱效率的預(yù)測。