沈華強,楊 玲,李 皓,丁云峰,范殷偉
(1.國網(wǎng)浙江省電力有限公司,浙江杭州 310007;2.國網(wǎng)浙江省電力有限公司湖州供電公司,浙江湖州 313000)
隨著我國邁入“十四五”規(guī)劃的新篇章,對電力工業(yè)的發(fā)展提出了更高的要求,電網(wǎng)項目的投資力度也在不斷加大。輸變電工程作為國家電網(wǎng)電力輸送的核心工程,其建設(shè)水平在一定程度上決定了電網(wǎng)的供電可靠性。由于輸變電工程項目的建設(shè)規(guī)模較為龐大,在項目的推進過程中需要考慮多種因素的影響。目前,在對輸變電工程的數(shù)據(jù)進行分析估算時,通常是在采集較多近似工程樣本的基礎(chǔ)上以傳統(tǒng)的人工分析總結(jié)為主,結(jié)合特定的計算公式進行預(yù)測與評估。該分析結(jié)果較為依賴人工的經(jīng)驗,這導(dǎo)致在項目開展時受多種因素影響使得項目數(shù)據(jù)的預(yù)測和評估與實際結(jié)果存在較大偏差,從而造成項目管理和建設(shè)的難度顯著上升[1-2]。而隨著智能計算的不斷進步,時序預(yù)測法[3]、灰色模型[4]以及回歸分析[5]等方法逐步被應(yīng)用于輸變電工程數(shù)據(jù)的預(yù)測與評估之中。當(dāng)前,開展科學(xué)的輸變電工程數(shù)據(jù)預(yù)測與評估方法研究,實現(xiàn)對工程項目合理的精益化管理,已成為了現(xiàn)階段電力領(lǐng)域的熱點研究方向[6]。
輸變電工程通常涵蓋輸電線路工程和變電工程。在實際的項目進行過程中,項目各方一般僅會對工程數(shù)據(jù)做簡單記錄,并未深入地對數(shù)據(jù)進行核驗與校正等工作。在進入到最終的數(shù)據(jù)處理環(huán)節(jié)前,通常并未采取嚴(yán)格的數(shù)據(jù)預(yù)處理措施。研究表明,輸變電工程項目的數(shù)據(jù)樣本在經(jīng)過一定的預(yù)處理環(huán)節(jié)后,真正適用于輸變電工程項目數(shù)據(jù)分析與預(yù)測的數(shù)據(jù)樣本,大約為原有樣本容量的50%。而在實際的輸變電工程項目開展過程中,由于項目自身受多種因素的影響,造成了輸變電工程項目的數(shù)據(jù)特征維度較多,故整體的數(shù)據(jù)復(fù)雜度顯著提升,且呈現(xiàn)出較為明顯的小樣本條件下的高維度特征。
然而,典型的小樣本數(shù)據(jù)在特征維度較高的情況下,時常會存在某一維度的絕對樣本容量較少的問題,而在實際的數(shù)據(jù)分析與預(yù)測時則通常存在明顯的“過擬合”問題。此時,高維特征數(shù)據(jù)會導(dǎo)致分析模型運算效率的顯著下降,進而影響輸變電工程數(shù)據(jù)分析與預(yù)測的準(zhǔn)確度。因此要實現(xiàn)對輸變電工程數(shù)據(jù)的精確預(yù)測與評估,需要對輸變電工程的樣本數(shù)據(jù)進行特征提取,從而消除高維特征所造成的不利影響。
為了降低輸變電工程項目中小樣本數(shù)據(jù)的高維特征導(dǎo)致的不利影響,文中引入隨機比特森林(Random Bits Forest,RBF)算法用于提取數(shù)據(jù)特征,其具體的運算步驟如下:
1)輸變電工程數(shù)據(jù)特征識別
該文基于k-means 聚類算法實現(xiàn)輸變電工程數(shù)據(jù)的聚類提取并得到C個特征集。其中,特征F1與F2兩者的相關(guān)距離計算公式如下所示:
其中,Vi表示的是特征簇所映射的特征向量,的計算與式(2)同理。
2)輸變電工程數(shù)據(jù)特征權(quán)重計算
利用重采樣方法獲取N個訓(xùn)練樣本集合及OBB測試集,通過采用隨機性的特征交換從而得到交換后的訓(xùn)練集。采用RBF 算法對交換前后的訓(xùn)練集分別進行準(zhǔn)確率學(xué)習(xí),獲取相應(yīng)的OBB 準(zhǔn)確率λi與,然后計算特征權(quán)重fw:
其中,表示的是RBF 運算時訓(xùn)練集與交換后的隨機特征訓(xùn)練集的OBB 準(zhǔn)確率的偏差。將λi與分別定義為交換前后訓(xùn)練集的準(zhǔn)確率,εF表示特征偏差的平均值,n表示所獲取的特征數(shù)量,S2表示特征偏差的方差。則特征得分可定義為:
3)刪除冗余特征構(gòu)成相應(yīng)的特征集合
由所獲取的特征總數(shù)設(shè)置對應(yīng)數(shù)量的特征類別,刪除特定閾值P、Q以及多余的特征數(shù)。當(dāng)輸變電工程數(shù)據(jù)聚類識別結(jié)束后,若特征類別高于閾值P,則去除G值最低的特征類別中的d/100 特征,去除的特征總數(shù)由特征類別數(shù)量決定。若特征類別數(shù)量低于閾值P且G值最低特征類別的特征總數(shù)高于閾值Q時,則去除G值最低特征類別中的d/100 特征;若特征類別數(shù)量低于閾值P且G值最低特征類別的特征總數(shù)低于閾值Q時,則不采取特征刪除操作,直接得到相應(yīng)的樣本特征子集。隨后判斷終止條件是否符合,若是則得到最終的特征子集;反之則繼續(xù)迭代。
利用RBF 提取輸變電工程數(shù)據(jù)樣本特征能有效完成對高維數(shù)據(jù)的降維,并充分?jǐn)U大樣本容量從而防止高維小樣本數(shù)據(jù)在進行分析時過擬合現(xiàn)象的發(fā)生。其有效提升了輸變電工程數(shù)據(jù)預(yù)處理環(huán)節(jié)的效率,確保了后續(xù)數(shù)據(jù)分析與預(yù)測的準(zhǔn)確性。
支持向量機(Support Vector Machine,SVM)的實質(zhì)是一種自監(jiān)督學(xué)習(xí)的機器學(xué)習(xí)算法,對于具有高維特征的小樣本數(shù)據(jù)處理具有顯著優(yōu)勢。因此,該文利用SVM 作為輸變電工程數(shù)據(jù)分析與預(yù)測的底層模型。SVM 的核心原理是利用具有非線性特性的映射函數(shù)ψ對樣本實施映射,使樣本得以被映射到高維的特征空間Ω中并完成相應(yīng)的線性回歸,其可以被等效為在原始空間內(nèi)完成非線性回歸[7-8]。
將數(shù)據(jù)樣本定義為(xq,yq),其中q=1,2,···,r,xq∈Rm,yq∈R,r表示的是樣本的總數(shù)量。SVM 的估計函數(shù)可被定義為:
其中,α表示高維特征空間Ω中的加權(quán)矢量,B∈R為函數(shù)對應(yīng)的偏置,ρ為密度函數(shù)。SVM 的優(yōu)化目標(biāo)定義為:
其中,e表示損失函數(shù),與βq表示松弛因子,CP表示懲罰因子,其通常被應(yīng)用于均衡函數(shù)的平滑性與誤差超額之和。
根據(jù)上述條件,將拉格朗日算子ζ和ζ*引入到目標(biāo)函數(shù)中,從而得到SVM 回歸的對偶目標(biāo):
由于徑向基核函數(shù)所映射的特征空間維數(shù)是無窮的,因此固定數(shù)量樣本在此空間中一定具有線性可分的特性,這也使得徑向基核函數(shù)的應(yīng)用最為廣泛。所以,該文采用的徑向基核函數(shù)定義為:
其中,μ為核函數(shù)參數(shù)。
SVM 參數(shù)的設(shè)定結(jié)果對于回歸函數(shù)具有較大的影響作用。其中,懲罰因子CP的取值會影響到SVM的復(fù)雜度與訓(xùn)練時的誤差,其取值過小或過大均會導(dǎo)致欠擬合及過擬合現(xiàn)象,進而使得模型的泛化性能下降。損失函數(shù)e則會對支持向量的總數(shù)造成影響,過小的取值會使運算精度提升但同時也會導(dǎo)致支持向量總數(shù)增加;反之,過大的取值則會降低運算精度并減少支持向量的總數(shù)。核函數(shù)參數(shù)μ的取值會對樣本的分布范圍造成一定的影響[9-10],懲罰因子與核函數(shù)參數(shù)的取值對于SVM 模型的預(yù)測準(zhǔn)確性和泛化性能有著直接影響。因此,該文引入差分進化算法實現(xiàn)對以上SVM 參數(shù)的尋優(yōu),最終的優(yōu)化目標(biāo)函數(shù)預(yù)設(shè)為交叉驗證條件下的均方差:
2.2.1 差分進化算法原理
差分進化(Differential Evolution,DE)算法的本質(zhì)是利用種群內(nèi)部差異完成隨機搜索的智能優(yōu)化算法。其基本原理是從現(xiàn)有種群內(nèi)部獲取搜索步長與方向,并在種群內(nèi)部完成交叉及變異以獲取新個體,從而在新舊個體之間完成篩選并留存更優(yōu)的個體至下一代。整體的流程包括:初始化種群、變異操作、交叉操作以及篩選操作等[11-12]。
1)初始化種群
在對種群執(zhí)行初始化操作前,首先要設(shè)定參數(shù)上下限,進而隨機生成特定約束下的初始化種群,由此可得:
其中,a=1,2,…,Na,b=1,2,…,Nb。Na表示種群的初始個數(shù),Nb表示種群內(nèi)部的維度。χa,b(0)表示第0 代種群內(nèi)部的第a個獨立個體,b表示種群內(nèi)部的第a個獨立個體的第b維。各自代表第b維的上限與下限,rand(0,1)是0~1 范圍內(nèi)的隨機數(shù)。
2)變異操作
DE 算法利用差分法執(zhí)行對個體的變異操作,通過從種群內(nèi)部篩選獲得四個互不相同的獨立個體得到對應(yīng)的差分向量,進而完成逐代最優(yōu)個體的變異。由此可以在確保種群具有多樣性的前提下有效提升收斂速率,其具體計算公式如下:
其中,υi(g+1)表示完成變異操作后所獲得的個體;χbest(g) 表示第g代的最優(yōu)個體;R1、R2、R3,R4 ∈[1,2,…,Na]表示互不相同的隨機值;? 表示尺度因子,通常可對差分量進行尺度變換。
3)交叉操作
交叉操作的實質(zhì)是為了隨機地篩選以得到個體,其具體公式為:
其中,Pc表示交叉操作發(fā)生的概率。
4)篩選操作
DE 算法執(zhí)行篩選操作主要是基于貪婪思想,即將更優(yōu)的個體當(dāng)作新個體,其公式為:
其中,f表示的是優(yōu)化目標(biāo)的函數(shù)約束,Ua,b(g+1)表示通過變異操作與交叉操作獲取的新個體。
2.2.2 優(yōu)化流程
DE 算法可通過尋優(yōu)使得SVM 具有最優(yōu)的預(yù)測性能[13-14],其詳細(xì)步驟為:
1)在設(shè)定目標(biāo)函數(shù)的基礎(chǔ)上,初始化種群參數(shù),并設(shè)置待優(yōu)化參數(shù)的取值范圍,從而生成相應(yīng)的隨機組合(Cp,η);
2)將現(xiàn)有的隨機組合(Cp,η)定義為SVM 初始參數(shù),并將SVM 應(yīng)用于訓(xùn)練樣本數(shù)據(jù),得到初始預(yù)測結(jié)果并代入實際值進行檢驗;
3)計算目標(biāo)函數(shù)結(jié)果并判定是否達(dá)到預(yù)設(shè)閾值或最大迭代次數(shù),若是,則轉(zhuǎn)到步驟8),否則繼續(xù)計算;
4)從當(dāng)前代數(shù)的種群中篩選出四個互不相同的獨立個體并執(zhí)行變異操作,生成新一代變異的獨立個體;
5)對新一代的獨立個體執(zhí)行交叉操作,生成新一代的實驗個體;
6)根據(jù)貪婪思想對實驗個體執(zhí)行篩選,選出新一代個體;
7)在新一代種群中計算生成新的參數(shù)組合(Cp,η),然后轉(zhuǎn)到步驟2);
8)得到最優(yōu)的參數(shù)組合,獲取最優(yōu)的DE-SVM模型來對數(shù)據(jù)進行分析預(yù)測。
該文在設(shè)計輸變電工程數(shù)據(jù)預(yù)測與評估模型時,首先需要獲取輸變電工程數(shù)據(jù),目前的數(shù)據(jù)主要為投資數(shù)據(jù),然后選擇合適的數(shù)據(jù)劃分訓(xùn)練集與測試集。隨后通過對數(shù)據(jù)的特征提取獲取所需的數(shù)據(jù)特征,再將該特征輸入到SVM 模型中進行預(yù)訓(xùn)練。根據(jù)上文的優(yōu)化流程,利用DE 算法優(yōu)化獲取最優(yōu)的SVM 模型,并將訓(xùn)練好的模型對測試集數(shù)據(jù)進行分析預(yù)測。其具體流程如圖1 所示。
為了驗證所提出的輸變電工程預(yù)測與評估模型的準(zhǔn)確性,保證模型的工程實用價值,該文選取浙江省2012-2020 年實際已完工的輸變電工程項目中,桿塔更換工程與桿塔基礎(chǔ)設(shè)施建設(shè)工程造價的100組數(shù)據(jù)作為樣本。在Matlab 2018b 的計算環(huán)境下,用前80 組數(shù)據(jù)作為訓(xùn)練集,后20 組數(shù)據(jù)作為測試集。用訓(xùn)練好的模型對測試集的樣本數(shù)據(jù)進行預(yù)測,通過分析預(yù)測結(jié)果及實際工程造價的平均偏差并與BP 神經(jīng)網(wǎng)絡(luò)和未優(yōu)化的SVM 進行對比,從而檢驗?zāi)P偷念A(yù)測評估效果[15-16]。
用訓(xùn)練集訓(xùn)練該文所提出的預(yù)測與評估模型[17-18],然后將測試集數(shù)據(jù)輸入到訓(xùn)練好的模型中,所得到的結(jié)果與其他算法的結(jié)果對比如表1所示。
表1 桿塔更換工程造價數(shù)據(jù)預(yù)測與評估數(shù)據(jù)
當(dāng)采用該文提出的DE-SVM 模型對桿塔更換工程的造價數(shù)據(jù)進行預(yù)測時,多數(shù)樣本的預(yù)測位于5%以內(nèi),少部分誤差在5%以上,但均未超過6%,平均誤差為2.8%。而采用BP 神經(jīng)網(wǎng)絡(luò)進行數(shù)據(jù)的預(yù)測時,多數(shù)樣本的誤差均已超過5%,其平均誤差為5.9%。未進行優(yōu)化的SVM 的預(yù)測誤差雖低于BP 神經(jīng)網(wǎng)絡(luò),但普遍顯著高于DE-SVM 模型,其平均誤差為4.2%。
由于桿塔基礎(chǔ)設(shè)施建設(shè)工程的特征較多,因此最終結(jié)果主要用于與實際值進行評估對比,與其他算法的對比情況,如表2 所示。
表2 桿塔設(shè)施建設(shè)工程造價數(shù)據(jù)預(yù)測與評估數(shù)據(jù)
由表2 可知,當(dāng)采用該文提出的DE-SVM 模型對桿塔基礎(chǔ)設(shè)施建設(shè)工程的造價數(shù)據(jù)進行評估時,誤差同樣也未超過6%。
由以上分析結(jié)果可以看出,該文提出預(yù)測與評估模型的計算結(jié)果基本位于合理范圍,能夠為輸變電工程的數(shù)據(jù)分析提供較為準(zhǔn)確的參考,且具有較高的工程實際應(yīng)用的價值。
該文針對現(xiàn)有的輸變電工程數(shù)據(jù)分析的難點,針對性地設(shè)計了一種輸變電工程數(shù)據(jù)預(yù)測與評估模型。該模型通過提取輸變電工程數(shù)據(jù)的特征進而降低數(shù)據(jù)維度,然后利用差分進化算法實現(xiàn)SVM 模型的參數(shù)尋優(yōu),進一步提升模型的預(yù)測與評估精度。最終使得模型能夠?qū)斪冸姽こ虜?shù)據(jù)進行準(zhǔn)確的預(yù)測與評估。