張 峰,宋曉娜,薛惠鋒,王海寧
(1.山東理工大學 管理學院,山東 淄博 255012;2.中國航天系統(tǒng)科學與工程研究院,北京 100048;3.泰山學院 商學院,山東 泰安 271000)
水資源消耗預測是根據(jù)水資源消耗量、社會、經(jīng)濟等相關(guān)歷史時序數(shù)據(jù),挖掘水資源消耗動態(tài)演化規(guī)律及其影響要素之間的作用機理,并構(gòu)建水資源消耗預測模型,辨識水資源消耗程度未來變動趨勢。因此如何實現(xiàn)高精度的水資源消耗預測對于保障水資源綜合規(guī)劃、水資源管理等政策制定的科學性與合理性至關(guān)重要。而要達到上述目標,需以完整、高質(zhì)量的歷史時序數(shù)據(jù)為基礎,但是限于現(xiàn)有監(jiān)測指標與統(tǒng)計手段等因素的約束,其歷史數(shù)據(jù)收集中難免存在數(shù)據(jù)異常、缺失等狀況。其中,數(shù)據(jù)的異??芍饕譃閷嶋H突變異常和待修正異常2類,前者是指標數(shù)據(jù)由于實際消耗等而產(chǎn)生的實際改變,檢測與統(tǒng)計過程中需對其進行保留,而后者主要是在人為操作、設備使用、統(tǒng)計口徑差異等因素影響而導致數(shù)據(jù)出現(xiàn)“存在而不正常”現(xiàn)象;缺失數(shù)據(jù)則是監(jiān)測設備的損壞、數(shù)據(jù)資料的遺失等造成的“數(shù)據(jù)空白”[1]。對于待修正異常與缺失數(shù)據(jù)均需要采取有效的檢測與填補方法進行完善,以支撐水資源消耗預測建模的要求。考慮由于水資源的自然與社會經(jīng)濟雙重屬性而導致影響水資源消耗的因素具有復雜多樣性與不確定性,本文在現(xiàn)有研究成果的基礎上,應用偏最小二乘(Partial least squares,PLS)與最小殘差回歸法、粒子群(Particle swarm optimization,PSO)與最小二乘支持向量機(Least squares support vector machine,LSSVM)分別對水資源消耗預測的異常值進行適用性研究,為提升水資源數(shù)據(jù)管理水平提供一定的方法支持。
現(xiàn)有諸多研究成果中對水資源消耗與社會經(jīng)濟發(fā)展之間的強相關(guān)性進行了論證[2,3],同時鑒于社會經(jīng)濟指標可通過其統(tǒng)計年鑒取得較高可信度的數(shù)據(jù),對此考慮選取偏最小二乘法對年均水資源消耗量與社會經(jīng)濟發(fā)展指標之間的主成分進行提取處理。毛李帆等[4]認為該過程中基于相關(guān)指標數(shù)據(jù)構(gòu)建的回歸模型會受異常值的擴大影響,對主成分的貢獻水平顯著高于常規(guī)數(shù)據(jù),并在電力負荷異常數(shù)據(jù)分析中得到驗證。因此本文利用統(tǒng)計數(shù)據(jù)樣本對提取的主成分貢獻程度的方法檢測水資源數(shù)據(jù)異常值。
設因變量Y和 p個自變量構(gòu)成自變量集合 X=(x1,x2,...,xp),觀測n個樣本點,并構(gòu)成n維因變量向量(y1,y2,...,yn)n×1和自變量構(gòu)成n×p觀測矩陣X=(x1,x2,...,xp)n×p。PLS 回歸的基本原理是逐次對自變量 X提取主成分qα,α=1,2,...,α ,盡可能多地概括自變量集合 X 中的信息,同時與因變量Y的相關(guān)性可以達到最大值。對此,定義Q為數(shù)據(jù)樣本i對第v主成分qv的貢獻度,即:
可推出,若:
則可判定數(shù)據(jù)樣本i對主成分qv的貢獻度偏大。多數(shù)情況下對于樣本信息可通過2個以內(nèi)的主成分進行概括提取,對此本文假設主成分數(shù)目為2,即α=2,則將判定條件轉(zhuǎn)為:
考慮傳統(tǒng)最小二乘回歸對于其方差的非穩(wěn)健性,易導致其擬合效果偏向突變數(shù)據(jù)擴散,本文擬采用最小殘差的回歸方式修正最小二乘回歸目標函數(shù),削弱突變數(shù)據(jù)對擬合模型的影響。其函數(shù)為:
其中,Wi指水資源數(shù)據(jù)樣本值;Hi指影響要素指標;?是待估系數(shù);υi指數(shù)據(jù)樣本擬合誤差。對于上述公式,可假設:
即:
將式(8)代入到模型(6)中,求解規(guī)劃解:
根據(jù)上述模型,可知利用一次函數(shù)作為基于最小殘差異常值修正的目標函數(shù),可有效控制其模型對水資源異常值的敏感度達到修正效果。
考慮數(shù)據(jù)樣本的規(guī)模及LSSVM在解決非線性、小樣本等方面問題的擬合優(yōu)勢[5],本文選取該方法對水資源缺失數(shù)據(jù)進行補充。同時,利用粒子群算法優(yōu)化LSSVM核函數(shù)的參數(shù)。步驟如下:
其中,ρ(x)指非線性變換映射函數(shù);ω指權(quán)系數(shù);b是偏置量。據(jù)此,LSSVM目標函數(shù)可寫為:
其中,θ是誤差變量;γ為懲罰因子(γ>0)。引入Lagrange函數(shù)求解:
式中?i指Lagrange乘子。按照Karush-Kuhn-Tucker條 件[6],分 別 測 算 ?L ?ω =0 、?L ?b=0 、?L ?θ =0 和?L??i=0,取得方程組:
鑒于RBF核函數(shù)處理非線性輸入與輸入關(guān)系的適用性,本文采用其作為LSSVM的核函數(shù):
通常對LSSVM模型參數(shù)γ與?的優(yōu)化多采取參數(shù)空間窮盡搜索算法,但該方式難以參數(shù)的閾值范疇進行合理界定,對此,本文利用PSO優(yōu)化其參數(shù),同時為避免PSO收斂陷入局部極值,在初始粒子群選取時利用平均粒距函數(shù)對其離散程度進行測定[7]:
其中,ο為種群粒子數(shù);L為搜索區(qū)域?qū)亲畲缶嚯x;aid表示粒子i的d維坐標,而指其平均值。
此外,對于PSO粒子是否出現(xiàn)早熟收斂的判定,可依據(jù)種群粒子適應值的改變來分析種群狀態(tài),即設定粒子適應度為Ri,種群平均適應度,定義其適應度方差:
選取參數(shù)優(yōu)化后的LSSVM模型,將除了存在數(shù)據(jù)缺失以外的社會經(jīng)濟指標作為模型輸入,而水資源消耗值作為模型輸出進行樣本訓練擬合,進而根據(jù)擬合結(jié)果對水資源消耗缺失值進行補充。
以廣東省2000—2015年社會經(jīng)濟發(fā)展與水資源消耗量為例①社會經(jīng)濟指標主要源于《廣東省統(tǒng)計年鑒》(2000—2016),水資源消耗量通過求解地區(qū)用水總量與再循環(huán)水資源量之差而得,由于再循環(huán)水資源量測算過程較為復雜,需要對計算結(jié)果進行二次檢查,其數(shù)據(jù)源于《廣東省水資源統(tǒng)計公報》(2004—2015)、《廣東省環(huán)境統(tǒng)計公報》(2000—2015)。,其指標數(shù)據(jù)見表1。利用PLS-Q2模型對其2000—2012年歷史數(shù)據(jù)進行函數(shù)擬合,同時檢測水資源異常數(shù)據(jù),根據(jù)擬合結(jié)果完成異常值修正并預測2003—2015年數(shù)據(jù),檢驗模型預測有效度。
按照表1中數(shù)據(jù),利用PLS模型對其指標數(shù)據(jù)進行主成分提取處理,并利用模型(2)測算各數(shù)據(jù)樣本的累計貢獻度Q,見表2。其中,r1、r2分別表示主成分1與主成分2。
根據(jù)表2可知,2007年、2011年和2012年的數(shù)據(jù)樣本累計貢獻度Q均已突破0.25水平,并分別達到0.390802、0.259432和0.268102,與其他樣本之間數(shù)值差異相對顯著。對此,參考時序歷史數(shù)據(jù),選取模型(3)顯著水平τ=0.15。按照模型(7)測度Q2橢圓式:
表1 廣東省社會經(jīng)濟與水資源消耗指標
表2 主成分r1與r2測度結(jié)果
按照式(19)及表2,可繪制其Q2橢圓分布圖,見圖2。
圖2 異常值修正前Q2橢圓圖
圖2所示的2007年、2011和2012年數(shù)據(jù)樣本點靠近Q2橢圓的邊緣,需對其進行核定。經(jīng)對于統(tǒng)計數(shù)據(jù)重新測算核定,發(fā)現(xiàn)2007年和2012年水資源消耗量數(shù)據(jù)應分別為450.8936和459.2454,而2011年數(shù)據(jù)(442.6194)與核定數(shù)據(jù)相一致,即為實際突變數(shù)據(jù)。如果按照水資源消耗均值數(shù)據(jù)±5%水平作為劃分依據(jù),則處于(411.278,454.570)以外數(shù)據(jù)均被列為異常值,即2000—2002年、2007年、2009—2010年和2012年為異常點;而若以±10%水平為標準,(389.6315,476.2163)為其正常區(qū)間,除了2007年、2011年和2012年以外,2000—2001年也被誤列為異常值點??梢?,利用傳統(tǒng)均值±5%與±10%水平的評判方法雖然在操作上具有簡便性,但易造成較大的誤判,而PLS-Q2模型表現(xiàn)出了較強的實用性。
對于重新核定的數(shù)據(jù),建立Q2橢圓式,見模型(20),而其主成分與Q2橢圓分布見圖3。
圖3 異常值修正后Q2橢圓圖
觀測異常修正前后Q2橢圓圖,可知2007年、2012年數(shù)據(jù)樣本點向圓心靠攏,表明由于人為操作等主觀因素造成的異常值已被修正。而2011年數(shù)據(jù)為水資源消耗實際突變數(shù)據(jù),仍置于橢圓邊界處,對其無需進行調(diào)整。
考慮異常值對擬合方程的影響,利用傳統(tǒng)最小二乘法與本文構(gòu)建的最小殘差的異常值修正模型分別對數(shù)據(jù)修正前與修正后樣本進行回歸分析,依次記為?1(x )、?2(x),再預測2013—2015年水資源消耗量。各擬合模型如下:
其中,x1,x2,…,x4分別指表 1中各產(chǎn)業(yè) GDP 與人均GDP量。據(jù)其取得水資源消耗量預測值,見表3。
表3 ?1()x、?2()x回歸預測結(jié)果
據(jù)表3,可知傳統(tǒng)最小二乘法測度的?1(x)相對誤差均大于0.15水平,而基于最小殘差的異常值修正模型?2(x)的預測相對誤差最高值為0.063434,其余均低于0.04水平(0.038418、0.039577)。這說明通過對水資源消耗量異常值進行修正,構(gòu)建基于最小殘差的異常值修正模型在對其進行預測分析中具有相對較高的精度,可滿足對水資源消耗數(shù)據(jù)時序動態(tài)規(guī)律挖掘的需求。
以廣州市2004—2015年水資源消耗與社會經(jīng)濟相關(guān)指標數(shù)據(jù)為例,并假設其2008年與2013年水資源消耗量為缺失值,見表4。
表4 廣州市社會經(jīng)濟與水資源消耗指標
根據(jù)表4,將社會經(jīng)濟指標作為PSO-LSSVM輸入,而水資源消耗量作為輸出。其中,進行PSO測算時,懲罰因子γ∈[0 . 1,100] ,∈[0 . 1,10],對此參考樣本數(shù)據(jù)設置 γ=30,=2,粒子數(shù)ο=30,最大迭代次數(shù)tmax=100;平均粒距可反映種群分布的多樣特征,隨機粒子產(chǎn)生的粒距D(t)均不低于?,設其閾值?=0.001;適應度方差表征粒子聚集水平,設其閾值ε=0.01。而表4中各指標歸一化模型如下:
其中,xij指社會經(jīng)濟與水資源消耗原始數(shù)據(jù);ij指歸一化后指標值;xj表示xij所在 j列數(shù)值。利用RBF核函數(shù),結(jié)合模型(15)對除2008年、2013年外的其他數(shù)據(jù)分別進行LSSVM、PSO-LSSVM模型樣本訓練?;谟柧殧M合模型對其缺失數(shù)據(jù)點進行填補,結(jié)果見表5與下頁圖4。
表5 模型擬合結(jié)果
圖4 水資源消耗量模擬曲線
據(jù)表5和圖4可知,通過LSSVM模型可對水資源消耗量達到一定水平的擬合效果,樣本測度期內(nèi)最大相對誤差為0.027541,平均相對誤差0.0036,而基于PSO-LSSVM的水資源消耗量擬合模型通過引入逐步尋優(yōu)參數(shù)與更新粒子位置,避免了對γ、選擇的盲目性和隨機性而陷入局部極值的弊端。通過圖5對比LSSVM和PSO-LSSVM的相對誤差,除于2004年以外,PSO-LSSVM模型在其余樣本年份數(shù)據(jù)的測度中均呈現(xiàn)較高精度擬合,平均相對誤差為-0.0006。通過上述兩種方法分別對2008年、2013年水資源消耗量缺失數(shù)據(jù)進行填補,LSSVM擬合值為680047萬m3、613497萬m3,PSO-LSSVM擬合值分別為683713萬m3、604572萬m3,而實際水資源消耗統(tǒng)計值為689216萬m3和602272萬m3,相對誤差對比中LSSVM達到0.005391、-0.014548,PSO-LSSVM則為-0.001177、0.003819,該結(jié)果進一步印證了PSO-LSSVM模型在水資源消耗擬合中可實現(xiàn)更精準的數(shù)據(jù)填補效果。
圖5 擬合誤差對比
在基于社會經(jīng)濟相關(guān)指標具有較高可信度的前提下,本文運用PLS-Q2方法對水資源消耗預測中的歷史時序數(shù)據(jù)所存在的異常值進行檢測辨識,基于最小殘差的異常值修正模型對擁有實際突變異常數(shù)據(jù)序列進行了預測驗證,再通過PSO-LSSVM模型對水資源消耗數(shù)據(jù)缺失樣本進行了擬合填補。結(jié)果表明:(1)利用PLS方法提取水資源消耗及社會經(jīng)濟指標數(shù)據(jù)主成分及其累計貢獻度的Q2橢圓圖,可合理辨識出水資源消耗時序數(shù)據(jù)中異常點;(2)相比傳統(tǒng)最小二乘回歸,基于最小殘差的異常值修正模型可有效緩解實際突變數(shù)據(jù)對水資源消耗預測的拉伸影響,其回歸預測精度更高;(3)對于水資源消耗缺失數(shù)據(jù)的填補,LSSVM與PSO-LSSVM均呈現(xiàn)出較高的擬合效果,但同比之下PSO-LSSVM相對誤差更小,對其缺失的數(shù)據(jù)填補更加準確。