張 博,劉 健,吳震宇*,陳建康,尹 川
(1.四川大學(xué) 水力學(xué)與山區(qū)河流開(kāi)發(fā)保護(hù)國(guó)家重點(diǎn)實(shí)驗(yàn)室 水利水電學(xué)院,四川 成都 610065;2.雅礱江流域水電開(kāi)發(fā)有限公司,四川 成都 610051)
中國(guó)目前已修建水庫(kù)大壩9.8萬(wàn)余座,帶來(lái)巨大社會(huì)經(jīng)濟(jì)效益的同時(shí),其安全風(fēng)險(xiǎn)也不容忽視[1]。變形監(jiān)測(cè)是大壩長(zhǎng)期運(yùn)行安全的重要手段[2-3],常通過(guò)分析變形監(jiān)測(cè)數(shù)據(jù)來(lái)診斷壩體結(jié)構(gòu)性態(tài),預(yù)測(cè)大壩發(fā)展趨勢(shì)。而構(gòu)建監(jiān)控模型是分析大壩變形監(jiān)測(cè)數(shù)據(jù)的常用方法,通常根據(jù)監(jiān)控模型預(yù)測(cè)的預(yù)警界限對(duì)大壩變形進(jìn)行異常預(yù)警,因此,構(gòu)建大壩變形監(jiān)控模型對(duì)于大壩安全管理具有重要意義。
大壩變形監(jiān)測(cè)數(shù)據(jù)序列一般由兩部分組成,即由水庫(kù)水位和環(huán)境溫度變化引起的可逆變形和大壩隨時(shí)間演變的不可逆變形?;诒O(jiān)測(cè)資料,應(yīng)用回歸方法進(jìn)行分析,可將影響大壩變形的因素歸結(jié)為水壓、溫度和時(shí)效分量[4]。在3種分量中,水壓分量一般采用上游相對(duì)水深3次冪多項(xiàng)式的形式[5]。溫度分量可由多個(gè)周期諧波的三角函數(shù)[6]、變形測(cè)量前多段平均氣溫的線性組合[7]構(gòu)成,或?qū)误w溫度計(jì)監(jiān)測(cè)數(shù)據(jù)進(jìn)行主成分分析,將主成分的線性組合作為溫度分量[8]。時(shí)效分量一般通過(guò)預(yù)設(shè)不同函數(shù)進(jìn)行模擬,多采用線性函數(shù)和對(duì)數(shù)函數(shù)組合[9-11]、線性函數(shù)和指數(shù)函數(shù)組合[12-14]、指數(shù)和多項(xiàng)式組合[15-16]等形式構(gòu)建,也可采用EMD方法分離出大壩變形監(jiān)測(cè)序列時(shí)效分量,使非平穩(wěn)的大壩變形時(shí)間序列平穩(wěn)化,能有效提高預(yù)測(cè)精度[17-18]。
對(duì)于同一個(gè)變形測(cè)點(diǎn),通過(guò)不同形式的水壓、溫度和時(shí)效分量的組合,可以建立多種大壩變形監(jiān)控模型,因此,需要從所有待選模型中識(shí)別出最優(yōu)模型。大壩變形監(jiān)控模型的優(yōu)劣主要體現(xiàn)為模型泛化能力的高低。模型泛化能力即模型對(duì)訓(xùn)練集外樣本的預(yù)測(cè)能力,欠擬合與過(guò)度擬合均會(huì)導(dǎo)致監(jiān)控模型的泛化能力不足[19]。欠擬合是指建立的監(jiān)控模型不能從歷史監(jiān)測(cè)數(shù)據(jù)充分學(xué)習(xí)和準(zhǔn)確描述大壩變形監(jiān)測(cè)量的統(tǒng)計(jì)變化規(guī)律,具體表現(xiàn)為監(jiān)控模型對(duì)歷史監(jiān)測(cè)數(shù)據(jù)的回歸顯著性較低,擬合誤差較大,常通過(guò)復(fù)相關(guān)系數(shù)R、均方根誤差RMSE、平均絕對(duì)誤差MAE、平均絕對(duì)百分比誤差MAPE等指標(biāo)進(jìn)行評(píng)判[20-21]。R越大,表明監(jiān)控模型對(duì)歷史監(jiān)測(cè)數(shù)據(jù)的回歸顯著性越高,RMSE、MAE、MAPE的值越小,表明模型擬合誤差越小。而過(guò)度擬合表現(xiàn)為模型對(duì)監(jiān)測(cè)序列的過(guò)度學(xué)習(xí),甚至?xí)蹲降接?xùn)練集中單個(gè)樣本的特征擬合抽樣誤差,從而導(dǎo)致模型泛化能力降低,出現(xiàn)對(duì)監(jiān)測(cè)數(shù)據(jù)異常的誤判。AIC、BIC準(zhǔn)則被廣泛應(yīng)用于監(jiān)控模型識(shí)別[22-25],均采用似然函數(shù)度量模型擬合誤差,同時(shí)引入模型參數(shù)數(shù)量的懲罰項(xiàng)。經(jīng)實(shí)際應(yīng)用檢驗(yàn),AIC準(zhǔn)則適用于樣本量較小的情況,BIC準(zhǔn)則適用于樣本量較大的情況。但AIC、BIC準(zhǔn)則不能定量比較和評(píng)價(jià)模型的過(guò)度擬合程度,在某些情況下,識(shí)別出的最優(yōu)模型可能存在嚴(yán)重的過(guò)度擬合問(wèn)題。因此,在進(jìn)行模型選擇時(shí),需要能夠量化模型過(guò)度擬合程度的識(shí)別準(zhǔn)則。
本文定義了能夠量化模型過(guò)度擬合程度的指標(biāo)—過(guò)度擬合系數(shù)OC,同時(shí)采用復(fù)相關(guān)系數(shù)R刻畫(huà)模型的擬合精度,提出了大壩變形監(jiān)控模型識(shí)別的R-OC準(zhǔn)則。將R-OC準(zhǔn)則應(yīng)用于某大壩垂直位移測(cè)點(diǎn)的變形監(jiān)控模型優(yōu)選,并與AIC和BIC準(zhǔn)則進(jìn)行對(duì)比,驗(yàn)證了R-OC準(zhǔn)則的有效性。
大壩變形監(jiān)控模型一般由水壓分量、溫度分量和時(shí)效分量構(gòu)成,表達(dá)式如下:
式中,Y(t) 為 壩體變形監(jiān)測(cè)值在時(shí)間t的統(tǒng)計(jì)估計(jì)值,F(xiàn)1[H(t)]為 壩體變形的水壓分量,F(xiàn)2[T(t)]為壩體變形的溫度分量,F(xiàn)3[θ(t)]為 壩體變形的時(shí)效分量,C為待定常數(shù)項(xiàng)。
大壩變形的水壓分量與上、下游水位的乘冪相關(guān),對(duì)水位進(jìn)行歸一化處理[26],構(gòu)造形式如下:
式中,aui、adi分別為上、下游水位因子的待定回歸系數(shù),Ht、ht分 別為t時(shí) 刻的上、下游水位,Hmin、Hmax分別為大壩運(yùn)行時(shí)期最低、最高上游庫(kù)水位,hmin、hmax分別為大壩運(yùn)行時(shí)期最低、最高下游庫(kù)水位。
當(dāng)水位對(duì)大壩變形影響存在滯后時(shí),水壓分量與觀測(cè)日前j天的平均水位呈線性關(guān)系:
1.2.1 傳統(tǒng)溫度分量
1)多個(gè)周期諧波三角函數(shù)
引起壩體位移的溫度因素主要是邊界溫度及壩體混凝土的水化熱。對(duì)于運(yùn)行時(shí)間較長(zhǎng)的大壩,水化熱可忽略不計(jì)。壩體溫度基本呈年周期性變化。因此,可采用多個(gè)周期諧波的三角函數(shù)作為統(tǒng)計(jì)模型的溫度分量,具體構(gòu)造如下:
式(4)~(5)中,bi(i=1,2,3,4)為 待定回歸系數(shù),t0為設(shè)定的1月1日的初始時(shí)間。
2)多段平均氣溫線性組合
壩體邊界溫度的變化都是由于氣溫的季節(jié)性變化引起。當(dāng)外部環(huán)境氣溫監(jiān)測(cè)序列完整時(shí),溫度分量可采用多段平均氣溫的線性組合,函數(shù)構(gòu)造如下:
式中,bi(i=1,2,3,4)為 待定回歸系數(shù),Ti代表觀測(cè)日當(dāng)天及前5、15、60 d的平均大氣氣溫。
1.2.2 基于主成分分析的溫度分量
當(dāng)壩體埋設(shè)的溫度計(jì)較多且監(jiān)測(cè)數(shù)據(jù)連續(xù)時(shí),可采用壩體溫度監(jiān)測(cè)序列的主成分構(gòu)造大壩變形的溫度分量,能有效減少模型的變量和參數(shù),降低模型的過(guò)度擬合程度。
假設(shè)壩體埋設(shè)了p支溫度計(jì),每支溫度計(jì)有n(n>p)個(gè)監(jiān)測(cè)數(shù)據(jù),表達(dá)為矩陣形式:
式中,xi=(x1i,x2i,···,xni)T,i=1,2,···,p。
并計(jì)算相關(guān)系數(shù)矩陣:
為消除量綱不同帶來(lái)的影響,對(duì)數(shù)據(jù)X進(jìn)行標(biāo)準(zhǔn)化處理,使變量的平均值為0,方差為1,標(biāo)準(zhǔn)化公式如下:
式中:
計(jì)算相關(guān)系數(shù)矩陣的特征值和對(duì)應(yīng)的特征向量,依次排列大小,相應(yīng)的單位特征向量如下:
則第i個(gè)主成分PCi(i=1,2,···,p)的表達(dá)式為:
式中,PCi(i=1,2,···,p)為對(duì)篩選出的壩體溫度計(jì)進(jìn)行主成分分析后得到的主成分因子。
通過(guò)式(14)計(jì)算各主成分貢獻(xiàn)率,并由大到小累加,根據(jù)式(15)計(jì)算累積貢獻(xiàn)率。
式(14)~(15)中,λi為 特征值,ηj為各主成分貢獻(xiàn)率,Mm為主成分累積貢獻(xiàn)率。
選取合適的主成分PCi作為因子,進(jìn)行溫度分量的構(gòu)造,構(gòu)造形式如下:
式中:bi(i=1,2,3,4)為 待定回歸系數(shù);m為所選取的主成分因子個(gè)數(shù),一般選取累積貢獻(xiàn)率大于85%或95%的主成分個(gè)數(shù)。
1.3.1 傳統(tǒng)時(shí)效分量
時(shí)效分量反映了大壩的不可逆變形。常采用如下兩種形式來(lái)表示:
式(17)~(18)中,θ=(t-t0)/100,t0為監(jiān)測(cè)點(diǎn)初始監(jiān)測(cè)日的時(shí)間,c1、c2為待定回歸系數(shù)。
1.3.2 基于經(jīng)驗(yàn)?zāi)B(tài)分解的時(shí)效分量
通過(guò)經(jīng)驗(yàn)?zāi)B(tài)分解法(EMD)將大壩變形監(jiān)測(cè)效應(yīng)量分解并重構(gòu)為周期變化項(xiàng)和時(shí)效趨勢(shì)項(xiàng),選擇合適的函數(shù)形式對(duì)時(shí)效趨勢(shì)項(xiàng)進(jìn)行擬合,構(gòu)建時(shí)效分量模型。該方法能克服傳統(tǒng)方法在未知時(shí)效分量實(shí)際變化規(guī)律和趨勢(shì)情況下預(yù)設(shè)模型形式的缺點(diǎn)。
EMD的步驟如下:
1)找出x(t)上所有極值點(diǎn)xmax(t)、xmin(t)。
2)通過(guò)3次樣條差值函數(shù)將極值點(diǎn)連接,繪制上、下包絡(luò)線。上、下包絡(luò)線的均值m1(t)可以表示為:
3)計(jì)算原始數(shù)據(jù)和m1(t)之 間的差值h1(t):
4)用h1(t)替 換x(t),重復(fù)上述3個(gè)步驟,直到滿足相應(yīng)的終止條件:①數(shù)據(jù)序列的零點(diǎn)數(shù)m和極值點(diǎn)數(shù)n滿足不等式|m-n|≤1;②上下包絡(luò)線的均值m1(t)趨于0。
第1個(gè)imf1(t)分量可表示為:
5)計(jì)算原始數(shù)據(jù)和imf1(t)之 間的差值r1(t):
6)將步驟1)中的x(t)替 換為r1(t),重復(fù)步驟1)~5),直到rn(t)殘差單調(diào)或小于預(yù)設(shè)誤差,EMD分解終止。
變形監(jiān)測(cè)數(shù)據(jù)時(shí)間序列EMD分解的數(shù)學(xué)表達(dá)式如下:
式(19)~(23)中,x(t) 為變形監(jiān)測(cè)測(cè)點(diǎn)在時(shí)間t的監(jiān)測(cè)效應(yīng)量,imfi(t) 為 通過(guò)EMD分解得到的n階IMF分量,rn(t) 為 監(jiān)測(cè)數(shù)據(jù)序列x(t)的時(shí)效趨勢(shì)項(xiàng)。
則時(shí)效分量F3(θ(t))可表示為:
對(duì)于時(shí)效分量F3(θ(t)),本文采用如下復(fù)合指數(shù)函數(shù)進(jìn)行擬合:
式中,a、b、c、d為待定擬合參數(shù),θ=(t-t0)/100,t0為監(jiān)測(cè)點(diǎn)初始監(jiān)測(cè)日的時(shí)間。
2.1.1 AIC準(zhǔn)則
AIC準(zhǔn)則是衡量統(tǒng)計(jì)模型擬合優(yōu)良性的一種標(biāo)準(zhǔn),由日本統(tǒng)計(jì)學(xué)家Akaike在1974年提出,公式如下:
式中,k為模型參數(shù)個(gè)數(shù),L為似然函數(shù)。
從待選模型中選擇最佳模型時(shí),通常選擇AIC值最小的模型。一般而言,當(dāng)模型復(fù)雜度提高時(shí),似然函數(shù)L增大,從而AIC值減小;但當(dāng)k過(guò)大時(shí),似然函數(shù)增速減緩,導(dǎo)致AIC增大。因此模型過(guò)于復(fù)雜容易造成過(guò)度擬合現(xiàn)象,而 2k可以作為對(duì)參數(shù)的懲罰。AIC準(zhǔn)則的實(shí)質(zhì)就是由候選模型取最大似然后加上一個(gè)懲罰項(xiàng)得到的,可以衡量模型參數(shù)復(fù)雜度與擬合優(yōu)度之間的平衡關(guān)系,并選擇模型參數(shù)較少但擬合度較好的模型作為最優(yōu)模型。
2.1.2 BIC準(zhǔn)則
BIC準(zhǔn)則是Schwartz于1978年根據(jù)Bayes理論提出的判別準(zhǔn)則,引入了后驗(yàn)概率的思想,其計(jì)算公式如下:
式中,k為模型參數(shù)個(gè)數(shù),n為 樣本數(shù)量,L為似然函數(shù)。
BIC準(zhǔn)則與AIC準(zhǔn)則的差別主要體現(xiàn)在懲罰項(xiàng),考慮到樣本個(gè)數(shù)會(huì)對(duì)模型選擇起到一定的影響作用,所以在BIC準(zhǔn)則中加入樣本量n作為模型懲罰項(xiàng)的一部分;當(dāng)樣本數(shù)量過(guò)多時(shí),可有效防止模型精度過(guò)高造成的模型復(fù)雜度過(guò)高。最優(yōu)模型通常為 B IC值最小的模型。
過(guò)度擬合是導(dǎo)致模型泛化能力降低的主要原因之一,通常表現(xiàn)為模型對(duì)歷史數(shù)據(jù)的擬合精度很高,但預(yù)測(cè)精度明顯低于擬合精度。因此,可以通過(guò)比較模型預(yù)測(cè)誤差和擬合誤差來(lái)確定模型的過(guò)度擬合程度。本文提出模型過(guò)度擬合系數(shù)OC,其表達(dá)式如下:
式中,RMSE為均方根誤差,MAE為平均絕對(duì)誤差,MAPE為平均絕對(duì)百分比誤差,下標(biāo)V和下標(biāo)F分別代表驗(yàn)證時(shí)段和擬合時(shí)段。相應(yīng)的RMSE、MAE及MAPE的值定量反映了監(jiān)控模型預(yù)測(cè)誤差和擬合誤差的大小。
RMSE、MAE和MAPE是常用的誤差評(píng)價(jià)指標(biāo)[21],但各有優(yōu)缺點(diǎn)。RMSE能夠很好地反映擬合值與監(jiān)測(cè)數(shù)據(jù)的偏差,但對(duì)于遠(yuǎn)離監(jiān)測(cè)數(shù)據(jù)均值的異常值很敏感,其表達(dá)式如下:
MAE克服了RMSE的缺點(diǎn),能更好地反映擬合值誤差的實(shí)際情況,但不能合理反映模型擬合的相對(duì)誤差,其表達(dá)式如下:
MAPE適合評(píng)價(jià)相對(duì)誤差,缺點(diǎn)是當(dāng)實(shí)測(cè)值為0時(shí),將無(wú)法計(jì)算,其表達(dá)式如下:
當(dāng)模型過(guò)度擬合時(shí),驗(yàn)證時(shí)段的模型預(yù)測(cè)誤差將大于擬合時(shí)段的擬合誤差,即:當(dāng)OC>1,且OC的值越大,表明模型過(guò)度擬合程度越高;反之,當(dāng)OC<1時(shí),且OC的值越小,表明模型預(yù)測(cè)精度高于擬合精度,不存在過(guò)度擬合,預(yù)測(cè)精度相對(duì)越好;當(dāng)OC=1時(shí),表示預(yù)測(cè)精度和擬合精度相同。因此,OC能定量反映監(jiān)控模型的過(guò)度擬合程度。
而進(jìn)行模型選擇時(shí),既要保證模型驗(yàn)證時(shí)段數(shù)據(jù)的預(yù)測(cè)精度,不能存在過(guò)度擬合;也要保證模型擬合時(shí)段數(shù)據(jù)的擬合精度,不能存在欠擬合。因此本文選用復(fù)相關(guān)系數(shù)R定量反映模型擬合時(shí)段數(shù)據(jù)的擬合精度。
復(fù)相關(guān)系數(shù)R反映一個(gè)因變量與多個(gè)自變量之間的相關(guān)程度,其表達(dá)式如下:
式中,R2為可決系數(shù),SSR為回歸平方和,SST為總偏差平方和,Yi為觀測(cè)數(shù)據(jù),Y為觀測(cè)數(shù)據(jù)均值,Y?i為擬合數(shù)據(jù)。
回歸平方和SSR反映回歸方程中全部自變量的“方差貢獻(xiàn)”。可決系數(shù)R2表示這種貢獻(xiàn)在總偏差平方和SST中所占的比重,R2越大,說(shuō)明自變量對(duì)因變量的解釋程度越高,引起的變動(dòng)占總變動(dòng)的比重越大,模型擬合程度就越高;反之,說(shuō)明模型對(duì)樣本觀測(cè)值的擬合效果越差。因此,復(fù)相關(guān)系數(shù)R越大,監(jiān)控模型的擬合時(shí)段數(shù)據(jù)的擬合精度就越高。
本文基于反映模型擬合精度的指標(biāo)R和反映過(guò)度擬合程度的指標(biāo)OC,提出了一種新的大壩變形監(jiān)控模型識(shí)別的R-OC準(zhǔn)則。在進(jìn)行模型選擇時(shí),可將指標(biāo)R和OC繪制為2維散點(diǎn)圖,從而可以直觀地挑選出擬合精度高、過(guò)度擬合程度低的模型。
國(guó)內(nèi)某水電站工程,屬二等大(2)型工程,由左岸重力式擋水壩段、河床式電站廠房壩段、河床4孔泄洪閘壩段、右岸導(dǎo)流明渠內(nèi)3孔泄洪閘壩段、右岸重力式擋水壩段等建筑物組成。水庫(kù)正常蓄水位為1 015 m,死水位為1 012 m,壩頂高程1 020 m,最大壩高69.5 m,水庫(kù)具有日調(diào)節(jié)性能。
選取10#壩段真空激光準(zhǔn)直系統(tǒng)LA14測(cè)點(diǎn)垂直位移構(gòu)建位移監(jiān)控模型,測(cè)點(diǎn)布置情況如圖1所示。10#壩段長(zhǎng)30 m,順?biāo)鞣较蜷L(zhǎng)60 m,最大閘壩高60 m,堰頂高程994 m。為監(jiān)測(cè)壩體運(yùn)行期溫度場(chǎng)的變化情況,在10#壩段壩體內(nèi)共埋設(shè)30支溫度計(jì),封存停測(cè)后納入運(yùn)行期統(tǒng)計(jì)共計(jì)14支,具體儀器布置情況如圖2所示。
圖1 LA14測(cè)點(diǎn)布置及工程鳥(niǎo)瞰圖Fig.1 LA14 measurement point layout and engineering aeroview
圖2 10#壩段溫度計(jì)布置圖Fig.2 10# dam section thermometer layout
在建模時(shí)段內(nèi)大壩正常運(yùn)行,工作性態(tài)良好,巡視檢查未發(fā)現(xiàn)異常的變形跡象。收集LA14測(cè)點(diǎn)垂直位移自2017年7月6日至2021年3月30日的完整監(jiān)測(cè)數(shù)據(jù),測(cè)量頻率為1 次/d。剔除異常值后,獲得1 238組實(shí)測(cè)序列,用以構(gòu)建模型的樣本觀測(cè)值。為檢驗(yàn)監(jiān)控模型的預(yù)測(cè)效果,將數(shù)據(jù)序列分成擬合時(shí)段和驗(yàn)證時(shí)段數(shù)據(jù)。擬合時(shí)段數(shù)據(jù)用于擬合構(gòu)建監(jiān)控模型,通過(guò)監(jiān)控模型對(duì)LA14測(cè)點(diǎn)位移進(jìn)行預(yù)測(cè)得到預(yù)測(cè)數(shù)據(jù),并同驗(yàn)證時(shí)段內(nèi)的LA14測(cè)點(diǎn)位移的實(shí)測(cè)值進(jìn)行對(duì)比分析。其中,擬合時(shí)段起止時(shí)間為2017年7月6日至2020年12月31日,驗(yàn)證時(shí)段起止時(shí)間為2021年1月1日至2021年3月30日。LA14測(cè)點(diǎn)全過(guò)程時(shí)間序列曲線如圖3所示。
圖3 LA14測(cè)點(diǎn)全過(guò)程時(shí)間序列曲線Fig.3 Whole process time series curve of LA14 measuring point
3.2.1 水壓分量
水壓分量根據(jù)第1.1節(jié)中的形式進(jìn)行構(gòu)建,統(tǒng)一對(duì)上下游水位進(jìn)行歸一化處理,且需考慮下游水位的滯后性。
3.2.2 溫度分量
1)傳統(tǒng)溫度分量:由于該水電站運(yùn)行多年,水化熱已釋放完畢,壩體內(nèi)部溫度場(chǎng)已趨向穩(wěn)定,故在回歸計(jì)算時(shí),水化熱可不予考慮;且外部環(huán)境氣溫監(jiān)測(cè)序列完整。因此,溫度分量可分別采用第1.2節(jié)中的形式進(jìn)行構(gòu)建。
2)基于PCA的溫度分量:通過(guò)數(shù)據(jù)篩選,選擇T01-XHZ、T04-XHZ、T05-XHZ、T10-XHZ、T14-XHZ、T15-XHZ、T16-XHZ、T17-XHZ、T21-XHZ、T23-XHZ、T28-XHZ、T29-XHZ共12支溫度計(jì),形成溫度主成分PC1、PC2、···、PC12,各主成分貢獻(xiàn)率及累積貢獻(xiàn)率如圖4所示。
圖4 溫度監(jiān)測(cè)數(shù)據(jù)主成分的貢獻(xiàn)率及累積貢獻(xiàn)率Fig.4 Contribution rates and cumulative contribution rates of principal components in temperature monitoring data
由圖4可得,當(dāng)選取前4支主成分PC1、PC2、PC3、PC4時(shí),累積貢獻(xiàn)率達(dá)到99.60%,可近似表示上述12支溫度計(jì)在所選時(shí)段的所有包含信息,達(dá)到降維處理的目的。因此,將主成分PC1、PC2、PC4作為溫度分量因子。
3.2.3 時(shí)效分量
1)傳統(tǒng)時(shí)效分量:時(shí)效分量可采用第1.3.1節(jié)中的形式進(jìn)行構(gòu)建。
2)基于EMD的時(shí)效分量:對(duì)LA14測(cè)點(diǎn)監(jiān)測(cè)數(shù)據(jù)序列進(jìn)行EMD分解,根據(jù)EMD提取的時(shí)效位移時(shí)間序列,選擇復(fù)合指數(shù)函數(shù)構(gòu)建時(shí)效分量,采用遺傳算法確定復(fù)合指數(shù)函數(shù)的系數(shù)。LA14測(cè)點(diǎn)EMD時(shí)效分量及復(fù)合函數(shù)擬合效果如圖5所示。
圖5 LA14測(cè)點(diǎn)EMD分解重構(gòu)及擬合Fig.5 EMD decomposition reconstruction and fitting of LA14 measuring point
擬合結(jié)果顯示,復(fù)相關(guān)系數(shù)R>0.99,均方根誤差RMSE<0.01,即復(fù)合指數(shù)函數(shù)對(duì)分解出的壩頂時(shí)效位移擬合效果良好。
大壩變形監(jiān)控模型一般包含水壓、溫度和時(shí)效分量3部分,通過(guò)選取上述構(gòu)建的水壓、溫度和時(shí)效分量不同的函數(shù)形式進(jìn)行組合,并確定是否考慮下游水位滯后,即可構(gòu)建不同的監(jiān)控模型,本文總計(jì)建立18種大壩變形待選監(jiān)控模型。各監(jiān)控模型表達(dá)式見(jiàn)表1。
表1 LA14測(cè)點(diǎn)垂直位移監(jiān)控模型匯總Tab.1 Summary of LA14 vertical displacement monitoring model
采用全回歸方法對(duì)LA14測(cè)點(diǎn)進(jìn)行擬合。在評(píng)判預(yù)測(cè)效果時(shí),使用核密度估計(jì)法進(jìn)行分布擬合,其表達(dá)式如下:
式中,f?h(x)為 殘差樣本x的 分布概率,K、h分別為核函數(shù)、平滑參數(shù),xi為參與統(tǒng)計(jì)的數(shù)據(jù)信息。
根據(jù)監(jiān)控模型對(duì)LA14測(cè)點(diǎn)位移的估計(jì)值和估計(jì)誤差的概率分布確定異常監(jiān)測(cè)數(shù)據(jù)的預(yù)警界限。其中,預(yù)警上限為U CL=E+Δ97.5%,預(yù)警下限為L(zhǎng)CL=E+Δ2.5%,E為L(zhǎng)A14測(cè)點(diǎn)位移的模型估計(jì)值,Δ2.5%和Δ97.5%分別為模型估計(jì)誤差的2.5%和97.5%分位值。當(dāng)新獲得的監(jiān)測(cè)數(shù)據(jù)超出預(yù)警界限時(shí),則判斷為異常數(shù)據(jù),并發(fā)出預(yù)警。
由于案例分析中的重力壩在驗(yàn)證時(shí)段內(nèi)處于正常運(yùn)行狀態(tài),巡視檢查未見(jiàn)任何異常變形跡象,驗(yàn)證時(shí)段內(nèi)的監(jiān)測(cè)數(shù)據(jù)不應(yīng)超出預(yù)警界限。因此,本文將監(jiān)控模型的誤警率定義為驗(yàn)證時(shí)段內(nèi)被誤判為異常數(shù)據(jù)的數(shù)量與該時(shí)段監(jiān)測(cè)數(shù)據(jù)總數(shù)比值。
模型評(píng)價(jià)指標(biāo)及誤警率FAR計(jì)算結(jié)果見(jiàn)表2。
表2 模型評(píng)價(jià)指標(biāo)及誤警率統(tǒng)計(jì)結(jié)果Tab.2 Statistical results of model evaluation indenes and false alarm rates
1)將表2中過(guò)度擬合系數(shù)OC、AIC值、BIC值和誤警率FAR分別繪制成散點(diǎn)圖,以O(shè)C=1.0和OC=1.2的直線將模型分為無(wú)過(guò)度擬合、低過(guò)度擬合、高過(guò)度擬合3種類型;以FAR=0和FAR=0.25的直線將模型分為無(wú)誤警、低誤警、高誤警3種類型,結(jié)果如圖6和7所示。
圖6 監(jiān)控模型的過(guò)度擬合系數(shù)與誤警率散點(diǎn)圖Fig.6 Scatter plot of over-fitting coefficients and false alarm rates of monitoring model
由圖6可知:過(guò)度擬合系數(shù)OC和誤警率FAR的散點(diǎn)圖呈較明顯的線性關(guān)系;當(dāng)無(wú)過(guò)度擬合現(xiàn)象時(shí)(OC≤0),模型誤警率 FAR均為0;當(dāng)過(guò)度擬合程度較低時(shí)(1.00<OC≤1.20),模型為低誤警(0<FAR≤0.25);當(dāng)過(guò)度擬合系數(shù)較高時(shí)(OC>1.20),模型為高誤警(FAR>0.25)。因此,模型誤警率FAR與過(guò)度擬合系數(shù)OC大致呈正相關(guān)關(guān)系。
由圖7可知,AIC、BIC準(zhǔn)則同誤警率FAR無(wú)明顯關(guān)系。1#、2#、5#、6#等模型的AIC、BIC值相對(duì)較低,但誤警率FAR均高于50%,屬于高誤警類型;3#、7#、11#、12#等模型AIC、BIC值雖相對(duì)較高,但誤警率FAR均為0,屬于無(wú)誤警類型。因此,AIC、BIC準(zhǔn)則不能良好地反映模型誤警率FAR,與AIC、BIC值越小,模型效果越好的規(guī)則相矛盾。
圖7 監(jiān)控模型的AIC和BIC計(jì)算值與誤警率散點(diǎn)圖Fig.7 Scatter plot of AIC and BIC values and false alarm rates of monitoring model
因此,從模型誤警率FAR的角度出發(fā),R-OC準(zhǔn)則中的過(guò)度擬合系數(shù)OC比AIC、BIC準(zhǔn)則更能反映大壩變形監(jiān)控預(yù)警的真實(shí)情況。
2)當(dāng)采用AIC、BIC準(zhǔn)則選取模型時(shí),根據(jù)AIC、BIC值最小原則,最優(yōu)模型為16#模型,其擬合段精度最高為0.974,但驗(yàn)證時(shí)段數(shù)據(jù)的預(yù)測(cè)效果并非最好,過(guò)度擬合系數(shù)為0.58。
采用R-OC準(zhǔn)則選取模型時(shí),將復(fù)相關(guān)系數(shù)R和過(guò)度擬合系數(shù)OC繪制成散點(diǎn)圖,選出的較優(yōu)模型用紅線圈出,如圖8所示。
圖8 監(jiān)控模型的R和OC指標(biāo)的散點(diǎn)圖Fig.8 Scatter plot of R and OC indexes of the monitoring model
圖8中左上角區(qū)域(OC>1.0,R<0.9)中的模型既有欠擬合又存在過(guò)度擬合;右上角區(qū)域(OC>1.0,R≥0.9)中的模型無(wú)欠擬合但存在過(guò)度擬合;左下角區(qū)域(OC≤1.0,R<0.9)中的模型有欠擬合但無(wú)過(guò)度擬合;右下角區(qū)域(OC≤1.0,R≥0.9)中的模型既無(wú)欠擬合又無(wú)過(guò)度擬合。因此,滿足OC≤1.0、R≥0.9的模型為較優(yōu)模型。當(dāng)所有模型均不滿足此條件時(shí),可以從兩個(gè)方面進(jìn)行優(yōu)化:①改進(jìn)監(jiān)控模型的水壓、溫度和時(shí)效分量的函數(shù)形式;②采用深度學(xué)習(xí)算法[27]對(duì)歷史監(jiān)測(cè)數(shù)據(jù)進(jìn)行學(xué)習(xí),建立監(jiān)控模型。在LA14測(cè)點(diǎn)較優(yōu)模型9#、10#、13#、14#、15#、16#模型中,各模型的復(fù)相關(guān)系數(shù)R均在0.9以上,滿足模型精度的要求;對(duì)比各模型的過(guò)度擬合系數(shù)OC,并從小到大進(jìn)行排序,次序?yàn)?#、10#、13#、15#、16#、14#,最優(yōu)模型為9#模型。
3)根據(jù)AIC、BIC準(zhǔn)則選擇模型時(shí),選擇最優(yōu)模型的準(zhǔn)確度受模型數(shù)量限制。由表2可知:①當(dāng)只構(gòu)建前12種模型時(shí),AIC、BIC準(zhǔn)則會(huì)將5#模型判定為最優(yōu)模型,雖然其復(fù)相關(guān)系數(shù)R為0.973,擬合精度最高,但其過(guò)度擬合系數(shù)為1.75,屬于高過(guò)度擬合類型,誤警率FAR高達(dá)70.79%,5#模型預(yù)警界限如圖9所示。但R-OC準(zhǔn)則會(huì)選擇9#模型,其復(fù)相關(guān)系數(shù)R為0.928,擬合精度滿足要求,同時(shí)過(guò)度擬合系數(shù)為0.24,無(wú)過(guò)度擬合現(xiàn)象,誤警率FAR為0。9#模型預(yù)警界限如圖10所示。②當(dāng)對(duì)18種模型進(jìn)行選擇時(shí),根據(jù)第2)點(diǎn)分析,AIC、BIC準(zhǔn)則將16#模型判定為最優(yōu)模型;此時(shí),R-OC準(zhǔn)則仍會(huì)選擇9#模型。
圖9 基于AIC、BIC準(zhǔn)則識(shí)別的最優(yōu)模型(5#模型)的預(yù)警界限Fig.9 Early warning limits of optimal model (5# model)based on AIC and BIC criteria
圖10 基于R-OC準(zhǔn)則識(shí)別的最優(yōu)模型(9#模型)的預(yù)警界限Fig.10 Early warning limits of an optimal model (9# model) based on R-OC criterion
因此,對(duì)于不同數(shù)量的待選模型,R-OC準(zhǔn)則均能識(shí)別出擬合和預(yù)測(cè)精度都較高的模型,而AIC和BIC準(zhǔn)則識(shí)別出的最優(yōu)模型可能會(huì)存在較嚴(yán)重的過(guò)度擬合現(xiàn)象。
本文定義了能夠量化過(guò)度擬合程度的指標(biāo),即過(guò)度擬合系數(shù)OC。同時(shí),為滿足既不能欠擬合又不能過(guò)度擬合的模型識(shí)別原則,結(jié)合復(fù)相關(guān)系數(shù)R,提出了大壩變形監(jiān)控模型識(shí)別方法R-OC準(zhǔn)則。
案例分析表明,過(guò)度擬合系數(shù)OC與誤警率FAR存在密切關(guān)系,當(dāng)過(guò)度擬合系數(shù)OC≤1時(shí),監(jiān)控模型誤警率FAR為0;當(dāng)過(guò)度擬合系數(shù)OC>1時(shí),監(jiān)控模型誤警率FAR與過(guò)度擬合系數(shù)OC呈正相關(guān)關(guān)系。R-OC模型識(shí)別準(zhǔn)則彌補(bǔ)了傳統(tǒng)模型識(shí)別方法AIC、BIC準(zhǔn)則不能定量比較和評(píng)價(jià)模型過(guò)度擬合程度的缺陷;通過(guò)R和OC兩個(gè)指標(biāo),既保證了模型的擬合精度,又限制了模型的過(guò)度擬合程度,合理選擇最優(yōu)模型,提高了模型識(shí)別的準(zhǔn)確度。同時(shí),對(duì)于不同數(shù)量的待選模型,R-OC準(zhǔn)則均能識(shí)別出擬合和預(yù)測(cè)精度都較高的模型。