何思平,蘇懷智,姚可夫
(1.河海大學(xué) 水文水資源與水利工程科學(xué)國家重點(diǎn)實(shí)驗(yàn)室,南京 210098; 2.河海大學(xué) 水利水電學(xué)院,南京 210098)
以監(jiān)測效應(yīng)量為基本依據(jù)的大壩安全監(jiān)控是評價(jià)大壩工作性態(tài)的重要途徑,吳中如[1]基于原型監(jiān)測資料構(gòu)建了統(tǒng)計(jì)模型,在實(shí)際工程中應(yīng)用廣泛。然而,大壩工作性態(tài)受到地質(zhì)和工程因素的不確定性影響,將效應(yīng)量與環(huán)境量之間視為確定性因果關(guān)系的傳統(tǒng)監(jiān)控模型存在一定不足。對此,蘇懷智等[2]通過物元變換建立模糊物元模型,實(shí)現(xiàn)了對大壩工作性態(tài)的定性和定量集成描述;何金平[3]利用信息熵理論研究了大壩健康診斷的不確定性問題。另一方面,近年來隨著計(jì)算機(jī)科學(xué)的不斷融入,數(shù)據(jù)挖掘理念為大壩安全評價(jià)提供了新思路。姜振翔等[4]利用測值的信號(hào)頻率特征分離出系統(tǒng)信號(hào)和隨機(jī)信號(hào),結(jié)合支持向量機(jī)(SVM)處理不同信號(hào)的優(yōu)勢,提出一種基于多元統(tǒng)計(jì)結(jié)合小波分解和支持向量機(jī)的大壩位移監(jiān)控模型,取得了較好的預(yù)報(bào)效果;王偉等[5]提出基于改進(jìn)粒子群算法的大壩監(jiān)控加權(quán)統(tǒng)計(jì)模型,通過計(jì)算單體與種群平均位置的距離信息確定兩者之間的學(xué)習(xí)因子,加強(qiáng)了種群跳出局部最小的能力,提高了在大壩運(yùn)行初期監(jiān)測資料較少情況下的預(yù)報(bào)精度。上述算法的使用雖取得了一定成果,但未充分挖掘監(jiān)測數(shù)據(jù)本身蘊(yùn)藏的大壩安全信息,且部分算法參數(shù)的設(shè)定依賴于主觀經(jīng)驗(yàn),泛化性能較差。RFM(Recency Frequency Magnitude)模型是在非線性時(shí)空分布數(shù)據(jù)中進(jìn)行數(shù)據(jù)挖掘并抽象出客觀規(guī)律的重要途徑,在運(yùn)行管理和預(yù)測分析領(lǐng)域應(yīng)用廣泛。Wu等[6]提出了一種基于改進(jìn)隨機(jī)森林模型的新方法,通過將RFM模型與K均值算法相結(jié)合計(jì)算價(jià)值指數(shù)指標(biāo),構(gòu)建了均方根誤差(RMSE)在各種數(shù)據(jù)挖掘模型中最小的消費(fèi)預(yù)測模型,獲得了較好的效果;盧佳穎[7]基于RFM模型探究了可應(yīng)用于用戶生成內(nèi)容模式下的數(shù)字內(nèi)容產(chǎn)品的綜合激勵(lì)模型,提供了面向不同類型用戶的激勵(lì)策略。
為了更好地從監(jiān)測數(shù)據(jù)本身挖掘出潛在安全信息,本文將RFM模型引入大壩安全評價(jià)領(lǐng)域,并發(fā)展為一種自適應(yīng)的大壩實(shí)測性態(tài)評價(jià)模型,弱化了主觀性對大壩性態(tài)評價(jià)的影響;詳細(xì)闡述了RFM自適應(yīng)安全評價(jià)模型的理論依據(jù)和使用方法,通過工程實(shí)例展示了模型的自適應(yīng)特性,從數(shù)據(jù)挖掘角度為大壩病變綜合分析診斷方法提供了新思路。
定義RFM指標(biāo)物理意義如式(1)—式(3)所示。
Rk=TW-TkE;
(1)
Fk=Nk;
(2)
(3)
式中:TW為開展安全評價(jià)的日期;TkE為第k類監(jiān)測數(shù)據(jù)最后一次觀測時(shí)間;Nk為第k類監(jiān)測數(shù)據(jù)總數(shù);Pi為監(jiān)測值;具體到大壩安全監(jiān)測效應(yīng)量中,Rk為第k類監(jiān)測數(shù)據(jù)最近一次觀測日距離自適應(yīng)評價(jià)的時(shí)間間隔;Fk為自適應(yīng)評價(jià)選取的時(shí)間序列中第k類監(jiān)測數(shù)據(jù)的頻次;Mk為自適應(yīng)評價(jià)選取的時(shí)間序列中第k類監(jiān)測數(shù)據(jù)取絕對值后的累計(jì)值。
假定大壩監(jiān)測序列滿足正態(tài)分布,其概率密度函數(shù)為式(4)。
(4)
式中:σ為序列標(biāo)準(zhǔn)差;μ為序列均值。
觀察實(shí)際工程中處于運(yùn)行期的大壩監(jiān)測序列分布圖像,根據(jù)測值區(qū)間、波動(dòng)趨勢和正負(fù)測值分布情況等大壩行為的強(qiáng)周期性時(shí)序特征,定義監(jiān)測序列為以下兩種:①“中層型序列”。監(jiān)測數(shù)據(jù)一般有正負(fù)測值且隨季節(jié)變換呈現(xiàn)周期性變化,越靠近全序列的均值,大壩工作性態(tài)越相對趨于安全。②“底層型序列”。監(jiān)測數(shù)據(jù)一般只有正測值,無明顯波動(dòng)趨勢,越靠近序列最小值,大壩工作性態(tài)越好。根據(jù)上述定義,中層型序列包括水平位移、垂直位移、應(yīng)變、壩體溫度、裂縫開度等;底層型序列包括滲流量、壩基滲壓等。
對于運(yùn)行期的大壩,若無異常險(xiǎn)情,其監(jiān)測效應(yīng)量一般呈現(xiàn)周期性變化規(guī)律并在序列均值附近上下波動(dòng)。對于監(jiān)測序列的劃分方法,根據(jù)監(jiān)測數(shù)據(jù)本身的分布特征,定義“等概率分布”規(guī)則:以序列均值為中心,由式(4)計(jì)算均值附近分布概率為1/3的范圍,由此確定上下分界線;上下分界線之間為“區(qū)間2”,下分界線以下為“區(qū)間1”,上分界線以上為“區(qū)間3”,則監(jiān)測數(shù)據(jù)分布在3個(gè)區(qū)間的概率均為1/3,以某壩PL6測點(diǎn)水平位移為例展示序列分區(qū)如圖1。
圖1 某壩PL6測點(diǎn)水平位移序列分區(qū)
根據(jù)中層型和底層型序列特性,中層型序列的最優(yōu)區(qū)間為區(qū)間2,底層型序列的最優(yōu)區(qū)間為區(qū)間1。選擇不同工程共314組經(jīng)粗差處理后的實(shí)測數(shù)據(jù),根據(jù)等概率分布劃分序列,探索監(jiān)測數(shù)據(jù)按區(qū)間劃分后的RFM數(shù)據(jù)分布情況,統(tǒng)計(jì)結(jié)果如表1、表2,其中Ri、Fi、Mi(i=1,2,3)分別表示區(qū)間i中監(jiān)測數(shù)據(jù)的RFM數(shù)據(jù)。
表1 中層型序列RFM數(shù)據(jù)分布
表2 底層型序列RFM數(shù)據(jù)分布
以中層型序列R分布為例,R1>R2或R3>R2的概率分布區(qū)間為[0.72,1.0],相對較高,根據(jù)中層型序列最優(yōu)區(qū)間為區(qū)間2可得出結(jié)論:中層型序列R越大對應(yīng)壩體工作性態(tài)越不利。類似地,綜合兩種序列的最優(yōu)區(qū)間和各區(qū)間中RFM數(shù)據(jù)的概率分布,挖掘監(jiān)測數(shù)據(jù)分布特征:
(1)中層型序列R越大,壩體工作性態(tài)越不利;底層型序列R越小,壩體工作性態(tài)越不利。
(2)中層型序列F越大,壩體工作性態(tài)越不利;底層型序列F越小,壩體工作性態(tài)越不利。
(3)中層型、底層型序列M越大,壩體工作性態(tài)越不利。
大壩安全監(jiān)測序列具有典型連續(xù)性特征,很難人為地確定類別數(shù)。Calinski-Harabasz準(zhǔn)則(簡稱“CH評分準(zhǔn)則”)通過評估類間方差SSB和類內(nèi)方差SSW計(jì)算K-means算法在不同聚類數(shù)下的得分S,分值越大聚類效果越好[8],計(jì)算公式為式(5)—式(7)。
(5)
(6)
(7)
式中:K為聚類類數(shù);N為監(jiān)測數(shù)據(jù)總數(shù);Cq為類q監(jiān)測數(shù)據(jù)的集合;cq為類q的中心;cE為全部監(jiān)測數(shù)據(jù)的中心;nq為類q的數(shù)據(jù)總數(shù)。
當(dāng)N?K時(shí),歸一化因子(N-K)/(K-1)隨K增加而減小,可能導(dǎo)致試驗(yàn)中K=2時(shí)得到最高分,但僅將監(jiān)測序列分為2類不符合本文要求,因此需確定一個(gè)K≠2的局部最優(yōu)聚類數(shù)Kopt。
選擇監(jiān)測序列導(dǎo)入K-means算法聚類的主要流程:
(1)數(shù)據(jù)合并和清洗:合并監(jiān)測數(shù)據(jù)到一個(gè)數(shù)據(jù)文件,清洗數(shù)據(jù)使觀測時(shí)間一致并歸一化測值,最終得到n個(gè)序列的m組數(shù)據(jù),構(gòu)成監(jiān)測數(shù)據(jù)樣本xij(1≤i≤n,1≤j≤m)。
(2)將xij導(dǎo)入K-means算法,由CH評分準(zhǔn)則確定最佳聚類數(shù)并聚類。
(3)確定監(jiān)測數(shù)據(jù)所屬類別:xij?k(1≤i≤n,1≤j≤m,1≤k≤Kopt)。
基于RFM模型的自適應(yīng)大壩實(shí)測性態(tài)綜合評價(jià)體系主要由兩方面構(gòu)成:①根據(jù)監(jiān)測數(shù)據(jù)的等概率分布特征自適應(yīng)計(jì)算RFM指標(biāo)權(quán)重,基于聚類算法自適應(yīng)劃分監(jiān)測序列并得到最優(yōu)類別;②通過各類別的RFM數(shù)據(jù)計(jì)算指標(biāo)評分進(jìn)而評價(jià)大壩安全。
(8)
(9)
(10)
(11)
(12)
(13)
式中:AωT為賦權(quán)和向量;n為判斷矩陣階數(shù);λave為賦權(quán)和向量在RFM各分量上的均值;CI為一般一致性指標(biāo);RI為平均隨機(jī)一致性指標(biāo),對于3階判斷矩陣取為0.58;CR為隨機(jī)一致性比率。
監(jiān)測序列經(jīng)過聚類算法自適應(yīng)劃分類別后,均存在一個(gè)最優(yōu)類別kopt,確定kopt的流程如下:
(1)根據(jù)序列類型和等概率分布規(guī)則確定序列最優(yōu)區(qū)間。
(2)由式(14)計(jì)算最優(yōu)區(qū)間中各類別數(shù)據(jù)的占比G1(k);由式(15)計(jì)算各類別數(shù)據(jù)位于最優(yōu)區(qū)間的比例G2(k)。
(14)
(15)
式中:Nk為最優(yōu)區(qū)間中類k的數(shù)據(jù)總數(shù);Mk為類k的數(shù)據(jù)總數(shù)。
(3)由式(16)計(jì)算貢獻(xiàn)度G(k),G(k)最大值對應(yīng)的類別為最優(yōu)類別kopt,該類別的RFM數(shù)據(jù)為最優(yōu),記為(Ropt,Fopt,Mopt)。
G(k)=G1(k)+G2(k) 。
(16)
(17)
S=Δ·ωT。
(18)
式中(Rk,Fk,Mk)為類k的RFM數(shù)據(jù)。
已有大壩安全評價(jià)體系的指標(biāo)通常從監(jiān)測效應(yīng)量或環(huán)境量中選擇,根據(jù)監(jiān)測資料的總結(jié)與反饋、工程類比以及專家建議,將指標(biāo)的安全等級(jí)劃分為5等,分別為正常、基本正常、輕度異常、重度異常、惡性失常[10]。事實(shí)上,由于大壩的工作條件、病變模式和病變機(jī)理各不相同,不同實(shí)際工程的病變分析診斷沒有一個(gè)定式[11],因此將同一指標(biāo)區(qū)間應(yīng)用到不同大壩安全評價(jià)中具有較大不確定性。為弱化主觀經(jīng)驗(yàn)的干擾,建立RFM指標(biāo)評分與大壩安全評價(jià)的映射關(guān)系,RFM自適應(yīng)模型根據(jù)監(jiān)測數(shù)據(jù)的RFM指標(biāo)評分S,由3σ準(zhǔn)則自行劃定評分區(qū)間Sgra={Snor,Sbas,Sabn},并計(jì)算最大異常度Udeg如式(19),構(gòu)建了完整的大壩性態(tài)安全評價(jià)體系。
(19)
式中:σ為評分標(biāo)準(zhǔn)差;Snor為評分正常區(qū)間;Sbas為評分基本正常區(qū)間;Sabn為評分異常區(qū)間;Smax為評分最大值。
基于K-means算法和RFM自適應(yīng)模型的大壩安全評價(jià)基本思路為:首先選擇監(jiān)測數(shù)據(jù)進(jìn)行清洗和歸一化處理;其次根據(jù)序列類型和等概率分布規(guī)則確定監(jiān)測數(shù)據(jù)分布特征并計(jì)算RFM指標(biāo)權(quán)重;然后將監(jiān)測序列導(dǎo)入K-means算法自適應(yīng)聚類并確定最優(yōu)類別;最后計(jì)算RFM指標(biāo)評分,確定大壩安全等級(jí)。具體步驟如下,流程如圖2。
圖2 基于自適應(yīng)RFM模型的大壩安全評價(jià)流程
步驟1:選擇監(jiān)測數(shù)據(jù)合并為一個(gè)文件,進(jìn)行數(shù)據(jù)清洗和歸一化處理使時(shí)間序列一致并消除數(shù)據(jù)單位和數(shù)量級(jí)對之后聚類效果的影響。
步驟2:確定序列類型為“中層型”或“底層型”,根據(jù)等概率分布規(guī)則確定監(jiān)測數(shù)據(jù)分布概率。
步驟3:根據(jù)步驟2的分布概率結(jié)果,自適應(yīng)確定RFM指標(biāo)權(quán)重。
步驟4:將處理后的監(jiān)測數(shù)據(jù)導(dǎo)入K-means算法,通過CH評分準(zhǔn)則確定最佳聚類數(shù)并聚類。
步驟5:根據(jù)K-means聚類結(jié)果確定監(jiān)測數(shù)據(jù)類別,計(jì)算各類別的RFM數(shù)據(jù)。
步驟6:通過計(jì)算各類監(jiān)測數(shù)據(jù)的貢獻(xiàn)度確定最優(yōu)類別。
步驟7:根據(jù)指標(biāo)權(quán)重和各類別RFM數(shù)據(jù)計(jì)算指標(biāo)評分,由3σ準(zhǔn)則自適應(yīng)劃定評分區(qū)間安全等級(jí)。
步驟8:根據(jù)RFM指標(biāo)評分和自適應(yīng)評分區(qū)間進(jìn)行大壩安全評價(jià)。
以某大壩水平位移監(jiān)測為例,通過建立該壩水平位移RFM自適應(yīng)安全評價(jià)模型確定各壩段的RFM指標(biāo)評分并對大壩工作性態(tài)作出評價(jià)。該壩工程概況如下:大壩為混凝土雙支墩肋墩壩,工程等級(jí)為大(2)型,安全監(jiān)測系統(tǒng)由變形、滲流、溫度和應(yīng)力監(jiān)測組成,其中自動(dòng)化水平位移監(jiān)測幾乎涵蓋全部壩段,工程平面布置如圖3。已有的水平位移資料分析如下:水平位移由上下游方向(y向,測點(diǎn)標(biāo)號(hào)后綴為“_1”)和左右岸方向(x向,測點(diǎn)標(biāo)號(hào)后綴為“_2”)組成,y向位移普遍大于x向位移;2006—2018年因存在補(bǔ)強(qiáng)加固工程措施,各測點(diǎn)上下游方向水平位移的均值、極值和年變幅均比加固之前略大,但左右岸方向水平位移明顯減小;靠近中部河床壩段的上下游向位移總體上比靠近兩岸壩段的大;靠近兩岸壩段的側(cè)向位移總體上比靠近河床壩段的大;自2002年以來水平位移周期性變化規(guī)律明顯,測值變化基本穩(wěn)定。
圖3 大壩平面布置
選取2008年6月至2017年12月的測值,其中12#壩段測值嚴(yán)重缺失,將其剔除。合并、清洗數(shù)據(jù)得到24個(gè)測點(diǎn)共3 453組測值,構(gòu)成歸一化的監(jiān)測數(shù)據(jù)樣本{xij}24×3 453。
根據(jù)式(5)—式(7)計(jì)算CH評分,如圖4,最佳聚類數(shù)為4類;根據(jù)式(14)—式(16)計(jì)算貢獻(xiàn)度確定各序列最優(yōu)類別,如表3。
圖4 不同聚類數(shù)的CH評分
表3 各序列最優(yōu)類別
以PL2_1為例繪制監(jiān)測數(shù)據(jù)類別圖,如圖5。因數(shù)據(jù)處理過程中要求各測點(diǎn)的時(shí)間序列一致,故受缺失序列的影響,圖5中有小部分缺失值;各類別貢獻(xiàn)度如圖6,其中第3類監(jiān)測數(shù)據(jù)貢獻(xiàn)度最大,為84.22%。
圖5 PL2_1測點(diǎn)類別分布
圖6 PL2_1測點(diǎn)各類別貢獻(xiàn)度
由式(1)—式(3)計(jì)算水平位移RFM數(shù)據(jù),其中設(shè)定TW為2018年1月1日。展示PL2_1測點(diǎn)各類別RFM數(shù)據(jù),如表4,其中第3類為最優(yōu)。數(shù)據(jù)清洗使得各測點(diǎn)時(shí)間序列一致,因此聚類后各測點(diǎn)RF數(shù)據(jù)一致,但測值不同,所以M數(shù)據(jù)不同。
表4 PL2_1測點(diǎn)RFM數(shù)據(jù)
由式(8)—式(10)自適應(yīng)構(gòu)建判斷矩陣為式(20),計(jì)算RFM指標(biāo)權(quán)重為ω=[0.17,0.33,0.5];由式(11)—式(13)計(jì)算得到λave=3.01,CI=0.005,CR=0.009<0.1,通過一致性檢驗(yàn),指標(biāo)權(quán)重有效。
(20)
根據(jù)水平位移RFM數(shù)據(jù)和最優(yōu)類別,由式(17) —式(18)計(jì)算RFM指標(biāo)評分;計(jì)算指標(biāo)評分標(biāo)準(zhǔn)差σ=0.9,由式(19)自適應(yīng)劃分水平位移評分區(qū)間如式(21)。繪制水平位移RFM指標(biāo)評分,如圖7。
圖7 水平位移RFM指標(biāo)評分
(21)
根據(jù)圖7,有以下結(jié)論:x向水平位移RFM指標(biāo)評分普遍小于y向,表明同一壩段的x向變形優(yōu)于y向;除4#和11#壩段外,同類別y向水平位移RFM指標(biāo)評分表現(xiàn)為靠近河床壩段大于兩岸壩段,表明兩岸壩段y向變形優(yōu)于河床壩段;同類別x向水平位移RFM指標(biāo)評分表現(xiàn)為10#至13#壩段(右岸壩段)顯著大于6#至8#壩段(河床壩段),表明河床壩段x向變形優(yōu)于兩岸壩段。上述結(jié)論均與已有的資料分析一致。根據(jù)水平位移評分區(qū)間,除4#和11#壩段外,其余壩段工作性態(tài)評價(jià)均為“正?!被颉盎菊!?;4#壩段PL4_1測點(diǎn)RFM指標(biāo)評分為3.89,對應(yīng)最大異常度Udeg=5.1%,建議加強(qiáng)大壩上下游向水平位移監(jiān)測并采取措施控制變形,與文獻(xiàn)[12]結(jié)論相符。
聚類不同的監(jiān)測數(shù)據(jù)可得到不同的類別劃分,對應(yīng)的指標(biāo)評分結(jié)果也就不同,因此通過選擇合適的監(jiān)測序列可實(shí)現(xiàn)在不同尺度上評價(jià)大壩安全。以本例中RFM指標(biāo)評分最高的PL4_1測點(diǎn)為例分析大壩變形趨勢。數(shù)據(jù)清洗過程破壞了2015—2018年P(guān)L4_1序列的連續(xù)性,故選擇連續(xù)性較好的2009—2014年監(jiān)測數(shù)據(jù)分析4#壩段變形趨勢,如圖8。從圖8可知,上下游向水平位移的年際指標(biāo)評分變化趨勢與年變幅變化趨勢基本吻合且均趨于穩(wěn)定,其中2010年變幅較前一年發(fā)生突變,對應(yīng)指標(biāo)評分出現(xiàn)最大值7.20。需要說明的是,2009—2014年監(jiān)測數(shù)據(jù)的類別信息是從大壩水平位移監(jiān)測數(shù)據(jù)樣本{xij}24×3 453的聚類分析中繼承的,可作為大壩變形趨勢分析的依據(jù),但由于未按照流程構(gòu)建完整的模型,因此這里的指標(biāo)評分并不能作為評價(jià)大壩是否安全的依據(jù)。
監(jiān)測效應(yīng)量較小的異常度在宏觀觀測中難以直接體現(xiàn),因此傳統(tǒng)大壩安全監(jiān)測很有可能忽略這種潛在且微小的異?,F(xiàn)象;根據(jù)RFM指標(biāo)評分可以挖掘出這種安全隱患,及時(shí)向監(jiān)測人員反饋評價(jià)結(jié)果并制定補(bǔ)強(qiáng)加固措施。實(shí)例分析表明RFM自適應(yīng)模型有效降低了工程經(jīng)驗(yàn)對大壩服役性態(tài)評價(jià)的干擾,挖掘了潛在的微小異常,可作為評價(jià)大壩安全的依據(jù)。
(1)自適應(yīng)劃分監(jiān)測數(shù)據(jù)類別并計(jì)算RFM指標(biāo)評分與自適應(yīng)確定大壩服役性態(tài)評分區(qū)間,共同構(gòu)成了自適應(yīng)大壩安全評價(jià)體系。
(2)RFM自適應(yīng)模型從監(jiān)測數(shù)據(jù)挖掘角度開展大壩安全評價(jià),有效避免了傳統(tǒng)模型的經(jīng)驗(yàn)性活動(dòng),實(shí)例分析表明,RFM自適應(yīng)模型可識(shí)別潛在且微小的異?,F(xiàn)象,基于不同的監(jiān)測數(shù)據(jù)選擇模式可實(shí)現(xiàn)多角度評價(jià)大壩服役性態(tài)。
(3)充分運(yùn)用計(jì)算機(jī)科學(xué)處理大壩監(jiān)測數(shù)據(jù)為自適應(yīng)分析診斷大壩病變提供了一種有效途徑,本文提出的RFM自適應(yīng)大壩安全評價(jià)模型正是這種理念的探索和實(shí)踐,可以指導(dǎo)大壩的運(yùn)維管理。
(4)下一步可通過選擇不同類監(jiān)測數(shù)據(jù)計(jì)算指標(biāo)評分,確定影響大壩安全的不利因素,或選擇功能相似壩段的同類監(jiān)測數(shù)據(jù),通過指標(biāo)評分判斷各壩段工作性態(tài)的差異,以進(jìn)一步完善本模型在大壩安全監(jiān)控領(lǐng)域的應(yīng)用。