張建喜, 臧德彥
(東華理工大學測繪工程學院,江西撫州344000)
主成分分析與BP網(wǎng)絡組合的大壩變形預報
張建喜, 臧德彥
(東華理工大學測繪工程學院,江西撫州344000)
將主成分分析與BP神經(jīng)網(wǎng)絡相結合應用到大壩變形影響因子的優(yōu)化中,建立大壩變形預測模型??梢杂行У亟档洼斎胍蜃拥木S數(shù),減小因子之間相關性的影響,簡化網(wǎng)絡結構,降低網(wǎng)絡訓練難度,提高預測的穩(wěn)定性及精度,提升BP網(wǎng)絡訓練的效率,解決由影響因子內部相關性而需引入大量因子的問題。通過實驗結果對比表明,主成分分析與BP網(wǎng)絡相結合的大壩預報模型精度及穩(wěn)定性明顯優(yōu)于其他模型。
主成分分析;大壩變形;BP神經(jīng)網(wǎng)絡
大壩安全監(jiān)測數(shù)據(jù)處理模型通常采用的數(shù)學模型主要有統(tǒng)計模型、確定模型、混合模型等(李珍照,1997)。其中統(tǒng)計模型和混合模型一般多采用回歸分析方法來建立,對事先擬定的因子進行篩選及系數(shù)求解,但所選的因子之間有時會存在嚴重的相關性,這種相關性有時會對預測效果產生較大的影響。目前對擬定大壩變形影響因子進行系數(shù)求解的方法主要采用的是相關性判別法。這種方法雖然能準確確定每一個影響因子與大壩變形的相關性,但經(jīng)過相關性判別只是線性地確定大壩位移影響因子與大壩變形量之間的關系,并沒有對影響因子之間的相關性進行分析,并且由于影響因子之間存在相關性,將會引入大量無效變量。主成分分析可以有效地解決變量之間的多重相關性問題(農吉夫等,2008)。本文主要利用主成分分析構造神經(jīng)網(wǎng)絡學習矩陣,將主成分分析與BP神經(jīng)網(wǎng)絡相結合,同時將傳統(tǒng)的BP網(wǎng)絡進行了改進,引入了動量訓練算法,降低了網(wǎng)絡對于誤差曲面局部細節(jié)的敏感性,有效地抑制了網(wǎng)絡陷入局部極小的問題。建立大壩變形預測模型,通過matlab編程實現(xiàn),并將預測結果與BP網(wǎng)絡模型、灰色模型進行對比分析,得出基于主成分分析的BP神經(jīng)網(wǎng)絡可以有效地降低輸入因子的維數(shù),減小因子之間相關性的影響,簡化網(wǎng)絡結構,降低網(wǎng)絡訓練難度,提高了預測的穩(wěn)定性及精度。
主成分分析(吳翊等,1995)是研究多個變量間相關性的一種多元統(tǒng)計方法。通過少數(shù)幾個主分量解釋多變量的方差,即導出少數(shù)幾個主分量,使他們盡可能完整地保留原始變量的信息,且彼此不相關,以達到簡化數(shù)據(jù)的目的。
現(xiàn)以廣州蓄能水電廠河床壩段壩頂?shù)?#觀測點2000年4月12日至2003年4月16日Y向水平位移觀測值為例,說明主成分對大壩位移影響因子的判定的重要性,考慮到大壩位移產生的原因主要由揚壓力、溫度、時效引起,因此,將h,h2,h3,h4,h5,θ,θ2,θ3,θ4,θ5,lnθ,sinG,cosG,sinG*cosG,sin2G,T0(h為上游水位值,θ為觀測值當天到起測日之間的累計天數(shù)除以100,G=2πt/365,t為觀測時刻距初始時間的天數(shù))作為大壩位移的影響因子,如果直接將這16個影響因子作為神經(jīng)網(wǎng)絡的輸入因子,必然會引入一些冗余的影響因子,所以必須對影響因子與大壩位移的相關性進行判定,本文采用pearson相關性判別法。假定大壩位移量為y,大壩位移影響因子中的各個影響要素用x表示,根據(jù)普濟(2008)pearson相關系數(shù)
表1 影響因子與大壩位移之間的pearson相關系數(shù)Tab.1 The pearson coefficient between impact factors and dam displacement
根據(jù)Pearson相關性顯著性表,確定T0,sinG,cosG,h,h2,h3,h4,h5與大壩位移量顯著相關。同時,揚壓力影響因子h,h2,h3,h4,h5相互之間完全相關。如果將揚壓力影響因子h,h2,h3,h4,h5全部作為神經(jīng)網(wǎng)絡的輸入因子,勢必會造成信息的重疊。同時自變量之間的相關性較大,使輸入矩陣為病態(tài),神經(jīng)網(wǎng)絡求得的解不穩(wěn)定,且收斂速度很慢(李雪紅等,2001)。主成分分析法就是將彼此之間相關性比較大的影響因子進行簡化,同時又不影響原有影響因子所代表的信息。對揚壓力影響因子的51個樣本進行主成分分析,每個樣本共有5個指標(變量)對其進行描述。這樣便構成了階的數(shù)據(jù)矩陣H:變量H有不同的量綱,由此會引起各變量取值的分散程度差異較大,這時變量H的總方差受方差較大的變量控制,若由原變量的協(xié)方差矩陣出發(fā)進行主成分分析,則優(yōu)先考慮了方差較大的變量,不僅給主成分變量的解釋帶來困難,還會造成不合理的結果。所以為了消除原變量彼此方差差異過大的影響,則需將原變量進行標準化處理。標準化之后得到矩陣H1:
H1與原始變量H的結構完全相同,代表了原始變量所有信息。對標準化后的變量H1做線性組合分析,得出新的變量指標Hk:
變量Hk的維數(shù)相對于H得到了降低,同時它又能包含變量H中的大部分信息。最終將Hk,T0,sinG,cosG作為大壩位移的影響因子。
BP神經(jīng)網(wǎng)絡即誤差后向傳播神經(jīng)網(wǎng)絡是目前神經(jīng)網(wǎng)絡中使用最廣泛的一類。從結構上,BP網(wǎng)絡是典型的多層網(wǎng)絡,分為輸入層、隱含層和輸出層,層與層之間多采用全互聯(lián)方式,同一層單元之間不存在相互連接(黃紅女等,2003)。神經(jīng)元結構同普通神經(jīng)元結構類似(危志明等,2009),只是為了學習算法的推導,將閥值的作用等效為第0個輸入端,該輸入端的輸入值恒定為1,并且令w0=-θi,于是神經(jīng)元的輸出為:
輸入層接收信息經(jīng)隱含層作用函數(shù)處理后傳出到輸出層。
BP網(wǎng)絡構建過程中訓練函數(shù)的選取及訓練過程中學習速率的選取將直接影響到訓練時間、穩(wěn)定性及預報精度。本文基于BP算法(劉金生等,2008)的主要缺點:收斂速度慢、局部極值、難以確定隱含層和隱含層節(jié)點個數(shù)。從而提出了啟發(fā)式的學習算法,就是對于表現(xiàn)函數(shù)梯度加以分析,從而改進算法,傳統(tǒng)的BP網(wǎng)絡訓練過程是沿著負梯度方向調整權值,并沒有考慮到以前積累的經(jīng)驗,即以前時刻的梯度方向,從而常常使學習過程發(fā)生振蕩,收斂緩慢。而動量梯度下降法將動量因子加入到權值調整過程中,可得:
其中,D(k)表示k時刻的負梯度,D(k-1)表示k-1時刻的負梯度,η為學習率,α∈[0,1]是動量因子。所加入的此動量項減小了學習過程的振蕩趨勢,改善了收斂性。但實踐表明,BP網(wǎng)絡學習過程中學習速率η,動量系數(shù)α等值的選取,將直接影響到訓練時間和成果精度(趙斌等,1999)。目前對BP網(wǎng)絡中學習速率,動量系數(shù)的確定沒有統(tǒng)一的計算模式,只能通過不斷訓練,根據(jù)經(jīng)驗做出判斷,筆者多次對不同的η,α進行訓練、預測。確定學習率α=0.05,動量因子α=0.7作為網(wǎng)絡的訓練參數(shù)比較合適,此時網(wǎng)絡訓練較為穩(wěn)定,網(wǎng)絡預報精度較高。
將經(jīng)過主成分分析所確定的大壩位移影響因子作為BP網(wǎng)絡的輸入量,以廣州蓄能水電廠河床壩段壩頂?shù)?#觀測點2000年4月12日至2003年4月16日Y向水平位移觀測值作為輸出因子,在BP網(wǎng)絡訓練,預報之前,需要確定網(wǎng)絡隱含層節(jié)點數(shù)。目前對BP網(wǎng)絡隱含層節(jié)點數(shù)的確定主要采用0.618黃金分割法,經(jīng)驗公式法。由于黃金分割法計算較為繁瑣,并且BP神經(jīng)網(wǎng)絡的訓練存在偶然性,一次性黃金分割法所確定的隱含層節(jié)點數(shù)不一定是最佳的。本文將給予經(jīng)驗公式o=2m+1(o為隱含層節(jié)點數(shù),m為輸入節(jié)點數(shù))外加多次訓練逐步試探確定最佳隱含層節(jié)點數(shù)。經(jīng)驗公式所確定的隱含層節(jié)點數(shù)如表2所示。
表2 基于經(jīng)驗公式的隱含層節(jié)點數(shù)Tab.2 The hidden layer nodes based on empirical formula
基于BP網(wǎng)絡,在經(jīng)驗公式所確定隱含層節(jié)點數(shù)兩邊進行不斷訓練,不斷試探,為了體現(xiàn)公平訓練,公平預報原則,訓練參數(shù)都將統(tǒng)一設置,為了避免訓練和預報的偶然性,對于每一個節(jié)點數(shù)都采取訓練8次,預報8次,訓練和預報結果的平均誤差如表3所示。
表3 最佳隱含層節(jié)點數(shù)Tab.3 The best hidden layer nodes
從表3可以看出對于由主成分分析法所確定的影響因子BP網(wǎng)絡預報模型,其最佳隱含層節(jié)點數(shù)為9,傳統(tǒng)方法所確定的影響因子BP網(wǎng)絡預報模型,其最佳隱含層節(jié)點數(shù)為17。
將建立好的BP網(wǎng)絡輸入樣本數(shù)據(jù)進行預報。由于原始觀測數(shù)據(jù)的單位不同,因此需要對原始數(shù)據(jù)的自變量和因變量進行歸一化處理,本例中的BP神經(jīng)網(wǎng)絡方法的激活函數(shù)采用sigmoid函數(shù),故將輸入數(shù)據(jù)歸化到(-1,1)可提高網(wǎng)絡的收斂速度;函數(shù)的因變量范圍為(-1,1),故網(wǎng)絡的輸出值也應歸化到(-1,1)歸一化公式如下:
式中xmax,xmin分別為每組因子變量的最大值和最小值;x,x'分別為每組因子變量規(guī)格化前和規(guī)格化后的值。
選取歸一化后的前40組數(shù)據(jù)作為BP網(wǎng)絡的訓練樣本,對于后11組數(shù)據(jù)進行預測,并用來與原始觀測數(shù)據(jù)建模的BP神經(jīng)網(wǎng)絡模型、灰色模型預測結果進行對比分析,為了避免訓練和預報的偶然性,采取對不同方法所確定的影響因子分別訓練8次、預報8次的原則,對8次預測結果平均值進行對比分析(圖1,表4),預測殘差如圖2所示。
表4預測結果Tab.4 The prediction results mm
從圖1和圖2中可以明顯看出,基于主成分分析的BP網(wǎng)絡預測精度及穩(wěn)定性明顯優(yōu)于BP網(wǎng)絡模型、灰色預測模型。
(1)由本文模型和算例可以看出將主成分分析法與BP神經(jīng)網(wǎng)絡相結合,可以有效地降低輸入因子的維數(shù),減小因子之間相關性的影響,簡化網(wǎng)絡結構,降低網(wǎng)絡訓練難度,提高了預測的穩(wěn)定性及精度。同時將傳統(tǒng)的BP網(wǎng)絡進行了改進,引入了動量訓練算法,降低了網(wǎng)絡對于誤差曲面局部細節(jié)的敏感性,有效地抑制了網(wǎng)絡陷入局部極小的問題,其收斂性比傳統(tǒng)的BP網(wǎng)絡要好,由此得出結論,基于主成分分析與BP網(wǎng)絡相結合的預報模型精度及穩(wěn)定性明顯優(yōu)于其他模型。
(2)在大壩變形預測之前,需要引入大量的前期觀測數(shù)據(jù),而觀測數(shù)據(jù)中的無效數(shù)據(jù)將直接影響到大壩預測的穩(wěn)定性及精度,怎樣剔除觀測數(shù)據(jù)中的無效數(shù)據(jù)將有待進一步探討。
李珍照.1997.大壩安全監(jiān)測[M].北京:中國電力出版社.
農吉夫,金龍.2008.基于MATLAB的主成分RBF神經(jīng)網(wǎng)絡降水預報模型[J].熱帶氣象學報,24(6):713-717.
吳翊,李永樂,胡慶軍.1995.應用數(shù)理統(tǒng)計[M].長沙:國防科技大學出版社.
普濟.2008.數(shù)理統(tǒng)計與應用第7講 相關與回歸(2)——相關系數(shù)[J].中國質量,8:85-89.
李雪紅,徐洪鐘,顧沖時,等.2001.主成分神經(jīng)網(wǎng)絡模型在大壩觀測資料分析中的應用[J].大壩觀測與土工測試,25(5):14-16.
黃紅女,華錫生,王鐵生.2003.利用反向傳播神經(jīng)網(wǎng)絡實現(xiàn)大壩的綜合評判[J].水電自動化與大壩監(jiān)測,27(2):56-58.
趙斌,吳中如,張愛玲.1999.BP模型在大壩安全監(jiān)測預報中的應用[J].大壩觀測與水土測試,23(6):1-3.
劉金生,周煥銀,劉金輝.2008.基于BP神經(jīng)網(wǎng)絡的撫河水環(huán)境質量評價研究[J].東華理工大學學報:自然科學版,31(1):85-88.
危志明,吳良才.2009.基于GADS工具箱的GPS高程擬合方法[J].東華理工大學學報:自然科學版,32(1):89-92.
The Dam Deformation Forecasting of BP Neural Network and Principal Component Analysis
ZHANG Jian-xi, ZANG De-yan
(Faculty of Surveying Engineering,East China Institute of Technology,F(xiàn)uzhou,JX 344000,China)
The principal component analysis with the BP neural network is applied to the optimization of dam deformation impact factors,build the dam deformation forecast model.It can effectively reduce the input factor of dimensionality,simplify network structure,reduce network training difficulties,improve the stability and precision,reduce the correlation between the impact of factor and the efficiency of BP network training is improved,a large number of factors are introduced by the correlation between factors are resolved.The result shows that the accuracy and stability are predicted by the application of BP neural network based on principal component analysis is better than other models.
the principal component analysis;dam deformation;BP neural network
TV698.2+3
A
1674-3504(2011)03-288-05
10.3969/j.issn.1674-3504.2011.03.014
2010-12-31
江西省教育廳重點科技項目(GJJ10022)
張建喜(1986—),男,碩士研究生,主要從事海洋地形測繪理論與應用方向。