苑藝琳
(河北省石家莊水文勘測研究中心,河北 石家莊 050000)
水文預報需要對水域的實時狀況進行全面、具體、長期的持續(xù)監(jiān)測,因此水文數(shù)據(jù)是水文工作中非常重要的因素,然而由于數(shù)據(jù)量過大、網(wǎng)絡事故、人為因素、硬件設施缺陷等問題,水文數(shù)據(jù)缺失錯漏問題頻發(fā)。水文預報數(shù)據(jù)關乎整個系統(tǒng)的安全與穩(wěn)定,因此對水文預報缺失數(shù)據(jù)進行補足修復是當前研究的重點。然后,無論是采用經(jīng)典Nyquist奈奎斯特采樣或是壓縮感知的采樣方式,時常會因為傳感器、傳輸設備、轉(zhuǎn)換設備等故障造成部分采集諧波信號丟失的問題,或是在通信通道,如電力線載波,傳播過程中由于信道的干擾導致數(shù)據(jù)丟失的現(xiàn)象。文獻[1]基于DEM算法建立分布式水文模型,根據(jù)空間分布進行驅(qū)動水文數(shù)據(jù)修正,但該方法對誤差控制精準度不高。文獻[2]采用生成對抗網(wǎng)絡和記憶網(wǎng)絡相結(jié)合的方式結(jié)合構(gòu)建耦合模型,生成與缺失數(shù)據(jù)分布相一致的數(shù)據(jù)特征實現(xiàn)填充,但該方法的填充效果受水文監(jiān)測數(shù)據(jù)周期限制較大。
本文針對傳統(tǒng)方法的不足,提出了一種基于輸出不一致測度的水文預報缺失數(shù)據(jù)流關聯(lián)修復方法,通過輸出不一致測度提取特征矩陣,選用FSOM模糊聚類算法進行分層聚類,優(yōu)化聚類收斂度,再映射回原始數(shù)據(jù)中完成缺失數(shù)據(jù)填補修復,并通過實例分析驗證該方法的修復效果。
對水文預報缺失數(shù)據(jù)進行分析填補,首先需要監(jiān)測采集各項水文特征數(shù)據(jù),采集到的原始的數(shù)據(jù)信息為單一維度信號,通過分類整理將相關聯(lián)的單一維度信號映射到多維灰度圖中[3-4]。映射模式如圖1所示。
圖1 映射模式
多維映射從單一維度信息中進行單一采樣,采樣相鄰數(shù)據(jù)設為6~10個,從數(shù)據(jù)之間的相關關系出發(fā)選擇多維映射策略,既要保留原始單一維度信號的特征屬性,又要在聚類解析過程中能夠根據(jù)數(shù)據(jù)特征和相關關系實現(xiàn)缺失數(shù)據(jù)修復聚類。根據(jù)水文預報數(shù)據(jù)分布規(guī)律,探索多維映射橫向和縱向的相關性規(guī)律。數(shù)據(jù)截斷如圖2所示。
圖2 數(shù)據(jù)截斷
對水文預報缺失數(shù)據(jù)進行捕獲,將水文預報數(shù)據(jù)進行整合,分析捕獲缺失數(shù)據(jù)位置,構(gòu)建訓練模型,對原始數(shù)據(jù)進行訓練,提取數(shù)據(jù)特征[5-6]。通過判別器鑒別數(shù)據(jù)特征分布是否與原始數(shù)據(jù)分布相一致,如果結(jié)果總體一致則可以進行缺失數(shù)據(jù)填補工作。
訓練模型主要包括生成板塊和判別板塊,將水文預報原始數(shù)據(jù)集輸入到生成板塊中進行映射,映射得到的多維灰度圖如圖3所示。
圖3 多維灰度圖
(1)
通過訓練模型對水文數(shù)據(jù)的復位數(shù)值R和趨向數(shù)值Z進行計算,引入多元序列的缺失變量θ,對水文預報缺失數(shù)據(jù)的隱藏單元進行控制:
R(x)=δ(Wrxn+Vrxn-1+θ)Z(x)=δ(Wzxn+Vzxn-1+θ)
(2)
式中,δ—生成板塊引入的各單元之間的權重;W、V—模型各部分的復位參數(shù)和學習參數(shù)。通過數(shù)據(jù)映射得到灰度檢測結(jié)果,能夠分析缺失數(shù)據(jù)分布狀態(tài),通過對缺失數(shù)據(jù)的隱藏單元進行控制,為后續(xù)修復數(shù)據(jù)結(jié)果的導入提供支持。
輸出不一致測度是根據(jù)分類器的輸出標簽進行度量的,對分類器fn和fm,設其輸出結(jié)果為0或1。用Dif(fnk,fmk)表示兩個分類器輸出的差異,當這兩個分類器對第k個樣本的輸出相同時,Dif(fnk,fmk)=0,否則等于1。此測度可由下式進行計算:
(3)
式中,Diversitm,n與分類器fn和fm之間的相異度成正比。以上測度是基于分類器輸出結(jié)果的相異性來衡量的[7-8]。
(4)
顯然,Diversit是個對角線為0的對稱矩陣,用select,表示第i個極限學習機與其它所有極限學習機的相異性[9-10],表達式為:
(5)
基于水文數(shù)據(jù)的相異性結(jié)果可以揭示不同地理區(qū)域的水文特征和差異。通過比較不同水文站點的數(shù)據(jù),可以了解不同地方的降水分布、徑流情況以及水文循環(huán)過程的差異[11-12]。因此基于水文數(shù)據(jù)相異性輸出結(jié)果提取出水文特征規(guī)律,以便真實地反應水文數(shù)據(jù)的基本屬性。整合水文特征數(shù)據(jù)矩陣表達為:
(6)
式中,X—建立的水文數(shù)據(jù)矩陣;n—采集到的數(shù)據(jù)特征數(shù)量;xn—不同特征值對應的特征向量[13-14]。
根據(jù)上述得到的水文特征數(shù)據(jù)矩陣,對水文預報數(shù)據(jù)進行聚類處理。通過聚類分層將所有水文特征數(shù)據(jù)聚類到對應層次,每一層整合為一個數(shù)據(jù)集。根據(jù)數(shù)據(jù)神經(jīng)節(jié)點數(shù)量和隸屬矩陣約束條件,將對應層次數(shù)據(jù)輸入到運算程序中,再對最后得到的聚類效果進行優(yōu)化,實現(xiàn)對水文預報確實數(shù)據(jù)的修復工作。
通過競爭學習原則對目標函數(shù)進行優(yōu)化,進一步解決FSOM神經(jīng)網(wǎng)絡算法不收斂的缺陷。以拉格朗日乘數(shù)法優(yōu)化聚類算法的目標函數(shù),根據(jù)矩陣的遞減順序進行迭代,引入水文數(shù)據(jù)與聚類矩陣之間的隸屬矩陣作為約束條件:
(7)
式中,e—聚類過程中產(chǎn)生的模糊指數(shù);Uin—聚類過程的隸屬度,滿足該隸屬關系的條件下進行聚類優(yōu)化,隨著迭代次數(shù)呈現(xiàn)不同的波動趨勢,在拐點處能夠取得相應的最小值,此時的聚類算法具有良好的收斂性[15]。通過計算會得到多個相對最佳的聚類數(shù)據(jù)特征值,而聚類結(jié)果數(shù)量的大小與合理性將直接影響水文預報數(shù)據(jù)的修復效果,因此需要設定聚類評價指標對聚類效果進行評價,防止聚類過程中出現(xiàn)主觀性選擇。
分析水文預報數(shù)據(jù)的分布狀態(tài),取每個數(shù)據(jù)集中的最大值與最小值進行觀察評估,其變化情況能夠直觀反映整個聚類算法的運算效果。如果數(shù)據(jù)變化的波動不大,則說明聚類效果達到一個比較穩(wěn)定的狀態(tài),數(shù)據(jù)集之間保持良好的相關關系;如果數(shù)據(jù)波動變化仍然較大,則說明聚類效果不穩(wěn)定,需要再次進行約束,直至達到較好的收斂度。
根據(jù)水文預報數(shù)據(jù)的特征矩陣和聚類運算結(jié)果,對多維映射后的水文預報缺失數(shù)據(jù)進行數(shù)據(jù)修復?;谇拔乃龅木垲惙謱硬呗?,對每一層的數(shù)據(jù)特征矩陣進行搜索檢查,查找缺失數(shù)據(jù)的序列位置和分層位置,確定缺失數(shù)據(jù)位置后,在其所在聚類層次中按以下公式進行修復:
(8)
式中,α—缺失數(shù)據(jù)修復數(shù)值;a、b—缺失數(shù)據(jù)所在空間序列位置;z—缺失數(shù)據(jù)所在聚類層次;v—所在層次的可用數(shù)據(jù)量。對修復后的數(shù)據(jù)進行融合運算,更新聚類層級中的權重數(shù)值,對缺失數(shù)據(jù)進行加權運算,得到單一維度映射層更準確更貼切的修復數(shù)據(jù)。完成上述計算后,將修復數(shù)據(jù)結(jié)果導入對應的多維映射層,按照多維映射規(guī)律將數(shù)據(jù)結(jié)果映射到單一維度映射層中,填補原來缺失數(shù)據(jù)位置,實現(xiàn)水文預報缺失數(shù)據(jù)修復。
為了盡量減少映射誤差,應對數(shù)據(jù)平均絕對誤差、平均方根誤差以及信噪比等因素進行計算,針對各個采樣數(shù)據(jù)點修復結(jié)果進行降噪優(yōu)化。對于水文預報中出現(xiàn)數(shù)據(jù)連續(xù)丟失或隨機丟失的情況,可以在矩陣優(yōu)化中引入時間動態(tài)分析對矩陣進行分解,通過多元素分解回歸來適應數(shù)據(jù)修復,目標函數(shù)如下:
(9)
為了驗證本文提出的基于輸出不一致測度的水文預報缺失數(shù)據(jù)修復方法的實際應用效果,進行實例分析。在水資源信息中心中抽取部分水文觀測數(shù)據(jù)。該數(shù)據(jù)集應包含多個水文站點的觀測數(shù)據(jù),同時存在一定比例的缺失數(shù)據(jù)。將數(shù)據(jù)集劃分為訓練集和測試集。訓練集用于模型的訓練和參數(shù)調(diào)整,而測試集用于評估修復方法的實際應用效果。并將修復率最為實例分析指標進行實驗測試,表達式為:
R=(F/T)×100%
(10)
式中,F(xiàn)—已修復數(shù)據(jù)數(shù)量;T—總?cè)笔?shù)據(jù)數(shù)量。
基于上述環(huán)境設置,分別針對水文數(shù)據(jù)出現(xiàn)短暫地升高和降低時出現(xiàn)的異常進行檢測,通過修復判斷缺失數(shù)據(jù)。隨機缺失數(shù)據(jù)修復效果如圖4所示。
圖4 隨機缺失數(shù)據(jù)修復效果
根據(jù)圖4可知,本文提出的修復方法在面對隨機缺失數(shù)據(jù)時,有極好的修復效果,能夠精準地檢測出隨機缺失的數(shù)據(jù)所處位置,根據(jù)周邊數(shù)據(jù)信息完成數(shù)據(jù)修復。
根據(jù)圖4修復結(jié)果,得到本文提出的修復方法隨機數(shù)據(jù)修復率實驗結(jié)果見表1。
表1 隨機缺失數(shù)據(jù)修復率實驗結(jié)果
根據(jù)表1可知,隨著數(shù)據(jù)量的增加,本文提出的修復方法修復率出現(xiàn)了下降,但是下降程度較小,在數(shù)據(jù)、圖像數(shù)據(jù)和跨緯數(shù)據(jù)上,本文提出的修復方法都展現(xiàn)出極好的修復效果,當數(shù)據(jù)量在500GB時,修復率仍然能夠達到97.28%以上。
觀察圖5可知,在面對連續(xù)缺失數(shù)據(jù)時,本文提出的修復方法也能展示出較好的修復效果,通過FSOM神經(jīng)網(wǎng)絡進行數(shù)據(jù)映射,根據(jù)映射結(jié)果實現(xiàn)數(shù)據(jù)修復。
圖5 連續(xù)缺失數(shù)據(jù)修復效果
根據(jù)上圖的修復效果,得到本文提出的修復方法連續(xù)數(shù)據(jù)修復率實驗結(jié)果見表2。
表2 連續(xù)缺失數(shù)據(jù)修復率實驗結(jié)果
觀察表2可知,與隨機缺失數(shù)據(jù)相比,本文提出的方法連續(xù)數(shù)據(jù)修復效果相對較差,但是修復率仍然在97%以上,能夠為水文相關工作提供較好的支持。
水文預報需要對水域的實時狀況進行全面、具體、長期的持續(xù)監(jiān)測,因此水文數(shù)據(jù)是水文工作中非常重要的因素,然而由于數(shù)據(jù)量過大、網(wǎng)絡事故、人為因素、硬件設施缺陷等問題,水文數(shù)據(jù)缺失錯漏問題頻發(fā)。為此,本文基于輸出不一致測度對水文預報缺失數(shù)據(jù)修復進行了研究分析。實例分析表明,所提方法進行隨機缺失數(shù)據(jù)修復后,修復率能夠達到97.28%以上。進行連續(xù)缺失數(shù)據(jù)修復后,修復率在97%以上,表明所提方法具有良好的修復效果,能夠為水文預報工作提供有效幫助。