王圓圓, 孫可可
(防災(zāi)科技學(xué)院 應(yīng)急管理學(xué)院, 河北 三河 065201 )
地震前兆現(xiàn)象主要分為宏觀現(xiàn)象和微觀現(xiàn)象。本文主要分析地震前兆現(xiàn)象中的微觀現(xiàn)象,例如逸出氣氡、氣壓等。地震臺站檢測到的地震前兆數(shù)據(jù)在不間斷且不規(guī)律的波動中會蘊(yùn)藏著動態(tài)演化和信號變化[1]。地震前兆數(shù)據(jù)具有在結(jié)構(gòu)上的復(fù)雜性、前兆觀測方法的不固定性、數(shù)據(jù)位精度的可變性、數(shù)據(jù)采樣率的不一致性、數(shù)據(jù)源的多樣性等特點。地震前兆數(shù)據(jù)變化規(guī)律有長期、中期、短期變化[2]。通常用逐級降采樣率取年、季度、月、周、日、小時、分鐘、秒的平均值進(jìn)行數(shù)據(jù)分析。正是由于這些大量高采樣率的觀測數(shù)值和與其協(xié)作的分析人員逐天逐臺的采集和處理模式,傳統(tǒng)的處理模式和計算方法己經(jīng)很難在海量的觀測數(shù)據(jù)中迅速自動定位精確位置,這也制約了人類研究地震前兆數(shù)據(jù)的進(jìn)展[3]。未來,在保證數(shù)據(jù)完整性的前提下,面對海量的地震前兆數(shù)據(jù),利用機(jī)器學(xué)習(xí)進(jìn)行地震前兆數(shù)據(jù)分析是一個至關(guān)重要的研究方向[4]。如果人類通過數(shù)據(jù)分析掌握了地震前兆數(shù)據(jù)變化規(guī)律,會對我們的研究帶來莫大的幫助[5]。
長短期記憶(long short-term memory,LSTM)模型由不同的記憶單元組成,例如單元狀態(tài)(cell state)和通過“門”(gate),其中通過“門”又分為3類[6],分別是:遺忘門(forget gate)、輸入門(input gate)、輸出門(output gate)[7]。LSTM的通過“門”(gate)發(fā)揮增加或刪除信息的功能,對應(yīng)著模型中的記憶或遺忘的功能?!伴T”是一種將抽象具體化的結(jié)構(gòu),進(jìn)行信息過濾,且由一個點乘和一個sigmoid函數(shù)構(gòu)成。sigmoid函數(shù)的輸出值域區(qū)間為[0,1],1代表全部通過,0表示直接全部丟掉。3個這樣的門組成一個LSTM單元。LSTM記憶單元總圖如圖1所示。對此擬做研究分述如下。
(1)遺忘門。遺忘門的sigmoid函數(shù)的輸入值是上一單元的輸出ht-1和本單元的輸入xt數(shù)據(jù),再為ct-1中的每一項產(chǎn)生一個在[0,1]內(nèi)的值。通過這種方式來控制上一個單元狀態(tài)被遺忘的程度[8]。主要函數(shù)如下:
圖1 LSTM記憶單元總圖
ft=σ(Wf*[ht-1,xt]+bf),
(1)
(2)
it=σ(Wi·[ht-1,xt+bi]),
(3)
(4)
(3)輸出門。輸出門用來控制當(dāng)前的單元狀態(tài)有多少被過濾掉。先將單元狀態(tài)激活,輸出門為其中每一項產(chǎn)生一個在[0,1]內(nèi)的值,控制單元狀態(tài)被過濾的程度[10]。主要公式如下:
ot=σ(Wo[ht-1,xt]+bo),
(5)
ht=ot*tanh(Ct).
(6)
(4)單元狀態(tài)(cell state)。這是LSTM的關(guān)鍵,即用圖1上半部分的水平直線來表示,可以將數(shù)據(jù)從上一個單元傳輸?shù)较乱粋€單元,就象一條數(shù)據(jù)傳送帶一樣貫穿在整個結(jié)構(gòu)中,在傳輸數(shù)據(jù)的同時只會有很少的線性相互作用[11]。單元狀態(tài)局部圖如圖2所示。
由于數(shù)據(jù)是精確到秒的檢測值,據(jù)統(tǒng)計分析可知,一個月的分鐘數(shù)據(jù)會達(dá)到三十萬。而在龐大的數(shù)據(jù)量中,卻會因為檢測儀器故障、自然環(huán)境、人為因素等作用導(dǎo)致監(jiān)測結(jié)果中存在缺失值。為了保證提取數(shù)據(jù)的完整性和預(yù)測結(jié)果的準(zhǔn)確性,就要對缺失值進(jìn)行處理。在本次研究中,則將缺失值補(bǔ)齊,再進(jìn)行數(shù)據(jù)分析。對此可做分析論述如下。
圖2 LSTM單元狀態(tài)圖
缺失值處理方法有3種,分別是:數(shù)據(jù)補(bǔ)差、刪除記錄和不處理。本次研究中,采用補(bǔ)差記錄的方法。原始數(shù)據(jù)中的缺失數(shù)據(jù),采用補(bǔ)差法,用其周圍的數(shù)據(jù)進(jìn)行補(bǔ)差。
由于個別數(shù)據(jù)會影響正常數(shù)據(jù),不進(jìn)行數(shù)據(jù)規(guī)范化會影響數(shù)據(jù)分析結(jié)果的準(zhǔn)確性。本文采用Z-score方法進(jìn)行數(shù)據(jù)規(guī)范化,因為Z-score的數(shù)據(jù)分布情況是正態(tài)分布(N(0,1)),并且正態(tài)分布又被稱為零-均值規(guī)范化。Z-score公式可表示為:
(7)
其中,x是原始數(shù)據(jù),z是規(guī)范后的數(shù)據(jù)[12]。
研究可知,mu是均值,signma是標(biāo)準(zhǔn)差,Z-score的分布如圖3所示。
本實驗中取2005~2009年山西省臨汾地震觀測站第三個測項的氣壓值,全球精確坐標(biāo)度為(36.073*N,111.505*E)、海拔為443.31 m的數(shù)據(jù)。和2008~2013年地震研究所測點為白浮的逸出氣氡值,精確位置度為(40.184*N,116.234*E)、海拔為45 m的數(shù)據(jù)。
分析不同的降采樣方法對氣壓值數(shù)據(jù)擬合結(jié)果的影響。根據(jù)4種最大值、最小值、均值、中位數(shù)不同的降采樣方法得出的采樣率為3天時的氣壓值的數(shù)據(jù)擬合結(jié)果圖和誤差結(jié)果圖,詳見圖4~圖7。
分析圖4~圖7可知,當(dāng)降采樣方法為最大值時,RMSE=160.956 3、最小值時,RMSE=224.664 1、平均值時,RMSE=9.522、中值時,RMSE=12.390 9。通過比較4種降采樣的數(shù)據(jù)擬合結(jié)果圖和誤差值RMSE,選出誤差最小的情況為平均值法。
圖3 Z-scores分布圖
圖4 MAX 氣壓數(shù)據(jù)擬合圖
圖5 MIN 氣壓數(shù)據(jù)擬合圖
圖6 MEAN 氣壓數(shù)據(jù)擬合圖
圖7 MEDIAN 氣壓數(shù)據(jù)擬合圖
綜前所述可知,在數(shù)據(jù)分析過程中,首先對數(shù)據(jù)進(jìn)行預(yù)處理。預(yù)處理分為兩步,分別是:缺失值處理,采用補(bǔ)差法;降采樣處理,有最大值、最小值、平均值、中位數(shù)四種方法。然后,給出了具體的實驗步驟,即:選出誤差值最小的降采樣方法,并用不同的采樣率運行,再選出誤差最小和數(shù)據(jù)擬合最優(yōu)的情況。最后,得出數(shù)據(jù)預(yù)測結(jié)果。經(jīng)過上述的實驗步驟得出如下結(jié)論:2005~2009年山西省臨汾地震觀測站,全球精確坐標(biāo)度為(36.073*N,111.505*E)、海拔為443.31 m的最優(yōu)情況是采用平均值降采樣方法,采樣率為3天的情況下得到的誤差值最小,數(shù)據(jù)擬合結(jié)果最優(yōu)。