王 軍, 劉春國(guó), 樊俊屹
(中國(guó)地震臺(tái)網(wǎng)中心, 北京 100045)
地震前兆臺(tái)網(wǎng)建設(shè)的目的是獲取地震、地殼形變、地球電磁、地下流體等動(dòng)態(tài)變化圖像,捕捉地震前兆信息,為地震預(yù)測(cè)提供依據(jù)。受觀測(cè)環(huán)境等諸多因素的影響,監(jiān)測(cè)數(shù)據(jù)常常呈現(xiàn)出區(qū)別于正常背景動(dòng)態(tài)變化的異常變化。如何快速、準(zhǔn)確判斷引起異常圖像的原因,一直是地震監(jiān)測(cè)預(yù)報(bào)人員研究的重要課題。
目前,利用相關(guān)分析、差分檢測(cè)、固體潮相關(guān)檢測(cè)、方差檢測(cè)、臺(tái)階檢測(cè)、分段線(xiàn)性斜率和高度等多種檢測(cè)方法提取異常特征值,可以對(duì)臺(tái)網(wǎng)觀測(cè)數(shù)據(jù)的異常進(jìn)行檢測(cè)[1-2],難點(diǎn)在于檢測(cè)方法及異常特征值的選取,不同的異常圖像類(lèi)型需采用不同的檢測(cè)方法,而且這些方法大都只適應(yīng)于形態(tài)較為規(guī)則的異常圖像,對(duì)大部分的異常圖像基本無(wú)效。此外,即使這些方法能夠檢測(cè)到是否出現(xiàn)了異常,而這種異常變化是哪類(lèi)因素引起的則還需要人工利用自己的經(jīng)驗(yàn)來(lái)判斷。識(shí)別的準(zhǔn)確率與具體操作人員對(duì)觀測(cè)點(diǎn)測(cè)項(xiàng)的背景正常動(dòng)態(tài)變化、典型異常動(dòng)態(tài)及其因素了解程度有關(guān)。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型是一種新興的人工神經(jīng)網(wǎng)絡(luò)系統(tǒng),具有深度學(xué)習(xí)能力且適應(yīng)性強(qiáng),善于挖掘數(shù)據(jù)局部特征,全局訓(xùn)練特征抽取器和分類(lèi)器等優(yōu)點(diǎn)。卷積神經(jīng)網(wǎng)絡(luò)在模式識(shí)別中的多個(gè)領(lǐng)域取得了很好的成果。本文選擇無(wú)需手動(dòng)提取特征的CNN對(duì)觀測(cè)數(shù)據(jù)異常圖像進(jìn)行識(shí)別。
我國(guó)地震前兆臺(tái)網(wǎng)由地下流體、地殼形變和電磁三大學(xué)科臺(tái)網(wǎng)組成,觀測(cè)項(xiàng)目超過(guò)五十種,主要觀測(cè)手段包括水位、水溫、氡、汞、地傾斜、地應(yīng)變、重力、地磁、地電阻率、地電場(chǎng)等十多種[3]。
地震前兆臺(tái)網(wǎng)的基本組成單元是臺(tái)站,臺(tái)站一般由觀測(cè)場(chǎng)地(觀測(cè)井或泉、山洞、鉆孔、觀測(cè)墩等)、觀測(cè)室、觀測(cè)裝置、觀測(cè)儀器等構(gòu)成。據(jù)最新統(tǒng)計(jì),匯集到國(guó)家前兆臺(tái)網(wǎng)中心數(shù)據(jù)庫(kù)的地下流體臺(tái)站共計(jì)約有713個(gè),地殼形變觀測(cè)臺(tái)站353個(gè),電磁觀測(cè)臺(tái)站367個(gè)。大部分臺(tái)站均配備了氣象三要素觀測(cè)儀器對(duì)氣壓、氣溫和降雨進(jìn)行輔助觀測(cè)。
觀測(cè)數(shù)據(jù)變化圖像可分為正常圖像和異常圖像。正常圖像是指某一個(gè)觀測(cè)項(xiàng)目的觀測(cè)值具有自身的變化規(guī)律和特征,如潮汐類(lèi)形變觀測(cè)、重力觀測(cè)和地下水位觀測(cè)一般具有明顯的日波、半月波潮汐圖像特征;長(zhǎng)期觀測(cè)資料在相對(duì)穩(wěn)定的影響因素影響下數(shù)據(jù)變化水平無(wú)明顯變化,觀測(cè)值呈有規(guī)律地變化。
因突發(fā)的觀測(cè)事件或固有的影響因素水平發(fā)生變化均會(huì)引起數(shù)據(jù)變化偏離正常圖像,出現(xiàn)異常圖像。數(shù)據(jù)出現(xiàn)異常圖像的影響因素大致可以分為5種:(1)與臺(tái)站觀測(cè)系統(tǒng)故障有關(guān)的因素,如儀器故障、觀測(cè)裝置故障及供電故障等;(2)與氣象變化相關(guān)的因素:如氣壓、降雨、雷電、臺(tái)風(fēng)、風(fēng)擾等;(3)與觀測(cè)場(chǎng)地周邊環(huán)境干擾相關(guān)的因素,如地下水開(kāi)采與注水、地表水體漲落、灌溉、塌方爆破、施工干擾等;(4)與觀測(cè)系統(tǒng)人為干擾相關(guān)的因素:如儀器檢修與安裝調(diào)試、觀測(cè)井取水與放水、井水流量調(diào)節(jié)等;(5)與地質(zhì)災(zāi)害、構(gòu)造活動(dòng)等變化相關(guān)的因素,如地震、震后效應(yīng)、滑坡、泥石流、礦震等。
引起異常圖像的影響因素很多,具體對(duì)于某個(gè)臺(tái)站的某個(gè)觀測(cè)手段,影響因素可能有多種。不同的臺(tái)站、觀測(cè)手段同一影響因素引起的地震監(jiān)測(cè)數(shù)據(jù)異常圖像具有不同的圖像特征。異常圖像影響因素的確定往往需要結(jié)合觀測(cè)日志、儀器性能、環(huán)境調(diào)查、氣象資料收集、數(shù)據(jù)處理分析等多方面進(jìn)行分析判斷。
自2014年以來(lái),通過(guò)地震前兆臺(tái)網(wǎng)觀測(cè)數(shù)據(jù)跟蹤分析工作[4-5],對(duì)出現(xiàn)的大部分異常圖像進(jìn)行了跟蹤、核實(shí)和分析,確定了其成因,這些異常圖像及影響因素標(biāo)識(shí)等相關(guān)信息均保存在數(shù)據(jù)跟蹤分析知識(shí)庫(kù)中[6-8]。這些資料為我們開(kāi)展本項(xiàng)研究奠定了基礎(chǔ)。
人工神經(jīng)網(wǎng)絡(luò)是一種模仿生物神經(jīng)網(wǎng)絡(luò)行為,進(jìn)行數(shù)據(jù)處理的算法模型。這種網(wǎng)絡(luò)通過(guò)反向傳播(BackPropagation,簡(jiǎn)稱(chēng)BP)調(diào)整內(nèi)部大量神經(jīng)元節(jié)點(diǎn)之間相互連接的權(quán)重,從而達(dá)到處理信息的目的。1989年Yann LeCun利用BP算法來(lái)訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)識(shí)別手寫(xiě)郵政編碼;1998年他提出的LeNet5模型是卷積神經(jīng)網(wǎng)絡(luò)(CNN)問(wèn)世的標(biāo)志。2016年的ImageNet圖像識(shí)別競(jìng)賽,基于CNN的ResNet識(shí)別率已經(jīng)超過(guò)人類(lèi),它的網(wǎng)絡(luò)層數(shù)達(dá)到152層之多。經(jīng)典的CNN模型有LetNet、AlexNet[9]、ZF Net 、VGG、GoogLeNet、ResNet等。
基于CNN的異常圖像識(shí)別方法的基本思路是首先設(shè)計(jì)一個(gè)CNN模型,根據(jù)監(jiān)測(cè)數(shù)據(jù)產(chǎn)生訓(xùn)練集,對(duì)訓(xùn)練集進(jìn)行預(yù)處理,訓(xùn)練CNN模型,測(cè)試模型,利用模型進(jìn)行識(shí)別。具體如下。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)主要由輸入層、卷積層、池化層(Pooling層)、全連接層和輸出層組成。輸入層可以處理多維數(shù)據(jù),對(duì)于本項(xiàng)研究,為三維輸入數(shù)據(jù),即紅、綠、藍(lán)三個(gè)通道的二維平面像素點(diǎn);卷積層的主要功能是對(duì)輸入數(shù)據(jù)進(jìn)行特征提取;Pooling 層也叫下采樣層,主要用于保留有用信息的基礎(chǔ)上減少數(shù)據(jù)處理量,加快訓(xùn)練網(wǎng)絡(luò)的速度;全連接層等價(jià)于傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)中的隱含層,全連接層通常搭建在卷積神經(jīng)網(wǎng)絡(luò)隱含層的最后部分,并只向其它全連接層傳遞信號(hào)。特征圖在全連接層中會(huì)失去3維結(jié)構(gòu),被展開(kāi)為向量并通過(guò)激勵(lì)函數(shù)傳遞至下一層;輸出層結(jié)構(gòu)和工作原理與傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)中的輸出層相同。對(duì)于圖像分類(lèi)問(wèn)題,輸出層使用邏輯函數(shù)或歸一化指數(shù)函數(shù)(softmax function)輸出分類(lèi)標(biāo)簽[8]。
本文構(gòu)建的網(wǎng)絡(luò)模型與AlexNet相似,在Google的tensorflow框架下進(jìn)行模型結(jié)構(gòu)設(shè)計(jì)、訓(xùn)練、測(cè)試和參數(shù)優(yōu)化,如圖1所示。
圖1 網(wǎng)絡(luò)模型示意圖Fig.1 Diagram of the convolutional neural network model
該模型包括1個(gè)輸入層、2個(gè)卷積層和2個(gè)池化層、2個(gè)全連接層和1個(gè)輸出層。其中第1組為卷積層,包括64個(gè)大小為[5,5,3]的濾波器,輸出[24,24,64],然后用激勵(lì)函數(shù)(ReLU)激活,最大池化層輸出[12,12,64];第2組為卷積層,包括64個(gè)大小為[5,5,64]的濾波器,輸出[12,12,64],再使用激勵(lì)函數(shù)(ReLU)激活,最大池化層輸出[6,6,64];第3組為全連接層,將第2組的輸出展開(kāi)成一維[2304],用384個(gè)神經(jīng)元連接,用ReLU激活,輸出[384];第4組為全連接層,將第3組的輸出用192個(gè)神經(jīng)元連接,用ReLU激活,輸出[192]。最后為線(xiàn)性輸出層,將第4組的輸出用2個(gè)(分類(lèi)的個(gè)數(shù))神經(jīng)元連接,輸出[2],即為圖片屬于兩個(gè)類(lèi)的得分值。
從國(guó)家前兆臺(tái)網(wǎng)中心數(shù)據(jù)庫(kù)讀取某一臺(tái)站觀測(cè)項(xiàng)目的觀測(cè)數(shù)據(jù),一個(gè)異常圖像持續(xù)時(shí)間的觀測(cè)數(shù)據(jù)保存為一個(gè)文件,通過(guò)文件名稱(chēng)來(lái)表示各類(lèi)觀測(cè)事件類(lèi)型,各類(lèi)觀測(cè)事件類(lèi)型及正常類(lèi)型的文件數(shù)目比例應(yīng)基本一致。觀測(cè)事件類(lèi)型來(lái)源于數(shù)據(jù)跟蹤分析標(biāo)識(shí)。
根據(jù)保存的數(shù)據(jù)文件,繪制時(shí)序圖并保存到分辨率為32×32的PNG圖片(PNG為無(wú)損壓縮)。為了減少干擾,時(shí)序圖片不包含坐標(biāo)軸。然后將圖片讀入內(nèi)存,分離出紅、綠、藍(lán)三個(gè)通道,將這三個(gè)通道數(shù)據(jù)合并,并在前面加上1個(gè)字節(jié)的label(0表示正常,1-Z分別表示不同的事件類(lèi)型),即為一張圖片的訓(xùn)練數(shù)據(jù)。所有的圖片訓(xùn)練數(shù)據(jù)順序合并到一起形成訓(xùn)練文件,即為訓(xùn)練集。
根據(jù)構(gòu)建的網(wǎng)絡(luò)模型的輸入要求,對(duì)訓(xùn)練集進(jìn)行預(yù)處理。將訓(xùn)練集中的32×32的圖片在長(zhǎng)、寬兩個(gè)方向上剪裁為24×24大小;以50%的概率將圖片沿水平方向進(jìn)行翻轉(zhuǎn);隨機(jī)調(diào)整圖像亮度和對(duì)比度;將圖像標(biāo)準(zhǔn)化:
(1)
式中:x為圖片的RGB某通道像素值;mean分別為通道像素的均值;stddev為通道像素的標(biāo)準(zhǔn)差;pixels是通道的像素個(gè)數(shù)。
利用訓(xùn)練集對(duì)設(shè)計(jì)的模型進(jìn)行訓(xùn)練。權(quán)值使用truncated normal distribution初始化,采用BP算法來(lái)調(diào)整CNN模型各層權(quán)值與偏置;使用指數(shù)衰減的學(xué)習(xí)率進(jìn)行梯度下降(BP算法的學(xué)習(xí)速率),訓(xùn)練方式為批量訓(xùn)練。利用生成訓(xùn)練集的方法生成其他時(shí)段的測(cè)試集,進(jìn)行測(cè)試。
我們選取引起數(shù)據(jù)變化的影響因素清楚且類(lèi)型較少、異常形態(tài)不規(guī)則的拉薩井的水位資料來(lái)進(jìn)行實(shí)驗(yàn)研究。用于實(shí)驗(yàn)的觀測(cè)井深111.2 m,觀測(cè)含水層為第四系潛水含水層,井水位受降雨影響較明顯,在每年雨季6—9月水位出現(xiàn)峰值變化(圖2)。
圖2 2016—2017年用于實(shí)驗(yàn)的拉薩井水位時(shí)序曲線(xiàn)Fig.2 Time series curve of observed well water level in Lhasa from 2016 to 2017
經(jīng)現(xiàn)場(chǎng)調(diào)研與資料分析,在該井東面50多米處有一水池每天不定期抽水用于澆地,抽水導(dǎo)致觀測(cè)井水位出現(xiàn)小幅下降變化,抽水結(jié)束后出現(xiàn)回升,抽水引起的異常圖像持續(xù)時(shí)間30 min左右。
選取2017年5月9日到9月8日的水位觀測(cè)數(shù)據(jù)(分鐘采樣)作為訓(xùn)練樣本的數(shù)據(jù)來(lái)源。這段時(shí)間異常圖像均為抽水干擾引起。我們的目的是自動(dòng)識(shí)別出正常與抽水干擾異常圖像。
使用實(shí)驗(yàn)觀測(cè)站2017年5月9日到9月8日的水位分鐘值數(shù)據(jù),用軟件對(duì)形態(tài)明顯的干擾段數(shù)據(jù)進(jìn)行提取,共獲得干擾樣例151個(gè)。同時(shí)對(duì)非干擾時(shí)段的數(shù)據(jù)也提取了121個(gè)樣例。提取出的數(shù)據(jù)保存為csv格式,通過(guò)文件名來(lái)區(qū)別是正常形態(tài)還是抽水干擾。依據(jù)上面的方法生成訓(xùn)練集。正常與抽水干擾訓(xùn)練圖片見(jiàn)表1,對(duì)訓(xùn)練樣本進(jìn)行預(yù)處理。
表1 訓(xùn)練集的部分正常圖像和干擾圖像
由于數(shù)據(jù)量很小,在英偉達(dá)GTX1080GPU上訓(xùn)練2 000次網(wǎng)絡(luò)收斂。利用訓(xùn)練好的模型進(jìn)行該觀測(cè)站水位干擾的自動(dòng)識(shí)別。
選擇兩段時(shí)間的數(shù)據(jù)來(lái)檢驗(yàn)。2017年2月1—2日是干擾較少的時(shí)段,11月14—15日是干擾較嚴(yán)重的時(shí)段。
以5 min為步長(zhǎng),40 min為窗口長(zhǎng)度進(jìn)行滑動(dòng),每個(gè)窗口生成一張圖片,將圖片用處理訓(xùn)練文件的同樣方法生成二進(jìn)制文件,輸入模型后給出分類(lèi)得分,使用softmax公式將得分轉(zhuǎn)換為概率值:
其中:a0,a1為模型的分類(lèi)得分。
當(dāng)樣本屬于類(lèi)別1的概率大于0.999時(shí)認(rèn)為是抽水干擾,檢驗(yàn)結(jié)果如圖3所示。
2017年2月1—2日共計(jì)識(shí)別出6個(gè)時(shí)段存在抽水干擾異常圖像[如圖3(a)所示]:2月1日的08:40—09:20、12:25—13:15、17:55—18:45、21:55—22:50和2月2日的 13:30—14:25、18:15—19:00。其中2月1日08:40—09:20,這是一個(gè)正常變化,識(shí)別錯(cuò)誤,分析認(rèn)為是人工標(biāo)注時(shí)對(duì)正常圖像類(lèi)型提取不完整所致。其他時(shí)段都正確識(shí)別,準(zhǔn)確率為 95%。此外,2月2日 13:30—14:25的異常不完整,應(yīng)該是從10:55開(kāi)始,這應(yīng)該是用于異常識(shí)別的圖像是按固定時(shí)間長(zhǎng)度生成而導(dǎo)致的。
圖3 標(biāo)識(shí)識(shí)別的抽水干擾時(shí)段的觀測(cè)數(shù)據(jù)變化曲線(xiàn)Fig.3 Change curve of observed values during pumping interference period
2017年11月14—15日共計(jì)識(shí)別出16個(gè)時(shí)段抽水干擾圖像[圖3(b)]:11月14日的 06:40—07:30、12:10—13:35、13:40—14:25、15:30—16:10、21:40—22:35,11月15日的05:20—06:15、08:05—08:45、09:05—09:50、09:55—10:40、11:30—12:15、13:35—14:20、14:35—15:30、16:10—16:55、17:10—18:05、18:25—19:15、21:45—22:35,經(jīng)核實(shí)這些時(shí)段均存在干擾,其中11月15日的11:30—12:15干擾時(shí)段并不完整,完整時(shí)段應(yīng)為11:20—12:25。此外11月14日的19:25—20:30和11月15日的20:25—21:40存在較長(zhǎng)時(shí)間地抽水干擾并未識(shí)別出來(lái),識(shí)別的準(zhǔn)確率約為88%。識(shí)別出錯(cuò)的原因與2月1—2日的情形類(lèi)似,與輸入圖像的定長(zhǎng)以及訓(xùn)練樣本中異常圖像樣本類(lèi)型不全有關(guān)。
本文構(gòu)建了一個(gè)6層結(jié)構(gòu)的CNN網(wǎng)絡(luò)模型,采用構(gòu)建的模型對(duì)實(shí)際觀測(cè)井水位抽水干擾引起的異常圖像進(jìn)行了自動(dòng)識(shí)別實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示識(shí)別準(zhǔn)確率較高,驗(yàn)證了CNN網(wǎng)絡(luò)模型應(yīng)用于復(fù)雜異常圖像識(shí)別的可行性。當(dāng)然,識(shí)別方法還有待進(jìn)一步完善,特別是數(shù)據(jù)到圖像的生成及預(yù)處理方法,包括訓(xùn)練樣本正常圖像類(lèi)型提取完整性評(píng)估方法、自動(dòng)提取完整的異常圖像的多尺度異常圖像生成方法、異常圖像的幅度不被夸大或弱化的預(yù)處理方法等。
本文只針對(duì)一種異常圖像進(jìn)行了識(shí)別,實(shí)際上,大部分臺(tái)站的數(shù)據(jù)變化的影響因素不可能只有一種,不同的影響因素引起的異常圖像特征可能存在明顯差異,也可能相似;每個(gè)臺(tái)站觀測(cè)手段每種影響因素引起的異常圖像次數(shù)并不相同,像實(shí)驗(yàn)臺(tái)站頻繁出現(xiàn)(盡管這對(duì)于CNN模型來(lái)說(shuō)仍是太少)抽水干擾異常圖像的臺(tái)站較少,大部分影響因素引起的異常圖像只出現(xiàn)過(guò)幾次,訓(xùn)練樣本太少,模型識(shí)別的準(zhǔn)確率會(huì)大幅降低。將CNN模型應(yīng)用于實(shí)際的觀測(cè)站異常圖像的快速識(shí)別還有大量的研究工作要做。