劉佳楠,武 杰
(1.中國(guó)科學(xué)技術(shù)大學(xué) 近代物理系,安徽 合肥 230026;2.中國(guó)科學(xué)技術(shù)大學(xué) 核探測(cè)技術(shù)與核電子學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230026)
在地震勘探過程中,檢波器最先接收到的有效地震波稱為“初至波”。初至波的拾取,是地震數(shù)據(jù)處理的一個(gè)基礎(chǔ)而又重要的工作,在折射波靜校正、垂直地震剖面解釋和地震層析成像等過程中起著重要的作用。
隨著地震勘探采集技術(shù)的不斷提高,單位地震勘探工程得到的數(shù)據(jù)量隨之劇增。同時(shí),勘探的地形日漸復(fù)雜,初至波波形變化較大,各種波相互干擾,常常難以獲得準(zhǔn)確的初至?xí)r間,一直是初至拾取方法的難題[1]。因此,需要耗費(fèi)大量的人力資源來進(jìn)行初至波的拾取工作,這極大限制著數(shù)據(jù)處理的效率。
在地震記錄中,初至波作為純?cè)肼暸c有效信號(hào)之間有明顯的分界,具有能量強(qiáng)、起跳明顯的特點(diǎn),與圖形的邊界特征類似。
李輝峰等人[2]和牛沛琛等人[3]使用圖像處理技術(shù)來檢測(cè)初至波,把地震記錄數(shù)據(jù)轉(zhuǎn)化成灰度圖,再對(duì)灰度圖進(jìn)行二值化處理?;趫D像處理技術(shù)對(duì)于二值化閾值的確定要求很高,在初至波與背景噪聲的邊界模糊的時(shí)候,無(wú)法得到很好的拾取效果。盡管牛沛琛等人采用自適應(yīng)閾值算法來確定二值化閾值對(duì)于信噪比高的地震數(shù)據(jù)能取得不錯(cuò)的效果,但是當(dāng)信噪比降低,出現(xiàn)異常道時(shí),需要通過人工多次交互確定二值化的閾值。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中一種基于對(duì)海量數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法,當(dāng)前已經(jīng)成為機(jī)器學(xué)習(xí)領(lǐng)域富有生命力的研究方向[4],在圖像處理、文本處理和語(yǔ)音識(shí)別等方面取得了成功的應(yīng)用。
2014年的ImageNet大規(guī)模視覺識(shí)別競(jìng)賽(ImageNet Large Scale Visual Recognition Challenge, ILSVRC),SZEGEDY C等人[5]提出的GoogleNet獲得圖像分類組第1名,將錯(cuò)誤率從15.3%降到了6.67%。語(yǔ)音方面,2017年8月,微軟亞洲研究院將語(yǔ)音識(shí)別錯(cuò)誤率從5.9%下降到5.1%,超過了專業(yè)的速記員[6]。
2015年LONG J等人[7]首次利用全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Networks, FCN)來進(jìn)行圖像語(yǔ)義分割。該結(jié)構(gòu)實(shí)現(xiàn)了像素級(jí)別的預(yù)測(cè),分割的效果遠(yuǎn)遠(yuǎn)高于傳統(tǒng)的分割算法。
本文結(jié)合初至波的特點(diǎn),參考FCN在圖像語(yǔ)義分割和邊緣檢測(cè)的成功應(yīng)用,把初至波拾取看成二分類問題,利用全卷積神經(jīng)網(wǎng)絡(luò)來進(jìn)行拾取。
接下來對(duì)FCN進(jìn)行介紹,然后說明數(shù)據(jù)的處理流程,最后對(duì)三種不同深度的網(wǎng)絡(luò)進(jìn)行測(cè)試,將性能最優(yōu)的結(jié)構(gòu)與TomoPlus拾取的結(jié)果進(jìn)行對(duì)比。
如圖1所示,F(xiàn)CN是在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行延伸,將全連接層全部換為卷積層。在最后一層池化層之后開始連接反卷積層,池化層實(shí)現(xiàn)下采樣,而反卷積層實(shí)現(xiàn)上采樣,逐漸地將數(shù)據(jù)恢復(fù)到原來大小。
圖1 FCN結(jié)構(gòu)圖
這里以具有三層卷積層網(wǎng)絡(luò)3layer為例來對(duì)FCN進(jìn)行介紹,如圖2所示。在此說明一下,參考SIMONYAN K等人[8]提出的VGG網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)思想,每一層卷積層由連續(xù)多個(gè)卷積核構(gòu)成。本文搭建的網(wǎng)絡(luò)結(jié)構(gòu)中,池化核大小均為2×2,除了最后一個(gè)池化層采用最大值池化,其他池化層均采用平均池化。卷積核大小均為3×3,反卷積核大小均為2×2。
如圖2所示,每經(jīng)過一層池化層,數(shù)據(jù)的長(zhǎng)和寬均變?yōu)橹暗?/2。對(duì)最后一層池化層的輸出進(jìn)行上采樣,此時(shí)反卷積之后得到的數(shù)據(jù)的長(zhǎng)和寬為反卷積前數(shù)據(jù)的長(zhǎng)和寬的2倍,與第二個(gè)池化層(Pool2)輸出的數(shù)據(jù)尺寸一樣,將這兩層數(shù)據(jù)相加,得到融合層Fuse1,目的在于融合更多前層的信息,增強(qiáng)模型的預(yù)測(cè)效果。同理,一步一步地進(jìn)行反卷積,直到恢復(fù)到輸入數(shù)據(jù)的大小??梢钥闯觯現(xiàn)CN對(duì)輸入數(shù)據(jù)的大小并沒有要求。
對(duì)多個(gè)地震勘探數(shù)據(jù)文件進(jìn)行解析,得到多個(gè)真實(shí)地震勘探共炮集數(shù)據(jù),地震道數(shù)在300~400道不等。然后手動(dòng)分類標(biāo)注數(shù)據(jù),初至波為一類,背景為一類。在標(biāo)注過程中,本文標(biāo)注初至?xí)r刻之后第一個(gè)半波,而不是初至?xí)r刻,因?yàn)槎鄠€(gè)點(diǎn)攜帶的信息更多。然后將樣本裁剪成統(tǒng)一大小的樣本。
對(duì)于不同的炮、不同的勘探地形所測(cè)得的地震數(shù)據(jù)的差別很大,甚至差幾個(gè)數(shù)量級(jí)。對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)應(yīng)該保證數(shù)據(jù)有相近的尺度,能夠有效地幫助梯度下降算法更快地收斂。因此,需要對(duì)數(shù)據(jù)進(jìn)行歸一化。本文采取先對(duì)每個(gè)數(shù)據(jù)取絕對(duì)值,然后再采用“簡(jiǎn)單縮放法”,即對(duì)每一道地震數(shù)據(jù)進(jìn)行統(tǒng)計(jì),選取最大值和最小值,兩者相減,得到數(shù)據(jù)的長(zhǎng)度。然后每個(gè)樣本依次減去最小值,之后再除以數(shù)據(jù)的長(zhǎng)度。歸一化公式如式(1)所示:
(1)
式中,x*為每一道樣本點(diǎn)歸一化后的數(shù)據(jù)值,xi為每一道樣本點(diǎn)的絕對(duì)值,xmax和xmin分別為每一道樣本點(diǎn)絕對(duì)值的最大值和最小值。
本文中搭建了三種不同深度的FCN,圖2為3layer結(jié)構(gòu),依次增加卷積層和池化層,對(duì)應(yīng)地增加反卷積層和融合層,得到4layer和5layer結(jié)構(gòu)。測(cè)試樣本為20炮地震數(shù)據(jù),每一炮的道數(shù)各異。
評(píng)價(jià)這三個(gè)網(wǎng)絡(luò)性能的指標(biāo)為IoU(Intersection over Union)和拾取率(Picking Rate, PR)。
圖2 3layer結(jié)構(gòu)圖
在此強(qiáng)調(diào)一下,每一地震道的初至信息標(biāo)注的是一個(gè)半波,模型預(yù)測(cè)的也是多個(gè)數(shù)值。IoU表示兩個(gè)集合的交集的元素個(gè)數(shù)與并集的元素個(gè)數(shù)之比,IoU值越大,表示測(cè)量與預(yù)測(cè)之間的相關(guān)度越高。
在本文的實(shí)驗(yàn)中,對(duì)于每一個(gè)測(cè)試樣本,先計(jì)算每一道地震道的IoU值,然后求平均值作為該樣本的IoU值。計(jì)算公式如式(2)所示:
(2)
式中,n表示每一個(gè)樣本中地震道的道數(shù),Apred i和Atrue i分別表示每一道地震道模型預(yù)測(cè)和手工標(biāo)注的情況。
拾取率PR的計(jì)算如式(3)所示:
(3)
其中,npred表示模型拾取的道數(shù),ntrue表示手工拾取的道數(shù)。
不同模型測(cè)試20炮數(shù)據(jù)的IoU值如圖3所示。
圖3 不同深度的網(wǎng)絡(luò)的IoU值
拾取率的平均值和方差情況如表1所示。
表1 三種不同深度的網(wǎng)絡(luò)拾取率平均值和方差比較
從表1可看出,4layer以94.5%的拾取率居這三種網(wǎng)絡(luò)結(jié)構(gòu)之首,其方差值也最小,說明4layer對(duì)于各道的拾取率的離散程度最小。
綜上,從IoU和拾取率這兩個(gè)指標(biāo)對(duì)三種不同深度的網(wǎng)絡(luò)結(jié)構(gòu)的性能進(jìn)行比較,4layer的性能最好。
TomoPlus是GeoTomo公司的一款地震數(shù)據(jù)處理軟件,主要用于解決二維及三維靜校正與動(dòng)校正問題。實(shí)驗(yàn)中利用TomoPlus的時(shí)間拾取模塊來自動(dòng)拾取,拾取的是初至波波峰所在的位置。
3.1小節(jié)提到,4layer模型拾取的是多個(gè)數(shù)值,從4layer模型拾取的位置所對(duì)應(yīng)的地震數(shù)據(jù)中挑選出幅度值最大的數(shù)值,該值對(duì)應(yīng)的位置作為初至?xí)r刻。
評(píng)價(jià)4layer與TomoPlus的性能的指標(biāo)為擬合度和拾取率。拾取率與3.1小節(jié)中拾取率的計(jì)算方法一致。
擬合度的計(jì)算,以手工標(biāo)注的初至信息的波峰為基準(zhǔn),分別計(jì)算每一炮中TomoPlus和4layer模型拾取的結(jié)果與手工標(biāo)注的距離,計(jì)算公式如式(4)所示:
(4)
式中,Ptrue表示手動(dòng)拾取的位置,Ppred表示TomoPlus或4layer拾取的結(jié)果,n表示每一炮中地震道數(shù)目。
TomoPlus和4layer拾取率和擬合度如表2所示。
表2 4layer與TomoPlus性能比較
從表2可看出,在拾取率方面,兩者相差不大,在擬合度方面,TomoPlus拾取結(jié)果的擬合度的離散程度比較大。因此,4layer性能更優(yōu),具有更好的穩(wěn)定性。接下來以兩份炮集數(shù)據(jù)的拾取情況來進(jìn)行說明。
圖4為某一背景噪聲較低的共炮集數(shù)據(jù)圖,圖5和圖6分別為TomoPlus和4layer的拾取情況??梢钥闯觯诒尘霸肼曒^低時(shí),兩者都能很好地對(duì)初至波進(jìn)行拾取。
圖7為某一背景噪聲較高的共炮集數(shù)據(jù)圖,圖8和圖9分別為TomoPlus和4layer的拾取情況??梢钥闯?,背景噪聲較高時(shí),TomoPlus拾取的情況不如4layer,如圖8中橢圓標(biāo)識(shí)所示,TomoPlus沒能很好地對(duì)地震道進(jìn)行拾取,出現(xiàn)拾取錯(cuò)誤和拾取遺漏的問題。而4layer的表現(xiàn)相對(duì)高效穩(wěn)定。
在地球物理領(lǐng)域,利用深度學(xué)習(xí)技術(shù)在地震油氣儲(chǔ)層預(yù)測(cè)、地震去噪、地震斷層識(shí)別、地震速度拾取等方面已有相關(guān)的研究,然而,并不像圖像識(shí)別和語(yǔ)音識(shí)別領(lǐng)域一樣取得成功的應(yīng)用,目前仍處于起步階段。
本文提出了利用全卷積神經(jīng)網(wǎng)絡(luò)來拾取初至波,這是初至波拾取的一種新的方法,也是在地球物理領(lǐng)域使用深度學(xué)習(xí)技術(shù)的一個(gè)嘗試。在對(duì)原始的地震數(shù)據(jù)進(jìn)行剪裁、歸一化和標(biāo)注處理后,使用三個(gè)不同深度的神經(jīng)網(wǎng)絡(luò)分別對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,然后對(duì)這三個(gè)網(wǎng)絡(luò)的性能進(jìn)行測(cè)試,將性能最優(yōu)的網(wǎng)絡(luò)與商業(yè)地震軟件TomoPlus自動(dòng)拾取的結(jié)果進(jìn)行對(duì)比,結(jié)果表明,利用全卷積神經(jīng)網(wǎng)絡(luò)拾取初至波具有一定的可行性。當(dāng)前得到的模型,其性能還有很大的提高空間,接下來還需要使用更多類型的地震數(shù)據(jù)來對(duì)模型進(jìn)行訓(xùn)練,提高模型的泛化能力。
圖4 某一背景噪聲較低的共炮集數(shù)據(jù)圖
圖5 背景噪聲較低時(shí)TomoPlus的拾取情況
圖6 背景噪聲較低時(shí)4layer的拾取情況
圖7 某一背景噪聲較高的共炮集數(shù)據(jù)圖
圖8 背景噪聲較高時(shí),TomoPlus的拾取情況
圖9 背景噪聲較高時(shí),4layer的拾取情況