李康麗,馮 波,王華忠
(波現象與智能反演成像研究組(WPI),同濟大學海洋與地球科學學院,上海 200092)
陸上勘探地震中,初至波可以說是炮集中信噪比最高的波現象。初至波的識別及走時檢測在表層及淺層的介質速度估計與建模中起著核心作用,波動理論初至波走時層析速度反演及建模成為當今陸上地震波成像中關鍵步驟之一[1-2]。早期的初至走時大多由處理員依據經驗人工拾取,但這種可視化人工拾取過程十分繁瑣耗時、效率低下,并且過于依賴處理員的經驗,具有很強的主觀性,不同的處理員拾取的結果往往存在偏差或者不一致[3]。隨著計算機技術和初至拾取算法的發(fā)展,初至波全(半)自動化拾取方法逐漸普及[4-5],目前的商業(yè)軟件大都已具備自動拾取的功能。對于復雜地表條件下的工區(qū),如沙漠、戈壁、山區(qū)、盆地等,復雜的近地表條件導致地震數據信噪比急劇降低,道間時差變化劇烈[6-8],此時常規(guī)的拾取方法難以滿足需求,同時隨著“兩寬一高”地震數據采集技術的逐漸普及[9],地震數據量劇增,隨著人工智能技術在地球物理勘探領域的應用越來越廣泛,智能化初至拾取方法成為關注的重點。
傳統(tǒng)的走時拾取算法主要基于單道和多道信息?;趩蔚赖氖叭∷惴ㄖ饕揽磕芰勘萚3,10]、分形維數[11-12]、熵[3]、高階統(tǒng)計量[13-15]等,這類方法可以用于高信噪比數據中快速、穩(wěn)定地拾取走時。基于多道的拾取算法主要有互相關方法[16-19]或模板匹配方法[20-21],由于利用了多道之間的相關性信息,該類方法可以在一定程度上識別低信噪比地震記錄的初至,但不能適應波形變化或存在壞道的情況。隨著人工智能技術的發(fā)展與進步,初至拾取成為人工智能算法在地震處理領域的成功應用之一。比如傳統(tǒng)神經網絡就已廣泛應用于地震事件的自動分類識別[22-28],但早期的網絡結構泛化能力較差。卷積神經網絡(CNN)是一種強大的深度學習算法,具有自動提取特征或屬性并同時對數據進行分類的優(yōu)勢,此外,還具有局部感知和權重共享的特性。YUAN等[29]將CNN直接應用于地震初至走時拾取中。LOGINOV等[30]以5000個訓練樣本訓練包含4個隱藏層的CNN網絡并用其完成了某3D地震數據(450×104道)的初至走時拾取工作,正確率達到了95%。陳德武等[31]結合U-Net與SegNet深度學習網絡的優(yōu)點,構建混合網絡U-SegNet自動拾取初至,網絡結構更有利于分割背景噪聲區(qū)域和含噪聲信號區(qū)域,提高了拾取精度。神經網絡類方法屬于有監(jiān)督學習,生成大量的標簽樣本不僅耗時,同時也會引入人的先驗認識。無監(jiān)督學習算法(比如模糊聚類分析、支持向量機等)可以直接根據特征屬性將地震信號自動分類,同時也可以為有監(jiān)督學習提供標簽樣本[32-33]。MA等[34]基于強化學習理論,在能量比譜上自動化全局尋優(yōu)實現初至走時拾取,但該方法缺乏對模型參數的詳細描述,難以適應復雜波形;羅飛等[35]在馬爾可夫決策過程(Markov decision process,MDP)中進一步引入受空間幾何信息約束的動作和轉移概率,降低了對起始狀態(tài)和折扣因子選取的難度,使地震數據初至走時拾取更加準確和自動化??傊?初至拾取的基本思路是將地震信號的走時信息變換為某種特征屬性,從而凸顯初至走時,同時基于人工智能算法的初至拾取為地震數據處理帶來了極大的便利。
在我國山前帶等近地表復雜區(qū)域,地震記錄受各種近地表散射波以及面波的干擾,信噪比低,能量較弱。而傳統(tǒng)的初至自動拾取方法,普遍要求數據信噪比高,且著重于單一屬性,此時依靠單一屬性的初至拾取方法易受噪聲以及地形變化劇烈的影響導致誤拾。為此,針對復雜地表地震數據,將初至波識別與走時檢測問題定位為弱初至掩埋在(較)強噪聲中,提出了一套初至波識別及走時檢測智能化處理技術流程,主要步驟包括炮集中與初至波相關的預處理、高維特征空間的構建、多屬性加權K均值聚類劃分初至波分布區(qū)域、多屬性約束的馬爾可夫決策過程初至走時檢測等。實際資料應用結果表明了該方法流程的有效性和穩(wěn)健性。
本文方法流程如圖1所示。
圖1 復雜地表區(qū)初至波識別及走時檢測智能化流程
考慮到初至的空間連續(xù)性,地表高程起伏會引起初至位置在相鄰道之間發(fā)生跳躍,導致初至拾取變得困難,因此,首先進行基于小平滑地表的道間時差躍變壓制,使其在后續(xù)拾取過程中滿足更好的橫向連續(xù)性。該方法首先統(tǒng)計地表高程,并對其進行平滑,獲得平滑后的地表高程,再利用(1)式計算地表高程起伏引起的道間時差校正量,由此可以消除高波數(頻)的道間時差抖動,再將時差校正量反?;刈罱K拾取的結果上。
(1)
式中:Δt為道間時差校正量;e1為平滑后的地表高程;e2為真實的地表高程;v為替換速度。
然后考慮高維空間中數據隱含的空間結構信息和多屬性內在關系,尋找合適的特征屬性,構建高維特征屬性空間;引入多屬性加權K均值聚類劃分出初至波分布區(qū)域,縮小拾取范圍,降低拾取難度。
最后基于多屬性約束馬爾可夫最優(yōu)決策理論框架下的走時檢測技術,將初至拾取問題看作高維特征屬性空間內智能馬爾可夫決策過程,通過構建合適的模型參數,在特定準則下進行全局尋優(yōu),最終獲得積累獎勵值最大的路徑,從而智能化地拾取地震數據的初至信息。
一般地,可將地震勘探中的數據認為是空間或/和時間有序的數據,最通常的數據表達形式認為數據是多維(高維)隨機向量。數據體可以定義為由源
數據體生成的高維、多屬性、多域特征數據體/集。初至拾取的基本思路是將地震信號的走時信息變換為某種特征屬性,在特征域中凸顯差異,從而拾取初至走時。常見的用于識別初至信息的屬性從時間域看主要是利用能量變化、振幅變化、曲線長度變化、統(tǒng)計分布變化、信息量變化、曲線復雜度變化等[36]?,F有的傳統(tǒng)方法多著重于單一屬性,而依靠單一屬性無法得到準確的拾取結果,必須依靠多種屬性相互約束。高維屬性提取是高精度初至檢測的基礎,其中能量屬性對初至拾取較為敏感。本文采用長短時窗能量比、峰度和邊緣強度這3種屬性構建高維特征空間。
長短時窗均值比(STA/LTA)是信號在固定長度的短時窗和長時窗中特征函數平均值的比值。因為在地震記錄中噪聲的能量一般較弱,當有效信號出現時,信號的短時窗能量平均值(STA)會比信號的長時窗能量平均值(LTA)變化快,從而比值增加,當比值超過設定的閾值時,便可用來確定初至位置。STA/LTA算法的基本公式為:
(2)
式中:i表示采樣時刻;Ll代表長時窗長度;Ls代表短時窗長度;λ表示設定的閾值;CF(j)代表在j時刻的特征函數值。這里采用的特征函數為:
CF(j)=x2(j)
(3)
其中,x(j)表示振幅值。長、短時窗長度和閾值的選取會直接影響初至拾取的準確性。STA/LTA方法是目前應用最廣泛的初至拾取方法,計算效率較高,但對于低信噪比數據,存在拾取精度不足的問題[37-40]。
數據中信息的提取過程就是對數據中蘊含的結構信息進行感知和表達,最基本的感知方法就是獲取數據(隨機過程)的各階統(tǒng)計量。高階統(tǒng)計量是描述隨機過程高階(二階以上)統(tǒng)計特性的一種數學工具,包括高階矩、高階累積量和高階譜。相對于二階統(tǒng)計量而言,高階統(tǒng)計量能夠有效抑制高斯噪聲,并且對信號的異常更加敏感。地震數據中,由于有效信號和噪聲具有不同的統(tǒng)計性質,峰度屬性也可用于初至拾取[41]。峰度的表達式為:
(4)
式中:E[·]表示求均值運算。在一般情況下,地震信號中的隨機噪聲滿足高斯分布,而有效信號滿足非高斯分布。具體計算時采用滑動窗口的方式進行,當有效信號出現在時窗內時,峰度值會出現明顯的增大,因此可將信號的峰度最大值對應的位置作為初至點。
圖像邊緣檢測的目的是利用有關數學算子提取物體圖像的邊緣特征以確定物體的輪廓或細節(jié)。初至波一般具有能量強、起跳明顯的特點,與圖形的邊界特征很類似,而預處理后的地震數據在橫向上比較連續(xù),與邊界特征相符,因此可以將道集中各道初至時間的連線看作是初至前擾動與地震記錄數據之間的邊界[42]。在實際地震數據中,首先將地震記錄轉化為灰度圖,這里采用取絕對值的方式。對于m道,每道n個樣點的單炮記錄可以看作一幅m×n個像素的灰度圖,然后用小區(qū)域模板卷積來近似計算邊緣強度。通常選用Sobel,Prewitt,Laplacian,Kirsch等微分算子進行識別,這些算子都是以一個3×3的模板與圖像中3×3的區(qū)域相乘,得到的結果作為圖像中這個區(qū)域中心位置的邊緣強度[43-44],本文選用Kirsch算子作為邊緣檢測算子。Kirsch算子模板(圖2)共有8個方向,分別與地震圖像中的各對應元素相乘后取計算結果的最大值作為中心點的邊緣強度。例如在0°方向上,設d(i,j)是(i,j)處的像素值,(i,j)位置處的邊緣強度用其差分值來表示:
圖2 Kirsch算子模板a至h方向依次為0°,45°,90°,135°,180°,225°,270°,315°
Δd0°=5d(i-1,j-1)+5d(i-1,j)+
5d(i-1,j+1)-3d(i,j-1)-3d(i,j+1)-
3d(i+1,j-1)-3d(i+1,j)-3d(i+1,j+1)
(5)
邊緣強度的計算用到了高維空間中多道之間的信息,充分利用了相鄰地震道間的相關性。
聚類方法以智能和數據驅動的方式收集類似的點歸結為一類,最終使得類內最相似、類間差異最大。K均值聚類算法是最常用的聚類方法之一,該算法實現時簡單快速,可以用于較大的數據集,其主要步驟是:選擇聚類數k,隨機生成k個聚類,并確定聚類中心,或者直接從原始數據點隨機選擇初始中心位置;將每個點分配到離它最近的中心所對應的聚類,然后重新計算新聚類的中心,重復以上步驟,直至中心點的變化很小或者達到指定的迭代次數。K均值聚類應用于初至拾取,可以完成初至與非初至的二分問題[45]??紤]到不同屬性對聚類和初至拾取結果的影響程度不同,這里采用加權距離對不同的屬性賦予不同的權重[46-47]:
(6)
式中:dist表示距離函數;wk≥0(k=1,2,…,m)為權重系數,表征不同屬性的重要性;m為聚類屬性個數;i,j為樣本點(i,j=1,2,…,n;n為樣本個數);f表示特征屬性值。權重系數的確定采用變異系數法。屬性數據矩陣表示如下:
(7)
首先計算樣本各個屬性的標準差σk:
(8a)
(8b)
樣本屬性的標準差反映了各屬性的絕對變異程度,然后計算各個屬性的變異系數ck:
(9)
變異系數反映了各個屬性的相對變異程度,屬性的變異系數越大,則屬性變化越大。最后對各屬性的變異系數進行歸一化處理,確定權重系數wk:
(10)
由于在實際數據中聚類結果并沒有那么準確,所以可以由聚類結果得到一條近似擬合初至的曲線,然后將曲線上下平移得到初至波大致分布區(qū)域,從而縮小拾取范圍。
初至走時信息的拾取可以看作是處理人員在地震剖面(屬性剖面)上從第一道的某點S0出發(fā),以經驗認識為指導,逐道挑選Sn,最終尋找一系列滿足經驗認識和初至特征的點,從而完成初至走時拾取任務的過程。這一過程可以抽象為序列決策問題,而馬爾可夫決策過程(MDP)就是一個典型的序列決策過程框架。
MDP通常用五元組〈S,A,P,R,γ〉來描述,其中,S為有限狀態(tài)集,A代表控制狀態(tài)發(fā)生變化的所有可能動作的集合,P為狀態(tài)轉移概率(矩陣),R為獎勵函數,γ代表用于計算累積收益的折扣因子。智能體從狀態(tài)s通過動作a轉移至s′的概率和期望獎勵可分別表示為:
(11)
(12)
MDP的本質是當前狀態(tài)向下一狀態(tài)轉移的概率和獎賞值只取決于當前狀態(tài)和選擇的動作,而與歷史狀態(tài)和歷史動作無關,即具有馬爾可夫性。在MDP中目標是抵達目標狀態(tài)的同時最大化累積收益的期望值,價值函數是利用收益期望值評估當前狀態(tài)或給定狀態(tài)和動作下的智能體表現,智能體期望未來得到的收益取決于智能體所選擇的動作,所以價值函數與特定的行為方式相關,稱之為策略。如果智能體在時刻t選擇了策略π,則π(a|s)就是當St=s時At=a的概率。vπ(s)為策略π下狀態(tài)s的狀態(tài)價值函數,可表示為:
vπ(s)=Eπ(Gt|St=s)=Eπ(Rt+1+γRt+2+
γ2Rt+3+…|St=s)=Eπ(Rt+1+γGt+1|St=s)=
Eπ(Rt+1+γvπ(St+1)|St=s)
(13)
(13)式稱為vπ的貝爾曼方程,其中,Gt表示從當前狀態(tài)開始到終止狀態(tài)結束整個過程所有收益按照一定比例衰減的總和,數學表達式為:
(14)
其中,γ為折扣因子,γ∈[0,1],用于削減遠期決策對應的獎勵權重。由上述公式可知,價值函數由該狀態(tài)的即時獎勵期望和下一狀態(tài)的價值期望與衰減系數的乘積兩部分組成。同理可得,在策略π下,狀態(tài)s采取動作a的動作價值函數,表示為:
qπ(s,a)=Eπ(Gt|St=s,At=a)=Eπ(Rt+1+
γqπ(St+1,At+1)|St=s),At=a)
(15)
(15)式稱為qπ的貝爾曼方程。
馬爾可夫決策過程就是希望尋找一個合適的策略,能夠產生最大的累積收益。通常最優(yōu)價值函數定義為所有策略下對應價值函數中的最大者,對應的策略即為最優(yōu)策略,即:
(16)
(17)
式中:v*為最優(yōu)狀態(tài)價值函數;q*為最優(yōu)動作價值函數。根據貝爾曼方程,可以推導出價值迭代方法并求解出最優(yōu)的策略[48]。
初至拾取問題可以看作是高維特征屬性空間內智能馬爾可夫決策過程,模型構建如下所示。
S:時空域地震數據的每一點位置sij=(ti,xj),i和j分別為時間和空間采樣點;
A:位移矢量,具體為左移、右移、上移、下移;
γ:γ∈[0,1],具體取值0.5。
為了驗證本文方法的有效性,選取復雜地表區(qū)實際數據進行測試。
圖3為西部地區(qū)某一測線的可控震源三維地震單炮記錄,共149道,時間采樣間隔為2ms,采樣時長為1.8s,道間距為25m。本數據高程起伏相對較小,道間時差不存在躍變情況。
圖3 西部地區(qū)可控震源某一測線原始單炮記錄
然后提取多屬性構建特征空間,能量比屬性的長短時窗長度分別為100個網格點、30個網格點,邊緣屬性選擇Kirsch算子進行計算,峰度屬性的窗長為40個網格點。從圖4可以看出,能量比屬性和峰度屬性存在初至錯斷、不連續(xù)的情況,邊緣強度屬性在壞道部分對初至的刻畫相對較差。
圖4 西部可控震源單炮記錄屬性a 長短時窗能量比; b 邊緣強度; c 峰度
圖5為多屬性加權K均值聚類結果,由于本數據初至的能量相對較弱,因此聚類結果為初至的點相對較少,但是聚類結果基本為正確的初至位置。圖6為多屬性加權K均值聚類得到的初至區(qū)域與最終拾取結果,其中藍線表示由多屬性K均值聚類得到的初至區(qū)域,紅線表示拾取結果。圖7對比了基于多屬性MDP拾取的結果與常規(guī)單屬性拾取的結果,可以看出,基于多屬性MDP的拾取結果穩(wěn)定性較好,基于峰度屬性和能量比屬性的拾取結果都存在跳躍現象,基于邊緣強度屬性的拾取結果在壞道的部分相對較差,基于本文方法的拾取結果在連續(xù)性和穩(wěn)定性方面都存在較大優(yōu)勢。圖7證明了本文方法的有效性與穩(wěn)定性。
圖5 西部可控震源單炮記錄多屬性加權K均值聚類結果(紅點表示聚類結果為初至的點)
圖6 西部可控震源單炮記錄多屬性加權K均值聚類得到的初至區(qū)域與最終拾取結果(藍線內為確定的初至區(qū)域,紅線為最終拾取結果)
圖7 西部可控震源單炮記錄多屬性MDP拾取的結果與常規(guī)單屬性拾取的結果對比
圖8為西部山地某測線的原始地震單炮記錄,共706道,時間采樣間隔為4ms,采樣時長為3s。該數據高程起伏較大,首先對該地區(qū)進行高程統(tǒng)計,然后通過道間時差躍變壓制,消除部分高頻的道間時差,校正后的地震單炮記錄如圖9所示。
圖8 西部山地某測線的原始地震單炮記錄
圖9 道間時差壓制后的西部山地地震單炮記錄
對高程平滑后的地震單炮記錄進行多屬性提取,分別提取長短時窗能量比屬性、邊緣強度屬性、峰度屬性(圖10),其中長、短時窗的長度分別為100個網格點、20個網格點,邊緣強度選取Kirsch算子,峰度屬性的窗長為30個網格點。由圖10可以看出,在道號200附近,由于強噪聲和壞道的影響,采用常規(guī)屬性方法難以準確拾取。
圖10 西部山地地震單炮記錄屬性a 長短時窗能量比; b 邊緣強度; c 峰度
對3種屬性進行多屬性加權K均值聚類,聚類結果如圖11所示,大部分聚類為初至的點均分布在真實初至左右,得到的初至分布范圍如圖12藍線所示,然后在初至區(qū)域內通過多屬性馬爾可夫決策進行走時檢測,結果如圖12紅線所示。圖13對比了基于多屬性馬爾可夫決策過程與常規(guī)單屬性拾取的結果,可以看出,采用常規(guī)方法的拾取結果都存在不同程度的跳躍,采用本文方法的拾取結果明顯更加準確、連續(xù)性更好。
圖11 西部山地地震單炮記錄多屬性加權K均值聚類結果(紅點表示聚類結果為初至的點)
圖12 西部山地地震單炮記錄多屬性加權K均值聚類得到的初至區(qū)域及最終拾取結果(藍線內為確定的初至區(qū)域,紅線為拾取結果)
初至拾取是地震數據處理中的重要一步,復雜地表區(qū)的初至拾取問題可以看作是強噪聲下的、存在道間時差的、近似線性信號(變化軌跡)的估計問題。本文方法的關鍵在于構建高維多屬性特征空間,并在MDP框架下,利用多屬性約束進行拾取。針對復雜地表地震數據,采用小平滑地表進行時差躍變壓制,能夠避免出現初至點躍變;其次通過構建高維特征空間、進行高維多屬性的提取,在屬性特征域中凸顯初至的差異,充分利用了地震數據的空間結構信息;然后利用K均值聚類確定初至分布范圍,縮小了拾取范圍,降低了拾取難度;最后利用多屬性約束的馬爾可夫決策過程拾取初至,使得拾取結果具有更好的橫向連續(xù)性。實際數據測試結果表明,與常規(guī)單一屬性相比,采用本文方法能夠自然回避由壞道、噪聲產生的錯誤初至信息,在一些信噪比較低、弱能量區(qū)域拾取效果更好。
在復雜地表區(qū)進行初至波的識別與走時檢測面臨的最主要問題是信噪比低,因此要先通過預處理、去噪得到較為理想的、后續(xù)用于拾取的地震記錄,如何利用合適的去噪方法,在去噪的同時保護好初至信息,是需要進一步思考和研究的方向。包括屬性數量在內的屬性選取還需要做進一步的研究和測試。另外,本文關于先驗信息的利用還不充分,在三維數據初至拾取中,可以將震源附近較好的拾取結果作為先驗約束應用到離震源較遠的區(qū)域中。