王樂(lè)慈,高世臣,林孟雄,李宗賢
(1.中國(guó)地質(zhì)大學(xué)(北京)數(shù)理學(xué)院,北京 100083;2.中國(guó)石油長(zhǎng)慶油田公司第五采氣廠,陜西 西安 710000)
分類技術(shù)是一種通過(guò)學(xué)習(xí)而獲得的基本技術(shù),在模式識(shí)別、數(shù)據(jù)挖掘以及機(jī)器學(xué)習(xí)等領(lǐng)域作為主要研究?jī)?nèi)容。通過(guò)構(gòu)建分類器進(jìn)行分類識(shí)別,是一個(gè)歸納學(xué)習(xí)的過(guò)程。在實(shí)際應(yīng)用中,我們需要根據(jù)訓(xùn)練數(shù)據(jù)的特征及規(guī)律學(xué)習(xí)并歸納出屬性和類變量之間的函數(shù)關(guān)系或規(guī)則,然后對(duì)測(cè)試數(shù)據(jù)中的相關(guān)的屬性配置信息,通過(guò)歸納出的函數(shù)關(guān)系或規(guī)則推理并確定相應(yīng)的類變量值。分類器的質(zhì)量與分類器構(gòu)造方法、待分類數(shù)據(jù)的特性以及訓(xùn)練樣本數(shù)量等諸多因素有關(guān)[1]。而在分類器中一個(gè)重要分支是概率分類器,在概率分類器中,首先確定變量間的關(guān)系結(jié)構(gòu),便會(huì)得到分類器的參數(shù)布局,然后再用訓(xùn)練集中的數(shù)據(jù)信息依據(jù)一定的方法來(lái)進(jìn)行參數(shù)估計(jì)。貝葉斯分類器便是常見的概率分類器。
貝葉斯方法是模式識(shí)別中的一個(gè)相對(duì)基本的方法,一般在模式識(shí)別的應(yīng)用中會(huì)以貝葉斯方法作為起點(diǎn),當(dāng)該方法不足以處理問(wèn)題時(shí),我們便會(huì)選擇更為復(fù)雜的方法,如神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等。貝葉斯決策論將分類問(wèn)題轉(zhuǎn)化為概率問(wèn)題,故所有的概率都應(yīng)是從數(shù)據(jù)中計(jì)算或是估計(jì)得到的[2]。樸素貝葉斯(Naive Bayes)分類器是貝葉斯方法中的一個(gè)代表方法。
經(jīng)過(guò)相似的地質(zhì)條件和相似的成巖改造得到的沉積物稱為儲(chǔ)集巖的單元,而巖性識(shí)別則是將其分類的過(guò)程。在諸多地質(zhì)研究工作中,巖性識(shí)別具有重要的地位。在油氣勘探中,巖性識(shí)別是一項(xiàng)基礎(chǔ)而重要的環(huán)節(jié)。識(shí)別油藏巖石的各種巖性是石油儲(chǔ)層特征的主要任務(wù),是儲(chǔ)層特征研究、儲(chǔ)量計(jì)算和地質(zhì)建模的基礎(chǔ)。將貝葉斯方法應(yīng)用于巖性識(shí)別,可以進(jìn)行計(jì)算簡(jiǎn)單、性能高效的巖性分類。
貝葉斯決策論(Bayesian decision theory)是概率框架下實(shí)施決策的基本方法。我們通過(guò)貝葉斯法則的公式(式(1))來(lái)介紹這一方法。
(1)
式中:P(c)為類“先驗(yàn)”概率;P(x|c)為樣本x相對(duì)于類變量c的類條件概率,也稱為“似然”;P(x)為用于歸一化的“證據(jù)”因子。對(duì)給定樣本x,證據(jù)因子P(x)與類變量無(wú)關(guān),對(duì)所有類別來(lái)說(shuō)都是相同的。因此估計(jì)P(c|x)的問(wèn)題就轉(zhuǎn)化為如何基于訓(xùn)練數(shù)據(jù)D提供的信息來(lái)估計(jì)先驗(yàn)P(c)和似然P(x|c)。
類先驗(yàn)概率P(c)表示在樣本空間中,每個(gè)類的樣本所占的比例,根據(jù)大數(shù)定律,當(dāng)訓(xùn)練集樣本充足時(shí),P(c)的概率值可通過(guò)各類樣本出現(xiàn)的頻率來(lái)進(jìn)行估計(jì)。
對(duì)類條件概率P(x|c)來(lái)說(shuō),涉及關(guān)于x的所有屬性的聯(lián)合概率,直接根據(jù)樣本出現(xiàn)的頻率來(lái)估計(jì)會(huì)是一個(gè)很大的難題。由于很多樣本取值在訓(xùn)練集中根本沒(méi)有出現(xiàn),但沒(méi)有在樣本中出現(xiàn)并不代表概率值為零,故直接使用頻率來(lái)估計(jì)P(x|c)顯然不可行。
貝葉斯方法在實(shí)際應(yīng)用中有時(shí)會(huì)存在樣本稀疏等問(wèn)題,為了解決類似問(wèn)題,也為了降低模型結(jié)構(gòu)和計(jì)算的復(fù)雜度,研究者們引入了“屬性條件獨(dú)立性假設(shè)”:即對(duì)已知類別,假設(shè)所有屬性相互獨(dú)立。這就是樸素貝葉斯分類器,即假設(shè)每個(gè)屬性獨(dú)立地對(duì)分類結(jié)果發(fā)生影響,雖然這個(gè)假設(shè)在現(xiàn)實(shí)情況下過(guò)于理想化很難成立,但由于在分類中,首先我們只要將各類變量概率值的排序找出,而并不需要用完全精確的概率值計(jì)算;其次在屬性之間的依賴關(guān)系有時(shí)會(huì)對(duì)所有類別的影響相同,有時(shí)這種依賴關(guān)系所帶來(lái)的影響能相互抵銷,故樸素貝葉斯分類器的應(yīng)用往往能夠得到較好較準(zhǔn)確的結(jié)果[3]。
在條件獨(dú)立性假設(shè)下,樸素貝葉斯分類器具有簡(jiǎn)單的星形結(jié)構(gòu),如圖1所示??梢钥闯觯總€(gè)屬性結(jié)點(diǎn)只有唯一的類父結(jié)點(diǎn),這意味著,當(dāng)類給定時(shí),屬性之間條件獨(dú)立(式(2))。
圖1 樸素貝葉斯結(jié)構(gòu)
(2)
式中:d為屬性數(shù)目;xi為x在第i個(gè)屬性上的取值。
對(duì)于所討論的所有類別來(lái)說(shuō),P(x)都是相同的,故得到如式(3)所示的判別準(zhǔn)則。
(3)
即,所判類別為屬于賦予先驗(yàn)概率為權(quán)重的概率乘積的最大值。
在分類器中,對(duì)每個(gè)屬性條件概率P(xi|c)的估計(jì)是首要的計(jì)算部分,只有求出條件概率才能進(jìn)行貝葉斯分類的判別。在本文中,用參數(shù)和非參數(shù)兩種不同的方法來(lái)進(jìn)行概率密度估計(jì),分別為核密度估計(jì)和混合高斯模型,再進(jìn)行對(duì)比。
在統(tǒng)計(jì)學(xué)中,核密度估計(jì)(KDE)是估計(jì)隨機(jī)變量的概率密度函數(shù)的非參數(shù)方法。核密度估計(jì)是基于有限數(shù)據(jù)樣本進(jìn)行推理的基本數(shù)據(jù)平滑問(wèn)題。在諸如信號(hào)處理和計(jì)量經(jīng)濟(jì)學(xué)等領(lǐng)域,它也被稱為Parzen-Rosenblatt窗口方法,其表達(dá)式見式(4)。
(4)
式中:X1,X2,…Xn為隨機(jī)變量x的n個(gè)樣本;h為帶寬,也稱平滑參數(shù),在核密度估計(jì)中具有重要作用;K(·)為核函數(shù),在本文中使用的核函數(shù)為高斯核函數(shù),其表達(dá)式見式(5)。
(5)
在核密度估計(jì)中一個(gè)較為重要的影響因素為帶寬h的選擇,帶寬h的選擇差異會(huì)帶來(lái)核密度估計(jì)結(jié)果上的較大差異。帶寬h過(guò)小會(huì)造成核密度估計(jì)曲線光滑性差,過(guò)于粗糙,會(huì)產(chǎn)生一些過(guò)擬合的問(wèn)題;而帶寬過(guò)大會(huì)造成核密度估計(jì)曲線過(guò)為平滑,從而失去應(yīng)有的特征細(xì)節(jié)[4]。
圖2為不同帶寬的核密度估計(jì)曲線。我們可以看出過(guò)小和過(guò)大的帶寬選擇都會(huì)給概率密度估計(jì)造成干擾,只有選擇合適的帶寬才能更好地?cái)M合概率密度。
圖2 不同帶寬的核密度估計(jì)
常用的確定帶寬的方法一般有經(jīng)驗(yàn)法則,其表達(dá)式見式(6)。
(6)
在應(yīng)用中還有一些確定帶寬的方法,例如自適應(yīng)帶寬方法,也稱自動(dòng)帶寬選擇方法[5]。在本文中我們分別用兩種不同的確定帶寬的方法,ksdensity簡(jiǎn)稱ksd為用經(jīng)驗(yàn)法則確定固定帶寬的核密度估計(jì),kde為自適應(yīng)帶寬方法,通過(guò)局部數(shù)據(jù)分布確定調(diào)整帶寬。不同屬性的數(shù)據(jù)分布用兩種不同核密度估計(jì)方法進(jìn)行概率密度估計(jì),并作出圖像(圖3)。
可以看出kde方法作出的圖像會(huì)產(chǎn)生鋸齒形波動(dòng)的現(xiàn)象,這是由于在自動(dòng)調(diào)節(jié)帶寬的情況下,有時(shí)由于局部數(shù)據(jù)特性會(huì)使得帶寬會(huì)過(guò)小。使得圖像過(guò)于粗糙,對(duì)概率密度的模擬不夠準(zhǔn)確,不具有普適性。所以我們?cè)谖闹羞x擇依據(jù)經(jīng)驗(yàn)法則確定帶寬的方法進(jìn)行應(yīng)用。
正如前文所述,在核密度估計(jì)的方法中,如何選擇帶寬h決定了得到的不同的密度估計(jì),如果我們能避免平滑參數(shù)的選擇,那便會(huì)在一定程度上對(duì)模型的一些主觀性決策有所幫助。在本文中提出的第二個(gè)概率密度方法便是混合高斯方法。然而,在通常情況下,當(dāng)我們消除一個(gè)參數(shù)時(shí),我們最終需要用另一個(gè)參數(shù)替換它。在混合高斯方法中,我們將對(duì)于帶寬的選擇轉(zhuǎn)為確定對(duì)高斯混合模型個(gè)數(shù)的選擇。
貝葉斯混合高斯模型是一種參數(shù)方法,假設(shè)概率密度f(wàn)GMM(x)可以用K個(gè)加權(quán)的概率密度總和來(lái)建模,其中K?n。單變量混合高斯公式見式(7)。
(7)
式中:φi為第i個(gè)項(xiàng)的權(quán)重或混合系數(shù);N(x;μi,Σi)為概率密度,即高斯函數(shù),參數(shù)由向量μi,Σi表示,即以μi為均值和Σi為協(xié)方差矩陣的正態(tài)分布。為了確保這是真正的密度,我們必須強(qiáng)加條件φ1+…+φK=1和φi>0為了評(píng)估fGMM(x),我們考慮我們的樣本點(diǎn)x,找出該點(diǎn)處的組分密度N(x;μi,Σi)的值,并取這些值的加權(quán)和。
在參數(shù)估計(jì)過(guò)程中,一般使用EM算法估計(jì)參數(shù)φi*,μi*和Σi*。EM算法是一種常用的參數(shù)估計(jì)方法,是一種迭代式算法,相比于梯度下降等優(yōu)化算法的求解,求和的項(xiàng)數(shù)不會(huì)隨著參數(shù)變量的數(shù)目以指數(shù)級(jí)上升,計(jì)算較為簡(jiǎn)單,EM算法是一種非梯度優(yōu)化方法[6]。
在混合高斯模型中,高斯模型的數(shù)量是需要考慮的一個(gè)因素,數(shù)量過(guò)少,會(huì)使得擬合不準(zhǔn)確,在接下來(lái)的工作中造成一定程度的信息缺失;而數(shù)量過(guò)多,尤其在樣本數(shù)據(jù)有限的情況下,過(guò)多的高斯模型會(huì)對(duì)樣本數(shù)據(jù)造成一定的壓力,在EM算法進(jìn)行參數(shù)估計(jì)的迭代時(shí),會(huì)產(chǎn)生在一定迭代步數(shù)內(nèi)不收斂等一系列問(wèn)題,雖然該問(wèn)題可以在編程時(shí)通過(guò)一些技巧性操作進(jìn)行解決,但也會(huì)造成過(guò)擬合等現(xiàn)象使得結(jié)果失去準(zhǔn)確性[7]。
圖3 兩種不同的核密度估計(jì)方法對(duì)比
本文研究數(shù)據(jù)來(lái)自蘇東41-33區(qū)塊下古氣井的89口測(cè)井曲線,該區(qū)塊位于鄂爾多斯盆地蘇里格中區(qū)與東區(qū)的交界處,具有豐富的油氣資源。該地區(qū)巖性為復(fù)雜的碳酸鹽巖,主要分為7種巖性,分別是石灰?guī)r、白云質(zhì)石灰?guī)r、泥質(zhì)石灰?guī)r、白云巖、灰質(zhì)白云巖、泥質(zhì)白云巖和泥巖。同時(shí),針對(duì)該研究區(qū)塊的儲(chǔ)層特征,以測(cè)井資料中已知巖性地層的數(shù)據(jù)為基礎(chǔ),根據(jù)行業(yè)標(biāo)準(zhǔn)最終優(yōu)選6個(gè)對(duì)巖性較為敏感的測(cè)井曲線屬性,有自然伽馬(GR)、中子(CNL)、密度(DEN)、聲波時(shí)差(AC)、光電截面指數(shù)(PE)和電阻率(RLLD)。選取的這些測(cè)井變量從不同角度能夠較好地反映地層不同巖性特點(diǎn),組合起來(lái)作為復(fù)雜碳酸鹽巖巖性識(shí)別綜合評(píng)價(jià)的特征體系,分析其變化特征,總結(jié)其在已知確定的關(guān)鍵井主要巖石類型的測(cè)井響應(yīng)特征[1]。
由于選用單一測(cè)井?dāng)?shù)據(jù)分析不具有普遍性,因此本次研究數(shù)據(jù)從整個(gè)工區(qū)所有測(cè)井曲線樣本中等概率隨機(jī)抽取,每種巖性抽取200個(gè)樣本,共計(jì)抽取1 400個(gè)巖石數(shù)據(jù)用于前期數(shù)據(jù)分析。并且基于前人經(jīng)驗(yàn),先對(duì)RLLD數(shù)據(jù)進(jìn)行了對(duì)數(shù)處理(log10),然后對(duì)六個(gè)測(cè)井曲線分別進(jìn)行去量綱化,即標(biāo)準(zhǔn)化,避免了不同量綱對(duì)分類器造成不良影響。將經(jīng)過(guò)上述處理過(guò)的數(shù)據(jù),用于我們的實(shí)例數(shù)據(jù)分析。
在本文的實(shí)例分析中,分別用不同的概率密度估計(jì)方法對(duì)訓(xùn)練集中數(shù)據(jù)進(jìn)行概率密度估計(jì),其中包括前文所介紹的兩種方法,核密度估計(jì)方法與混合高斯方法,并用單高斯模型對(duì)概率密度進(jìn)行擬合用于本文方法的對(duì)照。
由于樸素貝葉斯模型假設(shè)屬性之間相互獨(dú)立,這個(gè)假設(shè)在實(shí)際應(yīng)用中往往是不成立的,在混合高斯方法中,不同屬性間會(huì)存在相關(guān)性,即協(xié)方差矩陣非單位矩陣,隨著屬性增多,相關(guān)性的干擾往往越強(qiáng),這種相關(guān)性會(huì)對(duì)混合高斯的結(jié)果產(chǎn)生影響,使得分類效率降低,于是對(duì)6種屬性用主成分分析(PCA)進(jìn)行正交化處理,增強(qiáng)屬性的獨(dú)立性,提高分類的準(zhǔn)確率(圖4)。
在圖4中可以看出,不同屬性對(duì)于巖性的分類情況,用核密度估計(jì)方法中的固定帶寬方法作出每種屬性不同巖性的概率密度曲線圖。從中可以看出,不同的屬性對(duì)于七種巖性的區(qū)分度也不同,在光電截面指數(shù)(PE)屬性的圖中,七種巖性的分布較為獨(dú)立,重疊部分即相對(duì)較少,誤判區(qū)??;而在自然伽馬(GR)屬性的圖中,七種巖性區(qū)分度較低,重疊部分也較多,誤判區(qū)大。為了更好地對(duì)數(shù)據(jù)的巖性分類,我們將六種不同的測(cè)井屬性和巖性類別綜合起來(lái),構(gòu)造出樸素貝葉斯框架,用樸素貝葉斯分類器対巖性進(jìn)行理論較為嚴(yán)密,結(jié)果較為準(zhǔn)確的分類(圖5)。
圖4 用ksd方法作出的六種屬性的巖性分布
圖5為核密度估計(jì)方法和混合高斯方法對(duì)于不同巖性的不同屬性的分類數(shù)據(jù)的概率密度估計(jì)的曲線圖。其中,七行表示七種不同的巖性,六列表示六種屬性。在每個(gè)小圖中黑色線條表示核密度估計(jì)中ksd方法的概率密度估計(jì),淺色實(shí)線表示三高斯混合方法(GMM3)的概率密度估記,淺色虛線表示高斯函數(shù)的三個(gè)成分(comp1-3)??梢钥闯龊嗣芏裙烙?jì)方法和三高斯混合方法的概率密度擬合較為一致,有的類別的屬性概率曲線有所不同,峰值、偏度和形狀等特征會(huì)有不同,但大體上是一致的,而這些概率密度擬合上的不同,造成了分類準(zhǔn)確度上的差異,為分類器分類的效果提供了對(duì)比。
在測(cè)試集中我們選用該區(qū)塊下古氣井的89口完整測(cè)井曲線數(shù)據(jù),對(duì)訓(xùn)練結(jié)果進(jìn)行測(cè)試。由于測(cè)試的樣本較多,可以避免結(jié)果的偶然性,使結(jié)果具有一定的代表性和普遍性。在實(shí)例分析中我們用樸素貝葉斯分類器對(duì)測(cè)試集中的數(shù)據(jù)進(jìn)行巖性分類,并進(jìn)行分類準(zhǔn)確率對(duì)比。
將該89口井測(cè)試出的準(zhǔn)確率結(jié)果用折線圖表示,橫坐標(biāo)順序由小圖中黑色實(shí)線所代表模型的訓(xùn)練準(zhǔn)確率由低到高排列決定,不同顏色形態(tài)的折線代表不同的概率密度估計(jì)方法,如圖6所示。
可以看出,圖6(a)中兩種不同確定帶寬的核密度估計(jì)方法kde和ksd準(zhǔn)確率幾乎持平,但由于前文中所述的自適應(yīng)帶寬方法擬合出的概率曲線過(guò)于粗糙的問(wèn)題,選擇使用ksd方法即由經(jīng)驗(yàn)法則確定帶寬;而對(duì)于單高斯和混合三高斯模型的對(duì)比,由圖6(b)中可以看出,三高斯混合模型(虛線條)的準(zhǔn)確率明顯高于單高斯模型(實(shí)線條),只有極少數(shù)準(zhǔn)確率較低;而在圖6(c)中可以看出用核密度估計(jì)方法(淺色線條)及三高斯混合模型(虛線條)的概率密度估計(jì)所得出的分類準(zhǔn)確率大體上比單高斯模型(深色實(shí)線條)更高,僅在少數(shù)口井的測(cè)試中準(zhǔn)確率低于單高斯模型。而在前兩種方法的比較中,三高斯混合模型較核密度估計(jì)方法來(lái)說(shuō)具有相對(duì)較高的測(cè)試準(zhǔn)確率,在圖中表示即為虛線條在淺色線條之上的部分較多。
圖5 不同方法概率密度估計(jì)曲線圖
圖6 不同方法準(zhǔn)確率折線圖
1) 在巖性分類的方法應(yīng)用中,樸素貝葉斯方法在分類技術(shù)中占據(jù)一席之地,其數(shù)學(xué)理論嚴(yán)謹(jǐn),分類效率較為穩(wěn)定,相比于其他方法對(duì)參數(shù)需求較小,而且易于理解,模型架構(gòu)簡(jiǎn)單易行,是一種較為常用,基礎(chǔ)的分類方法。這種方法對(duì)測(cè)井曲線所能獲得的多種屬性進(jìn)行綜合分類,是多元統(tǒng)計(jì)學(xué)習(xí)在地質(zhì)礦產(chǎn)儲(chǔ)層特征研究中較為廣泛使用并且有效的方法。
2) 對(duì)概率密度估計(jì)方法的選擇在樸素貝葉斯分類器中是一個(gè)影響較大的因素。本文的樸素貝葉斯分類器應(yīng)用中,用參數(shù)方法的混合高斯概率密度估計(jì)方法用于估計(jì)條件概率的分類效果最好,而注意在一般數(shù)據(jù)量足夠的情況下,需要三個(gè)以上的混合模型才能達(dá)到相比核密度估計(jì)較高的準(zhǔn)確率。在本文的訓(xùn)練數(shù)據(jù)的條件下通過(guò)對(duì)比選擇了三高斯混合模型的結(jié)果較好,但是對(duì)于不同環(huán)境下的樣本數(shù)據(jù),也需要依據(jù)樣本數(shù)據(jù)的特征進(jìn)行分析并判斷選擇一個(gè)合適的模型數(shù)量或者建模方法。
3) 在實(shí)際應(yīng)用中,混合高斯模型在系統(tǒng)的計(jì)算負(fù)載方面提供了一定的優(yōu)勢(shì)。在概率密度估計(jì)方法中,有兩個(gè)需要考慮的因素:需要儲(chǔ)存的信息量對(duì)計(jì)算造成的負(fù)擔(dān),以及在某一點(diǎn)上為獲得概率密度估計(jì)所需的計(jì)算工作量。在核密度估計(jì)方法中,我們須保留所有數(shù)據(jù)點(diǎn),計(jì)算以每個(gè)樣本點(diǎn)為中心的多個(gè)核的加權(quán)和,需多次計(jì)算核值,在多變量的情況下計(jì)算負(fù)荷會(huì)更大[8]。隨著越來(lái)越多地使用大量、高維的數(shù)據(jù)集,計(jì)算工作量和使用核密度估計(jì)必須存儲(chǔ)的信息量也越來(lái)越大。用混合高斯方法估計(jì)概率密度函數(shù),相較于其他的密度估計(jì)方法尤其是核密度估計(jì)法,需要相對(duì)較少的計(jì)算機(jī)存儲(chǔ)空間及計(jì)算量,所以混合高斯方法不論在準(zhǔn)確性方面還是計(jì)算復(fù)雜度方面,均更適合于實(shí)際應(yīng)用中與樸素貝葉斯分類器相結(jié)合。
4) 由于樸素貝葉斯的屬性條件獨(dú)立性假設(shè)較為理想化,對(duì)于實(shí)際應(yīng)用的數(shù)據(jù)屬性一般具有或多或少的相關(guān)性[9],所以該方法存在一定的不準(zhǔn)確性,故半樸素貝葉斯分類器和貝葉斯網(wǎng)等分類方法將成為進(jìn)一步研究的目標(biāo)。