夏莘媛,戴 靜,潘用科,韓 揚(yáng)
(1. 河北工業(yè)大學(xué) 電子信息工程學(xué)院,天津 300401;2. 華北理工大學(xué) 遷安學(xué)院,河北 遷安 064400)
?
基于貝葉斯證據(jù)框架下SVM的油層識(shí)別模型研究
夏莘媛1,戴靜2,潘用科1,韓揚(yáng)1
(1. 河北工業(yè)大學(xué) 電子信息工程學(xué)院,天津 300401;2. 華北理工大學(xué) 遷安學(xué)院,河北 遷安 064400)
摘要:支持向量機(jī)(support vector machine,SVM)方法在石油測(cè)井領(lǐng)域的油層識(shí)別中取得了很好的應(yīng)用效果,但SVM方法的識(shí)別效果受到懲罰參數(shù)和核參數(shù)的影響,不同的參數(shù)組合直接影響識(shí)別精度的優(yōu)劣。為了在油層識(shí)別中獲得更好的識(shí)別效果,提出一種基于貝葉斯證據(jù)框架下SVM的油層識(shí)別模型,即根據(jù)測(cè)井?dāng)?shù)據(jù)的訓(xùn)練樣本信息,采用貝葉斯證據(jù)框架的理論求解懲罰參數(shù)以及核參數(shù),再通過(guò)所求得的決策函數(shù)對(duì)測(cè)井?dāng)?shù)據(jù)的測(cè)試樣本進(jìn)行識(shí)別。實(shí)際測(cè)井?dāng)?shù)據(jù)實(shí)驗(yàn)表明,基于貝葉斯證據(jù)框架下SVM的油層識(shí)別模型的油層識(shí)別效果得到提高,優(yōu)于傳統(tǒng)SVM方法和基于粒子群優(yōu)化算法(particle swarm optimization,PSO)的SVM方法。
關(guān)鍵詞:支持向量機(jī);油層識(shí)別;貝葉斯證據(jù)框架
0前言
油層探測(cè)信息是多源、多參數(shù)、多側(cè)面的耦合信息。在油層識(shí)別中,由于信息量巨大、樣本空間復(fù)雜,且探測(cè)的信息與目標(biāo)缺少完全一致性和因果性[1],因此油層模式識(shí)別是一個(gè)復(fù)雜的非線性動(dòng)態(tài)隨機(jī)過(guò)程。識(shí)別首先要做分類,分類問題是數(shù)據(jù)挖掘領(lǐng)域的一個(gè)基本問題,是根據(jù)預(yù)定義的目標(biāo)類和所建立模型來(lái)確定對(duì)象的類別。分類問題在現(xiàn)實(shí)生活中有許多不同的應(yīng)用,例如:文本分類、人臉識(shí)別、圖像分類、油層識(shí)別等。近年來(lái),智能分類方法中的支持向量機(jī)(support vector machine,SVM)[2]得到廣泛應(yīng)用,成為不少學(xué)者探索研究的對(duì)象。
基于統(tǒng)計(jì)學(xué)習(xí)理論的SVM是在VC維[3]的基礎(chǔ)上,采用結(jié)構(gòu)風(fēng)險(xiǎn)最小化[4]的思想取代了機(jī)器學(xué)習(xí)的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化,從而了避免了過(guò)學(xué)習(xí)的現(xiàn)象。SVM的非線性處理能力和泛化能力比較好,并且全局收斂性要優(yōu)于一般的學(xué)習(xí)機(jī)[5]。因此,SVM能夠非常巧妙地處理非線性問題, 即通過(guò)一個(gè)非線性變換將樣本映射到一個(gè)高維空間中,再引入核函數(shù)將高維空間內(nèi)的運(yùn)算轉(zhuǎn)化為求內(nèi)積的形式,這樣避免了復(fù)雜的數(shù)學(xué)運(yùn)算。但這種傳統(tǒng)SVM的性能往往受到核參數(shù)和懲罰參數(shù)的影響,使得油氣識(shí)別的精度得不到進(jìn)一步的提高。
為解決以上問題,本文提出利用貝葉斯證據(jù)框架的思想,推導(dǎo)核參數(shù)和懲罰參數(shù),從而提高SVM的識(shí)別精度,并應(yīng)用于油層識(shí)別中以獲得理想的識(shí)別效果。
1SVM方法描述
設(shè)一組個(gè)數(shù)為l,維數(shù)為n的訓(xùn)練樣本集{(x1,y1),(x2,y2),…,(xi,yi),…,(xl,yl)},x∈Rn,類別標(biāo)簽yi={-1,+1}。識(shí)別的實(shí)質(zhì)就是構(gòu)造一個(gè)最優(yōu)超平面[6]f(x,w),使不同類別的訓(xùn)練樣本之間的間隔最大。
當(dāng)數(shù)據(jù)樣本非線性可分時(shí),將數(shù)據(jù)樣本映射到高維空間,將xi·xj變換成φ(xi)·φ(xj),再引入核函數(shù)K(xi·xj)=φ(xi)·φ(xj)。其中,核函數(shù)K(xi·xj)須滿足Mercer條件[7],其作用是防止在高維空間內(nèi)復(fù)雜的內(nèi)積計(jì)算,從而避免了維數(shù)災(zāi)難。于是非線性問題變成了線性問題,然后再通過(guò)構(gòu)造最優(yōu)超平面對(duì)測(cè)試樣本集進(jìn)行識(shí)別。
SVM的優(yōu)化問題[8]可表示為
(1)
(1)式中,C為懲罰參數(shù),是錯(cuò)分樣本比例與算法復(fù)雜度之間的折中。其對(duì)偶形式為
(2)
其決策函數(shù)為
(3)
本文采用最小序貫優(yōu)化算法(sequential minimal optimization,SMO)來(lái)求解SVM的二次規(guī)劃(quadratic programming,QP)問題。SMO算法由John C Platt提出,是分解算法的一種特殊情況。它將QP問題分為若干個(gè)子問題,每次處理2個(gè)數(shù)據(jù)樣本的優(yōu)化問題。它的特點(diǎn)是運(yùn)算速度快,性能佳,特別在線性SVM和數(shù)據(jù)稀疏時(shí)性能更優(yōu)。
2基于貝葉斯證據(jù)框架的SVM
2.1貝葉斯證據(jù)框架描述
貝葉斯概率理論為數(shù)據(jù)建模提供了一個(gè)統(tǒng)一的框架,其目的是在這個(gè)框架內(nèi)尋找一組最優(yōu)的模型,再利用這個(gè)模型來(lái)進(jìn)行推斷。貝葉斯證據(jù)框架的核心思想是通過(guò)最大化參數(shù)分布的后驗(yàn)概率來(lái)求取最佳參數(shù)值或最佳的模型[9]。
2.2貝葉斯證據(jù)框架下的SVM
2.2.1貝葉斯第一準(zhǔn)則
貝葉斯第一準(zhǔn)則是根據(jù)貝葉斯概率公式計(jì)算并最大化w的后驗(yàn)概率p(w|H,λ,D),得到w最優(yōu)值wMP。其中,訓(xùn)練樣本集為D,框架模型為H,k維的參數(shù)矢量為w。w的后驗(yàn)概率p(w|H,λ,D)公式為
p(w|D,H,λ)∝p(w|λ,H)p(D|w,H)
(4)
(4)式中,w與H,λ均無(wú)關(guān)。則第一項(xiàng)p(w|H,λ)為參數(shù)w的先驗(yàn)概率。
(5)
(5)式中,λ為正則化參數(shù),λ取1/C。設(shè)訓(xùn)練樣本是獨(dú)立同分布,且p(w|H,λ)服從高斯分布,(5)式可寫為
(6)
(7)
在分類問題[10]中
(8)
將(6)式和(8)式代入(4)式中
(9)
2.2.2貝葉斯第2準(zhǔn)則推斷
貝葉斯第二準(zhǔn)則用來(lái)推斷懲罰參數(shù)C,即正則化參數(shù)λ。p(λ|D,H)∝p(D|λ,H)p(λ|H)。假設(shè)p(λ|H)為平坦分布,即常量, 將M(w)在w=wMP處泰勒展開,得
(10)
這里A=▽2M,A為Hessian矩陣。
(11)
令logp(D|λ,H)最小,得
(12)
(13)
再求解Hessian矩陣,則
(14)
(15)
將(15)式代入(12)式中,即可求解最優(yōu)解λMP。
2.2.3貝葉斯第3準(zhǔn)則推斷
通過(guò)貝葉斯證據(jù)框架第三準(zhǔn)則可求解核參數(shù)。本文選擇的是高斯徑向基核函數(shù)。
(16)
求解
(17)
2.3算法步驟
Step1將訓(xùn)練樣本集和測(cè)試樣本集歸一化,歸一化公式如下
(18)
Step2根據(jù)貝葉斯證據(jù)框架第一準(zhǔn)則,求出SVM的w。這里使用SMO算法求解QP問題。
Step3根據(jù)貝葉斯證據(jù)框架第二準(zhǔn)則求出SVM的正則化參數(shù)λ。
Step4根據(jù)貝葉斯證據(jù)框架第三準(zhǔn)則求出SVM的核參數(shù)σ。
Step5迭代100次。選擇對(duì)訓(xùn)練樣本集分類準(zhǔn)確率最高的一組模型對(duì)測(cè)試樣本集進(jìn)行識(shí)別。
算法流程圖如圖1所示。
圖1 貝葉斯支持向量機(jī)算法流程圖Fig.1 Flowchart of Bayesian-SVM algorithm
3實(shí)際應(yīng)用
3.1油層識(shí)別模型的建立
基于貝葉斯證據(jù)框架的SVM油層識(shí)別模型如圖2所示。
圖2 基于貝葉斯證據(jù)框架的SVM油層識(shí)別模型Fig.2 Oil layer recognition model based on SVMin Bayesian evidence framework
油層識(shí)別的步驟:
(1)樣本信息選取及預(yù)處理
樣本信息應(yīng)準(zhǔn)確,全面,盡量保證選取的信息不重復(fù)。將樣本分為訓(xùn)練樣本和測(cè)試樣本兩個(gè)部分,并分別歸一化訓(xùn)練樣本和測(cè)試樣本。
(2)樣本屬性泛化和離散化
為實(shí)現(xiàn)石油測(cè)井?dāng)?shù)據(jù)的屬性約簡(jiǎn),首先對(duì)樣本信息進(jìn)行決策屬性泛化,并采用曲線拐點(diǎn)方法實(shí)現(xiàn)連續(xù)屬性離散化。
(3)樣本信息屬性約簡(jiǎn)
石油測(cè)井?dāng)?shù)據(jù)含有10多種測(cè)井屬性,部分屬性并不重要。為了避免信息的冗余性,必須對(duì)樣本信息進(jìn)行屬性約簡(jiǎn)。本文采用基于屬性重要性的約簡(jiǎn)算法。
(4)SVM建模
在SVM模型中,將屬性約簡(jiǎn)后的樣本信息作為訓(xùn)練樣本集,采用貝葉斯證據(jù)框架的方法尋找SVM中的最優(yōu)懲罰參數(shù)C和核參數(shù)γ,從而得到訓(xùn)練好的SVM識(shí)別模型。
(5)識(shí)別輸出
用訓(xùn)練好的SVM模型對(duì)整個(gè)井段進(jìn)行油層識(shí)別,并輸出結(jié)果。
3.2實(shí)例分析
為了驗(yàn)證基于貝葉斯證據(jù)框架的SVM識(shí)別模型在油層識(shí)別的有效性,本文選取從中石油東方地球物理公司取得的新疆某井的測(cè)井?dāng)?shù)據(jù)進(jìn)行實(shí)驗(yàn)。
(1)樣本信息選取及預(yù)處理:
采用新疆某井井段1 220—1 290m的281個(gè)數(shù)據(jù)作為訓(xùn)練樣本集。其中油層59個(gè),干層222個(gè)。該樣本集有11個(gè)屬性:AC、CALI、GR、NG、RA2、RA4、RI、RM、RT、RXO、SP,決策屬性為{干層,油層}。決策屬性D={0,1},其中0、1分別代表干層和油層。
(2)屬性約簡(jiǎn):
經(jīng)過(guò)屬性約簡(jiǎn)后,樣本信息的條件屬性為4個(gè),即AC(聲波時(shí)差),NG(中子伽馬),RI(電阻率),SP(自然電位)。屬性在全井段的歸一化范圍如表1所示。
表1 屬性在全井段的歸一化范圍
將這4個(gè)屬性在井段1 220—1 290m之間進(jìn)行歸一化處理,AC,NG屬性歸一化如圖3所示,RI,SP屬性歸一化如圖4所示。其中,橫軸表示深度,縱軸表示歸一化值。
圖3 AC,NG屬性歸一化Fig.3 Normalization of attribute AC,NG
圖4 RI,SP屬性歸一化Fig.4 Normalization attribute RI,SP
(3)油層識(shí)別結(jié)果
將訓(xùn)練好的模型對(duì)井段1 000—1 317m的2 537個(gè)樣本進(jìn)行油層識(shí)別。油層識(shí)別結(jié)果如圖5所示。圓圈“○”代表測(cè)試樣本集的實(shí)際標(biāo)簽,星號(hào)“*”代表測(cè)試樣本集的預(yù)測(cè)標(biāo)簽。其中圓圈和星號(hào)不重合的點(diǎn)為錯(cuò)分點(diǎn)。
圖5 油層識(shí)別結(jié)果Fig.5 Results of oil layer recognition
將基于貝葉斯證據(jù)框架下SVM(BayesianSVM)的油層識(shí)別結(jié)果與傳統(tǒng)SVM和PSO-SVM進(jìn)行比較,幾種支持向量機(jī)識(shí)別模型的油層識(shí)別結(jié)果如表2所示。
從表2可以看出,在油層識(shí)別上,基于貝葉斯證據(jù)框架的支持向量機(jī)的識(shí)別精度要優(yōu)于SVM和PSO-SVM。究其理論根源,對(duì)于傳統(tǒng)SVM來(lái)說(shuō),任取模型參數(shù)是難以使模型的泛化能力達(dá)到最佳的;對(duì)于PSO-SVM來(lái)說(shuō),使用PSO優(yōu)化的模型很容易出現(xiàn)“過(guò)學(xué)習(xí)”現(xiàn)象,致使其泛化能力有所降低;而利用貝葉斯證據(jù)框架理論優(yōu)化的SVM模型,能使模型訓(xùn)練穩(wěn)健,魯棒性更強(qiáng),因而其泛化能力更好。
表2 幾種支持向量機(jī)識(shí)別模型的油層識(shí)別結(jié)果
綜上所述,基于貝葉斯證據(jù)框架的支持向量機(jī)模型在油氣識(shí)別上是可行的并且是效果比較好的。
4結(jié)束語(yǔ)
SVM在石油測(cè)井油氣層識(shí)別中得到廣泛應(yīng)用,然而其模型參數(shù)的選取直接關(guān)系到識(shí)別或預(yù)測(cè)精度。為了提高油氣層識(shí)別精度,本文采用貝葉斯證據(jù)框架理論來(lái)優(yōu)化傳統(tǒng)SVM模型,即能優(yōu)選出SVM模型的各個(gè)參數(shù)。經(jīng)實(shí)際油井測(cè)井?dāng)?shù)據(jù)的實(shí)驗(yàn),結(jié)果表明其應(yīng)用效果顯著,且優(yōu)于傳統(tǒng)SVM和PSO-SVM的識(shí)別效果。
參考文獻(xiàn):
[1]陳遵德.人工神經(jīng)網(wǎng)絡(luò)在油層識(shí)別中的應(yīng)用[J].大慶石油地質(zhì)與開發(fā),1994,13(3):43-45.
CHENZunde.Theapplicationofartificialneuralnetworkinthereservoirrecognition[J].PetroleumGeology&OilfieldDevelopmentinDaqing, 1994, 13(3):43-45.
[2]DELLEPIANEU,PALAGIL.UsingSVMtocombineglobalheuristicsfortheStandardQuadraticProblem[J].EuropeanJournalofOperationalResearch, 2015, 241(3): 596-605.
[3]VAPNIKV,LEVINE,LECUNY.MeasuringtheVC-dimensionofalearningmachine[J].NeuralComputation, 1994, 6(5):851-876.
[4]KWOKJTY.Theevidenceframeworkappliedtosupportvectormachines[J].IEEETransactionsonNeuralNetworks, 2000, 11(5):1162-1173.
[5]PHILIPPEX,FRANCKD,ZHAHongbin,etal.EvidentialcalibrationofbinarySVMclassifiers[J].InternationalJournalofApproximateReasoning, 2015,5(2):1-30.
[6]DEVOSO,DOWNEYG,DUPONCHELL.Simultaneousdatapre-processingandSVMclassificationmodelselectionbasedonaparallelgeneticalgorithmappliedtospectroscopicdataofoliveoils[J].Foodchemistry, 2014, 148(3):124-130.
[7]尹振東,吳芝路,任廣輝,等.基于一類SVM概率密度估計(jì)的多分類貝葉斯算法研究[J].重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2007, 19(5): 590-594.
YIN Zhendong, WU Zhilu, REN Guanghui, et al. Research of multi-class Bayesian algorithm based on one-class SVM probability density estimation[J]. Journal of Chongqing University of Posts and Telecommunications: Natural Science Edition, 2007, 19(5):590-594.
[8]ZHANG C H,TIAN Y J,DENG N Y.The new interpretation of support vector machines on statistical learning theory[J].Science China Mathematics,2010,53(1):151-164.
[9]FACKLER C J, XIANG N, HOROSHENKOV K V, et al. Bayesian-based model selection and physical parameter estimation of the acoustical properties of rigid-frame porous media[J]. The Journal of the Acoustical Society of America, 2014, 135(4):2408-2408.
[10] 金志勇.支持向量機(jī)在識(shí)別滲流優(yōu)勢(shì)通道中的應(yīng)用[J].大慶石油地質(zhì)與開發(fā),2009, 25(6):178-180..
JIN Zhiyong.Application of SVM in identification of high permeability channels[J]. Petroleum Geology & Oilfield Development in Daqing, 2009, 25(6):178-180.
Oil layer recognition model based on SVM within Bayesian evidence framework
XIA Xinyuan1, DAI Jing2, PAN Yongke1,HAN Yang1
(1. School of Electronics and Information Engineering, Hebei University of Technology, Tianjin 300401, P.R.China;2. Qian’an College, North China University of Science and Technology, Qian’an 064400, P.R.China)
Abstract:Support Vector Machine (SVM) method is successfully applied in the petroleum logging field to recognize oil layer. But the recognition effect is influenced by penalty parameter and kernel parameter, and the recognition accuracy is affected directly by different combinations of parameters. In order to get better results in oil layer recognition, an oil layer recognition model based on SVM in Bayesian evidence framework is proposed, which is according to sample information in logging training. The penalty parameter and kernel parameter can be solved by Bayesian evidence framework theory firstly and then the test sample is recognized through decision function. The experiment results of actual logging datum show that the recognition effect is improved by Bayesian-SVM and the recognition effect is superior to that of the traditional SVM and PSO-SVM.
Keywords:support vector machines;oil layer recognition;Bayesian evidence framework
DOI:10.3979/j.issn.1673-825X.2016.02.019
收稿日期:2015-03-22
修訂日期:2015-12-08通訊作者:夏莘媛will_9898@sina.com
基金項(xiàng)目:國(guó)家自然科學(xué)基金(51208168);天津市自然科學(xué)基金(11JCYBJC00900, 13JCYBJC37700);河北省自然科學(xué)基金(F2013202254, F2013202102);河北省引進(jìn)留學(xué)人員基金(C2012003038)
Foundation Items:The National Natural Science Foundation of China (51208168); The Tianjin Natural Science Foundation (11JCYBJC00900, 13JCYBJC37700); The Hebei Province Natural Science Foundation (F2013202254, F2013202102); The Hebei Province Foundation for Returned Scholars (C2012003038).
中圖分類號(hào):TP277
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1673-825X(2016)02-0260-05
作者簡(jiǎn)介:
夏莘媛(1992-),女,湖南人,碩士研究生,主要研究方向?yàn)橥ㄐ判畔⑻幚砑夹g(shù)。E-mail: will_9898@sina.com
戴靜(1988-),女,河北秦皇島人,碩士,主要研究方向?yàn)橥ㄐ排c信息系統(tǒng)。E-mail:djmagic@163.com
潘用科(1990-),男,湖南人,英國(guó)謝菲爾德大學(xué)碩士畢業(yè),博士生,主要研究方向?yàn)橹悄苄畔⑻幚砑夹g(shù)。E-mail: 259234914@qq.com
韓揚(yáng)(1990-),女,天津人,碩士,主要研究方向?yàn)橹悄苄畔⑻幚砑夹g(shù)。E-mail: hy900524@126.com
(編輯:張誠(chéng))