富 浩,張 濤,李玉梅,劉永輝
(1.北京信息科技大學(xué)信息與通信工程學(xué)院,北京 100192;2.北京信息科技大學(xué)高動態(tài)導(dǎo)航技術(shù)北京市重點實驗室,北京 100101;3.冀東油田公司鉆采工藝研究院,河北 唐山 063004)
近年來,隨著工業(yè)發(fā)展的需求,世界范圍內(nèi)的油氣勘探開發(fā)逐漸面向“新領(lǐng)域、新類型、新地區(qū)、新深度”的儲層。然而在鉆井過程中存在大量的模糊性、隨機性和不確定性,在任意時刻都存在一定的風(fēng)險,這些風(fēng)險會使鉆速減慢、增長建井周期、提高鉆井成本、使安全風(fēng)險增加,而憑經(jīng)驗鉆井往往更加事故不斷。在眾多的井下復(fù)雜工況中,卡鉆是最常見的井下復(fù)雜事故之一。在鉆井過程中,卡鉆事故并不是瞬時發(fā)生的,在卡鉆發(fā)生前絕大多數(shù)情況下存在某些征兆,具體表現(xiàn)為某些鉆井參數(shù)的異常??ㄣ@事故從征兆出現(xiàn)到事故發(fā)生有多種參數(shù)變化,例如時間長短不一,鉆井參數(shù)變化種類不一、變化幅度不一等。但如今預(yù)測卡鉆還有以下難點:①在地面上,難于獲取與卡鉆事故密切相關(guān)的近鉆頭處相關(guān)信息;②由于隨鉆測量技術(shù)數(shù)據(jù)傳輸速率的限制,在近鉆頭處測量得到的大量數(shù)據(jù)無法傳輸至地面;③由于鉆井工程影響因素過多(如鉆具組合、鉆頭類型、鉆頭尺寸、鉆頭磨損程度、鉆井液體系、地層條件等),通過測量數(shù)據(jù)的絕對值難以發(fā)現(xiàn)卡鉆征兆。所以如今還沒有較為成熟的卡鉆預(yù)測方法與模型。
支持向量機(Support Vector Machine,SVM)是一種二分類模型,采用結(jié)構(gòu)風(fēng)險最小化,使模型擁有良好的分類結(jié)果。從2000年至今,SVM就被廣泛應(yīng)用于數(shù)據(jù)分類、結(jié)果識別和預(yù)測等領(lǐng)域。在2009年劉明等人[1]針對傳統(tǒng)核函數(shù)下SVM性能不理想的問題,提出了一種新的混合核函數(shù)來提高性能,該核函數(shù)分類性能優(yōu)于由sigmoid核函數(shù)或高斯核函數(shù)構(gòu)成的支持向量機;仲志丹等人[3]在2018年針對傳統(tǒng)人工示功圖識別抽油機井故障診斷較低的問題進(jìn)行研究,提出了一種卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)和SVM相結(jié)合的智能識別模型,CNN-SVM可以快速且準(zhǔn)確的診斷,從而減少因故障診斷較低、較慢造成的損失;在2018年,石志標(biāo)等人[4]為了能更快且準(zhǔn)確的對汽輪機轉(zhuǎn)子故障進(jìn)行診斷,提出基于云粒子群優(yōu)化算法(Cloud Particle Swarm Optimization,CPSO)優(yōu)化SVM的故障診斷方法,該方法與PSO-SVM方法相比提高了準(zhǔn)確率與速度;在2019年,劉南艷等人[7]針對預(yù)測短期電力負(fù)荷不準(zhǔn)確的問題,提出一種結(jié)合鄰域粗糙集理論和PSO算法的最小二乘支持向量機短期電力負(fù)荷預(yù)測模型,結(jié)果顯示平均絕對誤差僅為1.95%。在2015年Mengqi-Zhang等人[10]針對軌道電路故障問題,提出了一種先經(jīng)過重構(gòu)算法與小波分解,之后再使用PSO-SVM的模型,經(jīng)過仿真該預(yù)測模型的預(yù)測準(zhǔn)確率可高達(dá)99.5%;H.Xiangdong等人[12]在2018年針對煤層氣井井底流壓預(yù)測問題,使用了遺傳算法與SVM相結(jié)合的算法模型,結(jié)果表明預(yù)測結(jié)果有很高的精度。所以SVM在處理分類、預(yù)測問題方面有良好的性能,而卡鉆分為正常鉆進(jìn)階段與卡鉆前鉆進(jìn)階段,也是一種分類問題,所以SVM可以很好的對卡鉆進(jìn)行分類、預(yù)測。
2017年冀東油田某井作業(yè)過程中發(fā)生了卡鉆復(fù)雜工況,本課題組自主研發(fā)的井下工程參數(shù)測量短節(jié)記錄了整個過程中的8種井下工程參數(shù)。本文就是以此次復(fù)雜工況為例,使用基于主成分分析法(Principal component analysis,PCA)的SVM方法,對此次鉆井事故進(jìn)行仿真與識別,并探討PCA-SVM方法對井下鉆具卡鉆的可行性與有效性。
主成分分析法(PCA)是一種可以對數(shù)據(jù)進(jìn)行壓縮,并提取數(shù)據(jù)特征的方法,使用PCA可以對數(shù)據(jù)降維,優(yōu)化運算時間。對于卡鉆問題來說,任意時刻的數(shù)據(jù)都有多個特征值,如內(nèi)外壓、溫度、三維震動數(shù)據(jù)、扭矩等。如直接使用原始數(shù)據(jù),會導(dǎo)致維數(shù)災(zāi)難,并使運算時間增加,而使用PCA降維可以解決維數(shù)災(zāi)難以及運算時間過長的問題。
設(shè)p維隨機向量X=(x1,x2,…,xp)T,協(xié)方差矩陣為V,均值為u。通過線性變換,得到m個不相關(guān)的新向量y1,y2,…,ym(m
對樣本矩陣X進(jìn)行變換,矩陣X如式(1)所示,主成分分析步驟如下
(1)
1)將原數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,即對樣本集中元素xik做式(2)中的變換
(2)
2)由標(biāo)準(zhǔn)化處理的矩陣,得到相關(guān)系數(shù)矩陣如式(3)
(3)
3)所求新的綜合變量的方差值λi是滿足式(4)的p個非負(fù)特征值,其中其中特征值λi滿足λ1≥λ2≥…≥λp>0,相應(yīng)的特征向量為式(5)
|R-λ|=0
(4)
(5)
4)從式(4)求得的的λi中,選取m(m
(6)
2.2.1 線性SVM
假設(shè)n個樣本的集合為D={(xi,yi)|i=1,2,…,n},其中yi∈{-1,+1},SVM的目的是找到一個最優(yōu)超平面將不同值y值的數(shù)據(jù)分開。在樣本空間中,超平面的線性方程可寫為式(7)
ωTx+b=0
(7)
其中ω=(ω1;ω2;…;ωd)是方程法向量,b是位移項,分別代表超平面方向和超平面與原點之間的距離。超平面可以用ω和b確定,可寫為(ω,b)。可以根據(jù)二維平面上點到直線距離公式得到空間中任意一點到超平面的距離公式
(8)
目的是要得到兩類數(shù)據(jù)離超平面最近的點的總距離最大。即將式(8)整理得到式(9)即
(9)
其中y的正負(fù)與ωTx+b相同,兩項相乘可以替換掉絕對值,對之后建模有很大幫助。假設(shè)超平面分類正確,即有如下不等式組
(10)
如果數(shù)據(jù)如圖1所示,其中左面的是yi=+1的樣本,右面的是yi=-1的樣本,兩條虛線是ωT+b=±1。落在這兩條虛線上的樣本叫支持向量,可以將之前的公式簡化為式(11)
圖1 SVM的最優(yōu)分類
SVM就是要找到d最大時的超平面的方程,而對式(11)求最大值比較困難,將式(11)轉(zhuǎn)換為式(12),并求式(12)的最小值
(12)
添加拉格朗日乘子αi≥0到式(12)中,將條件與所求結(jié)合,得到式(13)
(13)
其中α=(α1,α2,…,αm)。對L分別求ω與b的偏導(dǎo),當(dāng)偏導(dǎo)等于零時可得極值點
(14)
(15)
將式(14)帶回式(13)中,可將ω與b都消去,同時考慮約束條件即式(15),可得式(16)
(16)
可解出α的值,得到了超平面方程(ω,b)的解,找到了決策面的方程即式(17)。
(17)
2.2.2 非線性SVM
而數(shù)據(jù)分布更多的是線性不可分的情況,如圖2所示。此時超平面不好直接找出,要引用一個核函數(shù),將問題映射到高維空間,從高維空間找到一個超平面解決低維下線性不可分的問題,如圖3所示。
圖2 非線性樣本點
圖3 使用核函數(shù)后進(jìn)行空轉(zhuǎn)換
超平面模型可表示為式(18):
f(x)=ωTφ(x)+b
(18)
其中ω和b與線性時表示相同的參數(shù),二次規(guī)劃問題變?yōu)槭?19)
(19)
其解法與線性解法相同,引入拉格朗日乘子到式(19)可得到式(20)
(20)
式(19)內(nèi)積很難運算,引入核函數(shù),使得xi和xj在特征空間的內(nèi)積等于它們在原始樣本空間內(nèi)通過這個核函數(shù)計算出的結(jié)果。核函數(shù)表達(dá)式為
K(xi,xj)=〈φ(xi),φ(xj)〉=φ(xi)Tφ(xj)
(21)
所以將式(21)帶入式(20)中得到式(22)
(22)
所以超平面方程為式(23)
(23)
使用由中國石油大學(xué)研制的井下多參數(shù)測量短節(jié)測量的冀東油田某井鉆井作業(yè)的實測數(shù)據(jù)進(jìn)行分析。該井下多參數(shù)測量短節(jié)的參數(shù)測量范圍及測量精度如表1所示:
表 1 儀器參數(shù)測量范圍及測量精度
多參數(shù)測量短節(jié)在井下一共工作了33.5小時。在測量短節(jié)大約工作到26小時7分鐘時,出現(xiàn)振動突然劇烈增加,此段為卡鉆前的征兆。測量數(shù)據(jù)如圖4所示,區(qū)域1為下鉆數(shù)據(jù),區(qū)域2為正常鉆進(jìn)數(shù)據(jù),區(qū)域3為卡鉆前的征兆及卡鉆數(shù)據(jù),區(qū)域3之后為起鉆數(shù)據(jù)。
圖4 冀東油田某井鉆井作業(yè)過程井下工程參數(shù)實測數(shù)據(jù)
選用部分正常鉆進(jìn)數(shù)據(jù)(區(qū)域2)和卡鉆數(shù)據(jù)(區(qū)域3)來進(jìn)行模型的訓(xùn)練和測試。首先通過PCA降維,計算各個主成分累計的貢獻(xiàn)率,根據(jù)貢獻(xiàn)率,選取使用主成分?jǐn)?shù)量,其中第一、第二主成分的總貢獻(xiàn)率達(dá)到了99.75%,所以第一、第二主成分可以近似代表原始數(shù)據(jù)。根據(jù)表2將得到的結(jié)果進(jìn)行分類,其中TP與TN表示判斷正確數(shù)據(jù),F(xiàn)P為虛警數(shù)據(jù),F(xiàn)N為漏警數(shù)據(jù)。之后通過式(24)-(27)分別計算準(zhǔn)確率、查準(zhǔn)率、召回率與F1-score來分析模型的效果。
(24)
(25)
(26)
(27)
表2 二分問題分類方法
SVM的核函數(shù)分別使用的是線性核函數(shù)和徑向基核函數(shù)如式(28)、(29),經(jīng)過仿真測試徑向基核函數(shù)得到的結(jié)果準(zhǔn)確率更高,使用徑向基核函數(shù)的PCA-SVM的測試得到的準(zhǔn)確率達(dá)到97.99%,查準(zhǔn)率97.46%,召回率達(dá)到99.97%,最后F1-score達(dá)到98.70%。具體分類結(jié)果如圖5所示。
K(xi,xj)=xty
(28)
(29)
圖5 PCA-SVM訓(xùn)練與測試分類結(jié)果
之后分別比較了基于線性核函數(shù)與徑向基核函數(shù)情況下,SVM與PCA-SVM準(zhǔn)確率與所用時間的值,如表3所示。
表3 不同核函數(shù)下SVM與PCA-SVM所用時間與準(zhǔn)確率
1)本文提出了一種基于PCA-SVM的卡鉆預(yù)測方法,試驗結(jié)果表明,PCA-SVM井下卡鉆識別模型具有很高的準(zhǔn)確率、查準(zhǔn)率、召回率與F1-score。
2)PCA-SVM方法與傳統(tǒng)SVM相比,在相同核函數(shù)情況下,在準(zhǔn)確率幾乎保持不變的情況下,訓(xùn)練及測試所用時間明顯下降。
3)仿真結(jié)果表明,PCA-SVM在井下卡鉆識別的可行性,為之后工程實際運用提供了理論支持。但是由于實測數(shù)據(jù)限制,該模型只使用了一口井的測量數(shù)據(jù),只能對井眼不清潔引起的卡鉆類型有效。而引起卡鉆的原因有多種,其它情況的卡鉆預(yù)測還有待驗證。隨著未來數(shù)據(jù)的增多,該方法可以對不同原因引起的卡鉆進(jìn)行預(yù)測,并且可以將準(zhǔn)確率提高。