王 穎,朱劉濤,童 勤,張 強
(東北石油大學 計算機與信息技術(shù)學院,大慶 163318)
采油速度是衡量油田開發(fā)速度和產(chǎn)能的關(guān)鍵指標,其大小是油藏的年產(chǎn)量與地質(zhì)儲量的比值,是油田開發(fā)過程中必不可少的生產(chǎn)指標.儲層構(gòu)造特征和物性特征、流體性質(zhì)、井網(wǎng)部署情況、國家政策以及油價都會對采油速度產(chǎn)生影響[1].采油速度過低會增加生產(chǎn)成本,采油速度過高可能會導致含水快速上升、驅(qū)油效率下降,因此,確定油田合理的采油速度對油田高效開發(fā)意義重大.目前計算合理采油速度的常用方法主要有靜態(tài)影響因素分析法、動態(tài)影響因素分析法、數(shù)值模擬法、類比法、線性回歸法、多元逐步回歸法和數(shù)理統(tǒng)計等[2,3],這些預測方法多是以公式的形式進行表述.文獻[4]利用含水率分流方程,建立了采油速度與油藏特征、含水率、含水飽和度及含水上升速度等影響因素的關(guān)系表達式,但預測效果受限于參與擬合數(shù)據(jù)的質(zhì)量.支持向量回歸機是建立在統(tǒng)計學習理論基礎(chǔ)上的學習算法,與神經(jīng)網(wǎng)絡(luò)等算法相比具有更好的性能[5],但實際應用中樣本數(shù)據(jù)含有多源異構(gòu)信息,采用單一核函數(shù)無法發(fā)現(xiàn)數(shù)據(jù)中隱含的復雜規(guī)律,進而準確地描述數(shù)據(jù)的內(nèi)在特性,增強決策函數(shù)的可理解性[6].已有理論研究及應用表明,多個核函數(shù)的優(yōu)化組合代替單個核函數(shù)能增強決策函數(shù)的可解釋性,并能使支持向量回歸機獲取更優(yōu)的性能[7,8].本文提出基于改進灰狼算法優(yōu)化多核支持向量回歸機模型,并將其應用到采油速度預測.首先應用灰色關(guān)聯(lián)分析理論利用實際地質(zhì)數(shù)據(jù)和開發(fā)數(shù)據(jù)對采油速度影響因素進行重要性分析,然后利用歷史數(shù)據(jù)來訓練構(gòu)建的支持向量回歸機模型來完成預測,使得預測模型既考慮動靜態(tài)數(shù)據(jù),又能自適應歷史數(shù)據(jù),克服了歷史擬合數(shù)據(jù)質(zhì)量對已有采油速度預測算法的影響,具有很好泛化能力和推廣前景.
支持向量回歸機通過核函數(shù)的隱式映射將數(shù)據(jù)映射到高維特征空間,完成樣本訓練和數(shù)據(jù)預測.設(shè)X是輸入空間,H是更高維度空間,存在一個映射φ (x) 將數(shù)據(jù)從X映射到H.則回歸函數(shù)為f(x)=ω?φ(x)+b,ω為權(quán)值變量,b為偏置.為求解標準 SVR 模型引入松弛變量ξ 和ζ,因此新的目標函數(shù)就變成:
l是樣本點的個數(shù),C是懲罰因子,C越大表示整個優(yōu)化過程中對于總誤差的關(guān)注度越高.采用拉格朗日對偶將式(1)轉(zhuǎn)化為對應的拉格朗日目標函數(shù)為:
其中α?,α,β?,β 是拉格朗日乘子.由約束條件
則式(1)可轉(zhuǎn)化為:
式(3)經(jīng)過拉格朗日對偶可得:
將式(2)對w,b,ξ,ζ求偏導,將偏導結(jié)果帶入式(2)可得:
將式(5)帶入式(4)可得:
將式(6)轉(zhuǎn)化為最小值優(yōu)化可得:
令核函數(shù)k(xi,xj)=φ(xi)?φ(xj),將其帶入式(7)可得:
預測函數(shù)為:
由對稱半正定矩陣的性質(zhì)可得:
K(xi,xj)=或者K(xi,xj) 仍是核函數(shù).引入加權(quán)系數(shù)λ,可令:
因此多核支持向量機的目標函數(shù)為:
多核支持向量機的預測函數(shù)為:
灰狼優(yōu)化算法[9](Grey Wolf Optimizer,GWO)的尋優(yōu)原理取自于灰狼群體的等級機制和狩獵方式,捕食行動由頭狼領(lǐng)導,其它灰狼個體進行圍攻.采用GWO求解函數(shù)優(yōu)化問題時,α代表適應值最高的灰狼個體,β 和δ 分別代表兩個次優(yōu)灰狼個體,其他灰狼個體被定義為 ω.灰狼優(yōu)化算法尋優(yōu)時,由 α帶 領(lǐng),β 和δ 狼個體從旁協(xié)助,其余 ω完成包圍、獵捕和攻擊行為,從而尋找全局最優(yōu)解.
首先,灰狼群體通過式(13)-式(17)對獵物進行包圍.
其中,t表示當前迭代次數(shù),A和C是系數(shù)向量,Xp是食物的位置向量,X是青蛙的位置向量.Gmax為最大迭代次數(shù),a為收斂因子,r1和r2在[0,1]范圍內(nèi)隨機取值.
其次,由 α、β 和δ 狼領(lǐng)導,灰 狼群體通過式(18)對獵物進行獵捕.
最后,灰狼群體完成攻擊行為來尋獲獵物.攻擊行為主要通過式(15)來實現(xiàn).當A≤1時,灰狼群體對獵物集中攻擊實現(xiàn)局部搜索;當A>1灰狼群體分散實現(xiàn)全局搜索.
目前GWO 在許多領(lǐng)域得到了廣泛的應用,如車輛路徑問題[10]、多目標優(yōu)化[11]、函數(shù)優(yōu)化[12]和入侵檢測[13]等.然而,灰狼優(yōu)化算法存在求解精度不高和收斂速度較慢等不足,對此,研究學者多在收斂因子改進和位置更新方面進行改進[14-19].
(1)基于云模型理論改進收斂因子
灰狼優(yōu)化算法存在探索能力(全局搜索)和開發(fā)能力(局部搜索)兩種操作.當系數(shù)A大于1 時,灰狼擴大搜索獵物范圍進行全局搜索,而系數(shù)A小于1 時,灰狼會縮小包圍圈進行局部搜索.根據(jù)公式(15)可知,參數(shù)A是由收斂因子a決定的,基本GWO 中a由2 線性減小到0,但是尋優(yōu)過程并不是線性的,a的線性遞減策略不能完全體現(xiàn)出實際的優(yōu)化搜索過程,本文采用云模型來確定收斂因子,摒棄了已有算法用一條精確曲線作為收斂因子的方式,更好的控制全局搜索與局部搜索之間的能力平衡,以便提高算法的收斂速度和穩(wěn)定性.云模型采用期望Ex,熵En和超熵He這3 個數(shù)字特征來表示.通過以下步驟計算收斂因子.
Step 1.產(chǎn)生一個以En為期望值,He為標準差的正態(tài)隨機數(shù)En';
Step 2.取x為迭代次數(shù),作為一個云滴;
本文期望Ex設(shè)置為0,En為總迭代次數(shù)的1/3,收斂因子a呈非線性遞減.由圖1可知,GWO 的收斂因子在迭代過程中以相同的速率減小,而本文所提方法在迭代初期遞減速率較慢,使得計算的A可以較長時間保持較大值,進而提升搜索效率和全局尋優(yōu);而到了迭代后期收斂因子以較快的速率減小,使A可以較長的保持較小值,進而加強局部搜索能力和提高精細搜索能力.通過本文的計算方法可以更加有效地平衡全局搜索和局部搜索能力.
圖1 收斂因子變化圖
(2)基于二次插值的頭狼個體更新機制
灰狼優(yōu)化算法在求解高維優(yōu)化問題時,搜索空間規(guī)模較大造成后期收斂速度慢,尋優(yōu)能力降低,其原因算法局部探索能力較差,如果對全局最優(yōu)位置進行局部探索,則能夠提高算法的收斂速度,依據(jù)灰狼進化原理,當前最優(yōu)解也是通過三個位置的累加和確定頭狼的移動方向,具有一定的隨機性.本文對頭狼的更新機制采用二次插值算法,提升算法的局部探索能力,如果通過二次插值得到的新解優(yōu)于當前最優(yōu)解則替換,否則不做任何操作.當前最優(yōu)解X*在二次插值中起到導向的作用,使搜索代理在其附近精細搜索,能強化搜索個體在當代最優(yōu)解的精細搜索能力.
日語省略研究:回顧、思考與展望 …………………………………………………………………… 朱立霞(4.18)
同時為了避免迭代后期 αβδ個體適應度趨于一致性,因此在進行二次插值時先計算 βδ個體適應度的距離,如果滿足小于設(shè)定的閾值則隨機在種群里選取灰狼個體替換 δ個體依據(jù)式(7)進行二次插值獲得新個體,進而保持種群的多樣性.
(3)基于動態(tài)權(quán)重策略的個體更新
在基本灰狼算法中 αβδ個體對其他個體的引領(lǐng)作用的權(quán)重是一樣的,已有文獻通過引入適應度或是步長距離來計算3 個狼在進化過程中的作用.本文提出一種綜合適應度和步長距離的權(quán)重計算方法來動態(tài)調(diào)整權(quán)重,計算方法如式(20)所示,并將計算的3 個權(quán)重帶入式(18)來完成個體的更新.
(4)基于混沌策略的個體隨機游走
為克服種群多樣性衰減太快導致趨向局部最優(yōu)而早熟的問題,可以采用混沌映射在局部收斂區(qū)域外的空間范圍內(nèi)進行全局搜索.為保持優(yōu)化過程中的種群的多樣性,選取適應值最差個體xw完成變異,如果最差個體xw根據(jù)公式(18)進化后得到的適應度得到改善則繼續(xù)進入下一次迭代;否則說明該灰狼個體需要被淘汰,可以使用混沌理論產(chǎn)生新個體進入下一次迭代.對于適應值最差的個體xw采用偶數(shù)階Chebyshev 混沌映射進行更新.
本文所構(gòu)建的多核支持向量機采用多項式核函數(shù)和RBF 核函數(shù),因此需要優(yōu)化的參數(shù)分別為懲罰因子、RBF 和多項式核函數(shù)的核參數(shù)以及權(quán)重.采用改進灰狼算法對于上述參數(shù)進行優(yōu)化,具體流程如下.
(1)灰狼種群個體初始化.將優(yōu)化參數(shù)組合在一起作為灰狼個體進行編碼,并設(shè)定各參數(shù)的取值范圍并初始化.設(shè)定種群規(guī)模m,最大迭代次數(shù)maxiter,初始化a,A和C.
(2)將支持向量回歸機的期望輸出yi與實際輸出oi的 均方誤差MS E作為灰狼個體的適應度,具體計算公式如下.
(4)利用基于云模型理論算法計算收斂因子A,采用式(16)計算C,采用式(13)、式(14)和式(18)完成個體的更新,并判斷種群中最差的個體是否有提高,沒有提高則用式(21)新產(chǎn)生一個新個體.
(5)當?shù)螖?shù)達到最大迭代次數(shù)maxiter或適應度的值滿足要求時停止迭代,得到多核支持向量回歸機優(yōu)化參數(shù),建立采油速度預測模型.
為了驗證 ICGWO 算法的尋優(yōu)性能,選取單峰、多峰和固定維度多峰6 個基準測試函數(shù)進行測試,6 個優(yōu)化函數(shù)如表1所示.同時選取基本GWO 算法、文獻[14] IGWO 算法、文獻[15] AL-GWO 算法、文獻[16]提出的 CGWO1 算法和文獻[17]提出的CGWO2 進行對比.仿真實驗的運行環(huán)境為 IntelCore i7 CPU,主頻2.20 GHz,內(nèi)存8 GB,Windows 10 操作系統(tǒng),實驗仿真軟件采用Matlab R2015a.所有對比算法種群個數(shù)統(tǒng)一設(shè)置為30,最大迭代次數(shù)maxiter設(shè)置為500 次,優(yōu)化維度除F5 和F6 之外都設(shè)置為100 維.實驗獨立運行10 次,對比各個算法的平均值和標準差結(jié)果如表2所示.
表1 優(yōu)化函數(shù)
表2 對比結(jié)果
從表2的對比結(jié)果可知,本文所提算法在對仿真函數(shù)的優(yōu)化過程中都取得了最好的結(jié)果,對于優(yōu)化函數(shù)1、2 和4 都在迭代次數(shù)內(nèi)尋找到最優(yōu)解.IGWO 尋優(yōu)效果次之.分析其原因本文通過云模型改進收斂因子,基于二次插值的頭狼個體更新機制和動態(tài)權(quán)重策略,可以很好地平衡全局探索和局部尋優(yōu),有利于加速尋優(yōu)速度,這種改進在單峰函數(shù)中效果尤為明顯,與GWO 相比都找到了最優(yōu)值.上述改進結(jié)合基于混沌策略的個體隨機游走對于多峰函數(shù)的尋優(yōu)也明顯優(yōu)于GWO,增加了跳出局部最優(yōu)解的概率.雖然IGWO、CGWO1 和CGWO2 都對收斂因子采用非線性方法計算,但都屬于采用一條精確曲線,而本文利用云模型定性概念與定量描述的不確定轉(zhuǎn)換來完成收斂因子的計算,能更好地平衡全局搜索與局部搜索之間的尋優(yōu)能力.IGWO 和CGWO2 采用權(quán)重的方式對灰狼個體的更新方式進行改進,通過實驗結(jié)果可以得出IGWO 的性能要優(yōu)于CGWO2,但次于ICGWO,這是由于ICGWO不但考慮了位置向量對灰狼尋優(yōu)位置的影響,同時也考慮了3 個最優(yōu)狼本身適應度對群狼號召力的影響,CGWO1 通過對隨機擾動對頭狼個體進行改進存在一定的隨機性,而ICGWO 則通過二次插值的方式通過當前3 個較優(yōu)解來加速局部尋優(yōu),具有一定的確定性,因此,通過以上改進原理的對比和實驗結(jié)果可知,本文算法都優(yōu)于其他對比算法,具有很好的搜索能力和良好的穩(wěn)定性,且收斂精度較高.
(1)實際數(shù)據(jù)預處理
針對實際地質(zhì)數(shù)據(jù)和開發(fā)數(shù)據(jù),應用灰色關(guān)聯(lián)分析理論的對采油速度影響因素的重要性進行分析.以采油速度為參考序列,含水率、地層壓力、流壓、有效厚度、地質(zhì)儲量、滲透率、束縛水飽和度、含水上升速度和壓力恢復速度等多個影響因素為比較序列,利用均值法無量綱化,取分辨系數(shù)為0.5,得到不同分類油層的采油速度影響因素的關(guān)聯(lián)度大小排序.最后選取含水、地層壓力、流壓、有效厚度、滲透率、束縛水飽和度6 個屬性用于確定采油速度.
(2)實例驗證
首先選取油田某區(qū)塊2019年168 口油井每月的含水率、地層壓力、流壓、有效厚度、滲透率、束縛水飽和度和采油速度共2016 條數(shù)據(jù)進行實例驗證,選用2019年1月到9月的數(shù)據(jù)作為訓練數(shù)據(jù)集,2019年10月到12月的數(shù)據(jù)作為測試數(shù)據(jù)集.分別采用靜態(tài)影響因素分析法、動態(tài)影響因素分析法、多項式支持向量回歸機(PLOY-SVR)、RBF 支持向量回歸機(RBFSVR)、基于GWO 優(yōu)化的多核支持向量機(GWOMCSVR) 和基于ICGWO 優(yōu)化的多核支持向量回歸機(GWO-MCSVR) 進行對比.采用均方誤差(Mean Squared Error,MSE)和平均絕對誤差(Mean Absolute Error,MAE)來對比各種算法的預測效果.1月到9月的訓練數(shù)據(jù)集對比數(shù)據(jù)如表3所示,10月到12月的測試集對比結(jié)果如表4所示.
表3 訓練樣本對比結(jié)果
表4 測試樣本結(jié)果
采油速度靜態(tài)影響因素分析法計算方法如式(23):
其中,V0為采油速度,μ 為 地層原油粘度,h為有效厚度,η為注采井距,K為油藏滲透率,a,b,c,d為經(jīng)驗系數(shù),可以通過統(tǒng)計回歸來得到.
動態(tài)影響因素分析法計算方法如式(24):
其中,V0為 采油速度,fw綜合含水率,Swc束縛水飽和度,為含水上升速度.
從表3可知,ICGWO 優(yōu)化的多核支持向量機的擬合效果最好,多核支持向量回歸機的擬合效果要優(yōu)于單核回歸機,靜態(tài)影響因素分析法、動態(tài)影響因素分析法的擬合結(jié)果較差.主要原因是這兩種方法都是基于經(jīng)驗公式擬合,且考慮影響因素較少,擬合結(jié)果受數(shù)據(jù)的分布情況影響較大.多個核函數(shù)的優(yōu)化組合可以彌補單一核函數(shù)選擇盲目性的不足,可以充分地提取數(shù)據(jù)的隱含信息.從表4可知ICGWO-MCSVR 對10月到12月的采油速度預測效果最好,這是因為模型充分利用多核學習的優(yōu)勢,以及利用ICGWO 算法較好的尋優(yōu)性能完成對核函數(shù)參數(shù)、懲罰因子和權(quán)值系數(shù)的最優(yōu)選擇.
利用多核學習支持向量回歸機模型預測采油速度,針對模型中權(quán)值系數(shù),懲罰因子核和核參數(shù)的選擇問題,提出一種改進的灰狼優(yōu)化算法,算法利用云模型改進收斂因子的計算方式,較好的平衡了算法全局和局部尋優(yōu)性能,利用二次插值方式改進了頭狼的進化方式加速局部尋優(yōu).實驗結(jié)果表明,經(jīng)過優(yōu)化的模型參數(shù)構(gòu)造的多核支持向量回歸機,其預測精度相比較單核支持向量機來說有明顯得提高.