潘少偉, 鄭澤晨*, 王吉哲, 蔡文斌, 王朝陽(yáng)
(1.西安石油大學(xué)計(jì)算機(jī)學(xué)院, 西安 710065; 2.西安石油大學(xué)石油工程學(xué)院, 西安 710065)
油氣數(shù)據(jù)分析技術(shù)在油氣行業(yè)中十分重要,尤其是面對(duì)海量的油田信息,在數(shù)據(jù)處理和管理時(shí)會(huì)造成信息的忽略[1]。在油井產(chǎn)油量預(yù)測(cè)問(wèn)題中,因?yàn)橐恍┰霎a(chǎn)措施,使得產(chǎn)油量出現(xiàn)波動(dòng),或者因?yàn)榻?jīng)濟(jì)原因?qū)е掠途疁p產(chǎn)。在這種復(fù)雜的狀況下,想要準(zhǔn)確地預(yù)測(cè)和控制產(chǎn)油量,就必須平滑數(shù)據(jù),改進(jìn)預(yù)測(cè)模型。目前有一些學(xué)者使用調(diào)整指數(shù)遞減法的遞減率[2]、水驅(qū)曲線法[3]來(lái)解決油藏儲(chǔ)量和產(chǎn)量的預(yù)測(cè)問(wèn)題。同時(shí),任燕龍等[4]使用長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory networks,LSTM)建立油田產(chǎn)量預(yù)測(cè)模型。Holdaway等[5]通過(guò)數(shù)據(jù)挖掘中的聚類方法和概率方法建立多井的產(chǎn)油量模型。Gupta等[6]針對(duì)頁(yè)巖油氣藏的產(chǎn)量預(yù)測(cè)提出數(shù)據(jù)挖掘方法和時(shí)間序列分析方法。Zhou等[7]采用聚類和多元回歸分析建立生產(chǎn)井的產(chǎn)能模型。Negash等[8]提出使用人工神經(jīng)網(wǎng)絡(luò)方法和貝葉斯正則化算法訓(xùn)練預(yù)測(cè)模型。這些方法大多是為了解決油田或油井產(chǎn)油量的預(yù)測(cè)問(wèn)題,基本未涉及產(chǎn)油量的時(shí)間序列分析。所以,現(xiàn)提出通過(guò)采用隨機(jī)森林(random forest,RF)、LSTM和注意力機(jī)制(attention mechanism)相結(jié)合的方法來(lái)建立油井產(chǎn)油量的預(yù)測(cè)模型,以提取油井產(chǎn)油量數(shù)據(jù)中存在的時(shí)間相關(guān)性,提高它們的特征重要性。
RF是一種包含多個(gè)決策樹的分類器,它基于Bagging思想,借助自助法重采樣技術(shù),通過(guò)構(gòu)建多個(gè)決策樹來(lái)組成隨機(jī)森林。RF的實(shí)現(xiàn)簡(jiǎn)單、計(jì)算開(kāi)銷小,抗過(guò)擬合能力強(qiáng)。
LSTM是一種時(shí)間循環(huán)神經(jīng)網(wǎng)絡(luò),是為了解決一般的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)存在的長(zhǎng)期依賴問(wèn)題而專門設(shè)計(jì)出來(lái)的[9]。LSTM神經(jīng)單元包含三種門控:輸入門、遺忘門、輸出門。LSTM的長(zhǎng)期和短期記憶正是由門控單元來(lái)完成,在每個(gè)時(shí)間點(diǎn),使用幾種門控單元來(lái)調(diào)節(jié)沿序列傳遞的信息,捕獲數(shù)據(jù)序列中長(zhǎng)記憶的依賴關(guān)系,如圖1所示。
t為時(shí)間步長(zhǎng);ht-1為前一時(shí)刻的隱含層狀態(tài);ht+1為后一時(shí)刻的隱含層狀態(tài);ht為當(dāng)前時(shí)刻的隱含層狀態(tài);it為輸入門;ft為遺忘門;Ot為輸出門;tanh為激活函數(shù);σ為sigmoid函數(shù);A為相鄰的LSTM單元;Xt-1、Xt和Xt+1分別為前一時(shí)刻、當(dāng)前時(shí)刻和后一時(shí)刻的輸入信息;Ct-1和Ct分別為前一時(shí)刻和當(dāng)前時(shí)刻的記憶細(xì)胞狀態(tài); 為當(dāng)前時(shí)刻候選的記憶細(xì)胞狀態(tài)圖1 LSTM神經(jīng)單元結(jié)構(gòu)示意圖Fig.1 Structure diagram of LSTM neural unit
注意力機(jī)制模擬了人類在某些時(shí)刻注意到特定區(qū)域或特定物體時(shí)的場(chǎng)景。為了更加準(zhǔn)確地識(shí)別物體,利用注意力機(jī)制可幫助人們有選擇性地獲取更多、更有效的物體特征信息,而忽略其無(wú)用信息[10]。在一些序列型數(shù)據(jù)中,注意力機(jī)制對(duì)于數(shù)據(jù)建模性能有著巨大的提升。
注意力機(jī)制還可以對(duì)神經(jīng)元分配不同的權(quán)重概率。注意力機(jī)制可幫助突出油井歷史產(chǎn)油量數(shù)據(jù)中的關(guān)鍵信息,增強(qiáng)油井產(chǎn)油量預(yù)測(cè)模型的準(zhǔn)確性。圖2為基于LSTM和注意力機(jī)制的、應(yīng)用于油井產(chǎn)油量預(yù)測(cè)的深度學(xué)習(xí)模型。該模型建立時(shí),時(shí)序數(shù)據(jù)之間的超前或者滯后關(guān)系對(duì)于油井產(chǎn)油量至關(guān)重要,預(yù)測(cè)目標(biāo)的特征會(huì)被滯后的時(shí)序數(shù)據(jù)所影響。LSTM主要用于對(duì)時(shí)間序列中的長(zhǎng)期依賴性數(shù)據(jù)進(jìn)行建模,注意力機(jī)制主要用于了解模型中順序單元的哪些子集具有影響力?;贚STM和注意力機(jī)制的油井產(chǎn)油量預(yù)測(cè)模型在油井產(chǎn)油量預(yù)測(cè)中可捕獲兩類關(guān)鍵信息:①在時(shí)間關(guān)系下不同影響因素和油井產(chǎn)油量之間的聯(lián)系;②不同影響因素對(duì)油井產(chǎn)油量的不同重要性。
yn、yn+1和yn+i分別是當(dāng)時(shí)間滯后參數(shù)lag為0、1和i時(shí),油井產(chǎn)油量預(yù)測(cè)模型的輸出圖2 產(chǎn)油量預(yù)測(cè)模型Fig.2 Prediction model of oil production
把基于LSTM和注意力機(jī)制的油井產(chǎn)油量預(yù)測(cè)模型簡(jiǎn)記為Attention+LSTM模型。
研究區(qū)位于中國(guó)南方某油田H3斷塊,面積約為2.5 km2,自1995年正式投入開(kāi)發(fā),主要產(chǎn)油層段為古近系阜寧組一段和阜寧組二段。其中阜寧組一段主要發(fā)育灰色粉砂巖、棕色含油粉砂巖和灰色泥巖;阜寧組二段主要發(fā)育灰色、深灰色粉砂巖、生物灰?guī)r、鮞?;?guī)r和泥巖。截止到目前,研究區(qū)油井和注水井總數(shù)達(dá)到60余口,積累了豐富的動(dòng)靜態(tài)資料。
由于研究區(qū)內(nèi)H3-32井、H3-34井和H3-35井的開(kāi)發(fā)周期長(zhǎng),且數(shù)據(jù)的變化趨勢(shì)明顯,所以抽取這3口井進(jìn)行油井產(chǎn)油量預(yù)測(cè)實(shí)驗(yàn)。把這3口井1995年9月至2016年4月的數(shù)據(jù)作為訓(xùn)練集,2016年5月至2018年5月的數(shù)據(jù)作為測(cè)試集。Attention+LSTM模型的輸出設(shè)置為油井的月產(chǎn)油量,輸入則設(shè)置為油井的油層厚度、泵深、泵徑、生產(chǎn)天數(shù)、動(dòng)液面、泵效和含水率。
為了評(píng)價(jià)Attention+LSTM模型對(duì)油井月產(chǎn)油量的預(yù)測(cè)精度,選取均方根誤差(root mean square error,RMSE)、平均絕對(duì)誤差(mean absolute error,MAE)和平均絕對(duì)百分比誤差(mean absolute percent error,MAPE)作為評(píng)價(jià)指標(biāo),它們的具體計(jì)算公式如下。
(1)
(2)
(3)
油田工作中由于測(cè)井儀器傳感器的誤差或失靈會(huì)導(dǎo)致某些生產(chǎn)數(shù)據(jù)的缺失。在H3-32井?dāng)?shù)據(jù)集構(gòu)建過(guò)程中,其動(dòng)液面數(shù)據(jù)出現(xiàn)了缺失,如表1所示。鑒于RF的精度高于大多數(shù)的單個(gè)算法,并且能夠有效地避免過(guò)擬合,準(zhǔn)確度也較高,所以采用RF補(bǔ)全了H3-32井缺失的全部動(dòng)液面數(shù)據(jù),具體如表1所示。
表1 缺失和補(bǔ)全后的數(shù)據(jù)Table 1 Missing data and data after completion
利用LSTM對(duì)H3-32井缺失數(shù)據(jù)和補(bǔ)全后的數(shù)據(jù)進(jìn)行產(chǎn)油量建模,所得結(jié)果如圖3所示。三條曲線對(duì)比可發(fā)現(xiàn):采用補(bǔ)全后數(shù)據(jù)構(gòu)建的產(chǎn)油量預(yù)測(cè)模型的準(zhǔn)確度更高,而且由補(bǔ)全后數(shù)據(jù)得到的產(chǎn)油量預(yù)測(cè)模型對(duì)H3-32井的實(shí)際產(chǎn)油量的變化趨勢(shì)擬合得更好。
圖3 缺失值補(bǔ)全前后模型的產(chǎn)油量預(yù)測(cè)值Fig.3 Predicted values of oil well production before and after the missing values are completed
參數(shù)選擇對(duì)于LSTM模型的準(zhǔn)確率有著較大的影響。本次實(shí)驗(yàn)中的參數(shù)調(diào)整包括時(shí)間滯后參數(shù)lag、學(xué)習(xí)率衰減參數(shù)α和神經(jīng)元隨機(jī)失活參數(shù)Dropout。利用H3-32井的訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集優(yōu)選出適合于Attention+LSTM模型的這3個(gè)參數(shù)的最優(yōu)值,具體的結(jié)果如表2、表3和表4所示。
表2 數(shù)據(jù)時(shí)間滯后對(duì)于模型準(zhǔn)確率的影響Table 2 Impact of data time lag on model accuracy
表3 Dropout對(duì)于模型準(zhǔn)確率的影響Table 3 Impact of Dropout on model accuracy
表4 α對(duì)于模型準(zhǔn)確率的影響Table 4 Impact of α on model accuracy
表2為不同的時(shí)間滯后參數(shù)對(duì)于Attention+LSTM模型準(zhǔn)確率的影響。由表2可知,隨著時(shí)間滯后參數(shù)的增大,Attention+LSTM模型的3個(gè)評(píng)價(jià)指標(biāo)都在不斷下降。當(dāng)時(shí)間滯后參數(shù)增加到36時(shí),RMSE的值為9.58,MAE的值為6.67,MAPE的值為0.108 3,說(shuō)明Attention+LSTM模型此時(shí)表現(xiàn)出最高的準(zhǔn)確率。而當(dāng)時(shí)間滯后達(dá)到48時(shí),Attention+LSTM模型的準(zhǔn)確率突然減小,所以把36作為時(shí)間滯后參數(shù)的取值構(gòu)成網(wǎng)絡(luò)結(jié)構(gòu)。
在LSTM建模中,數(shù)據(jù)之間會(huì)存在一定的時(shí)序關(guān)系。隨著時(shí)間的推移,油井的產(chǎn)油量會(huì)越來(lái)越低,因此過(guò)擬合可能導(dǎo)致油井產(chǎn)油量模型無(wú)法準(zhǔn)確地預(yù)測(cè)油井月產(chǎn)油量的下降情況。通過(guò)Dropout可以隨機(jī)地丟失神經(jīng)元,使得油井產(chǎn)油量預(yù)測(cè)模型的泛化能力變強(qiáng),但是Dropout的增大會(huì)導(dǎo)致過(guò)多的有效信息丟失,所以經(jīng)過(guò)反復(fù)調(diào)試,得到了如表3的實(shí)驗(yàn)結(jié)果。由表3可知,當(dāng)Dropout為0.3時(shí),Attention+LSTM模型的表現(xiàn)最佳。
表4為學(xué)習(xí)率衰減指數(shù)α對(duì)Attention+LSTM模型準(zhǔn)確率的影響。學(xué)習(xí)率衰減指數(shù)α可以在Attention+LSTM模型訓(xùn)練過(guò)程中不斷地調(diào)整學(xué)習(xí)率的衰減程度以達(dá)到精確地逼近最佳模型。選取0.1~0.9分別進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)α=0.8時(shí),Attention+LSTM模型表現(xiàn)出最高的準(zhǔn)確率,所以將學(xué)習(xí)率衰減指數(shù)α的取值定為0.8。
在調(diào)整時(shí)間滯后指數(shù)lag、學(xué)習(xí)率衰減指數(shù)α和神經(jīng)元隨機(jī)失活參數(shù)Dropout后,Attention+LSTM模型的性能均有較大的提高,所以最終把時(shí)間滯后定為36個(gè)月,學(xué)習(xí)率衰減指數(shù)定為0.8,神經(jīng)元隨機(jī)失活參數(shù)定為0.3。
在時(shí)間滯后參數(shù)lag、學(xué)習(xí)率衰減指數(shù)α和神經(jīng)元隨機(jī)失活參數(shù)Dropout的最優(yōu)值確定后,通過(guò)H3-32井的數(shù)據(jù)對(duì)采用3個(gè)最優(yōu)值的Attention+LSTM模型進(jìn)行測(cè)試,所得結(jié)果如圖4所示。圖4為訓(xùn)練過(guò)程中Attention+LSTM模型在訓(xùn)練集和驗(yàn)證集上的損失變化曲線,Attention+LSTM模型的損失這里設(shè)置為MAE。由圖4可看出,在整個(gè)迭代過(guò)程中Attention+LSTM模型的MAE不斷下降;在訓(xùn)練集上,經(jīng)過(guò)了前40次的迭代之后,Attention+LSTM模型的MAE逐漸變得平穩(wěn);在驗(yàn)證集上,Attention+LSTM模型的MAE在經(jīng)歷了最低的階段后開(kāi)始緩慢地上升,當(dāng)?shù)螖?shù)為50左右時(shí),開(kāi)始變得平穩(wěn),之后一直保持著平穩(wěn)狀態(tài)。
圖4 訓(xùn)練過(guò)程中驗(yàn)證集和訓(xùn)練集的損失變化圖Fig.4 Loss curve of validation set and training set during training
傳統(tǒng)的產(chǎn)油量預(yù)測(cè)模型多是基于以往數(shù)據(jù)建立線性模型進(jìn)行產(chǎn)油量預(yù)測(cè),因此把線性回歸(linear regression,LR)作為油井產(chǎn)油量預(yù)測(cè)實(shí)驗(yàn)中的一種方法。并且,實(shí)驗(yàn)中也把RF、支持向量回歸(support vector regression,SVR)、人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks,ANN)、LSTM的產(chǎn)油量預(yù)測(cè)結(jié)果與Attention+LSTM進(jìn)行對(duì)比(表5)。由表5可看出LR、SVR和ANN三種方法的表現(xiàn)較差,而RF、LSTM和Attention+LSTM三種方法的表現(xiàn)較好。
表5 6種方法在H3-32井測(cè)試集上的預(yù)測(cè)結(jié)果Table 5 Prediction results of the six methods on H3-32 well test set
利用H3-32井測(cè)試集對(duì)RF和Attention+LSTM模型做進(jìn)一步的測(cè)試,所得結(jié)果如圖5所示。由圖5可發(fā)現(xiàn),RF模型對(duì)應(yīng)的月產(chǎn)油量預(yù)測(cè)曲線的變化比較平緩,但與油井月產(chǎn)油量真實(shí)值曲線的擬合較差;而Attention+LSTM模型對(duì)應(yīng)的月產(chǎn)油量預(yù)測(cè)曲線與油井月產(chǎn)油量真實(shí)值曲線擬合得較好。這進(jìn)一步說(shuō)明Attention+LSTM模型對(duì)月產(chǎn)油量的預(yù)測(cè)效果要優(yōu)于RF模型。
圖5 RF和Attention+LSTM對(duì)月產(chǎn)油量預(yù)測(cè)的對(duì)比曲線Fig.5 Comparison curve of RF model and Attention+LSTM model for monthly oil production prediction
將LSTM模型和Attention+LSTM模型在H3-34井和H3-35井上進(jìn)行對(duì)比實(shí)驗(yàn),用來(lái)驗(yàn)證它們?cè)谛聰?shù)據(jù)上的通用性,所得結(jié)果如表6所示。由表6可以清晰地看出在H3-34井和H3-35井的測(cè)試集上,Attention+LSTM模型在MAE、RMSE和MAPE上的表現(xiàn)均優(yōu)于單獨(dú)的LSTM模型。尤其在H3-35井的測(cè)試集上,Attention+LSTM模型的MAPE為0.127,相比LSTM模型降低了50%左右。
表6 注意力機(jī)制對(duì)于LSTM的影響列表Table 6 List of the effects of attention mechanisms on LSTM
H3-32井、H3-34井和H3-35井的歷史產(chǎn)油量與預(yù)測(cè)產(chǎn)油量的對(duì)比情況如表7所示。由表7可看出Attention+LSTM模型的月產(chǎn)油量預(yù)測(cè)誤差大多介于0.2%~20%,總體上預(yù)測(cè)產(chǎn)油量與實(shí)際產(chǎn)油量較為相符。對(duì)表7進(jìn)行統(tǒng)計(jì),得出H3-32井的實(shí)際產(chǎn)油總量為1 470.5 t,其預(yù)測(cè)值為1 442.33 t,相對(duì)誤差為1.92%;H3-34井的實(shí)際產(chǎn)油總量為1 564.5 t,其預(yù)測(cè)值為1 545.98 t,相對(duì)誤差為1.20%;H3-35井的實(shí)際產(chǎn)油總量為742.2 t,其預(yù)測(cè)值為772.12 t,相對(duì)誤差為4.05%。這進(jìn)一步驗(yàn)證了Attention+LSTM模型在油井產(chǎn)油量預(yù)測(cè)中的準(zhǔn)確性與合理性。
表7 3口油井的月產(chǎn)油量歷史數(shù)據(jù)與預(yù)測(cè)數(shù)據(jù)列表Table 7 List of historical and predicted data of monthly oil production for the three wells
(1)油田開(kāi)發(fā)過(guò)程中,油井產(chǎn)油量會(huì)隨時(shí)間發(fā)生有規(guī)律的變化,但鑒于油井產(chǎn)油量數(shù)據(jù)的有限性,采用了單層LSTM網(wǎng)絡(luò)加注意力機(jī)制的方法防止油井產(chǎn)油量預(yù)測(cè)中出現(xiàn)的過(guò)擬合問(wèn)題。
(2)利用泛化能力極好的RF對(duì)缺失的某些油井產(chǎn)油量相關(guān)參數(shù)進(jìn)行補(bǔ)全,幫助油井產(chǎn)油量預(yù)測(cè)模型更好地學(xué)習(xí)油井產(chǎn)油量數(shù)據(jù)中的變化規(guī)律。
(3)分析時(shí)間滯后、學(xué)習(xí)率衰減和神經(jīng)元隨機(jī)失活對(duì)油井產(chǎn)油量預(yù)測(cè)模型的影響,發(fā)現(xiàn)當(dāng)這3個(gè)參數(shù)取值分別為36、0.3和0.8時(shí),油井產(chǎn)油量預(yù)測(cè)模型的表現(xiàn)最佳。將時(shí)間滯后、學(xué)習(xí)率衰減和神經(jīng)元隨機(jī)失活分別為36、0.3和0.8的Attention+LSTM模型應(yīng)用中國(guó)南方某油田H3-32井、H3-34井和H3-35井的產(chǎn)油量預(yù)測(cè)中,取得了較好的應(yīng)用效果。