徐磊 ,侯磊 *,李雨 ,張鑫儒 ,白小眾,雷婷 ,朱振宇 ,劉金海,谷文淵,孫欣
1 中國石油大學(北京)機械與儲運工程學院,北京 102249
2 中國石油大學(北京)油氣管道輸送安全國家工程實驗室/石油工程教育部重點實驗室,北京 102249
3 國家管網(wǎng)集團北方管道有限責任公司錦州輸油氣分公司,錦州 121000
*通信作者, houleicup@126.com
原油是重要的戰(zhàn)略儲備物資,主要通過鐵路、水路、公路和管道4種方式運輸。其中,管道運輸因其運量大、封閉安全、易于管理等優(yōu)點而被廣泛應用。原油管道是將油田生產(chǎn)的原油輸送至煉廠、港口或鐵路轉(zhuǎn)運站,具有管徑大、輸量大、運輸距離長、分輸點少的特點[1]。我國原油管道2020年的規(guī)劃里程為32 000 km,2025年在此基礎上要新增15.63%的里程。目前,我國所產(chǎn)原油80%以上為凝點較高的含蠟原油和黏稠的重質(zhì)原油,輸送過程耗能很大[2]。其中,泵機組的電耗是總能耗的主要部分,通過對泵機組電耗預測,能夠做出一些關(guān)鍵決策,如能耗目標設定、批量調(diào)度和機組組合。依據(jù)能耗預測時間間隔長短,可分為短期預測、中期預測和長期預測,三者分別是指一天到一周、一周到一月、一月到一年的時間間隔[3]。本研究的能耗數(shù)據(jù)是以天為間隔進行采集的,因此,可視為短期能耗預測。
在實際管輸過程中,能耗相關(guān)數(shù)據(jù)存在信息冗余、噪聲干擾及非線性等特征,加大了預測難度。近年來,隨著軟計算技術(shù)的快速發(fā)展,機器學習方法已在能耗預測領域中得到廣泛應用,該方法具有較強的容錯性,較好的預測性能[4-6]。圖1統(tǒng)計了2000年1月至2020年6月機器學習方法在能耗預測領域所發(fā)表論文的數(shù)量趨勢,數(shù)據(jù)來源于Web of Science數(shù)據(jù)庫。通過統(tǒng)計分析可得,機器學習方法在能耗預測領域的研究呈現(xiàn)逐年遞增的趨勢。隨著“智慧管道”概念的提出,姜昌亮[7]、黃維和[8-9]、宮敬[10-11]、張勁軍[12]、吳長春[13]、董紹華[14-15]等眾多行業(yè)學者圍繞智慧管道開展了大量研究工作,以數(shù)據(jù)驅(qū)動為依托的機器學習方法在油氣管道行業(yè)的應用與發(fā)展勢在必行[16-22]。
圖1 機器學習方法在能耗預測領域發(fā)表論文數(shù)量Fig. 1 Number of papers occupied by machine learning method in the field of energy consumption prediction
在油氣管輸行業(yè),若干學者對基于神經(jīng)網(wǎng)絡的油氣管道能耗預測展開了相關(guān)研究。ZENG[23]利用神經(jīng)網(wǎng)絡對成品油管道電耗進行預測,并與線性回歸和支持向量機展開對比,研究表明,所提出的神經(jīng)網(wǎng)絡模型有助于批次調(diào)度和能耗目標的設定。吳倩[24]提出一種基于BP神經(jīng)網(wǎng)絡的原油管道能耗預測方法,研究表明,與線性回歸和灰色模型相比,建立的模型預測精度較高,適用于預測多種原油管道的耗電量和耗油量。溫馨[25]將神經(jīng)網(wǎng)絡、支持向量機和極限學習機分別用于成品油管道能耗預測,研究表明,神經(jīng)網(wǎng)絡學習能力強、收斂能力強,擁有較高的預測精度。侯磊[26]利用BP神經(jīng)網(wǎng)絡建立輸油管道能耗預測模型。預測結(jié)果表明,該模型預測偏差不超過4%,為輸油管道能耗預測提供了一種新思路。高山卜[27]建立基于改進的BP神經(jīng)網(wǎng)絡原油管道能耗預測模型,得到該模型的誤差在3%以內(nèi),且模擬值能夠反映真實值的變化趨勢。林冉[28]以某條輸油管道幾年來輸量及生產(chǎn)油耗、電耗數(shù)據(jù)為基礎,用人工神經(jīng)網(wǎng)絡的方法建立了管道輸量與生產(chǎn)油耗、電耗的預測模型。分析表明,該模型的計算結(jié)果相對偏差在±5%以內(nèi),滿足工程實際需要,能夠用該模型來預測熱油管道的生產(chǎn)油耗和電耗。
但以上方法對數(shù)據(jù)非線性和數(shù)據(jù)噪聲考慮均不夠充分,預測精度仍有一定的提升空間。圖2~4統(tǒng)計了各類機器學習方法在能耗預測領域的應用。通過調(diào)研可得,智能優(yōu)化算法和數(shù)據(jù)分解技術(shù)已被運用到風能、太陽能、核能等領域,用來解決數(shù)據(jù)非線性難以準確擬合、數(shù)據(jù)噪聲難以高效去除的問題,但在油氣行業(yè)運用甚少[29-32]。因此,本研究提出一種數(shù)據(jù)分解算法(CEEMDAN)、改進粒子群優(yōu)化算法(IPSO)和反向傳播神經(jīng)網(wǎng)絡(BPNN)相結(jié)合的混合預測模型。采用自適應噪聲完整集成經(jīng)驗模態(tài)分解(CEEMDAN)去除冗余噪聲,提取原始數(shù)據(jù)的主要特征,采用IPSO優(yōu)化反向傳播神經(jīng)網(wǎng)絡。結(jié)合國內(nèi)3條原油管道,對提出的模型展開準確性評價。
圖2 能耗預測領域的基準模型統(tǒng)計Fig. 2 Statistics of benchmark models in the field of energy consumption prediction
圖3 能耗預測領域的優(yōu)化算法統(tǒng)計Fig. 3 Statistics of optimization algorithms in the field of energy consumption prediction
圖4 能耗預測領域的分解算法統(tǒng)計Fig. 4 Statistics of decomposition algorithms in the field of energy consumption prediction
實際現(xiàn)場采集的數(shù)據(jù)通常含有噪聲,常規(guī)方法無法提取數(shù)據(jù)的主要特征。前人學者對此做了諸多研究,Huang[33]提出經(jīng)驗模態(tài)分解(EMD)方法將原始信號分解為多個內(nèi)涵模態(tài)分量(IMF),但模型和EMD無法很好的融合。針對此問題,Wu和Huang[34]提出集成經(jīng)驗模態(tài)分解(EEMD)方法,EEMD在穩(wěn)定性方面有明顯的改善,但很難完全抵消所增加的噪聲。為了提高EEMD的性能,Torres[35]提出一種高級的自適應噪聲完整集成經(jīng)驗模式分解算法(CEEMDAN)。CEEMDAN算法不僅能夠解決EMD中模態(tài)混合的問題,而且通過加入成對白噪聲,可以高效消除噪聲,實現(xiàn)較好預測效果。因此,CEEMDAN算法作為一種實用的數(shù)據(jù)預處理工具,能夠提高預測性能。
人工神經(jīng)網(wǎng)絡(ANN)目前被廣泛應用于各行業(yè)。其中,神經(jīng)元是人工神經(jīng)網(wǎng)絡的基本處理單元,在輸入節(jié)點處接收非線性信息,經(jīng)內(nèi)部處理后在輸出節(jié)點處生成響應[36]。反向傳播神經(jīng)網(wǎng)絡(BPNN)典型的三層前饋神經(jīng)網(wǎng)絡結(jié)構(gòu)如圖5所示。在反向傳播神經(jīng)網(wǎng)絡中,神經(jīng)元分層排列,包括輸入層、隱藏層和輸出層。人工神經(jīng)網(wǎng)絡將多個神經(jīng)元相互連接,每個連接都有相應的權(quán)重。假設Wij是神經(jīng)元i和j之間的連接權(quán)重,Xi是神經(jīng)網(wǎng)絡的輸入向量,則兩個連續(xù)層(k-1,k)的神經(jīng)元j的輸出值由公(1)式確定
其中bj是閾值,Θ是激活函數(shù),m是k-1層中神經(jīng)元的數(shù)量,n是k層中神經(jīng)元的數(shù)量。
圖5 三層前饋神經(jīng)網(wǎng)絡結(jié)構(gòu)圖Fig. 5 Structure diagram of 3-layers feed-forward neural network
粒子群優(yōu)化算法最早是由Eberhart和Kennedy[37]于1995年提出,能夠解決復雜約束優(yōu)化問題,同時又有較快的收斂速度。然而,傳統(tǒng)的粒子群優(yōu)化算法有時會陷入局部最優(yōu),因此提出改進粒子群優(yōu)化算法(IPSO)來解決該問題。改進粒子群優(yōu)化算法基于分布函數(shù)確定粒子位置,與傳統(tǒng)的粒子群優(yōu)化算法相比,改進粒子群優(yōu)化算法需要調(diào)整的參數(shù)少,工作效率高、不容易陷入局部最優(yōu)[38]。根據(jù)改進粒子群優(yōu)化算法,計算種群的最佳位置如下:
其中Mbest表示粒子的平均歷史最佳位置,M是粒子群的大小,Pi是第i個粒子的歷史最佳位置,Pi(t)是在第i個粒子在時間t的最佳位置,Pg(t)是在時間t的全局最佳位置,xi(t)是第i個粒子在時間t的位置,α是創(chuàng)新參數(shù),值不大于1,ε和μ為在(0,1)之間的均勻分布。結(jié)合式(3)和等式(4),可得到后代粒子的位置。
本研究生產(chǎn)數(shù)據(jù)來源于東北3條原油管道,記為A、B、C,以天為周期,采集2019年01月01日至2019年6月29日的數(shù)據(jù),共計180組數(shù)據(jù),管道A的部分數(shù)據(jù)如表1所示。在這項研究中,對于輸入?yún)?shù)的選取需要滿足兩個條件,參數(shù)是變量且與電耗間存在相關(guān)性,因此,選取管輸過程中的排量、平均進壓、平均匯壓、平均出壓、平均泵出、平均進溫、平均匯溫、平均出溫、地溫、下站進壓和下站進溫等11個參數(shù)作為預測模型的輸入?yún)?shù)。電耗是預測值,所以選取電耗作為輸出參數(shù)。
訓練集和測試集按4:1的比例進行劃分。由于傳統(tǒng)的隨機抽樣方法可能會導致測試集的分布規(guī)律與原始數(shù)據(jù)集分布規(guī)律有較大偏差,使預測結(jié)果不客觀。因此,考慮采用分層抽樣方法來劃分數(shù)據(jù)集[39-40]。在原油運輸過程中,輸量對電耗影響最大,根據(jù)輸量的分布規(guī)律可知,某些特定范圍內(nèi)的數(shù)據(jù)量較少,采用抽樣時可能會遺漏該范圍內(nèi)的數(shù)據(jù),為了保證每一數(shù)據(jù)范圍內(nèi)的數(shù)據(jù)都能夠按比例被抽取,因此,依據(jù)數(shù)據(jù)的分布規(guī)律,將采集的數(shù)據(jù)劃分為4個區(qū)間。以管道A為例,兩種抽樣方法得到的測試集與初始樣本的偏差如表2所示。3條管線的隨機抽樣和分層抽樣的平均絕對百分比誤差(MAPE)見圖6。對于A、B、C管道,隨機抽樣的MAPE分別為26.44%、19.20%、17.46%,分層抽樣的MAPE分別為2.16%、2.16%、1.05%。結(jié)果表明,分層抽樣得到的測試集與初始樣本有較好的一致性。因此,本文采用分層抽樣來劃分訓練集和測試集。
表1 管道A的部分數(shù)據(jù)Table 1 Partial data of Pipeline A
表2 基于管道A隨機抽樣和分層抽樣的平均絕對百分誤差Table 2 Mean absolute percentage error of random sampling and strati fied sampling based on pipeline A
圖6 3條管線隨機抽樣和分層抽樣平均絕對百分比誤差Fig. 6 Mean absolute percentage error of random sampling and strati fied sampling based on the 3 pipelines
根據(jù)分解技術(shù)(CEEMDAN)和改進粒子群算法的BP神經(jīng)網(wǎng)絡(IPSO-BPNN)建立混合預測模型。采用CEEMDAN去除冗余噪聲,提取原始數(shù)據(jù)的主要特征;采用IPSO擬合非線性特征,優(yōu)化BPNN網(wǎng)絡結(jié)構(gòu)。結(jié)合國內(nèi)3條原油管道,對比機器學習方法和SPS能耗預測模塊,對所提出混合模型(CEEMDAN-IPSO-BPNN)的預測效果進行準確性評價,混合預測系統(tǒng)的建立流程如圖7所示。
實驗過程通過Python 3.6.6語言實現(xiàn),處理器為Intel Xeon E5-2643 v4,計算機內(nèi)存為96.0 GB。以管道A為例,CEEMDAN-IPSO-BPNN混合模型的主要實驗參數(shù)如表3所示。將CEEMDAN-IPSO-BPNN混合模型與主流機器學習方法和SPS能耗模塊的預測性能分別展開對比,全面評價CEEMDAN-IPSO-BPNN的預測性能。
通過大量文獻調(diào)研,選取相對誤差(RE)、決定系數(shù)(R2)、平均絕對百分誤差(MAPE)、均方根誤差(RMSE)、平均絕對誤差(MAE)、泰爾不等式系數(shù)(TIC)、分數(shù)偏差(FB)、預測結(jié)果統(tǒng)計1(U1)、預測結(jié)果統(tǒng)計2(U2)和方向精度(DA)10個主流指標來評價模型的預測性能[41-44],表達式如表4所示。
圖7 CEEMDAN-IPSO-BPNN混合預測模型的流程圖Fig. 7 Flow chart of CEEMDAN-IPSO-BPNN
將建立的混合預測模型CEEMDAN-IPSO-BPNN與GA-BPNN、PSO-BPNN、IPSO-BPNN、EMDIPSO-BPNN和EEMD-IPSO-BPNN 等5個模型展開預測性能對比,評價混合模型的預測性能。對3條管道的10個指標分別取平均值得到表5和圖8,為了全面評價所提出混合模型的預測性能,開展了對比研究。
(1)通過GA-BPNN與PSO-BPNN的預測結(jié)果對比發(fā)現(xiàn),PSO-BPNN的預測性能優(yōu)于GA-BPNN,證明PSO對于預測性能的提高優(yōu)于GA,相比主流優(yōu)化算法,PSO對于預測性能的提高幅度較大。
(2)通過PSO-BPNN與IPSO-BPNN的預測結(jié)果對比發(fā)現(xiàn),IPSO-BPNN的預測性能優(yōu)于PSO-BPNN,證明改進粒子群算法在一定程度上提高了粒子群算法的性能,有效解決了優(yōu)化算法容易出現(xiàn)局部最優(yōu)解的問題。
表3 實驗參數(shù)值Table 3 Experimental parameters
表4 模型預測性能評價的十個主流指標Table 4 Ten mainstream indicators for performance evaluation
表5 3條管道上十個評價指標的平均值Table 5 Average values of ten evaluation indicators for the 3 pipelines
圖8 建立的模型和對比模型的預測值Fig. 8 Predicted values of the proposed model and the comparison models
(3)通過IPSO-BPNN與EMD-IPSO-BPNN、EEMD-IPSO-BPNN和CEEMDAN-IPSO-BPNN預測結(jié)果對比發(fā)現(xiàn),IPSO-BPNN預測效果相對最差,證明分解算法能夠在一定程度上提高模型的預測性能。
(4)通過CEEMDAN-IPSO-BPNN與EMD-IPSOBPNN和EEMD-IPSO-BPNN預測結(jié)果展開對比發(fā)現(xiàn),相比EMD和EEMD數(shù)據(jù)分解技術(shù),CEEMDAN具有更好的分解效果,能夠深入地捕獲數(shù)據(jù)特征,提高模型預測結(jié)果。
因此,通過與5個機器學習模型的對比可知,建立的混合模型CEEMDAN-IPSO-BPNN具有最好的預測性能。
SPS是款成熟的瞬態(tài)水力模擬軟件,能夠模擬單一流體、批次流體和單相混合流體在管道中的輸送過程。利用軟件內(nèi)置的管道、泵、壓縮機、閥和控制器等,SPS能建立對應的數(shù)學模型,通過計算流量、壓力、密度、溫度和其它一些沿線隨時間變化的參數(shù)來開展仿真研究。在油氣儲運領域,SPS軟件使用廣泛,主要功能包括停輸再啟動分析、管輸能耗分析、泵和壓縮機操作計劃分析、水擊泄壓系統(tǒng)設計、批次計劃、不同操作方案和不同設計的經(jīng)濟性分析等。
為保證預測結(jié)果具有可對比性,本研究以上文提到的管道A、B和C為例,運用SPS軟件分別建立管輸能耗預測模型。將預測結(jié)果與CEEMDAN-IPSO-BPNN的預測結(jié)果進行對比,深入評價CEEMDAN-IPSO-BPNN模型的預測性能。
首先建立站間管道系統(tǒng)模型,通過計算泵功率得到每天耗電量,模型采用設備Pump來模擬中間站的輸油泵,采用General Pipe來模擬站間管道,管道輸送介質(zhì)采用出站摻混后的原油,泵的特性曲線、管道內(nèi)徑、管線長度以及摻混原油特性等數(shù)據(jù)通過現(xiàn)場獲取。模型以進口控制壓力、出口控制流量作為邊界條件,計算泵機組每天耗電量。以管道A為例,圖9為建立的SPS能耗預測簡易流程,預測得到的部分結(jié)果如表6所示。對3條管道模擬得到的10個指標取平均值得到統(tǒng)計表7,圖11為CEEMDAN-IPSO-BPNN與SPS預測結(jié)果相對誤差絕對值的箱型圖。
從結(jié)果上來看,SPS模擬得到的MAPE為10.72%,對造成現(xiàn)有誤差的原因進行了思考,主要包括:(1)管道服役時間長,管道內(nèi)壁產(chǎn)生磨損,粗糙度難以估計,與設計規(guī)范的推薦值有差別;(2)管道輸送介質(zhì)含蠟量較高,管道在長時間運行過程中會積蠟,并且管道的清管效果未知,影響了管道的實際水力半徑;(3)站內(nèi)管線復雜,模擬中只能粗略考慮站內(nèi)的摩阻損失,直接影響了模擬數(shù)據(jù)的精確度;(4)總傳熱系數(shù)難以準確確定;(5)采集傳感器的精度不準;(6)泵的實際運行特性跟廠家提供的特性曲線有偏差;(7)現(xiàn)場數(shù)據(jù)為一天的平均值或累計值,而不同時刻的數(shù)據(jù)存在波動性,仿真數(shù)據(jù)是根據(jù)一天的累計輸量和平均壓力穩(wěn)態(tài)模擬所得到的,這與真實情況存在差別。
圖9 基于管道A建立的SPS能耗預測流程Fig. 9 The SPS energy consumption prediction process based on pipeline A
表6 基于管道A的部分預測值Table 6 Partial predicted value based on pipeline A
通過表7和圖10分析可得,針對相同數(shù)據(jù)集,CEEMDAN-IPSO-BPNN相較于主流商業(yè)軟件SPS擁有更好的預測性能。表明機器學習預測效果對于數(shù)據(jù)的依賴性要弱于SPS軟件,運用SPS展開預測,若想取得理想的預測效果,需要詳細的參數(shù)信息,在實際生產(chǎn)運行中部分參數(shù)較難獲取。而機器學習能通過數(shù)據(jù)分解技術(shù)和非線性映射功提高模型的預測性能,也間接表明了基于數(shù)據(jù)驅(qū)動的機器學習方法在油氣儲運行業(yè)的優(yōu)勢和潛力。
表7 建立的模型預測值和SPS能耗模塊預測值的對比Table 7 Comparison of the predicted values between the proposed model and the SPS energy consumption module
圖10 混合模型與SPS預測相對誤差絕對值箱型圖Fig. 10 Box plot for the absolute value of the relative error between the hybrid model and SPS
采用分層抽樣方法對初始數(shù)據(jù)進行劃分,避免出現(xiàn)簡單隨機抽樣遺漏某些特性的問題,保證預測結(jié)果的客觀性和可靠性。提出了基于反向傳播神經(jīng)網(wǎng)絡的改進粒子群優(yōu)化算法,提高了粒子群的搜索能力、避免了局部最優(yōu)解。將自適應噪聲完整集成經(jīng)驗模態(tài)分解技術(shù)應用到油氣管道領域,與其他分解技術(shù)相比,該分解技術(shù)能夠高效消除預測過程中的冗余噪聲,捕捉原始數(shù)據(jù)集的主要特征。在此基礎上,建立的混合預測模型綜合了數(shù)據(jù)分解技術(shù)和優(yōu)化算法的優(yōu)勢,對比5類主流機器學習方法和管輸能耗預測軟件SPS,建立的能耗預測模型平均絕對百分誤差降低7.402%、5.955%、3.619%、1.781%、1.487%和6.887%,擁有較高的預測精度和較強的泛化能力,能有效指導能耗目標設定、調(diào)度優(yōu)化和機組組合。提出的預測方法以機器學習為基礎,解決了傳統(tǒng)物理數(shù)學建模復雜等缺點,關(guān)注輸入和輸出參數(shù)的映射關(guān)系,在實際管道甚至是更加復雜的管道系統(tǒng)中也有一定的適用性。