劉 燊 劉嘯奔 李 睿 李 博 陳朋超 張 宏
(1.中國石油大學(北京)油氣管道輸送安全國家工程實驗室/石油工程教育部重點實驗室/城市油氣輸配技術(shù)北京市重點實驗室 2.國家管網(wǎng)集團北方管道有限責任公司 3.國家管網(wǎng)沈陽管道檢測中心)
管道地質(zhì)條件變化引起的管道附加載荷波動是影響管道運行安全的重要因素[1-5]。在附加載荷作用下管道會產(chǎn)生一定的變形,對于凍土區(qū)管道,彎曲變形的主要成因是凍脹融沉等自然災(zāi)害的影響產(chǎn)生的地表變形。
基于慣性檢測單元(IMU)的內(nèi)檢測技術(shù)可以在檢測過程中記錄檢測器在三個軸向上的姿態(tài)數(shù)據(jù)和加速度信息,從而計算得到管段的彎曲應(yīng)變及位移[6]。與現(xiàn)有的位移檢測技術(shù)相比,該技術(shù)可以在幾十公里長的管道全線逐點檢測,對管道彎曲應(yīng)變的檢測更加全面和精確[7-8]。根據(jù)GB 32167—2015《油氣輸送管道完整性管理規(guī)范》附錄Ⅰ要求,IMU檢測結(jié)果應(yīng)滿足單次檢測識別的彎曲變形曲率大于1/400D(應(yīng)變值超過0.125%)的管道彎曲特征,從這些特征中篩選出彎曲變形危險段是保證管線安全運行的重要舉措之一。
通過分析IMU應(yīng)變檢測數(shù)據(jù),現(xiàn)已形成初步的彎曲變形危險段識別方法。趙曉明等[9]結(jié)合幾何/漏磁檢測數(shù)據(jù)定位管體缺陷,利用人工識別的方法,逐段識別找到IMU數(shù)據(jù)中構(gòu)成潛在威脅的高風險點。人工識別方法在分析處理海量IMU應(yīng)變檢測數(shù)據(jù)時需耗費大量時間,處理效率低,同時還存在處理標準不一致的問題,對于模棱兩可的管段類型,不同的人判斷得出的結(jié)果可能各異,所以需要借助機器進行識別,但現(xiàn)在缺乏高效智能的機器識別方法。
因此本文以漠大一線的IMU應(yīng)變檢測數(shù)據(jù)為基礎(chǔ),提出了基于機器學習的彎曲變形危險管段智能識別方法。該方法利用1階低通數(shù)字濾波降低應(yīng)變檢測數(shù)據(jù)中的干擾噪聲,保證應(yīng)變值的準確性[10];根據(jù)彎頭段、凹陷段和彎曲變形段的特征差異,結(jié)合幾何與漏磁檢測數(shù)據(jù)提取IMU應(yīng)變檢測數(shù)據(jù)中不同管段類型的數(shù)據(jù)特征,利用PCA主成分分析法完成特征降維;基于CART決策樹及隨機森林原理建立分類模型,進而實現(xiàn)對彎曲變形管段的智能識別。
IMU內(nèi)檢測器在檢測管線過程中,其搭載的慣性檢測單元易受到管道內(nèi)、外部環(huán)境和第三方破壞等因素的影響而產(chǎn)生噪聲干擾信號,主要包括管道螺旋焊縫對IMU檢測裝置的干擾,以及管道內(nèi)部的油垢、雜質(zhì)沉積形成的阻塞等,使內(nèi)檢測器在運行過程中出現(xiàn)顛簸式的運動狀態(tài)[11],在IMU應(yīng)變檢測數(shù)據(jù)中表現(xiàn)為上下波動的高頻鋸齒狀噪聲干擾信號,噪聲信號會使應(yīng)變值偏大或偏小。
本文以選取的漠大管道線為例,從漠河至大慶一線中提取了3 431份訓練數(shù)據(jù)集,其中,彎頭段962份,凹陷段975份,彎曲變形段1 494份;提取了1 754份測試數(shù)據(jù)集,包括彎頭段337份,凹陷段442份,彎曲變形段975份。兩種數(shù)據(jù)集共5 185份樣本數(shù)據(jù)。在整條管線的應(yīng)變檢測數(shù)據(jù)中,應(yīng)變值為零值附近的正常管段占主要部分。管道變形特征值分布如圖1所示。由圖1可知,管道變形主要包括彎頭、凹陷和環(huán)焊縫等幾何特征,以及由管道外部載荷引起的彎曲變形。不同管段類型的特征差異為利用機器學習方法對IMU應(yīng)變檢測數(shù)據(jù)識別分類創(chuàng)造了條件。
圖1 管線變形特征比例圖
管線中的幾何特征會妨礙對彎曲應(yīng)變段的識別,凹陷段和彎頭段數(shù)量眾多且應(yīng)變值較大,在識別彎曲變形段時應(yīng)主要排除彎頭和凹陷的干擾。彎頭的IMU應(yīng)變曲線如圖2a所示。彎頭按照固定規(guī)格制成,總長一般不會超過12 m,彎頭段的應(yīng)變曲線特征為12 m范圍內(nèi)發(fā)生應(yīng)變或突變,呈紡錐形尖刺狀,通常在應(yīng)變絕對值最大處大于0.5%[12],不同檢測年份的彎頭彎曲應(yīng)變值不會出現(xiàn)較大的偏差。凹陷的IMU應(yīng)變曲線如圖2b所示。凹陷段的情況較為復(fù)雜,通過漏磁檢測與幾何檢測可以發(fā)現(xiàn),在整條管線上存在大小不一的凹陷,部分凹陷段在應(yīng)變曲線上的數(shù)據(jù)特征不明顯,甚至與正常管道之間沒有明顯差異。凹陷段的應(yīng)變曲線特征為在較短范圍內(nèi)應(yīng)變發(fā)生突變,呈半菱形狀,且凹陷的彎曲應(yīng)變值相比彎頭較小。
圖2 兩種幾何特征IMU應(yīng)變曲線
彎曲變形風險段的應(yīng)變呈正弦曲線波動,管道彎曲長度一般超過12 m[13],彎曲變形最大處的應(yīng)變絕對值大于0.125%,可以將彎曲變形段的應(yīng)變曲線特征總結(jié)為“W”形和“V”形,以及多個“W”形變形段和“V”形段的串聯(lián),如圖3所示。為了方便截取彎曲變形段的數(shù)據(jù)特征,簡化計算過程,“W”形的彎曲變形段包含或者可看作是“V”形彎曲變形段。
圖3 兩種彎曲應(yīng)變的IMU應(yīng)變曲線
數(shù)據(jù)噪聲對識別彎曲變形段的影響主要有兩點:一是原本彎曲應(yīng)變較小的管段,在鋸齒狀噪聲的干擾下會使得彎曲應(yīng)變值超過識別閾值,從而可能會誤認為其是應(yīng)變較大的異常管段;二是數(shù)據(jù)噪聲會影響管線彎頭、凹陷、彎曲變形段的數(shù)據(jù)特征,影響機器學習模型的識別準確率。因此利用科學合理的方法有針對性地降低IMU檢測中的數(shù)據(jù)噪聲干擾非常有必要。
本文選用1階數(shù)字低通濾波去除IMU應(yīng)變干擾噪聲。其原理是低頻的彎曲應(yīng)變信號能夠正常通過,而超過臨界值的噪聲信號會被阻攔或減弱,從而實現(xiàn)IMU應(yīng)變檢測數(shù)據(jù)的平滑降噪。1階數(shù)字低通濾波公式如下:
Yn=qXn+(1-q)Yn-1
(1)
q=2πΔtfc
(2)
式中:q為濾波系數(shù),其實際取值取決于濾波時間常數(shù)和采樣周期;Xn為第n次采樣時的濾波器輸入應(yīng)變,即數(shù)據(jù)的原始應(yīng)變值;Yn為第n次采樣時的濾波器輸出應(yīng)變,即降噪后的應(yīng)變值;Δt為采樣間隔時間;fc為截止頻率,即區(qū)分應(yīng)變信號與噪聲信號的臨界值。
設(shè)置截止頻率為0.1 Hz,采樣頻率為1.0 Hz,對某段IMU應(yīng)變檢測數(shù)據(jù)降噪后的應(yīng)變曲線如圖4所示。由圖4可見,降噪后應(yīng)變數(shù)據(jù)的鋸齒狀干擾噪聲有所減緩。
圖4 1階低通濾波降噪效果圖
基于IMU應(yīng)變檢測數(shù)據(jù)的管段識別,實際上是對不同管段類型數(shù)據(jù)特征的識別。根據(jù)IMU應(yīng)變檢測數(shù)據(jù)的物理意義,并結(jié)合數(shù)理統(tǒng)計規(guī)則,參考信號分析的相關(guān)方法,從每份樣本數(shù)據(jù)中提取11個特征值,分別為長度、幅值、峰峰值、最小值、均值、標準差、偏度、峭度、峰值因子、脈沖因子及裕度因子。
長度表示一份樣本數(shù)據(jù)中應(yīng)變值的個數(shù),長度的計算公式為:
nL=length(x1,……,xn)
(3)
幅值也叫做最大值,表示一份樣本數(shù)據(jù)中最大的數(shù),幅值的計算公式為:
xmax=max{|x1|,|x2|,……,|xn|)
(4)
峰峰值表示一份樣本數(shù)據(jù)中最大值與最小值之差,峰峰值的計算公式為:
xmax-min=max{x1,……,xn)-min{x1,……,xn)
(5)
最小值表示一份樣本數(shù)據(jù)中最小的數(shù),最小值的計算公式為:
xmin=min{|x1|,|x2|,……,|xn|)
(6)
均值又稱作平均數(shù),表示一份樣本數(shù)據(jù)中所有值之和除以樣本中的個數(shù),均值的計算公式為:
(7)
標準差表示樣本數(shù)據(jù)的離散程度,用以衡量樣本數(shù)據(jù)值偏離算數(shù)平均值的程度,計算公式如下:
(8)
偏度表示樣本數(shù)據(jù)的偏離程度,也就是樣本數(shù)據(jù)的對稱程度,偏度的計算公式為:
(9)
式中:μ為均值,σ為標準差,n為樣本個數(shù)。
峭度表示樣本數(shù)據(jù)中大幅值出現(xiàn)的概率,峭度的計算公式為:
(10)
式中:σ2為方差。
峰值因子表示峰值在樣本數(shù)據(jù)中的極端程度,其計算公式為:
min{x1,……,xn))
(11)
脈沖因子是樣本數(shù)據(jù)峰值與樣本數(shù)據(jù)絕對值的平均值的比值,計算公式如下:
min{x1,……,xn))
(12)
裕度因子表示樣本數(shù)據(jù)峰值與樣本數(shù)據(jù)方根幅值的比值,計算公式如下:
(13)
特征提取在表征原始數(shù)據(jù)特征的前提下實現(xiàn)了對樣本數(shù)據(jù)的簡化[14],但只有部分特征值在區(qū)分不同管段類型時起關(guān)鍵作用,因此需對特征值主成分進行分析。對主成分分析(Principal Component Analysis,PCA)可以對已有的數(shù)據(jù)特征進行降維處理,從而提高機器學習模型的計算效率。PCA通過借助一個正交變換,將分量相關(guān)的原隨機變量轉(zhuǎn)換成分量不相關(guān)的新變量,在新平面中使不同類別的樣本點盡量得散開,從而達到用幾個綜合變量代替已有特征值的目的,降低特征數(shù)據(jù)的信息量,簡化特征數(shù)據(jù)處理的復(fù)雜程度[15]。對上述11個特征值進行主成分分析,結(jié)果如表1所示。由表1可知:第一主成分的貢獻率為63.099%;第二主成分的貢獻率為22.064%;計算得到前5個主成分T1~T5的累計貢獻率達到了98.539%,因此取前5個主成分作為樣本數(shù)據(jù)的主要特征分量,降維后形成3 431行5列的特征矩陣作為訓練數(shù)據(jù)集[16],之后對測試數(shù)據(jù)集也做同樣處理。
表1 前5種主成分的貢獻率 %
決策樹由根節(jié)點、子節(jié)點和葉節(jié)點三個部分組成,如圖5所示。決策樹通過將樣本數(shù)據(jù)分配到某個葉節(jié)點從而確定樣本所屬的分類,它的一個分支就是一個決策過程,每個決策的節(jié)點涉及到數(shù)據(jù)樣本的一種特征。使用基尼指數(shù)(CART)作為特征選擇的準則,建立CART決策樹,從根節(jié)點出發(fā)計算基尼指數(shù),自上而下進行決策,在每個子節(jié)點都會進行一個判斷,最后到達一個葉節(jié)點,遞歸產(chǎn)生決策樹。建立決策樹后,將測試樣本輸入,經(jīng)過決策樹的分類,最后得到的葉節(jié)點就是測試子集的類別[17]。
圖5 決策樹示意圖
隨機森林(Random Forest,RF)是在決策樹的基礎(chǔ)上構(gòu)建的一種更為高級的算法,根據(jù)集成學習的思想解決單一決策樹模型固有的缺陷,如圖6所示。隨機森林采用了基于Bagging方法的抽樣技術(shù),即通過一種有放回重復(fù)抽樣的采樣方法,隨機抽取數(shù)據(jù)特征組成多個決策樹,建立一個森林[18],根據(jù)多個決策樹模型的分類結(jié)果,用投票表決多數(shù)的方式?jīng)Q定最后結(jié)果。隨機森林的顯著優(yōu)勢是能夠處理高維度的數(shù)據(jù)即不需要對特征進行降維處理。篩選出的11個特征值可以直接用于訓練隨機森林模型,在RF模型訓練過程中隨機選取樣本和特征屬性,從而提高模型算法的不確定性和多樣性[19],因此隨機森林分類的過程近乎是一個黑箱操作。
圖6 隨機森林示意圖
在得到帶標簽的特征向量矩陣后,本研究基于Python中的sklearn機器學習庫對CART決策樹和隨機森林模型進行參數(shù)優(yōu)選,建立理論條件下的最優(yōu)模型。影響CART決策樹性能的超參數(shù)有最大深度與最大葉節(jié)點數(shù),設(shè)置決策樹的最大深度為5~9之間,設(shè)置決策樹的最大葉節(jié)點分別為10、20、30、40和50個,在不同參數(shù)下進行10次10折交叉驗證后取平均值,則決策樹分類精度對比如圖7所示。隨著最大深度的增加,CART決策樹模型的識別準確率整體呈波浪式變化。將最大葉節(jié)點數(shù)設(shè)置為10時,即使增加最大深度也不會影響模型的性能,這是因為最大葉節(jié)點數(shù)過少,限制了決策樹模型的增長。當最大深度設(shè)置為7,最大葉節(jié)點數(shù)設(shè)置為30或40時,CART決策樹有著較好的性能,識別準確率在87.8%左右。
圖7 不同參數(shù)下的決策樹分類精度對比
結(jié)合隨機森林的原理,影響隨機森林模型分類性能的超參數(shù)有兩個:決策樹數(shù)量和隨機選取的特征數(shù)量[20]。設(shè)置決策樹數(shù)量為10~100個之間,每次間隔10個進行取值,隨機選取的特征數(shù)量分別取1、3、5、7、9個,交叉驗證后選擇最優(yōu)參數(shù),則隨機森林分類精度對比如圖8所示。決策樹的數(shù)量為10個時,隨機森林模型的識別準確率整體偏低,隨機選取的特征數(shù)從1個增加至3個時,隨機森林的識別準確率有所增長,平均增幅在1%左右,之后隨著隨機選取特征數(shù)量的增加,模型的性能趨于穩(wěn)定。從圖8可以看出,當隨機選取的特征數(shù)超過3個,決策樹的數(shù)量超過20個時,隨機森林的識別準確率超過了91%。因此,為保證識別準確率,可以設(shè)置隨機森林的特征值數(shù)量為7個,決策樹數(shù)量為100個。
圖8 不同參數(shù)下的隨機森林分類精度對比
運用隨機森林模型可得出各特征值在分類時所占的權(quán)重[20],如圖9所示。
圖9 隨機森林要素指標權(quán)重
由圖9可以看出,對分類效果最重要的指標是長度(0.251 9),其后依次是標準差(0.186 6)、平均值(0.135 8)、幅值(0.129 6)及峰峰值(0.106 9)。研究結(jié)果表明,由于IMU應(yīng)變檢測數(shù)據(jù)中各管段類型的邊界不明確,如何界定不同管段類型的長度影響范圍對模型的分類性能有重要的影響。在以后的研究中,需要優(yōu)化處理IMU應(yīng)變檢測數(shù)據(jù)中不同管段類型的截取長度,從而達到更好的分類效果。
本研究將3 431份樣本數(shù)據(jù)設(shè)置為訓練數(shù)據(jù)集,在模型訓練中使用10次10折交叉驗證后取平均值,求得模型的識別準確率,如表2所示。對訓練數(shù)據(jù)集交叉驗證后可以發(fā)現(xiàn),兩種模型對凹陷段的識別準確率都偏低,對彎頭段和彎曲變形段的識別準確率均高于90%。凹陷段的特征不明顯、凹陷段樣本數(shù)據(jù)中截取到其他管段特征是導致出現(xiàn)這種情況的潛在因素。
表2 10次10折交叉驗證 %
將1 754份測試數(shù)據(jù)集代入模型中訓練得出分類結(jié)果,求出混淆矩陣得到(見圖10)CART決策樹和隨機森林模型的分類性能,混淆矩陣的行表示預(yù)測值,列表示真實值。
混淆矩陣進一步分析得到兩種算法的分類精度[21]。圖10中,0代表凹陷段,1代表彎頭段,2代表彎曲應(yīng)變段。決策樹模型中測試集337份凹陷樣本數(shù)據(jù)中有137份被識別為彎曲應(yīng)變段,975份彎曲應(yīng)變樣本數(shù)據(jù)中有612份樣本數(shù)據(jù)被識別為凹陷段。分析結(jié)果表明:決策樹模型沒有很好地區(qū)分凹陷段與彎曲變形段之間的特征差異,因為凹陷段與彎曲變形段存在相似,一般情況下很難辨別??梢钥闯鲭S機森林模型的性能較好,但是在區(qū)分凹陷段和彎曲變形段也存在少數(shù)誤識別的情況。
圖10 兩種模型的混淆矩陣
混淆矩陣中統(tǒng)計的是樣本的個數(shù),根據(jù)混淆矩陣可以衍生出許多評價指標,在分類監(jiān)督學習模型中,常用的分類模型評價指標有:①Accuracy準確率,即正確預(yù)測的正反例數(shù)除以總數(shù);②Precision精確率,即正確預(yù)測的正例數(shù)除以預(yù)測正例總數(shù);③Recall是召回率,即正確預(yù)測的正例數(shù)除以實際正例總數(shù);④F1值是精確率和召回率的調(diào)和值,更接近于兩個數(shù)較小的那個,所以精確率和召回率接近時F1值最大,F(xiàn)1值較大時說明模型比較有效[22]。表3給出了兩種模型的指標對比情況。
表3 兩種分類模型在不同管段類型測試集的評價指標對比 %
由表3可知:在測試數(shù)據(jù)集中,CART決策樹模型的性能遠低于隨機森林模型,CART決策樹的識別準確率只有55.25%;隨機森林的識別準確率為93.39%,CART決策樹在訓練數(shù)據(jù)集上的平均識別準確率有87.94%,在測試數(shù)據(jù)集上準確率驟降到52.25%。這說明CART決策樹出現(xiàn)了過擬合,導致決策樹過擬合的主要原因可能是樣本數(shù)據(jù)量較少,以及不同管段之間的特征參數(shù)差異不明顯、IMU應(yīng)變檢測數(shù)據(jù)中仍存在干擾噪聲、不同管段類型的樣本數(shù)量不一致等。
(1)相比人工逐段識別應(yīng)變較大的異常管段,采用機器學習方法對彎曲應(yīng)變數(shù)據(jù)進行深入挖掘有重要作用?;诤A康腎MU應(yīng)變檢測數(shù)據(jù)建立樣本特征數(shù)據(jù)庫,利用機器學習方法能夠高效地找到管線中的融沉段,是管道安全狀態(tài)定量識別的一個新方向。
(2)長度是區(qū)分不同管段類型的重要參數(shù),然而截取的樣本數(shù)據(jù)長度易受主觀因素影響,在數(shù)據(jù)預(yù)處理時可以將樣本數(shù)據(jù)的長度作為變量,以模型識別準確率為優(yōu)化目標,從而起到提高模型識別分類的效果。
(3)本文基于IMU彎曲應(yīng)變數(shù)據(jù),利用機器學習方法要實現(xiàn)對管線中異常管段的智能識別。通過對比,隨機森林的分類效果優(yōu)于CART決策樹,隨機森林在訓練集和測試集的識別準確率都超過了90%,說明訓練得到的隨機森林模型與數(shù)據(jù)擬合較好,穩(wěn)定性和準確率更高。
盡管已經(jīng)初步構(gòu)建完整的異常管段智能識別方法,但是IMU彎曲應(yīng)變的數(shù)據(jù)挖掘工作目前仍處于起步階段。根據(jù)工業(yè)需求,建議從以下兩個方面進行完善:
(1)現(xiàn)有方法識別準確率能達到90%,在真正應(yīng)用于工程實際時還要加以優(yōu)化,可以嘗試更為新型的高效機器學習方法。
(2)IMU檢測器在經(jīng)過管道環(huán)焊縫時,由于錯邊等會發(fā)生跳動,使得環(huán)焊縫處的彎曲應(yīng)變檢測值超過閾值,因此在對不同管段的分類識別中可考慮加入對環(huán)焊縫異常段的識別。