戴雄奇,王博彥,林 峰,常 田
(1.深圳市水務(集團)有限公司,廣東深圳518031;2.中國石油化工股份有限公司北京化工研究院,北京100013)
供水管網(wǎng)是城市不可或缺的基礎設施,具有隱蔽性、變化性大、復雜度高、材質多樣性等特性。爆管事件的頻發(fā),對人民生活、工業(yè)生產、城市供水安全等帶來較大危害。城市供水管網(wǎng)存在例如管線老化嚴重、管理水平落后等問題,嚴重影響供水系統(tǒng)的安全運行。爆管事故不僅增加了企業(yè)的供水成本,還會損壞公共設施,妨礙交通,影響生活和生產秩序[1]。
管網(wǎng)發(fā)生爆管事故通常是內外因綜合作用的結果,影響因素眾多且復雜,大體上可分為物理因素(例如管徑、管材、管長、建設時間等)、環(huán)境因素(例如路面狀況、覆蓋面土質等)和運行狀況(例如水壓、維修記錄等)三大類[1-2]。通過整合供水管網(wǎng)基礎數(shù)據(jù)和運營數(shù)據(jù),構建供水管網(wǎng)數(shù)據(jù)庫,以大數(shù)據(jù)分析算法為基礎建立爆管預測模型,從而對供水管網(wǎng)爆管率進行預測,并形成完善的供水管網(wǎng)資產優(yōu)化管理體系,有助于為供水管網(wǎng)的更新和改造提供決策依據(jù)[2-3]。
目前,現(xiàn)有的管線評價多采用模糊理論、多元線性回歸、層次分析法等方法建立模型,存在主觀性較強、對數(shù)據(jù)質量要求高、適用于特定管網(wǎng)等不足??紤]到多數(shù)供水企業(yè)信息化程度較低,存在歷史數(shù)據(jù)記錄不完整、數(shù)據(jù)準確率不高、缺乏統(tǒng)一標準等問題[4],這些方法并不適合供水管網(wǎng)爆管模型分析[5-6]。
為了建立一個對數(shù)據(jù)質量要求低、適用范圍廣、準確性較高的供水管網(wǎng)爆管率預測模型[7],筆者采用機器學習方法,利用隨機森林算法建立模型,對城市供水管網(wǎng)爆管率進行預測。隨機森林是一種使用自助抽樣方式,隨機特征子集和采用投票進行預測,由多棵無關聯(lián)決策樹構成的模型系統(tǒng)。決策樹是根據(jù)數(shù)據(jù)的特征構造的樹狀結構,當輸入新的特征時,可以根據(jù)其構造好的結構做出一步步判斷,最后得到分類結果[7-8]。
模型建立的技術路線和流程見圖1。
圖1 建模路線Fig.1 Modeling routing
從供水管網(wǎng)的基礎數(shù)據(jù)庫中提取管線的基礎信息,包括管材、管線編號、管長、管徑、建設年份、運行壓力、地理位置、道路負荷、雜散電流、土壤腐蝕等;從城市供水管網(wǎng)的爆管數(shù)據(jù)庫中,提取爆管管線編號、爆管時間、爆管原因、爆管類型、爆管點坐標等信息。對獲取的數(shù)據(jù)依據(jù)以下原則進行預處理。
2.2.1 數(shù)據(jù)篩選
剔除非自然因素(第三方、人為)導致事故的爆管記錄,修正錄入錯誤,剔除明顯異常數(shù)據(jù)。
2.2.2 數(shù)據(jù)庫關聯(lián)
將供水管網(wǎng)的基礎數(shù)據(jù)庫和爆管數(shù)據(jù)庫按照管線編號或者空間位置進行關聯(lián),匹配獲得每根管線的歷史爆管信息。
2.2.3 確定影響因子
為保證數(shù)據(jù)的準確性及完備性,選擇管齡、運行壓力、管徑、雜散電流、管材、道路負荷這6個基礎屬性作為發(fā)生爆管狀況的影響因子。
2.2.4 數(shù)字編碼
如表1所示,按照因子的數(shù)據(jù)屬性將其劃分為分類變量、連續(xù)變量兩類,將分類變量數(shù)字化編碼以便于代入模型運算,不同數(shù)字代表不同的數(shù)據(jù)類別。對于管線的歷史爆管信息,用0表示管線未發(fā)生過爆管,用1表示管線發(fā)生爆管。
表1 分類變量數(shù)字編碼對照Tab.1 Comparison of numeric encoding of classification variables
表1中,道路負荷依據(jù)屬性劃分為分類變量,將其數(shù)字化編碼代入模型運算。道路負荷是基于該地區(qū)綜合交通圖來定義每條路段的負荷,若在某路段下方鋪設管道,則把道路類型值賦給該管線;設鐵路、地鐵10 m范圍內為雜散電流的影響區(qū)域,若管線安裝在該區(qū)域內,則認為該管道可能會受到雜散電流的影響。預處理后的數(shù)據(jù)集示例如表2所示。
表2 管線數(shù)據(jù)集示例Tab.2 Sample pipeline data sets
應用R軟件建立模型,采用其中的Random Forest功能包。采用正、負樣本兩種方式選取樣本,樣本量比例為1 ∶1,即隨機選取1000個爆管數(shù)據(jù)(正樣本)和等量的未發(fā)生爆管的管線數(shù)據(jù)(負樣本)。在模型訓練使用的輸入?yún)?shù)中,將管齡、運行壓力、管徑、雜散電流、管材、道路負荷6個影響因子定為自變量,管線是否發(fā)生爆管設為因變量。模型的輸出結果為管線發(fā)生爆管的概率,是介于[0,1]之間的數(shù)值。
在校驗模型精度時,通常采用接收靈敏度曲線(receiver-operating characteristic,ROC)和曲線下面積(area under curve,AUC)來表示。AUC值越趨近于1,模型效果越好。當AUC值在0.5~0.7時,準確度較低;當AUC值在0.7~0.9時,準確性較好;當AUC>0.9時,準確性很高。
為了更加全面、客觀地評價模型效果,采用ROC曲線綜合檢驗模型的精度和穩(wěn)定性,如圖3所示,圖中粗線表示檢驗結果和其變化范圍。研究中,AUC平均值達0.85,模型準確性較為理想;箱線圖顯示,ROC曲線的變化幅度非常小,分布較為聚集,模型相對穩(wěn)定,不易因樣本集隨機選取的變化產生影響。因此整體來看,模型的效果較好。
圖2 ROC曲線Fig.2 ROC curve
測評效果較好的模型可應用于其他研究區(qū)域。當利用數(shù)值表示分類變量(0代表未發(fā)生爆管,1代表發(fā)生爆管)作為因變量建立隨機森林模型時,預測結果可得到發(fā)生/未發(fā)生爆管的概率,見表3。
表3 預測結果Tab.3 Prediction results
表3中最后1列數(shù)據(jù)為管網(wǎng)發(fā)生爆管的概率,倒數(shù)第2列表示管線不會發(fā)生爆管的概率。發(fā)生爆管的概率越趨近1,管網(wǎng)狀況越差;概率越接近0,管網(wǎng)的健康度越高。
為了使管網(wǎng)爆管率預測結果直觀清晰,采用等間隔分類法,將狀況評估結果分為健康(0~0.2)、較好(0.2~0.4)、一般(0.4~0.6)、較差(0.6~0.8)和危險(0.8~1)5個等級。
在ArcGIS中用不同的顏色展示管線健康狀態(tài)分級結果,繪制出管網(wǎng)健康狀態(tài)專題圖,研究中隨機森林模型評估專題圖與實際情況的對比如圖4、圖5所示。兩者的相似度較高,這表明所建立的隨機森林模型的預測效果較好。
圖3 資產狀況評估Fig.3 Assessment of asset status
圖4 資產實際狀況Fig.4 Status of asset
管線爆管的影響因子的重要程度,可通過圖形的方式分析對比得出。衡量因子重要性的參數(shù)有2個:一是平均精度下降(mean decrease accuracy),對1個因子隨機賦值,記錄此時模型預測準確度的減小幅度,幅度越大則表明該因子越重要;二是平均基尼指數(shù)下降(mean decrease Gini),利用基尼指數(shù)記錄因子對決策樹的節(jié)點不純度的降低程度產生的影響,值越大則反映出該因子越重要。其中,2種參數(shù)對比得出的因子重要性會略有差距,但差距很小,不會影響對結果的判斷。
分別用上述2類方法對6個影響因子進行重要性評價,如圖5所示。結果表明運用2種方法得出的因子重要性的排序結果基本一致,其中運行壓力、管齡是發(fā)生爆管的主要影響因子,雜散電流對爆管的影響程度最小。通過因子的重要性排序,剔除影響較小的自變量,可以優(yōu)化爆管模型;同時篩選出重要性因子,在數(shù)據(jù)收集工作中可將其作為重要指標,提升數(shù)據(jù)質量。
圖5 因子重要性評價Fig.5 Importance evaluation of factors
供水企業(yè)可根據(jù)模型預測結果制定管線更新改造優(yōu)先次序和維修養(yǎng)護計劃,利用爆管預測圖對高爆管率的區(qū)域安排重點巡檢,并重點監(jiān)測管齡和運行壓力這2個影響因子,實現(xiàn)供水企業(yè)對供水管網(wǎng)更新改造資金優(yōu)化,且做到爆管提前預警、科學防范,為供水管網(wǎng)科學化、智能化管理夯實基礎。