曹放 李培駿 詹同安 孫徐 張鈺
摘要 公路工程在進行崩塌落石處治設計時,需要解決措施有效性與經(jīng)濟性之間的矛盾,如何在勘察設計工作中充分運用機器學習工具,是一個前沿的領域。以省道S463改擴建為國道G664的項目為契機,充分利用項目勘察設計階段獲得的342組工點數(shù)據(jù)集,首先采用XGBoost算法構建“XGB—崩塌”模型,利用改擴建前的220組數(shù)據(jù)集構建測試集進行訓練,然后對改擴建后的數(shù)據(jù)集進行測試,實現(xiàn)了對122段新增邊坡工點的崩塌、落石風險預測及評價,最后與支持向量機(SVM)、隨機森林(RF)的預測結(jié)果進行了對比。結(jié)果表明:“XGB—崩塌”模型較參照機器學習工具更具優(yōu)勢,取得了91.04%~94.12%的準確率。
關鍵詞 公路工程;崩塌;預測;XGBoost;機器學習;監(jiān)督學習;SVM;RF
中圖分類號 P642.22文獻標識碼 A文章編號 2096-8949(2024)12-0001-04
0 引言
崩塌、落石是山區(qū)公路修建時的常見地質(zhì)病害[1]。該文研究的依托項目位于四川省甘孜州稻城縣境內(nèi),為既有省道S463升級改擴建為國道G664,路線全長為164 km,沿線海拔在2 240~4 100 m,屬構造剝蝕高山峽谷地貌。斷裂、褶皺發(fā)育,崩塌落石十分發(fā)育。
目前,針對崩塌、落石的工程防治措施主要為主、被動網(wǎng),掛網(wǎng)噴混凝土,錨桿、錨索框架梁等。但此類災害分布十分廣泛,偶發(fā)性極強,無法做到全線處治。因此,勘察設計階段需要做好風險分類,盡可能針對高風險段落進行靶向防護[2-3]。
對于崩塌、落石的災害的風險評估,主要基于InSAR、衛(wèi)星遙感、航空遙感等GIS技術手段,獲得大區(qū)域內(nèi)可能發(fā)生的時間、地點、成災范圍和影響程度等信息。但受限于GIS手段僅能探測地球表面及探測精度不高,其效果無法達到直接指導設計的目的,加之缺乏高精度的地質(zhì)資料分析,無法進行工程推廣[4]。
因此,充分挖掘工點的多尺度信息并構建高精度預測模型,對崩塌落石的防護處治來說,有著顯著的現(xiàn)實意義。目前,支持向量機、神經(jīng)網(wǎng)絡、極限學習機等算法已廣泛應用于風險預測領域。近年來,Bagging、Boosting等集成學習算法因速度快、精度高、魯棒性強等優(yōu)勢,為公路邊坡崩塌、落石風險評價及預測提供了新思路。極端梯度提升樹(Extreme Gradient Boosting,XGBoost)是基于梯度提升改進的算法,具有非線性數(shù)據(jù)處理、計算量小、運算速度更快及能夠更好地防止過擬合等優(yōu)勢[5]。
該文結(jié)合機器學習理論,采用極端梯度提升樹(XGBoost)算法,通過網(wǎng)格搜索和曲線搜索調(diào)整內(nèi)部學習參數(shù),反復迭代后建立“XGB—崩塌”預測模型。此外,與SVM、RF兩種學習算法進行對比,評價其效果。
1 XGBoost算法基本原理
XGBoost算法的基本原理,是建立多個弱學習器,將決策樹作為基學習器,采用梯度提升算法,通過計算模型負梯度,多次迭代訓練,逐步提高模型的準確性;損失函數(shù)用二階泰勒級數(shù)展開,并加入正則項,可以有效地避免經(jīng)過高度擬合、多線程的并行處理問題[5-10]。
樹模型預測結(jié)果通式為:
損失函數(shù)為:
二階泰勒級數(shù)展開優(yōu)化后的目標函數(shù)與Gain函數(shù)分別為:
式中,Gain——樹分裂后目標函數(shù)損失量;Gj——損失函數(shù)一階導之和;Hj——損失函數(shù)二階導之和;γT——懲罰項;GL、GR——左、右損失函數(shù)一階導和;HL、HR——左、右損失函數(shù)二階導之和;λ——懲罰系數(shù)。
2 “XGB—崩塌”預測模型的建立
2.1 崩塌預測指標因子
充分利用公路工程勘察設計階段獲得的設計參數(shù)、地質(zhì)及水文指標,重點考察14組定量指標因子,詳見表1所示。由于模型的創(chuàng)建及分析需要用到Python編程,為便于程序?qū)崿F(xiàn)和解釋,將對應因子譯成英文,并作對照解釋。
2.2 數(shù)據(jù)準備
為了檢驗模型的適用性、合理性和準確度,數(shù)據(jù)集基于沿線長期跟蹤的實際案例樣本。依托項目改造前共計220處的基巖邊坡工點,結(jié)合發(fā)生頻率、發(fā)生次數(shù)、崩落塊石粒徑、坍塌方量等指標進行風險劃分:高風險46處,中風險34處,低風險140處,并分別賦予其風險特征值(高風險為3,中風險為2,低風險為1)。
既有道路改擴建后,隨著邊坡的開挖,路塹產(chǎn)生的新基巖邊坡共計122處,“新基巖邊坡+既有道路基巖邊坡”共計342處,數(shù)據(jù)集樣本總數(shù)為342組。
2.3 數(shù)據(jù)預處理
2.3.1 缺失值處理
在該文研究過程中,少量工程指標未能采集齊全,缺失值共計28個,缺失比例為0.67%,按照眾數(shù)填充進行處理。
2.3.2 異常值處理
指標因子較多,部分因子存在一定的換算關系。過多的輸入指標會增加模型訓練的時長、指標之間的強相關性,也會增加模型結(jié)構的復雜性,降低模型的預測效果。該文模型考慮通過計算皮爾遜(Pearson)相關性系數(shù)對指標進行相關性分析,原理如下:
式中,x1i、x2i——指標x1、x2的統(tǒng)計數(shù)據(jù);——指標x1的平均值;——指標x2的平均值;r——指標x1和x2之間的皮爾遜相關性系數(shù)。
由表2及圖1可見,坡長、坡寬、坡高、坡率、面積之間的皮爾遜相關性系數(shù)絕對值大于0.6,具有強相關性;真、視傾角之間的皮爾遜相關性系數(shù)絕對值大于0.8,具有極強相關性。因此,需要將有關評價指標之間的冗余信息進行優(yōu)化或刪除。
該文利用Boruta算法進行指標篩選,其是一種基于包裝器的特征選擇技術。其基本思路是,將原始的訓練集進行數(shù)據(jù)拓展,初始數(shù)據(jù)與拓展數(shù)據(jù)經(jīng)水平連接后形成混洗副本,通過基于樹模型的監(jiān)督學習算法,進行迭代擬合,最后逐步篩選出最優(yōu)解。
經(jīng)算法篩選,剔除坡高、真傾角這2項因子,保留坡長、坡寬、坡率、面積、巖性強度、巖層厚度、完整性指數(shù)、巖層傾向、邊坡坡向、巖層傾向—邊坡坡向夾角、巖層視傾角、地下水出露這12項作為定量評價因子。
3 模型建立與處理
3.1 模型建立
將邊坡開挖前的220組數(shù)據(jù)作為訓練集,其中:高風險46組,占20.91%;中風險34組,占15.45%;低風險140組,占63.64%。此外,將122組改造后邊坡作為測試集,擬合目標為回歸測算風險特征值,進而判別分類標記。基于默認參數(shù),分別采用AUC(Area Under Curve)、KS(Kolmogorov-Smirnov)、F1和Acc的分數(shù)(Accuracy)這4項指標對該模型進行評價?!癤GB—崩塌”模型初步建立后,得到了0.852 4的AUC和0.596 9的KS,分類能力良好。同時F1值達到了0.886 8,Accuracy達到了0.899 8,預測準確度很高。
3.2 參數(shù)調(diào)優(yōu)
為解決XGBoost過擬合降低運算性能的問題,同時獲得更優(yōu)的預測精度,需要進行超參數(shù)調(diào)優(yōu),其核心部分包含3個方面:通用參數(shù)、Booster參數(shù)及目標參數(shù)。該文主要針對Booster參數(shù)進行調(diào)整。通過對Python程序xgboost庫中默認參數(shù)進行優(yōu)化調(diào)整,尋找到更優(yōu)的參數(shù)組合:learning_rate的優(yōu)化值為0.02、n_estimators的優(yōu)化值為150、gamma的優(yōu)化值為0.2、max_depth的優(yōu)化值為5,此時模型的預測效果有了明顯提高。
3.3 性能評價
由表3可以看到,在訓練集上,經(jīng)調(diào)參優(yōu)化后,得到了0.887 6的AUC和0.658 8的KS,分類能力提升明顯。同時F1值達到了0.933 4,Accuracy達到了0.931 5,預測準確度進一步提高。
3.4 模型對比評價
為了對比XGBoost模型與傳統(tǒng)機器學習方法的差異,繼續(xù)采用Python的Scikit-learn庫,實現(xiàn)SVM、RF兩種模型對測試集的學習成果對比,同時針對精確度P、召回率R以及F1、Accuracy值進行對比,各模型主要調(diào)整參數(shù)見表4所示、分析結(jié)果如表5所示。
由表5可以看到,XGBoost無論是性能還是準確率,較其他參照模型都具有明顯優(yōu)勢,能更好地服務于實踐應用。
4 案例應用
訓練集完成后,利用“XGB—崩塌模型”對依托項目改造后新增的122處路塹邊坡作為測試集進行了預測分析,得到該模型在實際使用中的預測結(jié)果。真實值綜合考察挖開后邊坡的實際坍塌情況及專家評判成果如圖2所示。
如圖2混淆矩陣所示:低風險段落預測成功35段,成功率92.11%;中風險段預測成功61段,成功率91.04%;高風險段落預測成功16段,成功率94.12%。由此可見,該模型在該項目中實際運用的成功率較高,有較好的適應性,基本滿足工程輔助手段的需求。針對評估預測的成果,應加強較高風險段的防護措施,有助于降低對崩塌、落石病害的主觀認識風險。
5 結(jié)論
該文將具體的工程實踐與當前熱門的機器學習工具相結(jié)合,以中國西南高山峽谷地區(qū)勘察設計過程中獲得的342組崩塌落石數(shù)據(jù)為基礎,初步建立了“XGB—崩塌”預測模型,并將此模型應用到勘察設計工作中,作為輔助決策手段,獲得了較高的預測成果。
(1)機器學習算法是一種理性、客觀的技術手段,利用人工智能工具輔助公路工程的勘察設計,有助于提高決策效率,拓寬了行業(yè)發(fā)展的新思路。
(2)XGBoost與SVM、RF模型對比,其準確率、處理性能整體更高,該文在測試集上獲得了91.04%~94.12%的準確率,有著更好的推廣優(yōu)勢。
(3)XGBoost模型也存在著制約瓶頸,為了進一步改善模型的準確率及運行效率,需要對多元參數(shù)進行調(diào)整,調(diào)參過程通常會非常繁復;為了獲得最優(yōu)參數(shù),也需要探究更多的基于模型本身的伴生改良型算法。
(4)該文只是針對崩塌落石模型的初步探討,實際上,崩塌、落石形成和發(fā)生的隨機性較大,需要針對不同的致災機制探究更合理的分類方式,進而形成更合理的評估判定標準。
參考文獻
[1]孟暉, 胡海濤. 我國主要人類工程活動引起的滑坡、崩塌和泥石流災害[J]. 工程地質(zhì)學報, 1996(4): 69-74.
[2]鐘立勛. 中國重大地質(zhì)災害實例分析[J]. 中國地質(zhì)災害與防治學報, 1999(3): 2-7+11.
[3]吉隨旺, 唐永建, 胡德貴, 等. 四川省汶川地震災區(qū)干線公路典型震害特征分析[J]. 巖石力學與工程學報, 2009(6): 1250-1260.
[4]林報嘉, 劉曉東, 楊川, 等. XGBoost機器學習模型與GIS技術結(jié)合的公路崩塌災害易發(fā)性研究[J]. 公路, 2020(7): 20-26.
[5]Chen T , Guestrin C . XGBoost: A Scalable Tree Boosting System. [J]. CoRR, 2016, abs/1603. 02754
[6]高永濤, 朱強, 吳順川, 等. 基于AVOA-XGBoost模型的巖爆預測研究[J]. 華中科技大學學報(自然科學版), 2023(12): 151-157.
[7]齊石, 李墨瀟, 呂偉, 等. 基于L-XGB算法的巖爆傾向等級預測模型[J]. 中國安全生產(chǎn)科學技術, 2023(9): 33-38.
[8]趙曉東, 徐振濤, 劉福, 等. 基于極端梯度提升算法的滑坡易發(fā)性評價模型[J]. 科學技術與工程, 2022(23): 10347-10354.
[9]胡旭東. 基于集成學習的地質(zhì)災害易發(fā)性評價研究[D]. 武漢:中國地質(zhì)大學, 2019.
[10]李堯. 基于深度學習的滑坡檢測算法研究[D]. 成都:成都理工大學, 2018.