劉海知,徐 輝*,包紅軍,魯 恒,宋巧云,狄靖月,王 蒙,曹 爽
(1.國家氣象中心,北京 100081;2.中國氣象局–河海大學水文氣象研究聯(lián)合實驗室,北京 100081;3.四川大學 水利水電學院,四川 成都 610065;4.四川大學 水力學與山區(qū)河流開發(fā)保護國家重點實驗室,四川 成都 610065)
滑坡是中國西部山區(qū)的一種典型自然災(zāi)害,汶川大地震后的破碎山體、巖體經(jīng)過長時間風化作用形成的大量潛在固體物源在重力侵蝕和水力坡面侵蝕的共同作用下被帶入溝道,成為山洪水沙災(zāi)害的主要泥沙補給[1]。目前,山洪水沙災(zāi)害的防治主要關(guān)注洪水的影響,忽視了洪水和泥沙的共同作用[2–4],滑坡作為山洪水沙耦合運動的重要物源基礎(chǔ),其易發(fā)區(qū)的識別是山洪水沙災(zāi)害預(yù)報預(yù)警和風險評估的重要前提[5–8]。近年來,隨著遙感數(shù)據(jù)處理技術(shù)的升級和計算機科學的快速發(fā)展,基于衛(wèi)星遙感的滑坡信息提取已經(jīng)成為流域尺度滑坡易發(fā)性早期識別的主要方法。宿方睿等[9]采用面向?qū)ο蠓诸惙ú⒔Y(jié)合目視解譯提高了遙感影像滑坡解譯的成功率。Xu等[10]基于地震觸發(fā)的滑坡數(shù)據(jù)改進了滑坡體積的估算方法。黃潤秋等[11]根據(jù)高分辨率衛(wèi)星影像數(shù)據(jù)目視解譯出6 877個地質(zhì)災(zāi)害點。此外,人工智能和模糊數(shù)學領(lǐng)域的技術(shù)方法也被更多地應(yīng)用于樣本數(shù)量少、影像光譜信息匱乏區(qū)域的災(zāi)害易發(fā)性識別研究[12–15]。張帥等[16]利用區(qū)域生長算法和形態(tài)學實現(xiàn)了黃土高原巴謝河流域未解譯典型滑坡的識別。Ding等[17]提出基于紋理變化檢測和卷積神經(jīng)網(wǎng)絡(luò)的滑坡自動識別方法。Huang等[18]使用汶川地震后60個流域的實測泥石流體積數(shù)據(jù)集開發(fā)混合機器學習模型。張群等[19]采用了3種方案建立了BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測滑坡體積。目前,大多數(shù)滑坡易發(fā)性早期識別工作對于非滑坡單元的選取及數(shù)據(jù)樣本的構(gòu)建過程仍較為主觀,也未將固體物源作為主要影響因子。本文從分區(qū)算法和影響因子的角度對山區(qū)小流域的滑坡易發(fā)性識別方法進行優(yōu)化試驗,評估單體算法和融合算法對于滑坡易發(fā)區(qū)的識別效果,并比較考慮物源因子前后的滑坡易發(fā)性分區(qū)結(jié)果。
壽溪河流域位于四川省阿壩藏族羌族自治州汶川縣內(nèi),屬于川西多雨中心區(qū)。流域集水面積約554 km2,地理位置在東經(jīng)103°02′04″~103°26′56″,北緯30°47′42″~31°02′19″,海拔895~4 952 m。流域內(nèi)地形復(fù)雜、溝谷縱橫,是典型的山區(qū)流域。流域內(nèi)降水年內(nèi)分配不均,大部分集中于6—9月,且多為短時強降水,滑坡點主要分布于河谷兩岸區(qū)域,如圖1所示。
圖1 研究區(qū)及滑坡分布Fig.1 Research area and landslides distribution
滑坡信息主要通過對遙感影像中的地物特征進行提取而獲得,遙感影像采用斯波特(Satellite Pour l’Observation de la Terre,SPOT)7號衛(wèi)星全色遙感影像圖。影響滑坡發(fā)生的環(huán)境因子很多,考慮到易發(fā)區(qū)早期識別優(yōu)化算法在更大范圍的適用性,選取應(yīng)用范圍較廣的環(huán)境因子對研究區(qū)域滑坡易發(fā)性進行分析。針對滑坡易發(fā)性的大量研究中,常將地形因子、地質(zhì)因子、土壤因子、土地利用、植被覆蓋及水文環(huán)境作為主要評價因子[20]。本文將坡度、坡向、地形曲率、地形粗糙度作為地形因子,將地層巖性和距斷層距離作為地質(zhì)因子,將土壤類型作為土壤因子,將土地利用類型作為土地利用因子,將歸一化植被指數(shù)作為植被覆蓋因子,將汛期降水量作為水文環(huán)境因子。數(shù)字高程模型(digital elevation model,DEM)選用對地觀測衛(wèi)星(advanced land observing satellite,ALOS)相控陣型L波段合成孔徑雷達采集的DEM數(shù)據(jù),來源于美國國家航空航天局(National Aeronautics and Space Administration,NASA)官方網(wǎng)站;坡度、坡向、地形曲率及地面粗糙度數(shù)據(jù)基于DEM空間分析生成;土地利用數(shù)據(jù)、土壤類型數(shù)據(jù)、植被覆蓋數(shù)據(jù)來源于中國科學院資源環(huán)境科學與數(shù)據(jù)中心;地層巖性和斷層數(shù)據(jù)來源于91衛(wèi)圖助手軟件地質(zhì)圖;降水數(shù)據(jù)采用的是國家氣象信息中心研發(fā)的中國區(qū)域高時空分辨率多源融合降水近實時實況分析產(chǎn)品(China Meteorological Administration Multisource Precipitation Analysis System,CMPAS),該產(chǎn)品可為山區(qū)小流域等自動觀測站分布密度極小的區(qū)域提供精細化降水實況數(shù)據(jù)。以上數(shù)據(jù)來源與精度見表1。
表1 數(shù)據(jù)來源與精度Tab.1 Data source and resolution
1)頻率比算法
統(tǒng)計方法在滑坡易發(fā)區(qū)識別中應(yīng)用最為廣泛,基于統(tǒng)計方法對環(huán)境因子進行分析時多采用頻率比(式(1))對環(huán)境因子進行屬性劃分,故從訓練樣本集中獲取滑坡易發(fā)性與基礎(chǔ)環(huán)境因子之間的關(guān)系:
2)易發(fā)度分類算法
滑坡的易發(fā)性問題在一定程度上可以表示為分類問題,即在環(huán)境因子構(gòu)成的空間中對樣本集進行分類,獲取易發(fā)性與環(huán)境因子之間的關(guān)系,進而將這種關(guān)系從環(huán)境因子空間映射到地理空間,實現(xiàn)對滑坡易發(fā)性的識別與分區(qū),并為每個空間單元標記易發(fā)性等級。集成學習是一種將多個弱分類器合成單個強分類器以提高分類準確率和泛化能力的技術(shù)框架。隨機森林(Random Forests,RF)是基于Bagging集成學習的代表性算法,以決策樹(Decision Tree,DT)作為基評估器,通過隨機抽樣對多個決策樹進行集成并利用多數(shù)投票機制進行預(yù)測。單個決策樹的準確率越高,隨機森林的準確率也會越高。其核心思想是,從原始樣本中有放回地多次取樣,每次取樣形成一個訓練集及其對應(yīng)決策樹,生成的所有決策樹對新的數(shù)據(jù)進行分類預(yù)測。自適應(yīng)增強(adaptive boosting,AdaBoost)是Boosting集成學習的代表算法,通過在迭代過程中對訓練失敗的樣本賦予較大的權(quán)值來獲得較好的預(yù)測函數(shù)序列,采用投票方式對分類問題進行預(yù)測,即樣本的分類由各分類器權(quán)值決定,其核心思想是,基于原始訓練集訓練一個基學習器,根據(jù)基學習器的分類結(jié)果對訓練樣本分布進行調(diào)整,對基學習器分類錯誤的訓練樣本在后續(xù)訓練中賦予更大的權(quán)值,利用調(diào)整后的樣本分布訓練下一個基學習器,直至學習器數(shù)目達到某一定值后將所有基學習器進行加權(quán)結(jié)合。RF和AdaBoost的主要區(qū)別體現(xiàn)在分類器,RF的分類器是并行訓練,即分類器可以同時訓練數(shù)據(jù),得出結(jié)果后再確定權(quán)重并綜合為最終分類器;AdaBoost的分類器是先后訓練,后一輪分類器運用的數(shù)據(jù)會受到上一輪分類器的影響。本文采用這兩種集成學習分類算法對研究區(qū)域的滑坡易發(fā)性等級進行分類。
3)負樣本聚類算法
訓練樣本中只包含滑坡樣本會使算法模型高估滑坡易發(fā)度,合理選用非滑坡樣本可以有效約束滑坡高易發(fā)區(qū)的過度擴張,對滑坡易發(fā)性等級的分類結(jié)果合理性有重要影響[21–23]。常用的負樣本挑選方法包括隨機挑選法和專家經(jīng)驗法,其中:隨機挑選法缺乏理論依據(jù),往往誤差較大;專家經(jīng)驗法太過于依賴專家個人主觀經(jīng)驗,不同專家所分析的結(jié)果存在較大差異。基于同類樣本在環(huán)境因子特征空間中相對接近的原則[24–27],負樣本可以在與滑坡樣本的環(huán)境特征差別較大的單元中篩選。聚類算法不需要數(shù)據(jù)標簽及其他先驗知識,主要通過輸入樣本的相似程度進行歸類處理[28]。K-Means作為最常用的聚類算法,其核心思路是,在確定K個初始類簇中心點的初始條件下,將每個點分到距離其最近的類簇中心點代表的類簇中,根據(jù)類簇中所有點重新計算該類簇中心點(平均值),再迭代進行分配點和更新類簇中心點步驟,直至類簇中心點變化小到指定程度或迭代過程達到指定次數(shù)。基于聚類算法模型的易發(fā)性結(jié)果可以大致反映研究區(qū)內(nèi)的滑坡易發(fā)區(qū),在高易發(fā)區(qū)以外的區(qū)域隨機選取非滑坡點以保證負樣本的準確性。
4)滑坡解譯
目視解譯作為最傳統(tǒng)、最直接、最精確的松散堆積物識別方法,需要基于松散堆積物的解譯要素建立解譯標志,通過綜合分析獲取松散堆積物邊界、滑動方向及影響范圍等信息。本文根據(jù)滑坡遙感影像特征(光譜、形狀、紋理),結(jié)合DEM和實地調(diào)查數(shù)據(jù),通過目視解譯手段獲取壽溪河流域內(nèi)滑坡物源區(qū)域,直接解譯標志為:形狀呈馬蹄形、簸箕形、弧形或不規(guī)則形;紋理粗糙,起伏不平,地表有坑洼時,可能存在斑點狀影紋;色調(diào)呈灰色、灰白色,當周圍地形較穩(wěn)定時,顏色較暗,當周圍植被較為茂密時,顏色較周圍物體差異明顯,隨植被恢復(fù)則會出現(xiàn)不均勻綠色;邊界明顯可見,前部有滑舌伸入溝谷或河道。由于滑坡深度獲取困難,本文利用Simonett[29]建立的滑坡體積–面積冪律關(guān)系對小型滑坡體積進行估算,如式(2)所示:
式中,V為滑坡體積,A為滑坡面積,α、γ為系數(shù)。上述估算公式已應(yīng)用于多個滑坡研究案例[30–32]。大型滑坡的體積估算需要引入更多與滑坡體積相關(guān)的因子,如式(3)所示:
式中,V為滑坡體積,A為滑坡面積,H為高,L為長,W為寬,Lith為巖性,Slp為坡度,PGA為峰值地動加速度,Asp為坡向,α、γ1~γ7為系數(shù)。本文目視解譯最大的滑坡面積為30 413 m2,不屬于大型滑坡,因此采用式(2)估算松散堆積物體積。
不同渠道獲取的數(shù)據(jù)表達形式存在差異,即使同為柵格數(shù)據(jù),空間分辨率也因衛(wèi)星搭載的傳感器不同而不同,驅(qū)動易發(fā)性分區(qū)算法之前需要對數(shù)據(jù)進行預(yù)處理。在提取滑坡發(fā)生的核心位置時,將滑坡面數(shù)據(jù)與DEM數(shù)據(jù)疊加,以滑面內(nèi)DEM最大值所在區(qū)域為滑坡發(fā)生源區(qū)。由于地形因子、土壤因子、土地覆蓋和植被覆蓋為柵格數(shù)據(jù),汛期降水為格點數(shù)據(jù),需要建立統(tǒng)一坐標系和分辨率的柵格格式專題圖層。為保證所有柵格數(shù)據(jù)具有相同屬性,處理過程中以ALOS DEM數(shù)據(jù)為參考,對各環(huán)境因子進行屬性統(tǒng)一操作:通過坐標系轉(zhuǎn)換和數(shù)據(jù)重采樣操作將不同坐標系和空間分辨率的圖像統(tǒng)一到與參考圖像相同的地理坐標系(GCS_WGS_1984)和空間分辨率(12.5 m×12.5 m)。按照柵格數(shù)量接近原則將所有環(huán)境因子進行區(qū)間劃分,具備自然分類屬性的環(huán)境因子按照自然情況進行分級。利用GIS平臺的空間相交和屬性查詢功能,根據(jù)滑坡地理位置的矢量點要素提取環(huán)境因子數(shù)據(jù),得出不同等級環(huán)境因子的空間分布及數(shù)量,構(gòu)建易發(fā)性早期識別算法的基礎(chǔ)數(shù)據(jù)集。
由于流域內(nèi)滑坡樣本數(shù)量相對較少,將其影響因子數(shù)據(jù)集用于算法訓練時可能損失部分特征或趨勢。K–Fold交叉驗證是一種評估有限數(shù)據(jù)樣本的機器學習算法模型的重采樣方法,可以擴大樣本數(shù)量及降低過擬合概率。此處,將訓練集分為10組大小相等的互斥子集(K=10),依次輪換10次進行試驗。樣本集按0.8和0.2的比例分為訓練集和測試集,通過數(shù)據(jù)清洗去除無效值。影響因子以1維向量形式作為輸入項,輸出滑坡易發(fā)性等級。
滑坡易發(fā)性識別結(jié)果包含以下4種類型:真陽性(true postive,TP),即被預(yù)測為滑坡點的實際滑坡樣本數(shù)量;真陰性(true negative,TN),即被預(yù)測為非滑坡點的實際非滑坡樣本數(shù)量;假陽性(false positive,F(xiàn)P),即被預(yù)測為滑坡點的實際非滑坡樣本數(shù)量;假陰性(false negative,F(xiàn)N),即被預(yù)測為非滑坡點的實際滑坡樣本數(shù)量。根據(jù)易發(fā)性識別結(jié)果類型計算模型的以下指標:召回率(recall,REC),即實際滑坡樣本中被預(yù)測為滑坡點的比例;虛警率(false alarm,F(xiàn)A),即實際非滑坡樣本中被預(yù)測為滑坡點的比例;準確率(accuracy, ACC),即預(yù)測正確的樣本占總樣本的比例。計算公式分別如式(4)~(6)所示:
受試者工作特征曲線(receiver operating characteristic curve,ROC)是反映敏感性和特異性連續(xù)變量的綜合指標,ROC下方面積(area under the curve,AUC)可評價模型的泛化能力,可通過該評價指標對滑坡易發(fā)性分區(qū)結(jié)果進行評價。
研究區(qū)域影響因子各等級空間分布如圖2所示。根據(jù)已有的滑坡點位置信息計算影響因子各等級頻率比并替換影響因子初始值,影響因子最大頻率比見表2。
圖2 研究區(qū)域影響因子空間分布Fig.2 Spatial distribution of influence factors in research area
表2 影響因子最大頻率比Tab.2 Max frequency ratios of influence factors
將研究區(qū)域影響因子頻率比空間分布進行疊加,并以1維向量形式作為K-means聚類算法輸入項,通過10折交叉驗證進行訓練,輸出基于影響因子頻率比的滑坡易發(fā)性聚類結(jié)果,如圖3所示。將易發(fā)性聚類結(jié)果分為5個等級:低易發(fā)區(qū)[1,2]、較低易發(fā)區(qū)[3,4]、中易發(fā)區(qū)[5,6]、較高易發(fā)區(qū)[7,8]、高易發(fā)區(qū)[9,10]。其中,高易發(fā)區(qū)的覆蓋率為6.7%,較高易發(fā)區(qū)的覆蓋率為8.2%,較高和高易發(fā)區(qū)的滑坡點比例為61.7%。
圖3 基于K-Means聚類算法的壽溪河流域滑坡易發(fā)性分布Fig.3 Distribution of landslides susceptibility in Shouxi river basin based on K-Means clustering algorithm
從低易發(fā)區(qū)中隨機挑選與滑坡樣本等量的非滑坡樣本,將滑坡點(正樣本)和非滑坡點(負樣本)影響因子頻率比數(shù)據(jù)集作為RF分類算法和AdaBoost分類算法的輸入項,通過交叉驗證進行訓練,輸出兩類集成學習分類算法的滑坡易發(fā)性等級,如圖4所示。
圖4 基于融合算法的壽溪河流域滑坡易發(fā)性分布Fig.4 Distribution of landslides susceptibility in Shouxi river basin based on fusion algorithm
融合算法(K-Means–RF、K-Means–AdaBoost)輸出的高易發(fā)區(qū)覆蓋率相對于單體聚類算法分別提高9.3%、12.1%。在對測試樣本集的分類效果評估中,將分類結(jié)果為較高易發(fā)性或高易發(fā)性的樣本表示為滑坡點,其余分類結(jié)果表示為非滑坡點。兩類融合算法的評估結(jié)果見表3。
表3 融合算法評估結(jié)果Tab.3 Fusion algorithm evaluation results
由表3可知:K-Means–RF融合算法的易發(fā)性等級分類結(jié)果中,24例滑坡樣本被預(yù)測為滑坡點(TP),9例滑坡樣本被預(yù)測為非滑坡點(FN),25例非滑坡樣本被預(yù)測為非滑坡點(TN),8例非滑坡樣本被預(yù)測為滑坡點(FP);分類正確的滑坡樣本占實際滑坡樣本測試集的72.7%(REC為0.727),分類正確的非滑坡樣本占實際非滑坡樣本測試集的75.8%(FA為0.242),分類準確率為0.742。K-Means–AdaBoost融合算法的易發(fā)性等級分類結(jié)果中,26例滑坡樣本被預(yù)測為滑坡點(TP),7例滑坡樣本被預(yù)測為非滑坡點(FN),24例非滑坡樣本被預(yù)測為非滑坡點(TN),9例非滑坡樣本被預(yù)測為滑坡點(FP);分類正確的滑坡樣本占實際滑坡樣本測試集的78.8%(REC為0.788),分類正確的非滑坡樣本占實際非滑坡樣本測試集的72.7%(FA為0.273),分類準確率為0.758。KMeans–AdaBoost融合算法的準確率略高于KMeans–RF融合算法,K-Means–AdaBoost對于滑坡點的預(yù)測效果更優(yōu),F(xiàn)N的數(shù)量比K-Means–RF融合算法少2例;K-Means–RF算法對于非滑坡點的預(yù)測效果更優(yōu),F(xiàn)P的數(shù)量比K-Means–AdaBoost融合算法少1例。兩類融合算法的泛化能力較為接近,KMeans–AdaBoost、K-Means–RF算法AUC分別為0.893、0.879。
將物源因子作為滑坡易發(fā)性分區(qū)影響因子,在保留原有影響因子的基礎(chǔ)上,增加物源頻率比作為融合算法的輸入項。
根據(jù)目視解譯標志,結(jié)合現(xiàn)場調(diào)查結(jié)果,得到松散堆積物源144處,面積總和為1 344 060 m2,平均面積為9 333.75 m2,最大面積約為30 413 m2;面積大于20 000 m2的松散堆積物數(shù)量和面積總和分別為19個、625 316 m2,面積小于5 000 m2的松散堆積物數(shù)量和面積總和分別為47個、136 488 m2??傮w來看,面積較大(>20 000 m2)的松散堆積物數(shù)量和面積總和分別占總數(shù)和總面積的13.19%、46.52%;面積較?。ǎ?0 000 m2)的松散堆積物數(shù)量和面積總和分別占總數(shù)和總面積的65.28%、35.13%;研究區(qū)多以分散型小面積滑坡物源區(qū)為主。由于土層暴露,滑坡體色調(diào)較淺且不均勻,與周圍地物有較明顯分界線;滑坡體顏色較周圍植被更呈亮黃色或亮白色,稀疏灌木或草地使滑坡體呈現(xiàn)出零星的淡綠色;滑坡體邊緣與植被和路段分隔清晰,典型滑坡體的現(xiàn)場調(diào)查情況及其解譯標志如圖5所示。
圖5 典型滑坡現(xiàn)場調(diào)查及遙感影像Fig.5 Typical landslide site survey and remote sensing image
根據(jù)式(2)估算各處松散堆積物體積,由于缺少滑坡體的現(xiàn)場測量條件,選用其他研究在汶川地區(qū)實測得到的面積和體積數(shù)據(jù)建立冪律關(guān)系[10,31,33–35],得出體積和面積相關(guān)性方程為:
對松散堆積物體積進行均勻間隔采樣后的空間分布如圖6所示,最大體積為9 245.28 m3。根據(jù)中國地質(zhì)調(diào)查局公布的《滑坡防治工程勘察規(guī)范》(GB/T 32864—2016)中關(guān)于滑坡體積的分類標準可知,研究區(qū)滑坡類別均屬于小型滑坡。
圖6 松散堆積物體積Fig.6 Volume of loose deposita
考慮物源因子后的兩類融合算法輸出的滑坡易發(fā)性分區(qū)如圖7所示。由圖7可知:K-Means–RF、KMeans–AdaBoost融合算法輸出的高易發(fā)區(qū)覆蓋率相對于未考慮物源因子時分別提高14.2%、17.7%。考慮物源因子后對測試樣本集的分類效果評估結(jié)果見表4。K-Means–RF融合算法的易發(fā)性等級分類結(jié)果中:28例滑坡樣本被預(yù)測為滑坡點(TP),5例滑坡樣本被預(yù)測為非滑坡點(FN),分類正確的滑坡樣本占實際滑坡樣本測試集的84.8%,REC為0.848;25例非滑坡樣本被預(yù)測為非滑坡點(TN),6例非滑坡樣本被預(yù)測為滑坡點(FP),分類正確的非滑坡樣本占實際非滑坡樣本測試集的75.8%,F(xiàn)A為0.242,分類準確率為0.803。K-Means–AdaBoost融合算法的易發(fā)性等級分類結(jié)果中:30例滑坡樣本被預(yù)測為滑坡點(TP),3例滑坡樣本被預(yù)測為非滑坡點(FN),分類正確的滑坡樣本占實際滑坡樣本測試集的90.9%,REC為0.909;24例非滑坡樣本被預(yù)測為非滑坡點(TN),9例非滑坡樣本被預(yù)測為滑坡點(FP),分類正確的非滑坡樣本占非滑坡樣本測試集的72.7%,F(xiàn)A為0.273,分類準確率為0.818??紤]物源條件的兩類融合算法的FN數(shù)量都減少4例,對于滑坡點的預(yù)測效果相較于未考慮物源條件時更優(yōu),準確率有一定提升。
圖7 考慮物源因子的融合算法的壽溪河流域滑坡易發(fā)性分布Fig.7 Distribution of landslides in Shouxi river basin based on fusion algorithm considering slump masssources factor
表4 考慮物源因子的融合算法評估結(jié)果Tab.4 Fusion algorithm evaluation results considering loose deposita factor
滑坡易發(fā)區(qū)早期識別是山洪水沙災(zāi)害易發(fā)性識別的基礎(chǔ),本文從分區(qū)算法和影響因子兩個方面對山區(qū)中小流域滑坡易發(fā)性識別方法進行了優(yōu)化試驗。得出以下結(jié)論:
1)基于聚類–分類融合算法的山區(qū)中小流域滑坡易發(fā)性分區(qū)結(jié)果的高易發(fā)區(qū)覆蓋率相較于單體聚類算法明顯提高,K-Means–RF、K-Means–Ada-Boost融合算法的易發(fā)性分區(qū)中的高易發(fā)區(qū)覆蓋率分別提高9.3%和12.1%。
2)兩類融合算法的易發(fā)性分區(qū)準確率和泛化能力比較接近,K-Means–AdaBoost融合算法對于滑坡點的預(yù)測效果更優(yōu),K-Means–RF算法對于非滑坡點的預(yù)測效果更優(yōu)。
3)考慮物源因子后的K-Means–RF、K-Means–AdaBoost融合算法輸出的高易發(fā)區(qū)覆蓋率相對于未考慮物源因子時分別提高14.2%、17.7%,兩類融合算法REC提高12.1%。
從實際業(yè)務(wù)出發(fā),滑坡的早期識別對于漏警的容錯率遠小于虛警,基于集成學習的分類算法模型在訓練過程中確保高(低)召回率(漏報率)是前提,即著重于對滑坡樣本的濾取,這會在一定程度上造成部分非滑坡樣本被預(yù)測為滑坡樣本。綜合上述原因,K-Means–AdaBoost算法的實際業(yè)務(wù)應(yīng)用潛力高于K-Means–RF算法。