• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      滑坡危險(xiǎn)性區(qū)劃中基于一類分類模型的樣本篩選

      2016-06-01 12:19:21濤,田原,劉
      地理與地理信息科學(xué) 2016年3期
      關(guān)鍵詞:區(qū)劃危險(xiǎn)性滑坡

      熊 浪 濤,田 原,劉 鵬

      (北京大學(xué)遙感與地理信息系統(tǒng)研究所,北京 100871)

      滑坡危險(xiǎn)性區(qū)劃中基于一類分類模型的樣本篩選

      熊 浪 濤,田 原*,劉 鵬

      (北京大學(xué)遙感與地理信息系統(tǒng)研究所,北京 100871)

      歷史滑坡樣本的準(zhǔn)確性對(duì)基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的滑坡危險(xiǎn)性區(qū)劃建模工作有著決定性的影響。針對(duì)滑坡樣本中普遍存在的可靠性問題,該文探索利用一類分類模型的異常探測(cè)能力,將其應(yīng)用于歷史滑坡樣本篩選和甄別,以期篩除滑坡樣本中可靠性較低的點(diǎn),提升滑坡危險(xiǎn)性區(qū)劃的建模效果。以深圳市為實(shí)例研究區(qū),對(duì)該方法的可行性和應(yīng)用效果進(jìn)行了驗(yàn)證。實(shí)例研究中采用支持向量數(shù)據(jù)描述方法(SVDD)進(jìn)行樣本篩選,利用GAM進(jìn)行滑坡危險(xiǎn)性區(qū)劃建模,并對(duì)樣本篩選前后的建模效果和模型應(yīng)用效果進(jìn)行了對(duì)比分析。使用SVDD模型進(jìn)行樣本篩選時(shí),篩除比例設(shè)置為0~30%,以5%為步長(zhǎng)遞增,共得到7個(gè)篩選樣本集,之后基于7個(gè)樣本集分別進(jìn)行了GAM建模。建模效果對(duì)比分析表明,當(dāng)篩除比例為20%時(shí),模型建模效果最佳,顯著優(yōu)于原始樣本集所對(duì)應(yīng)模型。實(shí)例研究說明,一類分類模型的異常探測(cè)能力適用于歷史滑坡數(shù)據(jù)的篩選甄別工作,并能夠顯著提升建模效果,模型輸出的滑坡危險(xiǎn)性區(qū)劃與歷史滑坡分布也更為一致,可為滑坡災(zāi)害管理工作提供更為可靠的參考。

      一類分類模型;樣本篩選;滑坡危險(xiǎn)性區(qū)劃;SVDD;GAM

      0 引言

      滑坡是世界上廣泛分布的自然災(zāi)害,頻繁發(fā)生的滑坡地質(zhì)災(zāi)害,造成了大量的人員傷亡和巨額的財(cái)產(chǎn)損失[1]。統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法作為滑坡危險(xiǎn)性區(qū)劃的重要方法[2],通過對(duì)各種自然、社會(huì)因子以及滑坡災(zāi)害歷史記錄進(jìn)行分析來確定區(qū)域中各個(gè)位置滑坡災(zāi)害的易發(fā)性,被廣泛應(yīng)用于大范圍的區(qū)域滑坡危險(xiǎn)性評(píng)價(jià)研究[3]。目前,滑坡危險(xiǎn)性區(qū)劃工作中常用的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法包括廣義加法模型(Generalized Additive Model,GAM)、支持向量機(jī)(Support Vector Machine,SVM)、邏輯回歸(Logistic Regression)以及分類回歸樹(Classification And Regression Tree,CART)等[4,5]。

      在統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法建模過程中,可靠的樣本是建立有效模型的基礎(chǔ)[6]。但是,歷史滑坡數(shù)據(jù)常常是通過遙感圖像解譯、田野工作及歷史調(diào)查報(bào)告等渠道獲得,數(shù)據(jù)質(zhì)量受到判讀精度、現(xiàn)場(chǎng)勘查時(shí)限等因素影響,部分滑坡樣本數(shù)據(jù)可靠性難以得到保證[7,8]。甄別和篩選出存在于歷史滑坡數(shù)據(jù)中的可信度較低的異常點(diǎn),無疑會(huì)有效提高滑坡危險(xiǎn)性區(qū)劃的準(zhǔn)確性。但是,僅通過對(duì)滑坡點(diǎn)的采集時(shí)間或地理分布等信息進(jìn)行分析,很難有效識(shí)別出歷史滑坡樣本中可靠性較低的點(diǎn)[2]。因而,探索使用統(tǒng)計(jì)學(xué)習(xí)方法對(duì)滑坡樣本中的異常點(diǎn)進(jìn)行篩選,有著重要的研究和實(shí)踐價(jià)值。

      在統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法中,一類分類模型具有強(qiáng)大的異常點(diǎn)探測(cè)能力[9],在異常樣本甄別中應(yīng)用效果顯著,能有效識(shí)別訓(xùn)練樣本中的離群點(diǎn)[10]。一類模型的這個(gè)特性,顯然也可以適用于歷史滑坡這類多維數(shù)據(jù)的篩選甄別。Moya在1993年首次提出一類分類模型的概念[9],也被稱作真實(shí)性探測(cè)(novelty detection)[11]和離群點(diǎn)探測(cè)(outlier detection)[12]。一類分類模型通過對(duì)目標(biāo)樣本進(jìn)行建模,設(shè)定異常閾值來判定一個(gè)樣本與正常值的偏離程度,并得到樣本點(diǎn)屬于異常值的可能性大小[9]。目前,一類分類異常值檢測(cè)問題已有諸多解決方法,包括基于概率的方法、基于信息論的方法、基于重構(gòu)的方法、基于距離的方法和基于數(shù)據(jù)域描述的方法等,這些一類分類方法已在欺詐探測(cè)、傳感網(wǎng)絡(luò)以及故障診斷等領(lǐng)域得到廣泛應(yīng)用[13]。

      在上述研究背景下,本文提出利用一類分類方法的異常探測(cè)能力,對(duì)滑坡樣本進(jìn)行篩選甄別,以期提高歷史滑坡樣本的可靠性,提升滑坡危險(xiǎn)性區(qū)劃的建模效果。以深圳市為實(shí)例研究區(qū),對(duì)樣本篩選前后的滑坡危險(xiǎn)性區(qū)劃建模效果及模型在研究區(qū)的應(yīng)用效果進(jìn)行對(duì)比分析,驗(yàn)證了一類分類模型在歷史滑坡樣本篩選甄別中的可行性和適用性。

      1 研究方法

      1.1 技術(shù)方法

      如前所述,歷史滑坡樣本中普遍存在的可靠性問題會(huì)嚴(yán)重影響滑坡危險(xiǎn)性區(qū)劃建模效果,針對(duì)這一問題,本文利用一類模型的異常探測(cè)能力,用一類分類模型對(duì)歷史滑坡樣本進(jìn)行訓(xùn)練,從而篩除其中可信度較低的部分樣本,之后采用篩選出的樣本集進(jìn)行滑坡危險(xiǎn)性區(qū)劃建模。由于此時(shí)可信度較低的樣本已被篩除,滑坡危險(xiǎn)性區(qū)劃建模的效果應(yīng)當(dāng)?shù)玫教嵘?。該方法的主要步驟如圖1所示。

      圖1 技術(shù)方法Fig.1 Technical method

      在使用一類分類模型對(duì)歷史滑坡樣本集進(jìn)行篩選的過程中,不同的一類分類模型有著不同的應(yīng)用方法。如前所述,一類分類主要有基于概率、重構(gòu)、信息論、距離和數(shù)據(jù)域描述這五大類方法,均可應(yīng)用于異常值篩選?;诟怕省⒅貥?gòu)和信息論的方法輸出樣本隸屬全體數(shù)據(jù)集的概率值,該概率值越低,樣本隸屬歷史滑坡數(shù)據(jù)集的可能性越小,可以據(jù)此直接確定出可靠性低的樣本;基于距離和數(shù)據(jù)域描述的方法則給出了樣本距模型中心點(diǎn)的距離,一般樣本距離模型中心的距離越大,其可靠性越低,可以根據(jù)這個(gè)距離值確定可靠性低的樣本。

      基于既有研究對(duì)上述五大類一類分類模型應(yīng)用特征的分析[13],結(jié)合滑坡危險(xiǎn)性區(qū)劃工作中樣本數(shù)據(jù)量較小、間接因子較多的具體特點(diǎn),筆者對(duì)各類一類分類模型在歷史滑坡數(shù)據(jù)篩選中的適用性進(jìn)行了分析:基于概率的方法對(duì)歷史滑坡這類缺少先驗(yàn)知識(shí)且樣本量較小的數(shù)據(jù)集建模效果常常不佳;基于重構(gòu)的方法通常需要預(yù)設(shè)一些無法確定但非常敏感的初始變量,其應(yīng)用效果缺少穩(wěn)定性;基于信息論的方法受到滑坡樣本中信息度量方法的直接影響,主觀性較強(qiáng);基于距離的方法需要精確設(shè)定特征空間中滑坡樣本間的距離函數(shù),但由于間接因子較多,此距離函數(shù)常常難以準(zhǔn)確設(shè)定,模型應(yīng)用效果也難以得到保證;基于數(shù)據(jù)域描述的方法無須關(guān)于數(shù)據(jù)集的先驗(yàn)知識(shí),對(duì)數(shù)據(jù)集的樣本量依賴性也很小,明顯更加適用于歷史滑坡樣本篩選工作。根據(jù)上述分析,研究中擬選取基于數(shù)據(jù)描述的方法開展歷史滑坡樣本篩選工作。

      1.2 模型及評(píng)價(jià)指標(biāo)

      1.2.1 SVDD模型 研究中采用基于數(shù)據(jù)描述的SVDD模型對(duì)歷史滑坡樣本進(jìn)行篩除。該方法由于建模過程無須了解數(shù)據(jù)集的分布特征,且通過采用核函數(shù),可以方便地在高維特征空間中進(jìn)行求解,成為異常探測(cè)應(yīng)用最為廣泛的模型之一[13]。SVDD方法基本原理是獲得一個(gè)包圍數(shù)據(jù)集的邊界以包含所有的樣本,通常此邊界是一個(gè)超球面,為了降低接受離群點(diǎn)的機(jī)會(huì),此超球面需要最小化[10]。

      此模型中,圍繞數(shù)據(jù)集并包括全部樣本的超球面的特征參數(shù),包括球心a和半徑R。引入松弛變量ξi,ξi≥0,?i。于是需要最小化的誤差為:

      (1)

      參數(shù)C確定了數(shù)據(jù)描述的體積和分類錯(cuò)誤間的平衡。為使大部分樣本落入球面中,應(yīng)當(dāng)限定:

      ‖xi-a‖2≤R2+ξi,?i

      (2)

      引入拉格朗日乘數(shù),將限定條件與ε(R,a,ξ)的定義結(jié)合,推導(dǎo)出如下公式:

      (3)

      求解此二次規(guī)劃問題,就可以求得優(yōu)化的拉格朗日乘數(shù)α,并可以得到球心a及半徑R。確定了球心a后,就可以測(cè)試一個(gè)新樣本z是否屬于數(shù)據(jù)描述范圍。圖2是一個(gè)SVDD的基本示意[10],其中超球面由球心a和半徑R確定,位于球面上的樣本就是支持向量。

      圖2 SVDD基本原理Fig.2 Principle of SVDD

      1.2.2 廣義加法模型 本文采用廣義加法模型(GAM)進(jìn)行滑坡危險(xiǎn)性區(qū)劃建模。在常用的基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的滑坡危險(xiǎn)性區(qū)劃建模方法中,GAM被譽(yù)為模式識(shí)別模型30年來最重要的成果[14],在研究區(qū)深圳是應(yīng)用效果最好的模型之一[5]。廣義加法模型的基本表達(dá)式為:

      (4)

      其中:fj(xj)是非參數(shù)光滑函數(shù),它可以是光滑樣條函數(shù)、核函數(shù)或者局部回歸光滑函數(shù)。

      此模型的預(yù)測(cè)結(jié)果不是來自于預(yù)先設(shè)定好的模型,而是采用非參數(shù)的方法進(jìn)行擬合,可以探索到變量間的非單調(diào)、非線性關(guān)系,并找出數(shù)據(jù)中的規(guī)律,從而得到更好的預(yù)測(cè)結(jié)果[15]。

      1.3 模型評(píng)價(jià)方法

      采用接收靈敏度曲線(ROC,ReceiverOperatingCharacteristic)以及曲線下面積(AreaUnderCurve,AUC)[16]評(píng)價(jià)滑坡危險(xiǎn)性區(qū)劃建模效果。其中AUC值在0~1之間,AUC值越接近1,建模效果越理想;當(dāng)AUC值小于或等于0.5時(shí),可以認(rèn)為模型不具備分類能力。

      同時(shí),本文采用K折(K-fold)交叉檢驗(yàn)法評(píng)價(jià)模型的泛化能力[6],其基本思路是將訓(xùn)練樣本集隨機(jī)分成K個(gè)不相交的子集,每次訓(xùn)練中選取K-1個(gè)子集訓(xùn)練模型,剩下的1個(gè)子集用于檢驗(yàn)?zāi)P托Ч还策M(jìn)行K次訓(xùn)練和檢驗(yàn)。以往研究表明,K值取10是一種比較好的方案[17]。

      2 研究區(qū)與數(shù)據(jù)概況

      研究區(qū)位于深圳市西部,22°32′51″~22°44′19″N、114°05′17″~113°54′54″E(圖3)。研究區(qū)處于東亞季風(fēng)帶,氣候總體上受季風(fēng)環(huán)流控制,降水量豐沛、季節(jié)分配不均且降水強(qiáng)度大,滑坡災(zāi)害頻發(fā),造成了巨大的生命和財(cái)產(chǎn)損失[2]。

      在本文研究中,主要使用了兩大類數(shù)據(jù),即基礎(chǔ)數(shù)據(jù)與歷史滑坡數(shù)據(jù)?;A(chǔ)數(shù)據(jù)包括1∶10 000數(shù)字化地形圖,1∶50 000的數(shù)字化地質(zhì)圖,SPOT5遙感影像及數(shù)字高程模型(DEM)。歷史滑坡數(shù)據(jù)主要來自于深圳市國(guó)土局的地質(zhì)災(zāi)害調(diào)查資料以及巡查報(bào)告,研究區(qū)共有278個(gè)歷史滑坡數(shù)據(jù),內(nèi)容包括滑坡編號(hào)、點(diǎn)位、描述性信息和發(fā)生時(shí)間等。

      3 結(jié)果與分析

      3.1 因子選取

      研究區(qū)中與滑坡災(zāi)害發(fā)生密切相關(guān)的因子大致包括地形地貌、地質(zhì)、水文、人類活動(dòng)和植被等[18]。本研究選取了8個(gè)因子進(jìn)行建模分析,用以表征上述要素。這些因子均在ArcGIS軟件中計(jì)算得到,其分辨率均為10 m,具體信息見表1。

      圖3 研究區(qū)域及滑坡災(zāi)害點(diǎn)分布Fig.3 Study area and landslides

      表1 滑坡危險(xiǎn)性區(qū)劃因子Table 1 Factors for landslide susceptibility mapping

      為避免各個(gè)因子間存在完全或者近似完全的線性關(guān)系,本研究使用多重共線性診斷對(duì)參與模型訓(xùn)練的樣本的各個(gè)因子進(jìn)行了分析。本文中采用常見的方差膨脹因子VIF和容限Tolerance指標(biāo)對(duì)各因子的多元共線性做出診斷[19]。VIF的定義為:

      VIF=1/(1-R2)

      (5)

      其中:Ri為自變量xi對(duì)其余自變量作回歸分析的復(fù)相關(guān)系數(shù)。Tolerance是VIF的倒數(shù)。一般認(rèn)為, VIF>10 時(shí)自變量間存在多重共線性。本研究中計(jì)算得到的各因子Tolerance和VIF值見表2,從中可以看出,各因子的VIF均小于10,表明所選因子之間沒有明顯相關(guān)性。

      表2 多重共線性診斷Table 2 Multicollinearity diagnostics

      3.2 樣本篩選結(jié)果與評(píng)價(jià)

      既有研究表明,在使用SVDD進(jìn)行異常點(diǎn)判別研究中,異常噪聲樣本比例設(shè)置在0~30%之間可以取得良好的應(yīng)用效果[10]。相應(yīng)地,本實(shí)例研究中指定的篩除比例也設(shè)置為0~30%,并以5%為步長(zhǎng)逐次遞增,以期對(duì)不同篩除比例對(duì)應(yīng)的建模效果進(jìn)行對(duì)比分析。模型的訓(xùn)練以及評(píng)價(jià)在R軟件和ArcGIS中完成。

      筆者首先使用全體原始樣本進(jìn)行了GAM建模,將其作為對(duì)比分析樣本篩選效果的基礎(chǔ),該模型AUC值為0.821。之后利用SVDD模型對(duì)原始滑坡樣本進(jìn)行一類模型建模并進(jìn)行異常樣本篩除。根據(jù)SVDD的定義,樣本對(duì)應(yīng)的輸出值即判別值越大,其作為異常值的概率也就越高。依據(jù)這一特性,將原始樣本按照SVDD模型給出的判別值由大到小進(jìn)行排序,以5%為步長(zhǎng),第一次篩除原始樣本中判別值最大的前5%樣本,得到篩除5%異常值后的滑坡樣本集;第二次篩除原始樣本中判別值最大的前10%樣本,得到篩除10%異常值后的滑坡樣本;重復(fù)上述步驟,即可依次得到篩除15%、20%、25%及30%異常樣本后的數(shù)據(jù)集。最終,共得到對(duì)應(yīng)5%~30%篩除比例的6個(gè)歷史滑坡數(shù)據(jù)集。對(duì)這6個(gè)樣本集分別進(jìn)行了GAM建模訓(xùn)練,各模型10折交叉驗(yàn)證AUC值如表3所示。

      表3 各篩除比例樣本建模評(píng)價(jià)指標(biāo)Table 3 Modeling evaluation indices

      從表3可知,原始樣本篩除5%~30%異常值后,GAM建模的AUC值較原始樣本集建模均有不同程度提升。為判斷滑坡樣本篩選前后建模效果是否有顯著差異,本文采用t檢驗(yàn)對(duì)樣本篩選前后的模型AUC值進(jìn)行檢驗(yàn)。檢驗(yàn)的零假設(shè)為兩者AUC均值相同,若零假設(shè)被拒絕,則說明兩者間有顯著差異。檢驗(yàn)中選取5%作為顯著性水平,計(jì)算得到置信值(表3)。由計(jì)算結(jié)果知,樣本篩除比例為20%~30%時(shí),所建模型AUC值與原始樣本集對(duì)應(yīng)模型的AUC值差異達(dá)到顯著性水平,即建模效果有顯著變化。上述分析表明,利用一類分類模型篩除異常樣本,能夠有效提升危險(xiǎn)性區(qū)劃的建模效果。

      從表3可知,篩除樣本比例為20%時(shí),所建模型AUC值達(dá)到最大,與原始樣本建模AUC值差異比較的置信值也最大,說明在本實(shí)例研究中,篩除20%樣本時(shí)建模效果的提升最為顯著,因此,本文將20%定為最終的樣本篩除比例。原始樣本集所建模型(以下簡(jiǎn)稱“原始模型”)及篩除20%樣本后所建模型(以下簡(jiǎn)稱“篩選模型”)的ROC曲線如圖4所示,圖中的虛線表示10折交叉檢驗(yàn)的結(jié)果,箱線圖中虛線的上下邊緣表示檢驗(yàn)結(jié)果的變化范圍,空心圓表示交叉檢驗(yàn)中的溫和異常值[20]。從圖4中可以看出,篩除20%樣本后,溫和異常值較原始模型并無明顯變化,但箱線圖上下邊緣間距普遍減小,說明篩選模型在10折交叉檢驗(yàn)中波動(dòng)較小,建模效果更加穩(wěn)定。

      圖4 模型ROC圖Fig.4 ROCs of the two models

      筆者進(jìn)一步對(duì)被篩除的20%滑坡樣本進(jìn)行了分析,其地理分布如圖5所示,相對(duì)原始樣本集地理分布(圖3)并無明顯的空間分布差異,再次驗(yàn)證了文獻(xiàn)[2]給出的相關(guān)結(jié)論,即僅通過對(duì)滑坡點(diǎn)的采集時(shí)間或地理分布等信息進(jìn)行分析,很難有效識(shí)別出歷史滑坡樣本中可靠性較低的點(diǎn)。

      圖5 被篩除的滑坡災(zāi)害點(diǎn)分布Fig.5 Removed landslides

      被篩除的20%滑坡樣本的類別分布相對(duì)于原始樣本集則存在明顯的區(qū)別,如圖6所示,被篩除樣本中土質(zhì)滑坡的比例明顯高于原始滑坡樣本,擋土墻、巖質(zhì)坡和巖土混合坡等類型的比例均低于原始樣本集。前人研究表明,深圳市滑坡災(zāi)害主要以城市滑坡為主,主要發(fā)生在人工邊坡附近,人類工程活動(dòng)引起的擋土墻類滑坡為主要的滑坡類型,土質(zhì)類滑坡占滑坡地質(zhì)災(zāi)害的比例較小且常常發(fā)生在距離居住區(qū)較遠(yuǎn)的地區(qū),其觸發(fā)規(guī)律較擋土墻也存在顯著不同[2]。將部分土質(zhì)邊坡篩除,可以使滑坡樣本集更為集中地反映出人工邊坡的影響,從而提升危險(xiǎn)性區(qū)劃模型對(duì)主要災(zāi)害類別的擬合程度和預(yù)測(cè)能力。

      圖6 篩除樣本類型分布Fig.6 Type distribution of removed landslides

      3.3 應(yīng)用效果

      在上述建模效果對(duì)比分析的基礎(chǔ)上,筆者進(jìn)一步對(duì)模型的應(yīng)用效果進(jìn)行了對(duì)比分析,用以驗(yàn)證本文所提出的技術(shù)方法的適用性和實(shí)用性。將原始模型和篩選模型分別應(yīng)用到整體研究區(qū),輸出了對(duì)應(yīng)的危險(xiǎn)性區(qū)劃成果(圖7,見封2)。圖7表明,樣本篩選前后,歷史滑坡點(diǎn)均分布在區(qū)劃結(jié)果中危險(xiǎn)性較高的區(qū)域,說明篩選前后的滑坡危險(xiǎn)性區(qū)劃結(jié)果總體上較為合理。但相比于原始模型,篩選模型在保證危險(xiǎn)區(qū)基本涵蓋所有歷史滑坡點(diǎn)的同時(shí),輸出的危險(xiǎn)區(qū)面積明顯變小,其中在山頂和地勢(shì)低平地區(qū)變化最為顯著。

      為便于具體說明,對(duì)區(qū)劃結(jié)果變化較為顯著的區(qū)域進(jìn)行標(biāo)記。如圖7所示,原始模型中將A、B、C 3個(gè)山頂區(qū)域預(yù)測(cè)為不同程度的危險(xiǎn)區(qū),而篩選模型給出的區(qū)劃中,則將這3個(gè)區(qū)域劃為安全區(qū)。從圖7可知,這些山頂區(qū)域?qū)嶋H沒有歷史滑坡災(zāi)害點(diǎn),這是由于本研究區(qū)坡頂區(qū)域一般由風(fēng)化的巖石組成,抗剪強(qiáng)度較大,不易發(fā)生滑坡[21],因而將這3個(gè)區(qū)域劃定為安全區(qū)更為合理。同時(shí),在部分地勢(shì)較低且歷史滑坡分布較少的區(qū)域,如區(qū)域D,原始模型和篩選模型的區(qū)劃結(jié)果也有顯著區(qū)別。在原始模型中,D區(qū)域被大面積地劃為危險(xiǎn)區(qū),而實(shí)際上這一區(qū)域歷史滑坡樣本非常稀少,這是由于這一地區(qū)主要由河灘構(gòu)成,地勢(shì)平坦,發(fā)生滑坡的可能性較低;在篩選模型中, D區(qū)域則主體上被劃為安全區(qū),明顯更加符合歷史滑坡樣本的分布規(guī)律。

      綜上,篩選模型所輸出的滑坡危險(xiǎn)性區(qū)劃結(jié)果中,在確保危險(xiǎn)區(qū)基本覆蓋歷史滑坡樣本的同時(shí),危險(xiǎn)區(qū)范圍明顯變小,大部分歷史滑坡分布較少的區(qū)域均被劃為安全區(qū),這表明篩選模型輸出的危險(xiǎn)性區(qū)劃與歷史滑坡的分布更為一致,具有更好的合理性。同時(shí),在滑坡風(fēng)險(xiǎn)管理工作實(shí)踐中,劃定更少危險(xiǎn)區(qū)的區(qū)劃成果可以使管理工作更加集中,具有更好的實(shí)踐指導(dǎo)價(jià)值。

      4 結(jié)語

      本文針對(duì)滑坡危險(xiǎn)性區(qū)劃中普遍存在的樣本可靠性問題,提出利用一類分類模型對(duì)歷史滑坡樣本進(jìn)行篩選,以期利用一類分類模型的異常探測(cè)能力,篩除歷史滑坡樣本中可靠性較低的點(diǎn),最終提升滑坡危險(xiǎn)性區(qū)劃建模的效果。以深圳市為實(shí)例研究區(qū),對(duì)該方法的可行性、適用性和具體應(yīng)用效果進(jìn)行了實(shí)例驗(yàn)證,結(jié)果表明,一類分類模型適用于歷史滑坡樣本篩選工作,利用篩選后的樣本集所建立的危險(xiǎn)性區(qū)劃模型,建模效果相對(duì)原始樣本集所建模型有顯著提升,所輸出的危險(xiǎn)性區(qū)劃成果也更加合理和實(shí)用。

      [1] JIA G Y,TIAN Y,LIU Y,et al.A static and dynamic factors-coupled forecasting model of regional rainfall-induced landslides:A case study of Shenzhen[J].Science in China Series E:Technological Sciences,2008,51(2):164-175.

      [2] 田原.基于多因子統(tǒng)計(jì)模型的滑坡危險(xiǎn)性區(qū)劃方法研究[D].北京:北京大學(xué),2011.32-34.

      [3] DAI F C,LEE C F,NGAI Y Y,et al.Landslide risk assessment and management:An overview[J].Engineering Geology,2002,64(1):65-87.

      [4] 戴福初,姚鑫,譚國(guó)煥.滑坡災(zāi)害空間預(yù)測(cè)支持向量機(jī)模型及其應(yīng)用[J].地學(xué)前緣,2007,14(6):153-159.

      [5] 司康平,田原,汪大明,等.滑坡災(zāi)害危險(xiǎn)性評(píng)價(jià)的3種統(tǒng)計(jì)方法比較:以深圳市為例[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,45(4):639-646.

      [6] HASTIE T,TIBSHIRANI R,FRIEDMAN J,et al.The elements of statistical learning:Data mining,inference,and prediction[J].The Mathematical Intelligencer,2005,27(2):83-85.

      [7] ERENER A,D ZG N HS.A regional scale quantitative risk assessment for landslides:Aase of Kumluca watershed in Bartin,Turkey[J].Landslides,2013,10(1):55-73.

      [8] BLAHUT J,PORETTI I,AMICIS M,et al.Database of geo-hydrological disasters for civil protection purposes[J].Natural Hazards,2012,60(3):1065-1083.

      [9] MOYA M M,KOCH M W,HOSTETLER L D.One-Class Classifier Networks for Target Recognition Applications[R].Sandia National Labs.,Albuquerque,NM (United States),1993.

      [10] TAX D.One Class Classification[D].Delft University of Technology,2001.143-147.

      [11] BISHOP C M.Novelty detection and neural network validation[A].Vision,Image and Signal Processing[C].1994,141(4):217-222.

      [12] RITTER G,GALLEGOS M.Outliers in statistical pattern recognition and an application to automatic chromosome classification[J].Pattern Recognition Letters,1997,18(6):525-539.

      [13] PIMENTEL M A,CLIFTON D A,CLIFTON L,et al.A review of novelty detection[J].Signal Processing.2014,99:215-249.

      [14] GUISAN A,EDWARDS T C,HASTIE T.Generalized linear and generalized additive models in studies of species distributions:Setting the scene[J].Ecological Modelling,2002,157(2):89-100.

      [15] 曹銘昌,周廣勝,翁恩生.廣義模型及分類回歸樹在物種分布模擬中的應(yīng)用與比較[J].生態(tài)學(xué)報(bào),2005,25(8):2031-2040.

      [16] FAWCETT T.An introduction to ROC analysis[J].Pattern Recognition Letters,2006,27(8):861-874.

      [17] HAN J,KAMBER M,PEI J.Data Mining:Concepts and Techniques[M].NY:Elsevier,2011.223-225.

      [18] 趙艷南,牛瑞卿.基于證據(jù)權(quán)法的滑坡危險(xiǎn)性區(qū)劃探索[J].地理與地理信息科學(xué),2010,26(6):19-23.

      [19] 劉國(guó)旗.多重共線性的產(chǎn)生原因及其診斷處理[J].合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2001,24(4):607-610.

      [20] WILLIAMSON D F,PARKER R A,KENDRICK J S.The box plot:A simple visual method to interpret data[J].Annals of Internal Medicine,1989,110(11):916-921.

      [21] 汪大明.滑坡危險(xiǎn)性的GIS 綜合評(píng)價(jià)方法研究——以深圳市為例[D].北京:北京大學(xué),2009.149-152.

      Sample Filtration Using One-Class Classification Model in Landslide Susceptibility Mapping

      XIONG Lang-tao,TIAN Yuan,LIU Peng

      (InstituteofRemoteSensingandGeographicalInformationSystem,PekingUniversity,Beijing100871,China)

      The quality of historical landslide samples exerts a critical impact on the machine-learning based landslide susceptibility mapping.This paper proposes a methodology to address the ubiquitous reliability problem of the landslide dataset,thus to improve landslide susceptibility mapping eventually,in which one class classification model is adopted to filtrate the landslide dataset considering its outstanding novelty detection ability.A case study of Shenzhen is carried out to verify the proposed methodology,with SVDD and GAM being applied to filter the landslide samples and fulfill the landslide susceptibility model training,respectively.During the sample filtration process by SVDD,the outlier ratio varies from 0 to 30%,with an increase of 5% each time,to get a total of seven filtered sample datasets by removing the detected outliers.All the seven filtrated datasets derived are then adopted to train correspondent GAMs.The performance of the trained models is evaluated by calculating the area under the ROC curve (AUC).The model using the filtrated dataset with 20% samples removed shows the highest AUC,which is also significantly higher than the original model,and therefore is chosen to output the final landslide susceptibility map.It can be concluded from the case study that the proposed methodology is undoubtedly feasible and is able to improve the performance of the landslide susceptibility model significantly.The resulting landslide susceptibility map appears to be fairly consistent with the distribution of historical landslide data and geologically reasonable,and thus can provide a reliable support for landslide risk management.

      one-class classification model;sample filtration;landslide susceptibility mapping;SVDD;GAM

      2016-01-06;

      2016-04-06

      國(guó)家自然科學(xué)基金項(xiàng)目(41171296)

      熊浪濤(1990-),男,碩士研究生,研究方向?yàn)榈乩硇畔⒖茖W(xué)。*通訊作者E-mail:tianyuanpku@pku.edu.cn

      10.3969/j.issn.1672-0504.2016.03.009

      P642.22

      A

      1672-0504(2016)03-0043-06

      猜你喜歡
      區(qū)劃危險(xiǎn)性滑坡
      O-3-氯-2-丙烯基羥胺熱危險(xiǎn)性及其淬滅研究
      危險(xiǎn)性感
      滑坡推力隱式解與顯式解對(duì)比分析——以河北某膨脹土滑坡為例
      輸氣站場(chǎng)危險(xiǎn)性分析
      基于AHP對(duì)電站鍋爐進(jìn)行危險(xiǎn)性分析
      林芝市雷電風(fēng)險(xiǎn)區(qū)劃
      基于“三線一單”的環(huán)境功能區(qū)劃實(shí)證研究
      川渝傳統(tǒng)民居區(qū)劃的環(huán)境蘊(yùn)意
      淺談公路滑坡治理
      北方交通(2016年12期)2017-01-15 13:52:59
      基于Fluent的滑坡入水過程數(shù)值模擬
      利辛县| 都江堰市| 靖州| 新竹县| 桂平市| 曲沃县| 怀安县| 鲁山县| 漯河市| 高安市| 密云县| 册亨县| 吴忠市| 五常市| 临湘市| 平远县| 新兴县| 舞钢市| 宁化县| 兖州市| 双流县| 漯河市| 大连市| 繁昌县| 建阳市| 横峰县| 大余县| 崇仁县| 青岛市| 曲阜市| 甘肃省| 视频| 皮山县| 嘉义市| 柏乡县| 彭水| 剑川县| 桐柏县| 康乐县| 定陶县| 类乌齐县|