胡 健,覃 慧,毛伊敏
1(江西理工大學(xué) 應(yīng)用科學(xué)學(xué)院,贛州 341000)
2(江西理工大學(xué) 信息工程學(xué)院,贛州 341000)
滑坡災(zāi)害嚴(yán)重危害人類的生命財(cái)產(chǎn)安全,并對環(huán)境、資源構(gòu)成嚴(yán)重威脅[1],給人們的生活帶來了巨大影響.滑坡的發(fā)生伴隨著多種因素,其中降雨是一個(gè)重要的誘發(fā)因素之一[2].由于降雨具有不確定性和隨機(jī)性,無法對其進(jìn)行有效刻畫,因此給滑坡預(yù)測的準(zhǔn)確性帶來了一定的挑戰(zhàn).
聚類技術(shù)能夠根據(jù)數(shù)據(jù)對象之間的較高相似度、聚簇之間的較高分離度實(shí)現(xiàn)數(shù)據(jù)對象的有效劃分,因而被廣泛應(yīng)用在滑坡災(zāi)害預(yù)測的研究中.張俊等[3]使用滑坡面積比與分級面積比曲線對指標(biāo)因子分級,選取7個(gè)致災(zāi)因子作為滑坡易發(fā)性的評價(jià)指標(biāo),采用K-means聚類算法對三峽庫萬州區(qū)滑坡易發(fā)性評價(jià)體系進(jìn)行分級,實(shí)驗(yàn)表明滑坡災(zāi)害易發(fā)性評價(jià)體系預(yù)測精度較高.文建華等[4]提出同倫模糊C-均值聚類算法,以三峽庫岸為研究區(qū)對邊坡的穩(wěn)定性進(jìn)行分類,研究表明同倫模糊C-均值聚類算法是一種較好的邊坡穩(wěn)定性分級聚類分析方法.孫樹林等[5]以南京地區(qū)滑坡作為研究對象,提取影響因素并計(jì)算其熵值,利用K-PSO方法生成南京地區(qū)滑坡敏感圖,并行研究對比表明KPSO聚類準(zhǔn)確度高,驗(yàn)證了其在滑坡敏感性分析的可行性.吳亞子等[6]采用灰色聚類法,并選取11個(gè)評價(jià)因子,建立了阿里地區(qū)地質(zhì)災(zāi)害危險(xiǎn)性的評價(jià)模型,結(jié)果表明利用灰色聚類方法對阿里地區(qū)公路沿線的危險(xiǎn)性評價(jià)精度較高,說明該方法具有一定可行性.傳統(tǒng)聚類技術(shù)在滑坡預(yù)測應(yīng)用上取得了一定成果,但是還不能滿足人們的需求,主要是存在以下兩個(gè)問題:1)傳統(tǒng)聚類算法很難實(shí)現(xiàn)對不確定數(shù)據(jù)降雨量的有效處理;2)傳統(tǒng)聚類方法需要預(yù)先設(shè)定聚簇?cái)?shù)目k值,而在實(shí)際應(yīng)用中k值難以準(zhǔn)確給定,致使對大規(guī)模數(shù)據(jù)集聚類結(jié)果影響較大.針對傳統(tǒng)聚類算法預(yù)先設(shè)定k值問題,Miin-Shen等[7]構(gòu)建一個(gè)基于學(xué)習(xí)的模糊聚類框架,可自動(dòng)找到最佳簇的數(shù)量,實(shí)驗(yàn)結(jié)果證明該算法具有先進(jìn)性;趙文沖等[8]通過對k值的自動(dòng)獲取,提高實(shí)驗(yàn)聚類結(jié)果,但難以處理不確定數(shù)據(jù).以上兩個(gè)問題致使傳統(tǒng)聚類算法在滑坡危險(xiǎn)性預(yù)測中的聚類結(jié)果不是很理想,因此需要一種能夠有效處理不確定數(shù)據(jù)和能夠提升聚類效果的方法,從而提高滑坡危險(xiǎn)性預(yù)測精度.
快速搜索和發(fā)現(xiàn)密度峰值聚類算法(CFSFDP)[9]可自動(dòng)獲得類的個(gè)數(shù),能夠有效避免聚類數(shù)目k的預(yù)先設(shè)定,算法復(fù)雜度相對較低,可對任意形狀的數(shù)據(jù)集進(jìn)行聚類且實(shí)現(xiàn)簡單聚類速度快.但是CFSFDP算法無法有效處理不確定數(shù)據(jù),并且需要人工嘗試設(shè)置密度閾值以及對大規(guī)模數(shù)據(jù)處理效果不佳,因此文中在傳統(tǒng)CFSFDP算法基礎(chǔ)上,提出不確定GM-CFSFDP聚類算法.該算法首先建立不確定數(shù)據(jù)模型,設(shè)計(jì)EML距離公式,使其能夠描述不確定屬性之間的相似度,有效刻畫不確定因素降雨;通過網(wǎng)格劃分的思想按照維度將數(shù)據(jù)集進(jìn)行網(wǎng)格化,使之能夠有效處理大規(guī)模數(shù)據(jù);借鑒平均密度思想建立網(wǎng)格密度閾值模型,動(dòng)態(tài)確定網(wǎng)格密度閾值,避免CFSFDP需要人工嘗試確定密度閾值;利用層次聚類思想合并關(guān)聯(lián)性較高的類,解決大規(guī)?;聰?shù)據(jù)集密度分布不均勻的問題,構(gòu)建不確定GM-CFSFDP聚類算法滑坡預(yù)測模型,以延安市寶塔區(qū)為例進(jìn)行預(yù)測.實(shí)例結(jié)果證明不確定GMCFSFDP算法比CFSFDP算法在滑坡危險(xiǎn)性預(yù)測中聚類效果更佳,具有可行性.
假設(shè)不確定性數(shù)值屬性Aij,其取值在一定范圍內(nèi),即分別稱為Aij的左界值和右界值.若Aij·g(x)為Aij的概率密度函數(shù),則有:
傳統(tǒng)CFSFDP聚類算法能夠處理離散型和連續(xù)型數(shù)據(jù),但難以對不確定數(shù)據(jù)進(jìn)行有效處理.文中結(jié)合不確定數(shù)據(jù)模型,采用積分形式[10,11]考慮范圍內(nèi)點(diǎn)與點(diǎn)之間的差值,再利用不確定數(shù)據(jù)的中點(diǎn)和長度,替換左右界值對距離公式進(jìn)行重新定義.最后考慮含有離散型、連續(xù)型和不確定型的混合型屬性數(shù)據(jù),對傳統(tǒng)Euclidean距離進(jìn)行拓展,得到一種新的描述相似度的距離(E-ML距離)公式.
定理1.設(shè)兩個(gè)P維數(shù)據(jù)對象a和b均含有不確定屬性,則a和b的E-ML距離dE-ML(a,b)為:
其中分別為不確定數(shù)據(jù)的中點(diǎn)和長度.離散型數(shù)據(jù)和連續(xù)型數(shù)據(jù)經(jīng)過歸一化處理之后均可看作是特殊的不確定數(shù)據(jù),此時(shí)則E-ML距離可處理維數(shù)據(jù)中包含離散屬性、連續(xù)屬性和不確定屬性數(shù)據(jù)間的距離.
證明:設(shè)不確定數(shù)據(jù)的區(qū)間為給出如下定義[7]:
指定為不確定數(shù)據(jù)a和b的距離.但當(dāng)a=b的時(shí)侯,卻存在D(a,b)≠0,由定義易知,對于任意的不確定數(shù)a和b恒有D(a,b)>0.對公式(2)進(jìn)行修正如下:
當(dāng)a和b為 兩 個(gè) 任 意 不 確 定P維 數(shù) 據(jù) 時(shí),其Euclidean距離為結(jié)合公式(3)和傳統(tǒng)Euclidean距離公式,得到E-ML距離公式:
容易證明公式(1)滿足距離定義的條件:非負(fù)性、對稱性和三角不等性,說明E-ML距離具有合理性.
CFSFDP聚類算法[9]可聚類任意形狀數(shù)據(jù)集,并且能夠自動(dòng)獲取類的個(gè)數(shù),算法復(fù)雜度低,然而仍存在不足:a)算法聚類質(zhì)量依賴于給定的密度閾值大規(guī)模數(shù)據(jù)集存在規(guī)模大和密度分布不均勻,算法雖然可以對數(shù)據(jù)點(diǎn)按密度值大小進(jìn)行排序,但聚類效果不夠理想.針對CFSFDP聚類算法需人工設(shè)置密度閾值、無法對大規(guī)模數(shù)據(jù)集進(jìn)行準(zhǔn)確聚類問題,設(shè)計(jì)一種基于數(shù)據(jù)空間網(wǎng)格化的CFSFDP聚類算法(GMCFSFDP),首先對數(shù)據(jù)進(jìn)行數(shù)據(jù)空間網(wǎng)格化,劃分為不同的網(wǎng)格單元,實(shí)現(xiàn)大規(guī)模數(shù)據(jù)的有效編碼;其次對密度閾值進(jìn)行動(dòng)態(tài)選擇,引入平均密度思想,將網(wǎng)格單元?jiǎng)澐譃槌砻?、中度、稀疏三種狀態(tài),根據(jù)網(wǎng)格密度實(shí)現(xiàn)動(dòng)態(tài)選擇最后借鑒層次聚類思想,選取具有相關(guān)度較高的類進(jìn)行合并,獲得聚類結(jié)果,GM-CFSFDP聚類算法設(shè)計(jì)概念如下.
(1) 數(shù)據(jù)空間網(wǎng)格化
其中,L為長度li的集合,d為數(shù)據(jù)維度,i∈d,函數(shù)g為求出di的 長度,m為 最長維度,函數(shù)gmax為L中最大值的編號(hào).
(2) 網(wǎng)格密度閾值
采用平均密度公式計(jì)算所有網(wǎng)格平均密度閾值[13,14],獲取所有網(wǎng)格單元密度的最大值和最小值,定義網(wǎng)格密度閾值使網(wǎng)格單元分為稠密中度稀疏3 種,若說明多數(shù)稠密的網(wǎng)格單元成為獨(dú)立簇,此時(shí)閾值設(shè)置過低需要增加調(diào)整,若說明部分簇作為中度或稀疏單元格進(jìn)行處理,閾值設(shè)置過高需要降低調(diào)整,依此保證的取值范圍和準(zhǔn)確性.根據(jù)網(wǎng)格密度選取網(wǎng)格所屬密度閾值.
平均密度公式:
網(wǎng)格密度閾值公式:
其中,n為所有網(wǎng)格單元數(shù)目,fi為第i個(gè)網(wǎng)格單元密度值,fmax為 最大的網(wǎng)格單元密度,fmin為最小的網(wǎng)格單元密度.
目前在確定閾值的研究中,學(xué)者們做了很多貢獻(xiàn),其中近鄰距離曲線[15]變化情況來確定密度閾值的方法,解決了人工設(shè)置閾值的不足,計(jì)算方法簡述為先求出數(shù)據(jù)集的第1至第(其中S為數(shù)據(jù)集)近鄰距離曲線,再找到曲線斜率變化明顯的曲線,記為第r條曲線取數(shù)據(jù)點(diǎn)的所有第r條近鄰距離的均值.李宗林等[16]采用非參數(shù)核密度估計(jì)理論分析數(shù)據(jù)的分布特征來自動(dòng)確定閾值.兩種方法都避免了人工嘗試確定密度閾值的不確定性,對于數(shù)據(jù)集規(guī)模較小時(shí),能得到明顯的效果,但在多數(shù)實(shí)際問題中數(shù)據(jù)集規(guī)模大,上述方法確定密度閾值過程更復(fù)雜,采用文中提到的閾值計(jì)算方法,復(fù)雜度更小,占用內(nèi)存更少,運(yùn)行速度更快.
(3) 類合并
CFSFDP算法無法準(zhǔn)確對數(shù)據(jù)密度分布不均勻的數(shù)據(jù)集進(jìn)行聚類[17],原因是當(dāng)數(shù)據(jù)集密度分布不均勻時(shí),算法可能會(huì)將一個(gè)類劃分成兩個(gè)或多個(gè)類,此時(shí)需要進(jìn)行子類合并.借鑒層次聚類算法思想[18,19],通過對比密度閾值dc,選擇相關(guān)性較高的類進(jìn)行合并,從而實(shí)現(xiàn)準(zhǔn)確聚類.假設(shè)任意兩個(gè)類A、B,其對應(yīng)的網(wǎng)格密度閾值表示為dcA、dcB,類A、B的邊界區(qū)域點(diǎn)集SA,SB,邊 界 區(qū) 域 中 的 點(diǎn) 數(shù) 為 |SA|,|SB|,pi和qj分 別 為SA,SB中 的數(shù)據(jù)點(diǎn),d Spiqj為數(shù)據(jù)點(diǎn)pi和qj之間的距離,公式如下:
若A、B滿足類間相似度條件,如公式(13)所示,則將類A、B進(jìn)行合并.
不確定GM-CFSFDP聚類算法聚類過程如下:
Step 1.數(shù)據(jù)進(jìn)行歸一化處理,獲得有效數(shù)據(jù)集;
Step 2.根據(jù)數(shù)據(jù)空間網(wǎng)格化方法對有效數(shù)據(jù)集進(jìn)行網(wǎng)格劃分,獲得對應(yīng)的數(shù)據(jù)空間集合;
Step 3.使用平均密度思想和不確定數(shù)據(jù)處理方式對數(shù)據(jù)空間集合的各數(shù)據(jù)點(diǎn)進(jìn)行局部密度和距離計(jì)算,對網(wǎng)格單元密度進(jìn)行劃分,進(jìn)而動(dòng)態(tài)確定密度閾值dc;
Step 4.使用CFSFDP算法對網(wǎng)格數(shù)據(jù)對象進(jìn)行聚類,確定聚類中心和初始聚類個(gè)數(shù);
Step 5.利用密度閾值dc,確定類的核心區(qū)域與邊界區(qū)域,指定邊界區(qū)域中最高點(diǎn)密度值作為去除噪聲點(diǎn)的閾值;
Step 6.計(jì)算類之間的距離,采用類合并方法,判斷類之間能否合并,若滿足合并條件則進(jìn)行合并,否則返回Step 5;
Step 7.退出合并操作,輸出數(shù)據(jù)集聚類結(jié)果.
2.1.1 數(shù)據(jù)來源
實(shí)驗(yàn)數(shù)據(jù)來源于西安地質(zhì)調(diào)查中心數(shù)據(jù)庫,采用ARCGIS將延安市寶塔區(qū)進(jìn)行柵格化處理,每個(gè)柵格單元尺寸設(shè)計(jì)為5 m×5 m,得到5 672 922個(gè)柵格單元,每個(gè)柵格單元看成一個(gè)點(diǎn),借鑒劉衛(wèi)明[20]的屬性提取方法,獲得坡型、坡向、坡高、坡度數(shù)據(jù)信息,以及巖土體結(jié)構(gòu)數(shù)據(jù)、植被覆蓋數(shù)據(jù)、降雨量值.
依據(jù)寶塔區(qū)的地質(zhì)環(huán)境條件及地質(zhì)災(zāi)害發(fā)生機(jī)理和原始數(shù)據(jù)集中各屬性對聚類結(jié)果的影響程度選取坡型、坡向、坡高、坡度、巖土體、植被、降雨作為評價(jià)因子,滑坡危險(xiǎn)性等級作為決策因子.其中坡型、植被、巖土體為離散屬性,先將其數(shù)值化再進(jìn)行歸一化處理;坡度、坡高、坡向?yàn)檫B續(xù)屬性可直接進(jìn)行歸一化方式處理;降雨為不確定屬性,只能確定其大致取值范圍,無法直接用傳統(tǒng)方法進(jìn)行刻畫,因此采用文中提出的不確定數(shù)據(jù)處理方式進(jìn)行處理.
2.1.2 不確定GM-CFSFDP聚類算法滑坡預(yù)測模型的構(gòu)建
由延安市寶塔區(qū)經(jīng)過柵格化處理的的5 672 922個(gè)柵格單元,每個(gè)柵格單元被看成一個(gè)點(diǎn),這些點(diǎn)形成的數(shù)據(jù)集規(guī)模大,因此首先采用不確定GMCFSFDP聚類算法中的數(shù)據(jù)空間網(wǎng)格化步驟,通過網(wǎng)格劃分的思想把大規(guī)模滑坡數(shù)據(jù)劃分到相應(yīng)的數(shù)據(jù)空間中,最后得到數(shù)據(jù)空間網(wǎng)格單元283 375個(gè);初始化設(shè)置聚簇?cái)?shù)目為空,計(jì)算各個(gè)網(wǎng)格單元的平均密度,依據(jù)密度閾值求解方法動(dòng)態(tài)獲得網(wǎng)格密度閾值dc,使用文中不確定數(shù)據(jù)距離公式(E-ML距離)計(jì)算數(shù)據(jù)對象之間的距離;然后使用CFSFDP聚類算法對各個(gè)滑坡數(shù)據(jù)空間網(wǎng)格單元進(jìn)行聚類,聚類時(shí)各個(gè)網(wǎng)格單元根據(jù)其合適的dc進(jìn)行聚類,確定初始聚類中心位置和聚類個(gè)數(shù),初始得到聚簇?cái)?shù)目為558個(gè);對其余非聚類中心的數(shù)據(jù)點(diǎn)進(jìn)行歸簇,并利用密度閾值dc確定簇邊界區(qū)域,計(jì)算兩個(gè)相鄰簇之間的相似度,對所有相鄰簇的相似度進(jìn)行排序,合并相似度較高的兩個(gè)簇,直到所有簇簇之間的相似度不滿足合并條件為止,最終得到483個(gè)簇,依據(jù)簇內(nèi)具有較高的相似度和簇間具有較高的分離度特征,預(yù)測滑坡危險(xiǎn)性等級.
2.1.3 滑坡危險(xiǎn)性等級劃分
滑坡危險(xiǎn)性等級是滑坡危險(xiǎn)性預(yù)測的決策因子,因此如何正確劃分滑坡危險(xiǎn)性等級影響著滑坡危險(xiǎn)性預(yù)測的精度.聚類算法會(huì)把具有相似特征的柵格單元聚在一個(gè)子集中,則子集內(nèi)具有較高的相似度,文中根據(jù)“具有相似特征的滑坡同時(shí)具有相似的滑坡發(fā)生趨勢[21]”這一特性,利用已知含有降雨信息的293個(gè)滑坡觀測點(diǎn)的危險(xiǎn)性等級,采用直接搜索法和專家評分法[22]定各個(gè)區(qū)域的危險(xiǎn)性等級.首先利用直接搜索法,對評價(jià)單元進(jìn)行逐一搜索,評價(jià)單元若只含有一個(gè)確定的危險(xiǎn)性等級單元,則該聚類子集的危險(xiǎn)性等級為該單元的危險(xiǎn)性等級,若評價(jià)單元含有的各危險(xiǎn)性等級單元不等,則按照少數(shù)服從多數(shù)原則評定,若未含有確定危險(xiǎn)性等級單元和含有相同數(shù)目的不同危險(xiǎn)性等級單元的聚類子集危險(xiǎn)性等級則由專家根據(jù)經(jīng)驗(yàn)進(jìn)行評定,結(jié)合區(qū)域調(diào)查結(jié)果判定滑坡危險(xiǎn)性等級從而劃分出其余單元的危險(xiǎn)性等級.
2.2.1 實(shí)驗(yàn)環(huán)境
為了驗(yàn)證GM-CFSFDP聚類算法的有效性以及不確定數(shù)據(jù)處理方式能否提高滑坡危險(xiǎn)性預(yù)測精度,實(shí)驗(yàn)選擇Windows 7旗艦版操作系統(tǒng),計(jì)算機(jī)硬件配置為Inter i5處理器、主頻3.3 GHz、8 G內(nèi)存,實(shí)驗(yàn)數(shù)據(jù)通過ARCGIS10.2獲取,算法通過JAVA語言實(shí)現(xiàn).
2.2.2 評價(jià)標(biāo)準(zhǔn)
基于誤差矩陣的Kappa系數(shù)精度評價(jià)方法能夠反映預(yù)測值和真實(shí)值的一致性[23],其范圍為[-1,1],其值越大,表示預(yù)測值和觀測值的一致性越大,是一種滑坡危險(xiǎn)性預(yù)測評價(jià)較好的方法,K appa系數(shù)定義為:
其中,P r(a)表示觀測和預(yù)測一致的數(shù)量與所有觀測點(diǎn)的比例,P r(e)表示同等級觀測總和、預(yù)測總和占所有觀測點(diǎn)的比例求和,pii為第i類型被正確分類的數(shù)目,為第i類型所在列的數(shù)目之和,為第i類型所在行的數(shù)目之和.
2.2.3 算法性能分析
為了驗(yàn)證GM-CFSFDP聚類算法的有效性,分別按照5%、10%、15%、20%的比例對數(shù)據(jù)空間網(wǎng)格化后的2 8 3 3 7 5的網(wǎng)格單元進(jìn)行采樣,對比CFSFDP聚類算法和GM-CFSFDP聚類算法的運(yùn)行時(shí)間,進(jìn)行多次實(shí)驗(yàn)求取實(shí)驗(yàn)運(yùn)行時(shí)間均值作為最后的聚類算法運(yùn)行時(shí)間.兩種聚類算法的時(shí)間性能分析如表1所示.
表1 滑坡數(shù)據(jù)集聚類算法運(yùn)行時(shí)間對比
從表1可得,數(shù)據(jù)采樣比例為5%時(shí),CFSFDP算法的運(yùn)行時(shí)間為10.28 min,GM-CFSFDP算法的運(yùn)行時(shí)間為9.02 min,采樣比例為10%時(shí),二者的運(yùn)行時(shí)間分別為28.45 min和26.81 min,采樣比例較小時(shí),二者算法運(yùn)行時(shí)間相差不大,這是因?yàn)閷τ谛∫?guī)模數(shù)據(jù)的處理,CFSFDP和GM-CFSFDP都能快速的實(shí)現(xiàn)聚類效果.當(dāng)采樣比例增大到15%時(shí),GM-CFSFDP算法的運(yùn)行時(shí)間要比CFSFDP少6 min左右,GM-CFSFDP算法在采樣比例為20%時(shí)運(yùn)行時(shí)間明顯低于傳統(tǒng)CFSFDP聚類算法,這是因?yàn)樵谔幚泶笠?guī)模數(shù)據(jù)時(shí),GM-CFSFDP算法設(shè)計(jì)了數(shù)據(jù)空間網(wǎng)格化思想,能夠快速的實(shí)現(xiàn)數(shù)據(jù)的編碼,密度閾值的動(dòng)態(tài)選擇實(shí)現(xiàn)了聚類中心選擇和聚類個(gè)數(shù),避免了需人工設(shè)置密度閾值和設(shè)置聚簇個(gè)數(shù)帶來的問題,類合并解決了數(shù)據(jù)集密度分布不均勻的問題,提高了聚類效果.通過整體采樣實(shí)驗(yàn)發(fā)現(xiàn),GM-CFSFDP聚類算法的性能要高于CFSFDP聚類算法,當(dāng)數(shù)據(jù)規(guī)模越大,效果越明顯,因此,GM-CFSFDP聚類算法對于大規(guī)模數(shù)據(jù)而言聚類速度更快,效果更佳,可以作為一種處理滑坡大規(guī)模數(shù)據(jù)的方法.
2.2.4 滑坡預(yù)測精度分析與比較
為了驗(yàn)證不確定數(shù)據(jù)處理方式是否可以提高滑坡危險(xiǎn)性預(yù)測精度,比較傳統(tǒng)CFSFDP聚類算法和不確定GM-CFSFDP聚類算法在滑坡實(shí)驗(yàn)中的預(yù)測精度.傳統(tǒng)聚類算法滑坡危險(xiǎn)性預(yù)測中降雨通常以離散值進(jìn)行處理,采用定量法[24]將降雨分為六類:小雨,中雨,大雨,暴雨,大暴雨,特大暴雨,使用傳統(tǒng)Euclidean公式計(jì)算兩個(gè)數(shù)據(jù)對象之間的距離,構(gòu)建傳統(tǒng)的CFSFDP聚類算法滑坡危險(xiǎn)性預(yù)測模型.野外勘測獲得延安寶塔區(qū)有428個(gè)滑坡災(zāi)害觀測點(diǎn),其中有293個(gè)觀測點(diǎn)含降雨量信息,所有災(zāi)害觀測點(diǎn)被柵格化為1367個(gè)單元,其中1036個(gè)單元含降雨信息,剩余331個(gè)為不含降雨信息的單元.不確定GM-CFSFDP聚類算法利用不確定屬性對降雨進(jìn)行刻畫,使用E-ML距離公式計(jì)算數(shù)據(jù)對象之間的距離,構(gòu)建不確定GM-CFSFDP聚類算法滑坡危險(xiǎn)性預(yù)測模型.分別采用兩類算法在寶塔區(qū)進(jìn)行滑坡危險(xiǎn)性預(yù)測,依據(jù)滑坡危險(xiǎn)性等級劃分標(biāo)準(zhǔn)獲得其等級劃分,并計(jì)算兩種算法的預(yù)測精度系數(shù),如表2所示.
表2 兩種算法滑坡危險(xiǎn)性預(yù)測等級劃分及預(yù)測精度比較表
在滿足相同的聚類條件時(shí),不確定GM-CFSFDP聚類算法的預(yù)測精度為93.27%,比傳統(tǒng)CFSFDP聚類算法高出約4個(gè)百分點(diǎn),K appa系數(shù)值是0.8939,傳統(tǒng)CFSFDP聚類算法的Kappa為0.8250,說明不確定GM-CFSFDP聚類算法具有較好的滑坡危險(xiǎn)性預(yù)測準(zhǔn)確性.結(jié)果分析不確定GM-CFSFDP的預(yù)測精度和系數(shù)值比傳統(tǒng)CFSFDP聚類算法的較好,原因是設(shè)計(jì)了數(shù)據(jù)空間網(wǎng)格劃分理念,實(shí)現(xiàn)對大規(guī)模數(shù)據(jù)的有效編碼,定義不確定數(shù)據(jù)距離公式,有效的刻畫了不確定屬性降雨,網(wǎng)格密度閾值的有效計(jì)算方法避免了人為設(shè)置閾值帶來的誤差,利用層次聚類合并思想解決了由于大規(guī)模數(shù)據(jù)集密度分布不均勻?qū)е碌木垲愋Ч患褑栴},提高了滑坡危險(xiǎn)性預(yù)測的精確度.
針對滑坡危險(xiǎn)性預(yù)測中的誘發(fā)因素降雨刻畫難、CFSFDP算法對大規(guī)模數(shù)據(jù)集聚類不準(zhǔn)確以及人為設(shè)置密度閾值等問題,文中提出了不確定GM-CFSFDP聚類算法,結(jié)合延安市寶塔區(qū)進(jìn)行實(shí)例驗(yàn)證.該算法設(shè)計(jì)新型E-ML距離公式,實(shí)現(xiàn)不確定數(shù)據(jù)的有效刻畫;通過網(wǎng)格劃分的思想對滑坡數(shù)據(jù)集進(jìn)行數(shù)據(jù)空間網(wǎng)格劃分,實(shí)現(xiàn)了大規(guī)模數(shù)據(jù)有效編碼,利用平均密度思想構(gòu)建密度閾值選擇模型,動(dòng)態(tài)確定密度閾值,對滑坡數(shù)據(jù)對象進(jìn)行初始聚類,最后合并關(guān)聯(lián)性較高的類,解決算法需人工設(shè)置密度閾值及處理大規(guī)模數(shù)據(jù)聚類效果不佳的問題.實(shí)驗(yàn)結(jié)果表明不確定GM-CFSFDP聚類算法滑坡危險(xiǎn)性預(yù)測具有較高的精度,證明了該算法的可行性,也為進(jìn)一步的相關(guān)研究打下了基礎(chǔ).
1 Huang FM,Huang JS,Jiang SH,et al.Landslide displacement prediction based on multivariate chaotic model and extreme learning machine.Engineering Geology,2017,218:173-186.[doi:10.1016/j.enggeo.2017.01.016]
2 Salciarini D,Fanelli G,Tamagnini C.A probabilistic model for rainfall—induced shallow landslide prediction at the regional scale.Landslides,2017,14(5):1731-1746.[doi:10.1007/s10346-017-0812-0]
3 張俊,殷坤龍,王佳佳,等.三峽庫區(qū)萬州區(qū)滑坡災(zāi)害易發(fā)性評價(jià)研究.巖石力學(xué)與工程學(xué)報(bào),2016,35(2):284-296.
4 文建華,周翠英,黃林沖,等.邊坡穩(wěn)定性分類評價(jià)的同倫模糊C-均值聚類算法.巖土力學(xué),2012,33(5):1457-1461.
5 孫樹林,余文平,劉小芳,等.基于信息熵與KPSO聚類法滑坡敏感性分析.環(huán)境保護(hù)科學(xué),2014,40(6):88-96.
6 吳亞子,楊敏.灰色聚類法在阿里地區(qū)地質(zhì)災(zāi)害危險(xiǎn)性評價(jià)中的應(yīng)用.水資源與水工程學(xué)報(bào),2010,21(6):155-158.
7 Yang MS,Nataliani Y.Robust-learning fuzzy c-means clustering algorithm with unknown number of clusters.Pattern Recognition,2017,71:45-59.[doi:10.1016/j.patcog.2017.05.017]
8 趙文沖,蔡江輝,張繼福.改進(jìn)k值自動(dòng)獲取VDBSCAN聚類算法.計(jì)算機(jī)系統(tǒng)應(yīng)用,2016,25(9):131-136.[doi:10.15888/j.cnki.csa.005325]
9 Rodriguez A,Laio A.Clustering by fast search and find of density peaks.Science,2014,344(6191):1492-1496.[doi:10.1126/science.1242072]
10 Tran L,Duckstein L.Comparison of fuzzy numbers using a fuzzy distance measure.Fuzzy Sets and Systems,2002,130(3):331-341.[doi:10.1016/S0165-0114(01)00195-6]
11 劉華文.基于距離測度的模糊數(shù)排序.山東大學(xué)學(xué)報(bào)(理學(xué)版),2004,39(2):30-36.
12 王飛,王國胤,李智星,等.一種基于網(wǎng)格的密度峰值聚類算法.小型微型計(jì)算機(jī)系統(tǒng),2017,38(5):1034-1038.
13 邢長征,王曉旭.基于擴(kuò)展網(wǎng)格和密度的數(shù)據(jù)流聚類算法.計(jì)算機(jī)工程,2014,40(12):188-194.[doi:10.3778/j.issn.1002-8331.1207-0101]
14 米源,楊燕,李天瑞.基于密度網(wǎng)格的數(shù)據(jù)流聚類算法.計(jì)算機(jī)科學(xué),2011,38(12):178-181.[doi:10.3969/j.issn.1002-137X.2011.12.040]
15 蔣禮青,張明新,鄭金龍,等.快速搜索與發(fā)現(xiàn)密度峰值聚類算法的優(yōu)化研究.計(jì)算機(jī)應(yīng)用研究,2016,33(11):3251-3254.
16 李宗林,羅可.DBSCAN算法中參數(shù)的自適應(yīng)確定.計(jì)算機(jī)工程與應(yīng)用,2016,52(3):70-73.
17 孫昊,張明新,戴嬌,等.基于網(wǎng)格的快速搜尋密度峰值的聚類算法優(yōu)化研究.計(jì)算機(jī)工程與科學(xué),2017,39(5):964-970.
18 喬端瑞.基于K-means算法及層次聚類算法的研究與應(yīng)用[碩士學(xué)位論文].長春:吉林大學(xué),2016.
19 呂琳,尉永清,任敏,等.基于蟻群優(yōu)化算法的凝聚型層次聚類.計(jì)算機(jī)應(yīng)用研究,2017,34(1):114-117.
20 劉衛(wèi)明,高曉東,毛伊敏,等.不確定遺傳神經(jīng)網(wǎng)絡(luò)在滑坡危險(xiǎn)性預(yù)測中的研究與應(yīng)用.計(jì)算機(jī)工程,2017,43(2):308-316.
21 Yeon YK,Han JG,Ryu KH.Landslide susceptibility mapping in Injae,Korea,using a decision tree.Engineering Geology,2010,116(3-4):274-283.[doi:10.1016/j.enggeo.2010.09.009]
22 王磊,張春山,楊為民,等.基于GIS的甘肅省甘谷縣地質(zhì)災(zāi)害危險(xiǎn)性評價(jià).地質(zhì)力學(xué)學(xué)報(bào),2011,17(4):388-401.
23 邱海軍.區(qū)域滑坡崩塌地質(zhì)災(zāi)害特征分析及其易發(fā)性和危險(xiǎn)性評價(jià)研究[博士學(xué)位論文].西安:西北大學(xué),2012.
24 辛鵬,吳樹仁,石菊松,等.基于降雨響應(yīng)的黃土丘陵區(qū)滑坡危險(xiǎn)性預(yù)測研究——以寶雞市麟游縣為例.地球?qū)W報(bào),2012,33(3):349-359.