金 朝, 費(fèi)雯麗, 丁 衛(wèi), 陳 曦, 杜翌超
(1.湖北省地質(zhì)調(diào)查院,湖北 武漢 430034; 2.湖北省地質(zhì)局 第八地質(zhì)大隊(duì),湖北 襄陽(yáng) 441000)
目前,國(guó)內(nèi)外學(xué)者常用的地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)模型主要有模糊邏輯、層次分析法、證據(jù)權(quán)法、信息量法、確定性系數(shù)法、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、Logistic回歸等多種數(shù)理統(tǒng)計(jì)方法[1-8]。近年來(lái),多數(shù)學(xué)者使用不同的評(píng)價(jià)模型疊加分析地質(zhì)災(zāi)害的易發(fā)性,Poiraud[9]采用指標(biāo)法、證據(jù)權(quán)法、回歸模型、決策樹(shù)、獨(dú)立條件單元5種方法建立滑坡易發(fā)性分區(qū),并對(duì)比分析各個(gè)評(píng)價(jià)結(jié)果;金亞兵等[10]通過(guò)層次分析法+神經(jīng)網(wǎng)絡(luò)模型對(duì)區(qū)域地災(zāi)進(jìn)行評(píng)價(jià);張曉東[11]通過(guò)信息量法+邏輯回歸模型和確定性系數(shù)法+邏輯回歸模型對(duì)寧夏鹽池縣地災(zāi)易發(fā)性進(jìn)行了評(píng)價(jià)并對(duì)比分析其結(jié)果。多數(shù)學(xué)者認(rèn)為多種方法組合評(píng)價(jià)效果優(yōu)于單一方法評(píng)價(jià)。
本文以湖北省十堰市鄖陽(yáng)區(qū)為例,利用信息量模型和邏輯回歸模型,分別建立信息量模型和信息量法+邏輯回歸模型進(jìn)行地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià),并對(duì)比分析評(píng)價(jià)結(jié)果,以期為同類(lèi)型的地災(zāi)易發(fā)性評(píng)價(jià)提供思路,為地質(zhì)災(zāi)害風(fēng)險(xiǎn)評(píng)估和管理提供依據(jù)。
鄖陽(yáng)區(qū)位于湖北省西北部、漢江上游,北緯32°25′~33°16′、東經(jīng)110°07′~111°16′,國(guó)土面積3 863 km2,地勢(shì)由南、北邊界向中部的漢江谷地傾斜,谷地兩側(cè)有狹窄而斷續(xù)的盆地與丘陵相間分布。區(qū)內(nèi)除中生界志留系、二疊系—侏羅系地層缺失外,元古界—新生界地層皆有分布。
據(jù)野外資料,全區(qū)地質(zhì)災(zāi)害點(diǎn)分布大致可分為三個(gè)帶:①丹江口庫(kù)區(qū)及黃龍灘庫(kù)區(qū)滑坡帶;②重要交通干線滑坡、崩塌帶;③兩鄖斷裂與公路斷裂之間滑坡帶。鄖陽(yáng)區(qū)地質(zhì)災(zāi)害主要分布于構(gòu)造剝蝕低山地形區(qū),碳酸鹽巖類(lèi)和變質(zhì)巖類(lèi)占比較高,以不穩(wěn)定斜坡、滑坡和崩塌為主。依據(jù)十堰市鄖陽(yáng)區(qū)地質(zhì)災(zāi)害風(fēng)險(xiǎn)調(diào)查評(píng)價(jià)項(xiàng)目資料,十堰市鄖陽(yáng)區(qū)內(nèi)共有地質(zhì)災(zāi)害隱患點(diǎn)868個(gè)(圖1)。
根據(jù)調(diào)查資料的統(tǒng)計(jì)分析,結(jié)合對(duì)典型災(zāi)害點(diǎn)的詳細(xì)勘察研究,初步確定鄖陽(yáng)區(qū)地質(zhì)災(zāi)害的主要影響因素包括:工程地質(zhì)巖組、高程、地質(zhì)構(gòu)造、地形地貌、地災(zāi)點(diǎn)距道路的距離等。結(jié)合鄖陽(yáng)區(qū)自然地理特征和前人對(duì)其他地區(qū)地災(zāi)易發(fā)性的研究因子選擇[11-16],在充分考慮研究區(qū)尺度大小、范圍、精度以及資料的可獲性等等因素的前提下,最終選取工程地質(zhì)巖組、高程、斷裂、坡度、地災(zāi)點(diǎn)距道路的距離、地災(zāi)點(diǎn)距水系的距離和植被覆蓋度7個(gè)影響因子作為研究區(qū)地質(zhì)災(zāi)害易發(fā)性區(qū)劃的評(píng)價(jià)指標(biāo)。
圖1 研究區(qū)高程及地質(zhì)災(zāi)害隱患點(diǎn)分布圖Fig.1 Distribution map of elevation and geological disaster points in study area
本文采用的7個(gè)易發(fā)性影響因子原始數(shù)據(jù)來(lái)源于湖北省地質(zhì)局以及1∶1萬(wàn)縣級(jí)二調(diào)數(shù)據(jù),具體信息如表1所示。由于地質(zhì)災(zāi)害易發(fā)性影響因子多基于DEM數(shù)據(jù)和Landsat8數(shù)據(jù),因此采用網(wǎng)格單元作為地質(zhì)災(zāi)害風(fēng)險(xiǎn)評(píng)價(jià)的評(píng)價(jià)單元。為便于計(jì)算,研究區(qū)的柵格大小取30 m×30 m,共劃分為4 224 841個(gè)柵格單元。
表1 影響因子數(shù)據(jù)源Table 1 Data source of influence factor
信息量模型的理論基礎(chǔ)是信息論,采用地質(zhì)災(zāi)害發(fā)生過(guò)程中熵的減少來(lái)表征地質(zhì)災(zāi)害事件產(chǎn)生的可能性。地質(zhì)災(zāi)害現(xiàn)象(Y)受多種因素xi的影響,在各種不同的地質(zhì)環(huán)境中,對(duì)于地質(zhì)災(zāi)害而言,各種因素所起作用的大小、性質(zhì)是不相同的,總會(huì)存在一種“最佳因素組合”對(duì)地質(zhì)災(zāi)害發(fā)生“貢獻(xiàn)率”最大。其模型的建立過(guò)程如下:
首先,計(jì)算單因素(指標(biāo))xi提供給地質(zhì)災(zāi)害發(fā)生(A)的信息量I(xi,A):
(1)
式中:P(xi/A)為地質(zhì)災(zāi)害發(fā)生條件下xi出現(xiàn)的概率;P(xi)為研究區(qū)指標(biāo)xi出現(xiàn)的概率。
式(1)是理論模型,在具體運(yùn)算時(shí)往往用樣本頻率計(jì)算,即:
(2)
式中:S為預(yù)測(cè)區(qū)總單元數(shù);N為預(yù)測(cè)區(qū)已知發(fā)生地災(zāi)的單元數(shù);Si為含有xi的單元個(gè)數(shù);Ni為含有指標(biāo)xi且已知發(fā)生地災(zāi)的單元個(gè)數(shù)。
然后,計(jì)算某一單元在P種因素組合情況下提供的信息量,即:
(3)
式中:xi代表評(píng)價(jià)單元內(nèi)所取的因子等級(jí);I(xi/A)為因子xi對(duì)地質(zhì)災(zāi)害所貢獻(xiàn)的信息量;S為研究區(qū)面積;Si為研究區(qū)內(nèi)含有因子xi的面積;N為研究區(qū)內(nèi)地質(zhì)災(zāi)害總數(shù);Ni為發(fā)生地質(zhì)災(zāi)害區(qū)域中含有因子xi的數(shù)量;I為評(píng)價(jià)單元中的綜合信息量。由于該模型理論簡(jiǎn)單、客觀性高且實(shí)用性強(qiáng),在地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)中能取得較好效果,尤其在中小比例尺區(qū)域應(yīng)用十分廣泛[7-12]。
建立Logistic回歸模型,主要有兩個(gè)目的:首先是利用建立的模型挖掘隱含在數(shù)據(jù)內(nèi)部的信息,解釋自變量與因變量之間的依存關(guān)系;其次是利用模型預(yù)測(cè)未知情況下發(fā)生或者不發(fā)生某種事件的概率。在地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)中,因變量為是否發(fā)生地質(zhì)災(zāi)害,自變量為各個(gè)影響因子。
在已經(jīng)獲得研究區(qū)信息量值的基礎(chǔ)上,提取出所有自變量因子樣本數(shù)據(jù)點(diǎn),應(yīng)用Logistic回歸分析原理與方法,構(gòu)建研究區(qū)地災(zāi)易發(fā)性分區(qū)預(yù)測(cè)模型,并對(duì)模型作回歸診斷分析與評(píng)價(jià)[11,13-14]。
本文以十堰市鄖陽(yáng)區(qū)地災(zāi)點(diǎn)數(shù)據(jù)作為因變量,地災(zāi)點(diǎn)距斷層距離、NDVI、坡度等7個(gè)影響因子作為自變量,在信息量法的基礎(chǔ)上將Logistic回歸分析應(yīng)用到研究區(qū)地災(zāi)易發(fā)性評(píng)價(jià)中。
其函數(shù)如下式:
式中:P為地災(zāi)點(diǎn)的概率,取值范圍(0,1);βn為邏輯回歸系數(shù);Z為地災(zāi)預(yù)測(cè)線性函數(shù),基于權(quán)重的所有變量之和。
本文依據(jù)868個(gè)地災(zāi)樣本點(diǎn)來(lái)建模,結(jié)合評(píng)價(jià)因子分別采用信息量模型以及信息量法+Logistic回歸模型分析評(píng)價(jià)十堰市鄖陽(yáng)區(qū)的地質(zhì)災(zāi)害易發(fā)性;取80%樣品點(diǎn)和等量的隨機(jī)非地災(zāi)點(diǎn)樣本作為研究區(qū)的地質(zhì)災(zāi)害精度檢驗(yàn)樣本,導(dǎo)入SPSS軟件中進(jìn)行精度檢驗(yàn)(ROC),工作流程見(jiàn)圖2。
圖2 研究區(qū)易發(fā)性評(píng)價(jià)流程圖Fig.2 Flow chart of susceptibility evaluation in study area
在十堰市鄖陽(yáng)區(qū)地質(zhì)災(zāi)害風(fēng)險(xiǎn)調(diào)查資料的基礎(chǔ)上,充分研究區(qū)內(nèi)地質(zhì)災(zāi)害的孕災(zāi)環(huán)境,經(jīng)過(guò)分析選擇坡度、工程巖組、距道路的距離、植被指數(shù)等7個(gè)影響因子(易發(fā)性評(píng)價(jià)通常不考慮人類(lèi)工程活動(dòng)、降雨等誘發(fā)因素)作為研究區(qū)地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)因子(圖3),每個(gè)因子的分級(jí)指標(biāo)見(jiàn)表2。從表3中統(tǒng)計(jì)得出的地災(zāi)點(diǎn)個(gè)數(shù)在各個(gè)因子分級(jí)中的數(shù)量分布可以看出,地災(zāi)點(diǎn)分布規(guī)律接近野外實(shí)際情況,分布較合理,無(wú)明顯的分布不均,本次對(duì)于評(píng)價(jià)因子的分級(jí)標(biāo)準(zhǔn)整體符合野外實(shí)際地災(zāi)點(diǎn)分布規(guī)律。
根據(jù)868個(gè)地災(zāi)樣本點(diǎn)和坡度、工程巖組、植被指數(shù)等7個(gè)評(píng)價(jià)因子分類(lèi)級(jí)別中的分布特征,利用前述I值計(jì)算公式,計(jì)算各分類(lèi)級(jí)別在各因子中的信息量值,各分類(lèi)級(jí)別的I值見(jiàn)表3。
表2 十堰市鄖陽(yáng)區(qū)地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)因子指標(biāo)分級(jí)表Table 2 Index classification table of geological disaster susceptibilityevaluation factors in Yunyang District, Shiyan City
圖3 研究區(qū)地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)因子Fig.3 Influence factors of susceptibility of geological disasters in study area
表3 各評(píng)價(jià)因子分類(lèi)級(jí)別信息量模型計(jì)算結(jié)果表Table 3 Calculation result table of information quantity model level of evaluation factors
本文在計(jì)算信息量值的基礎(chǔ)上,隨機(jī)選取災(zāi)害點(diǎn)總樣本的80%作為訓(xùn)練樣本,提取每個(gè)樣本的各個(gè)因子等級(jí)值,在SPSS軟件中進(jìn)行多重共線性診斷,統(tǒng)計(jì)其方差膨脹因子(VIF)。對(duì)所選7個(gè)評(píng)價(jià)因子進(jìn)行共線性診斷,其VIF計(jì)算結(jié)果顯示VIF值在1~1.3。其VIF<5,說(shuō)明無(wú)明顯偏高因子,表明變量之間不存在共線性,相互之間無(wú)交互作用(表4)。
利用相關(guān)分析再次對(duì)7個(gè)評(píng)價(jià)因子之間的獨(dú)立性進(jìn)行檢驗(yàn),以保證變量之間的獨(dú)立性,各評(píng)價(jià)因子之間的相關(guān)系數(shù)矩陣見(jiàn)表5,結(jié)果顯示各評(píng)價(jià)因子之間的相關(guān)系數(shù)均<0.4,表明評(píng)價(jià)因子之間的相關(guān)性較小,7個(gè)評(píng)價(jià)因子均可以進(jìn)入模型。
表4 各評(píng)價(jià)因子VIF計(jì)算結(jié)果表Table 4 Calculation results for each evaluation factor VIF
表5 評(píng)價(jià)因子之間的相關(guān)系數(shù)矩陣Table 5 Correlation coefficient matrix between evaluation factors
將868個(gè)樣本點(diǎn)7個(gè)評(píng)價(jià)因子的I值輸入SPSS軟件中進(jìn)行二項(xiàng)邏輯回歸分析,各評(píng)價(jià)因子分類(lèi)級(jí)別的I值作為自變量,是否發(fā)生地質(zhì)災(zāi)害作為因變量(1代表地質(zhì)災(zāi)害樣本點(diǎn),0代表非地質(zhì)災(zāi)害樣本點(diǎn))。邏輯回歸分析結(jié)果中B代表各因子權(quán)重的大小,每個(gè)變量在方程中的統(tǒng)計(jì)學(xué)意義要通過(guò)比較Sig.值來(lái)判斷,當(dāng)Sig.值<0.05時(shí)才有統(tǒng)計(jì)意義。邏輯回歸分析結(jié)果顯示模型計(jì)算出的工程巖組因子的Sig.值為0.107,無(wú)法通過(guò)顯著性檢驗(yàn),無(wú)統(tǒng)計(jì)意義。將該因子剔除,剩余6個(gè)因子重新利用二項(xiàng)邏輯回歸模型計(jì)算,結(jié)果顯示6個(gè)因子顯著性均<0.05(表6)。因此,其回歸系數(shù)在誤差允許范圍內(nèi)是準(zhǔn)確的,該模型的評(píng)價(jià)因子權(quán)重值即為表6中的各因子回歸系數(shù)(B)值。
信息量法+Logistic回歸模型計(jì)算出的權(quán)重因子按照大小降序排列依次為:植被指數(shù)、道路、斷層、水系、坡度、高程??梢?jiàn)植被指數(shù)對(duì)模型貢獻(xiàn)變化最大,計(jì)算出所有回歸因子均>0,說(shuō)明這些因子在模型中同時(shí)起到正向作用。
表6 邏輯回歸分析結(jié)果Table 6 Results of logistic regression analysis
在ArcGIS軟件中,依據(jù)得到的各評(píng)價(jià)因子I值和回歸系數(shù)值(B值),采用自然間斷法分級(jí)將研究區(qū)分成4個(gè)區(qū),最終形成研究區(qū)易發(fā)性分區(qū)(圖4)。
兩種模型得出的極高易發(fā)區(qū)和高易發(fā)區(qū)主要分布在青曲鎮(zhèn)—城關(guān)鎮(zhèn)—青山鎮(zhèn)地帶以及重要交通干線,分區(qū)結(jié)果與實(shí)際地質(zhì)災(zāi)害隱患點(diǎn)分布規(guī)律基本吻合。結(jié)合災(zāi)害點(diǎn)分布及所占比例分析2種模型得到的面積占比可知(表7),信息量模型低易發(fā)分區(qū)和中易發(fā)分區(qū)面積占比為6.9%,而信息量法+Logistic回歸模型低易發(fā)分區(qū)和中易發(fā)分區(qū)面積占比為14.63%;同時(shí)信息量法+Logistic回歸模型中植被指數(shù)權(quán)重因子占比最大,與實(shí)際影響地災(zāi)點(diǎn)分布的權(quán)重因子客觀規(guī)律略有差異。結(jié)合項(xiàng)目組野外調(diào)查資料,隨機(jī)選取兩種模型存在差異的地災(zāi)點(diǎn)進(jìn)行驗(yàn)證,分析其歷史受災(zāi)情況,以及工程巖組特征、高程等多個(gè)因子的分布規(guī)律,綜合分析認(rèn)為信息量模型得出的災(zāi)害點(diǎn)分布規(guī)律更加符合野外實(shí)際情況。
表7 兩種模型地質(zhì)災(zāi)害易發(fā)性分區(qū)對(duì)比分析表Table 7 Comparative analysis table of two models of geological hazard-prone areas
圖4 研究區(qū)地質(zhì)災(zāi)害易發(fā)性分區(qū)對(duì)比圖Fig.4 Comparative map of susceptibility zoning in study areaA.信息量模型;B.信息量法+Logistic回歸模型。
ROC曲線即受試者工作特征曲線,是地質(zhì)災(zāi)害易發(fā)區(qū)域評(píng)價(jià)精度驗(yàn)證的常用方法[15-16]。AUC(Area Under Curve)表示ROC曲線下的面積,是度量分類(lèi)模型好壞的一個(gè)標(biāo)準(zhǔn),其值介于0~1間,越接近1,則模型模擬值和樣本值越接近;AUC評(píng)價(jià)指標(biāo)值越大,則代表模型分類(lèi)結(jié)果的準(zhǔn)確性越高,即模型精度越高。
檢驗(yàn)結(jié)果顯示,信息量模型和信息量法+Logistic回歸模型的AUC值分別為0.759和0.764(圖5、表8),漸近顯著性b均<0.05;信息量法+Logistic回歸模型比信息量模型AUC值略高,AUC值差異不明顯,說(shuō)明兩種模型的評(píng)價(jià)結(jié)果差異不大。由于信息量法+Logistic回歸模型在計(jì)算過(guò)程中剔除了工程巖組評(píng)價(jià)因子,實(shí)際野外地質(zhì)災(zāi)害隱患點(diǎn)分布特征與工程巖組密切相關(guān),結(jié)合兩種模型的面積分布及地災(zāi)點(diǎn)分布規(guī)律,選擇更接近于實(shí)際災(zāi)害隱患點(diǎn)信息量模型作為十堰市鄖陽(yáng)區(qū)地災(zāi)易發(fā)性評(píng)價(jià)模型。
圖5 ROC曲線Fig.5 ROC curve圖中紅線為信息量模型ROC曲線,藍(lán)線為信息量法+Logistic回歸模型ROC曲線。
表8 AUC檢驗(yàn)結(jié)果Table 8 Test results of AUC
部分學(xué)者認(rèn)為多種方法組合評(píng)價(jià)效果優(yōu)于單一方法評(píng)價(jià)[17-18],但是本文認(rèn)為地災(zāi)易發(fā)性評(píng)價(jià)模型方法的選擇需要結(jié)合項(xiàng)目實(shí)際情況,綜合工程地質(zhì)、地形、地災(zāi)點(diǎn)的分布特征等多種因素,不能簡(jiǎn)單依據(jù)統(tǒng)計(jì)學(xué)擬合參數(shù)來(lái)選擇數(shù)學(xué)模型方法,從而得出最優(yōu)的數(shù)學(xué)模型評(píng)價(jià)地質(zhì)災(zāi)害的易發(fā)性。
在地質(zhì)災(zāi)害評(píng)價(jià)中數(shù)學(xué)模型的選擇不一定兩種方法模型疊加使用較一種模型效果好,需要結(jié)合項(xiàng)目實(shí)際情況來(lái)選擇合適的數(shù)學(xué)模型。
選取坡度、高程、距道路的距離、距斷層的距離、距水系的距離、植被指數(shù)、工程巖組等7個(gè)影響因子作為十堰市鄖陽(yáng)區(qū)地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)因子,利用信息量模型以及信息量法+Logistic回歸模型對(duì)該區(qū)地質(zhì)災(zāi)害易發(fā)性進(jìn)行評(píng)價(jià),同時(shí)與單獨(dú)使用的信息量模型評(píng)價(jià)結(jié)果進(jìn)行對(duì)比分析,研究結(jié)果如下:
(1) 基于信息量模型對(duì)研究區(qū)進(jìn)行地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)的結(jié)果表明,極高易發(fā)區(qū)和高易發(fā)區(qū)主要分布在青曲鎮(zhèn)—城關(guān)鎮(zhèn)—青山鎮(zhèn)地帶,與實(shí)際的地質(zhì)災(zāi)害隱患點(diǎn)分布一致,低易發(fā)區(qū)和極低易發(fā)區(qū)中,地質(zhì)災(zāi)害隱患點(diǎn)占比只有6.9%,模型預(yù)測(cè)效果較信息量法+Logistic回歸模型好。
(2) 利用ROC曲線精度檢驗(yàn)結(jié)果顯示,信息量模型和信息量法+Logistic回歸模型的AUC值分別為0.759和0.764,評(píng)價(jià)結(jié)果對(duì)比兩者差別不大,兩者均能較為客觀準(zhǔn)確地評(píng)價(jià)鄖陽(yáng)區(qū)地質(zhì)災(zāi)害易發(fā)性,但是由于工程巖組評(píng)價(jià)因子在信息量法+Logistic回歸模型中Sig.值無(wú)法通過(guò)顯著性檢驗(yàn),考慮到實(shí)際地災(zāi)隱患點(diǎn)分布與工程巖組有一定的相關(guān)性,故選用信息量模型作為十堰市鄖陽(yáng)區(qū)地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)的結(jié)果。
(3) 在地質(zhì)災(zāi)害評(píng)價(jià)中數(shù)學(xué)模型的選擇不一定兩種方法模型疊加使用較一種模型效果好,需要結(jié)合項(xiàng)目實(shí)際情況來(lái)選擇合適的評(píng)價(jià)模型。