王姊輝 董恒 趙洋甬 何思聰 袁艷斌 張力文
(武漢理工大學(xué),武漢,430070)(浙江時空智子大數(shù)據(jù)有限公司)(武漢理工大學(xué))(武漢華夏理工學(xué)院)
森林火災(zāi)作為森林資源的主要災(zāi)害之一。隨著全球氣候變化,森林火災(zāi)發(fā)生頻率越來越高,全球平均每年發(fā)生森林火災(zāi)數(shù)十萬次,且過火面積也逐漸增大,對森林生態(tài)環(huán)境造成破壞,導(dǎo)致了大量的人員傷亡和經(jīng)濟(jì)損失[1-3]。20世紀(jì)60~90年代,由于森林火災(zāi)發(fā)生所產(chǎn)生的碳排放量增加了900 Tg/a,對氣候變暖造成了一定影響[4-5]。同時,氣候變暖使森林火災(zāi)行為更加復(fù)雜多變,大大增加了森林火災(zāi)的撲救難度[6]。因此,林火預(yù)警在森林管理中變得尤為重要。目前,傳統(tǒng)的林火風(fēng)險預(yù)測模型多采用經(jīng)驗(yàn)或半經(jīng)驗(yàn)方法構(gòu)建,主要分為歷史數(shù)據(jù)的預(yù)測方法與實(shí)驗(yàn)數(shù)據(jù)的預(yù)測方法,歷史數(shù)據(jù)的累積和實(shí)驗(yàn)數(shù)據(jù)的獲取具有較強(qiáng)的局限性,模型預(yù)測精度較低[7],原因是森林火險指數(shù)主要考慮氣象因素[8-9],忽略了與森林火險指數(shù)相關(guān)的其他要素(如:可燃物含水率、地形因子等)。因此,傳統(tǒng)的林火預(yù)警方法難以滿足林火管理的需求。
隨著機(jī)器學(xué)習(xí)算法的應(yīng)用越來越廣泛,利用機(jī)器學(xué)習(xí)的方法進(jìn)行林火風(fēng)險預(yù)測成為可能,機(jī)器學(xué)習(xí)算法在森林火災(zāi)預(yù)測方面具有較為優(yōu)越的性能[10-14]。機(jī)器學(xué)習(xí)模型在不同區(qū)域,對森林火災(zāi)風(fēng)險預(yù)警有著巨大的潛力。邏輯回歸模型和隨機(jī)森林模型在林火風(fēng)險預(yù)測方面有良好的表現(xiàn),但近年來提出的極端梯度提升模型在分類上也有很好的表現(xiàn)[15]。本研究以中國云貴川行政區(qū)作為研究區(qū)域,應(yīng)用隨機(jī)森林模型、邏輯回歸模型及極端梯度提升模型對森林火災(zāi)預(yù)測。并且在氣象因素作為預(yù)測因子預(yù)測的基礎(chǔ)上,引入地形因素及可燃物含水率因素,對預(yù)測模型進(jìn)行改進(jìn),以提升模型預(yù)測精度,為云貴川區(qū)域林火預(yù)警提供技術(shù)支持。
以云貴川行政區(qū)作為主要研究區(qū),該地區(qū)擁有豐富的林業(yè)資源,平均森林覆蓋率為52.5%,且地形復(fù)雜,以山地、高原為主(見圖1)。云貴川地區(qū)氣候干濕狀況存在著較大的地理差異,整體上具有“東濕西干”的分布特征,該特點(diǎn)歸因于該地區(qū)降水量空間分布不均勻,局地差異大,大體呈由東、南向西北減少的分布形勢,干濕狀況季節(jié)特征明顯,夏季濕潤,春冬季干燥[16]。
圖1 云貴川地區(qū)地形概況
森林火災(zāi)預(yù)測較為復(fù)雜,其不僅與氣象因素相關(guān),還與可燃物含水率、地形等諸多因素相關(guān)[17-19]。因此,結(jié)合氣溫、風(fēng)速、降水量、相對濕度、可燃物含水率及地形因子等環(huán)境因子構(gòu)建森林火災(zāi)預(yù)警監(jiān)測模型。
MCD64A1數(shù)據(jù)集:數(shù)據(jù)來源于美國航空航天局(https://earthdata.nasa.gov),MCD64A1數(shù)據(jù)集是中分辨率成像光譜儀MODIS數(shù)據(jù)[20],該數(shù)據(jù)集包括燃燒日期、燃燒日期不確定性、質(zhì)量控制碼等信息。本研究使用2016—2020年MCD64A1數(shù)據(jù)集,提取其熱異常點(diǎn)數(shù)據(jù),依據(jù)燃燒日期不確定性及質(zhì)量控制碼篩選出火點(diǎn)數(shù)據(jù),并對月合成火點(diǎn)數(shù)據(jù)建立半變異函數(shù),用以確定緩沖區(qū)半徑,建立火點(diǎn)數(shù)據(jù)緩沖區(qū)[21];由于氣象、可燃物含水率及地形因素在一定范圍內(nèi)存在相似性,因此在緩沖區(qū)范圍外,依據(jù)隨機(jī)空間分布,選取等量非火點(diǎn)數(shù)據(jù)構(gòu)建預(yù)測數(shù)據(jù)集。
MCD14DL數(shù)據(jù)集:數(shù)據(jù)來源于美國航空航天局(https://earthdata.nasa.gov)發(fā)布的主動近實(shí)時火災(zāi)產(chǎn)品[22]。該數(shù)據(jù)集包含火點(diǎn)發(fā)生的日期、經(jīng)緯度位置、置信度等信息。本研究篩選出2021年1—4月每月1號中置信度大于30%的火點(diǎn)數(shù)據(jù),作為模型的驗(yàn)證數(shù)據(jù)集。
可燃物含水率數(shù)據(jù):可燃物含水率即植被冠層含水量與其干質(zhì)量的比率,直接影響森林火災(zāi)發(fā)生的概率[23-24]。本文根據(jù)MODIS的8 d合成反射率數(shù)據(jù)(MOD09A1),計算植被水分指數(shù)(INDWI)代替可燃物含水率[25-26],INDWI=(ρNIR-ρMIR)/(ρNIR+ρMIR)。式中,ρNIR為近紅外波段反射率,ρMIR為中紅外波段反射率,INDWI為植被水分指數(shù)。
氣象數(shù)據(jù):氣溫、風(fēng)速、降水量、相對濕度、連續(xù)無降水日和蒸發(fā)量,都對森林火災(zāi)的發(fā)生有著顯著影響。其中,降水量、氣溫與風(fēng)速對云貴川地區(qū)森林火災(zāi)的發(fā)生有顯著的影響,采用蒸發(fā)量與連續(xù)無降水日因素表征研究區(qū)域的干旱狀況[27-29]。蒸發(fā)量數(shù)據(jù)使用ECMWF對全球氣候的第五代大氣再分析數(shù)據(jù)集(https://cds.climate.copernicus.eu/cdsapp#!/dataset/reanalysis-era5-land?tab=overview)。氣溫、風(fēng)速、降水量、相對濕度以及連續(xù)無降水日等使用的中國地面氣候資料日值數(shù)據(jù)集(v3.0),數(shù)據(jù)來來源于國家氣象信息中心(http://data.cma.cn),包括全國范圍內(nèi)所有國家級氣象站2016—2021年的日降水量(08:00至次日08:00)、日平均氣溫、日平均濕度和日平均風(fēng)速。利用反距離權(quán)重插值法(IDW)對日值氣象數(shù)據(jù)進(jìn)行插值,作為森林火災(zāi)的預(yù)測因子,構(gòu)建模型訓(xùn)練數(shù)據(jù)集。
地形數(shù)據(jù):地形因子通過影響氣候、植被等要素,間接對森林火災(zāi)的發(fā)生產(chǎn)生影響[30]。本研究使用的地形數(shù)據(jù)為SRTM1 V3.0數(shù)據(jù)集(https://earthdata.nasa.gov)[31]。利用SRTM1數(shù)據(jù)集,提取云貴川地區(qū)坡度、坡向數(shù)據(jù)。
邏輯回歸模型(LRM)。邏輯回歸模型通過對研究變量與影響因子進(jìn)行回歸分析,并將結(jié)果利用sigmod函數(shù)進(jìn)行歸一化處理,再進(jìn)行閾值分割,常用于二分類問題[10-11]。本研究利用火點(diǎn)數(shù)據(jù)與氣象、地形及可燃物含水率數(shù)據(jù),對邏輯回歸模型進(jìn)行訓(xùn)練,最終實(shí)現(xiàn)對森林火災(zāi)發(fā)生概率的預(yù)測。
隨機(jī)森林模型(RFM)。隨機(jī)森林模型通過建立多棵決策樹,利用樣本對每棵決策樹進(jìn)行訓(xùn)練,最終使用決策樹構(gòu)成的森林對預(yù)測數(shù)據(jù)進(jìn)行預(yù)測[11-14]。本研究中隨機(jī)森林模型選取決策樹數(shù)量為100,結(jié)合影響因子數(shù)據(jù)集進(jìn)行二元分類,最終用于日尺度森林火災(zāi)事件的預(yù)測。
極限梯度提升模型(XGB)。梯度提升采用連續(xù)的方式構(gòu)造樹,每顆樹都試圖糾正前一棵樹的錯誤,在分類方面表現(xiàn)良好[15]。本文在日尺度上,根據(jù)森林火災(zāi)與影響因子數(shù)據(jù),利用極端梯度提升模型,實(shí)現(xiàn)森林火災(zāi)風(fēng)險預(yù)測。
從氣象站點(diǎn)的日觀測數(shù)據(jù)中選擇日降水量(08:00至次日08:00)、日平均氣溫、日平均濕度和日平均風(fēng)速等候選氣象因子(見表1)。
各模型分別根據(jù)因子相關(guān)性及特征重要性從候選氣象要素中遴選出各模型的關(guān)鍵氣象要素。邏輯回歸模型因子選擇根據(jù)各因子之間的方差膨脹系數(shù),在存在共線性(方差膨脹系數(shù)大于10)的因子間,保留與火災(zāi)事件相關(guān)系數(shù)高的變量;隨機(jī)森林模型及極端梯度提升模型則選取特征重要性高于5%的變量[20]。因子選擇結(jié)果見表2。
表1 候選氣象因子
表2 各模型氣象因子選擇
本研究選取了準(zhǔn)確率、召回率和受試者特征(ROC)曲線作為模型驗(yàn)證參數(shù),其中準(zhǔn)確率為所有預(yù)測正確的個數(shù)比例,即在樣本均衡的情況下,準(zhǔn)確率越高,模型性能越好;召回率為正確分類的正例個數(shù)占實(shí)際正樣本個數(shù)的比例,即召回率越高,正確分類的實(shí)際火點(diǎn)比例越高。ROC曲線不受分割閾值的影響,可以很好的評判模型的泛化能力;ROC曲線是根據(jù)不同的分割閾值,以真正率為縱軸,假正率為橫軸繪制而成;ROC曲線下的面積(AUC)值越接近1,則說明模型預(yù)測能力越好。在保證模型預(yù)測精度的同時,為防止模型過擬合,確保其穩(wěn)定性,本研究還采用k折交叉驗(yàn)證的方法對模型的魯棒性進(jìn)行評價。
根據(jù)MCD64A1數(shù)據(jù)集,共提取云貴川地區(qū)2016—2020年森林火點(diǎn)6 253個,森林火災(zāi)主要發(fā)生在12月份至次年5月份。1—5月份發(fā)生森林火災(zāi)約占全年森林火災(zāi)次數(shù)的比例為86.1%,其中,2月份火災(zāi)次數(shù)最多(31.7%),其次為3月份和4月份,占全年森林火災(zāi)次數(shù)的比例分別為26.1%和11.5%。
由圖2、表3可知,2016—2020年云貴川地區(qū)實(shí)際發(fā)生森林火災(zāi)點(diǎn)分布主要集中于云南省南部及西北部、四川省南部以及貴州省南部地區(qū)。云南省2016—2020年發(fā)生火災(zāi)最多,共發(fā)生4 158起,占總森林火災(zāi)事件的比例為66.5%;其次為四川省,占總森林火災(zāi)事件的比例為31.3%;貴州省最少,占總森林火災(zāi)事件的比例為2.2%。
表3 2016—2020年云貴川地區(qū)森林火點(diǎn)
由表4可知,在各機(jī)器學(xué)習(xí)模型中,極端梯度提升模型的準(zhǔn)確率及召回率均高于隨機(jī)森林與邏輯回歸模型,前者準(zhǔn)確率高于后者均超過2%,召回率高于后者均超過約4%。極端梯度提升及隨機(jī)森林模型優(yōu)于邏輯回歸的主要原因是溫度因素存在滯后性的影響,由于變量之間的共線性,邏輯回歸模型訓(xùn)練集剔除了前24 h平均溫度、前72 h平均溫度兩個變量。因此,在模型預(yù)測性能方面,極端梯度提升模型表現(xiàn)最好,隨機(jī)森林模型次之,邏輯回歸模型相對較差。
由于準(zhǔn)確率及召回率等評價指標(biāo)容易受到模型分割閾值的影響,因而進(jìn)一步根據(jù)ROC曲線對各模型進(jìn)行評價。由圖3可知,3個機(jī)器學(xué)習(xí)模型均有較好的表現(xiàn),三者AUC值均接近或大于0.8,但其中極端梯度提升模型預(yù)測精度最好AUC值為0.956 7,隨機(jī)森林次之,邏輯回歸最差,森林火災(zāi)數(shù)據(jù)集與預(yù)測因子數(shù)據(jù)集之間線性程度不高,故邏輯回歸模型表現(xiàn)不如極端梯度提升模型與隨機(jī)森林模型。因此,在模型泛化能力方面,極端梯度提升模型表現(xiàn)最好,隨機(jī)森林模型次之,邏輯回歸模型相對較差。
表4 不同模型準(zhǔn)確率及召回率
圖2 2016—2020年云貴川地區(qū)森林火點(diǎn)分布
圖3 各模型日尺度預(yù)測的ROC曲線
除氣象因素外,地形因素對森林火災(zāi)也有著間接的影響,而可燃物含水率對森林火災(zāi)則有著直接的影響。本研究采用植被水分指數(shù)(INDWI)對植被可燃物含水率進(jìn)行替代,引入地形因素及植被水分指數(shù)對模型進(jìn)行修正。經(jīng)過多重共線性檢驗(yàn)或特征重要性排行,邏輯回歸模型訓(xùn)練數(shù)據(jù)集加入坡向、高程及植被水分指數(shù);隨機(jī)森林模型訓(xùn)練數(shù)據(jù)集加入高程、植被水分指數(shù);極端梯度提升模型訓(xùn)練數(shù)據(jù)集加入坡度、高程及植被水分指數(shù)。
由表5可知,加入地形因素及植被水分指數(shù)后,各模型準(zhǔn)確率及召回率均有所提升。極端梯度提升模型AUC值略有提升,邏輯回歸模型AUC值略有下降,隨機(jī)森林模型AUC值變化不大。但引入地形因素及植被水分指數(shù)對3種機(jī)器學(xué)習(xí)模型的預(yù)測效果均有優(yōu)化。
表5 地形因素及植被水分指數(shù)修正后各模型準(zhǔn)確率、召回率及AUC值
由表6可知,采用10折交叉驗(yàn)證對3種機(jī)器學(xué)習(xí)模型的魯棒性進(jìn)行了評價,交叉驗(yàn)證中采用準(zhǔn)確率作為評估標(biāo)準(zhǔn)。3種模型準(zhǔn)確率變異系數(shù)均小于0.05,模型均具有較好的魯棒性。極端梯度提升模型表現(xiàn)最好,準(zhǔn)確率均值、標(biāo)準(zhǔn)差及變異系數(shù)均優(yōu)于邏輯回歸及隨機(jī)森林模型。
由圖4可知,邏輯回歸模型預(yù)測云貴川地區(qū)的林火高發(fā)區(qū)域的分布,2021年1月1日林火高發(fā)區(qū)域主要集中在云南省中西部、四川省中部及貴州省西部;2021年2月1日林火高發(fā)區(qū)域主要集中在云南省東部與南部、四川省東部及貴州省西南部;2021年3月1日林火高發(fā)區(qū)域主要集中在云南省北部與東部、四川省中部及貴州省南部;2021年4月1日林火高發(fā)區(qū)域主要集中在云南省西南部與東部、四川省東部及貴州省東部。
由圖5可知,隨機(jī)森林模型預(yù)測云貴川地區(qū)的林火高發(fā)區(qū)域分布情況,2021年1月1日林火高發(fā)區(qū)域主要集中在云南省西部、四川省中部及貴州省東南部;2021年2月1日林火高發(fā)區(qū)域主要集中在云南省中部與西部、四川省中部;2021年3月1日林火高發(fā)區(qū)域主要集中在云南省中部、四川省西部;2021年4月1日林火高發(fā)區(qū)域主要集中在云南省中部與東部、四川省中部及貴州省西南部。
表6 各模型交叉驗(yàn)證準(zhǔn)確率均值、標(biāo)準(zhǔn)差及變異系數(shù)
圖4 邏輯回歸模型預(yù)測結(jié)果
由圖6可知,極端梯度提升模型預(yù)測的林火高發(fā)區(qū)域分布情況, 2021年1月1日林火高發(fā)區(qū)域主要集中在云南省西部、四川省中部及貴州省南部;2021年2月1日林火高發(fā)區(qū)域主要集中在云南省中部與西部、四川省中部;2021年3月1日林火高發(fā)區(qū)域主要集中在云南省中部與北部、四川省西部及貴州省西南部;2021年4月1日林火高發(fā)區(qū)域主要集中在云南省中部與東部、四川省中部及貴州省西部。
較高的林火燃燒概率僅表示該地區(qū)發(fā)生火災(zāi)的可能性較高,并不代表火災(zāi)的發(fā)生,這也是預(yù)測結(jié)果中存在大面積林火高發(fā)區(qū)域的主要原因。
根據(jù)MCD14DL數(shù)據(jù)集,預(yù)測日期內(nèi)共有火點(diǎn)408個,對火點(diǎn)創(chuàng)建緩沖區(qū)(5 km),在緩沖區(qū)外依據(jù)空間分布,隨機(jī)選取等量非火點(diǎn)數(shù)據(jù)。根據(jù)邏輯回歸、隨機(jī)森林及極端梯度提升模型最優(yōu)分割閾值分別為0.512、0.532及0.509,據(jù)此計算預(yù)測值的準(zhǔn)確率。
圖5 隨機(jī)森林模型預(yù)測結(jié)果
圖6 極端梯度提升模型預(yù)測結(jié)果
由表7可知,機(jī)器學(xué)習(xí)模型在預(yù)測林火燃燒概率方面均可以達(dá)到一個較好的準(zhǔn)確率。在總準(zhǔn)確率方面,極端梯度提升模型預(yù)測表現(xiàn)最優(yōu),隨機(jī)森林模型次之,邏輯回歸模型相對較差;而在火點(diǎn)預(yù)測準(zhǔn)確率方面隨機(jī)森林模型表現(xiàn)最好,極端梯度提升模型次之,邏輯回歸最差。造成上述現(xiàn)象的原因:一是隨機(jī)森林整體林火燃燒概率預(yù)測值偏高;二是高林火燃燒概率并不等于火災(zāi)的發(fā)生,即訓(xùn)練數(shù)據(jù)集及驗(yàn)證集中均存在高燃燒概率的非火點(diǎn)。但模型火點(diǎn)預(yù)測準(zhǔn)確率較高,說明模型在林火燃燒概率預(yù)測方面表現(xiàn)較好。
表7 MCD14DL火點(diǎn)數(shù)據(jù)準(zhǔn)確率
本文結(jié)合氣象因子、地形因子及可燃物含水率因子,應(yīng)用了邏輯回歸、隨機(jī)森林及極端梯度提升模型對云貴川區(qū)域林火燃燒概率進(jìn)行預(yù)測。結(jié)果表明,在日尺度林火燃燒概率預(yù)測上,極端梯度提升模型的整體預(yù)測準(zhǔn)確率高于邏輯回歸、隨機(jī)森林模型;隨機(jī)森林模型整體預(yù)測值較高,導(dǎo)致其在火點(diǎn)預(yù)測準(zhǔn)確率高,非火點(diǎn)預(yù)測準(zhǔn)確率差;而邏輯回歸模型在非火點(diǎn)預(yù)測方面準(zhǔn)確率優(yōu)于其他兩個模型。其原因是由于極端梯度提升模型在訓(xùn)練過程中不斷修正模型預(yù)測值與真值之間的誤差,因此最終可以達(dá)到一個較好的結(jié)果。此外,地形因素及植被水分指數(shù)對森林火災(zāi)的發(fā)生具有重要影響,因此引入地形因素及植被水分指數(shù)對林火預(yù)測模型優(yōu)化,進(jìn)一步提高了預(yù)測結(jié)果的準(zhǔn)確率。