王旭,王保云,3,韓俊,徐繁樹
(1.云南師范大學(xué) 數(shù)學(xué)學(xué)院,云南 昆明 650500;2.云南師范大學(xué) 信息學(xué)院,云南 昆明 650500;3.云南省高校復(fù)雜系統(tǒng)建模及應(yīng)用重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)
泥石流災(zāi)害是一種常見的自然災(zāi)害。泥石流借助地形沖入城鎮(zhèn)和鄉(xiāng)村,破壞建筑設(shè)施,造成人員傷亡和巨大的經(jīng)濟(jì)損失。由于云南省地形陡峭、降水集中,泥石流災(zāi)害發(fā)生極為頻繁。近年來(lái),許多研究者應(yīng)用機(jī)器學(xué)習(xí)算法對(duì)泥石流數(shù)據(jù)進(jìn)行預(yù)測(cè)。張蓉基于支持向量機(jī)建立了泥石流危害性預(yù)測(cè)模型,具有良好的使用價(jià)值;徐黎明等人基于BP神經(jīng)網(wǎng)絡(luò),通過對(duì)云南東川蔣家溝泥石流觀測(cè)數(shù)據(jù)的訓(xùn)練與預(yù)測(cè)建立了泥石流平均流速的預(yù)測(cè)模型,取得了較滿意的效果;孔艷基于結(jié)合信息量法和層次分析法、邏輯回歸法以及人工神經(jīng)網(wǎng)絡(luò)法三種方法建立了泥石流危險(xiǎn)性評(píng)估的預(yù)測(cè)模型,并構(gòu)建了泥石流危險(xiǎn)性預(yù)測(cè)模擬平臺(tái),實(shí)現(xiàn)了對(duì)泥石流災(zāi)害的預(yù)測(cè)查詢。
目前,深度學(xué)習(xí)在各類機(jī)器學(xué)習(xí)任務(wù)上取得了巨大的成功,但是深度學(xué)習(xí)需要海量的帶有標(biāo)簽的數(shù)據(jù)支持才能取得好的效果,這限制了一些實(shí)際的應(yīng)用。那么,是否利用少量樣本就能訓(xùn)練出較好的模型呢?小樣本學(xué)習(xí)應(yīng)運(yùn)而生。顧名思義,小樣本學(xué)習(xí)可以在深度學(xué)習(xí)的模型下利用少量樣本進(jìn)行學(xué)習(xí)。在實(shí)踐中,一些地區(qū)泥石流發(fā)生頻繁,但是很難精準(zhǔn)地提取到發(fā)生泥石流災(zāi)害的溝谷,獲取一條準(zhǔn)確地泥石流溝谷,需要大量的資料,反復(fù)研究和確定,目前獲取的泥石流溝谷樣本僅有幾十張,達(dá)不到深度學(xué)習(xí)所需的樣本數(shù)量。
為了解決深度學(xué)習(xí)過度依賴數(shù)據(jù)的問題,本文采用了小樣本學(xué)習(xí)(few-shot learning),選取原型網(wǎng)絡(luò)(Prototypical Network)作為小樣本學(xué)習(xí)框架,特征提取網(wǎng)絡(luò)分別使用了Conv4和ResNet12兩種淺層網(wǎng)絡(luò),對(duì)泥石流數(shù)據(jù)分別采用4-way 2-shot、2-way 7-shot和2-way 5-shot進(jìn)行訓(xùn)練,2-way 2-shot進(jìn)行測(cè)試,將小樣本學(xué)習(xí)框架和特征提取網(wǎng)絡(luò)進(jìn)行組合,實(shí)現(xiàn)了對(duì)泥石流是否發(fā)生的預(yù)測(cè)。
本文研究區(qū)域?yàn)樵颇鲜∨饔蛉鐖D1所示,怒江流域位于中國(guó)云南西北部,是典型的高山峽谷區(qū)。該流域地勢(shì)跌宕起伏,北高南低,高山與縱谷并列,是泥石流災(zāi)害易發(fā)區(qū)。
圖1 研究區(qū)域位置圖
實(shí)驗(yàn)數(shù)據(jù)提取的是怒江流域的溝谷數(shù)字高程模型(Digital Elevation Model, DEM)圖像。首先,將發(fā)生過泥石流的溝谷記為正樣本,未發(fā)生過泥石流的溝谷記為負(fù)樣本。對(duì)于正樣本,根據(jù)查閱到的云南怒江流域泥石流災(zāi)害相關(guān)新聞報(bào)道及文獻(xiàn)記錄,仔細(xì)核查泥石流發(fā)生的位置,結(jié)合谷歌地球和百度地圖,具體到發(fā)生的村莊并找到對(duì)應(yīng)的溝谷,用ArcGIS軟件提取該溝谷的DEM圖作為正樣本,共計(jì)50條。對(duì)于負(fù)樣本,選取了50條確定未發(fā)生過泥石流且附近有房屋建筑的怒江溝谷。在此基礎(chǔ)上,將得到的數(shù)據(jù)進(jìn)行了處理,圖像溝口的方向統(tǒng)一朝左,圖像統(tǒng)一裁剪和填充為正方形。最后,將正、負(fù)兩類樣本隨機(jī)打亂,將數(shù)據(jù)六分類,測(cè)試集每類放12張圖像,剩余的18張圖像平均放到測(cè)試集的六類中。溝谷的DEM圖像示意圖如圖2所示。
圖2 怒江流域溝谷DEM示意圖
小樣本學(xué)習(xí)是具有有限個(gè)監(jiān)督樣本的機(jī)器學(xué)習(xí),有限樣本與先驗(yàn)知識(shí)進(jìn)行結(jié)合,使得模型可以提取樣本中的信息。小樣本學(xué)習(xí)的經(jīng)典學(xué)習(xí)框架有:匹配網(wǎng)絡(luò)、原型網(wǎng)絡(luò)、孿生網(wǎng)絡(luò)和關(guān)系網(wǎng)絡(luò)。
本文的小樣本學(xué)習(xí)框架主要選取了原型網(wǎng)絡(luò)。原型網(wǎng)絡(luò)是由Snell等人提出的。原型網(wǎng)絡(luò)是基于CNN的度量元學(xué)習(xí)方法,可以防止樣本量少產(chǎn)生過擬合現(xiàn)象。原型網(wǎng)絡(luò)是將樣本投影到一個(gè)特征空間,支持集中的每類樣本嵌入特征向量的均值為一個(gè)類原型,度量與查詢集中的樣本嵌入特征向量的歐氏距離,利用最近鄰思想將查詢集的樣本分到支持集中正確的類別。
支持集原型的計(jì)算如式(1):
其中,C表示支持集每類的原型,S表示支持集中類別的樣本總數(shù),x表示類別中的一個(gè)樣本,y表示樣本對(duì)應(yīng)的標(biāo)簽,f(x)稱為特征嵌入函數(shù),表示支持集標(biāo)簽樣本嵌入空間特征向量。
原型網(wǎng)絡(luò)分類原理如圖3所示,其中,、、表示三個(gè)不同的類原型,x表示查詢集樣本嵌入特征向量。
圖3 原型網(wǎng)絡(luò)分類原理
本文采用的特征提取網(wǎng)絡(luò)為Conv4和ResNet12網(wǎng)絡(luò)。在原型網(wǎng)絡(luò)作為小樣本框架的條件下,這些網(wǎng)絡(luò)實(shí)現(xiàn)了對(duì)泥石流溝谷圖像的特征提取。Conv4網(wǎng)絡(luò)是由四個(gè)卷積組成的,而每個(gè)卷積由卷積層、批量歸一化層(batch normalization)、激活層(ReLU)和最大池化層(max pooling)組成。深度殘差網(wǎng)絡(luò)(Deep residual network,ResNet)是由何凱明等人提出的,提出了殘差學(xué)習(xí)單元(Residual Unit),訓(xùn)練出了152層深的神經(jīng)網(wǎng)絡(luò),是目前應(yīng)用最廣泛的CNN特征提取網(wǎng)絡(luò)。ResNet12網(wǎng)絡(luò)的深度為12,是一種淺層網(wǎng)絡(luò),由Basic Block搭成。該網(wǎng)絡(luò)中共有三個(gè)Basic Block,一個(gè)Basic Block由七部分的組成,如圖4所示。
圖4 Basic Block 殘差網(wǎng)絡(luò)結(jié)構(gòu)
怒江流域的泥石流溝谷DEM圖像作為實(shí)驗(yàn)數(shù)據(jù),支持集分別為4-way 2-shot、2-way 7-shot、2-way 5-shot,查詢集為2-way 2-shot,特征提取網(wǎng)絡(luò)分別為Conv4和ResNet12。每種組合進(jìn)行6次實(shí)驗(yàn)的平均準(zhǔn)確率作為實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)結(jié)果如表1所示。
表1 原型網(wǎng)絡(luò)對(duì)泥石流DEM圖像預(yù)測(cè)結(jié)果
由以上實(shí)驗(yàn)結(jié)果可以得到:怒江流域的溝谷DEM圖像數(shù)據(jù)六分類,原型網(wǎng)絡(luò)作為小樣本學(xué)習(xí)框架的條件下,使用不同的特征提取網(wǎng)絡(luò),不同的N-way K-shot,得到的實(shí)驗(yàn)結(jié)果不同。不同的特征提取網(wǎng)絡(luò)下,ResNet12比Conv4效果好;不同的N-way K-shot下,2-way 5-shot的表現(xiàn)最好。其中,特征提取網(wǎng)絡(luò)為ResNet12,2-way 5-shot的條件下,該組合表現(xiàn)最好,平均準(zhǔn)確率最高為75.36%。這表示:該模型有75.36%的可信度預(yù)測(cè)怒江流域某溝谷是否具有發(fā)生泥石流的可能性。
泥石流災(zāi)害是一種發(fā)生迅速、破壞力強(qiáng)的地質(zhì)災(zāi)害,我國(guó)云南省西北部地區(qū)是泥石流災(zāi)害的重災(zāi)區(qū),泥石流災(zāi)害的精準(zhǔn)預(yù)測(cè)對(duì)相關(guān)部門的防災(zāi)減災(zāi)工作具有至關(guān)重要的經(jīng)濟(jì)和社會(huì)價(jià)值。近幾年,由于小樣本學(xué)習(xí)所需的標(biāo)記樣本較少,受到研究領(lǐng)域廣泛的關(guān)注,以深度網(wǎng)絡(luò)作為特征提取器進(jìn)行小樣本學(xué)習(xí)的研究發(fā)展迅速。但是,如何從少量樣本中精準(zhǔn)的學(xué)習(xí)也是小樣本學(xué)習(xí)的主要挑戰(zhàn)之一。本文主要采用了小樣本學(xué)習(xí)中的原型網(wǎng)絡(luò)作為學(xué)習(xí)框架,選擇Conv4和ResNet12特征提取網(wǎng)絡(luò),對(duì)云南省怒江流域的泥石流數(shù)據(jù)進(jìn)行了預(yù)測(cè)實(shí)驗(yàn),得出以下幾點(diǎn)結(jié)論:
(1)將溝谷圖像進(jìn)行預(yù)處理,有助于提取圖像特征,更快地進(jìn)行訓(xùn)練。
(2)各種組合中,ResNet12+2-way 5-shot表現(xiàn)最佳,準(zhǔn)確率達(dá)到75.36%。由于數(shù)據(jù)量過少,準(zhǔn)確率不是很高。
(3)小樣本學(xué)習(xí)對(duì)于預(yù)測(cè)泥石流災(zāi)害有重要的價(jià)值,小樣本學(xué)習(xí)將會(huì)更多地用于實(shí)際應(yīng)用,如何提高模型的準(zhǔn)確率,如何從少量樣本中獲取特征仍然是小樣本學(xué)習(xí)的一個(gè)挑戰(zhàn)。