摘""要:為解決傳統(tǒng)機(jī)器學(xué)習(xí)方法在泥石流堆積扇識(shí)別中的精度低、效果差的問(wèn)題,提出一種基于深度學(xué)習(xí)的殘差注意力可分離UNet算法(RAMS-UNet)。該算法在編碼部分采用VGG16主干網(wǎng)絡(luò)進(jìn)行特征提取,加深網(wǎng)絡(luò)層次;在跳躍連接部分引入改進(jìn)的注意力機(jī)制,強(qiáng)化信息傳遞;在解碼部分使用深度可分離卷積和密集連接塊,進(jìn)一步增強(qiáng)空間和通道上的信息表達(dá)能力。研究結(jié)果表明:與其他算法相比,RAMS-UNet算法對(duì)泥石流堆積扇的分割精度更高, mIoU、mPA、PA和F1指數(shù)等評(píng)價(jià)指標(biāo)均顯著提升。RAMS-UNet算法突破了傳統(tǒng)方法在泥石流堆積扇識(shí)別中的局限性,為泥石流災(zāi)害評(píng)估提供了更加精準(zhǔn)的信息支持。
關(guān)鍵詞:泥石流堆積扇;溝谷型泥石流;語(yǔ)義分割;UNet算法;注意力機(jī)制;深度可分離卷積
中圖分類號(hào):TP751"""""""""""""""文獻(xiàn)標(biāo)志碼:A """"""""""""""""文章編號(hào):1008-0562(2024)06-0752-09
Segmentation of debris flow fan by a depth-separable UNet incorporating a residual attention mechanism
SONG Xin1, WANG Baoyun1,2*, ZHU Shuangying3
(1."School of Mathematics, Yunnan Normal University, Kunming 650500, China;"2."Yunnan Key Laboratory of Modern Analytical Mathematics and Applications, Yunnan Normal University, Kunming 650500, China;"3."School of Architectural Engineering, Kunming University, Kunming 650500, China)
Abstract:"In order to solve the problem of low accuracy and poor effect of traditional machine learning methods in debris flow accumulation fan recognition, a residual attention separable UNet algorithm based on deep learning (RAMS-UNet) is proposed. The algorithm uses VGG16 backbone network for feature extraction in the coding part to deepen the network level ; an improved attention mechanism is introduced in the jump connection part to strengthen information transmission. In the decoding part, deep separable convolution and dense connection blocks are used to further enhance the information expression ability on space and channels. The results show that compared with other algorithms, the RAMS-UNet algorithm has higher segmentation accuracy for debris flow accumulation fans, and the evaluation indexes such as mIoU, mPA, PA and F1"index are significantly improved. The RAMS-UNet algorithm breaks through the limitations of traditional methods in the identification of debris flow fans, and provides more accurate information support for debris flow disaster assessment.
Key"words:"debris flow fan; valley-type debris flow; semantic segmentation; UNet algorithm; attention mechanism; depth-wise separable convolution
0""引言
泥石流堆積扇(debris flow fan)是泥石流發(fā)育歷史的重要標(biāo)志,也是泥石流規(guī)模大小和危害范圍的量度指標(biāo)。準(zhǔn)確地分割泥石流堆積扇對(duì)泥石流地貌形成過(guò)程研究、泥石流災(zāi)害評(píng)估、監(jiān)測(cè)預(yù)警區(qū)域的選擇具有重要意義。
泥石流堆積扇識(shí)別的傳統(tǒng)方法為目視識(shí)別方法,該方法效率低、耗時(shí)長(zhǎng)。隨著數(shù)字圖像處理技術(shù)和機(jī)器學(xué)習(xí)的發(fā)展,學(xué)者們采用支持向量機(jī)[1](support vector machine,SVM)的分類算法、基于像元的分類算法等對(duì)泥石流堆積扇圖像進(jìn)行識(shí)別[2],但該類方法存在分割不完整、斷點(diǎn)和噪聲多等問(wèn)題。近年來(lái),隨著深度學(xué)習(xí)的快速發(fā)展,學(xué)者們采用深度學(xué)習(xí)的方法進(jìn)行圖像識(shí)別和分割,效果較好。例如,生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)算法[3]和卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)算法[4]等。
CNN算法具有強(qiáng)大的自動(dòng)學(xué)習(xí)特征能力和較好的識(shí)別準(zhǔn)確率,被廣泛應(yīng)用于圖像識(shí)別[5-7]。但利用CNN算法進(jìn)行圖像識(shí)別不能很好地識(shí)別物體輪廓,不能準(zhǔn)確識(shí)別某個(gè)像素的歸屬,無(wú)法做到精確分割。為解決此問(wèn)題,LONG等[8]提出針對(duì)像素級(jí)別的端對(duì)端全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional network,F(xiàn)CN)算法。但由FCN算法得到的識(shí)別結(jié)果仍不夠精細(xì)[9],存在很多噪聲點(diǎn)。因此,RONNEBERGER等[10]在FCN算法的基礎(chǔ)上提出UNet算法,該算法通過(guò)通道數(shù)拼接改進(jìn)圖像的特征融合方式,得到的特征更好。此外,由于每次下采樣提取特征時(shí)會(huì)丟失一些特征,這些丟失的特征并不能在上采樣中找回,UNet算法在FCN算法的基礎(chǔ)上添加跳躍連接,通過(guò)解碼階段復(fù)用編碼階段的特征來(lái)解決此問(wèn)題。與FCN算法相比,UNet算法在語(yǔ)義分割方面表現(xiàn)更加突出[11-13]。
但UNet算法也存在不足,例如在通道拼接特征圖之后,使用2D卷積進(jìn)行特征提取得到的特征會(huì)存在一定程度上的冗余;對(duì)特征的通道信息和空間信息不夠關(guān)注。為解決上述問(wèn)題,在通道拼接之前使用CBAM注意力機(jī)制[14],將編碼階段得到的特征圖輸入到空間和通道注意力機(jī)制模塊中,得到更好的通道和空間信息,使用殘差塊將其與輸入特征相加后再進(jìn)行通道拼接,然后使用深度可分離卷積[15]代替2D卷積進(jìn)行解碼操作,進(jìn)一步提取數(shù)據(jù)的空間特征和通道特征,減少特征的冗余,獲得更優(yōu)的特征信息。
在深度學(xué)習(xí)算法中,網(wǎng)絡(luò)深度越深,其泛化能力一般越好。例如,VGG16網(wǎng)絡(luò)[16]有13層卷積層和5層池化層進(jìn)行特征提取。受此啟發(fā),改進(jìn)后的UNet算法使用VGG16的主干部分進(jìn)行特征的提取。但隨著網(wǎng)絡(luò)深度的增加,網(wǎng)絡(luò)可能會(huì)出現(xiàn)梯度破壞或消失以及網(wǎng)絡(luò)退化等問(wèn)題。對(duì)此,HE等提出殘差網(wǎng)絡(luò)(residual network,ResNet)[17],HUANG等[18]提出密集連接網(wǎng)絡(luò)(dense convolutional network,DenseNet)。
在已有研究的基礎(chǔ)上,提出殘差注意力可分離UNet算法(residual attention mechanism separable UNet,RAMS-UNet)。以查閱的泥石流堆積扇圖片為數(shù)據(jù)集,利用該算法對(duì)泥石流堆積扇進(jìn)行分割,通過(guò)與其他算法的對(duì)比實(shí)驗(yàn)、消融實(shí)驗(yàn)、數(shù)據(jù)集有效劃分實(shí)驗(yàn),驗(yàn)證該算法的有效性。
1""模型構(gòu)建
1.1""RAMS-UNet算法結(jié)構(gòu)
UNet算法基于FCN算法構(gòu)建,采用U型結(jié)構(gòu)解決FCN算法無(wú)法獲取上下文信息和位置信息的弊端。UNet算法采用收縮路徑提取特征信息,采用擴(kuò)張路徑實(shí)現(xiàn)對(duì)圖片的精準(zhǔn)定位,結(jié)構(gòu)清晰簡(jiǎn)單,分割效果良好[19]。
RAMS-UNet算法采用與UNet算法類似的結(jié)構(gòu),并將編碼結(jié)構(gòu)和解碼結(jié)構(gòu)作為主干網(wǎng)絡(luò)架構(gòu),見圖1。由圖1可見,編碼部分位于RAMS-UNet算法前端,主要功能是提取輸入數(shù)據(jù)特征。與傳統(tǒng)的UNet算法結(jié)構(gòu)不同,為了增加網(wǎng)絡(luò)深度,提高對(duì)輸入數(shù)據(jù)的特征提取能力和訓(xùn)練效率,采用VGG16網(wǎng)絡(luò)的主干部分替代UNet算法的編碼部分,使用遷移學(xué)習(xí)導(dǎo)入VGG16網(wǎng)絡(luò),并在ImageNet數(shù)據(jù)集上訓(xùn)練主干權(quán)重。
解碼部分位于RAMS-UNet算法模型的后端,主要完成對(duì)輸入數(shù)據(jù)的上采樣。為避免使用反卷積上采樣時(shí)在生成圖像中造成的棋盤效應(yīng),方便網(wǎng)絡(luò)構(gòu)建,RAMS-UNet算法結(jié)構(gòu)采用雙線性插值算法進(jìn)行兩倍上采樣,并且通過(guò)卷積操作進(jìn)行特征融合,最終得到的特征層尺寸和輸入圖片相同。
UNet算法忽視了特征的空間信息和通道信息,通道拼接特征圖后使用2D卷積進(jìn)行特征提取存在特征冗余,為解決這些問(wèn)題,將注意力機(jī)制添加到網(wǎng)絡(luò)中的跳躍連接處,將解碼部分的2D卷積替代為用深度可分離卷積,進(jìn)而解決網(wǎng)絡(luò)深度增加而導(dǎo)致的計(jì)算量和參數(shù)量膨脹問(wèn)題。同時(shí),為提高特征的利用率和輸入數(shù)據(jù)的復(fù)用性,使用密集連接模塊,將特征拼接后的兩個(gè)深度可分離卷積進(jìn)行密集連接,再進(jìn)行上采樣。
1.2""VGG16網(wǎng)絡(luò)
VGG16網(wǎng)絡(luò)[16]的卷積層全部使用3×3的卷積核,共13個(gè)卷積層,5個(gè)池化層,通過(guò)5個(gè)全連接層得到結(jié)果,模型結(jié)構(gòu)見圖2。RAMS-UNet算法使用圖2中虛框部分代替UNet算法中的10個(gè)卷積層和4個(gè)最大池化層,以加深網(wǎng)絡(luò)的深度,增強(qiáng)網(wǎng)絡(luò)對(duì)輸入數(shù)據(jù)的特征提取能力。
1.3 "Res-CBAM注意力機(jī)制
注意力機(jī)制通過(guò)對(duì)感興趣的領(lǐng)域分配更多的注意力,盡量抑制不感興趣區(qū)域在語(yǔ)義分割中的影響[20]。在深度學(xué)習(xí)中,注意力機(jī)制分為有通道注意力機(jī)制和空間注意力機(jī)制。通道注意力機(jī)制主要通過(guò)探索不同通道之間的相互關(guān)系,提高重點(diǎn)通道的權(quán)重,抑制非重點(diǎn)通道的權(quán)重??臻g注意力機(jī)制則著重于尋找空間領(lǐng)域中不同像素之間的權(quán)重關(guān)系,提升重點(diǎn)區(qū)域內(nèi)像素的權(quán)重,降低非重點(diǎn)區(qū)域像素的權(quán)重,使網(wǎng)絡(luò)更加關(guān)注重點(diǎn)研究區(qū)域。
CBAM注意力機(jī)制是將空間注意力機(jī)制與通道注意力機(jī)制相結(jié)合的算法模型,其結(jié)構(gòu)[14]見圖3。CBAM注意力機(jī)制先將輸入的泥石流堆積扇形貌特征圖進(jìn)行平均池化和最大池化,將得到的結(jié)果輸入多層感知機(jī)(MLP),再經(jīng)過(guò)Sigmoid激活函數(shù)得到通道特征權(quán)值,完成通道維度的特征提取。CBAM注意力機(jī)制的空間注意力模塊先對(duì)通道注意力模塊的結(jié)果進(jìn)行平均池化和最大池化,再經(jīng)過(guò)特征融合和卷積操作得到空間信息,最后經(jīng)過(guò)Sigmoid完成空間維度的特征提取。
通道注意力機(jī)制可表示為
"""(1)
空間注意力機(jī)制可表示為
,(2)
式(1)~式(2)中:為sigmoid函數(shù);F為輸入特征圖;
表示對(duì)括號(hào)中的特征圖進(jìn)行7×7卷積操作;MLP為多層感知機(jī);
和
分別表示對(duì)輸入特征圖F進(jìn)行全局平均池化和全局最大池化。
在進(jìn)行通道拼接前使用CBAM注意力機(jī)制對(duì)輸入數(shù)據(jù)的空間和通道上的重點(diǎn)區(qū)域進(jìn)行強(qiáng)化,提升深度可分離卷積在提取空間特征和通道特征的效率,對(duì)泥石流堆積扇的提取更加精準(zhǔn)。使用CBAM注意力機(jī)制的同時(shí)添加殘差結(jié)構(gòu),即將經(jīng)過(guò)CBAM注意力機(jī)制的輸入特征與原始輸入特征相加,提高對(duì)特征的復(fù)用率,構(gòu)成Res-CBAM注意力機(jī)制模塊,結(jié)構(gòu)見圖4。
1.4""深度可分離卷積
在卷積神經(jīng)網(wǎng)絡(luò)中,2D卷積同時(shí)提取輸入的空間特征和通道特征,結(jié)果存在信息冗余,2D卷積結(jié)構(gòu)見圖5。
有學(xué)者提出利用深度可分離卷積[15]拆分空間維度和通道維度的關(guān)聯(lián)性,減少卷積計(jì)算所需要的參數(shù)。表1列出了對(duì)于5×5×3的輸入,使用3×3×3×4卷積核,步長(zhǎng)為1時(shí),兩種卷積方式輸出5×5×4特征圖的參數(shù)量和計(jì)算量。由此可見,深度可分離卷積的計(jì)算效率較高。
利用深度可分離卷積對(duì)通道拼接后的泥石流堆積扇特征圖進(jìn)行處理時(shí),先使用逐通道卷積得到每個(gè)通道一一對(duì)應(yīng)的特征圖,再使用逐點(diǎn)卷積獲取通道間的空間信息,改變通道數(shù),模型結(jié)構(gòu)見圖6。與2D卷積相比,使用深度可分離卷積不僅能夠減少卷積計(jì)算的計(jì)算量和參數(shù)量,而且可以加深網(wǎng)絡(luò)模型的深度,獲得到更優(yōu)的性能。
1.5""密集連接網(wǎng)絡(luò)
密集連接網(wǎng)絡(luò)(DenseNet)通過(guò)在網(wǎng)絡(luò)中引入密集連接來(lái)增強(qiáng)網(wǎng)絡(luò)的特征復(fù)用性,提高網(wǎng)絡(luò)模型的泛化能力[17]。在DenseNet結(jié)構(gòu)中,每個(gè)層都將前面所有層的輸出連接起來(lái),作為其輸入形成密集連接塊。在每次通道拼接后的解碼部分使用密集連接模塊,增強(qiáng)網(wǎng)絡(luò)對(duì)泥石流堆積扇圖片特征的復(fù)用性,使網(wǎng)絡(luò)對(duì)泥石流堆積扇特征提取更為精準(zhǔn)。
2 "實(shí)驗(yàn)分析
2.1 "數(shù)據(jù)介紹
泥石流堆積扇一般在溝口形成,所以需要確定發(fā)生泥石流溝谷的溝口位置。通過(guò)查閱泥石流發(fā)生較多省份的減災(zāi)年鑒(如《四川減災(zāi)年鑒》《云南減災(zāi)年鑒》等),并搜集2000年以來(lái)所有與泥石流相關(guān)的論文和新聞報(bào)道,獲取泥石流堆積扇數(shù)據(jù),共找到發(fā)生過(guò)泥石流的溝谷數(shù)據(jù)749條,其中,溝口處沒(méi)有被破壞的堆積扇31個(gè)。使用泥石流堆積扇坐標(biāo)定位截取并保存31張分辨率為8"192×4"585的高清遙感影像。采用隨機(jī)旋轉(zhuǎn)、放大縮小和裁剪等方法增強(qiáng)數(shù)據(jù),最終得到80張泥石流堆積扇數(shù)據(jù)。使用Labelme圖片標(biāo)注工具標(biāo)注泥石流堆積扇,部分圖片及其標(biāo)注示例見圖7。為減少網(wǎng)絡(luò)訓(xùn)練時(shí)間,將數(shù)據(jù)和標(biāo)簽等比例縮放至512×512的分辨率并添加灰度條,然后輸入網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
2.2 "參數(shù)設(shè)計(jì)及評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)隨機(jī)選取90%的數(shù)據(jù)作為訓(xùn)練集,10%的數(shù)據(jù)作為測(cè)試集,訓(xùn)練600次。訓(xùn)練時(shí),采用Adam優(yōu)化器中的交叉熵?fù)p失函數(shù)(Cross Entropy"Loss)作為損失函數(shù),設(shè)初始學(xué)習(xí)率為10-4。實(shí)驗(yàn)在Pytorch框架下完成。硬件環(huán)境:CPU為Intel(R) Xeon(R) CPU E5-2678 v3 @ 2.50GHz;GPU為NVIDIA GeForce RTX 2080 Ti;軟件環(huán)境:Ubuntu18.04、Python 3.8、CUDA 11.3、cuDNN 8、NVCC、Pytorch 1.11.0、torchvision"0.12.0、torchaudio 0.11.0。
通過(guò)計(jì)算平均交并比(mIoU)、像素準(zhǔn)確率(PA)、類別平均像素準(zhǔn)確率(mPA)和F1分?jǐn)?shù)評(píng)價(jià)不同分類方法的分類性能。mIoU給出了整體分割結(jié)果的質(zhì)量,它全面地衡量了模型在不同類別上的性能,PA和mPA衡量了整體預(yù)測(cè)的準(zhǔn)確性,F1分?jǐn)?shù)衡量預(yù)測(cè)結(jié)果與真實(shí)標(biāo)簽之間的重疊程度。這4種指標(biāo)在語(yǔ)義分割中具有不同的重要程度,mIoU最重要,其次是mPA和PA,最后是F1分?jǐn)?shù)。
2.3 "對(duì)照實(shí)驗(yàn)
為驗(yàn)證算法的有效性,分別采用RAMS-UNet算法、閾值分割[21-23]"算法、FCN算法、PSPNet[24-26]"算法、LR-ASPP[27]"算法和UNet算法對(duì)測(cè)試圖片進(jìn)行分割,效果見圖8。
由圖8分析得知,閾值分割算法和LR-ASPP算法的分割效果較差,圖中出現(xiàn)較多噪聲點(diǎn),對(duì)物體邊界分割不清晰。FCN算法、PSPNet算法和UNet算法對(duì)測(cè)試圖1的分割效果一般,雖然分割出的物體邊界較為光滑,但依然存在斷點(diǎn)、噪聲點(diǎn)。FCN算法對(duì)測(cè)試圖2的分割圖像存在噪聲點(diǎn),對(duì)測(cè)試圖3分割不連貫,其他2種方法對(duì)測(cè)試圖2、3的分割效果良好。與其他算法比較可見,LR-ASPP算法的分割效果提升顯著,有效消除了識(shí)別圖像的斷點(diǎn)、噪聲點(diǎn),細(xì)節(jié)刻畫更為完整,多尺度信息更豐富。
通過(guò)6種算法生成測(cè)試圖片的預(yù)測(cè)圖片,分別計(jì)算每種算法的mIoU、mPA、PA和F1的平均值,統(tǒng)計(jì)結(jié)果見表2。
由表2可見,在深度學(xué)習(xí)方法中, LR-ASPP算法效果最差,但與傳統(tǒng)圖像算法相比,LR-ASPP算法的各項(xiàng)指標(biāo)高于閾值分割算法,表明深度學(xué)習(xí)方法定位更加準(zhǔn)確,抗噪能力更強(qiáng);PSPNet算法和UNet算法總體表現(xiàn)相近,其表現(xiàn)效果均好于FCN算法;與PSPNet算法對(duì)比可見,RAMS-UNet算法的mIoU、mPA、PA、F1分別提高了10.53個(gè)百分點(diǎn)、7.43個(gè)百分點(diǎn)、3.03個(gè)百分點(diǎn)、11.36個(gè)百分點(diǎn),表明該算法在同類深度學(xué)習(xí)算法中最優(yōu)。
2.4 "消融實(shí)驗(yàn)與數(shù)據(jù)集劃分合理性分析
為驗(yàn)證RAMS-UNet算法的有效性和合理性,在本文數(shù)據(jù)集的基礎(chǔ)上對(duì)6種模型進(jìn)行消融實(shí)驗(yàn)。模型A為UNet算法基本模型;模型B在模型A基礎(chǔ)上使用VGG16主干作為特征提取部分;模型C在模型B基礎(chǔ)上加入Res-CBAM注意力機(jī)制;模型D在模型C基礎(chǔ)上使用深度可分離卷積;模型E在模型D基礎(chǔ)上引入密接連接模塊,即RAMS-UNet模型;模型F在模型E基礎(chǔ)上加入遷移學(xué)習(xí)模塊。將這6種模型訓(xùn)練過(guò)程中的評(píng)價(jià)指標(biāo)進(jìn)行統(tǒng)計(jì),見表3。
由表3中模型A、B對(duì)比可見,使用VGG16的主干部分代替UNet算法網(wǎng)絡(luò)中的特征提取部分,F1降低0.58個(gè)百分點(diǎn),但mIoU上升2.88個(gè)百分點(diǎn),mPA提高0.11個(gè)百分點(diǎn),PA上升0.41個(gè)百分點(diǎn),驗(yàn)證了使用VGG16網(wǎng)絡(luò)主干部分進(jìn)行特征提取和加深網(wǎng)絡(luò)層數(shù)的有效性;模型B、C對(duì)比可見,Res-CBAM注意力機(jī)制模塊的加入使F1降低0.02個(gè)百分點(diǎn),但mIoU上升0.09個(gè)百分點(diǎn),mPA提高0.72個(gè)百分點(diǎn),PA上升0.79個(gè)百分點(diǎn),驗(yàn)證了在跳躍連接處添加Res-CBAM注意力機(jī)制,加強(qiáng)了特征圖拼接前的空間特征信息和通道特征信息的效果;模型C、D對(duì)比可見,深度可分離卷積的加入雖然使F1降低8.21個(gè)百分點(diǎn),但使mIoU上升3.29個(gè)百分點(diǎn),mPA提高2.27個(gè)百分點(diǎn),PA上升1.17個(gè)百分點(diǎn),驗(yàn)證了深度可分離卷積在注意力機(jī)制的基礎(chǔ)上對(duì)空間和通道特征信息再次加強(qiáng)的有效性;模型D、E對(duì)比可見,mIoU上升2.59個(gè)百分點(diǎn),mPA提高1.1個(gè)百分點(diǎn),PA上升1.7個(gè)百分點(diǎn),F1提高5.58個(gè)百分點(diǎn),驗(yàn)證了密集連接模塊針的加入對(duì)網(wǎng)絡(luò)分割效果的提升;模型E、F對(duì)比可見,mPA基本不變,PA下降0.54個(gè)百分點(diǎn),但mIoU上升0.46個(gè)百分點(diǎn),F1提高4.49個(gè)百分點(diǎn),說(shuō)明遷移學(xué)習(xí)在訓(xùn)練中起到了較為良好的效果,在一定程度上提高了模型的整體泛化性。由此可知,本實(shí)驗(yàn)的網(wǎng)絡(luò)模型改進(jìn)策略和訓(xùn)練策略是可行有效的。
為驗(yàn)證數(shù)據(jù)集劃分的合理性,表4給出了訓(xùn)練集與測(cè)試集之比分別為7∶3、8∶2、9∶1的實(shí)驗(yàn)結(jié)果。可以看出在3種不同的數(shù)據(jù)集劃分中,4種評(píng)價(jià)指標(biāo)之間的差距小于1%,因此采用數(shù)據(jù)的90%作為訓(xùn)練集,數(shù)據(jù)的10%作為測(cè)試集具有合理性。
3 "結(jié)論
(1)針對(duì)UNet在編碼部分的特征提取和解碼部分的不足,對(duì)編碼部分、跳躍連接部分、解碼部分進(jìn)行改進(jìn),加深網(wǎng)絡(luò)層次、強(qiáng)化信息傳遞、增強(qiáng)了網(wǎng)絡(luò)模型的復(fù)用性,建立基于RAMS-UNet算法泥石流堆積扇分割方法。
(2)通過(guò)多種分割方法對(duì)泥石流堆積扇圖像數(shù)據(jù)集進(jìn)行測(cè)試,與其他算法相比,RAMS-UNet算法綜合性能最優(yōu),在泥石流堆積扇分割任務(wù)中,像素分類更精準(zhǔn)、多尺度信息更加豐富。
參考文獻(xiàn)(References):
[1]"范昕煒.支持向量機(jī)算法的研究及其應(yīng)用[D].杭州:浙江大學(xué),2003:2-5.
[2]楊小兵.基于多光譜影像和DEM的泥石流堆積扇識(shí)別研究:以白龍江流域武都段為例[D].蘭州:蘭州大學(xué),2013:7-9.
[3]"QIU H B,YU B S,GONG D H,et al.SynFace:face recognition with synthetic data[C]//2021 IEEE/CVF International Conference on Computer Vision.October 10-17,2021,Montreal,QC,Canada.IEEE, 2021:10880-10890.
[4]"KIM Y,LI P,HUANG H.Convolutional neural networks for sentence classification[EB/OL].(2014-09-03)[2023-10-31]https://arxiv.org/abs/1408.
5882v2.
[5]"賀豐收,何友,劉準(zhǔn)釓,等.卷積神經(jīng)網(wǎng)絡(luò)在雷達(dá)自動(dòng)目標(biāo)識(shí)別中的研究進(jìn)展[J].電子與信息學(xué)報(bào),2020,42(1):119-131.
HE Fengshou,HE You,LIU Zhunga,et al.Research and development on applications of convolutional neural networks of radar automatic target recognition[J].Journal of Electronics amp; Information Technology,2020, 42(1):119-131.
[6]"KARPATHY A,TODERICI G,SHETTY S,et al.Large-scale video classification with convolutional neural networks[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.June 23-28, 2014,Columbus,OH,USA.IEEE,2014:1725-1732.
[7]"XU F"S,WANG B"Y.Debris flow susceptibility mapping in mountainous area based on multi-source data fusion and CNN model–taking Nujiang Prefecture, China as an example[J].International Journal of Digital Earth, 2022,15(1):1966-1988.
[8]"LONG J,SHELHAMER E,DARRELL T.Fully convolutional networks for semantic segmentation[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition.June 7-12,2015,Boston,MA,USA.IEEE, 2015:3431-3440.
[9]"ZHAO J Y,ZHAO W Y,DENG B,et al.Autonomous driving system:a comprehensive survey[J].Expert Systems with Applications,2024,242: 122836.
[10]"RONNEBERGER O,F(xiàn)ISCHER P,BROX T.U-net:convolutional networks for biomedical image segmentation[M]//NAVAB N, HORNEGGER J,WELLS W M,et al.Lecture Notes in Computer Science.Cham:Springer International Publishing,2015:234-241.
[11]"ZHANG C Y,SUN S B,HU W M,et al.FDR-TransUNet: a novel encoder-decoder architecture with vision transformer for improved medical image segmentation[J].Computers in Biology and Medicine, 2024,169: 107858.
[12]"LI Y,YAN B B,HOU J X,et al.UNet based on dynamic convolution decomposition and triplet attention[J].Scientific Reports,2024,14(1): 271.
[13]"HU Y T,ZHENG D Y,SHI S Q,et al.Extraction of eutrophic and green ponds from segmentation of high-resolution imagery based on the EAF-Unet algorithm[J].Environmental Pollution, 2024,343:123207.
[14]"WOO S, PARK J, LEE J Y, et al.CBAM:convolutional block attention module[M]//Lecture Notes in Computer Science.Cham:Springer International Publishing,2018:3-19.
[15]"CHOLLET F.Xception:deep learning with depthwise separable convolutions[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition.July 21-26,2017,Honolulu,HI,USA.IEEE,2017:1800-1807.
[16]"SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[EB/OL].(2015-04-10)[2023-11-14].https://
arxiv.org/abs/1409.1556v6.
[17]"HE K M,ZHANG X Y,REN S Q,et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.June 27-30,2016,Las Vegas,NV,USA.IEEE,2016: 770-778.
[18]"HUANG G,LIU Z,VAN DER MAATEN L,et al.Densely connected convolutional networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition.July 21-26,2017,Honolulu,HI,USA. IEEE,2017:2261-2269.
[19]"孫軍梅,葛青青,李秀梅,等.一種具有邊緣增強(qiáng)特點(diǎn)的醫(yī)學(xué)圖像分割網(wǎng)絡(luò)[J].電子與信息學(xué)報(bào),2022,44(5):1643-1652.
SUN Junmei,GE Qingqing,LI Xiumei,et al.A medical image segmentation network with boundary enhancement[J].Journal of Electronics amp; Information Technology,2022,44(5):1643-1652.
[20]"朱張莉,饒?jiān)?,吳淵,等.注意力機(jī)制在深度學(xué)習(xí)中的研究進(jìn)展[J].中文信息學(xué)報(bào),2019,33(6):1-11.
ZHU Zhangli,RAO Yuan,WU Yuan,et al.Research progress of attention mechanism in deep learning[J].Journal of Chinese Information Processing,2019,33(6):1-11.
[21]"AL-AMRI S S,KALYANKAR N V,KHAMITKAR S D,et al.Image segmentation by using threshold techniques[EB/OL].(2010-03-21)"[2023-11-14].https://arxiv.org/abs/1005.4020v1.
[22]"ZHU S P,XIA X,ZHANG Q R,et al.An image segmentation algorithm in image processing based on threshold segmentation[C]//2007 Third International IEEE Conference on Signal-Image Technologies and Internet-Based System.December 16-18,2007,Shanghai,China.IEEE, 2007: 673-678.
[23]"BHARGAVI K,JYOTHI S.A survey on threshold based segmentation technique in image processing[J].International Journal of Innovative Research and Development,2014,3(12):234-239.
[24]"ZHAO H S,SHI J P,QI X J,et al.Pyramid scene parsing network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition.July 21-26,2017,Honolulu,HI,USA.IEEE,2017: 6230-6239.
[25]"ZHAO J"L,LI Z,LEI Y,et al.Application of UAV RGB images and improved PSPNet network to the identification of wheat lodging areas[J]. Agronomy, 2023,13(5):1309.
[26]"YU J,CHENG T,CAI N,et al.Wheat lodging segmentation based on Lstm_PSPNet deep learning network[J].Drones, 2023,7(2):143.
[27]"HOWARD A,SANDLER M,CHEN B,et al.Searching for MobileNetV3[C]//2019 IEEE/CVF International Conference on Computer Vision. October 27-November 2,2019,Seoul,Korea (South). IEEE,2019:1314-1324.