• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      拉普拉斯卷積的雙路徑特征融合遙感圖像智能解譯方法

      2024-09-22 00:00:00曾軍英顧亞謹(jǐn)曹路秦傳波鄧森耀翟懿奎甘俊英謝梓源
      現(xiàn)代電子技術(shù) 2024年17期
      關(guān)鍵詞:尺度語義卷積

      摘" 要: 由于遙感圖像存在多尺度變化和目標(biāo)邊緣模糊等問題,對其進(jìn)行智能解譯仍然是一項(xiàng)極具挑戰(zhàn)性的工作。傳統(tǒng)的語義分割方法在處理這些問題時存在局限性,難以有效捕捉全局和局部信息。針對上述問題,文中提出一種雙路徑特征融合分割方法DFNet。首先,使用Swin Transformer作為主干提取全局語義特征,以處理像素之間的長距離依賴關(guān)系,從而促進(jìn)對圖像中不同區(qū)域相關(guān)性的理解;其次,將拉普拉斯卷積嵌入到空間分支,以捕獲局部細(xì)節(jié)信息,加強(qiáng)目標(biāo)地物邊緣信息表達(dá);最后,引入多尺度雙向特征融合模塊,充分利用圖像中的全局和局部信息,以增強(qiáng)多尺度信息的獲取能力。在實(shí)驗(yàn)中,使用了三個公開的高分辨率遙感圖像數(shù)據(jù)集進(jìn)行驗(yàn)證,并通過消融實(shí)驗(yàn)驗(yàn)證了所提模型不同模塊的作用。實(shí)驗(yàn)結(jié)果表明,所提方法在Uavid數(shù)據(jù)集、Potsdam數(shù)據(jù)集、LoveDA數(shù)據(jù)集的mIoU達(dá)到了71.32%、85.58%、54.01%,提高了語義分割的性能,使分割結(jié)果更為精細(xì)。

      關(guān)鍵詞: 語義分割; 遙感圖像; 多尺度信息; 拉普拉斯卷積; 邊緣信息; 雙路徑; 特征融合; 智能解譯

      中圖分類號: TN911.73?34; TP751" " " " " " " " " 文獻(xiàn)標(biāo)識碼: A" " " " " " " " " "文章編號: 1004?373X(2024)17?0065?08

      Dual?path feature fusion remote sensing image intelligent interpretation method

      by Laplacian convolution

      ZENG Junying, GU Yajin, CAO Lu, QIN Chuanbo, DENG Senyao, ZHAI Yikui, GAN Junying, XIE Ziyuan

      (School of Electronics and Information Engineering, Wuyi University, Jiangmen 529020, China)

      Abstract:" Due to the multi?scale variations of images and blurred target edges, the intelligent interpretation of remote sensing images is still a challenging task. The traditional semantic segmentation methods have limitations in dealing with these problems and fail to capture global and local information effectively. Therefore, a dual?path feature fusion segmentation method DFNet is proposed. The Swin Transformer is used as the backbone to extract global semantic features, so as to facilitate addressing long?range dependencies between pixels, thereby enhancing the comprehension of correlations in different regions of the image. The Laplacian convolution is incorporated into the spatial branch to capture local detail information, so as to strengthen the expression of edge information for target features. A multi?scale bidirectional feature fusion module is introduced to leverage both global and local information within the image, so as to enhance the capability to capture multi?scale information. In the experiments, three publicly available high?resolution remote sensing image datasets are used for validation. The ablation experiments are utilized to validate the roles of different modules of the proposed model. Experiment results show that the mIoU (mean intersection over union) of the proposed method reaches 71.32%, 85.58%, and 54.01% in dataset Uavid, dataset Potsdam and dataset LoveDA, respectively. To sum up, the proposed method can improve the performance of semantic segmentation and make the segmentation result more refined.

      Keywords: semantic segmentation; remote sensing image; multi?scale information; Laplacian convolution; edge information; dual path; feature fusion; intelligent interpretation

      0" 引" 言

      隨著遙感技術(shù)的不斷進(jìn)步,高分辨率遙感圖像的獲取變得更加便利。遙感圖像在城市規(guī)劃、災(zāi)害監(jiān)測、環(huán)境保護(hù)、農(nóng)業(yè)管理等方面有著廣泛的應(yīng)用[1?5]。遙感圖像信息的提取和識別是這些應(yīng)用的基礎(chǔ)。語義分割作為一種像素級的圖像分析技術(shù),是遙感圖像解譯領(lǐng)域最重要也是最具挑戰(zhàn)性的研究方向之一[6]。

      早期的圖像分割算法主要是提取圖像的低層特征進(jìn)行分割[7],分割結(jié)果往往不包含語義信息。隨著深度學(xué)習(xí)的發(fā)展,一系列基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)[8]的網(wǎng)絡(luò)模型相繼被提出,并進(jìn)入了語義分割的新階段。CNN具有強(qiáng)大的特征提取能力,在語義分割任務(wù)中表現(xiàn)出優(yōu)越性能[9?12]。隨后,基于全卷積網(wǎng)絡(luò)的方法,如FCN[10]、U?Net[11]和DeepLab系列[12?14],幾乎主導(dǎo)了計(jì)算機(jī)視覺圖像語義分割領(lǐng)域。在遙感方面,研究人員改進(jìn)了通用語義分割網(wǎng)絡(luò),考慮到遙感的具體特點(diǎn),進(jìn)一步提高了遙感圖像語義分割任務(wù)的準(zhǔn)確性。例如文獻(xiàn)[15]提出一種基于FCN網(wǎng)絡(luò)的深度多尺度空間光譜特征提取算法,在高光譜遙感圖像上實(shí)現(xiàn)良好的分割效果。文獻(xiàn)[16]提出了一種多尺度特征提取和內(nèi)容感知重組網(wǎng)絡(luò)。文獻(xiàn)[17]提出了一種基于U?Net的邊界感知雙流網(wǎng)絡(luò),引入了一個輔助邊緣檢測流,通過顯示監(jiān)控對象邊界改善高分辨率遙感圖像邊界分割結(jié)果。

      然而,CNN受卷積核感受野的局限性影響,較少關(guān)注整體語義信息特征之間的相關(guān)性[8,10,15]。在2020年,Transformer[18]以其卓越的圖像建模能力在多個計(jì)算機(jī)視覺任務(wù)中取得顯著成就,例如圖像分類、對象檢測和語義分割[19?20]。盡管自注意力機(jī)制能夠捕獲全局信息,但它未能有效捕捉一些復(fù)雜的細(xì)節(jié)信息,并且基于Transformer編碼器的計(jì)算復(fù)雜度比基于CNN的編碼器高得多,這嚴(yán)重影響了其在城市建設(shè)實(shí)際應(yīng)用中的潛力和可行性。

      傳統(tǒng)的語義分割方法難以捕獲遙感圖像中的全局語義信息和空間細(xì)節(jié)信息,因此本文提出了一種雙向特征融合的方法,利用卷積網(wǎng)絡(luò)與Transformer結(jié)構(gòu)各自的優(yōu)勢,實(shí)現(xiàn)對遙感圖像更準(zhǔn)確的語義分割。在全局方面,引入注意力機(jī)制以助于網(wǎng)絡(luò)更有針對性地關(guān)注圖像中的重要特征,提高整體語義分割的性能。在局部方面,采用多層卷積和拉普拉斯濾波技術(shù)有效捕捉圖像中的細(xì)節(jié)和邊緣信息,以使分割結(jié)果更為精細(xì)。

      本文研究的主要貢獻(xiàn)在于:

      1) 設(shè)計(jì)了一種適合無人機(jī)遙感圖像分割的雙路徑特征融合網(wǎng)絡(luò),利用卷積神經(jīng)網(wǎng)絡(luò)與Transformer在圖像特征提取中各自的優(yōu)勢,同時處理空間細(xì)節(jié)信息和全局上下文信息,從而捕獲豐富的特征信息。

      2) 引入拉普拉斯卷積到空間分支,旨在捕獲圖像中的局部細(xì)節(jié)信息,從而增強(qiáng)目標(biāo)地物信息的邊緣。拉普拉斯卷積是一種有效的邊緣增強(qiáng)技術(shù),通過突出圖像中的高頻信息,以助于更清晰地定位目標(biāo)地物的邊緣輪廓。

      3) 引入多尺度雙向特征融合模塊,旨在充分利用圖像中的全局和局部信息,以增強(qiáng)多尺度信息的獲取能力。這一模塊通過將來自不同層次的特征進(jìn)行融合,實(shí)現(xiàn)了全局和局部信息之間的有效交互。

      4) 根據(jù)無人機(jī)航拍圖像和無人機(jī)遙感圖像的特性,DFNet在Uavid、Potsdam、LoveDA三個不同高度拍攝的數(shù)據(jù)集上進(jìn)行語義分割,均實(shí)現(xiàn)了良好的分割效果,表明了網(wǎng)絡(luò)具有很好的泛化性能。

      1" 方" 法

      1.1" 整體網(wǎng)絡(luò)結(jié)構(gòu)

      針對遙感圖像多尺度變化、目標(biāo)邊緣模糊的問題,本文提出用于遙感圖像語義分割的雙分支多尺度特征融合網(wǎng)絡(luò)DFNet,如圖1所示。首先該網(wǎng)絡(luò)選擇使用帶有預(yù)訓(xùn)練權(quán)重的Swin Transformer?tiny作為骨干網(wǎng)絡(luò)[20],提取具有全局語義信息的上下文特征;然后通過卷積特征提取模塊捕獲遙感圖像的地物邊界和局部空間信息;最后,將全局語義信息和局部空間信息的輸出結(jié)果進(jìn)行多尺度特征融合。融合后的特征經(jīng)過兩層空洞卷積操作,將得到的預(yù)測結(jié)果與真實(shí)標(biāo)簽對比,迭代損失,提高語義分割精度。

      1.2" 基于Transformer的編碼模塊

      Swin Transformer是一種高效的Transformer架構(gòu),具備強(qiáng)大的圖像建模能力[20]。相較于傳統(tǒng)的Transformer架構(gòu),Swin Transformer通過將圖像劃分為非重疊的塊,實(shí)現(xiàn)了對大規(guī)模圖像的有效處理。這種劃分方式保證了模型能夠同時獲得局部信息和全局信息,不會因?yàn)閳D像塊的尺寸過大而導(dǎo)致信息丟失。

      在主干網(wǎng)絡(luò)中,輸入的圖像[X∈RH×W×3]。首先利用Patch partition模塊將圖像展平,轉(zhuǎn)變?yōu)閇X∈RH4×W4×48],[H]和[W]分別表示圖像的高和寬;然后經(jīng)過四個階段獲取不同的特征信息。階段一通過線性嵌入層將圖像塊映射到任意維度,其他三個階段利用圖像合并層將圖像特征尺寸減半,通道數(shù)增加1倍。此外,每個階段還包含不同數(shù)量的Swin Transformer Block,具體數(shù)量如圖2中Num所示。與標(biāo)準(zhǔn)Transformer相比,Swin Transformer Block采用滑動窗口的多頭自注意力,實(shí)現(xiàn)不同窗口像素的交互,提升了模型上下文信息的表達(dá)能力。

      1.3" 基于拉普拉斯卷積的邊緣感知模塊

      盡管上下文分支可以良好地表達(dá)圖像的全局關(guān)系,但對圖像的某些局部細(xì)節(jié)卻沒辦法表現(xiàn)出良好的性能?;趯?shí)驗(yàn)和觀察,本文另外提出了一個細(xì)節(jié)空間分支,如圖1中的Spatial path,用于對上下文分支進(jìn)行細(xì)節(jié)特征的補(bǔ)全。具體來說,空間細(xì)節(jié)分支包括四層卷積模塊和一層拉普拉斯卷積。其中前三層卷積塊中,第一層選擇較大內(nèi)核的卷積,其余都是3×3卷積核,卷積操作后接批量歸一化層和ReLU激活函數(shù)。經(jīng)過卷積下采樣后引入拉普拉斯卷積,凸顯圖像的邊緣信息。最后一層卷積塊中,使用內(nèi)核大小為1的卷積層,用于改變通道數(shù)??臻g細(xì)節(jié)分支可以保留更多空間細(xì)節(jié)信息和邊緣特征,使網(wǎng)絡(luò)對局部信息具有更好的理解能力。另外,空間細(xì)節(jié)分支所包含的運(yùn)算量較少,對整體的運(yùn)算速度影響較小,卻添加了更多空間細(xì)節(jié)信息。拉普拉斯卷積過程如公式(1)和公式(2)所示,拉普拉斯濾波器[L=0101-41010]。公式(1)表示特征圖經(jīng)過濾波輸出的結(jié)果,公式(2)表示每個像素經(jīng)過濾波器操作的結(jié)果。[L(i+1,j+1)]表示濾波器在位置[(i+1,j+1)]索引的權(quán)值。

      [Out=Laplacian(M)] (1)

      [Out(x,y)=i=-11j=-11M(x+i,y+j)L(i+1,j+1)] (2)

      1.4" 特征融合模塊

      在遙感圖像解譯中,由于地物的尺度差異,多尺度信息的綜合對于提高模型的適應(yīng)性和泛化能力至關(guān)重要。

      本文引入多尺度雙向特征融合模塊FFM,如圖3所示。充分利用圖像中的全局和局部信息,并增強(qiáng)多尺度信息的獲取能力。

      通過在不同尺度上進(jìn)行特征融合,能夠更全面地理解遙感圖像,從而更有效地進(jìn)行語義分割。該模塊不僅考慮特征的上下文關(guān)系,還注重多尺度信息的交互,使得模型在處理不同尺度上的地物時表現(xiàn)更為優(yōu)越。全局上下文特征與局部空間特征逐元素相加結(jié)合后引入雙向特征融合模塊調(diào)整融合特征。具體來說,融合后的特征經(jīng)過全局平均池化和全局最大池化,調(diào)整維度的同時保留特征圖整體和最大顯著特征,然后經(jīng)過不規(guī)則卷積進(jìn)行逐元素相加,對輸出的結(jié)果賦予不同的權(quán)值與輸入特征相乘,獲取新的特征圖。最后對輸入特征進(jìn)行重新加權(quán),后接卷積塊操作。特征融合不僅可以增強(qiáng)模型關(guān)注語義相關(guān)信息,還能抑制不相關(guān)特征。池化過程如公式(3)所示:

      [yC×H×W=Conv1C×H×Wi=1Cj=1Hk=1Wxi,j,k+Convmax(xi,j,k)] (3)

      式中:[xi,j,k]表示在通道[i]、高度[j]、寬度[k]處的像素值;[C]、[H]、[W]分別表示特征圖的通道、高度、寬度。

      2" 實(shí)" 驗(yàn)

      2.1" 數(shù)據(jù)集

      為了驗(yàn)證本文提出的方法在不同數(shù)據(jù)集上的有效性和泛化性能,選擇了三個具有代表性的航空和無人機(jī)遙感圖像數(shù)據(jù)集進(jìn)行測試和結(jié)果比較。這些數(shù)據(jù)集分別是ISPRS Potsdam、Uavid和LoveDA。

      Potsdam:該數(shù)據(jù)集包含38幅尺寸為6 000×6 000、地面分辨率為5 cm的精細(xì)分辨率圖像。此數(shù)據(jù)集一共有5個前景類別和1個背景類別。前景類別為不透明水表面、建筑物、低值被、樹木和汽車;背景類別為除了前景外的其他類別。使用id:2_13、2_14、3_13、3_14、4_13、4_14、4_15、5_13、5_14、5_15、6_13、6_14、6_15、7_13用于測試,其余的圖像用于訓(xùn)練。在實(shí)驗(yàn)中,僅使用RGB圖像并將原始圖像裁剪為1 024×1 024像素大小,以滿足實(shí)驗(yàn)需求。

      Uavid:包含42個無人機(jī)載街景遙感影像序列,每個序列包括10張4K分辨率的圖像,對應(yīng)紅色(R)、綠色(G)和藍(lán)色(B)三個波段。該數(shù)據(jù)集涵蓋7個前景類別和1個背景類別。前景類別分別為建筑物、道路、樹木、低值被、動態(tài)車、靜態(tài)車和行人;背景類別為除了前景外的其他地物。本文使用200張圖像用于訓(xùn)練,70張圖像用于驗(yàn)證,官方提供的150張圖像用于測試。在實(shí)驗(yàn)中,每個圖像都被裁剪為1 024×1 024的像素大小,以便更好地適應(yīng)模型訓(xùn)練。

      LoveDA:該數(shù)據(jù)集從Google Earth平臺獲取,覆蓋了超過536 km2的廣闊區(qū)域,涵蓋中國三個區(qū)域(南京、常州、武漢)的城市和農(nóng)村場景,共包含5 987張空間分辨率為0.3 m的遙感圖像。該數(shù)據(jù)集包括7個類別(建筑、道路、水、荒地、森林、農(nóng)作物和背景)。本文使用2 522張圖像進(jìn)行訓(xùn)練,1 669張作為驗(yàn)證集,余下的1 769張用于測試。

      2.2" 實(shí)驗(yàn)細(xì)節(jié)與評估指標(biāo)

      實(shí)驗(yàn)中的所有模型均在單個NVIDIA RTX A4000 GPU上使用PyTorch框架實(shí)現(xiàn)。為了快速收斂,本文部署了AdamW優(yōu)化器來訓(xùn)練實(shí)驗(yàn)中的所有模型,基礎(chǔ)學(xué)習(xí)率設(shè)置為6×10-4,并采用余弦策略調(diào)整學(xué)習(xí)率。對于Uavid和LoveDA數(shù)據(jù)集使用隨機(jī)垂直翻轉(zhuǎn)、隨機(jī)水平翻轉(zhuǎn)和隨機(jī)亮度,在1 024×1 024的像素大小進(jìn)行輸入和訓(xùn)練期間的數(shù)據(jù)增強(qiáng)。訓(xùn)練時期設(shè)置為80 epoch,batchsize設(shè)置為4。Potsdam數(shù)據(jù)集在訓(xùn)練過程中采用隨機(jī)縮放(0.5,0.75,1.0,1.25,1.5)、隨機(jī)旋轉(zhuǎn)等增強(qiáng)數(shù)據(jù)集,訓(xùn)練時間設(shè)置為50 epoch,batchsize設(shè)置為2。在測試階段都可以使用多尺度和隨機(jī)翻轉(zhuǎn)增強(qiáng)數(shù)據(jù)結(jié)果。

      本文基于常用的指標(biāo):平均交并比(mean Intersection over Union, mIoU)、整體精確度(Overall Accuracy," OA)和[F1]分?jǐn)?shù)來評估本文所提網(wǎng)絡(luò)的結(jié)果。根據(jù)累積的混淆矩陣,mIoU、OA、[F1]的計(jì)算公式為:

      [mIoU=1Nn=1NTPnTPn+FPn+FNn] (4)

      [OA=n=1NTPn+n=1NTNnn=1NTPn+n=1NFPn+n=1NTNn+n=1NFNn] (5)

      [F1=2×Precisionn×RecallnPrecisionn+Recalln] (6)

      [Precisionn=TPnTPn+FPn] (7)

      [Recalln=TPnTPn+FNn] (8)

      式中:[TPn]、[FPn]、[TNn]和[FNn]分別代表索引為[n]類的地物信息的真陽性、假陽性、真陰性和假陰性;OA是指包括背景在內(nèi)的所有類別的準(zhǔn)確度。

      2.3" 消融實(shí)驗(yàn)

      本網(wǎng)絡(luò)是由單分支網(wǎng)絡(luò)改進(jìn)而來的,采用Swin Transformer作為特征提取器進(jìn)行語義分割任務(wù)。因此本節(jié)以一個單分支Swin Transformer作為基線網(wǎng)絡(luò)對改進(jìn)的各個模塊進(jìn)行對比分析。經(jīng)過分析,單分支的Swin Transformer網(wǎng)絡(luò)難以捕捉細(xì)節(jié)的空間信息,容易忽略目標(biāo)地物的邊緣信息,因此針對單分支網(wǎng)絡(luò)缺失空間細(xì)節(jié)這一問題,本文提出使用拉普拉斯卷積的空間分支,對遙感圖像語義分割空間細(xì)節(jié)以及邊緣信息補(bǔ)全。為了減少融合過程中語義信息的丟失,本文引入一個雙向特征融合模塊,以促進(jìn)兩個分支的特征表達(dá)。針對上述幾點(diǎn)的改進(jìn),本文在Uavid數(shù)據(jù)集上設(shè)置了4組實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示。

      表1中:Base表示Swin Transformer作為主干網(wǎng)絡(luò)的實(shí)驗(yàn);Sp表示空間分支模塊;Laplacian表示拉普拉斯卷積;FFM表示特征融合模塊。與Base網(wǎng)絡(luò)相比,添加空間分支后的mIoU、[F1]、OA分別增加了6.28%、5.55%、1.17%。添加所有模塊后的mIoU、[F1]、OA分別達(dá)到了71.32%、82.41%、88.36%。

      2.4" 對比實(shí)驗(yàn)

      為了確定所提出遙感圖像特征融合語義分割網(wǎng)絡(luò)算法在無人機(jī)遙感場景的實(shí)際性能和可行性,本文進(jìn)行了多組對比實(shí)驗(yàn)用來評估和驗(yàn)證本文提出的語義分割模型對無人機(jī)遙感場景語義的理解能力。本文在Uavid、ISPRS Potsdam數(shù)據(jù)集和LoveDA數(shù)據(jù)集展開多組實(shí)驗(yàn),用來分析所提出算法在不同數(shù)據(jù)集中的分割性能,通過設(shè)置多組實(shí)驗(yàn)來驗(yàn)證網(wǎng)絡(luò)分割圖像的準(zhǔn)確率。

      不同分割網(wǎng)絡(luò)在Uavid數(shù)據(jù)集上的結(jié)果見表2。由表2可知,本文所提出網(wǎng)絡(luò)的平均交并比(mIoU)優(yōu)于Swin?tiny[20]、BiSeNet[21]、A2?FPN[22]、EANet[23]、ABCNet[24]等語義分割網(wǎng)絡(luò)。本文所提方法在Uavid數(shù)據(jù)集上的分割結(jié)果mIoU、OA分別達(dá)到了71.32%、88.36%。與基線Swin?tiny網(wǎng)絡(luò)相比,本文方法的mIoU與OA分別提升7.32%和1.56%。與次優(yōu)模型EANet相比,本文所提方法的mIoU提高了2.2%。具體到類別上,本文方法在絕大部分類別的IoU評估指標(biāo)上的性能比其他網(wǎng)絡(luò)都顯示出更加優(yōu)異的結(jié)果。所提網(wǎng)絡(luò)在Uavid數(shù)據(jù)集中的分割可視化效果如圖4所示。由可視化結(jié)果顯示,所提網(wǎng)絡(luò)在Uavid數(shù)據(jù)集的分割效果更好,在部分語義信息的細(xì)節(jié)信息方面對比其他網(wǎng)絡(luò)表現(xiàn)得較為良好。

      在ISPRS Potsdam數(shù)據(jù)集上,與不同網(wǎng)絡(luò)分割模型定量比較的結(jié)果見表3。本文所提方法在五個類別中四個類別取得了最佳IoU分?jǐn)?shù),并且相比次優(yōu)模型A2?FPN,本文方法的mIoU、OA、[F1]分別提升了1.98%、1.46%、1.19%。本文在小目標(biāo)“Car”的IoU值高達(dá)90.79%,與基線模型相比提升了16.16%,這得益于本文所提出的空間分支捕獲到的空間細(xì)節(jié)信息,增強(qiáng)了圖像的邊緣特征表達(dá)。Potsdam數(shù)據(jù)集的可視化結(jié)果如圖5所示。

      在LoveDA數(shù)據(jù)集上,與不同網(wǎng)絡(luò)分割模型定量比較的結(jié)果見表4。本文所提方法相比基線模型整體分割指標(biāo)mIoU、OA、[F1]分別提升了1.81%、0.96%、1.47%,與次優(yōu)模型EANet相比,mIoU、OA、[F1]分別提高2.42%、3.10%、2.11%。由表4可知,本文所提出的模型在綜合評估指標(biāo)上性能都高于其他方法,個別類別IoU性能得到次高的結(jié)果。

      LoveDA數(shù)據(jù)集可視化展示如圖6所示。由可視化結(jié)果可知,本文所提方法的分割性能優(yōu)于其他方法,不同類別的邊界更清晰。

      3" 結(jié)" 論

      本文構(gòu)建了一個雙路徑遙感圖像語義分割模型DFNet,該模型具有強(qiáng)大的圖像理解和地物識別能力。本模型在保留全局語義信息的同時還利用空間分支的拉普拉斯卷積增強(qiáng)了圖像的邊緣信息。最后通過多尺度特征融合交互兩個分支的信息,更全面地解譯遙感圖像信息。在Uavid、Potsdam和LoveDA數(shù)據(jù)集上的實(shí)驗(yàn)證明了本文方法的有效性和泛化性。在未來的工作中,考慮將多模態(tài)數(shù)據(jù)應(yīng)用于高空間分辨率遙感圖像的語義分割任務(wù)中,通過數(shù)據(jù)融合獲得更豐富的語義信息,提高分割的精度和效率。

      注:本文通訊作者為曹路。

      參考文獻(xiàn)

      [1] SCHUMANN G J P, BRAKENRIDGE G R, KETTNER A J, et al. Assisting flood disaster response with earth observation data and products: A critical assessment [J]. Remote sensing, 2018, 10(8): 1230.

      [2] WEISS M, JACOB F, DUVEILLER G. Remote sensing for agricultural applications: A meta?review [J]. Remote sensing of environment, 2020, 236: 111402.

      [3] SHI S N, ZHONG Y F, ZHAO J, et al. Land?use/land?cover change detection based on class?prior object?oriented conditional random field framework for high spatial resolution remote sensing imagery [J]. IEEE transactions on geoscience and remote sensing, 2020, 60: 1?16.

      [4] CHEN J, YUAN Z Y, PENG J, et al. DASNet: Dual attentive fully convolutional Siamese networks for change detection in high?resolution satellite images [J]. IEEE journal of selected topics in applied earth observations and remote sensing, 2021, 14: 1194?1206.

      [5] ZHU Q, LIAO C, HU H, et al. MAP?Net: Multiple attending path neural network for building footprint extraction from remote sensed imagery [J]. IEEE transactions on geoscience and remote sensing, 2021, 59(7): 6169?6181.

      [6] XING J, SIEBER R E, KALACSKA M. The challenges of image segmentation in big remotely sensed imagery data [J]. Annals of GIS, 2014, 20(4): 233?244.

      [7] GEDEON T, PARKER A E, CAMPION C, et al. Annealing and the normalized N?cut [J]. Pattern recognition, 2008, 41(2): 592?606.

      [8] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [J]. Communications of the ACM, 2017, 60(6): 84?90.

      [9] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2016: 2818?2826.

      [10] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2015: 3431?3440.

      [11] RONNEBERGER O, FISCHER P, BROX T. U?Net: Convolutional networks for biomedical image segmentation [C]// Medical Image Computing and Computer?assisted Intervention. Heidelberg, Germany: Springer, 2015: 234?241.

      [12] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs [J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 40(4): 834?848.

      [13] CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation [EB/OL]. [2018?08?13]. http://arxiv.org/abs/1706.05587.

      [14] CHEN L C, ZHU Y K, PAPANDREOU G, et al. Encoder?decoder with atrous separable convolution for semantic image segmentation [C]// Proceedings of the European Conference on Computer Vision (ECCV). Heidelberg, Germany: Springer, 2018: 833?851.

      [15] JIAO L C, LIANG M M, CHEN H, et al. Deep fully convolutional network?based spatial distribution prediction for hyperspectral image classification [J]. IEEE transactions on geoscience and remote sensing, 2017, 55(10): 5585?5599.

      [16] YAO Z Q, JIA J L, QIAN Y R. MCNet: Multi?scale feature extraction and content?aware reassembly cloud detection model for remote sensing images [J]. Symmetry, 2021, 13(1): 28.

      [17] NONG Z X, SU X, LIU Y, et al. Boundary?aware dual?stream network for VHR remote sensing images semantic segmentation [J]. IEEE journal of selected topics in applied earth observations and remote sensing, 2021(14): 5260?5268.

      [18] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Advances in Neural Information Processing Systems. [S.l.: s.n.], 2017: 5998?6008.

      [19] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: Transformers for image recognition at scale [EB/OL]. [2021?01?12]. https://openreview.net/forum?id=YicbFdNTTy.

      [20] LIU Z, LIN Y T, CAO Y, et al. Swin Transformer: Hierarchical vision transformer using shifted windows [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2021: 9992?10002.

      [21] YU C Q, WANG J B, PENG C, et al. BiSeNet: Bilateral segmentation network for real?time semantic segmentation [C]// Proceedings of the European Conference on Computer Vision (ECCV). Heidelberg, Germany: Springer, 2018: 334?349.

      [22] LI R, WANG L B, ZHANG C, et al. A2?FPN for semantic segmentation of fine?resolution remotely sensed images [J]. International journal of remote sensing, 2022, 43(3): 1131?1155.

      [23] ZHENG X W, HUAN L X, XIA G S, et al. Parsing very high resolution urban scene images by learning deep ConvNets with edge?aware loss [J]. ISPRS journal of photogrammetry and remote sensing, 2020, 170: 15?28.

      [24] LI R, ZHENG S Y, ZHANG C, et al. ABCNet: Attentive bilateral contextual network for efficient semantic segmentation of fine?resolution remotely sensed imagery [J]. ISPRS journal of photogrammetry and remote sensing, 2021, 181: 84?98.

      猜你喜歡
      尺度語義卷積
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      財(cái)產(chǎn)的五大尺度和五重應(yīng)對
      語言與語義
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      宇宙的尺度
      太空探索(2016年5期)2016-07-12 15:17:55
      “上”與“下”語義的不對稱性及其認(rèn)知闡釋
      認(rèn)知范疇模糊與語義模糊
      9
      一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
      青海省| 安达市| 朝阳区| 塘沽区| 上虞市| 武汉市| 汕头市| 乐亭县| 克什克腾旗| 巩义市| 元江| 武清区| 独山县| 山东省| 黄冈市| 武胜县| 临湘市| 清涧县| 永昌县| 越西县| 广东省| 嫩江县| 揭西县| 嘉鱼县| 东莞市| 永福县| 修武县| 太湖县| 和田县| 万宁市| 林州市| 泰宁县| 临洮县| 枣阳市| 兰西县| 南宁市| 奉节县| 乌兰浩特市| 类乌齐县| 汨罗市| 阳新县|