劉文萍 趙 磊 周 焱 宗世祥 駱有慶
(1.北京林業(yè)大學(xué)信息學(xué)院, 北京 100083; 2.北京林業(yè)大學(xué)林學(xué)院, 北京 100083)
土地覆蓋動(dòng)態(tài)變化是全球變化過(guò)程中的重要因子[1],土地覆蓋分類是研究土地覆蓋動(dòng)態(tài)變化的基礎(chǔ)[2-3],包含準(zhǔn)確分類數(shù)據(jù)的土地覆蓋圖同時(shí)能夠?yàn)檗r(nóng)業(yè)監(jiān)控、城鄉(xiāng)規(guī)劃、生態(tài)服務(wù)研究以及土地政策制定等工作提供關(guān)鍵信息,具有重大的現(xiàn)實(shí)意義[4-9]。
編制土地覆蓋圖所需數(shù)據(jù)的傳統(tǒng)獲取方法以人工實(shí)地調(diào)查為主,該方式需要耗費(fèi)大量的人力物力,周期長(zhǎng),且無(wú)法獲得準(zhǔn)確的地理分布情況[2]。隨著空間技術(shù)和計(jì)算機(jī)技術(shù)的不斷發(fā)展,利用隨機(jī)森林[10]、支持向量機(jī)[11]、決策樹[12]、卷積神經(jīng)網(wǎng)絡(luò)[13-16]等算法對(duì)衛(wèi)星遙感影像進(jìn)行圖像分析,在土地覆蓋數(shù)據(jù)獲取研究中取得了一定的成果,但是衛(wèi)星遙感影像成本高、時(shí)效性差,且分辨率較低,不足以反映地物細(xì)節(jié),嚴(yán)重影響土地覆蓋類型的識(shí)別精度,得到的數(shù)據(jù)不能滿足編制精細(xì)土地覆蓋圖的要求。
近年來(lái)無(wú)人機(jī)低空遙感技術(shù)發(fā)展迅速,因其機(jī)動(dòng)靈活、成本低廉、成像分辨率高的優(yōu)點(diǎn),已成為獲取高分辨率遙感數(shù)據(jù)的重要手段[17],并在土地資源調(diào)查、監(jiān)測(cè)與分類領(lǐng)域得到廣泛研究和應(yīng)用[2,18-23]。然而無(wú)人機(jī)圖像的處理方法大部分沿用了處理衛(wèi)星遙感圖像的思路,其工程量巨大,傳統(tǒng)圖像分析的方法甚至需要人工選取特征參數(shù)。
語(yǔ)義分割方法的出現(xiàn)和發(fā)展為高分辨率圖像分割與分類提供了新的思路。2014年LONG等[24]提出用于語(yǔ)義分割的全卷積神經(jīng)網(wǎng)絡(luò)(Fully convolutional networks, FCN),該方法自動(dòng)完成特征提取,并對(duì)圖像中所有像素點(diǎn)逐一進(jìn)行分類,在Pascal VOC 2012圖像分割數(shù)據(jù)集[25]上平均交并比(Mean intersection-over-union, MIoU)為67.2%,遠(yuǎn)優(yōu)于基于滑動(dòng)窗口的方法。此后基于FCN框架的語(yǔ)義分割技術(shù)發(fā)展迅速,在Pascal VOC 2012圖像分割數(shù)據(jù)集上各項(xiàng)評(píng)價(jià)指標(biāo)均有大幅提升[26-32],其中融合編解碼結(jié)構(gòu)的DeepLabV3+模型將MIoU提升至89%,該模型能夠準(zhǔn)確分割不同區(qū)域并分類,得到高質(zhì)量的分割圖。但是與大型通用圖像數(shù)據(jù)集不同,無(wú)人機(jī)高分辨率復(fù)雜土地覆蓋圖像前景不明確,部分圖像類間差異小、類內(nèi)差異大,直接應(yīng)用DeepLabV3+模型,得到的結(jié)果分割精度較低、分類噪聲較大。
本文采用深度學(xué)習(xí)技術(shù),對(duì)語(yǔ)義分割模型DeepLabV3+進(jìn)行改進(jìn),應(yīng)用在包含多種土地利用類型的無(wú)人機(jī)高分辨率復(fù)雜土地覆蓋圖像上,以分割不同土地覆蓋類型的區(qū)域。通過(guò)訓(xùn)練得到有效的分割模型,并進(jìn)行實(shí)驗(yàn),驗(yàn)證其性能。
實(shí)驗(yàn)數(shù)據(jù)采集于山東省臨沂市郯城縣(118°E,34°N),大疆“御”專業(yè)版無(wú)人機(jī),搭載3軸云臺(tái),可控俯仰轉(zhuǎn)動(dòng)范圍-90°~30°,橫滾0°或90°,角度抖動(dòng)量±0.02°;相機(jī)鏡頭為FOV78.8°(35 mm格式等效),原始圖像分辨率為4 000像素×3 000像素。各區(qū)域完整航片拼接圖像如圖1所示。
圖1 航片拼接圖
為提升模型的訓(xùn)練速度,降低運(yùn)算量,將拼接后圖像尺寸裁剪為512像素×512像素,裁剪后圖像共1 296幅。根據(jù)《土地利用現(xiàn)狀分類》中12個(gè)一級(jí)類劃分方式,使用labelme開源標(biāo)注工具,對(duì)裁剪后的圖像逐像素點(diǎn)標(biāo)注,并按照2∶1的比例隨機(jī)劃分為訓(xùn)練集和測(cè)試集,其中訓(xùn)練集圖像864幅,測(cè)試集432幅,數(shù)據(jù)集有效類別數(shù)為8。
本文提出的分割方法基于DeepLabV3+語(yǔ)義分割模型,并進(jìn)行了4點(diǎn)改進(jìn):①采用加入擴(kuò)張卷積的深度殘差網(wǎng)絡(luò)ResNet[33](以下簡(jiǎn)稱ResNet+)作為主干網(wǎng)絡(luò),加速模型收斂,提高實(shí)驗(yàn)精度。②在主干網(wǎng)絡(luò)后增加一個(gè)聯(lián)合上采樣模塊融合多層特征,增強(qiáng)模型編碼器的信息傳遞能力。③調(diào)整ASPP模塊,移除全局池化連接并采用較小的擴(kuò)張率組合,避免精度損失。④解碼器融合更多的淺層特征,提高模型對(duì)特征圖包含的空間位置信息的利用能力。原始模型架構(gòu)如圖2a所示,改進(jìn)后的模型架構(gòu)如圖2b所示。
圖2 模型架構(gòu)
主干網(wǎng)絡(luò)作為模型編碼器的組成部分,主要功能是對(duì)特征自動(dòng)提取。原始模型對(duì)Xception[34-35]進(jìn)行修改,得到Xception+作為主干網(wǎng)絡(luò),主要調(diào)整包括:①conv5階段新增8組共24層卷積網(wǎng)絡(luò)。②conv5階段的部分網(wǎng)絡(luò)層替換為擴(kuò)張卷積,如表1所示。擴(kuò)張卷積的作用是增大特征圖感受野的同時(shí),保持特征圖尺寸,避免空間位置信息的損失。以輸入尺寸5像素×5像素為例,標(biāo)準(zhǔn)卷積一步操作如圖3a所示,卷積核尺寸為3×3,步長(zhǎng)為2像素,填充值為1像素,感受野尺寸為3像素×3像素,擴(kuò)張卷積一步操作如圖3b所示,卷積核尺寸為3×3,擴(kuò)張率為2像素,步長(zhǎng)為1像素,填充值為2,感受野尺寸為5像素×5像素??梢钥吹剑瑪U(kuò)張卷積能夠在增大感受野的同時(shí)保持特征圖尺寸,既不影響特征描述效果,還可保留豐富的空間位置信息,對(duì)語(yǔ)義分割模型來(lái)說(shuō)非常關(guān)鍵。
表1 Xception網(wǎng)絡(luò)與Xception+網(wǎng)絡(luò)的結(jié)構(gòu)對(duì)比
圖3 標(biāo)準(zhǔn)卷積和擴(kuò)張卷積一步操作
但是Xception+作為主干網(wǎng)絡(luò),存在以下問(wèn)題:① Xception+相比原始Xception,網(wǎng)絡(luò)層數(shù)大幅增加,有較高比例的網(wǎng)絡(luò)層無(wú)法加載ImageNet預(yù)訓(xùn)練模型的參數(shù),只能進(jìn)行隨機(jī)初始化,嚴(yán)重影響模型收斂速度。②Xception+和Xception中均存在大量的可分離卷積,這樣的設(shè)計(jì)能夠提升運(yùn)算效率,但是應(yīng)用在無(wú)人機(jī)土地覆蓋圖像上,對(duì)模型精度損害較大。
本文對(duì)ResNet網(wǎng)絡(luò)進(jìn)行修改,替換conv5階段的部分標(biāo)準(zhǔn)卷積為擴(kuò)張卷積,得到ResNet+作為主干網(wǎng)絡(luò),如表2所示。ResNet+中不存在可分離卷積,并且擴(kuò)張卷積層之外的所有網(wǎng)絡(luò)層,均能加載ImageNet預(yù)訓(xùn)練模型參數(shù),進(jìn)行有效初始化,大幅提升了DeepLabV3+模型的精度和收斂速度。但是主干網(wǎng)絡(luò)中加入擴(kuò)張卷積,會(huì)增加模型后續(xù)階段的計(jì)算成本,因此本文只研究在conv5階段加入擴(kuò)張卷積的情況,最終主干網(wǎng)絡(luò)各個(gè)階段的特征圖f1、f2、f3、f4、f5尺寸分別為原始輸入圖像尺寸的1/2、1/4、1/8、1/16和1/16,如圖2b所示。
表2 ResNet網(wǎng)絡(luò)與ResNet+網(wǎng)絡(luò)的結(jié)構(gòu)對(duì)比
在圖像分析中,聯(lián)合上采樣旨在利用已有圖像作為先驗(yàn),將其結(jié)構(gòu)化的細(xì)節(jié)信息傳遞給目標(biāo)圖像。本文在主干網(wǎng)絡(luò)之后引入一個(gè)聯(lián)合上采樣模塊,傳遞多個(gè)不同特征圖的信息至主干網(wǎng)絡(luò)的輸出特征圖,有效增強(qiáng)了模型編碼器信息傳遞能力,可利用更多結(jié)構(gòu)化信息,提高分類與分割精度;模塊還對(duì)輸入的部分特征圖進(jìn)行采樣率為2的上采樣,如圖2b所示,聯(lián)合上采樣模塊接收特征圖f3、f4、f5作為輸入,分別采用卷積核尺寸為3×3的卷積層進(jìn)行處理,將f3和f4的通道數(shù)降低為512(與f5相等);模塊還分別對(duì)f4和f5進(jìn)行一次采樣率為2的上采樣,然后將3個(gè)經(jīng)過(guò)處理的特征圖進(jìn)行逐通道拼接,得到一個(gè)新的特征圖,用于后續(xù)操作。
原始模型編碼器中,ASPP模塊結(jié)構(gòu)如圖2a所示,該模塊由擴(kuò)張率分別為1、8、12、16的4個(gè)擴(kuò)張卷積和1個(gè)全局池化連接組成,用以捕獲不同尺寸的目標(biāo)。但是不同于通用數(shù)據(jù)集圖像,本文數(shù)據(jù)集中土地覆蓋圖像經(jīng)過(guò)裁剪后,各土地利用類型區(qū)域在圖像中所占面積較為接近,尺寸變化幅度小,如圖4所示。
圖4 通用數(shù)據(jù)集圖像和土地覆蓋圖像裁剪對(duì)比
原始模型中該模塊的擴(kuò)張率組合{1,8,12,16}和全局池化連接降低了分割的精度。本文對(duì)原始的ASPP模塊進(jìn)行調(diào)整,如圖2b所示,采用較小的擴(kuò)張率組合{1,2,4,8},并移除全局池化連接,以改善模型在本文土地覆蓋圖像上的分割效果。
解碼器主要功能是對(duì)特征圖進(jìn)行上采樣,擴(kuò)大特征圖尺寸以得到最終的圖像分割結(jié)果。如圖2a所示,解碼器將主干網(wǎng)絡(luò)中含有豐富空間位置信息的淺層特征圖f2和ASPP的輸出特征圖f6進(jìn)行融合,輸出一個(gè)與原始圖像輸入尺寸相同的分割圖。原始解碼器結(jié)構(gòu)較為簡(jiǎn)單,沒(méi)有充分利用編碼器各個(gè)階段輸出的特征圖信息。
為此本文對(duì)原始解碼器進(jìn)行改進(jìn),改進(jìn)后的解碼器如圖2b所示,輸入為淺層特征圖f1、f2、f3以及ASPP的輸出特征圖f6。首先分別對(duì)這4個(gè)特征圖進(jìn)行一個(gè)卷積核尺寸為3×3的卷積操作,將4個(gè)特征圖的通道數(shù)分別降為48、48、64和256;然后將處理后的特征圖f2、f3和f6進(jìn)行上采樣,使其尺寸與f1一致;四者進(jìn)行逐通道拼接,再經(jīng)過(guò)一次采樣率為2的上采樣,輸出一個(gè)與原始輸入圖像尺寸相同的分割掩碼圖。
實(shí)驗(yàn)在Ubuntu18.04LTS 64位系統(tǒng)下進(jìn)行,基于Pytorch開源深度學(xué)習(xí)框架并使用NVIDIA GEFORCE GTX 1080ti顯卡加速。模型訓(xùn)練階段采用動(dòng)量為0.9的隨機(jī)梯度下降算法進(jìn)行優(yōu)化,初始學(xué)習(xí)率為0.001,以4幅圖像為一個(gè)批次進(jìn)行120次完整迭代,學(xué)習(xí)率從第100次迭代開始減小為0.000 1,使用交叉熵?fù)p失函數(shù),訓(xùn)練過(guò)程中進(jìn)行了簡(jiǎn)單的數(shù)據(jù)增廣:首先以50%的概率對(duì)單幅圖像及其標(biāo)注圖像同時(shí)進(jìn)行水平翻轉(zhuǎn);再以同樣的概率,對(duì)單幅圖像進(jìn)行隨機(jī)高斯濾波處理。
為了客觀合理地評(píng)價(jià)模型在無(wú)人機(jī)土地覆蓋圖像上的分類與分割精度,本文使用像素準(zhǔn)確率(Pixel accuracy, PA)和平均交并比作為評(píng)價(jià)指標(biāo),指標(biāo)的數(shù)值越大,模型的效果越好。
3.2.1像素準(zhǔn)確率
像素準(zhǔn)確率能夠表示像素點(diǎn)分類的精度,用圖像中分類正確的像素點(diǎn)數(shù)量與像素點(diǎn)總數(shù)的百分比來(lái)表示,計(jì)算式為
(1)
式中pii——像素點(diǎn)i被預(yù)測(cè)為i的數(shù)量
pij——像素點(diǎn)i被預(yù)測(cè)為j的數(shù)量
C——數(shù)據(jù)集中不同土地利用類型的數(shù)量,本文為8
3.2.2平均交并比
平均交并比是語(yǔ)義分割模型的標(biāo)準(zhǔn)度量指標(biāo),定義為
(2)
通過(guò)計(jì)算每一類真實(shí)值像素集合和預(yù)測(cè)值像素集合的交集和并集的比值,得到每一類別的交并比后,計(jì)算所有類的平均值即為平均交并比,該指標(biāo)在實(shí)驗(yàn)中能夠較好地反映模型在不同利用類型的土地區(qū)域上分割的準(zhǔn)確性和完整性。
不同組成的模型在無(wú)人機(jī)土地覆蓋圖像測(cè)試數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表3所示。模型1為原始DeepLabV3+模型,主干網(wǎng)絡(luò)為Xception+,在測(cè)試集上PA為80.51%,MIoU為55.73%;模型2在模型1的基礎(chǔ)上替換主干網(wǎng)絡(luò)為ResNet+,PA和MIoU分別提升了11.46個(gè)百分點(diǎn)和12.50個(gè)百分點(diǎn);模型3在模型2的基礎(chǔ)上加入聯(lián)合上采樣模塊,PA和MIoU分別比模型2提升了1.55個(gè)百分點(diǎn)和10.25個(gè)百分點(diǎn);在模型3的基礎(chǔ)上調(diào)整ASPP模塊后得到模型4,PA和MIoU有小幅提升,分別為93.60%和79.50%;最終應(yīng)用改進(jìn)后的解碼器得到模型5,PA和MIoU分別提升至95.06%和81.22%,相比原始DeepLabV3+模型即模型1,兩個(gè)指標(biāo)分別提升了14.55個(gè)百分點(diǎn)和25.49個(gè)百分點(diǎn)。
表3 不同模型在測(cè)試集上的實(shí)驗(yàn)結(jié)果
另外,采用相同的數(shù)據(jù)集和參數(shù)分別訓(xùn)練了FCN-8S模型和PSPNet模型,與本文提出的方法進(jìn)行對(duì)比,結(jié)果如圖5所示??梢钥吹?,常用的FCN-8S模型收斂速度較慢,相同迭代次數(shù)的情況下效果最差;原始DeepLabV3+由于使用Xception+作為主干網(wǎng)絡(luò),兩個(gè)指標(biāo)波動(dòng)較大,但與PSPNet接近;本文模型的兩個(gè)指標(biāo)均為最高,且收斂速度快,對(duì)無(wú)人機(jī)土地覆蓋圖像數(shù)據(jù)集的分割與分類效果最好。
圖5 測(cè)試集上像素準(zhǔn)確率和平均交并比隨迭代次數(shù)的變化
本文利用多個(gè)模型在包含432幅圖像的測(cè)試數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),部分分割結(jié)果如圖6所示。可以看到,本文方法在復(fù)雜的土地覆蓋圖像上分割和分類精度都較高,而且對(duì)無(wú)人機(jī)圖像拼接過(guò)程造成的小幅圖像變形具有較高的魯棒性。
盡管模型取得了較好的效果,但是實(shí)驗(yàn)中也出現(xiàn)了一些低質(zhì)量的分割結(jié)果,如圖7所示。由圖7a可知,當(dāng)原始圖像發(fā)生大范圍的變形時(shí),模型分割結(jié)果會(huì)受到嚴(yán)重干擾。圖7b中的白框區(qū)域中樹木遮擋了部分道路,造成分類錯(cuò)誤。圖7c的白框區(qū)域中,耕地的農(nóng)作物行間種植了較多樹木,導(dǎo)致模型的低質(zhì)量分割結(jié)果。
圖6 PSPNet、DeepLabV3+和本文模型的分割效果對(duì)比
圖7 低質(zhì)量的模型分割結(jié)果
(1)針對(duì)現(xiàn)有土地覆蓋數(shù)據(jù)獲取方法成本高、精度低、工程量大等問(wèn)題,應(yīng)用深度學(xué)習(xí)技術(shù),提出一種面向無(wú)人機(jī)高分辨率復(fù)雜土地覆蓋圖像的語(yǔ)義分割方法。該方法能夠?qū)Σ煌恋乩妙愋偷膮^(qū)域進(jìn)行分割并分類,得到質(zhì)量較高的土地覆蓋數(shù)據(jù),用于編制精細(xì)土地覆蓋圖。
(2)該方法基于DeepLabV3+語(yǔ)義分割模型并進(jìn)行改進(jìn),編碼器中將主干網(wǎng)絡(luò)替換為ResNet+,增加聯(lián)合上采樣模塊,調(diào)整ASPP模塊,解碼器中融合更多淺層特征。結(jié)果表明,本文提出的方法像素準(zhǔn)確率為95.06%,平均交并比為81.22%,相比原始DeepLabV3+模型像素準(zhǔn)確率提高了14.55個(gè)百分點(diǎn),平均交并比提高了25.49個(gè)百分點(diǎn),能夠得到效果更好的分類與分割結(jié)果。