李賢蔚
(武漢大學(xué)測繪遙感信息工程國家重點(diǎn)實驗室,湖北 武漢 430079)
地表覆蓋信息反映了地球表面的物理和生物特性,對于環(huán)境保護(hù)、資源管理和政策制定等有重要意義[1]。隨著遙感影像獲取愈加便捷與豐富,深度學(xué)習(xí)技術(shù)不斷發(fā)展,基于深度學(xué)習(xí)語義分割技術(shù)的遙感影像地表覆蓋分類方法取得了良好效果[2]。然而,深度學(xué)習(xí)模型的訓(xùn)練需要大量標(biāo)簽數(shù)據(jù),人工標(biāo)注會消耗大量人力物力。當(dāng)前,已公開大范圍的地表覆蓋分類產(chǎn)品集,能夠為深度模型訓(xùn)練提供大量標(biāo)簽數(shù)據(jù),但是這些數(shù)據(jù)因為缺少人工檢核等可靠步驟,在不同方面存在一些分類錯誤。與此同時,使用產(chǎn)品集提供的標(biāo)簽數(shù)據(jù)需要對應(yīng)同一地理位置的衛(wèi)星遙感影像,在這一過程中可能存在影像-標(biāo)簽的幾何位置偏移。為克服以上問題,本文提出了一種基于高溫特征的深度學(xué)習(xí)模型集成方法,使用多個地表覆蓋產(chǎn)品集的標(biāo)簽數(shù)據(jù),匹配對應(yīng)衛(wèi)星影像組成訓(xùn)練數(shù)據(jù)集,基于高溫特征對多個單數(shù)據(jù)集訓(xùn)練而成的模型進(jìn)行集成訓(xùn)練,最終生成精度表現(xiàn)更好的集成深度模型。
選用Google Dynamic V1、Esri LULC、ESA WorldCover和FROM-GLC10 等4 個全球地表覆蓋產(chǎn)品集[3-6]的標(biāo)簽數(shù)據(jù),空間分辨率均為10 米,分類體系相近,具體信息如表1 所示。
表1 本文采用的4個全球地表覆蓋產(chǎn)品集基本情況
本文選用的影像數(shù)據(jù)是哨兵2 號衛(wèi)星影像,實驗使用其中的紅、綠、藍(lán)、近紅外以及2 個短波紅外等6 個波段,具體情況如表2 所示。實驗將不同波段數(shù)據(jù)的空間分辨率統(tǒng)一重采樣為10 米。
表2 哨兵2號衛(wèi)星影像波段基本情況
采用全卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行地表覆蓋分類。首先對4 個產(chǎn)品集類別體系進(jìn)行整合,然后分別訓(xùn)練模型,最后基于高溫特征值集成模型。原理如下:
(1)全卷積神經(jīng)網(wǎng)絡(luò)
全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Neural Network,F(xiàn)CN)是一種專門用于處理圖像分割任務(wù)的神經(jīng)網(wǎng)絡(luò)模型[7]。相較于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),全卷積神經(jīng)網(wǎng)絡(luò)不包含全連接層,而是對特征圖進(jìn)行上采樣,使得輸出與輸入具有相同的空間尺寸。因此全卷積神經(jīng)網(wǎng)絡(luò)可以接受任意大小的輸入圖像,并逐像素輸出對應(yīng)的分類結(jié)果。全卷積神經(jīng)網(wǎng)絡(luò)一般還會在編碼器和解碼器不同尺度下的特征圖間構(gòu)建跳層連接(Skip Connection),以融合不同尺度的特征信息,提高模型精度。
實驗選用的SDFCNv2 網(wǎng)絡(luò)是面向遙感影像語義分割任務(wù)提出的全卷積神經(jīng)網(wǎng)絡(luò)模型[8]。該網(wǎng)絡(luò)模型同樣采用對稱的編碼器(encoder)-解碼器(decoder)結(jié)構(gòu),在網(wǎng)絡(luò)中應(yīng)用了混合基礎(chǔ)卷積層和自映射混合基礎(chǔ)層,應(yīng)用空間通道融合擠壓激勵模塊增大卷積神經(jīng)網(wǎng)絡(luò)的感受野,緩解了分類結(jié)果中的不連續(xù)與椒鹽噪聲現(xiàn)象。SDFCNv2 具體網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。
圖1 SDFCNv2網(wǎng)絡(luò)結(jié)構(gòu)
(2)地表覆蓋分類體系整合
基于地表覆蓋產(chǎn)品集融合形成統(tǒng)一類別體系,包含水體、森林、放牧地、裸地、耕地、人工地表、淹沒植被、冰雪和其他等9 個類別。其中,水體、森林、裸地、耕地、人工地表、冰雪屬于4 個產(chǎn)品集的共有類別;放牧地是由草地、灌木兩個類別合并而成;淹沒植被是濕地(ESA WorldCover 數(shù)據(jù)集的紅樹林也歸入此類);其他類則合并了FROM-GLC10 數(shù)據(jù)集中凍土類別、ESA WorldCover 數(shù)據(jù)集中苔蘚和地衣類別、Esri LULC 數(shù)據(jù)集中云類別等。
(3)高溫特征
利用知識蒸餾的高溫輸出思路,知識蒸餾是一種模型壓縮方法,通過“老師-學(xué)生”結(jié)構(gòu)將老師模型學(xué)習(xí)到的知識傳遞給學(xué)生模型,在訓(xùn)練過程中利用高溫Softmax 函數(shù)放大負(fù)標(biāo)簽所攜帶的信息,并通過蒸餾損失和常規(guī)損失對學(xué)生模型進(jìn)行訓(xùn)練,以提高其表現(xiàn)[9]。公式如下:
其中,zi是logits 值,T是溫度值,pi是高溫預(yù)測值。老師模型向?qū)W生模型傳遞知識的方式就是通過高溫輸出。影像經(jīng)由模型輸出為logits值,再通過映射(Softmax層)將logits 值轉(zhuǎn)化為模型預(yù)測結(jié)果,即各個類別的概率值。在傳統(tǒng)訓(xùn)練中,常常忽略負(fù)標(biāo)簽所攜帶的信息,而知識蒸餾通過高溫映射(高溫Softmax 層)可以縮小正負(fù)標(biāo)簽之間的概率差,從而放大負(fù)標(biāo)簽所攜帶的信息并加以利用,在每個樣本上給老師模型帶來更多的信息量。其中,不同的溫度值設(shè)置會影響高溫特征攜帶的信息量,同時也會影響模型訓(xùn)練的表現(xiàn)。
(4)集成模型訓(xùn)練
集成學(xué)習(xí)方法通過將多個基本模型的預(yù)測結(jié)果進(jìn)行組合,得到更為準(zhǔn)確和穩(wěn)定的預(yù)測結(jié)果,在處理復(fù)雜數(shù)據(jù)集或具有噪聲的數(shù)據(jù)時效果顯著。每個產(chǎn)品集的標(biāo)簽包含一定的錯誤,集成學(xué)習(xí)可用來解決這一數(shù)據(jù)噪聲的問題。
特征級數(shù)據(jù)融合針對的是從影像數(shù)據(jù)轉(zhuǎn)換生成的特征結(jié)果,由于深度神經(jīng)網(wǎng)絡(luò)模型的深層特征提取能力,這些特征結(jié)果包含了豐富的信息,在這一階段進(jìn)行數(shù)據(jù)融合能夠達(dá)到“取長補(bǔ)短”的效果。為了更好地利用特征結(jié)果的豐富信息,采用知識蒸餾技術(shù)中的高溫預(yù)測思路。在知識蒸餾模型中,模型輸出高溫預(yù)測值,充分利用負(fù)標(biāo)簽攜帶的信息,提高知識傳遞的效率。
實驗研究區(qū)域為全國均勻分布的42 個區(qū)域,跨越不同經(jīng)度、緯度和自然地理分區(qū),具體分布如圖2 所示(黃色部分)。影像數(shù)據(jù)為研究區(qū)域的哨兵2 號影像。標(biāo)簽數(shù)據(jù)來自Google Dynamic V1、Esri LULC、FROM-GLC10 等3 個產(chǎn)品集,按照統(tǒng)一類別體系轉(zhuǎn)換,包含統(tǒng)一類別體系所有的地表覆蓋類型。將ESA WorldCover 產(chǎn)品集的標(biāo)簽作為真值進(jìn)行精度評定。實驗使用總體精度(Overall Accuracy,OA)、F1 分?jǐn)?shù)(F1)、Kappa 系數(shù)(Kappa)、平均交并比(mean Intersection of Union,mIoU)等作為精度評定指標(biāo)。
圖2 研究區(qū)域分布
為了驗證高溫集成方法的有效性,按照相同精度評定標(biāo)準(zhǔn),測試了Google Dynamic V1、Esri LULC、FROM-GLC10 等3 個單數(shù)據(jù)集訓(xùn)練模型,在表3 中分別記為模型-G、模型-E、模型-F,高溫集成訓(xùn)練的模型記為集成模型-10(溫度T設(shè)為10),模型預(yù)測精度如表3 所示。
表3 對比實驗精度結(jié)果
此外,通過設(shè)置3 個不同的溫度T值(1、5、20),將實驗所得的高溫集成訓(xùn)練的模型分別記為集成模型-1、集成模型-5、集成模型-20,模型預(yù)測結(jié)果精度如表4 所示。
表4 基于不同溫度T 值的集成訓(xùn)練模型精度
根據(jù)實驗結(jié)果可以看出,無論溫度T值為1、5、10 或20,高溫集成訓(xùn)練而成的模型精度均優(yōu)于單一數(shù)據(jù)集訓(xùn)練的模型,驗證了高溫集成的模型訓(xùn)練方法能從多個數(shù)據(jù)集中提取有效知識,具有更強(qiáng)的魯棒性,能夠有力減輕單個數(shù)據(jù)集包含的錯誤以及標(biāo)簽與影像不匹配對模型訓(xùn)練的負(fù)面影響。
如圖3 所示,在影像的左上方有一塊裸露土地,根據(jù)目視判讀應(yīng)為裸地類型。然而,在FROM-GLC10 模型(模型-F)預(yù)測結(jié)果中該部分被誤判為淹沒植被、水體和人工建筑的組合;在Esri LULC(模型-E)的預(yù)測結(jié)果中,該部分的外圍區(qū)域被預(yù)測為放牧地類型;Google Dynamic V1 模型(模型-G)的預(yù)測結(jié)果較好。不同溫度T值的高溫集成模型(集成模型-1、集成模型-5、集成模型-10、集成模型-20)在該區(qū)域的預(yù)測結(jié)果表現(xiàn)良好,這表明高溫集成模型訓(xùn)練方法優(yōu)于單數(shù)據(jù)集訓(xùn)練方法,能夠有效避免單數(shù)據(jù)集訓(xùn)練中錯誤數(shù)據(jù)對于模型訓(xùn)練的不良影響。此外,如影像下部水塘的中間部分所示,高溫集成訓(xùn)練而成的模型對淹沒植被類型的預(yù)測結(jié)果也比單數(shù)據(jù)集訓(xùn)練的模型更好。
圖3 模型預(yù)測結(jié)果對比
對比不同溫度T值的實驗結(jié)果,可以看出溫度過低或過高都會影響融合精度。當(dāng)溫度過高時,負(fù)標(biāo)簽攜帶的信息被放大太多,導(dǎo)致模型無法很好地區(qū)分地物類型,從而無法從數(shù)據(jù)中學(xué)習(xí)知識;當(dāng)溫度過低時,負(fù)標(biāo)簽攜帶的信息相對于正標(biāo)簽過少,未能被有效利用,導(dǎo)致訓(xùn)練效果較差。通過大量實驗,針對研究區(qū)域,發(fā)現(xiàn)當(dāng)溫度T設(shè)置為10 時,高溫集成訓(xùn)練方法的精度最佳。
針對面向地表覆蓋分類任務(wù)的深度模型訓(xùn)練需要大量標(biāo)簽數(shù)據(jù)的情況,利用現(xiàn)有多個大范圍地表覆蓋分類產(chǎn)品集的標(biāo)簽數(shù)據(jù)進(jìn)行模型訓(xùn)練,提出基于高溫特征的深度模型集成方法,克服標(biāo)簽數(shù)據(jù)包含的錯誤類別信息和影像-標(biāo)簽的不匹配情況對模型訓(xùn)練的負(fù)面影響。該方法減少了人工標(biāo)注樣本的工作量,基于多個數(shù)據(jù)源獲取可靠知識,通過高溫特征提高知識傳遞效率。集成多個全球土地覆蓋產(chǎn)品集選擇研究區(qū)開展實驗,結(jié)果表明,基于高溫集成的深度模型訓(xùn)練方法,相比于基于單數(shù)據(jù)集訓(xùn)練的模型,有更優(yōu)的精度表現(xiàn);不同的溫度T值對模型訓(xùn)練有不同程度的影響,溫度T設(shè)置為10 時,研究區(qū)模型訓(xùn)練效果最好。因此,基于高溫集成的深度模型訓(xùn)練方法可使用多個地表覆蓋分類產(chǎn)品集標(biāo)簽數(shù)據(jù)對深度模型進(jìn)行訓(xùn)練,為土地覆蓋分類任務(wù)面臨的標(biāo)簽數(shù)據(jù)問題提供了一種有效可行的解決方法。