• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于半監(jiān)督對抗學習的圖像語義分割

    2022-07-15 01:05:32李志欣張佳吳璟莉馬慧芳
    中國圖象圖形學報 2022年7期
    關鍵詞:語義像素卷積

    李志欣,張佳,吳璟莉,馬慧芳

    1.廣西師范大學廣西多源信息挖掘與安全重點實驗室,桂林 541004;2.西北師范大學計算機科學與工程學院,蘭州 730070

    0 引 言

    圖像語義分割是圖像處理和計算機視覺領域的一項重要工作,像素級的分割任務通常稱為圖像語義分割。隨著卷積神經網絡(convolutional neural network,CNN)的發(fā)展,圖像語義分割取得了顯著進展(Chen等,2018;Long等,2015;Oliver等,2019;Yu和Koltun,2016),廣泛應用于自動駕駛(Geiger等,2012)、圖像編輯(Tsai等,2017)等領域。然而在實際的圖像語義分割應用中,在進行全監(jiān)督CNN訓練時,通常需要大量像素級標注的真實標記(ground truth,GT)傳達對象邊界及其組成部分之間的關系,這些數據通常是人工獲取的,需要付出巨大代價。為了減少訓練過程中使用人工生成標記的數量,最常見的是在圖像語義分割中采用半監(jiān)督或弱監(jiān)督的訓練方法。

    半監(jiān)督學習方法的關鍵是其使用的弱標記數據僅表示某個對象類的存在,不提供對象位置或邊界的GT信息。顯然,這些注釋比像素級的標記弱,且在大量的可視數據中很容易獲得,或者說能以相對較低的成本手工獲得。因此,半監(jiān)督學習為訓練具有有限標記數據和大量未標記數據的圖像語義分割模型提供了一種有吸引力的方法。針對圖像語義分割,目前提出了多種半監(jiān)督訓練方法。Kalluri等人(2019)將半監(jiān)督學習和無監(jiān)督域適應結合起來。Stekovic等人(2019)實現了3維場景的多個視圖之間的幾何約束。一致性正則化(Oliver等,2019)代表了一類用于訓練深度神經網絡分類器的半監(jiān)督學習算法,它也被開發(fā)用于產生最先進的半監(jiān)督分類結果,這些結果在概念上很簡單,而且通常容易實現。Kingma和Ba(2017)注意到在圖像語義分割中使用圖像級標注依賴于分類網絡獲得的位置圖來擬合圖像級標注和像素級標注之間的差距。然而,這些特征圖只關注物體的一小部分,沒有精確的邊界表示。因此,目前已有的采用半監(jiān)督學習的圖像分割方法與全監(jiān)督網絡訓練方法相比效果較差。

    在卷積過程中的優(yōu)化算法可能無法適當地協(xié)調多個卷積層以捕獲這些依賴性的參數值,因此可能會妨礙遠程依賴性的學習。雖然增大卷積核的大小可以提高網絡的表達能力,但這樣做也會失去使用局部卷積結構獲得的計算效率。上下文依賴關系已經在許多方面得到解決,例如,學習上下文已經被證明依賴于局部特征,并且有助于特征表示。Shuai等人(2018)使用遞歸神經網絡(recursive neural network,RNN)創(chuàng)建有向無環(huán)圖模型,以捕獲豐富的上下文依賴關系。Zhao等人(2018)提出PSANet(point-wise spatial attention network),通過卷積和空間維的相對位置信息捕獲像素級關系。此外,Zhang等人(2018)提出的EncNet(context encoding network)引入了一個通道注意機制來捕獲全局上下文。注意模塊對遠程依賴關系的建模能力已經得到了證明,也已經在許多任務中得到了廣泛的應用。同時,自注意力機制在計算機視覺領域的應用也越來越廣泛。Vaswani等人(2017)利用一種自注意機制訓練更好的分類生成器。然而,這些工作目前并沒有有效地應用于半監(jiān)督圖像語義分割。因此,本文嘗試將自注意機制應用于半監(jiān)督圖像語義分割任務中,并獲得了很好的效果。

    生成對抗網絡(generative adversarial network,GAN)(Goodfellow等,2014)的發(fā)展使得半監(jiān)督和弱監(jiān)督學習在圖像語義分割中的應用取得了顯著進展。判別器的性能控制是提出的半監(jiān)督對抗學習圖像語義分割在訓練過程中面臨的另一個挑戰(zhàn)。在這里,高維空間中判別器的密度比估計在訓練中往往是不準確且不穩(wěn)定的。優(yōu)化的目的是獲得一個能夠很好地區(qū)分生成分布和目標分布(Arjovsky和Bottou,2017)的判別器。然而一旦獲得這樣一個判別器,生成器的訓練就完全停止了。為了提高GAN訓練的穩(wěn)定性,眾多研究者做了各種努力。Radford等人(2016)為了從體系結構設計的角度尋找一套更好的網絡架構設置,開發(fā)了DCGAN(deep convolutional GAN)模型,在圖像生成領域進行了廣泛的實驗驗證。Wasserstein GAN模型(Arjovsky等,2017)通過引入Wasserstein距離的概念,從理論角度解決了GAN訓練不穩(wěn)定問題。在Wasserstein GAN模型中,判別器的參數矩陣必須滿足Lipschitz約束。但是采用的約束方法相對簡單粗暴,直接約束參數矩陣中的元素,使其不大于給定值。盡管此方法可以保證Lipschitz約束,但也破壞了參數之間的比例關系。本文使用的譜歸一化是一種既滿足Lipschitz條件,又不破壞矩陣結構的方法,僅需使每層網絡的網絡參數除以該層參數矩陣的譜范數即可滿足Lipschitz等于1的約束,因此實現起來也較為簡單。

    本文提出一種穩(wěn)定的自注意半監(jiān)督對抗性學習方法,使用的基礎分割網絡是基于DeepLabv2框架(Chen等,2018)和在MSCOCO(Microsoft common objects in context)(Lin等,2014)數據集上預訓練的ResNet-101(residual neural network)模型。其中利用一個全卷積的判別器,產生一個像素級的置信度圖以區(qū)分生成器生成的數據和GT分割圖。置信圖中的每個像素可以用一個簡單的閾值分割成0或1,1表示可信預測結果,0表示結果不可信。將置信圖作為掩膜,將分割預測看做假標記,用于訓練分割網絡。分割網絡可以不斷學習不同的不可見模式,以尋求和改進優(yōu)化,然后在不可見的類別中識別新的模式。本文的貢獻主要有:1)在GAN的分割網絡中引入一種自注意機制,在基于像素級GT數據的半監(jiān)督對抗訓練中,通過計算特征圖中任意兩個位置之間的相互作用,直接捕獲其遠程依賴關系;2)采用譜歸一化(Miyato等,2018)穩(wěn)定判別器網絡的訓練,不需要對超參數進行大范圍的調整即可達到較好的判別器訓練效果,與其他常用方法相比,這種歸一化技術計算量更小,更容易集成到當前的實現方法中;3)在數據集PASCAL VOC 2012(pattern analysis,statistical modeling and computational learning visual object classes)(Everingham等,2010)和Cityscapes(Cordts等,2016)上進行實驗評估,與當前先進的半監(jiān)督和全監(jiān)督圖像語義分割方法相比,本文方法具有更好的性能。實驗以Hung等人(2018)提出的AdvSemiSeg方法作為半監(jiān)督基線模型,以DeepLabv2網絡為全監(jiān)督方法基線模型。此外,本文給出了在不應用譜歸一化的情況下(即僅應用自注意模塊)獲得的性能。

    1 相關工作

    深度學習在圖像分類中的一些突破性方法已用于圖像語義分割任務,但圖像語義分割任務的核心是如何將分割與分類兩項任務結合起來。很多分割方法都采用遷移學習,通常以ResNet(He等,2016)和VGG(Visual Geometry Group)(Simonyan和Zisserman,2015)分類網絡的卷積層作為骨干。Long等人(2015)提出的將卷積21路分類器與VGG-16骨干網相連接的全卷積網絡(fully convolutional network,FCN)的應用,證明了深度神經網絡在圖像語義分割中的有效性。Chen等人(2018)將空洞卷積應用于VGG-16網絡的后幾層,在保持接收域的同時提高預測的空間分辨率。編解碼器架構(Ding等,2018)在圖像語義分割中也得到了應用。編碼器是一種特殊的神經網絡,用于特征提取和數據降維,生成具有語義信息的特征圖像。解碼器網絡的作用是將編碼器網絡輸出的低分辨率特征圖像映射回輸入圖像的大小,進行逐像素分類。U-Nets(Ronneberger等,2015)使用置換卷積層增加分辨率,其跳躍連接帶有完整的特征圖。

    以上方法都表現出了非常優(yōu)越的性能,但在訓練過程中都需要大量的標記數據,通常要在有像素級注釋的大型數據集上進行訓練,例如數據集PASCAL VOC 2012和Cityscapes等,獲取這些標記數據非常耗時且昂貴。一些研究采用半監(jiān)督方法,即只使用部分標記數據的訓練處理這個問題。在本文工作中考慮的半監(jiān)督方法,可以分為僅使用圖像級標記和僅使用邊界框(Sun和Li,2019)的弱注釋數據的方法,或者只是對部分數據進行標記而另外部分數據完全未標記的方法。Luc等人(2016)首先將對抗學習引入圖像語義分割,Souly等人(2017)為其在半監(jiān)督學習中的應用開辟了道路。Liu等人(2019)在基于對抗學習的方法中采用全卷積判別器,試圖在像素級區(qū)分預測概率圖和GT分割分布。這些工作都是只標記部分數據集,另外未標記的數據來自相同的數據集,并且與標記的數據共享相同的域數據分布。

    Goodfellow等人(2014)重新引入圖像生成任務的對抗性學習的概念,并使用GAN成功地從隨機噪聲中生成了手寫數字和人臉等圖像。然而,隨機噪聲和有意義的圖像顯然來自不同的數據域,且分布不一致。因此,GAN模型可以解決不同數據域間分布不一致的問題。大多數生成器從噪聲矢量生成圖像。Liu等人(2019)提出使用GAN生成低顯示類別的真實圖像以增強數據,從而平衡標記分布。Hung等人(2018)提出使用對抗網絡促進小規(guī)模數據集中的語義分割,當給定一個特定圖像時,判別器用來輸出語義標記的置信度圖,經過這樣調整可以強制分割預測,使參數在空間上更接近GT,之后該生成器可以在半監(jiān)督設置下提高分割精度。

    自注意(Vaswani等,2017)最初的目的是為了解決機器翻譯問題,在隨后的工作中進一步提出了非局部神經網絡(Wang等,2018),用于視頻分類、目標檢測和實例分割等一系列任務。Hu等人(2018)還應用自注意機制對對象之間的關系進行建模,以實現更好的對象檢測。最近的一些工作(Zhang等,2019)將類似的機制應用于語義分割并取得了良好的分割性能。本文的工作與上述工作密切相關,處理高分辨率輸入,通過關注所有輸入位置,計算每個輸出位置的上下文信息,對遠程依賴關系進行建模,通過配備自注意機制的單層模型模擬輸入特征圖中任何位置之間的依賴關系。

    盡管GAN在改善數據驅動的生成模型的樣本質量方面非常成功(Brock等,2019;Karras等,2018),但對抗訓練也導致了GAN的不穩(wěn)定性,已有的工作(Arjovsky等,2017)表明,GAN的這種不穩(wěn)定性是由于梯度爆炸和梯度消失導致的。一個標準的抗擾訓練方案涉及使用抗擾樣本擬合判別器(Szegedy等,2014),目的是產生一個訓練有素的判別器,該判別器對測試樣本的攻擊具有更好的魯棒性。為了提高GAN的穩(wěn)定性,學者提出許多方法,包括利用不同的體系機構(Radford等,2016)、采用正則化技術(Salimans和Kingma,2016)和梯度懲罰(Gulrajani等,2017)等。譜歸一化技術(Miyato等,2018)是最好的方法之一,本文通過在GAN結構的判別器中引入譜歸一化,達到了控制判別器的Lipschitz常數的效果,緩解了梯度消失問題,提高了GAN訓練的穩(wěn)定性。

    2 模型概述

    提出的半監(jiān)督圖像語義分割的方法框架主要由兩個子網絡構成,包括分割網絡G和判別器D,如圖1所示。其中分割網絡G輸出類別概率圖,SA(self-attention)表示自注意力模塊,SN(spectral normalization)表示應用譜歸一化技術,判別器網絡D輸出置信度圖,Lce是基于GT圖像的標準交叉熵損失,Ladv是D的對抗損失,Lsemi是掩膜交叉熵損失。分割網絡中輸入第n個圖像Xn的尺寸為H×W×3。G中的特征圖通過引入的兩層自注意模塊,首先應用卷積層獲取降維特征,然后將輸入自注意模塊的特征生成一個空間注意矩陣,對特征圖的任意兩個像素之間的空間關系進行建模。接下來,在自注意矩陣和原始特征之間執(zhí)行矩陣乘法。最后,對上面相乘的結果和原始特征進行逐元素的求和運算,獲得遠程上下文的表示。這使生成器可以基于局部特征對豐富的上下文關系進行建模,從而在生成圖像時可以很好地協(xié)調每個位置和遠端的細節(jié)。輸出是維度H×W×C的類概率圖,其中C為語義類的個數。

    圖1 半監(jiān)督語義分割方法框架圖Fig.1 Framework of semi-supervised semantic segmentation method

    通過使用空間交叉熵損失LD訓練基于全卷積的判別器網絡。判別器D可以接受不同大小的輸入,其由G輸出的類概率圖(G(Xn))或一個獨熱編碼的標記圖In作為輸入,最終輸出一個尺寸為H×W×1的置信度圖。這里,對于置信度圖的每個像素i,如果來自分割網絡G,則設為0;如果來自標記圖,則設為1。因此,置信圖表示G的概率預測輸出更接近GT分布的區(qū)域。同時在D內應用譜歸一化,保證其映射函數滿足Lipschitz約束。

    使用未標記圖像和標記圖像進行半監(jiān)督訓練。在整個訓練過程中,將未標記的數據應用于訓練G,而附加的自注意模塊則有效地解決了輸入圖像中廣泛分離的空間區(qū)域之間的關系。當使用標記數據時,G的訓練將同時根據基于In的標準交叉熵損失Lce和從D獲得的對抗損失Ladv進行監(jiān)督。然后,根據置信度圖給出的可信預測,以自學習的方式將置信度圖和掩膜交叉熵損失Lsemi一起用做訓練G的監(jiān)督信號。

    3 半監(jiān)督損失

    3.1 損失函數

    訓練分割網絡通過最小化多任務損失函數實現,具體為

    LG=Lce+λadvLadv+λsemiLsemi

    (1)

    式中,λadv和λsemi是權重,用于最小化多任務損失函數。對于式(1)中的第1個損失分量,標準交叉熵損失定義為

    (2)

    (3)

    式中,D(G(Xn))(h,w)是Xn在位置(h,w)處的置信度圖。因為未標記的數據不包含GT,所以未標記的數據不會產生與Lce相關的損失,此時只需要判別器網絡,即此時對抗損失Ladv仍然適用。最后,使用指標函數F(·)和閾值Tsemi定義式(1)中的第3個損失分量,以對置信度圖進行二值化,更好地顯示可信區(qū)域。第3個損失分量,掩膜交叉熵損失可表示為

    (4)

    通過最小化空間交叉損失函數LD訓練判別器網絡,具體為

    (5)

    式中,如果判別器輸入為G(Xn),則yn=0;如果判別器輸入為In,則yn=1,而D(In)(h,w)是In在位置(h,w)處的置信度圖。

    3.2 自注意模塊

    傳統(tǒng)的GAN網絡使用小的卷積核很難發(fā)現圖像中的依賴關系,但使用大的卷積核就喪失了卷積網絡參數與計算的效率。尤其在語義分割這種多類別的數據集上訓練時,卷積GAN網絡對某些圖像類的建模比其他圖像類的建模更困難。在本文提出的半監(jiān)督圖像語義分割框架的分割網絡G中,每個卷積核的尺寸均有限,每次卷積操作只能覆蓋像素點周圍很小一塊鄰域,對距離較遠的特征不容易捕獲,因為多層的卷積和池化操作使得特征圖的寬和高變得越來越小,越靠后的卷積層,卷積核覆蓋區(qū)域映射回原圖時對應的面積也就越大。自注意通過直接計算圖像中任意兩個像素點之間的關系,獲取圖像的全局幾何特征,通過關注特征圖所有位置,并在嵌入空間中取其加權平均值表示特征圖中某位置處的響應。簡單來說就是在前一層的特征圖上加入注意力機制,使得GAN在生成時能夠區(qū)別不同的特征圖。

    給定一個像素點,為了計算特征圖上所有像素點對這個點的影響,需要用一個函數,針對特征圖Q中的某一個位置,計算特征圖K中所有位置對它的影響。這個函數可以通過學習得到,因此考慮對這兩個特征圖分別做卷積核為1×1的卷積,且卷積核的權重可以學習得到。

    本文提出的兩層自注意模塊的框架如圖2所示,此處符號?表示矩陣對應元素相乘。該自注意模塊以上一層的特征圖X∈RH×W×C作為輸入,并生成兩個特征圖Q、K∈RH×W×C,在對Q和K進行轉置后執(zhí)行矩陣乘法,并使用softmax層計算注意力圖S∈RN×N,其中N=H×W是像素數。這里,特征圖S的元素表達了第i個像素對第j個像素的依賴性度量,即

    圖2 自注意力模塊框架圖Fig.2 Framework of self-attention module

    (6)

    式中,Qi和Kj分別表示特征圖Q的第i個位置的像素和特征圖K中的第j個位置的像素所對應的C維向量。為了學習更多的參數,在原始特征圖X中加入卷積映射,以獲得新的特征圖V∈RH×W×C,并將S和V進行轉置以及矩陣乘法。V可以看成對原特征圖多加了一層卷積映射,這樣可以學習到的參數更多,否則Q和K的參數太少。然后將其乘以比例參數α。最后,自注意模塊逐漸學習將注意加權特征圖添加到原始特征圖X中,即

    (7)

    式中,Oj表示第j個位置上的C維結果特征向量。Vi和Xj分別表示特征圖V的第i個位置的像素和原始特征圖X的第j個位置的像素所對應的C維向量。α初始化為0,并且α通過自學習方式為非局部特征分配更多權重。最終特征圖O是所有位置的特征與原始特征的加權總和。因此,對特征圖之間的遠程語義依賴性進行建模,有助于提高特征的可分辨性。

    3.3 譜歸一化

    原始GAN網絡的目標函數是為了優(yōu)化真實數據分布與生成數據分布之間的JS(Jensen-Shannon)散度。但存在的問題是判別器訓練得越好,生成器的梯度消失得越嚴重。即當近似得到最優(yōu)判別器時,最小化生成器的損失等價于最小化生成數據分布與真實數據分布之間的JS散度。可生成數據分布和真實數據分布幾乎不可能有不可忽略的重疊,因此無論生成數據分布與真實數據分布相距多遠,JS散度都是常數,這也導致生成器的梯度最終會近似為0,即梯度消失。

    本文提出的半監(jiān)督對抗學習圖像語義分割方法存在的訓練困難是如何控制判別器網絡D的穩(wěn)定性,因為在目標分布和生成分布分開的情況下,可以存在一個判別器能夠完美地將生成數據和真實數據完全區(qū)分開。如果輸入的真實圖像沒有歸一化到[-1,1],而生成的數據均在[-1,1]區(qū)間,那么在訓練過程中,將會導致生成器G的梯度消失近似為0。接下來再訓練G時,生成的圖像質量就很難提升。因為這兩個分布差異很大,D很容易區(qū)分,所以達到了最優(yōu)化。

    相對常規(guī)的GAN,譜歸一化后的GAN引入了新的正則項,該正則項防止權重矩陣的列空間在訓練中只關心一個特定的方向,同時其防止D中每層的轉換對某一個方向敏感。與Wasserstein GAN模型只對判別器的參數矩陣中的元素直接限制不同,譜歸一化方法以一種溫和的方式使判別器滿足Lipschitz連續(xù)性,限制了判別器函數的變化劇烈程度,使模型更穩(wěn)定。

    對于標準GAN,判別器D的最佳形式為

    (8)

    式中,qdata是數據x的分布,pG是對應的x的生成模型的分布,該模型是通過對抗性最小最大優(yōu)化過程學習的,且f*(x)=logqdata(x)-logpG(x),其導數為

    (9)

    然而,這一導數項是無界的,甚至是不可計算的,在實踐中必須加上常規(guī)的限制。因此,需要一種機制來定義f*(x)的導數。由此注意到,如果忽略D的每一層的偏置,則可以確定f*(x)的上限,具體為

    (10)

    (11)

    然后,在式(10)的不等式中,將每個W代入式(11)。若對判別器D的各層權值W進行如上所示的譜歸一化處理,則判別器D可視為隱式f的函數,其Lipschitz范數可約束為小于1。這達到了限制判別器D的Lipschitz范數的效果。

    譜歸一化的簡單表述是每層的權重W在更新后都除以W的最大奇異值。但是奇異值的分解計算是很耗時的,因而采用冪迭代的方式獲得近似的最大奇異值的解。

    4 實驗結果分析

    4.1 數據集與實驗設置

    PASCAL VOC 2012數據集包含21個對象類,利用分割邊界數據集(Hariharan等,2011)的額外注釋圖像,共得到10 582幅圖像用于訓練,測試集包括1 449幅圖像。Cityscapes數據集包含19個類,其中訓練集、驗證集和測試集分別包含2 975、500和1525幅圖像。將平均交并比(mean intersection-over-union,mIoU)作為評估指標。隨機抽取1/8、1/4、1/2等不同比例的標記數據,其余為未標記數據進行訓練,并對模型的圖像分割性能進行評估。在訓練過程中未標記數據和標記數據均隨機抽取,對所有基線使用相同的數據分割。

    在PASCAL VOC 2012數據集的訓練過程中,采用尺寸為321 × 321像素的隨機縮放和裁剪操作。批處理大小為8。對于Cityscapes數據集,將輸入圖像尺寸調整為512 × 1 024像素,沒有隨機裁剪/縮放,批處理大小為2。在半監(jiān)督訓練中,隨機抽取無標記和有標記的數據。對判別器網絡和分割網絡進行聯(lián)合訓練。在每次迭代中,只使用包含GT的數據訓練判別器。

    本文使用PyTorch框架在一個具有11 GB內存的NVIDIA 1080TI GPU上訓練的模型,采用隨機梯度下降(stochastic gradient descent,SGD)優(yōu)化器,動量為0.9,權值衰減為10-4。初始學習速率為2.5×10-4,并隨著多項式衰減以0.9次方減小。判別器的訓練采用Adam優(yōu)化器,學習率設置為10-4。使用未標記和標記數據進行訓練時,設置λadv為0.001,λsemi為0.1,Tsemi為0.2。

    4.2 在Cityscapes數據集上的實驗結果

    為了驗證本文方法的性能,在Cityscapes數據集上使用不同比例標記數據進行實驗,并將本文方法與當前具有代表性的半監(jiān)督和全監(jiān)督方法進行分割性能對比。對比方法包括FCN-8s(Long等,2015)、Dilation10(Yu和Koltun,2016)、CowMix(French等,2020a)、DST-CBC(dynamic self-training and class-balanced curriculum)(Feng等,2021)、Sawatzky等人(2021)、CutMix(French等,2020b)、Mittal 等人(2021)、DeepLabv2(Chen等,2018)和AdvSemiSeg(Hung等,2018)。表1給出了Cityscapes數據集的半監(jiān)督和全監(jiān)督評估結果。

    表1 在Cityscapes數據集上隨機抽取不同比例的標記數據進行訓練的圖像分割性能結果(mIoU)Table 1 Image segmentation performance with randomly selected different proportions of labeled data for training on the Cityscapes dataset(mIoU) /%

    4.3 在PASCAL VOC 2012數據集上的實驗結果

    表2 在PASCAL VOC 2012數據集上隨機抽取不同比例的標記數據進行訓練的圖像分割性能結果(mIoU)Table 2 The image segmentation performance with randomly extracting different proportions of labeled data for training on the PASCAL VOC 2012 dataset(mIoU) /%

    圖3給出了GT圖像與本文方法在訓練期間以不同比例的標記數據獲得的分割結果的比較。可以看出,當使用隨機選取1/2的標記數據進行訓練時,本文方法具有很好的分割效果。

    圖3 在PASCAL VOC 2012數據集上隨機抽取不同比例標記數據獲得的分割結果比較Fig.3 Comparison of segmentation results obtained by randomly extracting different proportions of labeled data on the PASCAL VOC 2012 dataset((a)original images;(b)ground truth;(c)ours (1/8);(d)ours (1/4);(e)ours (1/2);(f)full)

    表3列出了PASCAL VOC 2012數據集中具有不同比例的標記數據的每個類別的半監(jiān)督和全監(jiān)督訓練的平均mIoU性能結果。其中,Adv是基線AdvSemiSeg模型,SA是本文方法只使用自注意模型,SA+SN是本文方法同時使用自注意和譜歸一化(模型)。此外,表2中最初報告的所有類的平均mIoU值都包含在最后一行中。從結果中注意到,提出的自注意模塊和譜歸一化顯著提高了PASCAL VOC 2012數據集包含的21類圖像的分割性能。在分割網絡中加入自注意模塊可以很好地捕捉到特征圖中任意兩個像素之間的遠程上下文信息,提高模型的特征表示。

    表3 在PASCAL VOC 2012數據集上逐類分割性能結果(mIoU)Table 3 Performance results of class-by-class segmentation on the PASCAL VOC 2012 dataset (mIoU)

    此外,在判別器中加入譜歸一化處理,有利于進一步訓練GAN網絡。圖4所示的圖像分割結果進一步說明了這一點,將GT數據與基線AdvSemiSeg模型和本文模型在訓練中使用1/2標記數據時的分割結果進行對比,該模型在引入自注意和譜歸一化后的分割結果在質量上均優(yōu)于AdvSemiSeg模型,尤其是同時引入自注意和譜歸一化后的分割結果。由此可以看出,自注意模塊在捕獲輸入圖像的全局依賴關系和譜歸一化穩(wěn)定GAN方面的有效性。

    圖4 在PASCAL VOC 2012數據集上使用1/2標記數據時本文方法獲得的定性結果Fig.4 Qualitative results obtained by our method when using 1/2 labeled data on the PASCAL VOC 2012 dataset((a)original images;(b)ground truth;(c)AdvSemiSeg;(d)ours(SN);(e)ours(SA);(f)ours(SN + SA))

    以上圖像分割結果是基于DeepLabv2框架和在MSCOCO數據集上預先訓練的ResNet-101模型。表4是在PASCAL VOC 2012數據集上使用不同主干架構和不同比例的標記數據獲得的圖像分割性能結果。

    表4 在PASCAL VOC 2012數據集上使用不同主干架構和不同比例的標記數據獲得的圖像分割性能結果(mIoU)Table 4 Image segmentation performance results using different backbone architectures and different proportions of labeled data on the PASCAL VOC 2012 dataset(mIoU) /%

    從表4可以看出,當使用DeepLabv3框架時,訓練過程在較大比例的標記數據下是相對穩(wěn)定的,在1/8比例的標記數據下是不穩(wěn)定的。然而在使用大比例標記數據訓練時,圖像分割性能總比使用Deep-Labv2框架得到的效果好。而且通過譜歸一化的應用可以很好地緩解DeepLabv3框架在使用1/8比例標記數據觀察到的訓練不穩(wěn)定性。同時,使用DeepLabv3主干網絡時,本文提出的半監(jiān)督模型的表現更好。由此認為,基于AdvSemiSeg模型的方法對于少量標記樣本無效的原因是其判別器網絡所要施加的要求。少量的GT缺乏有效訓練判別器從預測的分割圖上區(qū)分GT所必需的變化,從而阻止了它有效地指導分割網絡。相比之下,譜歸一化可以最大程度地減少保留類擾動的預測差異,從而有效地在未標記樣本之間傳播標記。因此,它不會對標記的數據集的大小施加類似的要求。

    為驗證訓練框架中包含不同組件的效果,使用1/2標記數據和全部標記數據對本文方法進行消融研究,評估結果如表5所示。

    從表5可以看出,在訓練中加入譜歸一化可以明顯提高模型的圖像語義分割性能。此外,加入第2個自注意模塊(SA2)似乎比第1個自注意模塊(SA1)對分割性能有更好的結果,盡管這兩個模塊都確實提高了分割性能??傮w而言,本文方法對改善半監(jiān)督GAN網絡的圖像語義分割性能非常有效。

    表5 本文方法在PASCAL VOC 2012數據集上的消融研究(mIoU)Table 5 Ablation study of the proposed method on the PASCAL VOC 2012 dataset(mIoU) /%

    另外,本文還考慮了在使用1/2標記數據時,超參數λadv、λsemi和Tsemi對性能的影響。式(1)中的參數λadv和λsemi是兩個權重用于最小化多任務損失函數。式(4)中的參數Tsemi是用于判斷像素的預測是否可信的閾值。表6顯示了將這些參數設置為不同值的效果。按照Hung等人(2018)方法將Tsemi的值設置為0.2,并設置不同的λadv和λsemi,以此評估所提出方法的性能??梢钥闯?,在(0.001,0.1)下獲得最佳的mIoU。同時,為了分析Tsemi的作用,總結了將Tsemi分別設置為0.15、0.20和0.25時的 mIoU,當Tsemi= 0.20時,可以達到最佳的mIoU。

    表6 在不同的超參數下PASCAL VOC 2012數據集上的分割性能Table 6 Segmentation performance on the PASCAL VOC 2012 dataset under different hyperparameters

    綜上所述,通過在Cityscapes數據集和PASCAL VOC 2012數據集上的實驗結果表明,本文在分割網絡中利用自注意成功地捕獲半監(jiān)督圖像語義分割中的遠程上下文依賴關系。該自注意和卷積是互補的,對圖像區(qū)域之間遠程全局依賴進行建模,從而更好地近似原始圖像分布。并且該自注意模型在中高層特征圖上比在低層特征具有更好的性能。在實驗中可以看出,在判別器中引入譜歸一化對穩(wěn)定GAN網絡的重要性。尤其是當使用少量標記數據時,對于GAN網絡的性能控制則更為重要。該譜歸一化對標識符施加了全局正則化,應用于GAN網絡時,生成的示例比常規(guī)的權重歸一化更加多樣化。相對于先前的方法獲得了更好的可比較的初始分數。因此本文方法比基線模型有較大的優(yōu)勢,并且比其他先進的半監(jiān)督語義分割方法都有更好的性能。

    5 結 論

    提出了一種改進的GAN框架半監(jiān)督圖像語義分割方法。首先,在分割網絡中引入了自注意模塊,以有效地考慮輸入圖像的廣泛分離的空間區(qū)域之間的關系,從而捕獲遠程上下文信息。相比于傳統(tǒng)方法通過增加卷積核大小或通過多個卷積層捕獲這些依賴關系,更加平衡了特征圖上各像素之間遠程依賴性的建模能力和計算效率。其次,在判別器網絡中應用了譜歸一化,以增強GAN在訓練過程中的穩(wěn)定性,使得生成的樣本比傳統(tǒng)的權值歸一化得到的樣本更加多樣化。這種方法以更細致的方式使得判別器的參數矩陣滿足Lipschitz約束。從而使得GAN對輸入圖像的擾動不會有太大的敏感性。在cityscapes和PASCAL VOC 2012兩個數據集上,與當前半監(jiān)督圖像語義分割方法的結果相比,提出的穩(wěn)定的自注意半監(jiān)督對抗性學習圖像語義分割方法具有更好的性能。另外,通過實驗發(fā)現,在進行半監(jiān)督訓練時,即使逐漸提高抽取標簽數據的比例,對桌子、椅子和沙發(fā)的分割效果也沒有明顯提高。經過分析得出,造成此結果的原因可能是數據集中樣本類別的不平衡所致。在PASCAL VOC 2012數據集中,針對桌子、椅子和沙發(fā)的類樣本較少,這使得對這些類的訓練更加困難。因此,即使添加標簽數據,也很難提高這些類的分割精度。今后的工作將尋求一種比較有效的方法對易訓練樣本進行限制,對難訓練樣本進行加權,以此達到難易樣本訓練的平衡。

    猜你喜歡
    語義像素卷積
    趙運哲作品
    藝術家(2023年8期)2023-11-02 02:05:28
    像素前線之“幻影”2000
    基于3D-Winograd的快速卷積算法設計及FPGA實現
    語言與語義
    “像素”仙人掌
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    基于傅里葉域卷積表示的目標跟蹤算法
    “上”與“下”語義的不對稱性及其認知闡釋
    現代語文(2016年21期)2016-05-25 13:13:44
    高像素不是全部
    CHIP新電腦(2016年3期)2016-03-10 14:22:03
    認知范疇模糊與語義模糊
    宁陵县| 秀山| 晋宁县| 太仓市| 博湖县| 广灵县| 察哈| 永川市| 延安市| 裕民县| 始兴县| 九江市| 封开县| 上犹县| 肥东县| 通山县| 翁源县| 木兰县| 灵山县| 于都县| 鄢陵县| 仙居县| 民权县| 贵南县| 卓尼县| 上杭县| 吐鲁番市| 桂阳县| 新民市| 万安县| 永福县| 武穴市| 朔州市| 绥宁县| 陵川县| 华阴市| 星座| 浮山县| 康乐县| 阜新市| 南木林县|