• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      流形正則化約束的圖像語(yǔ)義分割

      2022-04-24 10:49:06肖振久宗佳旭蘭海魏憲唐曉亮
      關(guān)鍵詞:流形集上正則

      肖振久,宗佳旭*,蘭海,魏憲,唐曉亮

      1.遼寧工程技術(shù)大學(xué)軟件學(xué)院,葫蘆島 125105;2.泉州裝備制造研究所,泉州 362000

      0 引 言

      圖像的語(yǔ)義分割是機(jī)器視覺(jué)領(lǐng)域一項(xiàng)必不可少的核心任務(wù)。語(yǔ)義分割可以廣泛用于場(chǎng)景信息理解、自動(dòng)駕駛和醫(yī)療輔助診斷等領(lǐng)域,且具有重要作用。目前,盡管對(duì)圖像的語(yǔ)義分割展開(kāi)了積極研究,但仍需重點(diǎn)解決精準(zhǔn)區(qū)分不同尺寸的相同物體和克服遮擋、光照等問(wèn)題(青晨 等,2020)。為了解決上述問(wèn)題,有效完成不同場(chǎng)景的分割任務(wù),有必要增強(qiáng)像素級(jí)別的識(shí)別能力,特別是全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN)(Long等,2015)。但是受限于卷積操作的局域性,分割結(jié)果僅受限于局部的感受野中,無(wú)法融合長(zhǎng)距離的上下文信息,從而限制了FCN類方法的發(fā)展。另外,在圖像數(shù)據(jù)下采樣過(guò)程中,會(huì)造成細(xì)節(jié)本征信息損失,尤其在U型網(wǎng)絡(luò)結(jié)構(gòu)中(韓慧慧 等,2020)。

      為利用像素間的上下文信息,利用條件隨機(jī)場(chǎng)(Zheng等,2015)或注意力機(jī)制(Zhao等,2018)使任意位置的單個(gè)特征可以感知其他位置的所有特征,從而使輸出結(jié)果能夠融合各像素點(diǎn)之間的關(guān)系。但是在條件隨機(jī)場(chǎng)以及注意力機(jī)制中,僅利用單個(gè)像素點(diǎn)間的相似度建立勢(shì)函數(shù)(Kr?henbühl和Koltun,2012)或權(quán)重矩陣,難以在低對(duì)比度的圖像中取得較好效果,另外需要生成巨大的注意力圖來(lái)計(jì)算每個(gè)像素之間的關(guān)系,計(jì)算復(fù)雜度高且占用顯存資源,從而限制了其在圖像語(yǔ)義分割中的表現(xiàn)。基于以上問(wèn)題,本文提出一種流形正則化約束的圖像語(yǔ)義分割算法,通過(guò)將圖像分割中的輸入數(shù)據(jù)和輸出結(jié)果視為兩個(gè)不同流形并維持這兩個(gè)流形之間對(duì)應(yīng)關(guān)系來(lái)獲取像素間的本征結(jié)構(gòu),有效利用了上下文的信息并提升了算法的分割精度。本文的主要貢獻(xiàn)有:1)提出一種基于幾何優(yōu)化的流形正則化方法,通過(guò)將高維空間中相鄰的輸入數(shù)據(jù)點(diǎn)與輸出結(jié)果維持在同樣的流形結(jié)構(gòu)上,引入了像素點(diǎn)間的上下文關(guān)系,提高了分割精度。2)與現(xiàn)有主流的圖像分割算法相結(jié)合,本文提出的流形正則化算法能夠很好地嵌入各類分割算法,并且提升分割精度,在多個(gè)數(shù)據(jù)集上的性能處于領(lǐng)先位置。本文算法代碼已上傳至Github,共享網(wǎng)址為https://github.com/jiaxu0017/Manifold_Segmentation。

      1 相關(guān)工作

      1.1 語(yǔ)義分割

      近幾年,針對(duì)語(yǔ)義分割的研究取得了新的進(jìn)展,吸引了大量研究人員的關(guān)注。FCN對(duì)語(yǔ)義分割進(jìn)行了開(kāi)拓性嘗試,基于FCN思想的語(yǔ)義分割技術(shù)得到長(zhǎng)足進(jìn)展。然而開(kāi)始的FCN由于多層的池化操作導(dǎo)致提取的特征信息在圖像細(xì)節(jié)處丟失嚴(yán)重,從而影響了算法在細(xì)節(jié)處的表現(xiàn)。為解決這一問(wèn)題,Chen等人(2016)、Yu和Koltun(2016)通過(guò)較少的降采樣操作以獲得更精細(xì)的特征并利用膨脹卷積來(lái)增強(qiáng)感受野,DeepLabV2(Chen等,2018)提出ASPP(atrous spatial pyramid pooling)模塊,利用不同的膨脹卷積捕獲圖像上下文中的信息,DeepLabV3(Chen等,2017)設(shè)計(jì)則采用級(jí)聯(lián)或并行的空洞卷積,通過(guò)不同速率的空洞卷積獲取上下文信息,PSPnet(pyramid scene parsing network)(Zhao等,2017)利用金字塔模型聚合上下文信息。此外,通過(guò)優(yōu)化編碼器—解碼器結(jié)構(gòu),如U-Net(Ronneberger等,2015)、RefineNet(Lin等,2017)和SegNet(Badrinarayanan等,2017)等,將信息融合在低層和高層結(jié)構(gòu)中,獲得不同尺寸的特征信息,預(yù)測(cè)分割后的圖像,亦能夠提升分割精度。另外,在分割結(jié)果上進(jìn)行后處理,利用預(yù)測(cè)結(jié)果自身的上下文信息來(lái)優(yōu)化分類結(jié)果也是一種提升精度的有效方法。常見(jiàn)的后處理方法包括利用條件隨機(jī)場(chǎng)(conditional random field,CRF)(Chandra等,2017)和馬爾可夫隨機(jī)場(chǎng)(Markov random field,MRF)(Liu等,2015)等建立各像素間的圖模型,進(jìn)一步精確定位像素邊界和分割結(jié)果。

      1.2 上下文信息捕捉

      利用上下文信息來(lái)增強(qiáng)圖像語(yǔ)義分割在細(xì)節(jié)上的表現(xiàn)是目前的熱門研究方向。自FCN類方法提出之后,研究人員也聚焦于上下文信息的捕捉上,利用概率圖模型中的條件隨機(jī)場(chǎng)和馬爾可夫隨機(jī)場(chǎng)捕獲預(yù)測(cè)結(jié)果中的上下文依賴關(guān)系。和超等人(2020)通過(guò)不同的膨脹卷積和池化等操作生成的特征圖來(lái)聚合多尺度上下文信息,實(shí)現(xiàn)多尺度的上下文信息融合。Byeon等人(2015)采用遞歸神經(jīng)網(wǎng)絡(luò),通過(guò)捕獲標(biāo)簽上的空間信息或局部特征豐富上下文的依賴關(guān)系。盡管采用上下文融合的方式有助于獲取不同比例的對(duì)象,但是無(wú)法利用全局視圖中對(duì)象或事物之間的關(guān)系。而基于圖模型的方法又難以與現(xiàn)有圖像處理的卷積神經(jīng)網(wǎng)絡(luò)模型完美融合,實(shí)現(xiàn)端到端學(xué)習(xí)。另外,通過(guò)遞歸神經(jīng)網(wǎng)絡(luò)隱式捕獲全局關(guān)系,其有效性很大程度取決于長(zhǎng)期記憶的結(jié)果。上述兩種方法并不能滿足不同像素對(duì)不同上下文信息的要求。

      獲取上下文之間的關(guān)系,對(duì)遠(yuǎn)程依賴進(jìn)行建模僅靠上述技術(shù)還遠(yuǎn)遠(yuǎn)不夠,注意力模塊的引入為建立信息間的遠(yuǎn)程依賴提供了新的思路,并且在許多應(yīng)用中取得了成功。Vaswani等人(2017)利用注意力機(jī)制建立Transformer模型并用其替代循環(huán)神經(jīng)網(wǎng)絡(luò),通過(guò)繪制全局依存關(guān)系用于機(jī)器翻譯,效果得到大幅提升。目前,注意力機(jī)制越來(lái)越多地應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域。Wang等人(2018b)利用一種非局部模塊,通過(guò)計(jì)算特征圖中每個(gè)空間點(diǎn)之間的相關(guān)矩陣生成巨大的注意力圖,然后引導(dǎo)密集的上下文信息進(jìn)行聚合。DANet(dual attention network)(Fu等,2019)通過(guò)結(jié)合像素間的上下文信息和通道空間內(nèi)的上下文信息來(lái)提高分割精度。CCNet(criss-cross attention network)(Huang等,2019)通過(guò)新穎的交叉注意力模塊在交叉路徑上收集周圍像素的上下文信息,并通過(guò)循環(huán)操作,使每一個(gè)像素最終可以捕獲所有像素的遠(yuǎn)程依賴關(guān)系。

      1.3 流形正則化

      正則化約束思想有著豐富的數(shù)學(xué)歷史,可回溯至Tikhonov求解不適定逆問(wèn)題,其作為樣條理論的核心思想已廣泛用于機(jī)器學(xué)習(xí)領(lǐng)域(Evgeniou等,2000),許多機(jī)器學(xué)習(xí)算法,如支持向量機(jī)均可視為正則化的特例。而流形正則化則利用數(shù)據(jù)分布的幾何結(jié)構(gòu)對(duì)具體學(xué)習(xí)任務(wù)的損失函數(shù)進(jìn)行約束。假定數(shù)據(jù)的相關(guān)子集來(lái)自某種拓?fù)淞餍危簬в胁煌瑯?biāo)簽的數(shù)據(jù)在流形曲面上距離較遠(yuǎn)?;谠摷僭O(shè),流形正則化廣泛應(yīng)用于半監(jiān)督學(xué)習(xí)(Belkin等,2006)。

      在神經(jīng)網(wǎng)絡(luò)中,由于連續(xù)的合并操作或卷積步幅導(dǎo)致特征的分辨率下降,使得神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到越來(lái)越抽象的特征表示,即本征結(jié)構(gòu)。但是,這種局部圖像轉(zhuǎn)化為固定的特征表示,往往會(huì)造成關(guān)鍵信息的損失。為解決本征結(jié)構(gòu)的損失,控制復(fù)雜的幾何分布,研究人員針對(duì)流形約束做了大量工作,提出多種應(yīng)用流形正則化的半監(jiān)督學(xué)習(xí)框架。Belkin等人(2016)利用邊際分布的幾何形狀,提出一種基于流形的正則化學(xué)習(xí)框架,主要針對(duì)半監(jiān)督學(xué)習(xí)能夠有效地使用未標(biāo)記數(shù)據(jù)。另外,針對(duì)半監(jiān)督學(xué)習(xí),Geng等人(2009)提出內(nèi)在流形自動(dòng)近似的算法,并開(kāi)發(fā)了一個(gè)集合流形正則化的框架,結(jié)合一些初始的猜測(cè)來(lái)近似本征流形。為了更深一步地解釋流形在半監(jiān)督學(xué)習(xí)中的作用,Niyogi(2013)通過(guò)建立minmax框架,調(diào)查了多種學(xué)習(xí)的方式,通過(guò)對(duì)流形在半監(jiān)督學(xué)習(xí)中的潛在用途來(lái)解釋流形正則化及相關(guān)的幾何算法。除了建立流形正則化的半監(jiān)督學(xué)習(xí)中的框架,研究人員也將流形學(xué)習(xí)應(yīng)用于圖像分割領(lǐng)域中。Quispe和 Petitjean(2015)利用先驗(yàn)對(duì)象的幾何形狀指導(dǎo)分割,該算法依賴擴(kuò)散圖來(lái)編碼訓(xùn)練集的形狀變化,并用對(duì)象分割提供相應(yīng)的幫助。Luo和Huang(2014)提出一種針對(duì)剛性物體和非剛性物體運(yùn)動(dòng)分割的自適應(yīng)流形降噪技術(shù),通過(guò)流形約束的方式降低分割中的偏差?;谶@一思路,本文利用流形正則化約束對(duì)圖像語(yǔ)義分割模型參數(shù)進(jìn)行優(yōu)化,通過(guò)維持圖像分割中的輸入數(shù)據(jù)和輸出結(jié)果兩個(gè)流形之間對(duì)應(yīng)關(guān)系,獲取數(shù)據(jù)間的本征結(jié)構(gòu),從而提升算法模型的性能。

      2 算法原理及實(shí)現(xiàn)

      2.1 損失函數(shù)

      深度學(xué)習(xí)算法通常使用隨機(jī)梯度下降作為任務(wù)求解工具,為能保證求解結(jié)果快速而準(zhǔn)確地收斂,需要保證類別信息的數(shù)學(xué)表達(dá)(損失函數(shù))能夠涵括各類情況,通常的多分類問(wèn)題使用交叉熵作為類別間的損失函數(shù),其損失函數(shù)Lcla定義為

      (1)

      由于圖像分割可以定義為像素級(jí)別的分類任務(wù),因此,分割任務(wù)中損失函數(shù)即對(duì)所有像素點(diǎn)的交叉熵?fù)p失函數(shù)Lseg進(jìn)行求和,即

      (2)

      通過(guò)式(2)可以看出,這類損失函數(shù)的缺點(diǎn)在于僅計(jì)算單個(gè)像素點(diǎn)的預(yù)測(cè)結(jié)果與真實(shí)值之間的懲罰值,沒(méi)有考慮鄰近像素點(diǎn)分類結(jié)果的影響。從直觀上看,在鄰近像素點(diǎn)預(yù)測(cè)為某個(gè)分類的情況下,該像素點(diǎn)預(yù)測(cè)為其他分類的損失懲罰應(yīng)該增大。這類思想是多數(shù)上下文信息捕捉方法的前提假設(shè),為解決這一問(wèn)題,本文通過(guò)在損失函數(shù)中引入流形正則約束項(xiàng)來(lái)實(shí)現(xiàn)相鄰像素間上下文信息的捕捉。

      2.2 流形正則化

      在本文中,假定輸入數(shù)據(jù)與其對(duì)應(yīng)的預(yù)測(cè)結(jié)果在高維原始數(shù)據(jù)空間內(nèi)的低維流形曲面上有著相同的幾何結(jié)構(gòu)。基于這一假設(shè),利用數(shù)據(jù)的幾何結(jié)構(gòu)構(gòu)建正則化約束項(xiàng)是本文的主要?jiǎng)?chuàng)新點(diǎn)。在式(2)中加入流形正則約束項(xiàng),總體損失Ltot為

      (3)

      (4)

      式中,Ni表示xi的近鄰數(shù)據(jù)點(diǎn)集合,j為范圍Ni內(nèi)的任意一點(diǎn)。當(dāng)xj不處于xi的鄰域內(nèi)時(shí),ωij為0,即不考慮非近鄰點(diǎn)之間的相互影響,僅考慮鄰域內(nèi)的流形結(jié)構(gòu)。

      通過(guò)ωij建立輸入數(shù)據(jù)xi之間的相似度,為保證相鄰的x輸入數(shù)據(jù)對(duì)應(yīng)的預(yù)測(cè)結(jié)果y也具有高相關(guān)性,給出流形正則項(xiàng)的定義,具體為

      (5)

      圖1 幾何結(jié)構(gòu)示意圖Fig.1 Geometric structure diagram

      (6)

      式中,N表示所有圖像點(diǎn),Np表示圖像中所有不相交的子集。θ為模型所有參數(shù),代表了損失函數(shù)Ltot的解空間。

      2.3 子圖像塊劃分

      (7)

      從式(7)可以看出,當(dāng)分割的子圖像塊取最小值1×1時(shí),其形式與CRFasRNN(conditional random fields as recurrent neural networks)(Zheng等,2015)中的勢(shì)函數(shù)十分接近,核心思想均為給具有相同RGB取值的像素點(diǎn)分配相同的預(yù)測(cè)結(jié)果,在概率圖模型中,即增大P(y|x),從幾何結(jié)構(gòu)的角度看,即減小高相似度的輸入數(shù)據(jù)對(duì)應(yīng)的輸出結(jié)果在高維空間中的歐氏距離。當(dāng)所選子圖像塊逐漸增大,可視為在高維數(shù)據(jù)空間中相鄰近的子圖像塊對(duì)應(yīng)的分割結(jié)果在其高維空間中亦十分接近。當(dāng)子圖像塊的大小等于輸入圖像尺寸h×w時(shí),此時(shí)可在訓(xùn)練批數(shù)據(jù)之間建立關(guān)聯(lián),從而將本文算法用于流行正則約束常見(jiàn)的半監(jiān)督學(xué)習(xí)(Belkin等,2006)。

      2.4 算法實(shí)現(xiàn)

      將流行正則約束項(xiàng)加入到現(xiàn)有的深度學(xué)習(xí)網(wǎng)絡(luò)模型,可實(shí)現(xiàn)端對(duì)端的圖像語(yǔ)義分割模型的訓(xùn)練。

      圖2 算法流程圖Fig.2 Algorithm flow chart

      1)將原始圖像分割為s×s個(gè)子圖像塊作為xi;

      2)利用式(4)計(jì)算各子圖像塊之間的權(quán)重矩陣Ω;

      4)根據(jù)式(6)計(jì)算包含流形正則項(xiàng)約束的總體損失函數(shù)Ltot;

      5)利用隨機(jī)梯度下降法對(duì)模型參數(shù)進(jìn)行更新;

      6)重復(fù)步驟3)—5),直至結(jié)果收斂。

      上述步驟中,確定子圖像塊的數(shù)目N后,步驟2)與訓(xùn)練過(guò)程無(wú)關(guān),可在訓(xùn)練前完成所有子圖像塊間權(quán)重矩陣Ω的計(jì)算,從而大幅減少運(yùn)算時(shí)間。

      3 實(shí)驗(yàn)分析

      為了驗(yàn)證本文算法的有效性,通過(guò)實(shí)驗(yàn)比較了算法在Cityscapes(Cordts等,2016)和PASCAL VOC 2012(pattern analysis,statistical modeling and computational learning visual object classes)(Everingham等,2012)兩個(gè)數(shù)據(jù)集上的準(zhǔn)確性,并與當(dāng)前先進(jìn)算法進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,本文算法在Cityscapes和PASCAL VOC 2012兩個(gè)數(shù)據(jù)集上均達(dá)到了最佳效果。

      本文算法采用基于ImageNet上的ResNet(residual network)預(yù)訓(xùn)練網(wǎng)絡(luò)模型(He等,2016),并使用DeepLab v3作為圖像分割骨架網(wǎng)絡(luò),并在骨架網(wǎng)絡(luò)基礎(chǔ)上加入子圖像塊的提取以及流形正則約束項(xiàng)作為本文算法的最終實(shí)現(xiàn)。

      3.1 評(píng)價(jià)標(biāo)準(zhǔn)和數(shù)據(jù)集

      采用平均交并比(mean intersection over union,mIoU)作為語(yǔ)義分割的評(píng)價(jià)標(biāo)準(zhǔn),其計(jì)算為

      (8)

      式中,tp表示某一類別中正確的正樣本分類結(jié)果,fp表示錯(cuò)誤的正樣本分類結(jié)果,fn表示錯(cuò)誤的負(fù)樣本分類結(jié)果,對(duì)所有類別的交并比求平均,即為平均交并比mIoU。

      實(shí)驗(yàn)比較了不同分割算法在Cityscapes和PASCAL VOC 2012兩個(gè)數(shù)據(jù)集上的平均交并比。

      Cityscapes數(shù)據(jù)集用于城市語(yǔ)義分割任務(wù),該數(shù)據(jù)集中包含來(lái)自50個(gè)城市的5 000幅高質(zhì)量像素級(jí)精細(xì)標(biāo)注的圖像和20 000幅粗略標(biāo)注的圖像,并且在分割圖像中存在大量的遮擋、目標(biāo)尺寸大小不一及光照不均的情況,如圖3所示。每一幅圖像的分辨率都為1 024 × 2 048像素,共分為35個(gè)類,其中19類用于語(yǔ)義分割的評(píng)估,實(shí)驗(yàn)僅采用5 000幅精細(xì)標(biāo)注的圖像。PASCAL VOC 2012數(shù)據(jù)集主要針對(duì)目標(biāo)對(duì)象進(jìn)行分割,非目標(biāo)對(duì)象視為背景。共包含10 582幅圖像,涉及20個(gè)前景對(duì)象和1個(gè)背景類的分割。

      圖3 Cityscapes分割示意圖Fig.3 Cityscapes segmentation example diagram

      3.2 與骨架網(wǎng)絡(luò)的對(duì)比實(shí)驗(yàn)

      本文通過(guò)引入流形正則化約束項(xiàng)對(duì)圖像中的上下文信息進(jìn)行捕獲,同時(shí)維持語(yǔ)義分割過(guò)程中數(shù)據(jù)的幾何結(jié)構(gòu)一致性。本文算法中分割尺度s為實(shí)驗(yàn)中一項(xiàng)關(guān)鍵的超參數(shù),將直接影響實(shí)驗(yàn)結(jié)果。為確定分割尺度s的大小,基于ResNet101網(wǎng)絡(luò)對(duì)分割尺度進(jìn)行快速實(shí)驗(yàn),對(duì)比了平均交并比(mIoU)和運(yùn)行時(shí)間(time),超參數(shù)λa設(shè)為0.01,實(shí)驗(yàn)結(jié)果如表1所示??梢钥闯觯S著分割尺度s的逐漸增大,模型效果也得到提升,當(dāng)s增大到10之后,繼續(xù)增大s對(duì)模型的提升效果已趨于飽和。同時(shí),隨著s的增大,訓(xùn)練時(shí)長(zhǎng)成倍增加。為平衡實(shí)驗(yàn)精度和訓(xùn)練時(shí)長(zhǎng),后續(xù)實(shí)驗(yàn)中的s均設(shè)為經(jīng)驗(yàn)值10,即將原始圖像平均分割為100個(gè)子圖像塊。

      表1 本文算法在不同分割尺度的平均交并比和運(yùn)行時(shí)間Table 1 The mIoU and time by proposed algorithm with different segmentation scales

      為進(jìn)一步驗(yàn)證本文算法的有效性,將本文算法與基礎(chǔ)骨架網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)對(duì)比。設(shè)置不同的約束權(quán)重λa作為超參數(shù),對(duì)流形正則項(xiàng)的影響進(jìn)行經(jīng)驗(yàn)性分析,實(shí)驗(yàn)結(jié)果如表2所示。可以看出,流形正則化約束的圖像語(yǔ)義分割算法顯著提升了模型性能。λa取值在[0,0.001]時(shí),模型精度逐步提高,λa=0.001時(shí)模型精度最高;λa取值在[0.001,0.01]時(shí),模型精度逐步下降,但仍優(yōu)于骨架網(wǎng)絡(luò);λa>0.01時(shí),模型精度持續(xù)下降并且性能弱于骨架網(wǎng)絡(luò)。故參數(shù)λa應(yīng)控制在[0,0.01],選取0.001時(shí),模型取得最優(yōu)值。針對(duì)這一實(shí)驗(yàn)結(jié)果,本文認(rèn)為這一數(shù)值與模型訓(xùn)練數(shù)據(jù)的內(nèi)在維度(intrinsic dimension)有關(guān),當(dāng)網(wǎng)絡(luò)模型將數(shù)據(jù)從輸入數(shù)據(jù)的流形形狀轉(zhuǎn)換至輸出結(jié)果的流形形狀時(shí),兩者的流形維度即各自內(nèi)在維度的差異會(huì)對(duì)超參數(shù)的選取造成一定影響。當(dāng)兩者流形維度相差較大時(shí),過(guò)強(qiáng)的形狀約束會(huì)對(duì)模型的網(wǎng)絡(luò)性能造成影響,此時(shí)應(yīng)該減小流形約束項(xiàng)的影響,即減小λa,反之亦然。與骨架網(wǎng)絡(luò)相比,采用流形正則化約束算法的mIoU最高為78.0%,在對(duì)網(wǎng)絡(luò)模型推理過(guò)程不引入額外計(jì)算量的前提下,最終結(jié)果提高了0.5%。

      表2 本文算法與基礎(chǔ)骨架網(wǎng)絡(luò)在不同權(quán)重下的mIoU對(duì)比Table 2 Comparison of mIoU by bone network and our algorithm among different weights

      3.3 ResNet50和ResNet101模型泛化實(shí)驗(yàn)

      為驗(yàn)證本文算法的泛化性,在不同數(shù)據(jù)集上分別以ResNet50和ResNet101為基礎(chǔ)網(wǎng)絡(luò),與骨架網(wǎng)絡(luò)BoneNet(bone network)進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表3所示??梢钥闯?,與采用骨架網(wǎng)絡(luò)的分割結(jié)果相比,本文算法在Cityscapes數(shù)據(jù)集上以ResNet50和ResNet101為基礎(chǔ)網(wǎng)絡(luò)的mIoU分別提升了0.3%和0.5%,在PASCAL VOC 2012數(shù)據(jù)集上以ResNet50和ResNet101為基礎(chǔ)網(wǎng)絡(luò)的mIoU分別提升了0.8%和2.1%。通過(guò)實(shí)驗(yàn)對(duì)比可以發(fā)現(xiàn),與參數(shù)量較少的ResNet50網(wǎng)絡(luò)相比,本文提出的流形正則約束項(xiàng)在ResNet101骨架網(wǎng)絡(luò)上的精度提升幅度更多,原因在于流形正則化主要對(duì)模型參數(shù)的優(yōu)化過(guò)程起約束作用,因此在模型參數(shù)量更大的網(wǎng)絡(luò)模型中能取得更好的效果。

      表3 本文算法與骨架網(wǎng)絡(luò)在不同數(shù)據(jù)集和不同基礎(chǔ)網(wǎng)絡(luò)上的mIoU對(duì)比Table 3 Comparison of mIoU with different base networks between BoneNet and our algorithm on different datasets /%

      3.4 各項(xiàng)分類結(jié)果及可視化

      為驗(yàn)證流形正則化約束的圖像語(yǔ)義分割算法對(duì)網(wǎng)絡(luò)的影響,對(duì)Cityscapes數(shù)據(jù)集中每個(gè)單獨(dú)的語(yǔ)義類別,在以ResNet101為基礎(chǔ)的骨架網(wǎng)絡(luò)和本文算法上進(jìn)行定量和定性實(shí)驗(yàn)對(duì)比,結(jié)果如表4所示。

      從表4可以發(fā)現(xiàn),本文算法對(duì)大多數(shù)語(yǔ)義類別的精度均有所提升,主要原因有:1)采用流形正則化約束的圖像語(yǔ)義分割算法增加了圖像分割過(guò)程中的上下文信息,使分割模型在學(xué)習(xí)過(guò)程中不再局限于局部信息;2)采用本文算法使得圖像在源域和目標(biāo)域之間保留了更多的本征結(jié)構(gòu),使得目標(biāo)圖像更加貼近原始圖像中的幾何形態(tài);3)通過(guò)添加約束項(xiàng),提高了網(wǎng)絡(luò)的學(xué)習(xí)能力,優(yōu)化了模型性能。

      表4 模型語(yǔ)義類別實(shí)驗(yàn)精度對(duì)比表Table 4 Comparison of experimental accuracy of model semantic categories /%

      本文提出的流形正則化約束的圖像語(yǔ)義分割算法和骨架網(wǎng)絡(luò)在Cityscapes數(shù)據(jù)集上的分割效果如圖4所示,不同顏色表示不同的分割目標(biāo),標(biāo)準(zhǔn)分割圖像中的黑色區(qū)域?yàn)槲礃?biāo)記區(qū)域,對(duì)比部分采用不同色彩的窗口標(biāo)出,并對(duì)第4行和第5行的細(xì)節(jié)部分進(jìn)行了放大展示??梢园l(fā)現(xiàn),本文算法的精度較骨架網(wǎng)絡(luò)有了較大提升,可以糾正一些誤分類別,如第1行的人行道和第3行的巴士。對(duì)未標(biāo)記部分分類更加平滑,分割圖像整潔連續(xù),如第2行的道路,雖然在標(biāo)準(zhǔn)分割圖像中未進(jìn)行標(biāo)記,但是通過(guò)本文算法依舊取得了良好效果,分類正確且邊緣平滑。原因是采用流形正則化約束的圖像分割算法擺脫了局部信息的限制,可以利用圖像中的上下文信息進(jìn)行學(xué)習(xí),在邊緣處理和像素點(diǎn)分類時(shí)可以獲得更加優(yōu)異的效果。另外,采用本文算法可以加強(qiáng)局部特征中細(xì)節(jié)方面的描述,如第4行和第5行橙色部分,圖中的信號(hào)燈等細(xì)節(jié)信息成功標(biāo)記出來(lái)。因?yàn)椴捎帽疚乃惴p少了圖像分割過(guò)程中本征結(jié)構(gòu)的損失,使得圖像中的細(xì)節(jié)信息得到更好展示。綜上所述,本文算法無(wú)論對(duì)圖像中邊界及區(qū)域信息的描述還是對(duì)局部信息細(xì)節(jié)的區(qū)分都是有幫助的,分割圖像的語(yǔ)義一致性得到明顯改善。

      圖4 本文算法與骨架網(wǎng)絡(luò)在Cityscapes數(shù)據(jù)集上的分割效果對(duì)比Fig.4 Comparison of segmentation results between backbone network and ours on Cityscapes dataset((a)original images;(b)ground truth;(c)segmentation results by backbone network;(d)segmentation results by ours)

      為了進(jìn)一步評(píng)估本文算法的有效性,在PASCAL VOC 2012數(shù)據(jù)集上進(jìn)行測(cè)試,結(jié)果如圖5和表3所示??梢钥闯?,本文算法在PASCAL VOC 2012數(shù)據(jù)集上的精度明顯提高,與在Cityscapes數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果相似,本文算法減少了誤分和漏分現(xiàn)象,如圖5第1、2、4行所示,并且分割圖像的邊緣更加平滑,如圖5第3行和第4行所示。通過(guò)在不同數(shù)據(jù)集上的實(shí)驗(yàn),不僅證明了算法可以提高模型分割的精度,也證明了算法具有良好的泛化性,表明本文算法可以廣泛用于不同的應(yīng)用場(chǎng)景,具有一定的實(shí)用價(jià)值。

      圖5 本文算法與骨架網(wǎng)絡(luò)在PASCAL VOC 2012數(shù)據(jù)集上的分割效果對(duì)比Fig.5 Comparison of segmentation results between backbone network and ours on PASCAL VOC 2012 dataset((a)original images;(b)ground truth;(c)segmentation results by backbone network;(d)segmentation results by ours)

      3.5 與先進(jìn)算法模型的對(duì)比實(shí)驗(yàn)

      將本文算法在Cityscapes和PASCAL VOC 2012數(shù)據(jù)集上與目前先進(jìn)算法進(jìn)行橫向比較。

      在Cityscapes數(shù)據(jù)集上,對(duì)比方法有FCN 8s(Long等,2015)、DeepLab-V2(Chen等,2018)、RefineNet(Lin等,2017)、SSED(semantic segmentation of encoder-decoder structure)(韓慧慧 等,2020)、HarDNet(harmonic DenseNet)(Chao等,2019)和DUC(dense upsampling convolution)(Wang等,2018a),結(jié)果如表5所示??梢钥闯?,在數(shù)據(jù)集Cityscapes上,本文算法的精度較FCN 8s等基礎(chǔ)模型有了顯著提升,并且優(yōu)于DeepLab-V2、RefineNet、SSED、HarDNet和DUC等先進(jìn)模型。

      表5 不同模型在Cityscapes數(shù)據(jù)集上的橫向?qū)嶒?yàn)對(duì)比Table 5 Comparison of accuracy experiments of different models on Cityscapes dataset /%

      在PASCAL VOC 2012數(shù)據(jù)集上,與SegNet(Badrinarayanan等,2017)、FCN 8s(Long等,2015)、Hypercolumn(Hariharan等,2015)和ESPNetv2(efficient spatial pyramid network v2)(Mehta等,2019)等方法進(jìn)行對(duì)比,結(jié)果如表6所示??梢钥闯觯赑ASCAL VOC 2012數(shù)據(jù)集上,本文算法的精度優(yōu)于SegNet、FCN 8s、Hypercolumn和ESPNetv2等模型。

      表6 不同模型在PASCAL VOC 2012數(shù)據(jù)集上的橫向?qū)嶒?yàn)對(duì)比Table 6 Comparison of accuracy experiments of different models on PASCAL VOC 2012 dataset /%

      通過(guò)以上兩個(gè)對(duì)比實(shí)驗(yàn)可以看出,本文算法適用于多種不同場(chǎng)景,并取得了較好結(jié)果,在一定程度上解決了誤分、漏分問(wèn)題,并使得分割圖像的邊緣更加光滑。上述實(shí)驗(yàn)結(jié)果表明,本文算法在圖像分割問(wèn)題上優(yōu)于對(duì)比方法。

      4 結(jié) 論

      本文提出一種流形正則化約束的圖像語(yǔ)義分割算法,假定輸入圖像與預(yù)測(cè)結(jié)果在低維流形空間上存在相同幾何結(jié)構(gòu)并以此作為約束,促使網(wǎng)絡(luò)自適應(yīng)地捕獲數(shù)據(jù)間的上下文信息。在無(wú)需生成巨大特征矩陣并不引入任何推理過(guò)程中的額外計(jì)算量的前提下,建立了圖像分割網(wǎng)絡(luò)中像素點(diǎn)間的依賴關(guān)系。實(shí)驗(yàn)結(jié)果表明,本文算法十分有效并且適用于不同的骨架網(wǎng)絡(luò),尤其在參數(shù)量更大的網(wǎng)絡(luò)模型上表現(xiàn)更為出色,在Cityscapes和PASCAL VOC 2012兩個(gè)圖像語(yǔ)義分割數(shù)據(jù)集上的分割性能均優(yōu)于其他模型。但是,本文算法僅引入了權(quán)重系數(shù)λa和分割尺度s作為超參數(shù),在下一步工作中,將探求驗(yàn)證各超參數(shù)和算法模型之間的關(guān)系,并引入模型訓(xùn)練中的其他變量,如像素點(diǎn)的位置信息等,進(jìn)一步優(yōu)化算法。

      猜你喜歡
      流形集上正則
      Cookie-Cutter集上的Gibbs測(cè)度
      緊流形上的Schr?dinger算子的譜間隙估計(jì)
      鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
      迷向表示分為6個(gè)不可約直和的旗流形上不變愛(ài)因斯坦度量
      Nearly Kaehler流形S3×S3上的切觸拉格朗日子流形
      剩余有限Minimax可解群的4階正則自同構(gòu)
      類似于VNL環(huán)的環(huán)
      復(fù)扇形指標(biāo)集上的分布混沌
      基于多故障流形的旋轉(zhuǎn)機(jī)械故障診斷
      有限秩的可解群的正則自同構(gòu)
      威远县| 宁德市| 通州区| 交口县| 金华市| 阳东县| 永春县| 梅州市| 腾冲县| 太谷县| 遂昌县| 武功县| 搜索| 共和县| 泸定县| 盈江县| 从江县| 墨脱县| 鲁甸县| 屏南县| 乌拉特后旗| 扶余县| 共和县| 镇赉县| 兴义市| 确山县| 奉化市| 手游| 瑞安市| 札达县| 乐昌市| 响水县| 台南市| 大埔县| 清水县| 平舆县| 鹤山市| 高碑店市| 大悟县| 奉节县| 阿荣旗|