• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種應(yīng)用于語義分割的新型親和力監(jiān)督方法

      2021-07-24 09:30:18曹露濛楊周旺
      關(guān)鍵詞:親和力標(biāo)簽語義

      曹露濛,楊周旺

      (中國(guó)科學(xué)技術(shù)大學(xué) 大數(shù)據(jù)學(xué)院,安徽 合肥230026)

      0 引言

      語義分割是計(jì)算機(jī)視覺中一項(xiàng)具有挑戰(zhàn)性的任務(wù),在自動(dòng)駕駛、機(jī)器人、衛(wèi)星、農(nóng)業(yè)、醫(yī)療診斷等領(lǐng)域有著廣泛的應(yīng)用。它是一項(xiàng)稠密分類任務(wù),旨在對(duì)圖像進(jìn)行像素點(diǎn)級(jí)別的分類。由于卷積神經(jīng)網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,許多語義分割神經(jīng)網(wǎng)絡(luò)應(yīng)運(yùn)而生。例如,F(xiàn)CN[1]使用卷積層來代替完全連接層,使得神經(jīng)網(wǎng)絡(luò)能夠適應(yīng)任何輸入大小。Deeplab[2],PSPNet[3]采用空間金字塔池化來提取不同尺度的特征,然后合并特征來獲取不同尺度的上下文信息。長(zhǎng)期以來,研究者們致力于特征復(fù)用方法和注意機(jī)制來設(shè)計(jì)分割網(wǎng)絡(luò)[4-6]。使用殘差和密集的跳躍連接來聚合和復(fù)用不同層的特征,使得語義分割更加準(zhǔn)確,并使梯度更容易反向傳播。注意力模型[7-9]和非局部模型[10-11]彌補(bǔ)了卷積核的局部局限性,可以捕獲長(zhǎng)程依賴。最近的研究顯示了像素分組的重要性[12-15]。Zhong Zilong等人[12]提出語義分割可以分為兩個(gè)子任務(wù):顯式像素預(yù)測(cè)和隱式像素分組。Yu Changqian等人[13]使用標(biāo)簽對(duì)類別內(nèi)和類別間的先驗(yàn)知識(shí)進(jìn)行建模,以指導(dǎo)網(wǎng)絡(luò)的學(xué)習(xí)。KE T W等人[14]提出了一種自適應(yīng)親和場(chǎng)(Adaptive Affinity Field,AAF)來捕獲和匹配標(biāo)簽空間中相鄰像素之間的語義關(guān)系。Jiang Peng等人[15]提出了一種擴(kuò)散分支,它由一個(gè)用于得分圖的種子子分支和一個(gè)用于像素級(jí)相似性的子分支組成。條件隨機(jī)場(chǎng)(Conditional Random Fields,CRFs)[16-18,2]方法用于語義分割,利用上下文信息優(yōu)化網(wǎng)絡(luò)輸出,這是一種統(tǒng)計(jì)方法,用于對(duì)相似像素進(jìn)行分組,并通過能量函數(shù)優(yōu)化得分圖(score map)。以前的許多CRFs都是對(duì)網(wǎng)絡(luò)輸出的后處理。VEMULAPALLI R等人[17]和CHANDRA S等人[18]在CNN中引入了高斯條件隨機(jī)場(chǎng),并取得了很好的效果。

      語義分割網(wǎng)絡(luò)中的先進(jìn)模塊,如注意機(jī)制、非局部模型、親和力傳播機(jī)制等,需要很高的計(jì)算開銷[7,11,19]。這主要是因?yàn)橛H和矩陣太大了。在許多實(shí)際應(yīng)用中,本文需要一個(gè)輕快的網(wǎng)絡(luò)來處理GPU限制和實(shí)時(shí)性要求等需求。除了設(shè)計(jì)輕巧高效的網(wǎng)絡(luò)[20-22],探索在不增加額外計(jì)算負(fù)擔(dān)的情況下改進(jìn)原始語義分割網(wǎng)絡(luò)的方法也是非常有意義的。本文注意到,在像素分組方法中,建立成對(duì)關(guān)系模型非常重要。受先前利用位置和特征向量進(jìn)行二元計(jì)算工作[11,15-16]的啟發(fā),本文設(shè)計(jì)了新的標(biāo)簽親和力矩陣[13-14],并將其與分?jǐn)?shù)圖(Softmax之前的特征圖)連接起來,作為相似性的懲罰。與以往的工作[13-14]不同,本文以回歸的方式建立了一個(gè)非局部親和性監(jiān)督模型。本文還設(shè)計(jì)了一個(gè)平方根核用于親和性計(jì)算,使得回歸懲罰具有良好的數(shù)學(xué)解釋性。此外,本文采用空間金字塔池模塊來聚合不同尺度的信息,同時(shí)減少計(jì)算負(fù)擔(dān)。本文的主要貢獻(xiàn)可以概括為三個(gè)方面:

      (1)本文提出了一種新的輔助損失函數(shù),它提供了語義分割任務(wù)中交叉熵?fù)p失無法提供的二元形式監(jiān)督。

      (2)本文以回歸的方式建立二元成對(duì)損失函數(shù),幫助解決基于分類的問題,并且這在數(shù)學(xué)上可解釋。

      (3)本文的模型沒有增加網(wǎng)絡(luò)模型的推斷計(jì)算開銷,只增加了少量的訓(xùn)練計(jì)算開銷,并且對(duì)GPU內(nèi)存需求不高。

      1 相關(guān)工作

      1.1 交叉熵(Cross-Entropy,CE)

      交叉熵?fù)p失是分類任務(wù)中廣泛使用的一元損失函數(shù)。語義分割任務(wù)主要使用的損失函數(shù)是基本的CE損失,此外還有一些補(bǔ)充。OHEM算法增加了錯(cuò)誤分類樣本的權(quán)重。Focal loss[23]降低了易于分類的樣本的權(quán)重,使模型更加關(guān)注難以分類的樣本。IOU損失和Teversky損失提供了粗粒度上的監(jiān)督。Dice loss的作用是對(duì)背景和前景信息進(jìn)行區(qū)別。

      語義分割中的一個(gè)像素點(diǎn)位置的交叉熵?fù)p失為:

      其中yi∈{0,1},且yi只在一個(gè)維度上等于1,其他維度均為0,構(gòu)成一元形式的監(jiān)督。

      1.2 成對(duì)建模(pair-wise modeling)

      條件隨機(jī)場(chǎng)(CRFs)在一元形式的監(jiān)督基礎(chǔ)上加入了二元形式的監(jiān)督信息。通過引入能量函數(shù)(energy function)將i,j位置的成對(duì)關(guān)系引入懲罰函數(shù),典型的CRFs懲罰可以寫作:

      其中θi是一元?jiǎng)莺瘮?shù),輸入是神經(jīng)網(wǎng)絡(luò)的得分圖Score Map,θi,j是二元?jiǎng)莺瘮?shù),計(jì)算的是i,j位置像素點(diǎn)的相似性。目標(biāo)是使得整體能量函數(shù)下降,迫使像素點(diǎn)相似的位置預(yù)測(cè)結(jié)果相同。

      非局部(Non-local)模型[10-11]和許多注意力(attention)模型[7-9]也集中于利用(xi,xj)的二元計(jì)算,其中(xi,xj)是特征層的矢量。在這些模塊中,經(jīng)常使用對(duì)親和矩陣的行向量進(jìn)行SoftMax變換歸一化,產(chǎn)生特征融合權(quán)值,以便在空間和通道方面捕獲長(zhǎng)程關(guān)系。因此,親和矩陣在成對(duì)建模中占有核心地位。要建立成對(duì)關(guān)系的模型,假定xi,xj是i,j位置的特征向量,定義相似性核函數(shù)s(xi,xj),可以有點(diǎn)積的形式L1距離的形式|xi-xj|,指數(shù)函數(shù)的形式等。本 文 采 用 平 方 根 點(diǎn) 積 形 式是經(jīng)過Softmax歸一化之后的特征向量,既可以保留概率信息,還可以保證親和力矩陣的計(jì)算有界,從而保證整個(gè)模塊是李普希茲(Lipschitz)連續(xù)的。

      1.3 空間金字塔池化

      He Kaiming等人[25]將空間金字塔池化成功地應(yīng)用到目標(biāo)檢測(cè)任務(wù)中,CHEN L C等人[2]使用不同采樣權(quán)重的擴(kuò)張卷積作為池化層的替代,并設(shè)計(jì)了一個(gè)空洞空間金字塔池層(Atrous Spatial Pyramid Pooling layer,ASPP)來處理多個(gè)尺度。PSPNet[3]在特定層之后進(jìn)行空間金字塔池化,將不同尺度的上下文特征嵌入到網(wǎng)絡(luò)中。Xu Mengde等人[11]修改了空間金字塔池化模型以適應(yīng)非局部模型,用于減少計(jì)算負(fù)擔(dān)。本文遵循多尺度池化策略來構(gòu)建非局部的關(guān)聯(lián)模式。

      2 方法

      2.1 標(biāo)簽親和力矩陣

      語義分割的標(biāo)簽是一個(gè)具有離散值的單通道圖像,每個(gè)值表示一個(gè)類。生成標(biāo)簽親和力矩陣的操作類似于許多視覺任務(wù)中的自注意操作:給定尺寸為1×W×H的標(biāo)簽圖片,將標(biāo)簽平展到一維,得到1×WH向量L,然后得到尺寸為WH×WH的親和力矩陣M,滿足以下要求:

      M矩陣非常大,例如,如果標(biāo)簽圖片的大小是100×100,那么L的長(zhǎng)度是1×10 000,M的大小是10 000×10 000。此外,M在具有許多獨(dú)特標(biāo)簽的場(chǎng)景中是稀疏的。很難對(duì)一個(gè)大的稀疏矩陣進(jìn)行建模。本文采用PSP模塊,使用對(duì)稱PSP模塊使計(jì)算可行。本文使用最近鄰插值將標(biāo)簽向下采樣為12×12、6×6的大小,然后將標(biāo)簽展平并將它們連接在一起,得到一個(gè)1×180大小的L。圖1可視化展示了該矩陣。

      圖1 標(biāo)簽親和力矩陣(黑色表示0白色表示1)

      2.2 親和力回歸損失(Affinity Regression loss)

      一個(gè)典型的全局親和力矩陣是這樣計(jì)算的:給定一個(gè)輸入特征:X滿足X∈RC×H×W。其中C、W、H分別表示特征通道數(shù)量,特征長(zhǎng)度和特征寬度。然后經(jīng)過三個(gè)不同的1×1大小的卷積層,WφWθWγ三個(gè)卷積將X映射為三個(gè)不同的嵌入特征:φ∈θ=Wθ(X),γ=Wγ(X),表示新的輸出特征 通道 數(shù)。將輸出得到的三個(gè)不同特征進(jìn)行降維展平,得到維度為的特征,其中L=H×W??梢杂?jì)算得到親和力矩陣A:

      接下來就是一些常規(guī)的歸一化運(yùn)算,例如Softmax運(yùn)算,在行向量方向進(jìn)行歸一化,得到了調(diào)整之后的親和力矩陣。通常self-attention中的attention運(yùn)算為:

      在語義分割任務(wù)的最終輸出層中,利用非局部親和矩陣進(jìn)行了研究。為了有相同的映射,本文修改了經(jīng)典的親和力矩陣,將?、θ、γ設(shè)為恒等映射,本文就可以保留類別的通道信息,用以代表預(yù)測(cè)的概率。首先,進(jìn)行Softmax變換,使信道信息成為概率。然后本文在嵌入特征上進(jìn)行平方根運(yùn)算。最后,本文計(jì)算了親和矩陣A,用以表示每個(gè)空間坐標(biāo)點(diǎn)之間的相似性。

      為了降低非局部親和力模型的計(jì)算復(fù)雜度,之前的許多工作[8,11]采取的技巧是減少親和矩陣A的維數(shù),實(shí)驗(yàn)結(jié)果證明,這樣做不僅能減少計(jì)算量,降低內(nèi)存需求,還能顯著提高性能。本文遵循了前面的工作[11],并采用了兩種尺寸的下采樣操作。假設(shè)得分圖的大小為(C,W,H)。本文將分?jǐn)?shù)映射的樣本降到(C,12,12)和(C,6,6),然后將它們平展到(C,144)、(C,36),并將兩個(gè)嵌入特征拼接起來,以獲得(C,180)嵌入特征。標(biāo)簽操作與特征向下采樣位置對(duì)齊。然后本文計(jì)算親和力矩陣,得到(180,180)大小的親和力矩陣:

      本文通過均方誤差損失將親和力矩陣與標(biāo)簽親和矩陣進(jìn)行關(guān)聯(lián)。親和力回歸損失為(Affinity Regression loss,AR loss):

      整體下降函數(shù)由分類下降損失函數(shù)Cross-Entropy和親和力回歸損失函數(shù)Affinity Regression組成:

      參數(shù)λ設(shè)置為0.1。

      2.3 親和力回歸的數(shù)學(xué)含義

      在經(jīng)典的注意力模塊中,親和力矩陣通常是這樣計(jì)算的:

      而在本文的實(shí)驗(yàn)設(shè)置中,?=X,θ=X,而X是神經(jīng)網(wǎng)絡(luò)的得分圖(Score Map),并且經(jīng)過了下采樣拼接和通道維度的Softmax歸一化。

      假定pi表示XT的第i行向量,pj表示XT的第j行向量,那么:

      由柯西不等式(Cauchy inequality)可以推出:

      柯西不等式成立的條件是:

      其中λ為實(shí)數(shù)。這要求pi、pj是一樣的,即λ=1,并且pi、pj分布越相同,A?越趨近于1。 反之pi、pj分布越不相同,越遠(yuǎn)離1,趨近于0。

      另一方面,從排序不等式來看:

      其中pi(k)、pj(k)是將非負(fù)實(shí)數(shù)序列按照從小到大順序排序后得到的第k項(xiàng)。

      由排序不等式性質(zhì)可以得知:當(dāng)pik、pjk順序一致的時(shí)候即pik=pi(k),pjk=pj(k)時(shí)最大,當(dāng)pik、pjk順序相反的時(shí)候最小,即:pik=pi(k),pjk=pj(c-k+1)。

      在語義分割網(wǎng)絡(luò)的輸出中,每個(gè)空間點(diǎn)的通道向量中數(shù)值最大的(argmax)通道作為預(yù)測(cè)類別輸出。那么回歸1意味著的大小順序要盡可能一致,特別地,pi、pj數(shù)值最大的維度要一致,即位置i、j預(yù)測(cè)的是同一種類別。反之,回歸0,這會(huì)增大數(shù)值較大的維度乘在一起的懲罰,導(dǎo)致中數(shù)值大的維度盡可能與數(shù)值小的維度乘在一起,也就是說,i、j預(yù)測(cè)的是不同類別。不等式的等號(hào)是可以取到的。

      由上述分析可以知道,建立的回歸下降損失函數(shù)可以起到一種全局性的結(jié)構(gòu)監(jiān)督作用,它是基于成對(duì)建模的函數(shù),提供二元形式的監(jiān)督信息,彌補(bǔ)了單一的交叉熵?fù)p失Cross-Entropy無法進(jìn)行成對(duì)運(yùn)算的缺陷。

      本文的模型結(jié)合了二元懲罰的優(yōu)點(diǎn),可以看作是一個(gè)輔助損失函數(shù),可以與分割網(wǎng)絡(luò)同時(shí)訓(xùn)練。沒有額外的參數(shù)被添加到網(wǎng)絡(luò)中,意味著在網(wǎng)絡(luò)推斷過程中沒有增加新的計(jì)算開銷。而且訓(xùn)練時(shí)額外引入的計(jì)算量特別小,計(jì)算復(fù)雜度為O(C×L2),C為通道數(shù)量或者標(biāo)簽種類,L是親和力矩陣邊長(zhǎng),本文中L具體數(shù)值為180。

      3 實(shí)驗(yàn)

      3.1 數(shù)據(jù)集

      NYU Depth Dataset V2[26].NYUv2數(shù)據(jù)集是一個(gè)室內(nèi)場(chǎng)景數(shù)據(jù)集,包含1 449對(duì)對(duì)齊的RGB和深度圖像,包括795個(gè)訓(xùn)練圖像和654個(gè)驗(yàn)證圖像。該數(shù)據(jù)集提供了40個(gè)類別的分類和13個(gè)類別的分類。本文在設(shè)置中使用40個(gè)類,并且本文沒有以任何方式直接或者間接使用深度信息。

      3.2 評(píng)價(jià)指標(biāo)

      語義分割的最主要評(píng)價(jià)指標(biāo)就是mIOU,即計(jì)算真實(shí)值和預(yù)測(cè)值兩個(gè)集合的交集和并集之比。本文采用mIOU作為評(píng)價(jià)指標(biāo)。

      3.3 實(shí)驗(yàn)與分析

      本文主要采用RefineNet[5]的輕量化版本Refine-NetLW[20]作為骨干網(wǎng)絡(luò),該網(wǎng)絡(luò)在NYUv2數(shù)據(jù)集上表現(xiàn)良好,且能計(jì)算開銷小,運(yùn)行速度快。本文采用了文獻(xiàn)[20]的實(shí)驗(yàn)設(shè)置要求,只使用一塊GTX-1080Ti訓(xùn)練,并且沒有在驗(yàn)證集上做任何增強(qiáng)處理。

      本文對(duì)親和力回歸損失AR loss的用法是:先預(yù)訓(xùn)練網(wǎng)絡(luò)至一定的精度,再加入AR loss與CE loss一起進(jìn)行訓(xùn)練直到收斂。

      圖2展示了驗(yàn)證集的mIOU隨著訓(xùn)練變化的曲線,可以看出加入AR loss之后,網(wǎng)絡(luò)的性能有了明顯的提升。

      圖2 NYUv2訓(xùn)練曲線

      之后本文對(duì)比AR loss和傳統(tǒng)的Dice loss的效果,如表1所示,Dice loss對(duì)網(wǎng)絡(luò)性能的改進(jìn)不大,只有0.1%,而加入AR loss以后,網(wǎng)絡(luò)在驗(yàn)證集上提升了接近0.9%,效果非常顯著。

      表1 Dice loss vs AR loss(NYUv2驗(yàn)證集)/%

      而進(jìn)一步進(jìn)行實(shí)驗(yàn),采用不同的ResNet骨干網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn),可以發(fā)現(xiàn),基于ResNet152的提升效果比基于ResNet50的效果明顯。

      表2 替換不同殘差網(wǎng)絡(luò)的影響(NYUv2驗(yàn)證集)/%

      本文是基于成對(duì)建模的方法,計(jì)算了二元形式的懲罰函數(shù),對(duì)比之前的二元懲罰函數(shù)模型,有非常明顯的優(yōu)勢(shì)。如表3所示,本文的方法訓(xùn)練開銷更小,計(jì)算復(fù)雜度更低,且不增加推斷時(shí)的計(jì)算開銷。

      表3 計(jì)算復(fù)雜性比較

      N的大小為500左右,因此系數(shù)80,1/10差距顯著。CRFs方法是后處理方法,在神經(jīng)網(wǎng)絡(luò)運(yùn)算之后還要再進(jìn)行統(tǒng)計(jì)處理,訓(xùn)練和推斷都比較耗時(shí)。AAF[14]對(duì)每一個(gè)點(diǎn)計(jì)算3個(gè)核的親和力(3×3+5×5+7×7≈80)。本文與AAF[14]都只需參與訓(xùn)練,不參與推斷。

      4 結(jié)論

      本文提出了一種新的使用標(biāo)簽親和力矩陣作為二元形式監(jiān)督的范式,在處理語義分割這樣的分類問題上,引入回歸形式的監(jiān)督。能夠在提高語義分割網(wǎng)絡(luò)性能的同時(shí),又不引入額外的參數(shù),可以有效地提高語義分割網(wǎng)絡(luò)的計(jì)算效率。在NYUv2數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了該模型的有效性和高效性。

      猜你喜歡
      親和力標(biāo)簽語義
      語言與語義
      無懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      高端訪談節(jié)目如何提升親和力
      新聞傳播(2018年11期)2018-08-29 08:15:30
      高端訪談節(jié)目如何提升親和力探索
      新聞傳播(2018年13期)2018-08-29 01:06:52
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      親和力在播音主持中的作用探究
      新聞傳播(2016年9期)2016-09-26 12:20:34
      “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
      標(biāo)簽化傷害了誰
      將親和力應(yīng)用于播音主持中的方法探討
      新聞傳播(2015年7期)2015-07-18 11:09:57
      基于多進(jìn)制查詢樹的多標(biāo)簽識(shí)別方法
      花莲县| 河西区| 林甸县| 灌南县| 凤山县| 天峨县| 新密市| 灌南县| 阳高县| 鄂伦春自治旗| 沂水县| 边坝县| 淮阳县| 西宁市| 崇信县| 谢通门县| 文山县| 洱源县| 康定县| 东乡县| 瑞金市| 鞍山市| 新闻| 龙里县| 广东省| 昭觉县| 内丘县| 马关县| 铅山县| 怀仁县| 开江县| 穆棱市| 广宗县| 津市市| 鄱阳县| 曲松县| 宿迁市| 洛川县| 延寿县| 涪陵区| 左云县|