• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合注意力機(jī)制的多尺度顯著性目標(biāo)檢測網(wǎng)絡(luò)

      2022-08-09 06:59:40郭繼昌汪昱東
      關(guān)鍵詞:編碼器注意力卷積

      劉 迪,郭繼昌,汪昱東,張 怡

      (天津大學(xué) 電氣自動(dòng)化與信息工程學(xué)院,天津 300072)

      圖像顯著性目標(biāo)檢測通過機(jī)器視覺模擬人類的視覺特性來提取圖片中最吸引人的區(qū)域或物體,忽略人們不感興趣的區(qū)域。圖像顯著性目標(biāo)檢測在圖像與視頻壓縮[1]、圖像分割[2]、目標(biāo)識(shí)別[3]等圖像處理和計(jì)算機(jī)視覺領(lǐng)域具有廣泛的應(yīng)用。

      近年來,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[4]在計(jì)算機(jī)視覺領(lǐng)域取得了突破性進(jìn)展[5-6]?;诰矸e神經(jīng)網(wǎng)絡(luò)的顯著性檢測方法有效提高了顯著性目標(biāo)檢測的準(zhǔn)確性,因此大量研究圍繞基于卷積神經(jīng)網(wǎng)絡(luò)的顯著性目標(biāo)檢測方法展開。ZHANG等[7]設(shè)計(jì)了一個(gè)特征融合網(wǎng)絡(luò)Amulet,該網(wǎng)絡(luò)可以產(chǎn)生較為精確的預(yù)測細(xì)節(jié),但是這種粗糙的特征融合容易產(chǎn)生信息冗余和噪聲干擾。CHEN等[8]在最深層的粗糙顯著圖后使用殘差學(xué)習(xí)來細(xì)化顯著性特征,該網(wǎng)絡(luò)不僅可以減少參數(shù)量還可以保持預(yù)測精度。WANG等[9]使用金字塔注意力模塊來對所有位置進(jìn)行多次下采樣和Softmax操作,以獲得多尺度的注意力圖來增強(qiáng)特征,該方法提高了顯著圖的質(zhì)量,但是對噪聲更敏感。張晴等[10]提出一種結(jié)合來自卷積神經(jīng)網(wǎng)絡(luò)不同卷積層多尺度特征信息的顯著性目標(biāo)檢測網(wǎng)絡(luò),該網(wǎng)絡(luò)的檢測結(jié)果可以有效保留顯著性物體邊界。

      盡管基于卷積神經(jīng)網(wǎng)絡(luò)的模型在顯著性目標(biāo)檢測領(lǐng)域展現(xiàn)出了較大優(yōu)勢,但也仍然存在一些問題,主要表現(xiàn)在:(1)對于顯著性目標(biāo)檢測任務(wù)來說,顯著性目標(biāo)在大小、形狀和位置上存在很大的變化,然而卷積神經(jīng)網(wǎng)絡(luò)簡單組合卷積層與池化層來提取特征的方法,可能難以有效地處理這些復(fù)雜的變化,如復(fù)雜的背景會(huì)對顯著性檢測結(jié)果造成干擾,從而無法進(jìn)行有效的顯著性檢測;(2)在特征融合時(shí),如果選取某些包含噪聲的特征進(jìn)行融合,那么集成的特征會(huì)使噪聲傳遞到預(yù)測層,造成顯著性目標(biāo)檢測不完整及邊緣模糊,從而影響網(wǎng)絡(luò)的檢測結(jié)果。

      注意力機(jī)制通過模擬人類視覺系統(tǒng)的方式可以從大量數(shù)據(jù)中快速且準(zhǔn)確地捕捉最重要的信息。得益于其特征選擇能力,注意力機(jī)制在計(jì)算機(jī)視覺領(lǐng)域中得到了廣泛的應(yīng)用。受注意力機(jī)制的啟發(fā),針對上述問題筆者提出一種融合注意力機(jī)制的多尺度顯著性目標(biāo)檢測網(wǎng)絡(luò)(multi-scale salient object detection Network combining Attention Mechanism,AMNet)。針對問題(1),網(wǎng)絡(luò)在編解碼過程中連接相鄰層的特征,將紋理、顏色、邊緣等低級(jí)特征,物體形狀等中級(jí)特征和表示語義信息的高級(jí)特征進(jìn)行融合,以達(dá)到更好的多尺度特征融合的目的,并捕捉到圖像中不同尺度的顯著性目標(biāo),有效提高網(wǎng)絡(luò)的顯著性檢測性能,并且網(wǎng)絡(luò)使用了上下文特征提取模塊提取不同感受野下的多尺度特征,以消除復(fù)雜背景的干擾,進(jìn)一步提升顯著性檢測性能;針對問題(2),在網(wǎng)絡(luò)中融合注意力機(jī)制[11],將低級(jí)特征輸入空間注意力模塊,高級(jí)特征輸入通道注意力模塊,用以增加重要信息的權(quán)重,有利于突出顯示重要的邊緣信息并使得顯著性目標(biāo)均勻顯示,抑制噪聲干擾。筆者基于成對的顯著性數(shù)據(jù)集DUTS[12]對顯著性檢測網(wǎng)絡(luò)進(jìn)行訓(xùn)練,在ECSSD[13]數(shù)據(jù)集上進(jìn)行測試。實(shí)驗(yàn)結(jié)果表明,所提網(wǎng)絡(luò)能夠獲得高質(zhì)量的顯著性目標(biāo)檢測結(jié)果。

      1 編碼器-解碼器網(wǎng)絡(luò)結(jié)構(gòu)

      圖像顯著性目標(biāo)檢測旨在檢測出圖像中引人注目的物體,即對一幅圖像中所有像素按照注意力進(jìn)行分類,是一個(gè)逐像素預(yù)測的問題。編碼器-解碼器(Encoder-Decoder)網(wǎng)絡(luò)結(jié)構(gòu)能夠接受任意尺寸的輸入圖像,并產(chǎn)生相同尺寸的輸出圖像,輸入圖像和輸出圖像的像素一一對應(yīng),并且支持端到端、像素到像素的訓(xùn)練。編碼器-解碼器的結(jié)構(gòu)[14]如圖1所示。

      圖1上半部分為編碼器,下半部分為解碼器,豎直箭頭為拼接(Concat)操作,水平箭頭為數(shù)據(jù)流方向。編碼器部分通常由重復(fù)的卷積層級(jí)聯(lián)構(gòu)成;然而進(jìn)行多次卷積和池化后會(huì)縮小圖像的尺寸,最后輸出的結(jié)果無法對應(yīng)到原始圖像中的每一個(gè)像素。為了從編碼器的卷積特征圖中得到與原始輸入圖像尺寸相等的輸出圖像,解碼器采用了反卷積運(yùn)算或上采樣操作,恢復(fù)圖像的細(xì)節(jié)和空間維度,即編碼器部分以卷積神經(jīng)網(wǎng)絡(luò)為主體,降低特征的空間分辨率并增加特征維度,輸出中包含豐富的語義信息;解碼器部分以卷積層和反卷積層為主體結(jié)構(gòu),逐步恢復(fù)編碼特征,并輸出最終的結(jié)果。

      基于編碼器-解碼器結(jié)構(gòu)端到端訓(xùn)練、像素到像素訓(xùn)練的優(yōu)勢,在顯著性目標(biāo)檢測工作中,很多顯著性目標(biāo)檢測網(wǎng)絡(luò)采用編碼器-解碼器結(jié)構(gòu)為基準(zhǔn)。例如,QIN等[15]提出了由一個(gè)編碼器-解碼器網(wǎng)絡(luò)和殘差優(yōu)化模塊組成的顯著性目標(biāo)檢測與細(xì)化一體化架構(gòu),并使用了一種新的混合損失函數(shù),所提網(wǎng)絡(luò)能夠有效分割顯著目標(biāo)區(qū)域,準(zhǔn)確預(yù)測清晰的邊界。PANG等[16]提出了以編碼器-解碼器為基礎(chǔ)的聚合交互模塊,在每個(gè)解碼器單元中嵌入了自交互模塊來消除尺度變化引起的類別不平衡問題。時(shí)斐斐等[17]提出了一種結(jié)合邊緣特征,利用先驗(yàn)信息引導(dǎo)的編碼器-解碼器顯著性檢測方法,該方法可以產(chǎn)生更為可靠的顯著性檢測結(jié)果。

      2 融合注意力機(jī)制的多尺度顯著性目標(biāo)檢測網(wǎng)絡(luò)

      筆者提出一種融合注意力機(jī)制的多尺度顯著性目標(biāo)檢測網(wǎng)絡(luò)(AMNet)。AMNet網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

      AMNet以U型編碼器-解碼器網(wǎng)絡(luò)(U-Net[18])為基礎(chǔ),融合由通道注意力模塊(Channel Attention Module,CAM)與空間注意力模塊(Space Attention Module,SAM)組成的注意力機(jī)制和上下文特征提取模塊(Context Feature Extraction Module,CFEM),通過連接不同級(jí)別的特征,即利用相鄰層的特征來提取多尺度信息,進(jìn)行多尺度信息融合,以提高檢測性能。對于給定的輸入圖像F∈RW×H×3,R為實(shí)數(shù)集,通過編碼器-解碼器顯著性目標(biāo)檢測模型f可以映射為粗糙顯著性圖Mc=f(F)∈[0,1]W×H,在以上3個(gè)模塊的共同作用下,得到最終的顯著性映射圖Mf。

      2.1 網(wǎng)絡(luò)結(jié)構(gòu)

      網(wǎng)絡(luò)結(jié)構(gòu)上,在編碼與解碼過程中連接相鄰層的特征,以便于多尺度特征融合。為了進(jìn)一步提取多尺度信息,在編碼器和解碼器中間加入上下文特征提取模塊以便于捕捉到尺度不同的顯著性物體并消除復(fù)雜背景的干擾。此外,由于低級(jí)特征會(huì)保留更多的空間及邊緣信息,而高級(jí)特征包含更多的高級(jí)語義知識(shí),能夠更好地定位顯著性目標(biāo)。因此受注意力機(jī)制的啟發(fā),AMNet將淺層特征輸入空間注意力模塊,將高級(jí)特征輸入通道注意力模塊,目的是突出顯著性目標(biāo)的邊緣與整體。通道注意力與空間注意力的連接方式可表示為

      Mf=σ(Mc·C(fh)·S(fl)) ,

      (1)

      其中,σ為Sigmoid激勵(lì)函數(shù),Mc為網(wǎng)絡(luò)初始特征預(yù)測結(jié)果,·為點(diǎn)積操作,C(fh)為高級(jí)特征經(jīng)過CAM 后的結(jié)果,S(fl)為低級(jí)特征通過SAM后的權(quán)重結(jié)果,Mf表示預(yù)測結(jié)果。

      使用批量歸一化(Batch Normalization,BN)加速網(wǎng)絡(luò)收斂,使用ReLU作為激勵(lì)函數(shù),并使用Sigmoid激勵(lì)函數(shù)對輸出結(jié)果進(jìn)行處理,以保證輸出圖像的像素值保持在[0,1]之間。

      2.1.1 通道注意力模塊

      通道注意力模塊(CAM)利用特征的通道間關(guān)系生成通道注意圖,該模塊會(huì)為顯著目標(biāo)表現(xiàn)出高響應(yīng)的信道分配更大的權(quán)重。通道注意力模塊的結(jié)構(gòu)如圖3所示。

      具體操作可表示為

      Mc(F)=σ(MLP(PAvg(F));MLP(PMax(F))),

      (2)

      其中,F(xiàn)為輸入特征,PAvg與PMax分別表示平均池化與最大值池化,與圖3中的AvgPool和MaxPool相對應(yīng);MLP對應(yīng)圖3中的MLP模塊;該模塊為一個(gè)多層感知器(Multi-Layer Perceptron,MLP),由卷積層和ReLU激活函數(shù)構(gòu)成;另外,“;”為拼接操作,σ為Sigmoid函數(shù),Mc(F)為該模塊的輸出。

      首先對輸入特征同時(shí)使用平均池化和最大池化,生成的兩個(gè)壓縮特征輸入同一個(gè)MLP模塊,該模塊由兩個(gè)卷積和一個(gè)ReLU激活函數(shù)組成;接下來分別對每個(gè)分支的輸出權(quán)值進(jìn)行線性變換,再將輸出的特征拼接,經(jīng)Sigmoid函數(shù)處理后得到的結(jié)果與輸入特征相乘,得到通道注意力圖。通道注意力模塊讓網(wǎng)絡(luò)更加關(guān)注有效信息,如紋理復(fù)雜、顏色對比度低的顯著性區(qū)域,這為處理場景復(fù)雜的圖像提供了額外的靈活性。

      2.1.2 空間注意力模塊

      空間注意力模塊(SAM)是利用特征間的空間關(guān)系生成空間注意圖。該模塊可以指出在某一個(gè)通道里,哪一部分是更重要的信息。該模塊以編碼器提取到的低級(jí)特征為輸入,目的是更加關(guān)注低級(jí)特征中的邊緣信息。空間注意力模塊的結(jié)構(gòu)示意如圖4所示。

      具體操作可表示為

      Ms(F)=σ(f7×7([PAvg(F);PMax(F)])) ,

      (3)

      其中,F(xiàn)為輸入特征,PAvg與PMax分別表示平均池化與最大值池化,f7×7表示卷積核為7×7的卷積操作,“;”為拼接操作,σ表示Sigmoid函數(shù),Ms(F)為該模塊的輸出結(jié)果。

      首先分別使用平均池化和最大值池化對輸入特征圖在通道層面進(jìn)行壓縮,得到兩個(gè)一通道的特征,將其按通道維度拼接在一起,得到一個(gè)二通道數(shù)的特征圖;再使用一個(gè)卷積核大小為7×7的卷積層對其進(jìn)行卷積操作;最后進(jìn)行Sigmoid操作,將得到的結(jié)果與輸入特征相乘,得到空間注意力圖。該模塊使得AMNet檢測到的顯著性物體邊緣更完整。

      2.1.3 上下文特征提取模塊

      運(yùn)用不同大小的卷積核進(jìn)行特征提取來獲取多尺度信息,該方法在計(jì)算機(jī)視覺任務(wù)中取得很好的效果。為進(jìn)一步減少不同特征之間的上下文信息丟失,AMNet在編碼器、解碼器之間加入上下文感知特征提取模塊(CFEM),該模塊可以進(jìn)一步提取多尺度顯著性信息。上下文特征提取模塊的結(jié)構(gòu)如圖5所示。

      CFEM融合4種不同尺度特征,分別是原尺度特征,經(jīng)1×1卷積,3×3卷積以及3×3、間隔(dilation rate,r)為1的空洞卷積操作后的特征。與傳統(tǒng)空間金字塔特征提取不同,CFEM加入了空洞卷積層,加入空洞卷積的優(yōu)勢是在不增加計(jì)算量的前提下增大感受野,讓每個(gè)卷積輸出都包含較大范圍的上下文信息。將這4個(gè)尺度的特征拼接在一起,輸出中會(huì)包含不同尺度特征圖。在金字塔層級(jí)后使用 1×1 卷積核,目的是不僅能保持特征圖中全局特征的權(quán)值,還可以將特征圖降維到原來的大小,以便于作為解碼過程的輸入。

      2.2 損失函數(shù)

      損失函數(shù)由3部分組成,分別是二元交叉熵?fù)p失函數(shù)(Binary Cross Entropy Loss,LBCE)[19]、結(jié)構(gòu)相似性損失函數(shù)(Structural Similarity Index Measurement Loss,LSSIM)[15]、一致性增強(qiáng)損失函數(shù)(Consistency-Enhanced Loss,LCE)[16]。

      交叉熵能夠衡量同一個(gè)隨機(jī)變量中的兩個(gè)不同概率分布的差異程度,因此LBCE是二值分類和分割中最廣泛使用的損失函數(shù)。其定義為

      LBCE=-∑[GlogP+(1-G) log (1-P)] ,

      (4)

      其中,G∈{0,1},為像素的真實(shí)標(biāo)簽(Ground truth);P為該像素被預(yù)測成顯著目標(biāo)的概率。

      結(jié)構(gòu)相似性損失函數(shù)最初被用于圖像質(zhì)量評估,可以捕捉圖像中的結(jié)構(gòu)信息,是衡量兩幅圖像相似度的指標(biāo)。邊界感知顯著性目標(biāo)檢測網(wǎng)絡(luò)(Boundary-Aware Salient Object Detection,BASNet)[15]把其整合到顯著性目標(biāo)檢測的損失函數(shù)中來學(xué)習(xí)顯著性目標(biāo)的結(jié)構(gòu)信息。設(shè)x={xj∶j=1,…,N2},y={yj∶j=1,…,N2},分別是兩個(gè)相對應(yīng)且大小為N×N的圖像塊的像素值,并且這兩個(gè)圖像塊分別來自于預(yù)測的顯著圖P與真實(shí)標(biāo)簽G。關(guān)于x和y的LSSIM定義如下:

      (5)

      其中,μx,μy分別表示x,y的均值;σx,σy分別表示x和y的方差,σxy是兩者的協(xié)方差。C1、C2為常數(shù),目的是為了避免分母為0,通常取C1=0.012和C2= 0.032。

      為了均勻突出整個(gè)顯著區(qū)域,并且更好地處理由于物體不同尺度造成的顯著區(qū)域與非顯著區(qū)域像素不平衡問題,使用了一致性增強(qiáng)損失(LCE),定義如下:

      (6)

      其中,TP(True Positive)、FP(False Positive)、FN(False Negative)分別表示預(yù)測是正例且實(shí)際為正例、預(yù)測是正例但實(shí)際是負(fù)例、預(yù)測是負(fù)例但實(shí)際是正例;|·|為計(jì)算面積;FP+FN表示預(yù)測的顯著性區(qū)域與標(biāo)注區(qū)域的交集,而FP+2TP+FN表示顯著性區(qū)域與標(biāo)注區(qū)域的并集。當(dāng){P|P> 0 }∩{G|G=1 } =?時(shí),即當(dāng)預(yù)測結(jié)果與標(biāo)簽相差最大時(shí),該損失達(dá)到最大值,此時(shí)LCE=1。該損失函數(shù)有助于解決預(yù)測的類內(nèi)不一致和類間模糊問題,從而使得顯著對象的預(yù)測邊緣變得更清晰。

      損失函數(shù)定義為這3類損失函數(shù)的總和:

      L=λ1LBCE+λ2LSSIM+λ3LCE。

      (7)

      為了平衡3個(gè)損失的貢獻(xiàn),設(shè)定λ1=λ2=λ3=1。

      3 實(shí)驗(yàn)結(jié)果與分析

      為評估所提方法性能,基于DUTS數(shù)據(jù)集訓(xùn)練,在ECSSD數(shù)據(jù)集上測試并進(jìn)行了一系列定性和定量實(shí)驗(yàn)。ECSSD數(shù)據(jù)集有像素級(jí)的標(biāo)簽,含有1 000張各種含豐富背景結(jié)構(gòu)信息的圖像,具有較高的參考性和測試價(jià)值。

      實(shí)驗(yàn)框架基于UIE-Toolbox框架[20]搭建,使用Adam優(yōu)化器來訓(xùn)練網(wǎng)絡(luò),選取學(xué)習(xí)率(learning rate,lr)為0.001,訓(xùn)練20個(gè)回合(epoch)后網(wǎng)絡(luò)達(dá)到收斂。對網(wǎng)絡(luò)進(jìn)行微調(diào),采用lr=0.000 1,epoch=10。

      所有實(shí)驗(yàn)環(huán)境均采用Ubuntu16.04的設(shè)備環(huán)境,顯卡為Nvidia GTX 1080Ti (11 GB)。

      3.1 評價(jià)指標(biāo)

      采用F-measure值和平均絕對誤差(Mean Absolute Error,MAE)兩個(gè)指標(biāo)評價(jià)檢測效果。

      F-measure值是準(zhǔn)確率、召回率的加權(quán)調(diào)和平均值,計(jì)算公式如下:

      (8)

      其中,Pr為準(zhǔn)確率,R為召回率,β為權(quán)重參數(shù),取β=0.3。F-measure值越大,圖像顯著性目標(biāo)檢測效果越好。

      平均絕對誤差計(jì)算預(yù)測結(jié)果和真實(shí)標(biāo)注之間逐像素的平均偏差,代表了檢測結(jié)果的整體效果,計(jì)算方法為

      (9)

      其中,H和W分別為顯著圖的長和寬,G(x,y)為人工標(biāo)注圖(GT)在(x,y)處的真實(shí)像素值,S(x,y)為預(yù)測圖在(x,y)點(diǎn)的像素值。計(jì)算所得平均絕對誤差值越小,該方法所得預(yù)測圖與真實(shí)標(biāo)注圖的差異越小,性能越好。

      3.2 實(shí)驗(yàn)結(jié)果與分析

      通過對比實(shí)驗(yàn)與消融實(shí)驗(yàn)來驗(yàn)證所提方法的有效性。為了進(jìn)行公平的比較,實(shí)驗(yàn)通過相同的顯著性檢測數(shù)據(jù)集(DUTS)對5種顯著性目標(biāo)檢測網(wǎng)絡(luò)及AMNet進(jìn)行訓(xùn)練,用ECSSD數(shù)據(jù)集進(jìn)行測試,實(shí)驗(yàn)結(jié)果取平均值。

      3.2.1 對比實(shí)驗(yàn)

      將AMNet與其他5種具有代表性的網(wǎng)絡(luò)進(jìn)行比較,其中包括U-Net[18]、短連接深度監(jiān)督顯著性目標(biāo)檢測網(wǎng)絡(luò)(Deeply Supervised Salient object detection with short connevtion,DSS)[21]、像素級(jí)上下文注意力顯著性目標(biāo)檢測網(wǎng)絡(luò)(Learning Pixel-wise Contextual Attention for Saliency Detection,PicaNet)[22]、基于池化設(shè)計(jì)的實(shí)時(shí)顯著性目標(biāo)檢測網(wǎng)絡(luò)(A Simple Pooling-based Design for Real-time Salient Object Detection,PoolNet)[23]、全局上下文感知的漸進(jìn)聚合顯著性目標(biāo)檢測網(wǎng)絡(luò)(Glodal Context-aware Progressive Aggregation Network for salient object detection,GCPANet)[24]。指標(biāo)結(jié)果定量比較如表1所示。

      表1 不同顯著性目標(biāo)檢測網(wǎng)絡(luò)基于ECSSD數(shù)據(jù)集的指標(biāo)對比

      由表1可知,AMNet在數(shù)據(jù)集 ECSSD中針對MAE和F-measure值兩個(gè)指標(biāo)進(jìn)行測試,并與其余5種網(wǎng)絡(luò)對比,AMNet的顯著性檢測性能最好。其MAE和F-measure指標(biāo)分別為0.044和0.908,與經(jīng)典的編碼器-解碼器網(wǎng)絡(luò)U-Net相比,指標(biāo)性能分別提升了0.051與0.115;相比于圖像顯著性目標(biāo)檢測性能較好的網(wǎng)絡(luò)(DSS、PicaNet、PoolNet、GCPANet),MAE和F-measure指標(biāo)分別有10%~54%和0.7%~1.19%的提高。

      圖6給出了ECSSD數(shù)據(jù)集上不同網(wǎng)絡(luò)預(yù)測的顯著圖的視覺比較結(jié)果。對于第一行這類背景較為簡單且前景和背景顏色對比明顯的圖像,6種方法均能較好地檢測到圖像的顯著區(qū)域。但AMNet在各種復(fù)雜圖像中表現(xiàn)更好:顯著性目標(biāo)和背景對比度低(第2行)的情況下,AMNet可以準(zhǔn)確檢測顯著性區(qū)域;顯著性物體邊緣不規(guī)則(第3行)的情況下,AMNet的預(yù)測結(jié)果保留了很好的邊緣特征;對于多個(gè)顯著性目標(biāo)(第4行)、具有復(fù)雜紋理的顯著性對象(第5行)以及包含小尺寸顯著性目標(biāo)(第6行)的圖像,AMNet均取得了較好的檢測結(jié)果。

      由對比可知,AMNet可以更好地處理各種背景復(fù)雜與不同目標(biāo)尺度的圖像,不僅可以均勻地顯示出整個(gè)顯著性對象,而且可以在各種場景下很好地保留顯著性對象的邊緣。綜合分析對比實(shí)驗(yàn)結(jié)果,所提網(wǎng)絡(luò)在處理復(fù)雜場景圖像方面具有一定優(yōu)勢。

      3.2.2 消融實(shí)驗(yàn)

      采用改進(jìn)的U-Net模型為基準(zhǔn)(Baseline),融合注意力機(jī)制(文中由CAM與SAM構(gòu)成,記為CASA)與上下文特征提取模塊(CFEM)。將AMNet與加入單個(gè)模塊的網(wǎng)絡(luò)預(yù)測的顯著性檢測結(jié)果進(jìn)行比較,實(shí)驗(yàn)定量分析結(jié)果如表2所示。

      表2 ECSSD數(shù)據(jù)集上不同模塊組合消融研究

      從表2可以看出,CASA與CFEM的聯(lián)合應(yīng)用與使用單個(gè)模塊相比,不僅在F-measure指標(biāo)上得到了極大的提高,分別提升了約0.06與0.059;同時(shí)MAE指標(biāo)也有所改善,單獨(dú)應(yīng)用CASA和CFEM的MAE值分別約為0.082和0.075,而聯(lián)合應(yīng)用兩個(gè)模塊后MAE指標(biāo)約為0.044,MAE值分別減小了約0.038和0.031,表明所得預(yù)測圖與真實(shí)標(biāo)注圖的差異變小,融入CASA和CFEM后網(wǎng)絡(luò)的性能變得更好。

      對比不同模塊對預(yù)測結(jié)果的影響,圖7給出了消融實(shí)驗(yàn)視覺效果對比圖。

      從圖7中可以看出,AMNet可以均勻地顯示出整個(gè)顯著性對象,而且可以在不同背景下獲得較為精確的顯著性檢測邊緣。

      4 結(jié)束語

      針對顯著性目標(biāo)檢測模型的檢測結(jié)果容易受復(fù)雜背景干擾、檢測結(jié)果邊緣模糊等問題,筆者提出一種融合注意力機(jī)制的多尺度顯著性目標(biāo)檢測網(wǎng)絡(luò)(AMNet)。實(shí)驗(yàn)結(jié)果表明,AMNet在ECSSD數(shù)據(jù)集上依據(jù)MAE與F-measure兩種性能評價(jià)指標(biāo)與5種具有代表性的網(wǎng)絡(luò)相比,在兩類指標(biāo)上都得到了更好的結(jié)果。在主觀視覺上,AMNet不僅能夠在復(fù)雜背景下準(zhǔn)確檢測到顯著性目標(biāo)且使顯著性目標(biāo)均勻顯示,并且能夠解決顯著性目標(biāo)邊緣模糊的問題,提高顯著性檢測網(wǎng)絡(luò)的性能。接下來的研究將更加關(guān)注網(wǎng)絡(luò)的魯棒性與泛化性,設(shè)計(jì)適合低質(zhì)場景(如水下、霧霾、低光照等)的顯著性目標(biāo)檢測網(wǎng)絡(luò),做更深入的、適合實(shí)際應(yīng)用的研究

      猜你喜歡
      編碼器注意力卷積
      讓注意力“飛”回來
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于FPGA的同步機(jī)軸角編碼器
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      基于PRBS檢測的8B/IOB編碼器設(shè)計(jì)
      A Beautiful Way Of Looking At Things
      JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
      電子器件(2015年5期)2015-12-29 08:42:24
      多總線式光電編碼器的設(shè)計(jì)與應(yīng)用
      万山特区| 遵化市| 法库县| 沾益县| 图木舒克市| 忻州市| 抚远县| 连江县| 鄂托克旗| 龙南县| 高唐县| 舟曲县| 太仆寺旗| 平邑县| 汨罗市| 梁平县| 黑水县| 龙门县| 贵溪市| 无为县| 杭州市| 西乌珠穆沁旗| 西宁市| 化州市| 瑞昌市| 林口县| 宁夏| 烟台市| 凤城市| 双城市| 石泉县| 师宗县| 文安县| 大荔县| 宝坻区| 乌拉特中旗| 安多县| 昆山市| 金堂县| 城市| 洪湖市|