• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于注意力機制與多尺度池化的實時語義分割網(wǎng)絡(luò)

      2023-10-17 05:50:10王卓瞿紹軍
      計算機工程 2023年10期
      關(guān)鍵詞:池化精確度注意力

      王卓,瞿紹軍

      (湖南師范大學(xué) 信息科學(xué)與工程學(xué)院,長沙 410081)

      0 概述

      隨著互聯(lián)網(wǎng)的高速發(fā)展,計算機在人們的生活中占據(jù)著重要地位,計算機應(yīng)用也在不斷地覆蓋人們生活的各方面。語義分割作為計算機視覺的一部分,在實際生活中得到廣泛應(yīng)用,如虛擬現(xiàn)實、工業(yè)自動化、視頻檢測等[1]。語義分割要求計算機能夠基于給定圖像來預(yù)測圖像中每個像素的類別,以達到分割圖像的效果。實時語義分割在追求圖像分割高精度的基礎(chǔ)上對速度有了更高的要求,性能良好的實時語義分割模型能夠應(yīng)用于自動駕駛領(lǐng)域,在短時間內(nèi)對道路場景進行有效分割。

      全卷積網(wǎng)絡(luò)(如VGG16 網(wǎng)絡(luò)[2])中持續(xù)的卷積池化操作能提取一定的語義信息,但是對于底層細節(jié)信息的提取和小目標物體的分割存在一定局限性。SegNet[3]作為經(jīng)典實時語義分割模型,使用VGG16[2]作為主干網(wǎng)絡(luò),在編碼過程中記錄最大池化的索引下標,以在解碼過程中使用這些下標進行上采樣,但是索引的記錄也在一定程度上增加了模型權(quán)重,降低了推理速度。PSPNet(Pyramid Scene Parsing Network)[4]中的金字塔場景解析模塊,對于同一場景使用不同的尺度池化操作,有效提取并融合了各層特征,但是該模型計算量過大,不能達到實時的效果。

      以上模型在分割圖像時雖然分割精度較高,但是推理速度較慢,不能應(yīng)用于實時場景,且在提取圖像信息的過程中,特征圖通道過多或尺寸過大時模型會將注意力均勻地分散在不同通道和位置上,對于含有關(guān)鍵信息的通道和位置不能給予更多權(quán)重。注意力機制的提出使得語義分割模型能夠?qū)⒏嘧⒁饬性谥攸c特征圖上,提高了分割效率。

      為提升模型的分割速度,本文基于注意力機制與多尺度池化提出一種高效實時語義分割網(wǎng)絡(luò),以解決語義分割網(wǎng)絡(luò)高精度與高速度不能平衡的問題。本文主要工作如下:

      1)提出一種融合通道注意力模塊(Fusion Channel Attention Module,F(xiàn)CAM),相較于一般的通道注意力模塊,F(xiàn)CAM 不僅能自適應(yīng)地調(diào)整每個通道的權(quán)重,而且能將自適應(yīng)調(diào)整后的特征圖進行有效融合,即該模塊能獲取各通道權(quán)重大小和自適應(yīng)后通道間的關(guān)系,且該模塊權(quán)重小,使得網(wǎng)絡(luò)能保證高精確度同時提升分割速度。

      2)在金字塔池化模塊(Pyramid Pooling Module,PPM)的基礎(chǔ)上,提出一種輕量化金字塔池化模塊(Simple Pyramid Pooling Module,SPPM),該模塊能夠捕捉不同尺度的特征圖信息,相較于PPM 更適合實時網(wǎng)絡(luò)。

      3)采用編解碼形式提出一種新的基于注意力機制與多尺度池化的實時語義分割網(wǎng)絡(luò)AMPNet,并在Cityscapes 公開數(shù)據(jù)集上進行消融實驗和對比實驗,以驗證該網(wǎng)絡(luò)的有效性。

      1 相關(guān)工作

      1.1 語義分割

      自LONG等[5]提出全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)開始,語義分割便由傳統(tǒng)階段進入深度學(xué)習(xí)階段。FCN[5]去除VGG 網(wǎng)絡(luò)中最后的全連接層,對輸入圖像不斷地進行卷積、池化操作,提取圖像信息特征。然而,由于深度神經(jīng)網(wǎng)絡(luò)提取的高級特征具有平移不變性,持續(xù)下采樣會丟失細節(jié)信息,導(dǎo)致目標邊界分割不清晰[6-8]。為解決此問題,CHEN等[9]提出DeepLab-v1 網(wǎng)絡(luò),將深度卷積神經(jīng)網(wǎng)絡(luò)與條件隨機場(Conditional Random Fields,CRFs)相結(jié)合,使目標像素與其周圍像素相聯(lián)系,提升了分割精確度,但是CRFs 基于概率圖細化邊界,會降低模型推理速度。

      針對采樣過程中特征分辨率下降問題和目標的多尺度特性,DeepLab-v2[10]基于空間金字塔池化(Spatial Pyramid Pooling,SPP)提出空洞空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP),使用空洞卷積能在不提升計算量的基礎(chǔ)上增大感受野,DeepLab-v2[10]使用不同大小卷積核的空洞卷積對圖像進行并行采樣,相當于多尺度捕捉高層特征中圖像上下文信息,提升了模型對于不同大小目標的分割精確度。DeepLab-v3[11]則去除CRFs,改用級聯(lián)方式融合ASPP 輸出的特征,進一步融合了各層特征。

      1.2 實時語義分割

      在語義分割中,影響推理時間的主要因素為模型的參數(shù)量和計算量[12]。MobileNets[13]提出的深度可分離卷積包括逐通道卷積和逐點卷積2 個過程,參數(shù)量只有標準卷積的1/3,但是仍能達到相同效果,為實時語義分割提供了有效的輕量化計算模塊。BiSeNet V2[14]使用雙分支策略,為降低計算量,在語義分支的聚集-激活(Gather-Excitation,GE)模塊和特征融合階段中使用深度可分離卷積,同時為平衡損失函數(shù)的計算量,在各子階段損失計算過程中添加計算參數(shù)λ,使得該網(wǎng)絡(luò)達到了實時效果。DFANet[15]使用輕量級網(wǎng) 絡(luò)Xception[16]作為主干網(wǎng)絡(luò),通過子網(wǎng)絡(luò)和子階段間特征的級聯(lián)操作融合有區(qū)別性的各級特征,該網(wǎng)絡(luò)最高層特征圖通道數(shù)僅為一般網(wǎng)絡(luò)的1/3,計算量小,但是模型仍能獲得足夠的感受野,且具有較強的學(xué)習(xí)能力。Fast-SCNN[17]基于現(xiàn)有雙分支方法提出下采樣學(xué)習(xí)模塊,該模塊同時計算多個具有不同分辨率的低層特征,在特征融合過程中使用高層特征對低層特征進行引導(dǎo),相較于FCN[5],該網(wǎng)絡(luò)深度較淺,計算量較小,分割速度更快,并能在沒有預(yù)訓(xùn)練的條件下達到較高的分割精確度。

      1.3 注意力機制

      在深度神經(jīng)網(wǎng)絡(luò)中,特征圖的不同通道代表不同目標,通道注意力自適應(yīng)地調(diào)整每個通道的權(quán)重,可視為目標選擇的過程[18]。自HU等[19]在擠壓-激勵網(wǎng)絡(luò)(Squeeze-and-Excitation Networks,SENet)中提出注意力機制開始,注意力機制便被廣泛應(yīng)用于深度學(xué)習(xí)中。SENet[19]中提出的SE 模塊包括2個部分,即Squeeze 收縮部分和Excitation 擴張部分:Squeeze 收縮使用全局平均池化捕捉全局信息;Excitation 擴張通過全連接和非線性激活輸出注意力向量。SE 模塊在分析重要通道時抑制噪聲,對計算資源要求低,但該網(wǎng)絡(luò)的收縮模塊在捕捉全局信息時使用的方法過于簡單,且擴張模塊中使用的全連接提升了模型復(fù)雜度,在一定程度上降低了模型推理速度。

      WOO等[20]在卷積塊注意力模塊(Convolutional Block Attention Module,CBAM)中提出的通道注意力模塊(Channel Attention Module,CAM),對特征圖分別使用全局平均池化和全局最大池化,再通過多層感知機(Multi-Layer Perception,MLP)將池化后的特征圖進行融合,該模塊相較于SE 模塊而言同時使用2 種池化,增加的最大池化保留分割目標的判別性特征,但是MLP 也增加了網(wǎng)絡(luò)計算量,使得推理速度變慢。

      1.4 金字塔場景解析

      在復(fù)雜場景解析中,往往存在預(yù)測類別與真實類別關(guān)系不匹配、混淆以及預(yù)測不連續(xù)等問題。全局平均池化能夠獲取較多的全局信息,在圖像分類任務(wù)中能發(fā)揮一定作用,但是在復(fù)雜場景中不足以涵蓋關(guān)鍵信息。為此,PSPNet[4]提出金字塔場景解析模塊PPM,該模塊對輸入圖像按照[1,2,3,6]的尺度進行池化,再將池化后的特征圖上采樣至輸入圖像大小并進行融合。該模塊消除了卷積神經(jīng)網(wǎng)絡(luò)在圖像分類任務(wù)中輸入圖像大小固定的缺陷,并對輸入圖像進行多尺度特征提取,提升了網(wǎng)絡(luò)對不同大小目標的分割能力。PPM 常用于加強高層特征表示,但是高層特征通道數(shù)多,會導(dǎo)致網(wǎng)絡(luò)中PPM 權(quán)重過高,難以適用于實時語義分割網(wǎng)絡(luò)。PP-LiteSeg[21]對PPM 進行改進,改進后的PPM 按照[1,2,4]的尺度對輸入圖像進行池化,特征融合方式也由級聯(lián)變成元素級加法,相較于PSPNet[4]中的PPM,該模塊中參與運算的通道數(shù)減少,提取到的特征尺度也變小,不利于提升分割精確度。

      1.5 編解碼結(jié)構(gòu)

      為解決個別數(shù)據(jù)集中數(shù)據(jù)較少的問題,RONNEBERGER等[22]提出U-Net,在編碼過程中下采樣,在解碼過程中上采樣,并將編碼器每層的輸出特征圖與對應(yīng)解碼器上采樣后的特征圖進行融合,解碼過程增加特征圖尺寸并減少特征圖通道數(shù),保證模型計算量不過度增加,完善編碼過程中每個下采樣層丟失的信息,取得了較好的分割效果,但是該網(wǎng)絡(luò)只能用于處理2D 圖像,應(yīng)用范圍較小。

      SegNet[3]使用VGG 作為編碼網(wǎng)絡(luò),在下采樣過程中記錄最大池化索引,在上采樣過程中先增大輸入特征圖尺寸,再根據(jù)記錄的池化索引將下采樣得到的數(shù)據(jù)放入特征圖中。SegNet[3]記錄的索引能保證上采樣后分割目標的區(qū)別性特征位置不變,提升了目標邊界分割精度。但是SegNet[3]在進行語義分割時未考慮目標像素與其相鄰像素之間的關(guān)系,為此,羅嗣卿等[23]提出改進的SegNet 網(wǎng)絡(luò),在解碼結(jié)構(gòu)中加入一條自底向上的通道,以充分利用模型中包含的多尺度語義信息,提升分割精確度。

      為解決神經(jīng)網(wǎng)絡(luò)太深可能導(dǎo)致的訓(xùn)練困難、梯度消失、參數(shù)冗余等問題,SU等[24]提出卷積層數(shù)減少的優(yōu)化版U-Net,使用組合擴張卷積作為初級特征提取器,在上采樣過程中使用轉(zhuǎn)置卷積以恢復(fù)特征圖大小,優(yōu)化版U-Net 結(jié)合了DenseNet、膨脹卷積和轉(zhuǎn)置卷積的優(yōu)勢,使U-Net 性能得到提升,但是膨脹卷積和轉(zhuǎn)置卷積計算量較大,使得模型處理圖像的速度變慢。

      2 本文方法網(wǎng)絡(luò)結(jié)構(gòu)

      2.1 融合通道注意力模塊

      AMPNet 提出的融合通道注意力模塊FCAM 結(jié)構(gòu)如圖1 所示,先對輸入特征圖進行全局平均池化和全局最大池化,以獲得輸入特征圖的全局信息和區(qū)別性特征,對池化后的特征圖進行級聯(lián)和1×1 卷積,通道數(shù)由2×c變?yōu)閏,為后續(xù)計算降低了計算量。reshape 操作則將池化后的特征圖大小由c×1×1 變?yōu)?×c,1×c特征圖能有效保留各通道權(quán)重,保證網(wǎng)絡(luò)將更多注意力放在關(guān)鍵特征圖上,同時抑制冗余信息。但是此時僅得到各通道權(quán)重,特征圖不同通道之間的關(guān)系并沒有建立,因此,對輸入特征圖進行reshape操作,將c×h×w的特征圖大小變?yōu)閏×(h×w),使用矩陣乘法將1×c的權(quán)重與c×(h×w)的輸入特征圖相乘,即各通道權(quán)重與同一位置不同通道的元素相乘,得到1×(h×w)大小的特征圖,此時1×(h×w)特征圖中給定位置元素已有效融合不同通道相同位置的元素值。同時,為防止原始特征信息丟失,該模塊最后使用元素級乘法,將1×(h×w)大小的特征圖與輸入特征圖進行融合。相較于SENet[19]中的SE模塊,F(xiàn)CAM 添加最大池化操作,能獲取特征圖中更具區(qū)別性的特征,且矩陣乘法在參數(shù)不增加的情況下,能根據(jù)計算得到的通道權(quán)重將特征圖中同一位置不同通道的元素值進行有效融合。相較于CBAM[20]中的CAM模塊,AMPNet 提出的FCAM 計算量較小,只有1 次1×1 卷積和2次c×h×w乘法操作,更適用于實時語義分割任務(wù)。

      圖1 FCAM 結(jié)構(gòu)Fig.1 FCAM structure

      FCAM 模塊具體計算如式(1)、式(2)所示:

      其中:Xin表示輸入特征圖;Xout表示輸出特征圖;Favg表示全局平均池化;Fmax表示全局最大池化;cat 表示級聯(lián)操作;conv 表示1×1 卷積;Fr表示reshape;×表示元素級乘法;*表示矩陣乘法。

      2.2 輕量化金字塔場景解析模塊

      ZHAO等[4]在PSPNet 中提出的金字塔場景解析模塊采用多尺度的方式對輸入圖像進行下采樣,以提取不同大小的目標特征。但是在高層語義特征捕捉過程中,PSPNet[4]中的PPM 模塊權(quán)重較大,降低了整個模型的推理速度,不適合實時語義分割任務(wù)。AMPNet 提出輕量化金字塔場景解析模塊SPPM,權(quán)重大小僅為PSPNet[4]中PPM 的1/7,其結(jié)構(gòu)如圖2 所示。在對輸入特征圖按照[1,2,3,6]的尺度進行平均池化后,使用1×1 卷積改變特征圖通道數(shù)至原來的1/4,這一通道數(shù)的減少為后續(xù)卷積操作降低了計算量,也避免了推理速度降低的問題。相較于原始PPM 使用元素級別加法方式融合特征,AMPNet 采用級聯(lián)方式融合,融合后的特征圖通道數(shù)恢復(fù)至原特征圖通道數(shù)。為避免級聯(lián)后特征圖存在過多信息冗余的問題,對融合后的特征圖進行1×1 卷積,最后使用輸入特征對卷積后的特征進行引導(dǎo),兩者通過元素級加法進行融合,有效合并該模塊的輸入特征和輸出特征,也避免了多尺度池化過程中造成的其他信息丟失以及網(wǎng)絡(luò)退化問題。

      圖2 SPPM 結(jié)構(gòu)Fig.2 SPPM structure

      2.3 網(wǎng)絡(luò)結(jié)構(gòu)

      AMPNet 采用編解碼結(jié)構(gòu),在編碼結(jié)構(gòu)中使用STDC[25]作為主干網(wǎng)絡(luò),STDC 各層輸出如表1所示。

      表1 STDC 網(wǎng)絡(luò)各層的輸出Table 1 Output of each layer of STDC network

      AMPNet 提出的FCAM 用于計算特征圖不同通道的權(quán)重,進而對通道進行增強或抑制,同時根據(jù)權(quán)重融合特征圖的各個通道。由于高層特征圖通道數(shù)多、尺寸小,各通道包含的語義信息更為豐富,因此當特征圖通道數(shù)較多時通道注意力模塊效果提升明顯[26]。而FCAM 也是對特征圖的各個通道進行作用,以加強特征圖的通道表示。因此,AMPNet 在Layer 3 和Layer 4 輸出的特征圖后都加入FCAM 模塊。將SPPM 與FCAM 以串聯(lián)方式進行組合,使Layer 4 的輸出依次經(jīng)過SPPM 和FCAM 模塊。本文也嘗試以并聯(lián)方式組合SPPM 和FCAM,但效果不如串聯(lián)方式,因為無論是SPPM 還是FCAM,輸出的特征圖都會有信息冗余,若以并聯(lián)方式相結(jié)合,整個模塊冗余的信息會越來越多,干擾模型分割圖像。在解碼過程中,使用雙線性插值作為上采樣方法,對于編碼器中每一層的輸出都采用先上采樣后卷積的方式將低層特征圖恢復(fù)至上一層大小。上采樣后的低層特征圖與高層特征圖以級聯(lián)方式融合。本文方法具體網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。

      圖3 本文方法網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 The network structure of this method

      3 實驗驗證

      3.1 數(shù)據(jù)集

      使用無人駕駛環(huán)境下的公開數(shù)據(jù)集Cityscapes進行實驗。Cityscapes 為城市道路場景語義分割數(shù)據(jù)集,包含全世界50 個城市的不同街景,提供5 000 張精細標注的圖像、2 000 張粗略標注的圖像。該數(shù)據(jù)集共有33 類標注物體,本文只訓(xùn)練其中的19類,包括地面、建筑、人、天空、自然、背景、道路標志和車輛,小類將大類再進行細分,如車輛分為小汽車、公交車等。數(shù)據(jù)集由訓(xùn)練集、驗證集和測試集組成,分別包括2 975、500 和1 525 張圖像,每張圖像均為RGB 三通道彩色圖像,分辨率大小為1 024×2 048 像素。

      3.2 評估指標

      使用平均交并比(Mean Intersection over Union,mIoU)作為分割精確度的衡量指標,使用每秒處理幀數(shù)(Frames Per Second,F(xiàn)PS)作為分割速度的衡量指標。mIoU 為圖像像素每個類的IoU 值累加后的平均值,計算公式如下:

      其中:k表示數(shù)據(jù)集包含的總像素類別數(shù);pii表示實際類別為i、預(yù)測類別也為i的像素數(shù);ti表示類別為i的像素數(shù);pji表示實際類別為i、預(yù)測類別為j的像素數(shù);pjj表示實際類別為j、預(yù)測類別也為j的像素數(shù)。

      3.3 網(wǎng)絡(luò)參數(shù)設(shè)置

      AMPNet 使用深度學(xué)習(xí)框架PyTorch-1.3 實現(xiàn),訓(xùn)練過程中對輸入圖像的預(yù)處理包括水平翻轉(zhuǎn)、隨機尺度調(diào)整和隨機裁剪,輸入圖像大小為768×1 536 像素。對編碼器中Layer 2 的輸出使用交叉熵損失函數(shù)和DICE 損失函數(shù)相結(jié)合的方式計算損失,對Layer 3、Layer 4 以及整個網(wǎng)絡(luò)最后的輸出使用OhemCELoss 損失函數(shù)。具體損失計算如下:

      其中:Layer 2 的輸出與高斯-拉普拉斯真實標簽通過計算交叉熵損失得到bceloss,兩者通過計算DICE 損失得到diceloss,這樣得到的bceloss 和diceloss 都表示Layer 2 的輸出與目標邊界的損失;Lloss2、Lloss3、Lloss4分別為Layer 3輸出、Layer 4 輸出和網(wǎng)絡(luò)最終輸出與真實標簽通過OhemCELoss 計算而得到的損失。

      使用一塊Tesla-T4 GPU、12 個CPU 核訓(xùn)練并測試。訓(xùn)練設(shè)置初始學(xué)習(xí)率為0.05,批處理大小(batch size)為8,使用帶動量的隨機梯度下降法(Stochastic Gradient Descent,SGD)訓(xùn)練模型,學(xué)習(xí)率下降公式如下:

      其中:Llr,base表示初始學(xué)習(xí)率;Niter表示當前迭代次數(shù);Nmaxiter表示網(wǎng)絡(luò)最多迭代次數(shù),設(shè)置為181 000;動量p設(shè)置為默認值0.9;衰減系數(shù)為0.000 05。

      3.4 對比實驗

      為驗證所提算法的有效性,將AMPNet 與現(xiàn)有若干種算法進行比較,以mIoU 和FPS 作為衡量指標,并提供AMPNet 和各模型的計算量和參數(shù)量。

      AMPNet1 和AMPNet2 分別使用STDC1 和STDC2 作為骨干網(wǎng)絡(luò),分割結(jié)果如表2 所示。從表2 可以看出:ICNet[27]以PSPNet50[4]作為骨干網(wǎng)絡(luò),由于PSPNet50[4]處理的特征圖通道多、計算量大,因此分割速度較慢,F(xiàn)PS 只有15.2,與之對比,AMPNet1 在精確度和分割速度兩方面均占優(yōu);與輕權(quán)網(wǎng)絡(luò)FasterSeg[28]相比,AMPNet1 速度更快,且精確度提升0.5 個百分點,AMPNet2 分割速度較慢,F(xiàn)PS 降低近20,但分割精確度提升2.3 個百分點;高效殘差分解網(wǎng)絡(luò)ERFNet[29]在編解碼的殘差模塊中使用空間可分離卷積,參數(shù)量僅為2.06×106,但分割效果和速度均不如AMPNet1;與LiteSeg-DarkNet[30]相比,AMPNet1 分割速度快7倍,且分割精確度提 升2.6 個百分點;與BiSeNet-Xception39[31]相比,AMPNet1 在精確度上提升3.6 個百分點,F(xiàn)PS上提升2;BiSeNet V2[14]的語義和細節(jié)2個分支 的高層特征圖通道數(shù)都僅為128,是AMPNet 的1/8,且在語義分支下采樣過程和特征融合過程中均使用深度可分離卷積,計算量約是AMPNet2 的1/8,與之相比,AMPNet2 在速度上略有降低,但分割精確度卻提升0.9 個百分點;與STDC1 原網(wǎng)絡(luò)相比,AMPNet1 在FPS 上降低9,但卻提升了5.2 個百分點的分割精確度,與STDC2 原網(wǎng)絡(luò)相比,AMPNet2的FPS 提升11.7,同時分割精確度提升5 個百分點。

      表2 模型性能比較Table 2 Models performance comparison

      表3 對比AMPNet 與其他網(wǎng)絡(luò)在Cityscapes 數(shù)據(jù)集具體類中的分割準確率。語義分割的一大難點是小目標物體分割,從表3 可以看出:與STDC 原網(wǎng)絡(luò)對比,AMPNet在人物、摩托車等小目標物體上的分割準確率更高;與BiSeNet V2[14]相比,AMPNet2在對墻面、公共汽車和火車的分割上效果更好。

      表3 19 個類別的分割準確率對比Table 3 Comparison of segmentation accuracy for 19 categories %

      可視化效果如圖4 所示,從中可以看出,AMPNet 對樹木邊緣、路燈以及路牌的分割更占優(yōu)勢,可見本文算法在物體細節(jié)與小目標物體分割上表現(xiàn)較好。

      圖4 對比實驗可視化效果Fig.4 Visualization effect of comparative experiments

      3.5 消融實驗

      為驗證AMPNet中各模塊的有效性,進行消融實驗,結(jié)果如表4 所示。從表4 可以看出:AMPNet1 參數(shù)量為36.26×106,分割精確度mIoU 為64.45%,分割速度FPS 為129;在AMPNet1 編碼器的Layer 4 后添加SPPM 模塊,由于其多尺度池化的有效性,提升了AMPNet1 對于多尺度目標的特征捕捉能力,分割精確度提升了8.06 個百分點,同時其輕量化保證了模塊參數(shù)量,不過分降低算法分割速度,因此,分割速度FPS 僅降低15;因為AMPNet1 中高層特征圖通道數(shù)多,所以將FCAM 模塊用于網(wǎng)絡(luò)深層,保證高層特征圖中各通道能有效融合,將FCAM 添加至編解碼網(wǎng)絡(luò)的Layer 4 之后,F(xiàn)PS 降低了6,但是分割精確度卻提升了8.28 個百分點;將SPPM 和FCAM 以串聯(lián)方式連接在Layer 4后,精確度提升了近9 個百分點;在Layer 3 添加FCAM,則進一步提升了分割精確度。本文也嘗試將FCAM 添加至低層Layer 2 之后,實驗效果卻降低,再一次說明FCAM 適用于通道數(shù)多的高層特征圖。

      表4 消融實驗結(jié)果Table 4 Results of ablation experiment

      為驗證AMPNet 中FCAM 的分割效率,將一些經(jīng)典通道注意力模塊與FCAM 進行對比,結(jié)果如表5所示。從 表5 可以看出:SENet[19]中提出的SE模塊僅使用全局平均池化的方式捕捉全局信息,雖然參數(shù)量較小,但是特征捕捉方式過于單一,分割精確度不如FCAM;CBAM[20]中提出的CAM 模塊在SE 模塊的基礎(chǔ)上增加全局最大池化和多層感知機,與SE 模塊相比,能獲取更多的辨別性特征,但是獲取各通道權(quán)重后不能很好地融合同一位置不同通道像素間的關(guān)系;FCAM 相比SE 模塊提升了6.02×106參數(shù)量,相比CAM 模塊提升了7.52×106參數(shù)量,但在FPS 上與前兩者相比平均只降低1,且融合高層特征圖各通道的方式更有效,分割精確度也更高。

      表5 通道注意力模塊對比實驗Table 5 Comparative experiment of channel attention module

      消融實驗可視化效果如圖5 所示。在圖5中,4-SPPM 表示在AMPNet1 編碼器的Layer 4 后面添加SPPM,4-FCAM 表示在AMPNet1 編碼器的Layer 4后面添加FCAM,4-SPPM-4-FCAM 表示在AMPNet1編碼器的Layer 4 后面添加SPPM 和FCAM,4-SPPM-4-FCAM-3-FCAM 表示在前者基礎(chǔ)上繼續(xù)在Layer 3 后面添加FCAM。

      圖5 消融實驗可視化效果Fig.5 Visualization effect of ablation experiment

      4 結(jié)束語

      本文基于注意力機制和多尺度池化提出一種編解碼結(jié)構(gòu)的實時語義分割網(wǎng)絡(luò)AMPNet。設(shè)計融合通道注意力模塊FCAM,先通過注意力機制計算各個通道的權(quán)重,再根據(jù)權(quán)重有效地對深層特征圖的不同通道進行融合,從而減少算法計算過程中的參數(shù)量和計算量。提出一種輕量化金字塔場景解析模塊SPPM,以捕捉不同尺度大小的特征信息。在Cityscapes 公開數(shù)據(jù)集上的實驗結(jié)果表明,AMPNet具有有效性和可行性。下一步將研究編解碼結(jié)構(gòu)中的高低層特征融合與邊界細化問題,以加強各層特征表示、優(yōu)化邊界分割效果,進一步提升模型分割性能。

      猜你喜歡
      池化精確度注意力
      基于緊湊型雙線性網(wǎng)絡(luò)的野生茵識別方法研究
      無線電工程(2024年8期)2024-09-16 00:00:00
      基于Sobel算子的池化算法設(shè)計
      讓注意力“飛”回來
      卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
      研究核心素養(yǎng)呈現(xiàn)特征提高復(fù)習(xí)教學(xué)精確度
      “硬核”定位系統(tǒng)入駐兗礦集團,精確度以厘米計算
      基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識別研究
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      近似數(shù)1.8和1.80相同嗎
      周口市| 安平县| 湾仔区| 永登县| 都兰县| 阿巴嘎旗| 五常市| 永靖县| 子洲县| 丽水市| 威信县| 孟津县| 彭阳县| 隆德县| 安宁市| 江油市| 平南县| 满城县| 黔南| 喀什市| 柘城县| 长乐市| 介休市| 临汾市| 博客| 贵州省| 阳谷县| 乾安县| 太白县| 汝城县| 克东县| 元谋县| 凭祥市| 霸州市| 衡山县| 大厂| 渑池县| 西和县| 垦利县| 米林县| 乌兰浩特市|