• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合注意力機(jī)制的端到端的街道場景語義分割

      2023-07-15 07:05:06瞿紹軍
      關(guān)鍵詞:池化條形注意力

      吳 瓊,瞿紹軍,2

      1(湖南師范大學(xué) 信息科學(xué)與工程學(xué)院,長沙 410081) 2(湖南師范大學(xué) 湖南湘江人工智能學(xué)院,長沙 410081)

      1 引 言

      圖像語義分割作為計(jì)算機(jī)視覺領(lǐng)域的重要研究任務(wù),在眾多領(lǐng)域具有非常重要的應(yīng)用價(jià)值.例如醫(yī)學(xué)影像、無人駕駛、虛擬現(xiàn)實(shí)、目標(biāo)追蹤、機(jī)器人等.圖像語義分割是像素級分類任務(wù),其目的是為圖像中每一個(gè)像素分配所屬的類別標(biāo)簽[1-5].

      從傳統(tǒng)的圖像語義分割方法到基于深度學(xué)習(xí)的圖像語義分割方法,語義分割方法發(fā)生了歷史性的變化.傳統(tǒng)的分割算法從視覺層來提取圖像的特征信息,例如顏色、紋理、輪廓等低層次特征,常用的方法包括閾值方法[6]、聚類方法[7]、圖劃分[8]等.這些傳統(tǒng)算法計(jì)算復(fù)雜度低、速度快,但需要大量的人工提取特征,且只能提取低級特征,分割復(fù)雜場景時(shí)準(zhǔn)確率低.基于深度學(xué)習(xí)的圖像語義分割算法不同于傳統(tǒng)算法,其通過深層網(wǎng)絡(luò)的訓(xùn)練過程自動學(xué)習(xí)圖像的特征信息[9,10].獲取的特征為圖像的深層語義特征,同時(shí)減少了人工提取特征的工作量,在語義分割任務(wù)上取得了不錯(cuò)的成績.然而,由于街道場景的復(fù)雜性,街道場景下的語義分割仍然是一個(gè)具有挑戰(zhàn)性的問題.例如同一類別在不同距離和視角情況下,圖像會明顯不同,使得同類別之間相異差別過大,容易造成分類錯(cuò)誤[11];捕獲特征時(shí)復(fù)雜類別容易被背景或其它鄰接像素點(diǎn)干擾,所以,復(fù)雜類別比簡單類別更難分割.例如人行道比馬路難分割、火車比公交車難分割.因此,不同類別的像素點(diǎn)需要神經(jīng)網(wǎng)絡(luò)給予不同重要程度的關(guān)注.近年來,人們不再局限于網(wǎng)絡(luò)層次的改進(jìn),把人類獨(dú)有的視覺注意力思想融入到深度學(xué)習(xí)方法之中,有效提升了語義分割的準(zhǔn)確率.注意力機(jī)制[12-20]可以通過給不同空間區(qū)域、不同通道、不同歷史時(shí)刻的特征圖上添加不同的注意力權(quán)重來提升網(wǎng)絡(luò)的分割效果.Wang等人[12]提出的NLNet算法,每個(gè)像素點(diǎn)的加權(quán)為其他所有位置的特征信息.該算法需要考慮每個(gè)像素之間的關(guān)系,生成的注意力圖的時(shí)間和空間復(fù)雜度均為O((H(W)( (H(W)),計(jì)算復(fù)雜度和內(nèi)存占用率極高.其它采用注意力的改進(jìn)算法[21-23]接踵而至,通過空間、通道等不同注意力角度獲取特征圖的注意力權(quán)重.這些注意力模塊會增加模型的復(fù)雜度,而且獲取圖像信息的能力不足,未能有效挖掘重要特征信息,效果提升具有局限性.

      本文旨在高效學(xué)習(xí)注意力的基礎(chǔ)上,提出了一種基于注意力機(jī)制的圖像語義分割方法.注意力機(jī)制包括兩個(gè)創(chuàng)新性的注意力模塊:空間-條形注意力模塊(Pooling Attention module,PAM)和通道注意力模塊(Channel Attention Module,CAM).其中空間條形注意力模塊利用對象在空間局部區(qū)域上的相關(guān)性,采用一種新的條形池化核計(jì)算不同空間區(qū)域的局部信息,從而捕獲富含不同空間區(qū)域特征信息的注意力權(quán)重.同時(shí),采用通道注意力模塊來提取特定類別的語義信息,辨別重要通道和冗余通道.

      本文主要貢獻(xiàn)如下:

      1)提出一種融合注意力機(jī)制的端到端的語義分割網(wǎng)絡(luò)模型,用來解決街道場景下的語義分割問題.

      2)提出了空間-條形注意力模塊和通道注意力模塊,使用兩者協(xié)同優(yōu)化語義分割效果.

      實(shí)驗(yàn)證明,本文提出的注意力機(jī)制能準(zhǔn)確處理復(fù)雜場景下的城市街道圖像,在Cityscapes數(shù)據(jù)集上取得了優(yōu)于其它方法的語義分割效果.

      2 相關(guān)工作

      在圖像語義分割的像素級任務(wù)中,通常采用空洞卷積、空洞金字塔池化、特征融合、注意力機(jī)制等方法來獲取圖像更豐富的特征圖.本節(jié)將介紹目前提出的相關(guān)研究方法.

      2.1 基于卷積神經(jīng)網(wǎng)絡(luò)的語義分割

      隨著基于深度學(xué)習(xí)的圖像語義分割算法不斷發(fā)展,語義分割在分割精度上有了新的飛躍.Long等人[24]在2015年提出了全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,FCN),FCN是深度學(xué)習(xí)處理語義分割任務(wù)的開山之作[3],其將全連接層替換為卷積層,使得可以指定輸出圖片為任意尺寸,實(shí)現(xiàn)了端到端的網(wǎng)絡(luò)訓(xùn)練.FCN使用反卷積和跳躍連接解決了位置信息丟失,但仍存在分割圖粗糙問題.Ronneberger等人對FCN進(jìn)行改進(jìn),提出了一種對稱的編碼器-解碼器結(jié)構(gòu)U-Net[25],該結(jié)構(gòu)的獨(dú)特之處是使用跳躍連接將編碼網(wǎng)絡(luò)的特征圖逐層拼接到解碼網(wǎng)絡(luò)的特征圖.Badrinarayanan等人提出了SegNet[26],與U-Net相似,采用編碼器-解碼器結(jié)構(gòu),其在編碼器結(jié)構(gòu)存儲最大池化索引,在解碼器結(jié)構(gòu)使用對應(yīng)的索引來上采樣,增強(qiáng)了圖像位置信息的準(zhǔn)確度[3].上述的編-解碼器網(wǎng)絡(luò)在FCN基礎(chǔ)上,加入解碼器,有效融合底層和深層特征,恢復(fù)圖像的空間維度和邊界信息.但網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜、參數(shù)量多,導(dǎo)致物體邊界分割效果不佳.Chen等人[27]創(chuàng)新性的提出DeepLab v1網(wǎng)絡(luò),將卷積神經(jīng)網(wǎng)絡(luò)中的卷積層替換為空洞卷積,在不增加參數(shù)量的情況下擴(kuò)大了網(wǎng)絡(luò)的感受野.2017年,Chen等人[28]在DeepLab v1的基礎(chǔ)上提出了空洞金字塔池化模塊(Atrous Spatial Pyramid Pooling,ASPP),將空洞卷積和金字塔池化相結(jié)合,使用多個(gè)不同尺寸卷積核的空洞卷積來獲取不同尺度的特征,最后使用全連接條件隨機(jī)場優(yōu)化邊界分割效果,大幅度提高了網(wǎng)絡(luò)的分類精度[2].Chen等人通過增加批正則化改進(jìn)了空洞金字塔池化模塊,提出了DeepLab v3[29],并以并行或串行方式連接將空洞卷積和改進(jìn)的空洞金字塔池化模塊進(jìn)行結(jié)合.隨后,針對空洞卷積造成的邊界信息丟失等問題,chen等人提出了DeepLab v3+[30],其在DeepLab v3的基礎(chǔ)上引入解碼網(wǎng)絡(luò)來恢復(fù)丟失的邊界信息,提高了物體邊界分割的準(zhǔn)確度.DeepLab系列網(wǎng)絡(luò)結(jié)構(gòu)擴(kuò)大了網(wǎng)絡(luò)的感受野,但計(jì)算成本較高,以及丟失像素位置信息,導(dǎo)致特征圖的局部一致性受到影響[3].

      2.2 基于注意力機(jī)制的語義分割

      近年來,注意力機(jī)制被廣泛應(yīng)用于計(jì)算機(jī)視覺等領(lǐng)域.注意力機(jī)制是根據(jù)使用者需要關(guān)注的信息方向,學(xué)習(xí)特征間的相關(guān)性,并將其作為權(quán)重來捕獲全局信息.注意力機(jī)制是一種沒有嚴(yán)格數(shù)學(xué)定義的、根據(jù)具體任務(wù)目標(biāo)來加權(quán)模型的方法.Wang等人受非局部均值算法的啟發(fā),提出NLNet算法[12],算法通過計(jì)算所有位置特征的加權(quán)和作為一個(gè)特征位置的響應(yīng),以此來捕獲長距離依賴,獲得全局信息,但計(jì)算復(fù)雜度高.Hu等人[13]最早研究通道注意力,提出了壓縮激勵網(wǎng)絡(luò)(Squeeze-and-Excitation Networks,SENet),通過使用壓縮和激勵網(wǎng)絡(luò)來建模通道間關(guān)系并加權(quán)到通道特征圖上,增強(qiáng)了網(wǎng)絡(luò)的表征能力.CBAM網(wǎng)絡(luò)[14]結(jié)合了空間和通道注意力機(jī)制,相比只使用通道注意力機(jī)制的SENet[13],取得了更好的效果.GCNet[15]算法通過簡化NLNet[12]來減小計(jì)算量,并且改進(jìn)SENet[13],融合改進(jìn)的NLNet和SENet兩個(gè)結(jié)構(gòu),使得網(wǎng)絡(luò)進(jìn)一步改善.Fu等人[16]提出雙注意力網(wǎng)絡(luò)(Dual Attention Network,DANet),利用自注意力機(jī)制挖掘圖像的局部特征,捕獲上下文依賴關(guān)系.Huang等人[17]提出了一種交叉注意力模塊(Criss-Cross Attention Networks,CCNet),通過對每個(gè)像素的水平和垂直交叉路徑上的特征進(jìn)行加權(quán)求和,以此建模像素間的遠(yuǎn)距離依賴關(guān)系.從水平和垂直方向上捕獲圖像的全局上下文信息,相比NLNet[12]算法,CCNet[17]減少了巨大GPU內(nèi)存使用量.SANet[18]分別通過逐像素預(yù)測和像素分組兩個(gè)獨(dú)立維度,考慮了空間和通道的相互依賴性,提升了網(wǎng)絡(luò)的分割效果.CABiNet[19]設(shè)計(jì)了一個(gè)輕量級的雙分支網(wǎng)絡(luò),使用空間分支和基于注意力的上下文分支,獲取豐富的空間信息,并提供足夠大的感受野來捕獲全局和局部上下文信息.SPNet[20]引入了一種新的池化策略,采用條形池化核來進(jìn)行池化操作,增大網(wǎng)絡(luò)的感受野,從而獲得全局信息.為改進(jìn)目前施加注意力方式,本文提出一個(gè)端到端的融合注意力機(jī)制的全卷積網(wǎng)絡(luò)來訓(xùn)練圖像語義分割算法.使用提出的空間-條形注意力機(jī)制和通道注意力機(jī)制,分別計(jì)算特征圖的空間信息和通道信息,協(xié)同提升語義分割效果.

      3 本文方法

      本文提出的語義分割整體網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示,處理過程分為特征提取和特征融合兩個(gè)階段.特征融合是提高分割性能的一個(gè)重要手段,許多網(wǎng)絡(luò)采用特征融合方法融合高低層特征.本文采用特征融合方式整合不同注意力模塊信息.首先,將原始圖像輸入到一個(gè)帶監(jiān)督訓(xùn)練的全卷積網(wǎng)絡(luò),得到粗糙的語義特征圖.然后,將得到的圖像特征分別送入本文提出的兩個(gè)并行注意力模塊中,最后采用簡單而有效的拼接方式,將兩個(gè)注意力模塊得到的特征圖和輸入的粗分割特征圖進(jìn)行融合,合并成一個(gè)比輸入特征圖更具有判別能力的特征圖.

      圖1 網(wǎng)絡(luò)整體結(jié)構(gòu)圖Fig.1 Overall network structure diagram

      圖1中,實(shí)線框內(nèi)為特征編碼階段,對圖像進(jìn)行特征編碼和粗糙語義特征提取.虛線框內(nèi)為特征融合階段,對特征圖進(jìn)行強(qiáng)化學(xué)習(xí).

      3.1 全卷積網(wǎng)絡(luò)結(jié)構(gòu)

      本文第1階段如圖1實(shí)線框內(nèi)所示,目的是對原始圖像進(jìn)行特征編碼,提取初級粗糙的語義特征圖.采用DGCNet[31]使用的ResNet50深度網(wǎng)絡(luò)獲取輸入圖片的語義特征圖.ResNet50分為50層,前49層提取圖片初始特征,最后一層是用于分類的全連接層.ResNet50的輸入圖片大小為832×832,bathsize為2.如圖2所示,圖片輸入stage前依次使用卷積層、BN層、激活層和池化層,減小輸入RGB原始圖像的尺寸.conv模塊中卷積層使用3個(gè)3×3的卷積層代替原模型中7×7的卷積層,減少了參數(shù)量.池化層使用MaxPooling函數(shù),避免AvgPooling函數(shù)帶來的模糊化.

      圖2 主干網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Backbone network structure diagram

      ResNet50網(wǎng)絡(luò)共有4個(gè)stage,每個(gè)stage由bottleneck結(jié)構(gòu)組成.如圖3所示,bottleneck結(jié)構(gòu)包含卷積層、BN層和ReLU激活層.ResNet50的bottleneck結(jié)構(gòu)不同于ResNet18/34的building block結(jié)構(gòu).首先,通過1×1大小的卷積核對輸入的特征圖降維.然后,使用3×3大小的卷積核提取特征后再使用1×1大小的卷積核還原特征圖輸入時(shí)的通道數(shù).相比ResNet18/34使用2個(gè)3×3大小的卷積核,減少了大量的參數(shù)量和計(jì)算量,提升模型的計(jì)算速度.當(dāng)網(wǎng)絡(luò)低層參數(shù)發(fā)生微弱變化時(shí),這些變化會隨著網(wǎng)絡(luò)層數(shù)的增加而放大,意味著深層網(wǎng)絡(luò)要不斷更新參數(shù)以適應(yīng)低層網(wǎng)絡(luò)參數(shù)的變化.Bottleneck結(jié)構(gòu)使用跳躍連接,并在卷積層后面加上BN批歸一化處理和ReLU激活操作,使得每一層的輸入數(shù)據(jù)分布一致,避免梯度爆炸和梯度消失等問題的出現(xiàn).

      圖3 building block和bottleneck結(jié)構(gòu)圖Fig.3 Building block and bottleneck structure diagram

      3.2 空間-條形注意力模塊

      空間注意力是針對圖像中不同局部區(qū)域分配對整幅圖像不同的貢獻(xiàn)度,即注意力權(quán)重.通常情況下,對圖像感興趣的區(qū)域只是圖像中的小部分,且每幅圖像需重點(diǎn)關(guān)注的區(qū)域都不一樣.如何高效獲取不同圖像不同區(qū)域有效的注意力權(quán)重,已成為所面臨的重要瓶頸之一.大多空間注意力的研究工作[12-18,20],通過計(jì)算像素與其它像素之間的相關(guān)性來得到注意力權(quán)重,增加了額外的計(jì)算量,降低了網(wǎng)絡(luò)計(jì)算效率.因此,本文采用池化操作計(jì)算特征圖局部區(qū)域的權(quán)值.池化操作不對特征圖進(jìn)行額外的學(xué)習(xí),在提取信息方面有著增大感受野、降低網(wǎng)絡(luò)參數(shù)以及平移不變性的優(yōu)點(diǎn).

      常見的池化操作采用不同尺寸大小的N×N正方形池化核提取特征信息.受人類視覺注意力特點(diǎn)的啟發(fā),提出的空間-條形注意力模塊(Spatial-Bar Attention module,SBAM),采用1×N和N×1的條形池化核提取特征.

      如圖4所示,展示了街道場景中條形池化核和方形池化核所獲得的視覺信息的分割效果.分別采用這兩種不同形狀池化核,視覺信息具有非常大的差別.空間-條形池化可以有效捕獲局部區(qū)域的長距離依賴關(guān)系,對街道場景獨(dú)有的交通信號燈、交通標(biāo)志等物體的識別和提取的準(zhǔn)確率有極大的影響.如圖4(c)所示,采用方形池化核時(shí)“桿(pole)”、“自行車(bicycle)”類別容易被背景信息或鄰接信息干擾,使得分割效果不好.圖4(d)采用條形池化核可以捕獲離散分布區(qū)域之間的長距離依賴關(guān)系,有利于捕捉到局部上下文.同時(shí)還可以避免傳統(tǒng)N×N池化核帶來的無關(guān)信息的引入和增加過多的額外參數(shù).本文提出的方法針對街道場景特有的環(huán)境,能更有效獲取交通信號燈、人、交通工具(“火車(train)”、“公交車(bus)”)等重要類別信息,使得街道場景的分割準(zhǔn)確率有較好的提升.

      圖4 方形池化和條形池化對比圖Fig.4 Square pooling versus bar pooling

      本文提出的空間-條形注意力模型結(jié)構(gòu)圖如圖5所示,空間-條形注意力模塊對輸入特征圖分別推導(dǎo)出橫向注意力和縱向注意力.首先,將由主干網(wǎng)絡(luò)得到H×W×C的特征圖X輸入到帶有1×1卷積核的卷積層進(jìn)行降維,通道數(shù)減少到原輸入特征圖X的1/4.然后,使用AdaptiveAvgPool2d()和AdaptiveMaxPool2d()函數(shù)來聚合特征圖中所有行的全局信息,生成兩個(gè)不同的特征圖{Fc,avg和Fc,max}(105×1×128)、{Fl,avg和Fl,max}(105×1×128),avg和max分別表示自適應(yīng)平均池化和自適應(yīng)最大池化的特征圖.其中,特征圖F(X)∈R(105×1×128)中的每個(gè)像素代表一整行中最具有代表性的特征.再將兩個(gè)105×1×128特征圖進(jìn)行逐像素點(diǎn)求和,輸入到1維卷積層進(jìn)行特征提取,并將得到的注意力特征圖上采樣還原到原來特征圖的大小.

      圖5 空間-條形注意力結(jié)構(gòu)圖Fig.5 Spatial-Bar attention structure diagram

      最后,將橫向注意力和縱向注意力得到的特征圖拼接,通過卷積操作將特征圖通道擴(kuò)大到輸入特征圖通道數(shù).采用跳躍連接方式,融合輸入特征圖X和空間-條形池化注意力特征圖,輸出結(jié)果為條形池化加權(quán)后的特征圖.

      本文采用AdaptiveAvgPool2d()和AdaptiveMaxPool2d()來實(shí)現(xiàn)提出的空間-條形注意力.AdaptivePooling相比標(biāo)準(zhǔn)的MaxPooling和AvgPooling區(qū)別在于AdaptivePooling可以根據(jù)指定尺寸輸出特征值大小.平均池化是針對池化區(qū)域作出整體評估,具有宏觀性,能更好保留背景特征.最大池化強(qiáng)調(diào)突出特征,更加關(guān)注圖片的紋理信息.本文采用AdaptiveAvgPool2d()和AdaptiveMaxPool2d()相結(jié)合,以捕獲圖像精細(xì)特征.

      空間-條形注意力機(jī)制的過程可以概述為:

      F(X)=σ(concat(up(FC(X)+up(F1(X)))))

      (1)

      其中F(X)表示橫向注意力特征圖Fc(X)和縱向注意力特征圖Fl(X)合并后的精細(xì)特征,符號“+”表示逐像素求和,符號“σ”表示relu激活函數(shù),“up”表示上采樣,“concat”表示通道拼接.

      ReLU激活函數(shù)公式為:

      (2)

      空間-條形注意力由橫向注意力和縱向注意力組成,橫向注意力公式可以寫成:

      利用EXCEL 2016對數(shù)據(jù)進(jìn)行整理和分析,并做出相應(yīng)的曲線圖。然后用SPSS 16.0進(jìn)行逐步回歸分析,并對回歸模型和回歸系數(shù)進(jìn)行顯著性檢驗(yàn),從而建立酶制劑組成中每克飼料各NSP酶添加量X(mg/g)與酶解液還原糖含量Y(mg/g)間的回歸方程。使用Design Expert 8.0對響應(yīng)面的實(shí)驗(yàn)結(jié)果進(jìn)行回歸分析,得到NSP酶譜的最佳組合。

      (3)

      其中,下標(biāo)“c”表示橫向注意力,“i”表示特征圖中的行,“j”表示特征圖中的列,∑0≤j

      (4)

      其中,下標(biāo)“l(fā)”表示縱向注意力,“i”表示特征圖中的行,“j”表示特征圖中的列,∑0≤j

      本文提出的空間-條形注意力機(jī)制,特征圖X經(jīng)過條形池化、卷積、上采樣、Relu激活處理,得到與特征圖X尺寸相對應(yīng)的權(quán)重矩陣,然后與輸入特征圖X相加.該模塊以一種簡單的方式加權(quán)特征圖,使其能關(guān)注更加重要的特征信息,在目標(biāo)對象與背景之間得到權(quán)衡.

      3.3 通道注意力模塊

      不同通道特征對應(yīng)不同類別的語義屬性,給不同通道添加不同的權(quán)重,表示該通道與相關(guān)語義信息的關(guān)聯(lián)程度.對于街道場景圖像,有些特征通道屬于重要的語義信息,而有些通道屬于冗余信息.因此,語義特征圖的通道特征對語義分割的準(zhǔn)確率有很大影響.SENet[13]是最早提出的通道注意力模塊,采用的是一種降維的通道間學(xué)習(xí)策略.本文基于SENet,提出一種改進(jìn)的降維通道注意力模塊(Channel Attention Module,CAM),通過自適應(yīng)池化、卷積、激活等操作提取相應(yīng)通道的權(quán)重系數(shù),再通過簡單的加權(quán),得到有效語義信息.

      如圖6所示,本文提出的通道注意力由池化層、卷積層、激活層組成.池化層采用最大池化操作對特征圖降維,以減少計(jì)算參數(shù)量、降低計(jì)算復(fù)雜度,保留語義特征圖的顯著信息.卷積層用來對降維后的特征圖再次提取特征信息.激活函數(shù)將特征圖的值限制在0~1范圍內(nèi),使得網(wǎng)絡(luò)表達(dá)能力更加強(qiáng)大.

      圖6 通道注意力結(jié)構(gòu)圖Fig.6 Channel attention structure diagram

      通道注意力模塊的過程概括如下.首先,對輸入特征圖X(H×W×C)進(jìn)行AdaptiveMaxPooling()自適應(yīng)最大池化操作,生成一個(gè)1×1×512的通道注意力圖.接著,將它們進(jìn)行1×1的卷積操作,將得到的特征信息進(jìn)行調(diào)和,再經(jīng)過一個(gè)Sigmoid激活函數(shù)得到最后的通道權(quán)重系數(shù).最后,將權(quán)重系數(shù)與原來的特征 X 相乘,得到即為通道加權(quán)后的新特征.通道注意力CAM公式為:

      CAM=σ(conv2d(AdaptiveMaxPooling(F(X))))

      (5)

      (6)

      4 實(shí)驗(yàn)結(jié)果與分析

      本節(jié)首先介紹實(shí)驗(yàn)使用的數(shù)據(jù)集、評估指標(biāo)和網(wǎng)絡(luò)參數(shù)設(shè)置,然后與經(jīng)典分割算法、現(xiàn)有的基于注意力的語義分割算法進(jìn)行對比,最后對網(wǎng)絡(luò)模型內(nèi)不同模塊的有效性進(jìn)行消融實(shí)驗(yàn)分析.

      4.1 數(shù)據(jù)集

      本文實(shí)驗(yàn)使用大規(guī)模城市街道場景語義分割數(shù)據(jù)集Cityscapes,主要用于自動駕駛領(lǐng)域,共有50個(gè)城市街道場景.Cityscapes數(shù)據(jù)集包含5000幅精確標(biāo)注和20000幅粗略標(biāo)注的街道場景圖像.數(shù)據(jù)集總共包括34個(gè)街景類別,實(shí)際用于實(shí)驗(yàn)檢測評估的有19個(gè)類別.在實(shí)驗(yàn)評估中僅使用精確標(biāo)注的5000幅圖像,其中2975幅圖像用于訓(xùn)練,500幅圖像用于驗(yàn)證,1525幅圖像用于測試.每幅圖像分辨率為1024×2048.

      4.2 評估指標(biāo)

      本文實(shí)驗(yàn)采用平均交并比(Mean Intersection over union,mIoU)作為算法的評估指標(biāo),mIoU是圖像語義分割的標(biāo)準(zhǔn)度量.單個(gè)類別的交并比(Intersection over union,IoU)是該類的真實(shí)標(biāo)簽和預(yù)測值的交集與并集之比,mIoU指所有類別IoU的平均值.

      (7)

      其中i表示真實(shí)值,j表示預(yù)測值,pij表示將i預(yù)測為j.

      4.3 網(wǎng)絡(luò)參數(shù)設(shè)置

      表1 軟硬件環(huán)境配置實(shí)驗(yàn)數(shù)據(jù)表Table 1 Software and hardware environment configuration experimental data sheet

      4.4 實(shí)驗(yàn)對比

      為了驗(yàn)證本文算法的有效性,實(shí)驗(yàn)將本文算法與PSPNet、OCNet、DANet、DGCNet、CABiNet在Cityscapes數(shù)據(jù)集上進(jìn)行分割精度的對比.采用平均交并比(mIoU%)作為實(shí)驗(yàn)評價(jià)指標(biāo).在測試集上的對比結(jié)果如表2所示,本文算法以ResNet-50作為編碼器網(wǎng)絡(luò)在測試集和驗(yàn)證集上分別達(dá)到了76.89%、77.8%的準(zhǔn)確率,比其它方法均高出1%~16%.CABiNet注重網(wǎng)絡(luò)運(yùn)行速度,其參數(shù)量和計(jì)算量較小,但mIoU不如ATTNet1.在計(jì)算量和參數(shù)量方面,ATTNet1和DGCNet的參數(shù)量相差不大,但是在mIoU上,ATTNet1比DGCNet高出2%.本文算法與現(xiàn)有的分割算法相比有較好的表現(xiàn).

      表2 與其它先進(jìn)網(wǎng)絡(luò)的對比實(shí)驗(yàn)Table 2 Comparative experiments with other advanced networks

      其中,“ATTNet1”表示本文模型在Cityscapes測試集上的實(shí)驗(yàn)結(jié)果;“ATTNet”表示本文模型在Cityscapes驗(yàn)證集上的實(shí)驗(yàn)結(jié)果.

      為了更詳細(xì)地對比本文方法與其他方法,下面比較了幾種方法在19個(gè)語義類別上的像素精度,如表3所示,本文方法在7個(gè)類別上超過了DGCNet方法和CABiNet方法,其它類別結(jié)果相當(dāng).實(shí)驗(yàn)證明,本文網(wǎng)絡(luò)進(jìn)一步提升了條形物體類別的分割準(zhǔn)確率,例如“馬路(road)”、“火車(train)”、“公交車(bus)”等分別達(dá)到了98.43%、71.7%、78.61%.而對于其它的類別,本文算法也得到了較好的分割精度,例如“人行道(sidewalk)”、“建筑物(building)”、“植物(vegetation)”等分別達(dá)到了84.97%、92.65%、93.26%.主要?dú)w因于以下兩點(diǎn):空間-條形注意力模塊有效挖掘到街道場景空間中離散分布區(qū)域的長距離依賴關(guān)系,更加精細(xì)的權(quán)衡重要特征信息和非重要特征信息之間的注意力權(quán)重;通道注意力模塊有效利用各通道間關(guān)系獲取重要通道信息;以此得到更精細(xì)的分割結(jié)果.因此,本文算法在多數(shù)類別上取得了較好的效果.

      表3 幾種方法在各個(gè)類別的準(zhǔn)確率結(jié)果Table 3 Accuracy results of several methods in each category

      如圖7所示,展示了本文算法與ResNet50基礎(chǔ)網(wǎng)絡(luò)、DGCNet網(wǎng)絡(luò)分割效果對比,對應(yīng)的實(shí)驗(yàn)數(shù)據(jù)如表2、表3所示.從圖7中可以看出本文算法在分割效果方面優(yōu)于ResNet50基礎(chǔ)網(wǎng)絡(luò)、DGCNet網(wǎng)絡(luò).

      圖7 DGCNet、ResNet50、本文方法預(yù)測結(jié)果可視化Fig.7 Visualization of prediction results of the DGCNet,ResNet50,proposed method

      4.5 消融實(shí)驗(yàn)分析

      本節(jié)討論提出的空間-條形注意力模塊(SBAM)和通道注意力模塊(CAM)在網(wǎng)絡(luò)模型中的有效性.首先,使用CBAM、SENet中提出的通道注意力替換本文提出的通道注意力模塊CAM,進(jìn)行實(shí)驗(yàn)對比分析,分別記為CAM-ATTNet、CAM-CBAM、CAM-SENet,實(shí)驗(yàn)結(jié)果如表4所示.其次,替換網(wǎng)絡(luò)模型中的兩個(gè)注意力模塊SBAM和CAM來驗(yàn)證其對最終分割性能的影響.實(shí)驗(yàn)結(jié)果如表5,其中對ResNet50基礎(chǔ)網(wǎng)絡(luò)、CAM、SBAM、SBAM+CAM模型進(jìn)行評估,分別記為ResNet50、ResNet50-CAM、ResNet50-SBAM、ResNet50-SBAM-CAM,結(jié)果表6所示.

      表4 通道注意力模塊和其它網(wǎng)絡(luò)模塊的對比Table 4 Comparison between channel attention module and other network modules

      表5 兩個(gè)注意力模塊對本文網(wǎng)絡(luò)模型的有效性實(shí)驗(yàn)結(jié)果Table 5 Experimental results of effectiveness of two attention modules on network model

      表6 消融實(shí)驗(yàn)在各個(gè)類別的準(zhǔn)確率Table 6 Accuracy of ablation experiments in various categories

      為了證明本文改進(jìn)的通道注意力模塊比CBAM、SENet模塊中的通道注意力模塊效果更好,更具魯棒性.本文通過將CAM模塊進(jìn)行消融實(shí)驗(yàn)來對比分析.表4實(shí)驗(yàn)結(jié)果表明,在本文網(wǎng)絡(luò)模型中使用CAM-SENet,參數(shù)量為212.83MB,準(zhǔn)確率達(dá)到了76.73%;在網(wǎng)絡(luò)模型中使用CAM-CBAM,參數(shù)量為212.82MB,準(zhǔn)確率達(dá)到了76.47%;最后,在網(wǎng)絡(luò)模型中使用本文改進(jìn)的通道注意力模塊CAM-ATTNet,參數(shù)量為220.15MB,使得準(zhǔn)確率達(dá)到了76.89%,相比CAM-CBAM、CAM-SENet,參數(shù)量相差不大,但準(zhǔn)確率分別提升了0.42%、0.16%,進(jìn)一步說幾個(gè)本文提出的CAM,使得網(wǎng)絡(luò)模型的準(zhǔn)確率更高.

      從表5實(shí)驗(yàn)結(jié)果表明,在ResNet50中加入CAM模型之后,相比于原始的ResNet50模型,參數(shù)量增加了15.15MB,mIoU提升1.48%,準(zhǔn)確率達(dá)到了74.56%.在ResNet50中加入SBAM模型之后,網(wǎng)絡(luò)模型的參數(shù)量增加了6.14MB,準(zhǔn)確率達(dá)到76.48%,相比ResNet50模型提升了3.4%,相比ResNet50-CAM模型提升了1.92%.最后同時(shí)在ResNet50模型中加入CAM模型和SBAM模型,網(wǎng)絡(luò)模型的參數(shù)量增加了30.6MB,準(zhǔn)確率達(dá)到了76.89%,相比Baseline提升3.81%.在各個(gè)類別測試中,wall、truck、bus、train、trafficsign等類別得到明顯的提升.進(jìn)一步的說明本文提出的空間-條形注意力和通道注意力機(jī)制提升了最終的語義分割準(zhǔn)確率.

      5 結(jié) 語

      本文提出一種融合注意力機(jī)制的端到端的街道場景語義分割方法.在采用全卷積網(wǎng)絡(luò)解決街道場景語義分割問題的基礎(chǔ)上,利用注意力機(jī)制提取圖片中重要的特征信息,對粗分割結(jié)果進(jìn)行細(xì)化.相比之前基于注意力機(jī)制的研究方法,該算法的創(chuàng)新:提出了空間-條形注意力機(jī)制和通道注意力機(jī)制.空間-條形注意力機(jī)制通過獲取離散分布區(qū)域之間的長距離依賴關(guān)系,挖掘局部上下文信息和全局信息.通道注意力機(jī)制則通過辨別重要通道賦予重要通道和冗余通道不同權(quán)重.最后,利用兩種注意力機(jī)制的互補(bǔ)特征信息,將它們集成到一個(gè)帶有跳躍連接的雙分支的特征融合網(wǎng)絡(luò)中,有效地獲取全局上下文信息,增強(qiáng)了街道場景語義信息的有效性.文章在公開的數(shù)據(jù)集Cityscapes上進(jìn)行測試,實(shí)驗(yàn)結(jié)果證明提出的算法在分割準(zhǔn)確率上有明顯的提升.

      猜你喜歡
      池化條形注意力
      基于緊湊型雙線性網(wǎng)絡(luò)的野生茵識別方法研究
      無線電工程(2024年8期)2024-09-16 00:00:00
      基于Sobel算子的池化算法設(shè)計(jì)
      讓注意力“飛”回來
      卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
      各式各樣的復(fù)式條形統(tǒng)計(jì)圖
      條形鐵皮自動折邊機(jī)構(gòu)設(shè)計(jì)
      活力(2019年19期)2020-01-06 07:35:54
      基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識別研究
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      某沿海電廠全封閉條形煤場和圓形煤場的技術(shù)和經(jīng)濟(jì)性比較
      濉溪县| 潜江市| 齐齐哈尔市| 贡觉县| 新邵县| 定西市| 桐梓县| 临泽县| 朝阳区| 徐水县| 启东市| 焦作市| 蓬莱市| 崇仁县| 垦利县| 寿宁县| 南京市| 康平县| 繁昌县| 桦南县| 沁阳市| 兴和县| 迭部县| 兴国县| 舟山市| 静海县| 马公市| 珠海市| 白城市| 台北市| 桂平市| 铁岭县| 绿春县| 双流县| 桦川县| 松滋市| 罗田县| 定州市| 益阳市| 南开区| 鱼台县|