• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于視覺Transformer 的多級(jí)特征聚合圖像語義分割方法

      2023-10-31 09:39:54孔玲君鄭斌軍
      關(guān)鍵詞:解碼器編碼器切片

      孔玲君, 鄭斌軍

      (1 上海出版印刷高等??茖W(xué)校, 上海 200093; 2 上海理工大學(xué) 出版印刷與藝術(shù)設(shè)計(jì)學(xué)院, 上海 200093)

      0 引 言

      語義分割是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要的研究任務(wù),具有廣泛的應(yīng)用,如自動(dòng)駕駛、視頻監(jiān)控、增強(qiáng)現(xiàn)實(shí)、機(jī)器人技術(shù)等等。 語義分割通過給圖像的每個(gè)像素分配語義標(biāo)簽,進(jìn)而為目標(biāo)任務(wù)提供高級(jí)圖像表示, 如在自動(dòng)駕駛場(chǎng)景中識(shí)別行人和車輛以進(jìn)行規(guī)避。 Long 等人[1]開創(chuàng)性地使用完全卷積網(wǎng)絡(luò)(Full Convolutional Network,F(xiàn)CN)進(jìn)行圖像語義分割任務(wù),并取得良好的效果,這激發(fā)了許多后續(xù)的工作,并成為語義分割的主要范式。

      圖像分類與語義分割有著密切的聯(lián)系,許多先進(jìn)的語義分割框架是在ImageNet 上流行的圖像分類體系結(jié)構(gòu)的變種。 因此,主干框架設(shè)計(jì)一直是語義分割的重要活躍領(lǐng)域。 從早期的VGG[2]到具有更深層、更強(qiáng)大的主干方法,主干網(wǎng)絡(luò)的進(jìn)步極大地推動(dòng)了語義分割性能的提升。 通過可學(xué)習(xí)的堆疊卷積,可以捕獲語義豐富的信息。 然而,卷積濾波器的局部性質(zhì)限制了對(duì)圖像中的全局信息的分享,但這些信息對(duì)圖像分割十分重要。 為了避免這個(gè)問題,F(xiàn)isher 等人[3]引入了擴(kuò)張卷積,通過在內(nèi)核上“膨脹”空洞來增加感受野;Chen 等人[4]更進(jìn)一步地使用具有空洞卷積和空洞空間金字塔池化進(jìn)行特征聚合,擴(kuò)大卷積網(wǎng)絡(luò)的感受野并獲得多尺度的特征。

      自Transformer 網(wǎng)絡(luò)在自然語言領(lǐng)域取得巨大成功后,研究人員開始嘗試將Transformer 網(wǎng)絡(luò)引入視覺任務(wù)中,Dosovitskiy 等人[5]提出了用于圖像分類的視覺Transformer(Vision Transformer,VIT),按照NLP中的轉(zhuǎn)換器設(shè)計(jì),把原始圖像分割成多個(gè)切片,展平成序列,輸入到標(biāo)準(zhǔn)的Transformer 網(wǎng)絡(luò)中,最后使用全連接層對(duì)圖片進(jìn)行分類,在ImageNet 上獲得了令人印象深刻的性能表現(xiàn)。 VIT 雖然擁有良好的性能,但是也存在一些不足,如:需要龐大的訓(xùn)練數(shù)據(jù)集;對(duì)于高分辨率圖像,計(jì)算成本高等。 為了突破上述局限,Hugo 等人[6]提出了一種基于蒸餾的訓(xùn)練策略Deit,僅使用120 萬張圖像就可實(shí)現(xiàn)高效訓(xùn)練,并取得良好的表現(xiàn)。 Wang 等人[7]提出一種用于密集預(yù)測(cè)的金字塔視覺Transformer(Pyramid Vision Transformer,PVT),可以顯著減少計(jì)算量,并且在語義分割方面有很大的改進(jìn)。 然而,包括Cswin[8]、Swin Transformer[9]等新的方法均著重考慮編碼器設(shè)計(jì)部分,卻忽略了解碼器部分對(duì)進(jìn)一步提升性能的貢獻(xiàn)。

      基于此,本文提出了一種基于視覺Transformer的多級(jí)特征聚合圖像語義分割方法(Multilevel Feature Aggregation with Vision Transformer,MFAVT),將原始圖像分割成切片后,使用線性切片嵌入作為Transformer 網(wǎng)絡(luò)編碼器的輸入序列;解碼器將編碼器生成的上下文詞符序列上采樣到逐像素類分?jǐn)?shù)。 關(guān)鍵思想是利用Transformer 網(wǎng)絡(luò)的感應(yīng)特性,即較低層注意力傾向停留在局部,而高層的注意則高度非局部。 通過聚合來自不同層的信息,解碼器結(jié)合了來自局部和全局的注意,從而有效地提升分割精度,實(shí)現(xiàn)分割目標(biāo)。

      1 MFAVT

      MFAVT 主要由編碼器和解碼器模塊組成,模型結(jié)構(gòu)如圖1 所示。 在編碼器部分,是將圖像分塊并投影到一系列嵌入位置,并使用Transformer 網(wǎng)絡(luò)進(jìn)行編碼;解碼器部分,是將編碼器的輸出作為輸入進(jìn)行多層聚合,來預(yù)測(cè)分割掩膜。

      圖1 MFAVT 結(jié)構(gòu)示意圖Fig.1 The illustration of MFAVT

      1.1 編碼器

      標(biāo)準(zhǔn)的Transformer 網(wǎng)絡(luò)編碼器接收一維的序列詞符作為輸入,但二維圖像和一維序列之間存在不匹配的問題,因此需要將二維圖像重塑為一維序列。 具體而言,將輸入圖像x∈?H×W×C分割成一系列切片x =[x1,…,xN] ∈?N×P2×C。 其中,(H,W)是原始圖像的分辨率,C是圖像的通道數(shù),(P,P) 是每個(gè)圖像切片的分辨率,N =HW/P2是生成的切片數(shù)量,且是transformer 有效序列輸入長(zhǎng)度。 將每個(gè)切片展平為一個(gè)序列,使用線性投影函數(shù)將其映射到切片嵌入, 得到圖像X的一維切片嵌入序列x0=[Ex1,…,ExN] ∈?N×D,其中E∈?D×(P2C)。 為了對(duì)切片的空間信息進(jìn)行編碼,添加一個(gè)可學(xué)習(xí)的位置嵌入p =[p1,…,pN] ∈?N×D到序列切片中,以形成最終的輸入序列g(shù)0=x0+p。

      以一維嵌入序列g(shù)0作為輸入,采用基于純transformer[10]網(wǎng) 絡(luò) 的 編 碼 器 學(xué) 習(xí) 特 征 表 示。Transformer 網(wǎng)絡(luò)層由多頭自注意力(Multi-head Self-attention, MSA)塊和多層感知器(Multilayer Perception,MLP)塊組成。 在每個(gè)塊之前使用層歸一化(Layer Normalization, LN),在每個(gè)塊之后添加殘差鏈接,計(jì)算過程如式(1)所示。

      其中,i∈{1,…,L}。

      MSA 由多個(gè)獨(dú)立的SA 操作組成,并投射其級(jí)聯(lián)輸出。 自注意力層通過查詢(Query)與鍵(Key)-值(Value)對(duì)之間的交互,實(shí)現(xiàn)信息的動(dòng)態(tài)聚合。 對(duì)輸入序列, 通過線性映射矩陣將其映射到Q、K、V(Q,K,V∈?N×D)3 個(gè)向量,計(jì)算Q和K間的相似度,并對(duì)V進(jìn)行加權(quán)處理。 自注意力計(jì)算公式如式(2)所示:

      Transformer 網(wǎng)絡(luò)編碼器將帶位置信息的切片嵌入連續(xù)序列g(shù)0=[g0,1, …,g0,N],編碼成一個(gè)供解碼器使用的、帶有豐富語義信息的序列g(shù)L =[gL,1, …,gL,N]。

      1.2 解碼器

      解碼器的目標(biāo)是將切片編碼序列g(shù)L∈?N×D解碼成分割圖Seg∈?H×W×K。 其中,K是類別數(shù)量。解碼器來自編碼器的切片級(jí)編碼映射到切片級(jí)別類分?jǐn)?shù),通過雙線性插值將這些切片級(jí)別的類分?jǐn)?shù)向上采樣到像素級(jí)別的分?jǐn)?shù)。 下面將描述一個(gè)線性解碼器作為基線對(duì)比,以及介紹MFAVT 解碼器。

      (1)線性解碼器:首先使用了一個(gè)逐點(diǎn)線性層(1× 1 卷積+同步批歸一化(ReLU) +1 × 1 卷積)將Transformer 網(wǎng)絡(luò)特征gL∈?N×D投影到切片類維度gbas∈?N×K(例如對(duì)Pascal Context 數(shù)據(jù)集是59),然后將序列重整為二維特征圖Segbas∈?H/P×W/P×K并雙線性上采樣到原始圖像大小Seg∈?H×W×K,最后在類維度上應(yīng)用一個(gè)像素級(jí)交叉熵?fù)p失的分類層。 當(dāng)使用這種解碼器時(shí),稱其為Seg-Basic。

      (2)MFAVT 解碼器:采用多級(jí)特征融合的方式設(shè)計(jì)編碼器,核心思想類似于特征金字塔網(wǎng)絡(luò)。 具體地說,將Transformer 網(wǎng)絡(luò)編碼器的特征表示均勻分布在4 層中,到達(dá)解碼器;然后部署4 個(gè)流,每個(gè)流聚焦于一個(gè)特定的選定層;在每個(gè)流中,將特征編碼從2D 特征轉(zhuǎn)換為3D 特征采用3 層(卷積核大小為1×1、3×3 和3×3)網(wǎng)絡(luò),第一層和第三層分別將特征通道減半,第三層之后通過雙線性運(yùn)算將空間分辨率提升4 倍,通過元素添加引入自上而下的聚合設(shè)計(jì),來增強(qiáng)不同流之間的交互;按元素添加后,再使用一個(gè)3×3 卷積;最后使用通道級(jí)聯(lián)獲得所有流的融合特征,通過4 倍雙線性上采樣操作恢復(fù)圖像到原始分辨率,形成最終的分割圖。 當(dāng)使用這種解碼器時(shí),稱其為Seg-MFAVT。

      2 實(shí)驗(yàn)結(jié)果與分析

      2.1 數(shù)據(jù)集

      實(shí)驗(yàn)在3 個(gè)公開數(shù)據(jù)集上進(jìn)行。 其中,ADE20K[11]是最具挑戰(zhàn)性的語義分割數(shù)據(jù)集之一,該訓(xùn)練集包含20 210 幅圖像,150 個(gè)語義類。 驗(yàn)證集和測(cè)試集分別包含2 000 和3 352 幅圖像。 Pascal Context[12]數(shù)據(jù)集為整個(gè)場(chǎng)景提供像素級(jí)語義標(biāo)簽,包含4 998(最常見的59 個(gè)類和背景類)和5 105 張用于訓(xùn)練和驗(yàn)證的圖像。 Cityscapes[13]數(shù)據(jù)集側(cè)重于從汽車角度對(duì)城市街道場(chǎng)景進(jìn)行語義理解。 該數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,分別有2 975、500 和1 525張圖像;注釋包括30 個(gè)類,其中19 類用于語義分割任務(wù);數(shù)據(jù)集的圖像具有2 048×1 024 的高分辨率,本文實(shí)驗(yàn)采用其中的精細(xì)標(biāo)注圖像數(shù)據(jù)集。

      2.2 實(shí)驗(yàn)設(shè)置

      2.2.1 實(shí)驗(yàn)環(huán)境

      實(shí)驗(yàn)運(yùn)行環(huán)境為Win10 專業(yè)版操作系統(tǒng),處理器為Intel Core i9-9900k,內(nèi)存32 GB,圖形處理卡為一張Nvidia GeForce GTX1080 Ti(11 GB),Cuda版 本 為 10.2, 數(shù) 據(jù) 處 理 使 用 Python3.6 和Matlab2020a。

      2.2.2 數(shù)據(jù)增強(qiáng)

      訓(xùn)練期間,遵循語義分割庫MMSegmentation[14]中的標(biāo)準(zhǔn)流程,使用比例因子(0.5、0.75、1.0、1.25、1.5、1.75)對(duì)圖像執(zhí)行多比例縮放以及隨機(jī)的水平翻轉(zhuǎn)。 隨機(jī)裁剪大圖像,并將小圖像填充到固定尺寸大?。篈DE20K 為512×512,Pascal Context 為480×480,Cityscapes 為768×768。 輔助分割損失有助于模型訓(xùn)練,每個(gè)輔助損失頭遵循2 層網(wǎng)絡(luò),輔助損失和主損失頭共同使用,此外在解碼器和輔助損失頭使用同步批歸一化操作。

      2.2.3 優(yōu)化

      使用標(biāo)準(zhǔn)的像素級(jí)交叉熵?fù)p失對(duì)語義分割任務(wù)的預(yù)訓(xùn)練模型進(jìn)行微調(diào),而無需重新平衡權(quán)重。 使用隨機(jī)梯度下降(SGD)[15]作為優(yōu)化器,基本學(xué)習(xí)率β0,并將權(quán)重衰減設(shè)置為0。 采用“poly”學(xué)習(xí)率衰減其中Niter和Ntotal表示當(dāng)前迭代次數(shù)和總迭代次數(shù)。 對(duì)于ADE20K,其基本學(xué)習(xí)率β0設(shè)置為10-4,并以16 個(gè)批量進(jìn)行160 K 次迭代;Pascal Context,將β0設(shè)置為10-4,并訓(xùn)練160 K迭代,批量大小為16;Cityscapes,將β0設(shè)置為10-3,并以8 的批量進(jìn)行160 K 迭代。

      2.2.4 預(yù)訓(xùn)練

      使用VIT[5]和Deit[6](一種VIT 的變體)提供的預(yù)訓(xùn)練權(quán)重,初始化模型中的所有Transformer 網(wǎng)絡(luò)層和輸入線性投影層。 將Seg-MFAVT-Deit 表示為利用Deit 中預(yù)訓(xùn)練模型的同時(shí),使用MFAVT 作為解碼器。 所有未經(jīng)預(yù)訓(xùn)練的層均隨機(jī)初始化。

      2.2.5 推理

      使用平均交并比(mean Intersection over Union,mIoU)作為語義分割性能的評(píng)估指標(biāo)。 實(shí)驗(yàn)報(bào)告了單尺度(Single Scale,SS)和多尺度(Multi Scale,MS)推理。 對(duì)于多尺度推理,使用比例因子(0.5、0.75、1.0、1.25、1.5、1.75)對(duì)圖像執(zhí)行多比例縮放和隨機(jī)水平翻轉(zhuǎn)。 測(cè)試采用滑動(dòng)窗口(例如,Pascal 上下文為480×480)。 如果圖像尺寸的短邊長(zhǎng)度小于滑動(dòng)窗口,則在保持縱橫比的同時(shí),將短邊長(zhǎng)度調(diào)整為滑動(dòng)窗口的大小(例如480)。

      2.3 消融實(shí)驗(yàn)

      本節(jié)將在Cityscapes 驗(yàn)證集上進(jìn)行消融實(shí)驗(yàn),評(píng)估了Transformer 網(wǎng)絡(luò)層大小、補(bǔ)丁大小、預(yù)訓(xùn)練集數(shù)據(jù)大小、模型性能、與FCN 卷積網(wǎng)絡(luò)的比較,并驗(yàn)證了不同的解碼器。 除非另有說明,否則使用8批次處理,80 K 迭代次數(shù),并使用單尺度推斷報(bào)告結(jié)果。 表1 中“R”代表隨機(jī)初始化權(quán)重。

      表1 不同分割模型變體的性能比較Tab.1 Performance of different segmentation variants

      觀察表1 中數(shù)據(jù),可以得出如下結(jié)論:

      (1)Seg-MFAVT-Deit 在所有的變體中取得了最佳的性能表現(xiàn)。

      (2)使用T-large 的變體優(yōu)于T-base 的對(duì)照物,這與實(shí)驗(yàn)預(yù)期一樣,即Transformer 網(wǎng)絡(luò)層數(shù)加深會(huì)相對(duì)應(yīng)的增強(qiáng)模型性能。 如:Seg-MFAVT 使用的主干網(wǎng)絡(luò)(Backbone)從T-base 轉(zhuǎn)換到T-large,獲得了1.92%的提升。

      (3)切片尺寸(patch size)是語義分割性能的關(guān)鍵因素,切片尺寸從32 到16,Seg-MFAVT 提高了0.72%??梢?,當(dāng)圖像用切片表示時(shí),較大的切片尺寸會(huì)使模型獲得有意義的全局分割,但是會(huì)產(chǎn)生較差的邊界;而使用較小的切片尺寸會(huì)使圖像邊界更清晰。這一結(jié)果表明,減少切片尺寸是一個(gè)能夠獲得強(qiáng)大性能的改進(jìn)來源,其不會(huì)引入任何參數(shù),但是需要在更長(zhǎng)的序列中計(jì)算注意力,從而增加計(jì)算時(shí)間和成本。

      (4)預(yù)訓(xùn)練模型對(duì)于模型性能的表現(xiàn)至關(guān)重要。隨機(jī)初始化權(quán)重的Seg-MFAVT 只達(dá)到了44.14%MIoU,顯著低于其它變體。 在Imagenet-1K 上用Deit預(yù)先訓(xùn)練好的模型略優(yōu)于在Imagenet-21K 上用VIT預(yù)先訓(xùn)練出的模型。

      (5)為了與FCN 基線進(jìn)行公平比較,使用分類任務(wù),在Imagenet-21K 和1K 上對(duì)Resnet101 進(jìn)行預(yù)訓(xùn)練,然后在Cityscapes 上采用預(yù)訓(xùn)練權(quán)重進(jìn)行FCN 訓(xùn)練。 與在Imagenet-1K 上的預(yù)訓(xùn)練變體相比,在Imagenet-21K 上預(yù)訓(xùn)練的FCN 基線得到了明顯地改善。 但是,本文方法在很大程度上優(yōu)于FCN 方法,體現(xiàn)了所提出的多層聚合策略方法的有效性,而不是更大的預(yù)訓(xùn)練數(shù)據(jù)。

      2.4 對(duì)比分析

      為了驗(yàn)證MFAVT 的有效性與先進(jìn)性,將MFAVT 與一些對(duì)比方法在Cityscapes、ADE20K 和Pascal Context 數(shù)據(jù)集上進(jìn)行性能比較。 測(cè)試結(jié)果在表2~表4 中進(jìn)行展示。 在數(shù)據(jù)可視化中,為方便直觀地展現(xiàn)分割效果,將分割結(jié)果圖與原圖像進(jìn)行疊加并采用一定的透明化處理,以DeeplabV3+分割結(jié)果代表其他方法作為錨定參照對(duì)象,與MFAVT分割結(jié)果進(jìn)行突出化對(duì)比,結(jié)果如圖2~圖4 所示。

      表2 在ADE20K 驗(yàn)證集上的性能表現(xiàn)Tab.2 Performance comparison on ADE20K validation set

      圖2 在ADE20K 上定性的可視化結(jié)果Fig.2 Qualitative visualization results on ADE20K

      表2 展示了在最具挑戰(zhàn)性的ADE20K 數(shù)據(jù)集上的結(jié)果,Seg-MFAVT 在單尺度推理下(SS),取得了48.01%的mIoU 分?jǐn)?shù),在多尺度推理(MS)下取得了最佳的49.97%的mIoU 分?jǐn)?shù),優(yōu)于所有的卷積網(wǎng)絡(luò)方法,比DeeplabV3+的mIoU 分?jǐn)?shù)高出3.58%。 圖2展示了在ADE20K 上定性的可視化結(jié)果。

      表3 比較了在Pascal Context 上的分割結(jié)果。在單尺度推理時(shí),Seg-MFAVT 得到了54.16%的mIoU 分?jǐn)?shù),而在多尺度推理時(shí)獲得了最佳的55.43%mIoU 分?jǐn)?shù),超過了所有FCN 方法。 與最有競(jìng)爭(zhēng)力的APCNet 相比,mIoU 分?jǐn)?shù)提高了0.73%。 圖3 展示了在Pascal Context 上定性的可視化結(jié)果。

      表3 在Pascal Context 驗(yàn)證集上的性能表現(xiàn)Tab.3 Performance comparison on Pascal Context validation set

      圖3 在Pascal Context 上定性的可視化結(jié)果Fig.3 Qualitative visualization results on Pascal Context

      在Cityscapes 驗(yàn)證集上的比較結(jié)果見表4。 Seg-MFAVT 在單尺度推理下取得了79.42%的mIoU 分?jǐn)?shù),而在多尺度推理下取得了令人印象深刻的82.03%mIoU 分?jǐn)?shù)。 需要注意的是相比于一些方法在訓(xùn)練中采用全尺寸圖像分辨率(2 048×1 024)輸入,MFAVT 的圖像輸入尺寸為768×768,訓(xùn)練過程有一定劣勢(shì),但最終的性能表現(xiàn)超過了其他有競(jìng)爭(zhēng)力的方法。 與DeeplabV3+相比提高了2.71%mIoU,與最有競(jìng)爭(zhēng)力的DNL 相比提高了1.53%mIoU。 圖4展示了在Cityscapes 上定性的可視化結(jié)果。

      表4 在Cityscapes 驗(yàn)證集上的性能表現(xiàn)Tab.4 Performance comparison on Cityscapes validation set

      3 結(jié)束語

      本文介紹了一種基于視覺Transformer 的序列到序列的分割方法,為語義分割任務(wù)提供了一種新的視角。 現(xiàn)有的基于FCN 的方法通常使用擴(kuò)張卷積和注意力模塊來擴(kuò)大感受野,與之相比,本文的編碼器部分采用當(dāng)下流行的視覺Transformer 主干網(wǎng)絡(luò),對(duì)圖像切片進(jìn)行編碼。 基于視覺Transformer 的編碼器很好地建模了全局上下文信息,隨著一組不同的復(fù)雜性的解碼器設(shè)計(jì),建立了強(qiáng)大的分割模型。簡(jiǎn)單的線性解碼器就取得了非常好的效果,使用MFAVT 進(jìn)行解碼進(jìn)一步提高了性能。 大量的實(shí)驗(yàn)表 明, 本 文 方 法 在 ADE20K、 Pascal Context 和Cityscapes 數(shù)據(jù)集測(cè)試上展示了最佳的性能表現(xiàn)。

      猜你喜歡
      解碼器編碼器切片
      科學(xué)解碼器(一)
      科學(xué)解碼器(二)
      科學(xué)解碼器(三)
      線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
      基于FPGA的同步機(jī)軸角編碼器
      基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
      基于SDN與NFV的網(wǎng)絡(luò)切片架構(gòu)
      腎穿刺組織冷凍切片技術(shù)的改進(jìn)方法
      JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
      電子器件(2015年5期)2015-12-29 08:42:24
      冰凍切片、快速石蠟切片在中樞神經(jīng)系統(tǒng)腫瘤診斷中的應(yīng)用價(jià)值比較
      河北省| 淮滨县| 毕节市| 汾西县| 神池县| 柳河县| 江北区| 新宁县| 菏泽市| 绥中县| 德安县| 福州市| 龙川县| 双江| 新昌县| 信阳市| 沙湾县| 综艺| 阳城县| 峨边| 青铜峡市| 无为县| 辽中县| 商丘市| 四平市| 格尔木市| 阿拉善左旗| 梓潼县| 外汇| 巴彦淖尔市| 青浦区| 大关县| 建德市| 汾阳市| 广西| 南木林县| 岚皋县| 上栗县| 青海省| 博客| 葫芦岛市|