孫紅,楊晨,莫光萍,朱江明
(上海理工大學(xué) 光電信息與計算機工程學(xué)院,上海 200093)
語義分割是計算機視覺中的一個重要研究領(lǐng)域,它通過對圖像執(zhí)行像素級標(biāo)簽預(yù)測實現(xiàn)分割目標(biāo)。近年來,語義分割在彩色圖像分割等領(lǐng)域都受到廣泛關(guān)注[1-3],這些應(yīng)用領(lǐng)域?qū)δ軌驅(qū)崟r運行的場景理解系統(tǒng)要求很高,不僅需要具有低能耗和低內(nèi)存的競爭性能,而且對模型的實時性有嚴(yán)格的要求。因此設(shè)計一個用于實時語義分割的高效神經(jīng)網(wǎng)絡(luò)成為一個具有挑戰(zhàn)性的問題。
近年來許多實時語義分割領(lǐng)域的優(yōu)秀研究工作試圖在準(zhǔn)確性、輕量級和高速率之間達到平衡。Paszke 等[4]提出了一種高效的實時語義分割網(wǎng)絡(luò)ENet,通過通道裁剪實現(xiàn)了一個緊湊的編碼器解碼器框架,但是該模型的感受野太小,無法捕捉到大物體的特征信息,導(dǎo)致分割精度的損失。為了提取多尺度的上下文信息,Mehta 等[5]提出了高效空間金字塔網(wǎng)絡(luò)ESPNet,采用高效空間金字塔模塊和卷積分解策略。圖像級聯(lián)網(wǎng)絡(luò)ICNet[6]使用3 個級聯(lián)分支來高效處理圖像,以推理速度的降低為代價提升分割精度。ERFNet[7]通過編碼器階段的輕量化來提取特征信息,雖然提升了分割精度,但推理速度大幅下降。此外,許多研究工作在網(wǎng)絡(luò)結(jié)構(gòu)方面作出了很多努力。Ronneberger 等[8]使用了對稱的編碼器–解碼器結(jié)構(gòu),其策略是合并相應(yīng)階段的特征圖,然而這種網(wǎng)絡(luò)會帶來巨大的額外計算成本。文獻[9-11]采用雙分支結(jié)構(gòu),在編碼器階段分別進行語義信息和空間信息的提取,最后在預(yù)測前使用特征融合的方法整合特征,但是這種方式仍然缺乏2 個分支之間的交互,所以還有很大的改進空間。
針對上述出現(xiàn)的問題,本文提出一個基于雙分支特征提取的實時語義分割網(wǎng)絡(luò)(TBFENet)。本文主要的工作和創(chuàng)新點如下:
1)雙分支由語義信息分支(SIB)和空間細節(jié)信息分支(SDI)組成,語義信息分支具有對稱的編碼器–解碼器結(jié)構(gòu),可以有效地提取深層語義信息;空間細節(jié)信息分支能很好地保留沒有下采樣操作的淺層邊界細節(jié)。
2)在語義信息分支設(shè)計一個非對稱殘差模塊(ARM),自適應(yīng)地融合注意力特征,提升模型分割的準(zhǔn)確性;在空間細節(jié)分支提出一種空間特征提取模塊(SFM),以更好地獲得淺層空間特征,補償語義信息分支中丟失的空間信息細節(jié),同時在雙分支使用深度可分離卷積實現(xiàn)輕量化。
3)為了提高融合特征的表示能力,使用特征融合模塊(FFM)來有效地融合來自語義和空間級別上的圖像特征,增強網(wǎng)絡(luò)對全局和局部特征信息的提取能力,提高網(wǎng)絡(luò)整體分割效果。
整個網(wǎng)絡(luò)結(jié)構(gòu)可以分為3 個部分:初始塊、雙分支主干和特征融合模塊。完整的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。
圖1 整體網(wǎng)絡(luò)框架Fig.1 Overall network framework
初始塊包括3 個3×3 卷積層,將第1 個卷積層的步幅設(shè)置為2 來收集初始特征。為了更好地保留空間特征信息,只在初始塊中執(zhí)行一次下采樣操作。本文通過將初始塊作為2 個分支的分界點,使語義和空間信息部分相關(guān),便于后續(xù)的特征融合。雙分支主干由語義信息分支(SIB)和空間細節(jié)信息分支(SDI)組成。為了減少模型的參數(shù),在語義信息分支的深度可分離卷積層中采用空洞卷積來擴大感受野提取特征信息,同時在空間細節(jié)信息分支使用特征提取模塊(SFM),以較小的計算成本最大程度地保留空間細節(jié)。此外,在語義信息分支的不同階段使用通道注意力來增強通道之間的長距離依賴關(guān)系。為了彌補SIB中丟失的空間細節(jié)信息,使用空間注意力模塊生成注意力圖來關(guān)注有用的空間信息,而忽略空間細節(jié)分支中的噪聲等無用信息。最后在2 個分支的末尾使用特征融合模塊(FFM)來增強語義和空間雙分支的特征融合。
輕量級網(wǎng)絡(luò)見證了許多殘差模塊設(shè)計,其中圖2a 為基礎(chǔ)的殘差設(shè)計。此外,如圖2b 所示,LEDNet[12]的SS–nbt(Split-shuffle-non-bottleneck)中所展現(xiàn)的通道分割和通道混洗操作。盡管LEDNet 在性能和速度之間取得了相對令人滿意的平衡,但仍有一定的提升空間。受這些殘差設(shè)計的啟發(fā),本文設(shè)計了高效的非對稱殘差(ARM)模塊,利用非對稱殘差模塊的共同優(yōu)點,在計算能力有限的情況下獲得更好的結(jié)果。非對稱殘差模塊如圖2c 所示。首先在瓶頸處通過1×1 卷積減少輸入通道數(shù)。1×1 卷積后是雙分支結(jié)構(gòu)。一個分支使用分解卷積收集局部特征信息,另一個分支采用空洞卷積進一步擴大深度分離卷積的感受野,以捕獲復(fù)雜和遠程的特征信息。此外通過在不同的不對稱殘差模塊中使用不同的膨脹率來降低網(wǎng)格化偽影的影響。
圖2 殘差模塊對比Fig.2 Comparison of various residual modules
為了實現(xiàn)不同分支之間的信息共享,將特征交互操作放在只含分解卷積(3×1 和1×3 卷積)分支和添加膨脹卷積分支之間,這樣2 個分支提取的上下文信息可以相互補充。然后將來自2 個分支的特征圖分別發(fā)送到通道注意力模塊,以更好地提取判別特征。再將通道注意力模塊的輸出注入2 個分支中進一步提升模塊的特征提取能力。之后將2 個分支提取的特征信息經(jīng)過一個1×1 的逐點卷積,恢復(fù)相關(guān)通道的特征圖后融合并饋送到通道注意力模塊中。最后使用通道混洗對雙通道特征信息進行進一步交換和共享,減少深度卷積導(dǎo)致的通道間信息獨立的影響。上述操作可以表示如下:
式中:xARMin和yARMout為ARM 模塊的輸入和輸出;xo為3×3 卷積的輸出;yo1和yo2為ARM 模塊中第1 輪特征交互2 個分支的輸出;y'o1和y'o2為ARM模塊中第2 輪特征交互2 個分支的輸出;Cm×n為核大小為m×n的卷積運算;D為可分離卷積;R為膨脹卷積;CS( )為通道混洗操作。
本文使用非對稱殘差模塊構(gòu)建了一個深度語義信息分支,這樣既保證了能捕獲到更多的語義信息,得到更大的感受野,同時又保證了參數(shù)的數(shù)量和計算成本非常低。非對稱殘差模塊在不同階段具有不同的表示能力:在網(wǎng)絡(luò)淺層保留了豐富的空間信息,例如邊緣和角落;而在網(wǎng)絡(luò)深層階段具有足夠的語義一致性,但預(yù)測比較粗略。因此,在分支的不同階段,在不對稱殘差模塊中設(shè)置不同的空洞卷積率。將第1 個到第5 個ARM 塊中非對稱殘差模塊數(shù)量分別設(shè)置為{1,2,3,4,5}。每個模塊的擴張率分別依次設(shè)置為r={1}、r={1,2}、r={1,2,5}、r={2,5,7,9}、r={2,5,7,9,17}。
本文在非對稱殘差模塊和語義信息分支中都使用通道注意力模塊(CAM)來強調(diào)需要突出顯示的特征。同時該方法可以抑制干擾噪聲,有利于特征提取。本文采用的通道注意力來源于ECANet[13],它只占用很少的計算資源,但相比之下明顯提升了分割效果。CAM 使用全局平均池化來獲取全局上下文,并生成注意力圖來指導(dǎo)特征提取,計算成本可以忽略不計,這是提高模型性能的好方法。該過程可以表示為式(7)。
式中:T表示張量維度的壓縮、轉(zhuǎn)置和擴展操作;fK×K表示卷積核大小為K的標(biāo)準(zhǔn)卷積;CA(F)是通道注意力輸出;F表示輸入特征;AvgP( )表示平均池化操作;δ表示Sigmoid 激活函數(shù)。
受ERFNet 中下采樣模塊的啟發(fā),本文使用的下采樣模塊有2 個替代輸出,一個是步長為2 的3×3卷積,另一個是步長為2 的2×2 最大池化。如果輸入通道的數(shù)量大于或等于輸出通道的數(shù)量,下采樣模塊使用單個3×3 卷積。否則利用最大池化操作將這2 個分支的連接形成最終的下采樣輸出。具體過程如圖3 所示。
圖3 下采樣模塊Fig.3 Downsampling module
在語義信息分支的處理過程中,空間信息不可避免地會丟失。原因是深層語義信息的提取與淺層邊界信息的保留是一對矛盾的關(guān)系。為了解決這個問題,本文設(shè)計了空間細節(jié)分支,它實際上是對語義丟失的細節(jié)信息的補充信息分支,以幫助模型在預(yù)測過程中實現(xiàn)更好的準(zhǔn)確性。與深度語義信息分支不同,在這個分支中只使用了一個簡單有效的空間特征提取模塊(SFM)和一個空間注意力模塊。SFM是專門為補充語義分支中丟失的細節(jié)而設(shè)計的,如圖4 所示。它由3 個3×3 的卷積層和一個1×1 的逐點卷積層組成。為了獲取更多的特征信息,將第 2和第 3 卷積層的通道數(shù)增加到原始輸入的 4 倍(4C)。最后使用一個1×1 的卷積層再將通道數(shù)減少到C,該操作可以去除冗余特征并提取有效特征。為了減少參數(shù)數(shù)量和計算成本,將后面的2 個3×3卷積層替換為深度可分離卷積,因此空間特征提取模塊可以以較少的參數(shù)和計算成本提取豐富的淺層空間特征。
圖4 空間特征提取模塊Fig.4 Spatial feature extraction module
空間注意力模塊用于提取和保存整個模型的淺層空間特征信息。空間特征提取模塊輸出的特征圖作為輸入,通過最大池化和平均池化進行池化處理,然后將池化后的結(jié)果進行融合后經(jīng)過一個卷積層將雙通道的特征信息降維為一維特征信息,經(jīng)過激活函數(shù)生成空間注意力特征圖。空間注意力的過程如式(8)所示。
式中:f7×7為卷積核大小為7 的標(biāo)準(zhǔn)卷積;SA(F)為空間注意力特征圖;F為輸入特征;Concat[]為連接操作;AvgP( )為平均池化操作;MaxP( )為平均池化操作;δ為Sigmoid 激活函數(shù)。
如何有效地整合語義分支和空間分支的信息是雙分支結(jié)構(gòu)的關(guān)鍵問題。最廣泛使用的方法是直接按元素添加或者直接連接它們。但是這些方法忽略了2個分支提供的功能之間的差異。為了解決這個問題,本文使用了由注意力機制驅(qū)動的方法[14]構(gòu)建特征融合模塊。該方法不僅可以捕獲跨通道信息,還可以獲取方向和位置感知信息,最重要的是它的計算成本較小,這意味著更少的參數(shù)可以換取更多的收益。
特征融合模塊通過2 個過程實現(xiàn)對通道關(guān)系和遠程依賴進行編碼:坐標(biāo)信息嵌入和坐標(biāo)注意生成。特征融合模塊(FFM)的結(jié)構(gòu)如圖5 所示。給定一個輸入X∈RC×H×W,使用池化內(nèi)核的2 個空間維度(1,W)和(H,1)分別沿水平坐標(biāo)和垂直坐標(biāo)對每個通道進行編碼。高度h處的第c個通道的輸出可以表示為式(9);長度為w的第c個通道的輸出見式(10)。
圖5 特征融合模塊Fig.5 Feature fusion module
上述2 個變換分別沿2 個空間方向聚合特征,產(chǎn)生一對方向感知特征圖。這2 個轉(zhuǎn)換使用注意力模塊一個沿空間方向捕獲遠程依賴關(guān)系,另一個沿空間方向保留精確的位置信息。由給定式(9)和式(10)的步驟生成聚合特征圖,首先將它們連接起來,然后將它們發(fā)送到一個共享的1×1 卷積變換函數(shù)f1×1,具體過程如式(11)所示。
F=δ(f1×1(Concat[zh,zw])) (11)
式中:Concat[,]為沿空間維度的連接操作;δ為非線性激活函數(shù);F∈RC/r×(H+W)為在水平方向和垂直方向2 個方向上編碼空間信息獲得的中間特征圖;r為用于控制塊大小的縮小率。將F沿空間維度拆分為2 個單獨的張量fh∈RC/r×H和fw∈RC/r×W。使用2 個1×1 卷積變換分別將fh和fw分別變換為與輸入X具有相同通道數(shù)的張量,具體過程見式(12)—(13)。
為了降低模型的復(fù)雜性,將縮小率r設(shè)置為32來減少F的通道數(shù)。然后將gh和gw分別用作注意力權(quán)重,通過該方法可以將2 個分支的特征充分融合,同時在通道和空間方向下自適應(yīng)突出特征信息。最終得到坐標(biāo)注意塊的輸出,見式(14)。
整個網(wǎng)絡(luò)結(jié)構(gòu)主要可分為3 個部分:初始塊、雙分支主干和特征融合模塊。完整的網(wǎng)絡(luò)結(jié)構(gòu)見圖1,詳細的網(wǎng)絡(luò)結(jié)構(gòu)組成見圖6。語義信息分支SIB 為編碼器–解碼器結(jié)構(gòu),而在空間細節(jié)分支SDI 中空間特征提取模塊SFM 完成了“編碼–解碼”的過程。在圖6 中體現(xiàn)為空間細節(jié)分支的整個過程對應(yīng)語義信息分支的編碼器過程,最終2 個分支輸出相同尺寸的特征圖。
圖6 雙分支特征提取網(wǎng)絡(luò)細節(jié)Fig.6 Details of two-branch feature extraction network
本文提出的模型將會在公開數(shù)據(jù)集Camvid 和Cityscapes 上進行分割效果和推理速度的實驗,采用的評價指標(biāo)分別為類交并比(class IoU)、均交互比(mIoU)、幀率(FPS)、參數(shù)量(parameters)。mIoU的計算公式如式(15)所示。
式中:pij表示將i預(yù)測為j,為假負(FN);pji表示將j預(yù)測為i,為假正(FP);pii表示將i預(yù)測為i,為真正(TP)。
本文使用PyTorch 深度學(xué)習(xí)框架實現(xiàn)訓(xùn)練,所有的實驗都是在單塊RTX2080Ti GPU 上執(zhí)行的。對CamVid 數(shù)據(jù)集進行訓(xùn)練時,由于輸入分辨率不同,采用Adam優(yōu)化器訓(xùn)練神經(jīng)網(wǎng)絡(luò),batch_size 設(shè)置為8,權(quán)重衰減設(shè)置為2×10?4,此外將初始學(xué)習(xí)率設(shè)置為1×10?3。對于Cityscapes 數(shù)據(jù)集,通過隨機梯度下降的方法來訓(xùn)練本文提出的算法。batch_size 設(shè)置為4,權(quán)重衰減設(shè)置為1×10?4,初始學(xué)習(xí)率配置為4.5×10?2,超參數(shù)momentum 設(shè)置為0.9。為了保證實驗結(jié)果具有可對比性,本文所有實驗均使用CrossEntropy 損失函數(shù),采用poly 學(xué)習(xí)策略來動態(tài)調(diào)整學(xué)習(xí)率。
Camvid 是一個從駕駛汽車角度拍攝的街景數(shù)據(jù)集,它總共包括701 張圖片,其中367 張圖片用于訓(xùn)練,101 張用于驗證,233 張用于測試。這些圖像的分辨率為960×720,共有11 個語義類別,在訓(xùn)練前將這些圖片尺寸調(diào)整為360×480 的大小。
Cityscapes 是一個城市景觀數(shù)據(jù)集。它包含5 000張精細標(biāo)注和20 000 張粗標(biāo)注圖像。該數(shù)據(jù)集是從50個不同城市在不同季節(jié)和天氣中捕獲的。對于精細標(biāo)注集,它包含2 975 張訓(xùn)練圖像、500 張驗證圖像和1 525 張測試圖像。原始圖像的分辨率為1 024×2 048。整個數(shù)據(jù)集包含19 個類別,在訓(xùn)練前將這些圖片尺寸調(diào)整為512×1 024 的大小。
為了驗證本文提出的網(wǎng)絡(luò)的可行性和有效性,對各個模塊的結(jié)構(gòu)細節(jié)和分割效果在Camvid 數(shù)據(jù)集上進行對比實驗。在未加入其他模塊的情況下,保證網(wǎng)絡(luò)其余結(jié)構(gòu)參數(shù)不變進行消融實驗,最終結(jié)果如表1 所示。
表1 消融對比實驗Tab.1 Ablation contrast experiment
2.3.1 通道注意力
從表1 實驗的前2 行可以看出,如果不使用通道注意力模塊,網(wǎng)絡(luò)的預(yù)測結(jié)果會更差。CAM 可以提升網(wǎng)絡(luò)0.68%的分割精度,而計算成本幾乎沒有增加。實驗證明了通道注意力模塊的添加增強了網(wǎng)絡(luò)的特征提取能力。
2.3.2 特征融合
特征融合方法一直是多語義特征聚合的重點研究課題,其中“添加”和“連接”操作是使用最廣泛的方法。在表1 中提供“Add”“Concat”和FFM 的比較。根據(jù)表格第6 行可知,F(xiàn)FM 達到了70.13%的局部最佳性能,分別比“添加”和“連接”操作高出 1.01%和0.57%。與“Add”操作相比,特征整合模塊只增加了極少的參數(shù)(0.001 8 M)。此外,與“Concat”直接連接操作相比,F(xiàn)FM 以更少的參數(shù)實現(xiàn)了更好的分割結(jié)果,在不增加模型復(fù)雜度的情況下有效提升模型的性能。
2.3.3 空間注意力
空間注意力機制(SA)的添加使得網(wǎng)絡(luò)的分割準(zhǔn)確率提升了0.45%,達到了70.58%的最佳性能,而增加的參數(shù)量幾乎可以忽略不計。說明淺層空間的特征信息提取對網(wǎng)絡(luò)性能的提升有很大的作用。
2.3.4 擴張率
如表1 實驗第4 部分所示,本文設(shè)計了3 個實驗來驗證非對稱殘差模塊中空洞卷積率的設(shè)置對模型分割精度的影響。首先將第1 個到第5 個ARM 塊中將非對稱殘差模塊數(shù)量分別設(shè)置為{1,1,2,2,4},每個模塊的擴張率分別依次設(shè)置為r={1,1,2,1,2,2,5,7,9,17};第2 和第3 個實驗將非對稱殘差模塊的重復(fù)次數(shù)都分別設(shè)置為{1,2,3,4,5},其中將第2 個實驗的擴張率依次設(shè)置為r={1,1,2,2,5,1,1,2,2,4,4,8,8,16,16},第 3 個實驗的擴張率設(shè)置為r={1,1,2,2,5,1,2,5,7,9,2,5,7,9,17}。得益于模型框架的優(yōu)異性,TBFENet 在第1 個實驗中僅用0.52 M 參數(shù)就取得了65.75%的分割準(zhǔn)確性。增加非對稱殘差模塊后實驗結(jié)果顯著提升,證明更多的ARM 模塊可以提升性能,而空洞卷積的使用進一步增強了網(wǎng)絡(luò)的特征提取能力。在第3 個實驗中實現(xiàn)了70.58%的最優(yōu)分割結(jié)果。
為了進一步驗證本文網(wǎng)絡(luò)的分割性能,在CamVid 測試數(shù)據(jù)集上提供了與其他優(yōu)秀分割方法的定量比較,實驗結(jié)果如表2 所示。根據(jù)表2 可以明顯看出,與類似模型大小的方法相比,本文分割網(wǎng)絡(luò)達到了最佳的分割效果,均交互比達到了70.5%。雖然在參數(shù)量表現(xiàn)上不如DABNet[15],但在分割精度上高出DABNet 4.0%。相比于LEDNet,本文模型得益于空間細節(jié)信息的保留分割更加精確。與其他大型模型相比,本文網(wǎng)絡(luò)以更少的參數(shù)取得了最優(yōu)的分割結(jié)果。在推理速度方面,本文模型推理速度達到了107 幀/s。本文模型在實現(xiàn)輕量化的同時分割準(zhǔn)確性表現(xiàn)依舊出色。充分證明本文網(wǎng)絡(luò)在準(zhǔn)確性和效率之間取得了很好的平衡。為了更清晰地體現(xiàn)本文模型在Camvid數(shù)據(jù)集上分割的效果,將本文模型得到的語義分割掩碼,并與其他優(yōu)秀網(wǎng)絡(luò)模型進行對比,對比效果如圖7所示。通過圖7 中本文網(wǎng)絡(luò)分割圖圈出的部分可以明顯看出,本文模型在邊界細節(jié)特征信息的提取明顯優(yōu)于DABNet 和BiseNet v2 模型在邊界細節(jié)特征信息的提取,充分證明空間特征提取模塊的有效性。
表2 Camvid 數(shù)據(jù)集測試結(jié)果對比Tab.2 Comparison of Camvid dataset test results
表3 中提供了在Cityscapes測試數(shù)據(jù)集上與其他最先進的圖像語義分割方法的定量比較。根據(jù)這些實驗結(jié)果可以發(fā)現(xiàn),當(dāng)使用更少的參數(shù)時,本文網(wǎng)絡(luò)可以實現(xiàn)更好的準(zhǔn)確性和更快的運行速度。與本文方法具有相似數(shù)量參數(shù)的模型達不到相同的實時效果,即使實時效果更優(yōu),在分割精度上也大幅落后于本文算法。具有相同分割和實時效果的模型往往需要更多的參數(shù)運算。從參數(shù)量的角度看,ENet、ESPNet、CGNet[21]、NDNet[22]的參數(shù)量較少,但它們的分割精度分別比本文網(wǎng)絡(luò)的低16.8%、14.9%、10.8%和10%,這在分割領(lǐng)域是一個很大的差距。本文算法的參數(shù)數(shù)量最多只比上述網(wǎng)絡(luò)的多0.55 M,相對于分割精度的提升,參數(shù)量的增加是在可接受范圍之內(nèi)的。從實時性的角度來看,本文算法推理速度達到了97 幀/s,滿足實時處理街景畫面的條件。就均交互比來說,本文模型取得了75.1%的最好分割效果,本文模型不僅在分割準(zhǔn)確性上大幅領(lǐng)先其他優(yōu)秀網(wǎng)絡(luò),在網(wǎng)絡(luò)輕量化層面,參數(shù)數(shù)量也僅有0.91 M,與分割效果較好的BiseNet v2相比,參數(shù)量僅約為BiseNet v2 的1/50。本文模型參數(shù)較少但推理速度較慢的原因是在網(wǎng)絡(luò)中使用了注意力機制,而這些注意力機制會帶來一些計算開銷,導(dǎo)致推理速度變慢,但這些性能損失是在可以接受的范圍之內(nèi)的。
表3 Cityscapess 數(shù)據(jù)集測試結(jié)果對比Tab.3 Comparison of Cityscapess dataset test results
此外在表4 中提供了城市景觀的所有類IoU(%)的結(jié)果。本文算法在13 個類別中的分割精度領(lǐng)先于其他優(yōu)秀網(wǎng)絡(luò)在13 個類別中的分割精度,而在交通標(biāo)志類(Tsi)和自行車(Bic)類分割準(zhǔn)確性只比最佳模型略低了0.2%。通過實驗證明了本文算法在模型的準(zhǔn)確性、模型大小和推理速度之間實現(xiàn)了最佳平衡。
表4 Cityscapes 類別分割精度對比實驗Tab.4 Comparative experiment on segmentation accuracy of Cityscapes
本文提出了一個用于彩色圖像分割的雙分支特征提取網(wǎng)絡(luò)。本文算法主要側(cè)重于在分割精度、模型參數(shù)和推理速度之間取得較好的平衡。實驗證明,本文提出的非對稱殘差模塊通過深度可分離卷積和空洞卷積在減少參數(shù)計算的情況下擴大感受野,全面地提取語義信息。語義信息分支和空間細節(jié)分支可以分別提取深層語義信息并保留各邊界細節(jié)。本文模型在只有0.91 M 參數(shù)的情況下,在Cityscapes 數(shù)據(jù)集上以97 幀/s 速度實現(xiàn)75.1%的最佳分割準(zhǔn)確性,在Camvid 數(shù)據(jù)集上以107 幀/s 的速度取得了70.5%的最優(yōu)分割效果。通過大量實驗證明本文模型在準(zhǔn)確性和效率之間取得了較好的平衡。