馮志成,楊杰,陳智超
(1.江西理工大學(xué) 電氣工程與自動(dòng)化學(xué)院,江西 贛州 341000;2.江西省磁懸浮技術(shù)重點(diǎn)實(shí)驗(yàn)室,江西 贛州 341000)
隨著經(jīng)濟(jì)水平的提升和城市化進(jìn)程的加快,城市路網(wǎng)體系日益龐大,道路提取是城市規(guī)劃和決策的重要環(huán)節(jié)之一[1-2].現(xiàn)有的道路提取方法主要依賴于手工標(biāo)注,存在工作量大和效率低的問題[3].
隨著諸多對地觀測項(xiàng)目的實(shí)施,遙感圖像取得了飛速發(fā)展[4].此外,語義分割技術(shù)[5-6]可以基于圖像區(qū)分目標(biāo)和背景,為道路自動(dòng)提取提供技術(shù)支撐.傳統(tǒng)的語義分割方法大多先基于手工算子進(jìn)行提取特征,再通過模板匹配或邊緣檢測捕獲道路區(qū)域[7-8].手工算子的選擇需要豐富的先驗(yàn)知識,道路提取效果往往不佳.基于深度學(xué)習(xí)的方法遵循編碼器-解碼器結(jié)構(gòu)[6],可以通過學(xué)習(xí)的方式更新參數(shù).編碼器用于提取圖像的高級特征,大多為通用特征提取模型,例如基于卷積神經(jīng)網(wǎng)絡(luò)的MobileNet[9-10]和ResNet[11]、基于視覺Transformer 的Vision Transformer[12]和MobileViT[13].解碼器用于捕獲不同層次的特征,提高特征利用率,實(shí)現(xiàn)像素分類.FCN[14]基于全卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)語義分割,通過2 個(gè)連續(xù)的卷積層實(shí)現(xiàn)像素分類.DeepLab V3[15]在解碼器中通過不同大小的空洞卷積捕獲多尺度特征.類似地,PSPNet[16]和DDRNet[17]基于不同大小的池化層提取多尺度特征,有效提升了分割性能.STDC[18]、BiseNet V2[19]和PIDNet[20]使用多分支結(jié)構(gòu)聚合不同層次的信息,在實(shí)時(shí)性和分割精度方面具有不錯(cuò)的表現(xiàn).
眾多研究人員將語義分割技術(shù)應(yīng)用于道路自動(dòng)提取領(lǐng)域.Zhou 等[21-22]使用大型模型作為編碼器,設(shè)計(jì)多分支并行結(jié)構(gòu)和全局上文模塊處理不同層次的特征.Diakogiannis 等[23-24]分別通過空洞卷積和深化模型結(jié)構(gòu)優(yōu)化編碼器的特征提取能力,使用損失函數(shù)緩解道路類別和背景類別的不均衡矛盾.這些研究基于全監(jiān)督方式訓(xùn)練模型,實(shí)現(xiàn)了可靠的分割精度.一些研究人員引入半監(jiān)督和無監(jiān)督的方式,實(shí)現(xiàn)道路提取.Li 等[25-26]通過自訓(xùn)練方式優(yōu)化語義分割模型,為無標(biāo)注數(shù)據(jù)生成偽標(biāo)簽,再將其用于模型訓(xùn)練.Song 等[27]將遙感圖像轉(zhuǎn)換為通用地圖,從通用地圖中實(shí)現(xiàn)道路提取.這些研究探索了未標(biāo)注數(shù)據(jù)的有效應(yīng)用,但精度普遍低于全監(jiān)督方式.上述研究使用大型模型實(shí)現(xiàn)特征提取,在解碼器中通過復(fù)雜的模塊利用特征信息,提升道路提取精度,但不利于模型的實(shí)時(shí)推理.
綜合上述分析,本文提出輕量級城市道路提取模型RoadViT.在編碼器中,通過輕量級模型MobileViT 編碼特征,有效引入Transformer 實(shí)現(xiàn)全局信息建模.在解碼器中,提出金字塔解碼器提取多尺度特征,適應(yīng)不同大小的道路區(qū)域.結(jié)合Mosaic[28]與多尺度縮放和隨機(jī)裁剪實(shí)現(xiàn)數(shù)據(jù)增強(qiáng),獲取精細(xì)多樣的圖像數(shù)據(jù).針對遙感圖像中道路類別和背景類別不平衡的問題,設(shè)計(jì)動(dòng)態(tài)加權(quán)損失函數(shù).
為了精準(zhǔn)、快速地從城市遙感影像中提取路網(wǎng),提出基于輕量級Transformer 的語義分割模型RoadViT.該模型遵循編碼器-解碼器架構(gòu),詳細(xì)組成如圖1 所示.
圖1 提出的城市路網(wǎng)提取模型RoadViT 的結(jié)構(gòu)Fig.1 Structure of proposed urban road network extraction model RoadViT
在輕量級城市路網(wǎng)的提取任務(wù)中,編碼器需要從輸入圖像中提取高級上下文信息,這要求編碼器具有豐富的特征提取能力,并且保持輕量性.選擇了目前先進(jìn)的MobileViT 作為編碼器,可以有效利用卷積神經(jīng)網(wǎng)絡(luò)的空間偏置特點(diǎn)和Transformer 的全局信息處理能力,有效地加強(qiáng)特征提取性能.在結(jié)構(gòu)上,MobileViT 由多個(gè)MV2 模塊和MobileViT 模塊堆疊而成,MV2 模塊是MobileNet V2[9]提出的輕量級倒殘差瓶頸單元,MobileViT模塊是輕量、高效的視覺Transformer,核心部件如圖2 所示.圖2(a)中,e為擴(kuò)張系數(shù).圖2(b)中,輸入X的維度為d×k,Q、K和V的維度為k×dh×h,d=dh×h.
圖2 MV2 模塊和多頭注意力機(jī)制的實(shí)現(xiàn)過程Fig.2 Implementation process of MV2 module and multi-head attention mechanism
MV2 模塊由倒殘差結(jié)構(gòu)和線性瓶頸結(jié)構(gòu)組成,將標(biāo)準(zhǔn)卷積分解為深度卷積和1×1 卷積,實(shí)現(xiàn)過程如圖2(a)所示.MV2 模塊的計(jì)算如下所示:
式中:X和Y分別表示輸入特征和輸出特征,r為深度卷積的步長.倒殘差結(jié)構(gòu)是殘差結(jié)構(gòu)的改進(jìn),先通過1×1 卷積φ1,p擴(kuò)張通道維度,然后通過深度卷積φd在高維空間編碼空間信息,最后通過1×1 卷積φ2,p實(shí)現(xiàn)信息融合和通道降維.當(dāng)特征信息從高維空間經(jīng)非線性函數(shù)映射到低維空間時(shí),存在信息坍塌的問題.當(dāng)進(jìn)行通道降維時(shí),使用線性瓶頸結(jié)構(gòu)減少信息丟失,即不使用非線性激活函數(shù).當(dāng)且僅當(dāng)步長為1 時(shí),使用跳躍連接.
MobileViT 模塊通過Transformer 機(jī)制有效地捕獲了全局信息,其核心是多頭注意力機(jī)制(multihead attention,MHA).MHA 在自注意力機(jī)制的基礎(chǔ)上引入多個(gè)關(guān)注頭,可以捕獲不同層次的輸入和輸出關(guān)系,實(shí)現(xiàn)過程如圖2(b)所示.自注意力機(jī)制的計(jì)算如下所示:
輸入特征先通過3 個(gè)線性變換,分別得到查詢矩陣Q、索引矩陣K、內(nèi)容矩陣V.對Q和K進(jìn)行矩陣乘法,基于矩陣K的維度dk實(shí)現(xiàn)加權(quán),獲取注意力矩陣.注意力矩陣通過softmax 函數(shù)fs進(jìn)行調(diào)整,再與V通過矩陣乘法獲取輸出特征Fa.
在MHA 中,輸入特征將被分配給不同的自注意力頭,每個(gè)自注意力頭先學(xué)習(xí)不同的信息關(guān)系,再進(jìn)行加權(quán)融合,計(jì)算過程如下所示:
在h個(gè)自注意力頭中,每個(gè)自注意力頭對不同的特征矩{陣進(jìn)行線性}轉(zhuǎn)換得到Q、K和V,通過參數(shù)矩陣進(jìn)行加權(quán).每個(gè)自注意頭的輸出通過拼接操作fcat和參數(shù)矩陣WO,獲取輸出特征Fout.
在語義分割任務(wù)中,解碼器需要還原高級上下文信息,以預(yù)測每個(gè)像素的概率分布.卷積神經(jīng)網(wǎng)絡(luò)的實(shí)際感受野遠(yuǎn)小于理論感受野,使得基于卷積神經(jīng)網(wǎng)絡(luò)的語義分割模型無法捕獲足夠的上下文信息[16].設(shè)計(jì)金字塔解碼器,通過串行多個(gè)平均池化實(shí)現(xiàn)下采樣和多尺度信息捕獲,有效提升模型的感受野和上下文信息的利用率,結(jié)構(gòu)如圖3 所示.通過池化核為5 和步長為2 的平均池化實(shí)現(xiàn)串行下采樣,捕獲多尺度上下文信息,通過全局平均池化獲取全局上下文信息.使用1×1卷積實(shí)現(xiàn)信息融合和通道壓縮,經(jīng)過雙線性插值將特征圖上采樣至輸入尺寸.在通道維度將多尺度特征進(jìn)行拼接,通過跳躍連接維持高級上下文信息的權(quán)重.通過3×3 卷積和1×1 卷積,實(shí)現(xiàn)信息融合和像素類別的概率分布生成.
圖3 金字塔解碼器的結(jié)構(gòu)Fig.3 Structure of pyramid decoder
在高分辨率的城市遙感影像中,道路像素往往少于背景像素,這會(huì)造成類別的不平衡問題.針對訓(xùn)練過程中類別不平衡的問題,通常的方式是給較少的類別附加固定的權(quán)重,但可能會(huì)造成權(quán)重系數(shù)的選取困難.如圖4 所示,提出動(dòng)態(tài)加權(quán)函數(shù)fd(x),基于圖像中的道路像素?cái)?shù)量自適應(yīng)地生成加權(quán)系數(shù),表達(dá)式為
圖4 動(dòng)態(tài)加權(quán)函數(shù)的圖形和表達(dá)式Fig.4 Graph and expression of dynamic weighting function
式中:x為道路像素與所有像素的比值,遵循以下權(quán)重系數(shù)分配原則.1)道路像素占比越少,需要對道路像素給予更多的關(guān)注,即道路類別的權(quán)重系數(shù)越大;2) 當(dāng)所有像素均為道路時(shí),道路類別的加權(quán)系數(shù)為0,不需要對道路類別進(jìn)行額外的關(guān)注.
圖像分割的損失函數(shù)通常為交叉熵?fù)p失函數(shù)fc(x),當(dāng)引入fd(x) 時(shí),本文的損失函數(shù)可以表示為
式中:I和L分別為模型輸出的特征圖和標(biāo)簽,L為大小為H×W的矩陣,由0 和1 組成,0 表示該像素是背景,1 表示該像素是道路;Pr和Pb分別為道路像素和背景像素的數(shù)量.計(jì)算真實(shí)標(biāo)簽中道路像素的占比,通過動(dòng)態(tài)加權(quán)函數(shù)獲取權(quán)重矩陣Fd∈RH×W.將Fd與損失矩陣fc(I,L)∈RH×W進(jìn)行逐元素相乘操作 ?,著重關(guān)注道路類別,通過相加操作維持背景類別的權(quán)重.調(diào)整后的損失矩陣通過平均操作fm獲取損失值Ls.
遙感影像是精細(xì)化和高空間分辨率的圖像,分辨率越高的圖像可以為模型提供更精細(xì)的特征,但會(huì)造成訓(xùn)練成本的急劇上升.直接將圖像縮放至低分辨率會(huì)造成信息損失,不利于城市路網(wǎng)的精準(zhǔn)提取.通過多尺度縮放和隨機(jī)裁剪策略降低分辨率,有效維持了遙感圖像的精細(xì)化特征.引入Mosaic[28]實(shí)現(xiàn)多圖像混合,構(gòu)建多樣的圖像數(shù)據(jù)提升模型性能,過程如圖5 所示.圖中,α 為多尺度縮放因子.將輸入圖像按隨機(jī)比例進(jìn)行放大,生成更精細(xì)的遙感影像.通過隨機(jī)裁剪,生成尺寸一致、但位置不同的圖像.隨機(jī)選取3 張圖像進(jìn)行多尺度縮放和隨機(jī)裁剪,將這4 張圖像通過隨機(jī)混合.輸出圖像被用于模型訓(xùn)練,有效獲取了更精細(xì)和多樣的圖像數(shù)據(jù).
CHN6-CUG[22]是中國城市道路遙感影像數(shù)據(jù)集,圖像數(shù)據(jù)來源于北京、上海、武漢、深圳、香港和澳門6 個(gè)城市,圖像的空間分辨率為50 cm/像素.CHN6-CUG 包含4 511 張大小為512×512 像素的標(biāo)記圖像,其中3 608 張用于模型訓(xùn)練,903 張用于測試.
DeepGlobe 道路提取數(shù)據(jù)集[22]包含6 226 張1 024×1 024 像素的衛(wèi)星遙感圖像和標(biāo)簽,每幅圖像的空間分辨率為50 cm/像素.圖像包含城市、郊區(qū)和鄉(xiāng)村的道路,來源于泰國、印度和印度尼西亞,其中4 980 張用于模型訓(xùn)練,1 246 張用于測試.
所有的模型基于Pytorch1.10 進(jìn)行構(gòu)建,采用12 GB 顯存的Tesla P100 進(jìn)行單卡加速訓(xùn)練.模型優(yōu)化器選擇SGD,初始學(xué)習(xí)率為0.01,學(xué)習(xí)率衰減系數(shù)為0.01.訓(xùn)練周期設(shè)置為200,每批次訓(xùn)練4 張圖像.在模型測試階段,將模型轉(zhuǎn)為ONNX 格式,并部署在邊緣設(shè)備Jetson TX2 上進(jìn)行測試.Jetson TX2 具有8 GB 顯存的NVIDIA Pascal GPU,可以有效地加速模型推理.
為了綜合評價(jià)模型的實(shí)時(shí)性和分割性能,使用參數(shù)量P、每秒浮點(diǎn)運(yùn)算次數(shù)(FLOPs)、每秒幀數(shù)和道路類別的交并比RIoU作為評價(jià)指標(biāo).其中,P和FLOPs 用于評價(jià)模型的復(fù)雜度.
式中:TP表示真正例,F(xiàn)P表示假正例,F(xiàn)N表示假反例.
為了驗(yàn)證本文使用技術(shù)的有效性,將其和一些通用技術(shù)進(jìn)行對比,結(jié)果如表1 所示.為了對比各種數(shù)據(jù)增強(qiáng)方式對模型性能的提升,在CHN6-CUG 數(shù)據(jù)集上,使用MobileViT+FCNHead 作為基礎(chǔ)模型進(jìn)行實(shí)驗(yàn).FCNHead 是簡潔的解碼器,由2 個(gè)連續(xù)的卷積層構(gòu)成.可見,使用Cutout[29]隨機(jī)擦除部分圖像后,模型精度提升了0.3%.Cutmix[30]通過混合圖像實(shí)現(xiàn)數(shù)據(jù)增強(qiáng),模型精度顯著提升了1.1%,這表明利用混合圖像的方式有利于構(gòu)建多樣的圖像數(shù)據(jù).通過Mosaic 混合多張圖像,模型精度提升了2.3%.引入多尺度縮放和隨機(jī)裁剪,獲取更精細(xì)的圖像信息,精度提升了4.6%,這表明更豐富的圖像信息可以提升分割性能.結(jié)合Mosaic 與多尺度縮放和隨機(jī)裁剪,構(gòu)建精細(xì)、多樣的圖像數(shù)據(jù),模型精度提升了5%.現(xiàn)有的SPP[31](spatial pyramid pooling)通過并行不同大小的最大池化操作捕獲多尺度特征,有效提升了1.9%的精度,但并行拼接特征會(huì)顯著增加參數(shù)量和FLOPs.提出的金字塔解碼器串行相同大小的平均池化操作,有效捕獲了不同尺度的局部信息和全局信息,通過卷積操作調(diào)節(jié)不同層次信息的權(quán)重.在使用金字塔解碼器后,模型參數(shù)量和FLOPs 僅分別為使用SPP 的65%和62%,但精度提升了0.9%.為了驗(yàn)證多頭注意力機(jī)制(MHA)可以實(shí)現(xiàn)全局信息建模,有效增強(qiáng)模型的特征提取性能,引入去除MHA 的MobileViT 進(jìn)行實(shí)驗(yàn).在去除MHA后,模型的參數(shù)量和FLOPs 顯著降低,但卷積神經(jīng)網(wǎng)絡(luò)僅具有局部信息建模的能力,不利于全局的道路提取,分割精度為41.5%.
表1 不同技術(shù)對模型性能的效果Tab.1 Effect of different techniques on model performance
為了驗(yàn)證所提技術(shù)對RoadViT 分割性能的貢獻(xiàn),設(shè)置消融實(shí)驗(yàn)進(jìn)行驗(yàn)證,各模型的RIoU曲線、參數(shù)量和FLOPs 如表2 所示.可見,僅通過MobileViT 進(jìn)行特征提取,利用FCNHead 實(shí)現(xiàn)像素分類,模型的參數(shù)量和FLOPs 僅分別為1.06×106和1.0×109,RIoU達(dá)到47.6%.引入Mosaic 與多尺度縮放和隨機(jī)裁剪,獲取更詳細(xì)、多樣的圖像信息,在不增加模型復(fù)雜度的前提下,RIoU提升了5%.這表明豐富多樣的圖像信息有利于模型性能的提升.通過動(dòng)態(tài)加權(quán)損失函數(shù),緩解道路類別和背景類別的不均衡矛盾,有效提升了道路的提取精度,RIoU達(dá)到49.5%.使用提出的金字塔解碼器代替FCNHead,參數(shù)量和FLOPs 僅分別為1.25×106和1.18×109,RIoU達(dá)到50.5%.相比于FCNHead,RIoU提升了2.9%,這表明金字塔解碼器通過多個(gè)池化分支可以有效地提取多尺度特征,以適應(yīng)不同大小的道路區(qū)域.將不同技術(shù)進(jìn)行組合,驗(yàn)證提出技術(shù)的貢獻(xiàn).引入動(dòng)態(tài)加權(quán)損失函數(shù)優(yōu)化模型訓(xùn)練,精度提升了2.1%.在動(dòng)態(tài)加權(quán)損失函數(shù)的基礎(chǔ)上,通過金字塔解碼器捕獲多尺度信息,模型性能提升了1.9%.在金字塔解碼器的基礎(chǔ)上,使用數(shù)據(jù)增強(qiáng)獲取詳細(xì)多樣的圖像數(shù)據(jù),分割精度顯著提升了6%.將提出技術(shù)進(jìn)行融合,設(shè)計(jì)輕量級模型RoadViT,道路提取精度可達(dá)57.0%.為了適應(yīng)不同的精度需求,根據(jù)不同大小的Mobile-ViT,RoadViT 可以擴(kuò)張為RoadViT-m 和RoadViTl.綜上所述,RoadViT 可以快速、可靠地提取道路,有利于基于遙感圖像構(gòu)建城市路網(wǎng).
表2 RoadViT 的消融實(shí)驗(yàn)Tab.2 Ablation experiments of RoadViT
為了進(jìn)一步驗(yàn)證RoadViT 的先進(jìn)性,將其和主流模型進(jìn)行對比.選取的大型模型有DeepLab V3(ResNet18)、STDC、DDRNet 和PSPNet(ResNet18),輕量級模型有PSPNet(MobileNet V2)、LRASPP、DeepLab V3(MobileNet V2)、BiseNet V2 和PIDNet,實(shí)驗(yàn)結(jié)果如表3 所示.
表3 RoadViT 和主流模型在不同數(shù)據(jù)集上的對比Tab.3 Comparison of RoadViT and mainstream models on different datasets
3.3.1 CHN6-CUG 數(shù)據(jù)集 從表3 可知,Road-ViT 在保證輕量的前提下,RIoU達(dá)到57.0%,參數(shù)量和FLOPs 僅分別為1.25×106和1.18×109.相比于輕量級模型LRASPP、DeepLab V3(MobileNet V2) 和PSPNet(MobileNet V2) 與大型模型DLinkNet,RoadViT 在模型的輕量性和精度上都更具優(yōu)勢.RoadViT 的精度優(yōu)于輕量級模型BiseNet V2,但參數(shù)量和FLOPs 僅分別為BiseNet V2 的34.5%和9.2%.隨著模型復(fù)雜度的增大,RoadViTm 和RoadViT-l 的性能隨之提升,RIoU分別為58.7%和59.7%.DeepLab V3(ResNet18)和PSPNet(ResNet18)通過大型模型Resnet18 實(shí)現(xiàn)特征提取,有效提升了分割性能,但具有繁多的參數(shù)和昂貴的計(jì)算開銷.相比之下,RoadViT-m 的精度優(yōu)于HsgNet、PSPNet(ResNet18)和DeepLab V3(ResNet18),但參數(shù)量僅分別為后兩者的18.1%和17.3%,F(xiàn)LOPs 分別為后兩者的4.5% 和3.5%.與STDC 和DDRNet 相比,RoadViT-l 的精度分別降低了約1%和1.3%,但具有更低的模型復(fù)雜度,參數(shù)量分別為它們的42%和30%,F(xiàn)LOPs 分別為它們的26%和34%,有利于實(shí)時(shí)提取城市道路.RoadViT-l 與PIDNet 的計(jì)算復(fù)雜度相近,盡管RoadViT-l 的精度略低,但參數(shù)量僅為PIDNet 的78.3%.綜合考慮模型的輕量性和分割性能,RoadViT 是兼顧模型復(fù)雜度和精度的城市道路提取模型,可以應(yīng)用于持續(xù)工作的機(jī)載設(shè)備和資源有限的場景,對城市路網(wǎng)建設(shè)具有積極意義.
3.3.2 DeepGlobe 數(shù)據(jù)集 為了進(jìn)一步驗(yàn)證Road-ViT 的有效性,在DeepGlobe 數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn).相比于輕量級模型LRASPP 和BiseNet V2,RoadViT 以更低的模型復(fù)雜度取得了更好的分割性能,實(shí)現(xiàn)了與PIDNet 近似的精度(RIoU=52.3%),但參數(shù)量和FLOPs 僅分別為PIDNet 的16.4%和20%,這表明提出的RoadViT 可以有效地兼顧分割性能和輕量性.RoadViT-m 和RoadViT-l 取得了不錯(cuò)的分割精度,RIoU分別為53.7% 和54.3%.RoadViT-l 取得了與STDC 和DDRNet 相似的精度,但具有明顯的輕量化優(yōu)勢.盡管PSPNet(MobileNet V2)和DeepLab V3(MobileNet V2)以輕量級模型MobileNet V2 作為編碼器,實(shí)現(xiàn)了較小的模型參數(shù)量,但復(fù)雜的模型結(jié)構(gòu)限制了它們的計(jì)算實(shí)時(shí)性,RoadViT-l 的FLOPs 僅分別為它們的56%和27%.類似地,DeepLab V3(ResNet18)和PSPNet(ResNet18)實(shí)現(xiàn)了最高的分割精度,但具有高昂的計(jì)算復(fù)雜度,F(xiàn)LOPs 高達(dá)67.51×109和85.97×109,不利于實(shí)時(shí)的道路提取.綜上所述,提出的RoadViT 通過簡潔的模型結(jié)構(gòu)實(shí)現(xiàn)道路提取,有效兼顧了分割精度和實(shí)時(shí)性,在主流模型中具有輕量化的優(yōu)勢.
3.4.1 推理時(shí)間的測試 為了驗(yàn)證RoadViT 的實(shí)時(shí)性,將其和主流模型轉(zhuǎn)為ONNX 格式,并部署在Jetson TX2 上測試推理速度v,結(jié)果如圖6所示.圖中,N為測試次數(shù).LRASPP 在實(shí)時(shí)性上的表現(xiàn)出色,平均可達(dá)14 幀/s,但分割精度不佳.Road-ViT 取得了不錯(cuò)的分割性能,推理速度可達(dá)10 幀/s,在主流模型中處于相對領(lǐng)先的地位.基于Road-ViT 擴(kuò)張的RoadViT-m 和RoadViT-l 具有不錯(cuò)的實(shí)時(shí)性,推理速度分別為8 和6 幀/s.盡管PSPNet和DeepLab V3 以輕量級模型MobileNet V2 為編碼器,在模型復(fù)雜度上表現(xiàn)出色,但平均速度約為5 幀/s.其中,BiseNet V2 和STDC 通過簡潔、有效的模型結(jié)構(gòu)提取道路區(qū)域,在實(shí)時(shí)性上的表現(xiàn)良好,分別可達(dá)8 和6 幀/s.PIDNet 取得了與Road-ViT-l 近似的推理速度,具有不錯(cuò)的實(shí)時(shí)性.DDRNet 在模型精度上具有顯著的優(yōu)勢,但在邊緣設(shè)備上的推理速度較小,僅約為4 幀/s.DeepLab V3(ResNet18)和PSPNet(ResNet18)通過大型模型ResNet18 實(shí)現(xiàn)特征提取,但推理速度僅約為3 幀/s.綜上所述,在主流模型中,RoadViT 在實(shí)時(shí)性上具有優(yōu)勢.
圖6 模型的推理速度對比Fig.6 Comparison of inference speed for models
3.4.2 硬盤空間占用的測試 模型體積是模型輕量性的重要指標(biāo)之一,更小的模型體積可以提高數(shù)據(jù)的響應(yīng)速度,有利于模型在資源受限設(shè)備的部署和應(yīng)用.模型體積Sm是模型所需的計(jì)算機(jī)存儲空間.將RoadViT 和其他模型的體積進(jìn)行對比,結(jié)果如圖7 所示.RoadViT 的模型體積僅為5.46 MB,僅約為PSPNet(ResNet18)的11%,但兩者的分割性能近似.相比于輕量級模型PSPNet(MobileNet V2)、BiseNet V2、DeepLab V3(MobileNet V2) 和LRASPP,RoadViT 不僅在模型體積上更具優(yōu)勢,而且在分割性能上更加出色,這表明RoadViT 可以兼顧模型的輕量性和分割性能.隨著RoadViT參數(shù)量的增加,RoadViT-m 和RoadViT-l 的模型體積僅分別為9.12 MB 和22.9 MB.RoadViT-m 取得了優(yōu)于DeepLab V3(ResNet18)和PSPNet(ResNet18)的分割精度,但模型體積僅約為它們的1/5.Road-ViT-l 的精度與PIDNet、STDC 和DDRNet 類似,但在模型體積上更具優(yōu)勢.綜合考慮模型體積和分割性能,RoadViT 是輕量、高效的城市道路提取模型.3.4.3 技術(shù)效果的對比及分析 為了驗(yàn)證使用技術(shù)對道路提取性能的影響,利用二值化圖像對比和分析不同技術(shù)的效果,結(jié)果如圖8 所示.圖中,黑色像素和白色像素分別表示背景和道路,矩形框突出不同技術(shù)的道路提取效果.對比圖8(c)、(d)可知,多頭注意力機(jī)制可以捕獲全局信息,提取更完整、連續(xù)的道路區(qū)域.相比于圖8(d),圖8(e)引入數(shù)據(jù)增強(qiáng)獲取精細(xì)的圖像信息,可以對識別難度高的道路進(jìn)行提取.從圖8(d)、(f)可知,利用動(dòng)態(tài)加權(quán)損失函數(shù)可以緩解樣本不均衡的矛盾,優(yōu)化模型的提取精度.圖8(g)表明,金字塔解碼器通過捕獲多尺度信息,可以提取不同大小的道路區(qū)域.利用RoadViT 可以提取較完整和連續(xù)的道路,有利于構(gòu)建城市路網(wǎng).
圖7 各模型的體積和分割精度對比Fig.7 Comparison of volume and segmentation accuracy for models
圖8 不同技術(shù)對分割效果的影響Fig.8 Impact of different techniques on segmentation effect
3.4.4 遙感影像路網(wǎng)提取測試 為了驗(yàn)證Road-ViT 的道路提取效果,選擇城市和城郊圖像進(jìn)行測試.使用二值化圖像與其他方法進(jìn)行對比,通過矩形框突出的RoadViT 的效果,結(jié)果如圖9 所示.從圖9(a)~(c)可知,對于不同的道路環(huán)境,利用RoadViT 提取的道路區(qū)域和真實(shí)區(qū)域基本吻合,有利于基于遙感圖像構(gòu)建城市路網(wǎng).隨著編碼器MobileViT 的擴(kuò)張,RoadViT-m 和RoadViTl 提取的道路區(qū)域更完整和連續(xù),可以有效地識別難度較高的前景信息.根據(jù)圖9(c)、(f)~(i)的對比可知,當(dāng)處理細(xì)小和彎曲的道路時(shí),這些輕量級模型存在提取道路缺失和不連續(xù)的問題,本文的RoadViT 改善了這種現(xiàn)象,可以適應(yīng)不同環(huán)境下的道路提取.使用ResNet18 替換輕量級模型MobileNet V2,圖9(j)、(k)的道路提取效果得到顯著的提升,緩解了提取道路不連續(xù)的矛盾,但效果次于RoadViT-l.PIDNet、STDC 和DDRNet 提取的道路區(qū)域和真實(shí)區(qū)域重合度較好,可以有效地處理道路細(xì)節(jié)部分,但對遮擋部分和識別難度高的像素存在不足,導(dǎo)致提取的道路存在間斷現(xiàn)象.綜上所述,對于不同彎曲程度、大小和場景的道路遙感圖像,利用RoadViT 可以提取較完整連續(xù)的道路,有利于城市路網(wǎng)的建設(shè).
圖9 RoadViT 和主流模型的實(shí)際道路提取效果對比Fig.9 Comparison of actual road extraction results between RoadViT and mainstream models
(1)道路提取是城市建設(shè)和規(guī)劃的重要步驟之一,傳統(tǒng)手工提取需要長時(shí)間的標(biāo)注勞動(dòng),效率不高.本文提出輕量級城市路網(wǎng)提取模型Road-ViT,可以輕量、高效地區(qū)分背景和城市道路,對構(gòu)建城市路網(wǎng)體系具有積極意義.
(2)提出的RoadViT 的參數(shù)量和FlOPs 僅分別為1.25×106和1.18×109,在Jetson TX2 上的推理速度可達(dá)10 幀/s,輕量性和實(shí)時(shí)性在主流模型中處于相對領(lǐng)先的地位.RoadViT 在CHN6-CUG數(shù)據(jù)集和DeepGlobe 數(shù)據(jù)集上的道路分割精度分別為57.0%和52.3%,可以有效地從遙感圖像中提取道路.綜合考慮模型的實(shí)時(shí)性和精度,RoadViT適用于持續(xù)工作的機(jī)載設(shè)備和資源受限的場景.
(3)在模型結(jié)構(gòu)上,RoadViT 由MobileViT 和金字塔解碼器組成,在訓(xùn)練過程中通過Mosaic 與多尺度縮放和隨機(jī)裁剪,構(gòu)建精細(xì)多樣的圖像數(shù)據(jù).MobileViT 是結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和Transformer的輕量級模型,可以有效地捕獲局部信息和全局信息.利用提出的金字塔解碼器,可以提取多尺度特征,生成像素類別的概率分布.本文設(shè)計(jì)動(dòng)態(tài)加權(quán)損失函數(shù),有效緩解了城市遙感圖像中道路類別和背景類別的不平衡矛盾.