羅俊 宣士斌 劉家林
摘 要:低光照?qǐng)D像分割一直是圖像分割的難點(diǎn),低光照引起的低對(duì)比度和高模糊性使得這類圖像分割比一般圖像分割困難很多。為了提高低光照環(huán)境下語(yǔ)義分割的準(zhǔn)確度,根據(jù)低光照?qǐng)D像自身特征,提出一種噪聲指導(dǎo)下過濾光照風(fēng)格的低光照?qǐng)鼍罢Z(yǔ)義分割模型(SFIS)。該模型綜合利用信噪比作為先驗(yàn)知識(shí),通過指導(dǎo)長(zhǎng)距離分支中的自注意力操作、長(zhǎng)/短距離分支的特征融合,對(duì)圖像中不同噪聲的區(qū)域采用不同距離的交互,并設(shè)計(jì)了一個(gè)光照過濾器,該模塊從圖像的整體風(fēng)格中進(jìn)一步提取光照風(fēng)格信息。通過交替訓(xùn)練光照過濾器與語(yǔ)義分割模型,逐步減小不同光照條件之間的光照風(fēng)格差距,從而使分割網(wǎng)絡(luò)學(xué)習(xí)到光照不變特征。提出的模型在數(shù)據(jù)集LLRGBD上優(yōu)于之前的工作,取得了較好的結(jié)果。在真實(shí)數(shù)據(jù)集LLRGBD-real上的mIoU達(dá)到66.8%,說明所提出的長(zhǎng)短距離分支模塊和光照過濾器模塊能夠有效提升模型在低光照環(huán)境下的語(yǔ)義分割能力。
關(guān)鍵詞:語(yǔ)義分割;低光照;注意力機(jī)制;域自適應(yīng)
中圖分類號(hào):TP391?? 文獻(xiàn)標(biāo)志碼:A?? 文章編號(hào):1001-3695(2024)01-050-0314-07
doi:10.19734/j.issn.1001-3695.2023.06.0285
Filtering illumination style under guidance of noise to achieve semantic segmentation of low-light scenes
Abstract:Low-light image segmentation is always the difficulty of image segmentation.The low contrast and high fuzziness caused by low light make this kind of image segmentation much more difficult than general image segmentation.In order to improve the accuracy of semantic segmentation in low light environment,this paper proposed a semantic segmentation model of low light scene with filtering light style under noise guidance (SFIS) according to the characteristics of low-light image.The model comprehensively used signal-to-noise ratio as prior knowledge,and adopted different distance interaction for different noise regions in the image by guiding the self-attention operation in the long distance branch and the feature fusion of long/short distance branches.This paper also further designed an illumination filter,which was a module that further extracted the illumination style information from the overall style of the image.By alternately training the illumination filter and the semantic segmentation model,the lighting style gap between different lighting conditions was gradually reduced,so that the segmentation network could learn illumination invariant features.The proposed model outperforms the previous work on the dataset LLRGBD and achieves the best results.The mIoU on the real dataset LLRGBD-real reaches 66.8%,it shows that the proposed long and short distance branch module and the illumination filter module can effectively improve the semantic segmentation ability of the model in low light environment.
Key words:semantic segmentation;low light;attention mechanism;domain adaptation
0 引言
語(yǔ)義分割作為計(jì)算機(jī)視覺中的一項(xiàng)重要分支,其目的是根據(jù)目標(biāo)鄰域特征,針對(duì)每個(gè)像素進(jìn)行分類,最終得到一個(gè)具有像素級(jí)的語(yǔ)義標(biāo)注圖像。大多數(shù)網(wǎng)絡(luò)模型主要是在良好的環(huán)境下提高精度,并沒有考慮到不利的環(huán)境條件,比如過度曝光和曝光不足、噪聲等導(dǎo)致的圖像退化?,F(xiàn)有的語(yǔ)義分割模型主要是在光照良好的白天圖像上進(jìn)行訓(xùn)練,由于網(wǎng)絡(luò)模型受訓(xùn)練集分布的限制,往往對(duì)光照的變化不具有魯棒性。低光照?qǐng)D像會(huì)產(chǎn)生較多噪聲,而且對(duì)低光照?qǐng)D像的標(biāo)注也較為困難,現(xiàn)有模型的性能主要受限于低曝光和缺乏真實(shí)標(biāo)簽。本文專注于低光照環(huán)境下的語(yǔ)義分割。
LISU模型[1] 先利用分解網(wǎng)絡(luò)將低光照?qǐng)D像分解為光照分量和反射分量,然后利用聯(lián)合學(xué)習(xí)網(wǎng)絡(luò)同時(shí)學(xué)習(xí)恢復(fù)反射信息和分割反射圖,最終實(shí)現(xiàn)低光照室內(nèi)場(chǎng)景下的語(yǔ)義分割。付延年[2]提出了可見光與紅外融合圖像的語(yǔ)義分割方案,從而改善了夜間場(chǎng)景的分割精度。另一方面,針對(duì)低光照?qǐng)D像的恢復(fù)問題,大多數(shù)方法主要是利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)操縱顏色、色調(diào)和對(duì)比度等來增強(qiáng)低光照?qǐng)D像,而最近的一些工作進(jìn)一步考慮了低光照?qǐng)D像中的噪聲。Liu等人[3]提出了RUAS模型,以Retinex理論為基礎(chǔ),建立了反映低光照?qǐng)D像內(nèi)在曝光不足結(jié)構(gòu)的模型。Xu等人[4] 提出了一種基于頻率的低光照?qǐng)D像分解與增強(qiáng)模型。Xu等人[5]提出了利用噪聲自適應(yīng)地考慮低光照?qǐng)D像中的不同區(qū)域,以實(shí)現(xiàn)空間變化增強(qiáng)。但簡(jiǎn)單地將現(xiàn)有分割模型的前端加一個(gè)低光照增強(qiáng)網(wǎng)絡(luò),并不總能提高低光照?qǐng)D像分割網(wǎng)絡(luò)的模型精度,而且還會(huì)帶來更多的計(jì)算和內(nèi)存消耗。
為了提高分割模型對(duì)光照變化的魯棒性,也有許多域適應(yīng)方法被提出,以使白天訓(xùn)練的模型適應(yīng)夜間,而無須夜間域中的真實(shí)標(biāo)簽。在模型MGCDA[6]與DANNet[7]中應(yīng)用圖像遷移網(wǎng)絡(luò)來風(fēng)格化白天或夜間的圖像并生成合成數(shù)據(jù)集,然而,風(fēng)格遷移網(wǎng)絡(luò)并不能充分利用分割任務(wù)的語(yǔ)義嵌入,也增加了推理時(shí)間。Dai等人[8]提出利用黃昏圖像作為中間目標(biāo)域,將白天場(chǎng)景上訓(xùn)練的語(yǔ)義模型漸進(jìn)地適應(yīng)夜間場(chǎng)景。這些方法不僅需要額外的訓(xùn)練數(shù)據(jù),而且訓(xùn)練過程復(fù)雜[9]。Wang等人[10]提出了域自適應(yīng)方法FADA,通過學(xué)習(xí)域不變特征來實(shí)現(xiàn)特征級(jí)自適應(yīng),將鑒別器與分割模型一起訓(xùn)練,以便鑒別器最大化源域和目標(biāo)域之間的差異,而分割模型學(xué)習(xí)最小化差異。Isobe等人[11]提出了一個(gè)協(xié)作學(xué)習(xí)框架來實(shí)現(xiàn)無監(jiān)督的多目標(biāo)域適應(yīng),將所有其他域都轉(zhuǎn)換為當(dāng)前目標(biāo)域的風(fēng)格以進(jìn)行進(jìn)一步訓(xùn)練。張桂梅等人[12]提出SG-GAN方法對(duì)虛擬數(shù)據(jù)集GTA5進(jìn)行預(yù)處理來代替原有數(shù)據(jù)集。Lee等人[13]提出了FIFO模型,將圖像的霧條件視為其霧風(fēng)格,學(xué)習(xí)霧不變特征的霧天場(chǎng)景分割模型。大多數(shù)現(xiàn)有的低光照語(yǔ)義分割模型往往忽略了高噪聲區(qū)域?qū)δP托阅茉斐傻牟焕绊?。另一個(gè)存在的問題是,只有在理想情況下,風(fēng)格才獨(dú)立于其內(nèi)容,如果直接更改圖像的整體風(fēng)格,會(huì)使圖像的內(nèi)容信息產(chǎn)生部分損失。
針對(duì)上述問題,本文提出了一種新的域自適應(yīng)方法。因?yàn)榈凸庹請(qǐng)D像的不同區(qū)域中的特征差距較大,低信噪比區(qū)域的局部信息往往已經(jīng)嚴(yán)重丟失,而高信噪比區(qū)域中仍然可以具有合理的特征信息,所以需要自適應(yīng)地考慮低光照?qǐng)D像中的不同區(qū)域。為了實(shí)現(xiàn)這種長(zhǎng)、短距離的自適應(yīng),本文在特征提取器中設(shè)計(jì)了兩個(gè)分支操作,長(zhǎng)、短距離分支分別基于Transformer結(jié)構(gòu)[14]和卷積殘差塊[15],將信噪比圖作為一種先驗(yàn)知識(shí),從而指導(dǎo)這兩個(gè)分支的特征融合。另一方面,為了減小圖像內(nèi)容信息上的損失,本文設(shè)計(jì)了一種可學(xué)習(xí)的光照過濾器,根據(jù)特征圖所計(jì)算的Gram矩陣作為輸入,嘗試從圖像的整體風(fēng)格中進(jìn)一步提取與光照風(fēng)格相關(guān)的信息,學(xué)習(xí)將不同光照條件的信息區(qū)分開。語(yǔ)義分割模型在訓(xùn)練過程中縮小不同光照風(fēng)格信息的差距,最終得到語(yǔ)義分割網(wǎng)絡(luò)的光照不變特征。本文的貢獻(xiàn)可以總結(jié)如下:a)在分割網(wǎng)絡(luò)的淺層特征中設(shè)計(jì)了長(zhǎng)、短距離分支來自適應(yīng)地考慮低光照?qǐng)D像中的不同區(qū)域,并利用信噪比圖進(jìn)一步修改了自注意力操作;b)設(shè)計(jì)了一個(gè)光照過濾器,用于低光照?qǐng)D像的語(yǔ)義分割;c)提出了一種新的域自適應(yīng)框架,在LLRGBD數(shù)據(jù)集上的實(shí)驗(yàn)表明,該框架優(yōu)于現(xiàn)有方法,取得了最好的分割效果。
1 相關(guān)概念
1.1 低光照?qǐng)D像的語(yǔ)義分割
針對(duì)真實(shí)低光照室內(nèi)場(chǎng)景的語(yǔ)義分割問題,Zhang等人[1]提出了一種級(jí)聯(lián)框架LISU,用于弱光室內(nèi)場(chǎng)景理解。根據(jù)Retinex理論研究了顏色恒常性,并進(jìn)一步發(fā)展為解決圖像的固有分解問題。如圖1所示[1],框架由兩部分組成:a)無監(jiān)督分解網(wǎng)絡(luò)LISU-decomp,將RGB圖像分解為相應(yīng)的光照?qǐng)D和粗反射圖;b)編碼器-解碼器網(wǎng)絡(luò)LISU-joint,以多任務(wù)方式學(xué)習(xí)反射圖的恢復(fù)和語(yǔ)義分割。將來自兩個(gè)任務(wù)的特征圖融合在一起,以進(jìn)行更緊密的聯(lián)合學(xué)習(xí)。
采用級(jí)聯(lián)結(jié)構(gòu)的LISU網(wǎng)絡(luò)模型,其語(yǔ)義分割結(jié)果嚴(yán)重依賴于分解網(wǎng)絡(luò)的效果,而且同時(shí)學(xué)習(xí)恢復(fù)反射信息和分割反射圖加重了特征提取器的負(fù)擔(dān)。LISU也沒有考慮到低光照環(huán)境下噪聲的影響。圖2[1]顯示了LISU的錯(cuò)誤實(shí)例,其中第一行是反光材料造成的白點(diǎn),第二行顯示了邊界上的故障分割。(a)為輸入的低照度圖像;(b)為L(zhǎng)ISU-decomp輸出的反射圖;(c)和(d)分別為L(zhǎng)ISU-joint輸出的恢復(fù)反射圖和分割圖;(e)是分割標(biāo)簽。紅色矩形表示感興趣的區(qū)域(參見電子版)。如圖2所示,即使是LISU恢復(fù)后的反射圖依然還有不小的噪聲,而且由于光照不均勻,部分反射材料在局部圖像中會(huì)引起過度曝光,此時(shí)圖像部分的局部信息丟失嚴(yán)重。由于局部信息的失真,在可見度較低區(qū)域的邊緣上甚至還可能出現(xiàn)分割故障。
1.2 風(fēng)格遷移
風(fēng)格遷移被用于研究圖像內(nèi)容以外的風(fēng)格。文獻(xiàn)[16]的研究表明,特征圖所映射的Gram矩陣可以作為圖像風(fēng)格的表示,并能夠通過近似對(duì)應(yīng)的Gram矩陣將圖像的風(fēng)格遷移到另外一張圖像上。Luan等人[17]提出的攝影風(fēng)格轉(zhuǎn)換的深度學(xué)習(xí)方法也進(jìn)一步證明了Gram矩陣的有效性。李鑫等人[18]提出了一個(gè)內(nèi)容語(yǔ)義和風(fēng)格特征匹配一致的風(fēng)格遷移網(wǎng)絡(luò)。特征圖的Gram矩陣記為G∈RApC×C,用來表示特征圖C個(gè)通道之間的相關(guān)性。對(duì)于G中的每個(gè)元素Gi,j=aTiaj,表示第i個(gè)特征圖通道與第j個(gè)特征圖通道之間的相關(guān)性,其中ai與aj分別表示第i與第j個(gè)特征圖通道的向量表示。分別計(jì)算基準(zhǔn)圖像和目標(biāo)風(fēng)格圖像的特征圖的Gram矩陣,以兩個(gè)圖像的Gram矩陣的差異最小化為優(yōu)化目標(biāo),不斷調(diào)整基準(zhǔn)圖像,使風(fēng)格不斷接近目標(biāo)風(fēng)格圖像。
1.3 域自適應(yīng)
域自適應(yīng)方法是遷移學(xué)習(xí)的一種,通常用來解決不同領(lǐng)域數(shù)據(jù)分布不一致的問題。本文工作也與域自適應(yīng)相關(guān),因?yàn)閮烧叨紝⒛P瓦m應(yīng)于未標(biāo)記的目標(biāo)域。語(yǔ)義分割的域自適應(yīng)方法可以根據(jù)執(zhí)行自適應(yīng)的級(jí)別進(jìn)行分類,分為輸入級(jí)別[19]、特征級(jí)別[10]和輸出級(jí)別[20]。本文模型SFIS特別與學(xué)習(xí)域不變特征的特征級(jí)自適應(yīng)有關(guān)。該類別中的大多數(shù)現(xiàn)有方法的主要目標(biāo)是希望特征提取器針對(duì)源域和目標(biāo)域數(shù)據(jù)集所提取的特征盡可能相近,鑒別器用于判斷提取的特征屬于哪個(gè)域,將鑒別器與分割模型一起訓(xùn)練,以便鑒別器最大化源域和目標(biāo)域之間的差異,而分割模型學(xué)習(xí)最小化差異。SFIS與這些方法有類似的想法,但正如展示的那樣,在SFIS中是通過縮小光照風(fēng)格信息之間的差距來使特征提取器學(xué)習(xí)到光照不變特征。
2 噪聲指導(dǎo)下過濾光照風(fēng)格的低光照分割模型
本文模型基于域自適應(yīng)方法,對(duì)圖像中不同的噪聲區(qū)域采用不同距離的信息交互,并通過光照過濾器從圖像的整體風(fēng)格中提取光照風(fēng)格并學(xué)習(xí)區(qū)分它們。語(yǔ)義分割網(wǎng)絡(luò)和光照過濾器模塊會(huì)交替訓(xùn)練,最終使編碼器學(xué)習(xí)到光照不變特征。
2.1 模型總體架構(gòu)
現(xiàn)有的LISU模型并沒有考慮到低光照環(huán)境下噪聲的影響,由于光照不均勻,部分反射材料在局部圖像中會(huì)引起過度曝光,此時(shí)圖像部分的局部信息丟失嚴(yán)重。針對(duì)這類問題,本文引入了長(zhǎng)短距離分支模塊的方法,對(duì)圖像中不同的噪聲區(qū)域采用不同距離的信息交互,在高噪聲區(qū)域采用長(zhǎng)距離的自注意力操作,在低噪聲區(qū)域采用短距離的卷積操作,從而避免高噪聲區(qū)域帶來的不利影響。
另一方面,由于LISU網(wǎng)絡(luò)模型采用的是級(jí)聯(lián)結(jié)構(gòu),其語(yǔ)義分割結(jié)果嚴(yán)重依賴于分解網(wǎng)絡(luò)的效果,而且同時(shí)學(xué)習(xí)恢復(fù)反射信息和分割反射圖加重了特征提取器的負(fù)擔(dān)。本文基于域自適應(yīng)方法,使語(yǔ)義分割網(wǎng)絡(luò)最小化不同域間的風(fēng)格差異。以往基于風(fēng)格遷移的網(wǎng)絡(luò)模型往往是直接對(duì)圖像整體風(fēng)格進(jìn)行遷移,但圖像的整體風(fēng)格也會(huì)受到光照以外因素的影響,所以這種方式會(huì)導(dǎo)致部分的內(nèi)容信息被更改。針對(duì)這個(gè)問題,本文采用將光照視為風(fēng)格的方法,設(shè)計(jì)了一個(gè)光照過濾器來過濾大部分內(nèi)容信息,從圖像的整體風(fēng)格中提取光照風(fēng)格,從而減小風(fēng)格遷移中圖像內(nèi)容信息上的損失。
SFIS模型主要包括語(yǔ)義分割網(wǎng)絡(luò)中的長(zhǎng)短距離分支模塊和光照過濾器模塊,其中,長(zhǎng)、短距離分支分別基于Transformer結(jié)構(gòu)和卷積殘差塊。如圖3所示,上下兩部分語(yǔ)義分割網(wǎng)絡(luò)的權(quán)重參數(shù)共享,網(wǎng)絡(luò)在訓(xùn)練階段的輸入數(shù)據(jù)為一對(duì)圖像,低光照?qǐng)D像Ia與正常光照?qǐng)D像Ib。對(duì)于其中給定的一幅輸入圖像I∈RApH×W×3,本文首先計(jì)算圖像I對(duì)應(yīng)的信噪比圖S∈RApH×W,將S作為掩碼來遮蔽高噪聲的區(qū)域塊,從而指導(dǎo)長(zhǎng)距離分支中自注意力的計(jì)算,還會(huì)作為權(quán)重來指導(dǎo)長(zhǎng)、短距離分支的特征融合。將圖像Ia與Ib分別輸入上下兩部分分割網(wǎng)絡(luò)后,得到的第一層特征圖會(huì)分別進(jìn)入長(zhǎng)距離分支和短距離分支。對(duì)于融合后的特征和其下一層特征(圖3中的橙色虛線框,參見電子版),將計(jì)算這兩層特征圖的Gram矩陣表示圖像的整體風(fēng)格,并將其上三角部分的向量表示ua,l、ub,l作為光照過濾器Fl中第l層的輸入,來提取光照風(fēng)格信息fa,l、fb,l。光照過濾器學(xué)習(xí)將不同的光照風(fēng)格信息區(qū)分開,而語(yǔ)義分割網(wǎng)絡(luò)不斷縮小不同光照風(fēng)格信息的差距,分別對(duì)應(yīng)圖3中的LFl與Llfsm。光照過濾器模塊和語(yǔ)義分割網(wǎng)絡(luò)會(huì)交替進(jìn)行訓(xùn)練,最終使其編碼器學(xué)習(xí)到光照不變特征,在測(cè)試階段只依靠語(yǔ)義分割網(wǎng)絡(luò)。
2.2 長(zhǎng)短距離分支
在低光照?qǐng)D像的不同區(qū)域中,噪聲和可見度等特征差距較大,對(duì)于極暗區(qū)域,由于相鄰的局部區(qū)域可見度較弱且多為噪聲,局部信息不足以分割像素,而長(zhǎng)距離中光照較好的區(qū)域中仍然可以有合理的特征信息。例如在圖2的中下方極暗區(qū)域很難辨別出物體,但旁邊的床頭墻壁等特征信息有利于識(shí)別出該物體的類別。在圖2中的過度曝光區(qū)域也是同理。所以需要自適應(yīng)地考慮低光照?qǐng)D像中的不同區(qū)域,而Transformer結(jié)構(gòu)通過全局自注意力機(jī)制能很好地捕獲長(zhǎng)距離的依賴關(guān)系,這在許多的高層級(jí)任務(wù)[21,22]和低層級(jí)任務(wù)[23,24]中都得到了證明。低光照?qǐng)D像中低信噪比的區(qū)域往往信息丟失嚴(yán)重,本文在信噪比低的區(qū)域中,利用長(zhǎng)距離分支考慮長(zhǎng)距離范圍內(nèi)的非局部圖像信息進(jìn)行交互;在信噪比較高區(qū)域中,利用短距離分支考慮短距離范圍內(nèi)的局部圖像信息就足夠了。信噪比也會(huì)作為權(quán)重,高噪聲區(qū)域的權(quán)重將會(huì)降低,從而避免高噪聲區(qū)域帶來的不利影響。
如圖4所示,首先需要根據(jù)式(1)計(jì)算輸入圖像I∈RApH×W×3的信噪比圖S∈RApH×W,將其按照特征圖F∈RAph×w×C的大小進(jìn)行重新調(diào)整后得到S′∈RAph×w,進(jìn)一步分解成塊(與特征圖F相同的分解方式)。然后根據(jù)式(2)利用閾值將得到的值視為掩碼,遮蔽掉極低信噪比的塊,從而根據(jù)式(4)利用信噪比圖S′指導(dǎo)長(zhǎng)距離分支中自注意力的計(jì)算,進(jìn)一步根據(jù)式(6)指導(dǎo)長(zhǎng)短距離分支的特征融合。在長(zhǎng)距離分支中,需要將特征提取器得到的第一層特征圖F分解成塊。假設(shè)每一個(gè)塊的大小為p×p,那么特征圖F可以分解為m塊,m=(h/p)×(w/p),即Fi∈RApp×p×C,i∈{1,…,m}。這些塊將會(huì)被進(jìn)一步拉平為一維向量,并被輸入到Transformer進(jìn)行自注意力的計(jì)算,由于自注意力計(jì)算中輸出的塊序列維度大小與輸入序列的維度大小相同,所以將輸出的序列重新拼接為特征圖Fl∈RAph×w×C。對(duì)于短距離分支,采用的就是基本的殘差塊,其輸出特征與輸入特征的大小也會(huì)保持相同,即Fs∈RAph×w×C。特征圖Fl,F(xiàn)s則根據(jù)式(6)融合為特征圖Fm。
2.2.1 信噪比圖
如圖4所示,網(wǎng)絡(luò)模型需要先估計(jì)輸入圖像的信噪比圖S。與以往傳統(tǒng)的去噪方法[25,26]類似,本文將噪聲視為空間域上相鄰像素之間的不連續(xù)過渡。噪聲分量可以建模為噪聲圖像與對(duì)應(yīng)無噪聲圖像之間的距離。信噪比圖像的具體計(jì)算方法如下:對(duì)于給定的一幅輸入圖像I∈RApH×W×3,首先計(jì)算圖像I的對(duì)應(yīng)灰度圖,即Ig∈RApH×W,然后根據(jù)式(1)計(jì)算信噪比圖S∈RApH×W。
其中:denoise代表傳統(tǒng)的去噪方法,本文采用均值濾波;abs代表絕對(duì)值;N是估計(jì)的噪聲圖。
2.2.2 信噪比圖指導(dǎo)自注意力
在原始的Transformer結(jié)構(gòu)中,自注意力的計(jì)算是在所有塊中進(jìn)行的,所以不管圖像區(qū)域的噪聲水平如何,都會(huì)與之計(jì)算相應(yīng)的注意力。但在低光照?qǐng)D像的不同區(qū)域中,特征差距較大,極低信噪比的區(qū)域往往已經(jīng)被噪聲嚴(yán)重污染,所以極低信噪比區(qū)域的信息是不準(zhǔn)確的。本文用信噪比圖來指導(dǎo)自注意力的計(jì)算。
圖5顯示了信噪比圖指導(dǎo)自注意力的計(jì)算過程。給定一張輸入圖像I∈RApH×W×3,計(jì)算得到的對(duì)應(yīng)信噪比圖為S∈RApH×W。首先需要將信噪比圖S重新調(diào)整大小S′∈RAph×w,從而使信噪比圖能夠與特征圖F相匹配。然后同樣地,按照分解特征圖F的方式,將S′分解為m塊,再計(jì)算每個(gè)塊中信噪比的平均值,即Si∈RAp1,i∈{1,…,m},將這些值拼接為一個(gè)向量Sv∈RApm。向量Sv在Transformer的自注意力計(jì)算中主要起到掩碼的作用,從而避免極低信噪比區(qū)域中噪聲的影響。Si中第i個(gè)元素的掩碼值為
其中:s是設(shè)置的閾值。然后將Sv復(fù)制m份,堆疊成一個(gè)矩陣S′v∈RApm×m。在自注意力計(jì)算最后的softmax部分,利用掩碼將信噪比極低的塊過濾掉。假設(shè)多頭自注意力中的頭數(shù)為B,那么Transformer中第i層中的第b個(gè)頭自注意力的計(jì)算Attentionb可以表示為
將特征圖F拆分得到的Fi∈RApp×p×C,i∈{1,…,m}打平成一維向量,LN為歸一化層,通過式(5)即可得到q,k,v∈RApm×(p×p×C)。
q=k=v=LN([F1,…,F(xiàn)m])(5)
2.2.3 信噪比圖指導(dǎo)特征融合
對(duì)于長(zhǎng)距離分支得到的特征圖Fl∈RAph×w×C和短距離分支得到的特征圖Fs∈RAph×w×C,本文將信噪比圖作為一種先驗(yàn)知識(shí),指導(dǎo)這兩個(gè)分支的特征融合。對(duì)于重新調(diào)整大小的信噪比圖S′∈RApH×W,進(jìn)一步將其值歸一化到[0,1],并將歸一化后的S′作為權(quán)重來融合Fl和Fs。長(zhǎng)距離分支與短距離分支特征圖的融合可以通過式(6)計(jì)算。
Fm=Fs×S′+Fl×(1-S′)(6)
2.3 光照過濾器
Gram矩陣可以作為圖像的風(fēng)格表示已經(jīng)在許多工作中得到了證實(shí)[16,17]。但只有在理想情況下,風(fēng)格才獨(dú)立于其內(nèi)容,而圖像的整體風(fēng)格也會(huì)受到光照以外的因素甚至圖像內(nèi)容的影響,如果直接更改圖像的整體風(fēng)格,會(huì)使圖像的內(nèi)容信息產(chǎn)生一定程度的損失。低光照?qǐng)D像與正常光照?qǐng)D像的主要差別來自于光照,本文將光照視為風(fēng)格,從整體風(fēng)格中進(jìn)一步提取光照風(fēng)格信息,只對(duì)光照風(fēng)格進(jìn)行遷移修改,從而減小圖像內(nèi)容信息上的損失。值得注意的是,光照過濾器模塊不是直接將特征圖作為輸入,而是將特征圖的整體風(fēng)格表示作為輸入,通過過濾掉圖像的大部分內(nèi)容信息,更專注于圖像的風(fēng)格。這樣,風(fēng)格表示可以看做是編碼本文先驗(yàn)知識(shí)的硬連線層[27]。
將特征圖的Gram矩陣記為G∈RApC×C,用來表示特征圖C個(gè)通道之間的相關(guān)性。對(duì)于G中的每個(gè)元素Gi,j=aTiaj,表示第i與第j個(gè)特征圖通道之間的相關(guān)性,其中ai與aj分別表示第i與第j個(gè)特征圖通道的向量表示。由于Gram矩陣是對(duì)稱的,所以只需要將Gram矩陣的上三角部分的向量表示作為光照過濾器模塊的輸入。
如圖6所示,光照過濾器中的兩層模塊由包含Leaky ReLU激活函數(shù)[28]的多層感知器實(shí)現(xiàn)。分割網(wǎng)絡(luò)編碼器對(duì)于低光照?qǐng)D像Ia與正常光照?qǐng)DIb所提取的特征圖(圖3中的橙色虛線框),將對(duì)應(yīng)層所計(jì)算的Gram矩陣的上三角部分的向量表示ua,l、ub,l作為該模塊的輸入,嘗試從整體風(fēng)格中進(jìn)一步提取與光照相關(guān)的風(fēng)格信息fa,l、fb,l。光照過濾器模塊根據(jù)式(8)中的LFl損失學(xué)習(xí)將不同光照條件的風(fēng)格信息區(qū)分開,而語(yǔ)義分割模型在訓(xùn)練過程中根據(jù)式(10)中的 Llfsm(fa,l,fb,l)損失縮小不同光照風(fēng)格信息的差距,最終使語(yǔ)義分割網(wǎng)絡(luò)的編碼器學(xué)習(xí)到光照不變特征。
用Ia、Ib來表示小批量數(shù)據(jù)中的一對(duì)輸入圖像,F(xiàn)l表示光照過濾器中第l層模塊,ua,l、ub,l分別表示對(duì)應(yīng)Gram矩陣上三角部分的向量表示,Gram矩陣是由輸入圖像的對(duì)應(yīng)層特征圖所計(jì)算得到的。那么對(duì)應(yīng)圖像的光照風(fēng)格信息可以由式(7)得到。
fa,l=Fl(ua,l),fb,l=Fl(ub,l)(7)
光照過濾器的作用是通過得到的光照風(fēng)格信息fa,l與fb,l,讓分割網(wǎng)絡(luò)了解到輸入圖像Ia、Ib在光照條件方面的不同。為此,光照過濾器會(huì)學(xué)習(xí)光照風(fēng)格信息的映射空間,使不同光照條件的光照風(fēng)格信息彼此遠(yuǎn)離。對(duì)于給定小批量數(shù)據(jù)中每個(gè)圖像對(duì)的集合P,光照過濾器中每個(gè)層Fl的損失函數(shù)設(shè)計(jì)如下:
其中:m是超參數(shù),代表邊界;d(·)代表余弦距離。
2.4 分割網(wǎng)絡(luò)損失函數(shù)
語(yǔ)義分割網(wǎng)絡(luò)使用一對(duì)圖像進(jìn)行訓(xùn)練,包括一張低光照?qǐng)D像和一張正常光照?qǐng)D像,分別用于語(yǔ)義分割、光照不變性的學(xué)習(xí)和不同光照但同一場(chǎng)景下的一致性分割預(yù)測(cè)。
2.4.1 分割損失
對(duì)于語(yǔ)義分割的學(xué)習(xí),本文采用像素級(jí)的交叉熵?fù)p失函數(shù)應(yīng)用于單個(gè)圖像。具體來說,分割損失由式(9)計(jì)算。
其中:pci表示預(yù)測(cè)的像素i屬于類別c的概率;M是定義的類別集;n是像素的總個(gè)數(shù)。
2.4.2 光照風(fēng)格匹配損失
對(duì)于給定小批量數(shù)據(jù)中的一個(gè)圖像對(duì),分割網(wǎng)絡(luò)學(xué)習(xí)使光照風(fēng)格信息之間的距離盡可能接近,從而使特征提取器學(xué)習(xí)到光照不變特征,所以光照風(fēng)格損失與光照過濾器所得到的光照風(fēng)格信息相匹配。分別用fa,l與fb,l來表示光照過濾器每個(gè)層Fl所得到的光照風(fēng)格信息,那么光照風(fēng)格損失可以通過以下?lián)p失進(jìn)行計(jì)算:
其中:dl和nl分別代表光照風(fēng)格信息的維數(shù)和特征提取器中第l層特征的空間大小。
2.4.3 一致性損失
同一場(chǎng)景下的低光照?qǐng)D像和正常光照?qǐng)D像之間有高度重疊的語(yǔ)義信息,所以對(duì)應(yīng)語(yǔ)義分割的預(yù)測(cè)結(jié)果應(yīng)當(dāng)是盡量相同的,所以本文利用損失函數(shù)鼓勵(lì)網(wǎng)絡(luò)模型預(yù)測(cè)相同的分割圖。用Pai∈RApc和Pbi∈RApc分別表示針對(duì)圖像的每個(gè)像素i,分割網(wǎng)絡(luò)所預(yù)測(cè)的類別概率向量,其中c為類別數(shù)。一致性損失強(qiáng)調(diào)所有像素Pai和Pbi的一致性,可以通過下面的損失函數(shù)來計(jì)算:
其中:KLdiv(·,·)代表KL散度。一致性損失與式(10)光照風(fēng)格匹配損失具有相同的目標(biāo),但是在網(wǎng)絡(luò)模型的預(yù)測(cè)層,通過更強(qiáng)制的手段學(xué)習(xí)光照不變特征,鼓勵(lì)模型預(yù)測(cè)相同的分割圖,更積極地對(duì)齊兩種域。而且一致性損失與式(9)中的分割損失是彼此互補(bǔ)的,因?yàn)槭剑?1)中的概率分布進(jìn)一步提供了分割損失所使用的類標(biāo)簽之外的信息。
最終,分割網(wǎng)絡(luò)的整體損失如下:
L=Lce+λfsmLlfsm+λconLcon(12)
其中:λfsm和λcon是用來平衡的超參數(shù)。
3 實(shí)驗(yàn)與結(jié)果
3.1 數(shù)據(jù)集
LLRGBD[1]是一個(gè)低光照室內(nèi)場(chǎng)景數(shù)據(jù)集,由一個(gè)大規(guī)模合成數(shù)據(jù)集LLRGBD-synthetic和一個(gè)稱為L(zhǎng)LRGBD-real的小規(guī)模真實(shí)數(shù)據(jù)集組成,針對(duì)每一個(gè)圖像對(duì),還提供了相應(yīng)的深度圖。數(shù)據(jù)集LLRGBD包含室內(nèi)場(chǎng)景的一對(duì)低光照和正常光圖像,其中共有32個(gè)室內(nèi)場(chǎng)景,真實(shí)標(biāo)簽共包括13個(gè)類別。合成的LLRGBD-synthetic數(shù)據(jù)集中總共包含了29 K×2張圖像,圖像分辨率為640×480,并按90%~10%的比例隨機(jī)分為訓(xùn)練集和測(cè)試集。真實(shí)數(shù)據(jù)集LLRGBD-real中共包含515對(duì)640×480分辨率的低/正常光照?qǐng)D像,其中使用415對(duì)圖像作為訓(xùn)練集,100對(duì)圖像作為測(cè)試集。
3.2 實(shí)驗(yàn)細(xì)節(jié)
本文利用PyTorch[29]實(shí)現(xiàn)了網(wǎng)絡(luò)模型的整體框架,并在具有Quadro RTX 8000 GPU的Linux系統(tǒng)上進(jìn)行了訓(xùn)練和測(cè)試。在模型的訓(xùn)練階段,將所有圖像的大小調(diào)整為320×240,并且沒有采用任何的數(shù)據(jù)增強(qiáng)。對(duì)于LLRGBD-synthetic數(shù)據(jù)集,模型訓(xùn)練50個(gè)epoch,在LLRGBD-real數(shù)據(jù)集上訓(xùn)練300個(gè)epoch。
為了避免光照過濾器冷啟動(dòng),前100輪只訓(xùn)練光照過濾器,然后對(duì)于每個(gè)小批量的數(shù)據(jù)交替訓(xùn)練語(yǔ)義分割網(wǎng)絡(luò)和光照過濾器。整體網(wǎng)絡(luò)結(jié)構(gòu)采用ResNet-101[15]為骨干網(wǎng)的RefineNet-lw[30]作為本文的分割網(wǎng)絡(luò),將兩層特征圖的Gram矩陣作為光照過濾器的輸入,分割網(wǎng)絡(luò)由SGD訓(xùn)練,動(dòng)量為0.9,編碼器的初始學(xué)習(xí)率為6E-4,解碼器為6E-3,兩個(gè)學(xué)習(xí)率都通過0.5次多項(xiàng)式衰減降低。兩個(gè)光照過濾模塊使用Adamax[31]進(jìn)行訓(xùn)練,初始學(xué)習(xí)率分別為5E-4和1E-3,將光照風(fēng)格信息的維度設(shè)置為64。超參數(shù)λfsm、λcon和m分別設(shè)置為5E-7、1E-4和0.1。
3.3 定量分析
表1、2分別在LLRGBD-synthetic和LLRGBD-real數(shù)據(jù)集上比較了本文模型和現(xiàn)有方法的定量結(jié)果。本文在LLRGBD-synthetic數(shù)據(jù)集上與SegNet[32]、U-Net[33]、LISU[1],還有域適應(yīng)方法FIFO[13]和SePiCo[34]的分割精度進(jìn)行了比較,進(jìn)一步在LLRGBD-real數(shù)據(jù)集上還與DLv3p[35]和其變體DLv3p-joint的分割精度進(jìn)行了比較。其變體DLv3p-joint采用LISU的改進(jìn)策略,通過聯(lián)合學(xué)習(xí)進(jìn)一步恢復(fù)反射圖,詳細(xì)信息可以參考文獻(xiàn)[1]。本文的主干網(wǎng)絡(luò)為基于ResNet-101的RefineNet-lw。FIFO模型的主干網(wǎng)絡(luò)采用的也是RefineNet-lw,對(duì)于SePiCo,本文采用的是 ResNet-101實(shí)現(xiàn)的DeepLab-V2作為主干網(wǎng)絡(luò)SePiCo(DistCL)的對(duì)比模型。為了比較的公平性,對(duì)于FIFO模型,并沒有進(jìn)一步采用合成的低光照?qǐng)D像作為補(bǔ)充域。
如表1、2所示,本文方法在兩個(gè)數(shù)據(jù)集上的性能都優(yōu)于現(xiàn)有的模型。評(píng)估指標(biāo)主要包括總體精度 (OA)、平均精度(mAcc)、平均交并比(mIoU)。LISU模型是當(dāng)前LLRGBD數(shù)據(jù)集上性能最好的模型,由于SFIS采用的是域自適應(yīng)方法,本文進(jìn)一步比較了最新的兩種域自適應(yīng)模型FIFO和SePiCo。實(shí)驗(yàn)結(jié)果表明,在低光照環(huán)境下的圖像上,SFIS優(yōu)于之前的方法。相較于較好的域自適應(yīng)方法FIFO,本文模型SFIS在LLRGBD-synthetic數(shù)據(jù)集上的mIoU提升了2.9%,在LLRGBD-real數(shù)據(jù)集上的mIoU提升了2.6%。這些提升很可能是由于SFIS進(jìn)一步利用了低光照?qǐng)D像中的噪聲信息。
本文還進(jìn)一步與在合成數(shù)據(jù)集LLRGBD-synthetic上預(yù)訓(xùn)練的LISU模型進(jìn)行了比較,最終在LLRGBD-real數(shù)據(jù)上的定量結(jié)果如表3所示。本文預(yù)訓(xùn)練的SFIS模型在真實(shí)數(shù)據(jù)集LLRGBD-real上的結(jié)果遠(yuǎn)優(yōu)于LISU (pre-trained)模型,OA、mAcc和mIoU分別提升了10.1%、11.5%、14.6%。本文的預(yù)訓(xùn)練模型相較于原模型的mIoU提升了2.6%。
表4進(jìn)一步列出了一些網(wǎng)絡(luò)的詳細(xì)定量比較,包括每個(gè)類別的IoU以及整體的mIoU,其中最好的結(jié)果用粗體顯示。SFIS在墻壁、椅子、書籍等物體上的分割精度要明顯優(yōu)于其他模型。
3.4 定性結(jié)果
本節(jié)可視化了部分對(duì)比模型的語(yǔ)義分割結(jié)果,包括當(dāng)前LLRGBD數(shù)據(jù)集上表現(xiàn)最好的模型LISU,以及域自適應(yīng)方法中較好的模型FIFO。圖7中顯示了定性比較的結(jié)果,可視化了它們與本文方法的預(yù)測(cè)圖。雖然在網(wǎng)絡(luò)模型的推理階段并不需要正常光照?qǐng)D像,但為了更好地可視化比較,圖中依然顯示它們。對(duì)于低光照?qǐng)D像中物體的語(yǔ)義分割效果,LISU模型的輸出結(jié)果還是相對(duì)較差的,F(xiàn)IFO模型的輸出結(jié)果相比前者來說更平滑一些,但在物體邊緣部分的擬合效果還不夠完善。SFIS的語(yǔ)義分割預(yù)測(cè)圖在物體邊緣部分,比如椅子、家具、杯子等較小物體的邊緣,其擬合效果要明顯優(yōu)于前兩個(gè)模型。
3.5 消融實(shí)驗(yàn)
通過從模型中刪除不同的組件,考慮了幾種消融設(shè)置?!皁urs w/o L”表示去掉了長(zhǎng)距離分支,分割網(wǎng)絡(luò)中只保留卷積操作;“ours w/o S”表示去掉了短距離分支,保留長(zhǎng)距離分支和信噪比圖指導(dǎo)的自注意力操作;“ours w/o A”表示去掉了信噪比圖指導(dǎo)的自注意力操作;“ours w/o IF”表示去掉了光照過濾器,只用分割網(wǎng)絡(luò)進(jìn)行訓(xùn)練和測(cè)試。表5總結(jié)了相應(yīng)消融結(jié)果,與所有的消融設(shè)置相比,完整框架設(shè)置在三個(gè)指標(biāo)上都取得了最高分?jǐn)?shù)。實(shí)驗(yàn)結(jié)果顯示了信噪比圖指導(dǎo)的自注意力操作、長(zhǎng)短距離分支和光照過濾器的有效性。
4 結(jié)束語(yǔ)
本文針對(duì)室內(nèi)低光照環(huán)境下的語(yǔ)義分割進(jìn)行了研究,提出了一種新的解決方案。在低光照?qǐng)D像中,不同區(qū)域擁有不同的噪聲,為了避免高噪聲區(qū)域的影響,本文采用了兩個(gè)不同距離的分支操作。利用信噪比圖指導(dǎo)長(zhǎng)/短距離分支的特征融合,進(jìn)一步指導(dǎo)長(zhǎng)距離分支中自注意力計(jì)算,只讓高信噪比的區(qū)域參與自注意力計(jì)算。另一方面,提出了光照過濾模塊,從圖像的整體風(fēng)格中進(jìn)一步提取光照風(fēng)格信息,通過減小不同光照風(fēng)格信息之間的差距和分割損失來訓(xùn)練分割網(wǎng)絡(luò),從而使分割網(wǎng)絡(luò)學(xué)習(xí)光照不變特征。實(shí)驗(yàn)表明,本文方法在低光照環(huán)境下取得了較好的分割效果。接下來,本文會(huì)在更多更具有代表性的數(shù)據(jù)集上進(jìn)行測(cè)試,并調(diào)整網(wǎng)絡(luò)模型,探索高噪聲區(qū)域自注意力的計(jì)算方式。
參考文獻(xiàn):
[1]Zhang Ning,Nex F,Kerle N,et al.LISU:low-light indoor scene understanding with joint learning of reflectance restoration[J].ISPRS Journal of Photogrammetry and Remote Sensing,2022,183:470-481.
[2]付延年.面向自動(dòng)駕駛的可見光和紅外圖像語(yǔ)義分割算法研究[D].杭州:浙江大學(xué),2021.(Fu Yannian.Research on visible and infrared images semantic segmentation for autonomous vehicles[D].Hangzhou:Zhejiang University,2021.)
[3]Liu Risheng,Ma Long,Zhang Jiaao,et al.Retinex-inspired unrolling with cooperative prior architecture search for low-light image enhancement [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:10556-10565.
[4]Xu Ke,Yang Xin,Yin Baocai,et al.Learning to restore low-light images via decomposition-and-enhancement[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:2278-2287.
[5]Xu Xiaogang,Wang Ruixing,F(xiàn)u C W,et al.SNR-aware low-light image enhancement [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:17693-17703.
[6]Sakaridis C,Dai Dengxin,Van Gool L.Map-guided curriculum domain adaptation and uncertainty-aware evaluation for semantic nighttime image segmentation[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2020,44(6):3139-3153.
[7]Wu Xinyi,Wu Zhenyao,Guo Hao,et al.DANNet:a one-stage domain adaptation network for unsupervised nighttime semantic segmentation [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:15764-15773.
[8]Dai Dengxin,Gool L V.Dark model adaptation:semantic image segmentation from daytime to nighttime[C]//Proc of the 21st International Conference on Intelligent Transportation Systems.Piscataway,NJ:IEEE Press,2018:3819-3824.
[9]Gao Huan,Guo Jichang,Wang Guoli,et al.Cross-domain correlation distillation for unsupervised domain adaptation in night time semantic segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:9903-9913.
[10]Wang Haoran,Shen Tong,Zhang Wei,et al.Classes matter:a fine-grained adversarial approach to cross-domain semantic segmentation[M]//Vedaldi A,Bischof H,Brox T,et al.Computer Vision.Cham:Springer,2020:642-659.
[11]Isobe T,Jia Xu,Chen Shuaijun,et al.Multi-target domain adaptation with collaborative consistency learning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:8183-8192.
[12]張桂梅,潘國(guó)峰,劉建新.域自適應(yīng)城市場(chǎng)景語(yǔ)義分割 [J].中國(guó)圖像圖形學(xué)報(bào),2020,25(5):913-925.(Zhang Guimei,Pan Guofeng,Liu Jianxin.Domain adaptation for semantic segmentation based on adaption learning rate[J].Journal of Image and Gra-phics,2020,25(5):913-925.)
[13]Lee S,Son T,Kwak S.FIFO:learning fog-invariant features for foggy scene segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:18889-18899.
[14]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:6000-6010.
[15]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual lear-ning for image recognition[C]//Proc of IEEE Conference on Compu-ter Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:770-778.
[16]Gatys L A,Ecker A S,Bethge M.Image style transfer using convolutional neural networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:2414-2423.
[17]Luan Fujun,Paris S,Shechtman E,et al.Deep photo style transfer[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2017:4990-4998.
[18]李鑫,普?qǐng)@媛,趙征鵬,等.內(nèi)容語(yǔ)義和風(fēng)格特征匹配一致的藝術(shù)風(fēng)格遷移[J].圖學(xué)學(xué)報(bào),2023,44(4):699-709.(Li Xin,Pu Yuanyuan,Zhao Zhengpeng,et al.Content semantics and style features match consistent artistic style transfer[J].Journal of Graphics,2023,44(4):699-709.)
[19]Pizzati F,Charette R,Zaccaria M,et al.Domain bridge for unpaired image-to-image translation and unsupervised domain adaptation[C]//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision.Piscataway,NJ:IEEE Press,2020:2990-2998.
[20]Luo Yawei,Zheng Liang,Guan Tao,et al.Taking a closer look at domain shift:category-level adversaries for semantics consistent domain adaptation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:2507-2516.
[21]Han Kai,Wang Yunhe,Chen Hanting,et al.A survey on vision transformer[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2022,45(1):87-110.
[22]Khan S,Naseer M,Hayat M,et al.Transformers in vision:a survey[J].ACM Computing Surveys,2022,54(10):1-41.
[23]Chen Hanting,Wang Yunhe,Guo Tianyu,et al.Pre-trained image processing transformer[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:12299-12310.
[24]Wang Zhendong,Cun Xiaodong,Bao Jianmin,et al.Uformer:a general U-shaped transformer for image restoration[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:17662-17672.
[25]Buades A,Coll B,Morel J M.A non-local algorithm for image denoi-sing[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2005:60-65.
[26]Dabov K,F(xiàn)oi A,Katkovnik V,et al.Image denoising with block-matching and 3D filtering[M]//Nasrabadi N M,Rizvi S A,Dougherty E R.Image processing:algorithms and systems,neural networks,and machine learning.[S.l.]:SPIE,2006:606414.
[27]Ji Shuiwang,Xu Wei,Yang Ming,et al.3D convolutional neural networks for human action recognition[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2012,35(1):221-231.
[28]Maas A L,Hannun A Y,Ng A Y.Rectifier nonlinearities improve neural network acoustic models[C/OL]//Proc of the 30th International Conference on Machine Learning.(2013).https://ai.stanford.edu/%7Eamaas/papers/relu_hybrid_icml2013_final.pdf.
[29]Paszke A,Gross S,Massa F,et al.PyTorch:an imperative style,high-performance deep learning library[C]//Proc of the 33rd International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2019:article No.721.
[30]Nekrasov V,Shen Chunhua,Reid I.Light-weight RefineNet for real-time semantic segmentation [EB/OL].(2018-10-08).https://arxiv.org/abs/1810.03272.
[31]Kingma D P,Ba J.Adam:a method for stochastic optimization[EB/OL].(2017-01-30).https://arxiv.org/abs/1412.6980.
[32]Badrinarayanan V,Kendall A,Cipolla R.SegNet:a deep convolutional encoder-decoder architecture for image segmentation[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2017,39(12):2481-2495.
[33]Ronneberger O,F(xiàn)ischer P,Brox T.U-Net:convolutional networks for biomedical image segmentation[M]//Navab N,Hornegger J,Wells W,et al.Medical Image Computing and Computer-Assisted Intervention.Cham:Springer,2015:234-241.
[34]Xie Binhui,Li Shuang,Li Mingjia,et al.SePiCo:semantic-guided pixel contrast for domain adaptive semantic segmentation[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2023,45(7):9004-9021.
[35]Chen L C,Zhu Yukun,Papandreou G,et al.Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:833-851.