張嘉偉, 劉曉晨, 趙東花, 王晨光, 申 沖 , 唐 軍, 劉 俊
(1. 中北大學(xué) 儀器科學(xué)與動(dòng)態(tài)測(cè)試教育部重點(diǎn)實(shí)驗(yàn)室, 山西 太原 030051;2. 中北大學(xué) 量子傳感與精密測(cè)量?jī)x器山西省重點(diǎn)實(shí)驗(yàn)室(201905D121001), 山西 太原 030051;3. 東南大學(xué) 儀器科學(xué)與工程學(xué)院, 江蘇 南京 210096; 4. 中北大學(xué) 信息與通信工程學(xué), 山西 太原 030051)
長(zhǎng)期以來(lái), 模糊場(chǎng)景下獲取的輸入圖像嚴(yán)重影響了計(jì)算機(jī)視覺(jué)任務(wù)的性能表現(xiàn). 當(dāng)環(huán)境受到諸如煙霧、 霧霾、 灰塵等大氣中漂浮顆粒物的影響時(shí), 人類在自然界的活動(dòng)就會(huì)受到嚴(yán)重的影響, 甚至因?yàn)槟芤?jiàn)度的缺乏而威脅到自身人身安全. 戶外拍攝的照片往往會(huì)出現(xiàn)對(duì)比度下降等問(wèn)題, 其中包括顏色和結(jié)構(gòu)細(xì)節(jié)的退化. 因此, 單幅圖像去霧逐漸成為一項(xiàng)重要的研究課題, 其目的是有效地從受損輸入圖像中恢復(fù)清晰圖像的基本信息. 這可以被用作許多領(lǐng)域的高級(jí)視覺(jué)任務(wù)的預(yù)先準(zhǔn)備工作, 例如實(shí)時(shí)目標(biāo)檢測(cè)、 遙感和自動(dòng)無(wú)人運(yùn)輸?shù)鹊? 而其他的一些最初受到霧中環(huán)境影響的計(jì)算機(jī)視覺(jué)應(yīng)用, 也有機(jī)會(huì)得以完成.
一般來(lái)講, 霧天圖像的生成可以通過(guò)經(jīng)典的大氣散射模型來(lái)描述, 在物理大氣散射模型的基礎(chǔ)上, 早期研究中大多數(shù)去霧方法的提出依賴于物理學(xué)的先驗(yàn)知識(shí)和各種假設(shè)[1-2]. 如He等[1]提出的暗通道先驗(yàn)算法(DCP)就是其中最具代表性的算法, 這種方法在圖像去霧方面取得了一定的成績(jī), 但其假設(shè)并不能準(zhǔn)確地反映出圖像的內(nèi)在屬性. 因此, 這些技術(shù)的性能通常是極為有限的.
隨著近年來(lái)深度學(xué)習(xí)技術(shù)的興起與發(fā)展, 其逐漸被應(yīng)用到一些簡(jiǎn)單的計(jì)算機(jī)視覺(jué)任務(wù)中, 比如目標(biāo)識(shí)別和圖像重建等等. 與傳統(tǒng)方法相比, 深度學(xué)習(xí)方法具有非凡的去霧能力和魯棒性. 此外, 隨著卷積神經(jīng)網(wǎng)絡(luò)(CNN)技術(shù)在圖像去霧方面取得的顯著成就, 越來(lái)越多的研究團(tuán)隊(duì)傾向于使用類似的方法來(lái)估計(jì)大氣光以及傳輸圖, 利用外部數(shù)據(jù)以達(dá)到預(yù)期的效果. 例如, 在文獻(xiàn)[3]中, 采用端到端的方式來(lái)預(yù)估傳輸圖. 而在之后的研究中[4-6], 各種新技術(shù)逐漸被加入到這一領(lǐng)域來(lái)加強(qiáng)網(wǎng)絡(luò)的去霧效果. 由于深度學(xué)習(xí)網(wǎng)絡(luò)具有較強(qiáng)的表達(dá)性, 這些端到端的網(wǎng)絡(luò)模型往往能夠獲得比以往研究更好的去霧效果. 但是, 通常現(xiàn)實(shí)中的霧比計(jì)算機(jī)模擬的霧要復(fù)雜得多, 這也使得這些方法更難處理現(xiàn)實(shí)的霧天圖像. 另一方面, 它們都不可避免地需要巨額成本來(lái)支持計(jì)算. 以往的研究過(guò)多地集中于通過(guò)大幅度增加模型的深度或?qū)挾群褪褂么罅康挠?xùn)練參數(shù)來(lái)提高網(wǎng)絡(luò)的去霧性能[5,7-8]. 但它們并沒(méi)有合理地考慮時(shí)間消耗、 內(nèi)存消耗或計(jì)算消耗, 這也使得這些模型不能應(yīng)用于資源有限的環(huán)境中(如移動(dòng)端設(shè)備).
本文提出了一種基于多步融合的端到端自適應(yīng)特征注意去霧網(wǎng)絡(luò)用于單幅圖像去霧. 以往基于卷積神經(jīng)網(wǎng)絡(luò)的圖像去霧網(wǎng)絡(luò)通常采用固定形狀的卷積核, 導(dǎo)致無(wú)法有效利用特征空間中的結(jié)構(gòu)線索. 而本文提出的自適應(yīng)特征注意模塊可以在訓(xùn)練過(guò)程中自適應(yīng)調(diào)整可變形卷積核來(lái)獲取和處理空間中的關(guān)鍵結(jié)構(gòu)信息. 此外, 多步融合模塊的應(yīng)用能夠使網(wǎng)絡(luò)中不同層次、 不同步驟間的特征有效地結(jié)合在一起. 該網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)化而緊湊, 不僅降低了計(jì)算消耗, 而且在多個(gè)數(shù)據(jù)集和真實(shí)霧天圖像上皆顯示了良好的視覺(jué)效果. 大量的實(shí)驗(yàn)結(jié)果表明, 本文的去霧網(wǎng)絡(luò)具有較高的有效性和實(shí)用性.
受文獻(xiàn)[7]中FA模塊的啟發(fā), 本文提出了一個(gè)新的自適應(yīng)特征注意模塊作為本網(wǎng)絡(luò)的基本模塊, 并且只需要5個(gè)該模塊用于網(wǎng)絡(luò)的主要架構(gòu). 與此同時(shí), 每個(gè)自適應(yīng)特征注意模塊之間采用多步融合模塊來(lái)實(shí)現(xiàn)不同步驟之間的特征融合, 極大程度降低了計(jì)算所需的內(nèi)存(相比于原始網(wǎng)絡(luò)[7]中的57個(gè)特征注意模塊). 如圖 1 所示, 本文的網(wǎng)絡(luò)首先應(yīng)用下采樣操作(如一個(gè)步長(zhǎng)為1的卷積層和一個(gè)步長(zhǎng)為2的卷積層,其后是各自的ReLU函數(shù))為使后續(xù)模塊獲得學(xué)習(xí)低分辨率域特征表示的能力. 在經(jīng)過(guò)連續(xù)的自適應(yīng)特征注意模塊和多步融合模塊后, 最終使用相關(guān)的上采樣操作生成恢復(fù)的無(wú)霧圖像. 一般來(lái)說(shuō), 隨著網(wǎng)絡(luò)深度的增加, 邊緣等淺層特征會(huì)在訓(xùn)練過(guò)程中逐漸丟失. 包括文獻(xiàn)[7,9]在內(nèi)的一些研究, 會(huì)通過(guò)多跳連接的操作將淺層特征和深層特征結(jié)合起來(lái)形成輸出.
圖1 基于多步融合的自適應(yīng)特征注意網(wǎng)絡(luò)體系結(jié)構(gòu)
在早期的研究中[5,7,10], 通常采用圖 2 右上方所示的固定網(wǎng)絡(luò)卷積核, 這導(dǎo)致了接受域的局限性, 使其無(wú)法有效地探索特征空間中的結(jié)構(gòu)化線索. 因此, 為了解決這個(gè)問(wèn)題, 調(diào)整接受域的形狀至關(guān)重要. 如圖 2 右下方所示, 由于可變形卷積核的靈活性, 它能夠自適應(yīng)地獲取更關(guān)鍵的結(jié)構(gòu)信息.
圖2 可變形卷積原理Fig.2 Principle of deformable convolution
空間不變的卷積核通常會(huì)導(dǎo)致圖像紋理的破壞, 這在之前的研究中已經(jīng)得到證實(shí). 作為本文自適應(yīng)特征注意模塊的核心要素, 在原始像素注意模塊[11]中引入2個(gè)具有可變形2D核的可變形卷積層, 如圖 3 所示.
該方法實(shí)現(xiàn)了感受野的自適應(yīng)擴(kuò)展, 提高了模型在聚焦于濃霧像素和高頻圖像區(qū)域計(jì)算時(shí)的轉(zhuǎn)換能力. 對(duì)網(wǎng)格的無(wú)約束變形進(jìn)行采樣的能力也使網(wǎng)絡(luò)能夠自適應(yīng)地整合更多的空間結(jié)構(gòu)信息, 以達(dá)到更好的去霧效果. 此外, 在每個(gè)自適應(yīng)特征注意模塊中, 深層部署時(shí)的可變形卷積效果優(yōu)于淺層部署時(shí)的可變形卷積效果. 因此, 該過(guò)程可以定義為
PA=Fin?
σ(DfConv(DfConv(Conv(δ((Conv(Fin))))))),
(1)
式中:DfConv代表可變形卷積運(yùn)算;σ為sigmoid函數(shù). 自適應(yīng)特征注意模塊的其余部分基本保持了特征注意模塊[7]的網(wǎng)絡(luò)結(jié)構(gòu).
圖3 自適應(yīng)特征注意模塊的基本架構(gòu)Fig.3 The basic architecture of the self-adaptation featureattention module
一般情況下, 包括邊緣等局部信息在內(nèi)的低級(jí)特征通常很容易被提取出來(lái). 隨著感受野的提升, 網(wǎng)絡(luò)可以通過(guò)高級(jí)特征獲得全局范圍的語(yǔ)義. 在諸多例如目標(biāo)檢測(cè)、 圖像恢復(fù)等基于CNN任務(wù)的情況下, 應(yīng)用不同層次的特征提取與融合方法取得了顯著的效果. 然而, 在圖像去霧領(lǐng)域, 現(xiàn)有的特征融合方法沒(méi)有充分考慮不同層次的特征融合. 通常, 只使用高級(jí)特征會(huì)導(dǎo)致圖像缺乏局部細(xì)節(jié); 而只應(yīng)用低級(jí)特征雖然保留了細(xì)節(jié), 但并不能有效地在全局級(jí)別恢復(fù)語(yǔ)義. 為了充分利用該方法的優(yōu)點(diǎn), 本文在去霧網(wǎng)絡(luò)加入了多步特征融合模塊. 如圖 1 所示, 從左到右共有4個(gè)融合模塊. 第1個(gè)模塊將來(lái)自步驟1和步驟2的特征進(jìn)行融合, 得到的融合特征1將被作為低級(jí)特征繼續(xù)與第2個(gè)融合模塊中步驟3的高級(jí)特征進(jìn)行融合, 生成融合特征2. 同樣地, 步驟4之后生成的融合特征3也被用于步驟5后的最終特征融合模塊.
對(duì)于每個(gè)特征融合模塊, 通常分別存在一個(gè)低級(jí)特征和一個(gè)高級(jí)特征. 它們?cè)谌诤现岸家?jīng)過(guò)一個(gè)卷積層, 然后通過(guò)一個(gè)元素積來(lái)完成融合操作. 融合特征將兩個(gè)不同的特征組合在一起, 經(jīng)過(guò)卷積層和ReLU層, 然后依次由下一個(gè)融合模塊進(jìn)行處理. 各融合模塊的高級(jí)特征和低級(jí)特征分別表示為Fh和Fl,δ表示ReLU函數(shù),F(xiàn)out表示整個(gè)模塊的最終輸出. 最后, 這個(gè)過(guò)程可表示為
Fout=δ(Conv(Conv(Fh)?Conv(Fl))).
(2)
由于采集真實(shí)的霧天圖像及其對(duì)照難度較大, 本文首先從RESIDE標(biāo)準(zhǔn)數(shù)據(jù)集[12]中選擇戶外訓(xùn)練集(OTS)和合成目標(biāo)測(cè)試集(SOTS)分別作為訓(xùn)練目標(biāo)和測(cè)試目標(biāo). 該數(shù)據(jù)集包含了豐富的合成霧天室內(nèi)外圖像以及與之相關(guān)的清晰圖像(即真值). 在基于CNN的圖像去霧領(lǐng)域, 其一直被研究者作為一個(gè)評(píng)估網(wǎng)絡(luò)性能的基準(zhǔn). 為了進(jìn)一步評(píng)估本模型在現(xiàn)實(shí)場(chǎng)景中的綜合去霧能力, 本文還采用了Dense-Haze數(shù)據(jù)集[13]和NH-HAZE數(shù)據(jù)集[14], 這兩個(gè)數(shù)據(jù)集分別包含了來(lái)自各種室內(nèi)外場(chǎng)景的均勻和不均勻濃霧及其對(duì)應(yīng)真值的55對(duì)圖像. 本文采用峰值信噪比(PSNR)和結(jié)構(gòu)相似性指數(shù)(SSIM)作為評(píng)估部分的度量, 這些也是在去霧任務(wù)中用于比較圖像質(zhì)量的最常用標(biāo)準(zhǔn).
首先, 本文利用合成數(shù)據(jù)集SOTS, 根據(jù)視覺(jué)效果和定量精度對(duì)所提網(wǎng)絡(luò)進(jìn)行測(cè)試. 將本文所提方法恢復(fù)圖像的視覺(jué)效果與其他先進(jìn)技術(shù)進(jìn)行比較, 結(jié)果如圖 4 所示, 可以清楚地看到, 雖然使用了文獻(xiàn)[1]和文獻(xiàn)[5]方法的圖像成功地消除了霧霾, 但也造成了顏色失真、 亮度過(guò)高等問(wèn)題. 相比之下, 利用文獻(xiàn)[6]和文獻(xiàn)[7]的方法獲得了相對(duì)較好的輸出結(jié)果, 但圖像的局部區(qū)域中仍存在著少量霧霾.
圖4 SOTS數(shù)據(jù)集圖像的視覺(jué)結(jié)果比較
此外, 本方法還與文獻(xiàn)[1]、 文獻(xiàn)[5]、 文獻(xiàn)[6] 和文獻(xiàn)[7]等方法進(jìn)行了實(shí)驗(yàn)比較, 測(cè)試集的定量結(jié)果如表 1 所示.
表 1 在SOTS數(shù)據(jù)集上與其它先進(jìn)技術(shù)結(jié)果的定量比較Tab.1 Quantitative comparisons of results with SOTAtechniques on SOTS dataset
通過(guò)與表1中文獻(xiàn)[7]方法比較可以看出, 本文的自適應(yīng)特征注意網(wǎng)絡(luò)實(shí)現(xiàn)了0.15 dB PSNR的性能提高, 雖然SSIM略微下降了0.007 5, 但由本文方法生成的圖像更加自然.
本文方法在文獻(xiàn)[13]和文獻(xiàn)[14]兩個(gè)數(shù)據(jù)集的測(cè)試結(jié)果與使用其他先進(jìn)方法的結(jié)果進(jìn)行了充分比較. 由于這兩者的濃霧密度都遠(yuǎn)遠(yuǎn)超出RESIDE數(shù)據(jù)集[12], 導(dǎo)致霧的去除難度更大. 從圖 5 和圖 6 可以看出, 無(wú)論是文獻(xiàn)[1]、 文獻(xiàn)[6]還是文獻(xiàn)[5]方法, 對(duì)于消除圖片中濃霧的視覺(jué)效果都是極其有限的, 在處理后的圖像中仍然存在大部分霧. 而利用文獻(xiàn)[7]方法去霧后的圖像中仍存在紋理丟失和顏色退化等特殊問(wèn)題(盡管該算法的綜合性能相對(duì)前幾種較好). 通過(guò)視覺(jué)效果的比較, 本文方法在保留原圖像細(xì)節(jié)和結(jié)構(gòu)的同時(shí), 恢復(fù)出的圖像顯然比其他方法更加清晰.
圖5 Dense-Haze數(shù)據(jù)集上圖像的視覺(jué)效果比較
圖6 NH-HAZE數(shù)據(jù)集上圖像的視覺(jué)效果比較Fig.6 Visual results comparison of images on NH-HAZE dataset
如表 2 和表 3 所示, 在得到16.23 dB PSNR和0.521 3 SSIM的情況下, 本文的自適應(yīng)特征注意網(wǎng)絡(luò)在Dense-Haze數(shù)據(jù)集[13]上的性能遠(yuǎn)遠(yuǎn)優(yōu)于其它方法. 此外, 其在NH-HAZE數(shù)據(jù)集[14]上獲得的PSNR和SSIM也是令人滿意的, 分別為21.38 dB和0.714 4.
表 2 在Dense-Haze數(shù)據(jù)集上與其它先進(jìn)技術(shù)結(jié)果的定量比較Tab.2 Quantitative comparisons of results with SOTA techniqueson Dense-Haze dataset
此外, 通過(guò)在相同平臺(tái)上進(jìn)行的實(shí)驗(yàn)對(duì)比, 從表 3 的第3行與第4行中不難發(fā)現(xiàn), 本文提出的網(wǎng)絡(luò)在相對(duì)較少參數(shù)的情況下取得了較好的結(jié)果, 在計(jì)算參數(shù)和圖像恢復(fù)指標(biāo)之間實(shí)現(xiàn)了較好的權(quán)衡, 同時(shí), 也有效地降低了計(jì)算時(shí)間與損耗.
表 3 在NH-HAZE數(shù)據(jù)集上與其它先進(jìn)技術(shù)結(jié)果的定量比較Tab.3 Quantitative comparisons of results with SOTA techniqueson NH-HAZE dataset
為了測(cè)試網(wǎng)絡(luò)在真實(shí)霧天照片上的去霧效果, 本文對(duì)從RTTS[12]數(shù)據(jù)集中獲得的大量真實(shí)霧天照片以及作者在大學(xué)校園內(nèi)收集的部分霧天圖像進(jìn)行了測(cè)試和比較, 可視結(jié)果如圖 7 所示.
圖7 真實(shí)霧天照片的視覺(jué)效果比較Fig.7 Visual results comparison of real photographs with haze
可以看出, 雖然文獻(xiàn)[6]、 文獻(xiàn)[5]和文獻(xiàn)[7]方法在人工數(shù)據(jù)集上表現(xiàn)很好, 但它們對(duì)該類真實(shí)圖像的去霧效果并不十分令人滿意. 另外, 相對(duì)有效的文獻(xiàn)[1]方法容易產(chǎn)生顏色失真, 使圖像受到過(guò)度增強(qiáng). 在某些情況下, 文獻(xiàn)[6]方法結(jié)果出現(xiàn)了浮動(dòng)陰影, 而經(jīng)過(guò)文獻(xiàn)[5]方法處理后的圖像亮度相對(duì)變低. 總體而言, 本文模型在保持圖像整體亮度的同時(shí), 在圖像細(xì)節(jié)恢復(fù)方面取得了較為出色的視覺(jué)效果, 重構(gòu)出的圖像清晰、 無(wú)霧且感知質(zhì)量良好.
本文提出了一種端到端的去霧網(wǎng)絡(luò), 該網(wǎng)絡(luò)主要由自適應(yīng)特征注意模塊和多步融合模塊組成. 其中前者能夠自適應(yīng)地提取帶霧圖像的細(xì)節(jié)特征, 從而擴(kuò)大了處理復(fù)雜信息的范圍, 顯著提高了網(wǎng)絡(luò)的轉(zhuǎn)換能力. 后者使用來(lái)自多個(gè)步驟的特征并從它們的融合中獲得增益. 通過(guò)在不同數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn), 并與幾種不同類型算法的結(jié)果進(jìn)行比較, 本文方法均取得了較好的效果, 證明了該網(wǎng)絡(luò)結(jié)構(gòu)在圖像細(xì)節(jié)恢復(fù)方面的明顯優(yōu)勢(shì). 此外, 由于網(wǎng)絡(luò)的深度與設(shè)計(jì)的復(fù)雜性降低, 更緊湊的網(wǎng)絡(luò)顯著減少了算力功耗和操作所需的時(shí)間.