陳科羽 謝春 徐梁剛 陳鳳翔
摘? 要:在使用無人機進(jìn)行拍攝時,通常會拍攝到一些存在霧霾、雨條紋、雨滴、陰影以及模糊的低質(zhì)圖像。目前針對各類低質(zhì)圖像的恢復(fù)增強算法大都只解決了某一類低質(zhì)圖像的恢復(fù)問題,如何將各類低質(zhì)圖像進(jìn)行識別分類仍然是一大難題。針對該問題提出了一種用于低質(zhì)圖像分類的多核密集連接網(wǎng)絡(luò),針對低質(zhì)圖像上的特征尺寸存在較大差異,采用三個大小不同的密集連接模塊提取不同尺寸的特征。經(jīng)過試驗證明,該網(wǎng)絡(luò)能夠有效識別分類各類低質(zhì)圖像和清晰圖像。
關(guān)鍵詞:低質(zhì)圖像;CNN;圖像分類;圖像恢復(fù)
中圖分類號:TP183;TP391.4? 文獻(xiàn)標(biāo)識碼:A? 文章編號:2096-4706(2023)08-0099-04
Abstract: When using UAV for shooting, some low-quality images with haze, rain streaks, raindrops, shadows and blurring low-quality are usually captured. At present, most of the restoration and enhancement algorithms for all kinds of low-quality images only solve the restoration problem of a certain kind of low-quality images. How to recognize and classify all kinds of low-quality images is still a big problem. To solve this problem, a multi-core dense connection network for low-quality image classification is proposed. In view of the large differences in feature sizes on low-quality images, three dense connection modules with different sizes are used to extract features of different sizes. Experiments show that the network can effectively recognize and classify all kinds of low-quality images and clear images.
Keywords: low-quality image; CNN; image classification; image restoration
0? 引? 言
由于自然環(huán)境的復(fù)雜多變性,常常會出現(xiàn)一些霧霾、暴雨、強光等極端環(huán)境。無人機視覺系統(tǒng)在極端環(huán)境下會拍攝到大量的低質(zhì)圖像,這些低質(zhì)圖像統(tǒng)稱為低質(zhì)圖像,低質(zhì)圖像將會導(dǎo)致視覺系統(tǒng)無法對目標(biāo)物體進(jìn)行有效的識別和檢測,難以正常工作。針對實際工程中常會遇到的各類極端環(huán)境,結(jié)合已有的恢復(fù)算法,整理出了五類常見的低質(zhì)圖像:霧霾、雨條紋、雨滴、低照度、模糊。針對上述的五類低質(zhì)圖像,目前已有大量的恢復(fù)算法,例如用于霧天圖像恢復(fù)的暗通道先驗去霧算法[1]、DehazeNet算法[2]和AOD-Net算法[3]等;用于雨條紋圖像恢復(fù)的DID-MDN去雨條紋算法[4]和GCANet算法[5]等;用于雨滴圖像恢復(fù)的基于GAN的單一圖像去雨滴算法[6];用于陰影圖像恢復(fù)的RetinexNet算法[7]和EnlightenGAN算法[8];用于模糊圖像恢復(fù)的DeBlurGAN算法[9,10]、SRN-DeblurNet算法[11]等。上述的這些算法有效解決了某一類低質(zhì)圖像如何恢復(fù)增強的問題,但是在實際工程中,如何將這些低質(zhì)圖像從龐大的數(shù)據(jù)庫中篩選出來并進(jìn)行識別分類仍然是一個問題。因此,本文提出了一種用于低質(zhì)圖像分類的多核密集連接網(wǎng)絡(luò),相比于現(xiàn)有的DenseNet、VGG16等網(wǎng)絡(luò),在低質(zhì)圖像數(shù)據(jù)集上具有更高的分類準(zhǔn)確率,能夠?qū)崿F(xiàn)對低質(zhì)圖像的有效分類。
1? 相關(guān)工作及數(shù)據(jù)集構(gòu)建
對于極端環(huán)境下拍攝到的低質(zhì)圖像,劉振宇等人提出了一種基于偏色因子以及色度分量的低質(zhì)圖像分類方法[12]。通過構(gòu)建物理模型,對清晰、霧霾、雨雪、沙塵四類圖像進(jìn)行區(qū)分,該方法能夠?qū)Φ唾|(zhì)圖像進(jìn)行區(qū)分,但是類別相對較少,精細(xì)度不足。
天氣圖像分類任務(wù)與本文所提出的低質(zhì)圖像分類任務(wù)類似。天氣圖像分類需要識別出每張圖像所屬的天氣類別,例如晴天、霧天、多云、雨天、雪天等。目前天氣圖像分類的方法大多都是基于CNN完成的,這些方法大致可以分為兩類:第一類通過語義分割、目標(biāo)檢測等方法識別出圖像上存在的輔助分類信息,例如晴天圖像上存在的陰影、多云圖像上存在的云彩、雨天圖像上存在的潮濕的地面等,從而提高天氣圖像分類的準(zhǔn)確率,例如Zhao和Li[13,14]通過多任務(wù)模型同時對天氣圖像進(jìn)行分類和語義分割,通過兩個任務(wù)之間的內(nèi)在聯(lián)系使得分類準(zhǔn)確率得到提高。Shi等人[15]通過Mask R-CNN將天氣圖像進(jìn)行劃分為幾個部分,再使用VGG16進(jìn)行特征提取。Lin等人[16]則是采用語義分割對圖像進(jìn)行劃分,提取出輔助分類信息。第二類則是關(guān)注于不同天氣圖像上存在的對比度、亮度等顏色差異,通過特征融合等方法改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),提高準(zhǔn)確率。例如Zhang等人[17]針對天氣圖像設(shè)計了新的特征提取方法,將天空、陰影、雨帶、雪花和暗通道的特征作為圖像的局部特征,使每一個特征都可以指示一種特定的天氣。將對比度和飽和度特征作為可以指示多種天氣的全局特征,通過字典學(xué)習(xí)對上述提取出的特征進(jìn)行學(xué)習(xí)分類。Roser等人[18]提取圖像的對比度、最小亮度、清晰度、色調(diào)和飽和度等特征,通過SVM對圖像進(jìn)行分類。郭志強等人[19]同時采用人工特征和深度特征,設(shè)計了新的特征提取方法提取圖像的對比度、飽和度等特征作為人工特征,采用AlexNet模型提取圖像的深度特征,將兩類特征進(jìn)行融合,采用線性分類器進(jìn)行分類。在本文的低質(zhì)圖像分類任務(wù)中,由于雨滴圖像和雨條紋圖像難以標(biāo)注,模糊圖像的環(huán)境背景復(fù)雜多變,上述的兩類天氣圖像分類方法在本任務(wù)上并不適用。
為了有效解決低質(zhì)圖像的分類問題并對多核密集連接網(wǎng)絡(luò)進(jìn)行訓(xùn)練,需要構(gòu)建一個由各類低質(zhì)圖像構(gòu)成的數(shù)據(jù)集。在本文所構(gòu)建的低質(zhì)圖像數(shù)據(jù)集中有六類圖像,其中包含五類常見的低質(zhì)圖像(霧霾、雨條紋、雨滴、陰影、模糊)和一類清晰圖像,每類1 200張圖像,如圖1所示。
2? 網(wǎng)絡(luò)結(jié)構(gòu)
隨著CNN的飛速發(fā)展,出現(xiàn)了眾多優(yōu)秀的網(wǎng)絡(luò)模型,例如VGG16、DenseNet等,這些現(xiàn)有的網(wǎng)絡(luò)能夠?qū)Φ唾|(zhì)圖像進(jìn)行分類,但是由于低質(zhì)圖像上存在的不同尺度的特征,其分類準(zhǔn)確率并不高。因此,提出了一種基于多核密集連接的網(wǎng)絡(luò)模型,該模型主要由密集連接部分、注意力部分和分類部分組成,如圖2所示。密集連接部分主要由三個卷積核大小不同的密集連接模塊構(gòu)成,用以提取低質(zhì)圖像上不同尺寸的深度特征;注意力部分則是集成了通道注意力模塊和空間注意力模塊,用以放大特征圖上的有效信息;分類模塊則主要由卷積層和全連接層構(gòu)成,從而得到最終的分類結(jié)果。
在密集連接部分中,單個密集連接模塊不能很好地提取出低質(zhì)圖像上的所有特征,因此采用了三個卷積核大小不同的密集連接模塊,其具體區(qū)別在于密集連接模塊中瓶頸層的第二個卷積核大小不同,分別為3×3、5×5、7×7。密集連接模塊的結(jié)如圖3所示,每個密集連接模塊均由6個瓶頸層(Bottleneck Block)和6個過渡層(Transition Layer)組成,每個瓶頸層之間由過渡層連接。在密集連接模塊中,輸入圖像依次通過每個瓶頸層,其中瓶頸層5的輸入圖像為過渡層1和4的輸出進(jìn)行拼接后的圖像,瓶頸層6的輸入圖像為過渡層2和5的輸出進(jìn)行拼接后的圖像,最后將過渡層1-6的輸出圖像經(jīng)過上采樣后與該密集連接模塊的輸入圖像進(jìn)行拼接,得到該密集連接模塊的最終輸出特征圖。
注意力部分主要由通道注意力模塊和空間注意力模塊構(gòu)成,如圖4所示,其輸入圖像為三個密集連接模塊的輸出特征圖與原始輸出圖像拼接后的圖像,即Concat[Input,DB1,DB2,DB3]。通過空間注意力機制為拼接后的特征圖每個通道分配不同的權(quán)重,在進(jìn)行空間注意力機制時,過多的通道數(shù)會導(dǎo)致信息冗余,無法有效放大空間維度上的重要信息,因此在空間注意力模塊之前引入了一個卷積層,將特征圖壓縮至3通道,去除了部分無效的信息。
在分類部分中,其結(jié)構(gòu)借鑒了帶有批量歸一化層的VGG16模型,如圖5所示。主要包括兩個卷積層、兩個全連接層、一個批量歸一化層(BN層)和一個平均池化層,在該部分,兩個卷積層的卷積核大小均為3×3;第一個全連接層的輸入尺寸為249 696,輸出尺寸為512;第二個全連接層的輸入尺寸為512,輸出尺寸為6。
3? 實驗結(jié)果與分析
3.1? 訓(xùn)練細(xì)節(jié)
在Pytorch框架下進(jìn)行訓(xùn)練,對輸入圖像進(jìn)行隨機水平翻轉(zhuǎn)或豎直翻轉(zhuǎn),隨機概率均為0.5,優(yōu)化算法采用Adam算法,損失函數(shù)采用Cross Entropy Loss函數(shù),其公式為:
其中,p表示真實值,q為預(yù)測值。
在構(gòu)建的低質(zhì)圖像數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試,將數(shù)據(jù)集劃分為訓(xùn)練集、驗證集和測試集,其中訓(xùn)練集每類800張,驗證集每類200張,測試集每類200張。保存在驗證集上召回率的最優(yōu)模型作為最終模型。在其中使用了BN層[20](Batch Normalization),BN層的公式為:
其中μ為一個Batch內(nèi)xi的均值,σ2為一個Batch內(nèi)的xi的標(biāo)準(zhǔn)差,ε為一個較小的常數(shù),防止出現(xiàn)除零錯誤,γ和β為可學(xué)習(xí)的參數(shù)。BN層的輸出值將會受到Batch Size大小的影響,在進(jìn)行驗證和測試時需要將BN層去掉。
3.2? 實驗結(jié)果
在包含六類圖像的低質(zhì)圖像數(shù)據(jù)集上進(jìn)行測試,在本次實驗中,采用以下幾種模型進(jìn)行測試對比:完整的多核密集連接網(wǎng)絡(luò)(Ours)、DenseNet169、ResNet18、VGG16。為了衡量各個模型的性能,采用召回率(Recall,R)和精確率(Precision,P)以及整體的平均召回率(Average Recall,AR)和平均精確率(Average Precision,AP)指標(biāo)進(jìn)行評價,召回率和精確率的計算方法為:
其中,TP(True Positive)表示圖像標(biāo)定為正樣本,分類結(jié)果為正樣本;FN(False Negative)表示圖像標(biāo)定為正樣本,分類結(jié)果為負(fù)樣本;FP(False Positive)表示圖像標(biāo)定為負(fù)樣本,分類結(jié)果為正樣本。
根據(jù)表1的實驗結(jié)果可以看出,現(xiàn)有的DenseNet、VGG16等結(jié)構(gòu)的精確率和召回率只能達(dá)到88.53%和88.25%,無法滿足分類需求,而具有三個密集連接模塊的多核密集連接網(wǎng)絡(luò)的精確率和召回率則是達(dá)到了92.78%和92.58%,其分類性能得到了提高。
同時,為了證明三個密集連接模塊的有效性,對多核密集連接網(wǎng)絡(luò)進(jìn)行了消融實驗,分別采用只有單個密集連接模塊的多核密集連接網(wǎng)絡(luò)進(jìn)行了測試,測試模型有如下幾類:1)Ours:完整的多核密集連接網(wǎng)絡(luò);2)Single1:只有密集連接模塊1的多核密集連接網(wǎng)絡(luò),其卷積核大小為3×3;3)Single2:只有密集連接模塊2的多核密集連接網(wǎng)絡(luò),其卷積核大小為5×5;4)Single3:只有密集連接模塊3的多核密集連接網(wǎng)絡(luò),其卷積核大小為7×7;5)Single1+3:由密集連接模塊1和3構(gòu)成的多核密集連接網(wǎng)絡(luò)。實驗結(jié)果如表2所示。
根據(jù)表2的實驗結(jié)果,具有單個密集連接模塊以及兩個密集連接模塊的多核密集連接網(wǎng)絡(luò)其召回率和精確率均可以達(dá)到90%以上,但仍然要低于具有三個密集連接模塊的完整多核密集連接網(wǎng)絡(luò),也進(jìn)一步說明了三個不同卷積核大小的密集連接模塊在低質(zhì)圖像特征提取中的有效性。
4? 結(jié)? 論
在本文中,由于目前各類低質(zhì)圖像恢復(fù)算法都只是單一地解決了某一類低質(zhì)圖像的恢復(fù)增強問題,而在實際工程環(huán)境狀況復(fù)雜多變,需要一種分類識別方法來將各類低質(zhì)圖像區(qū)分開,因此,提出了一種基于密集連接網(wǎng)絡(luò)的多核密集連接網(wǎng)絡(luò),能夠有效地區(qū)分出各類低質(zhì)圖像和清晰圖像,以便于更好的處理無人機在極端環(huán)境下采集到的低質(zhì)圖像。
參考文獻(xiàn):
[1] HE K M,SUN J,TANG X O. Single Image Haze Removal Using Dark Channel Prior [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(12):2341-2353.
[2] CAI B L,XU X M,JIA K,et al. DehazeNet:An End-to-End System for Single Image Haze Removal [J].IEEE Transactions on Image Processing,2016,25(11):5187-5198.
[3] LI B Y,PENG X L,WANG Z Y,et al. An all-in-one network for dehazing and beyond [J].arXiv:1707.06543 [cs.CV].[2022-09-02].https://arxiv.org/abs/1707.06543.
[4] ZHANG H,PATEL V M. Density-Aware Single Image De-raining Using a Multi-stream Dense Network [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:695-704.
[5] CHEN D D,HE M M,F(xiàn)AN Q N,et al. Gated Context Aggregation Network for Image Dehazing and Deraining [C]//2019 IEEE Winter Conference on Applications of Computer Vision(WACV).Waikoloa:IEEE,2019:1375-1383.
[6] QIAN R,TAN R T,YANG W H,et al. Attentive Generative Adversarial Network for Raindrop Removal from A Single Image [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:2482-2491.
[7] WEI C,WANG W J,YANG W H,et al. Deep Retinex Decomposition for Low-Light Enhancement [J/OL]. arXiv:1808.04560 [cs.CV].[2022-09-03].https://arxiv.org/abs/1808.04560v1.
[8] JIANG Y F,GONG X Y,LIU D,et al. EnlightenGAN:Deep Light Enhancement without Paired Supervision [J].IEEE Transactions on Image Processing,2021,30:2340 - 2349.
[9] KUPYN O,BUDZAN V,MYKHAILYCH M,et al. DeblurGAN:Blind Motion Deblurring Using Conditional Adversarial Networks [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:8183-8192.
[10] KUPYN O,MARTYNIUK T,WU J R,et al. DeblurGAN-v2:Deblurring(Orders-of-Magnitude) Faster and Better [C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV).Seoul:IEEE,2019:8877-8886.
[11] TAO X,GAO H Y,WANG Y,et al. Scale-recurrent Network for Deep Image Deblurring [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:8174-8182.
[12] 劉振宇,江海蓉,徐鶴文.極端天氣條件下低質(zhì)圖像增強算法研究 [J].計算機工程與應(yīng)用,2017,53(8):193-198+245.
[13] ZHAO B,HUA L L,LI X L,et al. Weather recognition via classification labels and weather-cue maps [J].Pattern Recognition,2019,95:272-284.
[14] LI X L,WANG Z G,LU X Q. A Multi-Task Framework for Weather Recognition [C]//Proceedings of the 25th ACM international conference on Multimedia. Mountain View:Association for Computing Machinery,2017:1318-1326.
[15] SHI Y Z,LI Y X,WEI X,et al. A Faster-RCNN Based Chemical Fiber Paper Tube Defect Detection Method [C]//2017 5th International Conference on Enterprise Systems(ES).Beijing:IEEE,2017:173-177.
[16] LIN D,LU C W,HUANG H,et al. RSCM:Region Selection and Concurrency Model for Multi-Class Weather Recognition [J].IEEE Transactions on Image Processing,2017,26(9):4154-4167.
[17] ZHANG Z,MA H D,F(xiàn)U H Y,et al. Scene-free multi-class weather classification on single images [J].Neurocomputing,2016,207:365-373.
[18] ROSER M,MOOSMANN F. Classification of weather situations on single color images [C]//2008 IEEE Intelligent Vehicles Symposium.Eindhoven:IEEE,2008:798-803.
[19] 郭志強,胡永武,劉鵬,等.基于特征融合的室外天氣圖像分類 [J].計算機應(yīng)用,2020,40(4):1023-1029.
[20] IOFFE S,SZEGEDY C. Batch normalization: Accelerating deep network training by reducing internal covariate shift [C]//Proceedings of the 32nd International Conference on International Conference on Machine Learning.Lille:MLR.org,2015,37:448-456.
作者簡介:陳科羽(1993.10—),男,漢族,貴州興義人,工程師,部門副總經(jīng)理,本科,研究方向:數(shù)字輸電專業(yè)化運維技術(shù)。