◆楊潔
一種輕量級陰影檢測方法
◆楊潔
(新疆理工學院 新疆 843100)
大型且復雜的神經(jīng)網(wǎng)絡結構已經(jīng)實現(xiàn)了高效的陰影檢測。但由于后續(xù)任務的高度依賴性,其效率和泛化性能仍需要不斷提高。然而,現(xiàn)有的快速陰影檢測傾向于降低效率以提高準確性。本文旨在提出一種輕量且高精度陰影檢測方法。首先,提出一個實時陰影檢測的緊湊網(wǎng)絡。然后,使用知識蒸餾提高輕量級模型的陰影檢測性能。大量的實驗表明,該方法僅需要5%的參數(shù),就可以獲得良好的檢測結果。
輕量級;圖像處理;陰影檢測
陰影在自然場景中無處不在。一方面,陰影可以為場景理解提供有價值的線索,即物體形狀、光源和照明條件[2-3]、相機參數(shù)和地理位置以及場景幾何形狀。另一方面,陰影也會給計算機視覺任務帶來歧義,例如圖像分割、目標檢測和跟蹤。自動檢測陰影然后移除或推斷它們的形狀和大小通常有利于圖像編輯和增強現(xiàn)實。在這些情況下,定位陰影至關重要,因此需要高效率和準確性。
單幅圖像陰影檢測[1]近年來備受關注,以往的工作主要集中在提高檢測精度。然而,由于對后續(xù)任務的高度依賴,陰影檢測必須高效且準確。一般來說,使用輕量級網(wǎng)絡提高計算效率的代價是推理精度的顯著降低。據(jù)我們所知,沒有輕量級陰影檢測方法可以在性能上與最先進的方法相匹敵。
眾所周知,基于學習的陰影檢測方法高度依賴于大規(guī)模標記的陰影對或更深層次的網(wǎng)絡結構。對于類似的場景,這種擬合是高度區(qū)分的。但是,它們經(jīng)常在復雜或不常見的情況下失敗。例如,它們不適用于建筑物、衛(wèi)星地圖、軟陰影和自陰影,這些在現(xiàn)有數(shù)據(jù)集[2](即SBU和ISTD)中很少見。因此,更好的泛化性是開發(fā)基于學習的方法時必須仔細考慮的主要目標。
在這項工作中,我們的目標是在以下三個方面檢測陰影焦點:(1)計算效率,(2)推理準確性,以及(3)泛化性。與傳統(tǒng)的編碼器-解碼器結構[3]逐漸對中間特征進行上采樣不同,我們首先將編碼器提取的多層特征圖壓縮成一個固定的小數(shù),然后將它們上采樣到相同的分辨率。然后將這些特征圖連接起來并送入兩個卷積層以產(chǎn)生最終的陰影檢測結果。我們的網(wǎng)絡只有270萬個參數(shù),因此比以前的方法快得多。
在使用輕量級網(wǎng)絡[4]時,我們經(jīng)常面臨兩個常見問題:推理精度低和泛化能力差。因此,我們嘗試通過以下兩種方式解決這個問題:(1)引入更通用的網(wǎng)絡架構;(2)使用額外的數(shù)據(jù)來增加訓練樣本的多樣性。然而,由于輕量級網(wǎng)絡的低容量,這些策略只能提供邊際改進。受之前基于知識蒸餾的圖像分類方法的啟發(fā),我們首先在大網(wǎng)絡的監(jiān)督下訓練一個小網(wǎng)絡。此外,對復雜的現(xiàn)實世界數(shù)據(jù)進行注釋需要專家的幫助,這既耗時又昂貴。幸運的是,圖卷積網(wǎng)絡(GCN)能夠將給定的標簽傳播到相鄰節(jié)點。因此,我們的理想是為只有幾個注釋涂鴉的陰影圖像生成相應的陰影蒙版。然后,使用知識蒸餾,我們使用這些GCN標記的訓練對改進輕量級陰影檢測。實驗表明,簡單地實施上述策略之一只會帶來很小的改進。然而,當它們結合在一起時,效果會顯著提高。與最先進的方法相比,我們的方法只需5%的參數(shù)即可實現(xiàn)顯著的性能,如圖1所示。
圖1 所提陰影監(jiān)測的主干框架
我們結合卷積塊注意模塊(CBAM)[5],提出了一個用于陰影檢測的輕量級網(wǎng)絡。最后,我們描述了教師如何通過知識蒸餾來訓練學生。之前的大部分工作應用對稱編碼器-解碼器網(wǎng)絡來處理關于圖像到圖像轉換[6]的視覺任務。然而,解碼器在這些工作中的解碼器比編碼器參數(shù)多,花費了大部分的計算成本。因此,為了降低模型的復雜度,我們應該注意編碼器的復雜度降低和緊湊解碼器的使用。
從現(xiàn)有的基于學習的陰影檢測[7]方法中,我們可以總結出,低級特征包含豐富的細節(jié),可以幫助我們發(fā)現(xiàn)陰影邊界和微小的陰影。相比之下,高級功能包括許多語義信息,可以幫助我們區(qū)分陰影和陰影類對象。為此,如圖1(a)所示,我們引入了四個特征細化和壓縮層(FRC)來融合從低級到高級的特征圖。如圖1(b)所示,每個FRC都包含一個雙注意方案和一個卷積層。具體地說,給出編碼器提取的一系列特征圖,我們依次使用通道注意模塊和空間注意模塊[8],然后通過卷積層進行融合。最后,為了降低模型的復雜性,我們將這些特征映射壓縮到固定數(shù)量的通道(24個通道)。
對于編碼器提取的多尺度特征,我們在每個尺度上應用FRC。然后,將輸出特征圖分別上采樣2、4、8和16到相同的大小。最后,我們將它們連接并輸入到一個卷積層中,以生成最終的陰影檢測圖。
學習學生網(wǎng)絡的最終損失是:
可以得到啟發(fā),更大的教師網(wǎng)并不總是實際的,因為師生之間存在相當大的差距。相反,任意擴大教師網(wǎng)絡會降低知識精餾的性能。因此,我們使用一個相對較小的網(wǎng)絡作為教師網(wǎng)絡。具體來說,在這項工作中,我們分別使用ResNet-34[14]和MobileNet-V2[15]作為教師和學生網(wǎng)絡的編碼器。
數(shù)據(jù)集和指標:我們使用ISTD作為基本數(shù)據(jù)集,其中包含1870對陰影和陰影蒙版圖像,其中6000個由我們的Anno-GCN標記的額外數(shù)據(jù)作為額外數(shù)據(jù)。為了評估推理的準確性和普遍性,我們選擇了540張ISTD圖像和1000張GCN標記的圖像作為兩個不同的測試集。為了評估陰影檢測的準確性,我們使用了一個廣泛使用的度量標準,即平衡錯誤率(BER),它可以表示為:
由于額外的數(shù)據(jù)量很大,我們選擇了100個訓練樣本并手動標注它們以驗證陰影掩模生成的準確性。因此,我們的Anno-GCN提供了1.95的BER值。為了提供更直觀的信息,我們還提供了如圖2所示的可視化結果。我們可以看到,我們的Anno-GCN甚至可以從一些簡單的注釋涂鴉中生成非常準確的陰影蒙版。這一結果驗證了我們的標簽傳播框架的優(yōu)越性。總之,我們的方法依靠反向傳播來訓練特定的GCN,以便為每個訓練圖像生成陰影掩模。另一方面,標簽傳播是一個前饋過程。在反向傳播期間,我們的方案使用豐富的圖像內(nèi)容信息來規(guī)范標簽預測。
從左到右:(a)輸入圖像、(b)地面真實陰影掩膜、(c)使用FSDNet網(wǎng)絡的結果、(d)所提方法所得結果
圖2 在ISTD數(shù)據(jù)集上陰影檢測結果的視覺比較
然后我們進行消融研究以測試不同規(guī)模教師的表現(xiàn)。具體來說,我們使用三種不同的網(wǎng)絡,包括ResNet-18、ResNet-34和ResNet101,分別作為我們老師的骨干網(wǎng)絡。結果如表1所示,當訓練數(shù)據(jù)充足時,參數(shù)越多的教師網(wǎng)絡準確率越高。然而,更廣泛的教師網(wǎng)絡并不能不斷提高學生的素質(zhì)。雖然從ResNet-18到ResNet-34有明顯的改進,但是當使用更大的ResNet-101時,性能會開始下降。當老師和學生的差距非常大時,我們可以觀察到顯著的性能下降。
表1 知識蒸餾在各種不同教師網(wǎng)絡上的表現(xiàn)
BackboneParams(M) ResNet-1812.83.344.12 ResNet-3422.91.921.95 ResNet-10145.91.883.64
在這項工作中,我們從以下三個角度探索輕量級單個圖像陰影檢測:(1)推理精度、(2)計算效率和(3)泛化性能。我們指出了兩個主要的挑戰(zhàn):模型的能力和效率之間的權衡,第二個是對復雜場景的泛化性能。我們首先提出了一種緊湊的可以實時進行陰影檢測的網(wǎng)絡。然后,我們的經(jīng)驗和定量結果表明,額外的訓練數(shù)據(jù)有助于提高輕量級網(wǎng)絡的性能。場景多樣性的增加可以提高網(wǎng)絡的準確性和泛化性能,也是后續(xù)知識蒸餾步驟所必需的。我們使用一個訓練有素的教師的知識蒸餾,用額外的輔助數(shù)據(jù)來促進這個輕型網(wǎng)絡。
[1]陳法法,成孟騰,楊蘊鵬,等.融合雙注意力機制和U-Net網(wǎng)絡的銹蝕圖像分割[J/OL].西安交通大學學報:1-10[2021-08-25].http://kns.cnki.net/kcms/detail/61.1069.T.20210823.1558.002.html.
[2]施媛波.變分自編碼器和注意力機制的異常入侵檢測方法[J/OL].重慶郵電大學學報(自然科學版):1-8[2021-08-25]. http://kns.cnki.net/kcms/detail/50.1181.n.20210824.1036.014.html.
[3]陳永,盧晨濤,王鎮(zhèn).基于輕量級網(wǎng)絡的鐵路感興趣區(qū)域異物侵限檢測[J/OL].吉林大學學報(工學版):1-13[2021- 08-25].https://doi.org/10.13229/j.cnki.jdxbgxb20210266.
[4]尹夢曉,林振峰,楊鋒.基于動態(tài)感受野的自適應多尺度信息融合的圖像轉換[J].電子與信息學報,2021,43(08): 2386-2394.
[5]陳智超,焦海寧,楊杰,等.基于改進MobileNet v2的垃圾圖像分類算法[J/OL].浙江大學學報(工學版):1-10[2021-08-25].http://kns.cnki.net/kcms/detail/33.1245.T.20210806. 1631.008.html.
[6]魏淳武,趙涓涓,唐笑先,等.基于多時期蒸餾網(wǎng)絡的隨訪數(shù)據(jù)知識提取方法[J/OL].計算機應用:1-9[2021-08- 25].http://kns.cnki.net/kcms/detail/51.1307.TP.20210714.1713.016.html.
[7]李文裕,周凌宏.醫(yī)學圖像融合技術在腫瘤放射治療中的應用[J].計算機與現(xiàn)代化,2021(07):83-88.
[8]暴雨軒,蘆天亮,杜彥輝,等.基于i_ResNet34模型和數(shù)據(jù)增強的深度偽造視頻檢測方法[J].計算機科學,2021,48(07):77-85.
[9]張曉偉. 基于注意機制卷積神經(jīng)網(wǎng)絡的顯著性目標檢測及應用[D].河北師范大學,2021.
[10]宋軼航,胡靜,徐超,等.基于深度信息的特征學習與動作識別方法[J/OL].計算機應用研究:1-6[2021-08-25]. https://doi.org/10.19734/j.issn.1001-3695.2021.01.0067.
[11]劉金金,李清寶,李曉楠.基于對抗學習和知識蒸餾的神經(jīng)網(wǎng)絡壓縮算法[J/OL].計算機工程與應用:1-10[2021-08-25].http://kns.cnki.net/kcms/detail/11.2127.TP.20210617.1840.002.html.
[12]李勇,高燦,劉子榮,等.動態(tài)一致自信的深度半監(jiān)督學習[J/OL].計算機科學與探索:1-10[2021-08- 25].http:// kns.cnki.net/kcms/detail/11.5602.TP.20210529.2024.006.html.
[13]張世輝,張笑維,李賀,等.結合多尺度及密集特征圖融合的陰影檢測方法[J].計量學報,2021,42(05):570-576.
[14]王偉,郭中華,蘭旭婷.一種基于陰影檢測的運動目標分割改進算法[J].計算機與網(wǎng)絡,2021,47(09):67-71.
[15]周文輝,石敏,朱登明,等.基于殘差注意力網(wǎng)絡的地震數(shù)據(jù)超分辨率方法[J].計算機科學,2021,48(08):24-31.
2022年度新疆維吾爾自治區(qū)阿克蘇地區(qū)新疆理工學院校級科研項目:黃瓜作物葉片病害識別與病斑分割研究(項目編號:ZQ202201)