摘 要 基于深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)是目前計(jì)算機(jī)領(lǐng)域的熱門話題。全卷積網(wǎng)絡(luò)在圖像處理、語(yǔ)義分割方面有著廣泛的應(yīng)用。在暗光條件下,受到低信噪比和低亮度的影響,圖片的質(zhì)量會(huì)受到很大的影響。目前,很多關(guān)于去噪、去模糊、圖像增強(qiáng)等技術(shù)的研究已被相繼提出,但是在一些極端條件下,這些技術(shù)的作用就很有限了本文網(wǎng)絡(luò)實(shí)現(xiàn)的核心觀點(diǎn)是,介紹全卷積神經(jīng)網(wǎng)絡(luò),利用全卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像處理以及網(wǎng)絡(luò)的訓(xùn)練過(guò)程。
關(guān)鍵詞 神經(jīng)網(wǎng)絡(luò) 圖像處理 語(yǔ)義分割
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A
0引言
近年來(lái),隨著互聯(lián)網(wǎng)的迅猛發(fā)展而產(chǎn)生的大量數(shù)據(jù)以及計(jì)算機(jī)硬件的飛速發(fā)展和各種機(jī)器學(xué)習(xí)算法的不斷優(yōu)化,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)及圖像識(shí)別分類、自然語(yǔ)言處理、語(yǔ)音識(shí)別等領(lǐng)域成果卓著。全卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的一個(gè)重要部分,以其獨(dú)特的結(jié)構(gòu)優(yōu)勢(shì),在圖像處理方面取得了廣泛的應(yīng)用。
1全卷積網(wǎng)絡(luò)FCN
卷積網(wǎng)的每層數(shù)據(jù)是一個(gè)h*w*d的三維數(shù)組,其中h和w是空間維度,d是特征或通道維數(shù)。第一層是像素尺寸為h*w,顏色通道數(shù)為d的圖像。高層中的位置和圖像中它們連通的位置相對(duì)應(yīng),被稱為接收域。
卷積網(wǎng)是以平移不變性作為基礎(chǔ)的。其基本組成部分(卷積,池化和激勵(lì)函數(shù))作用在局部輸入域,只依賴相對(duì)空間坐標(biāo)。在特定層記Xij為在坐標(biāo)(i,j)的數(shù)據(jù)向量,在下一層中有Yij,Yij的計(jì)算公式如下:
其中k為卷積核尺寸,s是步長(zhǎng)或下采樣因素,fks決定了層的類型:一個(gè)卷積的矩陣乘或者是平均池化,用于最大池的最大空間值或者是一個(gè)激勵(lì)函數(shù)的一個(gè)非線性元素,亦或是層的其他種類等等。當(dāng)卷積核尺寸和步長(zhǎng)遵從轉(zhuǎn)換規(guī)則,這個(gè)函數(shù)形式被表述為如下形式:
當(dāng)一個(gè)普通深度的網(wǎng)絡(luò)計(jì)算一個(gè)普通的非線性函數(shù),一個(gè)網(wǎng)絡(luò)只有這種形式的層計(jì)算非線性濾波,我們稱之為深度濾波或全卷積網(wǎng)絡(luò)。FCN理應(yīng)可以計(jì)算任意尺寸的輸入并產(chǎn)生相應(yīng)(或許重采樣)空間維度的輸出。
2訓(xùn)練網(wǎng)絡(luò)
2.1數(shù)據(jù)集獲取
室外場(chǎng)景下,相機(jī)的亮度一般在0.2 lux 和5 lux 之間。室內(nèi)圖像通常更暗。在室內(nèi)場(chǎng)景中的相機(jī)亮度一般在0.03 lux 和0.3 lux 之間。輸入圖像的曝光時(shí)間設(shè)置為1/30和1/10秒。在每個(gè)場(chǎng)景中,相機(jī)設(shè)置 (如光圈,ISO,焦距和焦距) 進(jìn)行了調(diào)整,以最大限度地提高參考圖像(長(zhǎng)曝光時(shí)間)的質(zhì)量。
2.2模型訓(xùn)練
使用 L1 損失和 Adam 優(yōu)化器,開(kāi)始訓(xùn)練網(wǎng)絡(luò)。在訓(xùn)練過(guò)程中,網(wǎng)絡(luò)輸入是原始的短曝光圖像,在 sRGB 空間中的真實(shí)數(shù)據(jù)是相應(yīng)的長(zhǎng)曝光時(shí)間圖像(由一個(gè)原始圖像處理庫(kù) libraw 處理過(guò)得參考圖像)。然后為每臺(tái)相機(jī)訓(xùn)練一個(gè)網(wǎng)絡(luò),并將原始圖像和參考圖像之間曝光時(shí)間的倍數(shù)差作為放大因子(例如,x100,x250,或x300)。在每次訓(xùn)練迭代中,隨機(jī)裁剪一個(gè)512?12的補(bǔ)丁用于訓(xùn)練并利用翻轉(zhuǎn)、旋轉(zhuǎn)等操作來(lái)隨機(jī)增強(qiáng)數(shù)據(jù)。初始學(xué)習(xí)率設(shè)定為0.0001,在2000次迭代后學(xué)習(xí)率降為0.00001,訓(xùn)練一共進(jìn)行4000次迭代。
2.3實(shí)驗(yàn)結(jié)果
在本次實(shí)驗(yàn)中,通過(guò)網(wǎng)絡(luò)訓(xùn)練最終得出實(shí)驗(yàn)結(jié)果,可以看到經(jīng)過(guò)4000次迭代的圖像清晰可見(jiàn)。如圖1所示:
3損失函數(shù)
L1正則化和L2正則化可以看做是損失函數(shù)的懲罰項(xiàng)。所謂“懲罰”是指對(duì)損失函數(shù)中的某些參數(shù)做一些限制。對(duì)于線性回歸模型,使用L1正則化的模型建叫做Lasso回歸。本文評(píng)估了幾個(gè)損失函數(shù)后最終采用L1損失函數(shù),L1正則化有助于生成一個(gè)稀疏權(quán)值矩陣。公式如下:
4總結(jié)
由于圖像低光子數(shù)和低信噪比的影響,快速低光成像系統(tǒng)是一個(gè)艱巨的挑戰(zhàn)。黑暗中快速成像系統(tǒng)更是被認(rèn)為是一種不切實(shí)際、與傳統(tǒng)的信號(hào)處理相悖的技術(shù)。基于 FCN 模型結(jié)構(gòu),通過(guò)端到端訓(xùn)練,改善了傳統(tǒng)的處理低光圖像的方法。實(shí)驗(yàn)結(jié)果表明該方法能夠成功抑制噪聲并正確地實(shí)現(xiàn)顏色轉(zhuǎn)換,表現(xiàn)出較好的性能,并展現(xiàn)了該領(lǐng)域不錯(cuò)的研究前景。
作者簡(jiǎn)介:秦瑜(1991—),女,漢,河南省三門峽市,長(zhǎng)安大學(xué)碩士研究生,基于全卷積網(wǎng)絡(luò)FCN的圖像處理。
參考文獻(xiàn)
[1] Eigen,D.&D. Krishnan, and R. Fergus. Restoring an imagetaken through a window covered with dirt or rain[J].In Com-puter Vision (ICCV), 2013 IEEE International Conferenceon,2013:633-640.
[2] Matan,O.&C. J. Burges&Y. LeCun&J. S. Denker. Multi-digit recognition using a space displacement neural network[J].In NIPS,1991:488-495
[3] Krizhevsky,A.&I.Sutskever&G. E. Hinton. Imagenetclassification with deep convolutional neural networks[J]. InNIPS, 2012.
[4] Zeiler,M.D.&R.Fergus.Visualizing and understanding convolutional networks[J].In Computer Vision-ECCV ,2014:818-833..
[5] Long,J.&E.Shelhamer&T. Darrell. Fully convolutionalnetworks for semantic segmentation[J].In CVPR, 2015.