聶茜茜 肖 斌 畢秀麗 李偉生
(重慶郵電大學(xué)計算智能重慶市重點實驗室 重慶 400065)
從光學(xué)理論來說,當(dāng)光學(xué)鏡頭聚焦于被攝物的一點時,只能對焦點及其附近一定范圍的區(qū)域形成較為清晰的圖像,為得到全景都清晰的圖像,多聚焦圖像融合技術(shù)被提出。多聚焦圖像融合是指在同一時間利用多種傳感器對同一場景的不同目標(biāo)拍攝多幅圖像,利用圖像中信息的互補性和時空上的相關(guān)性合成一幅對目標(biāo)信息描述更清晰可靠的融合圖像。該技術(shù)讓融合后的圖像更利于計算機處理與分析,且更加適合人類的視覺感知,因此具有非常重要的理論和現(xiàn)實意義。目前,圖像融合技術(shù)在遙感處理[1]、醫(yī)學(xué)成像[2]和計算機視覺[3]等領(lǐng)域中發(fā)揮著重要的作用。從研究方法來看,常見方法大致可分為3類:基于變換域、空間域和神經(jīng)網(wǎng)絡(luò)的多聚焦融合算法。
基于變換域的多聚焦圖像融合思路是先對多源圖像進行圖像變換得到變換系數(shù),再將其進行組合后融合圖像,其中變換域的選擇和高低頻的融合規(guī)則至關(guān)重要。該算法具有較強的魯棒性,但時間復(fù)雜度較高,目前大體可分為3大類:金字塔分解[4],小波變換[5]和多尺度幾何分析[6]。
基于空間域的多聚焦圖像融合思路是直接在源圖像上進行融合,根據(jù)融合規(guī)則大致可分為3類:基于像素、區(qū)域和圖像塊的多聚焦圖像融合方法?;谙袼氐姆椒╗7]在預(yù)處理時需要嚴(yán)格配準(zhǔn)的圖像,這表現(xiàn)出對噪聲和邊緣的高度敏感性。基于區(qū)域的多聚焦圖像融合在一定程度上能夠降低算法對噪聲的敏感度和配準(zhǔn)誤差對融合性能的影響,但該類方法直接以像素作為處理對象,因此算法的計算復(fù)雜度較高,且在融合圖像邊緣處易產(chǎn)生模糊現(xiàn)象?;趫D像塊的方法的最優(yōu)分塊大小設(shè)定是一個難點,很難完全恰好將清晰和模糊區(qū)域分隔出來,因此該算法容易產(chǎn)生塊效應(yīng)。目前幾種典型算法有:基于引導(dǎo)濾波(GF)[8]、Image Matting(IM)[9]和基于尺度不變特征變換(DSIFT)[10]。
基于神經(jīng)網(wǎng)絡(luò)的多聚焦圖像融合思想是將源圖像分割成重疊塊輸入網(wǎng)絡(luò)模型中,并根據(jù)所得的聚焦測度判斷結(jié)果融合圖像。例如,基于脈沖耦合網(wǎng)絡(luò)(PCNN)[11]的融合方法通過模擬生物大腦皮層的脈沖現(xiàn)象,選擇較清晰的像素點進行融合。文獻[12]首次提出將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Netural Networks, CNN)應(yīng)用于多聚焦圖像融合算法中,學(xué)習(xí)辨別多聚焦圖像中聚焦和非聚焦區(qū)域的能力。文獻[13]提出p-CNN (pixel-wise Convolutional Neural Network)的模型通過卷積的方式將滑動圖像塊輸入網(wǎng)絡(luò),擬解決時間復(fù)雜度過高的問題,但選擇3 2×32圖像塊大小作為輸入,以致影響圖像聚焦判定的精確度。該類方法是基于學(xué)習(xí)的方式,能夠解決基于空間域與變換域的融合方法需要手工制作聚焦測度的問題。
本文提出了基于超像素級卷積神經(jīng)網(wǎng)絡(luò)(super pixel based CNN, sp-CNN)的多聚焦圖像融合算法,主要流程如下:首先,借助由粗到細的思想,對源圖像進行多尺度的超像素分割[14],并用sp-CNN作為超像素[15]的聚焦評價方法;然后,利用空間頻率(Spatial Frequence, SF)[16]對不確定區(qū)域進行再分類得到階段決策圖;最后,依據(jù)對其作后處理所得到的最終決策圖進行圖像融合。
本文結(jié)構(gòu)如下:第2節(jié)描述sp-CNN模型的設(shè)計結(jié)構(gòu)以及訓(xùn)練數(shù)據(jù)的制作方法;第3節(jié)詳細講述本文提出的融合算法;第4節(jié)闡述實驗結(jié)果和分析;第 5節(jié)為本文的結(jié)論。
分類網(wǎng)絡(luò)在圖像融合應(yīng)用中,需將圖像分割成連續(xù)的重疊矩形圖像塊作為網(wǎng)絡(luò)模型的輸入,并利用全連接層作為決策分類器?;谥丿B圖像塊作為網(wǎng)絡(luò)輸入的方式,由于固定圖像塊大小限制了感受野的特征信息容量,從而導(dǎo)致分類精度的下降。其中大部分CNN以固定尺寸的圖像數(shù)據(jù)作為輸入,是由于全連接層的權(quán)重矩陣為固定大小,需保證輸入的特征映射圖的大小與其匹配。去除全連接層的全卷積神經(jīng)網(wǎng)絡(luò)[17]解決了該問題,但該網(wǎng)絡(luò)是對圖像進行像素級的分類,訓(xùn)練較為復(fù)雜,并且對圖像的細節(jié)不夠敏感,分類精度較分類網(wǎng)絡(luò)低。因此,本文借助空間金字塔池化[18]的思想,提取出固定長度的特征向量作為全連接層的輸入。
在傳統(tǒng)基于塊的圖像融合算法中,由于規(guī)則圖像塊可能同時包含清晰與模糊區(qū)域,致使圖像邊緣融合效果降低,因此本文提出利用不規(guī)則塊替換規(guī)則圖像塊的思想,選取不規(guī)則的超像素[15]作為圖像塊,以減少圖像塊大小選擇對融合效果的影響。超像素能夠保留圖像分割的有效信息,并且基本不會破壞圖像中物體的邊緣信息。由于Achanta等人[14]提出的簡單線性迭代聚類算法(Simple Linear Iterative Clustering, SLIC)在邊緣精度和運行速度上具有良好的表現(xiàn),因此本文借助其思想,實現(xiàn)不規(guī)則塊劃分。為此本文采用超像素替換像素的方式,更加有利于局部特征的提取與結(jié)構(gòu)信息的表達,并將其作為預(yù)處理步驟可以減少后處理復(fù)雜度。
基于上述問題,本文借助空間金字塔池化與超像素的思想,提出一個基于超像素級的卷積神經(jīng)網(wǎng)絡(luò)模型-sp-CNN。在本文研究中,多聚焦圖像融合被看作分類問題,使用sp-CNN對超像素進行分類。sp-CNN為一個端到端的圖像分類網(wǎng)絡(luò)模型,首先將圖像數(shù)據(jù)輸入網(wǎng)絡(luò);然后隱性地從訓(xùn)練圖像數(shù)據(jù)中進行有監(jiān)督學(xué)習(xí),其整個分類過程是由數(shù)據(jù)驅(qū)動,避免了手工提取特征;最后輸出一個概率分布,表示每個類別的概率。
空間金字塔池化[18](Spatial Pyramid Pooling,SPP)可以將任意尺度圖像的卷積特征轉(zhuǎn)化為固定大小的特征向量,不僅避免了裁剪和變形操作,且有利于減少信息的丟失。借助金字塔池化的思想,并依據(jù)2.2節(jié)對數(shù)據(jù)集Cifar-10從全局與局部兩方面進行處理的介紹,因此本文從全局 (n=1)和局部(n=2)兩個層次中對卷積特征采用平均池化去提取各層特征,最后拉伸平鋪成一個固定長度的1維特征向量作為全連接層的輸入。為此,本文對每一層的池化參數(shù)運算方法為其中,核大小為 ( hK,wK), 步幅為( hS,wS),填充方式為 P,池化層數(shù)為n ,特征圖的高、寬度分別為hinwin, 。該方法大致具有3個優(yōu)點:(1)輸入圖像可以為任意尺寸;(2)將特征映射圖從不同角度提取特征,再聚合成一個固定長度的特征表示,因此具有較高的魯棒性;(3)提高了分類平均精度,同時大大減少了總訓(xùn)練時間。
一個分類精度較高的網(wǎng)絡(luò)模型,需要大量數(shù)據(jù)來支撐訓(xùn)練。由于現(xiàn)有圖像數(shù)據(jù)庫中沒有可直接利用的聚焦和非聚焦標(biāo)簽的數(shù)據(jù)庫,本文在大規(guī)模圖像數(shù)據(jù)庫Cifar-101)Cifar-10: 為使得添加的高斯模糊更加貼近于多聚焦圖像中真實的模糊現(xiàn)象,本文對20組多聚焦圖像數(shù)據(jù)集(Lytro)2)Lytro: 本文所提方法是基于超像素級的多聚焦圖像融合算法,為了提升sp-CNN的聚焦判定精度,將Cifar-10中每幅圖像均分成4個1 6×16的圖像塊,并將其增添到訓(xùn)練數(shù)據(jù)集中,通過兩種尺寸(局部16×16 和 全局3 2×32)的訓(xùn)練數(shù)據(jù)集以適應(yīng)超像素的不規(guī)則性。因此,基于Cifar-10的圖像訓(xùn)練數(shù)據(jù)集中清晰類圖像數(shù)據(jù)包括50000幅3 2×32大小以及200000幅1 6×16大小的圖像。采用上述高斯參數(shù)對原始圖像進行模糊操作,模糊類圖像數(shù)據(jù)包含同樣數(shù)量和尺寸的圖像。對余下的10000幅圖像作同樣的方式處理,將其作為驗證數(shù)據(jù)集,圖像數(shù)據(jù)集的創(chuàng) 建方式如圖2所示。 在文獻[13]提出的算法中,驗證了深層網(wǎng)絡(luò)模型較淺層模型,其聚焦分類精度的提升并不明顯,并且本文考慮到網(wǎng)絡(luò)參數(shù)學(xué)習(xí)效率等問題,故將sp-CNN構(gòu)造為一個淺層的卷積神經(jīng)網(wǎng)絡(luò)。sp-CNN首先利用卷積層提取圖像高維特征信息,同時探究聚焦與非聚焦區(qū)域之間的隱藏信息;其次利用最大池化層減少信息維度,進而擴大感受野的特征信息容量;再次利用金字塔池化層以確保全連接層的輸入數(shù)據(jù)為固定長度的特征向量;最后通過全連接層對圖像進行分類,輸出聚焦類與非聚焦類的概率分布。在sp-CNN網(wǎng)絡(luò)中,3層卷積層的卷積步長都為1,并在前兩層卷積層后連接一個步長為2的最大池化層,對特征信息進行降維操作,再將金字塔池化連接在第3層卷積層之后,最后利用兩層全連接層作為分類器。實驗表明,sp-CNN卷積神經(jīng)網(wǎng)絡(luò)可達到99.95%的分類精度。sp-CNN網(wǎng)絡(luò)結(jié)構(gòu)模型如圖3所示。 圖1 圖像塊選取 圖2 圖像數(shù)據(jù)集的創(chuàng)建 圖3 sp-CNN網(wǎng)絡(luò)結(jié)構(gòu) 圖4 融合算法流程圖 基于sp-CNN的多聚焦圖像融合算法的流程圖如圖4所示,此算法主要分為5個步驟:(1)對兩幅源圖像進行加權(quán)平均(Weighted Average, WA),得到預(yù)融合圖像;(2)對預(yù)融合圖像進行多尺度的超像素分割,將得到的多尺度分割圖像中的超像素輸入sp-CNN網(wǎng)絡(luò),以進一步獲得不同尺度的初始分類映射圖;(3)利用連通域操作篩除初始分類映射圖中的誤檢部分,得到初始決策圖;(4)根據(jù)多尺度初始決策圖的異同以定位不確定區(qū)域,并利用空間頻率[16]操作對其進行再分類,得到階段決策圖;(5)對階段決策圖進行簡單的形態(tài)學(xué)操作以得到最終決策圖,并依據(jù)融合規(guī)則獲得最終的多聚焦融合圖像。為了簡單起見,本文僅對兩幅多聚焦圖像做融合分析,多幅多聚焦圖像可以依據(jù)兩幅圖像的融合擴展得到,融合效果分析見4.4節(jié)。圖4中,綠色邊框為兩幅源圖像;黃色邊框分別為預(yù)融合圖像與初始分類映射圖的獲得過程;藍色邊框為不確定區(qū)域的獲得過程;紅色邊框為初始決策圖的獲得過程。 本文對兩幅源圖像進行加權(quán)平均得到預(yù)融合圖像,利用SLIC對其進行分割,然后將得到的分割圖映射到兩幅多聚焦源圖像以獲得分割后的源圖像。經(jīng)過超像素分割之后,源圖像被劃分為不規(guī)則的超像素,而由于卷積神經(jīng)網(wǎng)絡(luò)是以規(guī)則圖像塊作為輸入,因此本文采用補零的方式將不規(guī)則圖像塊補全為規(guī)則的矩形圖像塊,此填補操作不會引入外部信息,且不會增加額外計算消耗,補零方式如圖5所示。 圖5 超像素補零,(a)預(yù)融合圖像的分割圖;(b)兩幅源圖像的分割圖;(c)局部區(qū)域;(d)不屬于同一區(qū)域的像素補零 在將補零圖像塊輸入sp-CNN網(wǎng)絡(luò)后,可得聚焦與非聚焦的概率分布。由于直接比較聚焦概率值難以得到準(zhǔn)確的初始分類映射圖,因此本文采用對數(shù)函數(shù)的方法對圖像進行聚焦評估。聚焦評價值計算如式(3) 其中, p 表示聚焦概率值,w 為超像素的聚焦評價值, a和 b(a +b=1,a=0.6b=0.4)均為經(jīng)驗值,權(quán)重系數(shù)a 起加強作用。根據(jù)聚焦分類規(guī)則逐個比較源圖像的超像素對的聚焦評價值,得到初始分類映射圖。本文超像素的聚焦分類規(guī)則如式(4)所示 其中, M 為初始分類映射圖,wi表 示第i幅的超像素聚焦評價值。初始分類映射圖可能包含一些誤檢區(qū)域,在聚焦區(qū)域中包含非聚焦點,或者在非聚焦區(qū)域包含聚焦點。本文采用簡單連通域方法濾掉誤檢的超像素,具體來說是將初始分類映射圖小于給定區(qū)域閾值的聚焦區(qū)域移除,而小于相同閾值的空洞被填充為聚焦區(qū)域,其中區(qū)域閾值設(shè)置為一幅源圖像大小的1%。初始分類映射圖再經(jīng)過連通域處理 ,得到初始決策圖DS。 模糊數(shù)學(xué)是一種探究和處理模糊性現(xiàn)象的數(shù)學(xué)方法論,用該方法來描述多聚焦圖像在目標(biāo)邊緣存在聚焦與非聚焦之間的模糊界限,即邊界存在分類模糊概念。本文將不確定區(qū)域再分類的方式應(yīng)用于多聚焦圖像融合算法中,以達到更好的融合效果。較小尺度的超像素分割精度較高,但容易出現(xiàn)誤檢區(qū)域,而較大尺度的超像素分割精度較低,但聚焦分類精度高,因此結(jié)合這兩種尺度的優(yōu)劣,本文將利用兩種尺度進行超像素分割并補零成規(guī)則圖像塊。將上述圖像塊分別輸入到sp-CNN中得到兩種尺度下的初始決策圖,根據(jù)分類規(guī)則以獲得初始決策圖中的不確定區(qū)域(如圖5中灰色區(qū)域所示)。分類規(guī)則如式(5)所示 其中,Dun為 不確定區(qū)域,DSi(x,y)為 第i幅初始分類映射圖中像素 ( x,y)的聚焦值。然后采用空間頻率對不確定像素進行再次分類,最終得到階段決策圖 。 最后,對階段決策圖進行簡單的形態(tài)學(xué)操作[19],再根據(jù)所得的最終決策圖D融合源圖像A和B,得到多聚焦融合圖像F。融合規(guī)則如式(6) 在這一節(jié)中,為了證明本文所提出的多聚焦圖像融合算法的實效性,將與當(dāng)前6種具有代表性的多聚焦圖像融合算法(IM[9], GF[8], DCT+C+V[20],DSIFT[10], PCNN[11]和p-CNN[13])進行比較,上述方法的參數(shù)設(shè)置均為相應(yīng)論文中的最優(yōu)值。其中,多聚焦圖像融合的評價方法主要包括主觀和客觀兩種評價標(biāo)準(zhǔn)。 圖6展示了兩幅“高爾夫”不同景深的多聚焦源圖像,以及6種對比方法和本文方法所得的融合圖像。 在圖7中,將圖像的某一局部進行放大,并在圖像中用紅色矩形標(biāo)記各種算法所產(chǎn)生的視覺偏差區(qū)域,便于主觀評價其融合效果。從圖7(a)中可以發(fā)現(xiàn)DCT+C+V算法的融合圖像能夠清晰地看到白色斑塊,并有明顯的顏色失真。IM算法的多聚焦融合圖像如圖7(d),出現(xiàn)了不屬于源圖像所提供的圖像信息,這是由模糊引起的偽像。還可以觀察DSIFT算法的多聚焦融合圖像如圖7(b)中有偽邊緣現(xiàn)象,這種邊緣模糊是由于錯誤配準(zhǔn)而產(chǎn)生的。同樣地,也可以在PCNN算法的多聚焦融合圖像如圖7(e)中觀察到相同的現(xiàn)象。GF可以有效防止偽像出現(xiàn)在未校準(zhǔn)區(qū)域中,如圖7(c)所示,但該方法在非聚焦區(qū)域與聚焦區(qū)域之間的邊界傾向于過度銳化。在圖7(f)中p-CNN算法的多聚焦融合圖像出現(xiàn)了錯誤分類的聚焦與非聚焦區(qū)域,使得圖像中出現(xiàn)明顯的模糊區(qū)域。從圖7中,能夠輕易地發(fā)現(xiàn)本文算法能夠很好地處理這些問題,展現(xiàn)出較好的融合效果。 圖6 源圖像和融合圖像 3對多聚焦融合圖像的源圖像如圖8所示,利用本文方法以及現(xiàn)有的6種對比方法對其進行融合,得到的多聚焦融合圖像如圖9所示。經(jīng)過人眼觀察,可以從主觀方面觀測出本文方法在融合效果上的良好表現(xiàn)。 客觀評價指標(biāo)作為判斷多聚焦圖像融合結(jié)果好壞的衡量標(biāo)準(zhǔn),為圖像融合算法性能和圖像融合質(zhì)量的優(yōu)劣性提供客觀評價依據(jù)。在文獻[21]中將已有的12種客觀評價方法進行了歸納總結(jié),根據(jù)各種方法的性能可大致分為4類。為保證實驗的客觀及公正性,本文在4類評價方法中各選取一種作為融合結(jié)果的客觀評價標(biāo)準(zhǔn)。分別是從信息論角度的QMI表示融合圖像從源圖像提取的信息量;從圖像特征邊緣角度的 QP表示包含的顯著信息量;從圖像結(jié)構(gòu)相似度角度的 Qw表示融合圖像中保存源圖像的結(jié)構(gòu)信息量;以及從人類視覺感知角度的Qaf表示從源圖像中獲取的梯度信息量。 融合算法經(jīng)過4種評價指標(biāo)所得計算結(jié)果,其值越大表示融合效果越好。表1為3組多聚焦融合圖像的客觀評價指標(biāo)值,其中客觀評價表現(xiàn)最優(yōu)的結(jié)果用加粗表示,展現(xiàn)出本文方法在客觀評價上的優(yōu)越 性。 圖7 各種方法融合圖像的局部放大圖 圖8 3對多聚焦源圖像 圖9 各方法的融合圖像 表1 融合圖像的客觀評價值 本文通過與其它6種方法進行比較,為驗證所提出方法在時間復(fù)雜度上面的優(yōu)劣表現(xiàn)。實驗所用計算機的硬件條件為:Intel(R) Core(TM) i5-4590CPU @ 3.30 GHz和16.0GB RAM, GPU:NVIDIA Quadro k2200。對比的6種方法所用實驗平臺均為MATLAB,而本文方法使用Python作為編程語言,將TensorFlow作為實現(xiàn)平臺,因此在運算效率對比上可能存在偏差。平均運行時間的計算方法是選擇兩組相同尺寸(320×240, 480×360和640×480)的圖像,每組圖像測試5次,最終將10次數(shù)據(jù)取平均得到運行時間。在這7種對比方法中,可以看出PCNN的運行時間最短,而IM的運行效率最低。本文算法的平均運行時間是由每個塊經(jīng)過sp-CNN網(wǎng)絡(luò)的時間構(gòu)成,其中每個塊可以并行處理。每種多聚焦融合算法的平均運行時間如表2所示。 多聚焦圖像序列的融合示例1)融合示例: 表2 對比方法的平均運行時間(s) 本文提出了一種基于超像素級卷積神經(jīng)網(wǎng)絡(luò)的多聚焦圖像融合算法。利用超像素分割方法劃分源圖像為語義相關(guān)的不規(guī)則塊,盡可能讓圖像塊只包含聚焦或者非聚焦區(qū)域,一定程度上彌補了基于單個像素點之間相關(guān)性小的不足,進而有效減少融合像素的錯誤選取,降低對邊緣的敏感性,同時也減少了塊效應(yīng)。本文直接利用超像素分割塊進行融合,致使融合圖像中灰度值不會改變,實現(xiàn)了信息的相互補充,同時減少了重復(fù)數(shù)據(jù)檢測,降低了時間復(fù)雜度。由于使用自學(xué)習(xí)方式的sp-CNN作為聚焦評價方法,實現(xiàn)了輸入圖像為任意大小的目的,且避免了手工制作聚焦測度的影響,因此顯著提高了算法的魯棒性。在采用對數(shù)函數(shù)作為融合規(guī)則中,細節(jié)信息強度的度量不再僅僅依賴于某一點,而是根據(jù)待融合系數(shù)局部區(qū)域的統(tǒng)計特性來選取像素系數(shù),因此整體融合效果較好。 圖10 對比方法的融合圖像 表3 融合圖像的客觀評價值2.3 sp-CNN網(wǎng)絡(luò)結(jié)構(gòu)
3 基于sp-CNN的多聚焦圖像融合算法
3.1 初始決策圖的獲得
3.2 階段決策圖的獲得
3.3 圖像融合
4 實驗結(jié)果分析
4.1 對比方法的主觀評價
4.2 對比方法的客觀評價
4.3 計算效率對比
4.4 多焦聚圖像序列融合
5 結(jié)論