王 蘋
(1. 陽光學(xué)院 人工智能學(xué)院,福建 福州350015;2. 空間數(shù)據(jù)挖掘與應(yīng)用福建省高校工程研究中心,福建 福州350015)
多視頻配準(zhǔn)即應(yīng)用多個相機在同一場景對同一個物體進(jìn)行拍攝,從而得到多個在時間或者空間上存在某種對應(yīng)關(guān)系的視頻,通過配準(zhǔn)尋找到這種對應(yīng)關(guān)系的變換參數(shù)[1]。現(xiàn)階段已經(jīng)產(chǎn)生了多個視頻配準(zhǔn)算法[2-3]。在發(fā)展歷程上,Caspi[4]等開展了基于特征和基于區(qū)域的視頻配準(zhǔn)算法研究。Shakil[5]針對兩個拍攝同一物體時自由運動的相機提出了一個新的視頻配準(zhǔn)算法。Sand[6]等人提出了一種新的可應(yīng)用于多個視頻配準(zhǔn)工作的算法。陳為龍[7]等提出了視頻配準(zhǔn)算法中的靜態(tài)圖像配準(zhǔn)算法,即通過視頻提取出一些圖像幀,通過對這些靜態(tài)的圖像幀進(jìn)行匹配來配準(zhǔn)視頻,將基于特征的圖像配準(zhǔn)算法應(yīng)用到視頻配準(zhǔn)工作中,取得了有效的結(jié)果。深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)因具有模式識別[8]的優(yōu)勢,已經(jīng)在圖像識別[9]和分類[10-11]、目標(biāo)檢測[12]等領(lǐng)域發(fā)揮了重大作用,且已應(yīng)用于遙感圖像配準(zhǔn)領(lǐng)域中。
本文應(yīng)用深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)VGGNet,設(shè)計了高精度視頻配準(zhǔn)算法中的圖像配準(zhǔn)算法,研究了VGGNet在視頻中靜態(tài)圖像配準(zhǔn)工作的可行性及其對配準(zhǔn)性能的影響,探討了圖像縮放、亮度變換等對視頻中圖像配準(zhǔn)的影響,比較了本配準(zhǔn)算法與傳統(tǒng)基于方向梯度直方圖(HOG)[13]、局部二值模式(LBP)[14]特征提取配準(zhǔn)算法的性能。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)在圖像識別和分類問題上能發(fā)揮出巨大的優(yōu)勢,因此設(shè)計了基于卷積神經(jīng)網(wǎng)絡(luò)的靜態(tài)圖像配準(zhǔn)算法,研究網(wǎng)絡(luò)中不同層下圖像配準(zhǔn)的精度,并闡述了實驗的數(shù)據(jù)源和環(huán)境配置。
本文的靜態(tài)圖像配準(zhǔn)算法及流程如圖1所示。首先從視頻S1中獲取某一幀的圖像,并從視頻S2中獲取某一幀的待配準(zhǔn)圖像。第二步,通過尺度不變特征變換(SIFT)方法對兩張圖像進(jìn)行預(yù)處理,降低噪聲對圖像信息的干擾,獲取基本的特征圖像,大小為128×128。第三步,將特征圖像作為CNN模型VGGNet的輸入,經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)后,輸出抽象化的特征信息。第四步,根據(jù)抽象化特征信息獲取兩幅圖像的同名點,從而計算出兩幅圖像的變換參數(shù),通過圖像變換得到最終的配準(zhǔn)結(jié)果圖。
圖1 靜態(tài)圖像配準(zhǔn)算法Fig.1 Static image registration algorithm
近幾年來,深度學(xué)習(xí)得到了迅速發(fā)展。卷積神經(jīng)網(wǎng)絡(luò)在圖形分類、目標(biāo)識別等領(lǐng)域取得了良好成績。其中,VGGNet模型經(jīng)過大型數(shù)據(jù)庫ImageNet訓(xùn)練后,可以從圖像中提取出更高層次的抽象化特征。仿真實驗結(jié)果表明16層的VGGNet具有更優(yōu)異的識別性能。
圖2 VGGNet模型Fig.2 VGGNet model
VGGNet網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。它由13個卷積層、5個池化層和3個全連接層組成。在卷積層中,它應(yīng)用了大小為3×3的卷積核,這在保證一定范圍感受野的條件下減少了網(wǎng)絡(luò)的參數(shù)規(guī)模,也引入了更復(fù)雜的非線性因素,有效增強了模型的特征表達(dá)。最大池化層的窗口大小為2×2,在降采樣特征量的同時保證關(guān)鍵特征信息不會丟失。通過反復(fù)堆疊小型卷積核和最大池化層,既增強了非線性特征表達(dá)能力,又將參數(shù)量控制在較低的范圍內(nèi),具有很好的應(yīng)用價值。在全連接層中,模型應(yīng)用多個神經(jīng)元可有效擬合特征的分布,從而提升分類的準(zhǔn)確率。
本文選取了官方訓(xùn)練好的VGGNet模型。為了使得模型提取出的特征適用于靜態(tài)圖像的配準(zhǔn),本文從視頻中提取了12 000對靜態(tài)圖像數(shù)據(jù)對VGGNet模型進(jìn)行了微調(diào),如表1所示。其中,2 000對靜態(tài)參考圖像和待配準(zhǔn)圖像來自于從多對待配準(zhǔn)視頻中提取的靜態(tài)圖像,對它們做增強變換,旋轉(zhuǎn)90°、旋轉(zhuǎn)180°、旋轉(zhuǎn)270°、左右變換、上下變換后增大數(shù)據(jù)集為12 000對。隨機劃分10 000對參考圖像和待配準(zhǔn)圖像為訓(xùn)練數(shù)據(jù)集,剩余的2 000對參考圖像和待配準(zhǔn)圖像為測試數(shù)據(jù)集。
表1 數(shù)據(jù)集Tab.1 Dataset
因此,本文將卷積和最大池化的堆疊操作作為一個網(wǎng)絡(luò)層,設(shè)置一個全連接層為一個網(wǎng)絡(luò)層,研究它們的輸出特征。則此時共有8個網(wǎng)絡(luò)層,命名為Conv1、Conv2、Conv3、Conv4、Conv5、FC1、FC2、FC3。原VGGNet的網(wǎng)絡(luò)層FC3被用于圖像的分類工作,不適用于靜態(tài)圖像配準(zhǔn)工作,因此舍棄FC3。
在對VGGNet進(jìn)行微小的訓(xùn)練過程中,設(shè)置初始的學(xué)習(xí)率為0.003,運行平臺是Ubuntu14.04服務(wù)器,應(yīng)用的深度學(xué)習(xí)框架是Tensorflow。
在本章節(jié)中,確定了通過卷積網(wǎng)絡(luò)提取的抽象化特征被用于配準(zhǔn)的可行性,并應(yīng)用均方根誤差分析法評估了不同網(wǎng)絡(luò)層特征的配準(zhǔn)精度,最后與傳統(tǒng)圖像配準(zhǔn)算法比較。
為了驗證卷積神經(jīng)網(wǎng)絡(luò)提取的抽象化特征對靜態(tài)圖像配準(zhǔn)工作的可行性,本文隨機選取了一對測試數(shù)據(jù)集中的參考圖像和待配準(zhǔn)圖像進(jìn)行實驗,結(jié)果如圖3所示。
視頻S1和視頻S2是在同一時間段、同一地點、不同角度拍攝的落日圖像,分別選取兩個視頻中的某幀圖像作為實驗對象。從配準(zhǔn)結(jié)果圖中可知,兩幅圖像大部分相同,紋理區(qū)域均配準(zhǔn)成功,因此卷積神經(jīng)網(wǎng)絡(luò)可被應(yīng)用于視頻配準(zhǔn)中的靜態(tài)圖像配準(zhǔn)工作中。
圖3 配準(zhǔn)圖像Fig.3 Registration image
采用均方根誤差方法來定量分析靜態(tài)圖像配準(zhǔn)的精度。均方根誤差的計算公式如式(1)所示。
(1)
其中,N為參考圖像和待配準(zhǔn)圖像的對應(yīng)點對數(shù)量,(Xi′,Yi′)為參考圖像的點(X,Y)在待配準(zhǔn)圖像的對應(yīng)點坐標(biāo),(Xi″,Yi″)為對待配準(zhǔn)圖像進(jìn)行配準(zhǔn)變換后的坐標(biāo)。均方根誤差值越低越好。
對于圖3中的圖像,卷積神經(jīng)網(wǎng)絡(luò)VGGNet的各層特征的均方根誤差分析值如表2所示。由表2數(shù)據(jù)分析可知,第一個網(wǎng)絡(luò)層輸出特征的配準(zhǔn)誤差最大;第二個網(wǎng)絡(luò)層的配準(zhǔn)誤差比第一個網(wǎng)絡(luò)層低約0.5%;第三、第四和第五個網(wǎng)絡(luò)層的特征配準(zhǔn)誤差較為接近;FC1特征和第5個網(wǎng)絡(luò)層的輸出特征的配準(zhǔn)誤差較為接近;經(jīng)過FC2的特征變換后,輸出的特征值的配準(zhǔn)誤差降低了約0.4%。
表2 特征的均方根誤差值Tab.2 Root mean square error for feature
對于VGGNet的各個網(wǎng)絡(luò)層特征,計算2 000對測試圖像的配準(zhǔn)均方根誤差,并求取各層配準(zhǔn)誤差均值,結(jié)果如表3所示。由表3可知,Conv5、FC1和FC2的輸出特征的均方根誤差均值較低,F(xiàn)C2最低為0.031 22。將包含F(xiàn)C2的完整VGGNet作為靜態(tài)圖像配準(zhǔn)算法開展后續(xù)研究。
表3 特征的均方根誤差均值Tab.3 Mean root mean square error for feature
研究VGGNet圖像配準(zhǔn)算法與基于HOG、LBP特征提取的圖像配準(zhǔn)算法精度,結(jié)果如表4所示。
表4 多個算法的均方根誤差均值
Tab.4 Mean root mean square error of different algorithms
算法均方根誤差均值VGGNet圖像配準(zhǔn)算法0.031 22基于HOG特征提取的圖像配準(zhǔn)算法0.040 31基于LBP特征提取的圖像配準(zhǔn)算法0.042 29
VGGNet圖像配準(zhǔn)算法的均方根誤差均值為0.031 22,明顯低于基于HOG、LBP特征提取的圖像配準(zhǔn)算法,具備較高的配準(zhǔn)精度。
在本章節(jié),應(yīng)用Nred方法研究靜態(tài)圖像配準(zhǔn)的正確率,探究了視頻縮放和亮度轉(zhuǎn)換對圖像配準(zhǔn)的影響,最后與傳統(tǒng)圖像配準(zhǔn)算法做比較。
Nred表示靜態(tài)圖像配準(zhǔn)過程中正確同名點的數(shù)量,數(shù)值越高越好。
根據(jù)卷積神經(jīng)網(wǎng)絡(luò)層的輸出特征,對2 000對測試數(shù)據(jù)集求得圖像配準(zhǔn)的Nred值的平均數(shù),結(jié)果如表5所示??芍?~4個網(wǎng)絡(luò)層輸出特征的配準(zhǔn)Nred均值范圍在60~70之內(nèi);Conv5、FC1和FC2的輸出特征的配準(zhǔn)Nred均值分別為73,73,74,說明這3層的輸出特征的配準(zhǔn)性能較好,在此基礎(chǔ)上開展進(jìn)一步的視頻縮放和亮度轉(zhuǎn)換研究。
表5 特征的Nred均值Tab.5 Nred mean for feature
對視頻做縮放操作即對每幀的圖像進(jìn)行了縮放操作。本文對2 000對測試數(shù)據(jù)集采取了不同倍數(shù)的縮放操作,并統(tǒng)計在Conv5、FC1和FC2下的圖像配準(zhǔn)Nred均值,結(jié)果如圖4所示。
圖4 特征的Nred均值Fig.4 Nred mean values for feature
進(jìn)行縮放后,圖像的配準(zhǔn)Nred均值均不同程度地減小。當(dāng)采取縮小操作時,配準(zhǔn)Nred均值減小的幅度很大;而當(dāng)采取放大操作時,配準(zhǔn)Nred均值減小的幅度較小。3個網(wǎng)絡(luò)層的輸出特征值的配準(zhǔn)Nred均值較為接近。
在相同的實驗環(huán)境下,對視頻做亮度變換操作,結(jié)果如圖5所示。
圖5 特征的Nred均值Fig.5 Nred mean values for feature
采取亮度變換操作后,圖像的配準(zhǔn)Nred均值有所減小。減小亮度變換系數(shù)的配準(zhǔn)Nred均值減小幅度比增加亮度變換系數(shù)大。FC2的配準(zhǔn)Nred均值總體較高。將包含F(xiàn)C2的VGGNet作為本圖像配準(zhǔn)算法開展后續(xù)研究。
統(tǒng)計當(dāng)前配準(zhǔn)算法與經(jīng)典HOG、LBP配準(zhǔn)算法的正確同名點數(shù)目,結(jié)果如表6所示。
表6 多個算法的Nred均值Tab.6 Nred mean values for feature
VGGNet圖像配準(zhǔn)算法的Nred均值為74,遠(yuǎn)高于基于HOG、LBP特征提取的圖像配準(zhǔn)算法,具備較高的圖像配準(zhǔn)正確率。
本文研究了視頻配準(zhǔn)工作中的靜態(tài)圖像配準(zhǔn)算法,設(shè)計了一個由較小尺寸卷積核、非線性激活操作、池化操作組成的靜態(tài)圖像配準(zhǔn)算法模型,期望捕獲一定范圍感受野、非線性的圖像語義信息。經(jīng)仿真可知,算法模型的FC2輸出特征的配準(zhǔn)精度為0.031 22,配準(zhǔn)Nred為74,具備較好的配準(zhǔn)可信度和配準(zhǔn)性能,優(yōu)于傳統(tǒng)的HOG、LBP圖像特征提取算法。算法模型對于圖像的縮放變換和亮度變換操作具備一定的抗干擾能力,F(xiàn)C2輸出特征的綜合配準(zhǔn)性能較優(yōu)。