韓 麗,王華東
(1. 鄭州輕工業(yè)大學(xué)計(jì)算機(jī)與通信工程學(xué)院,河南 鄭州 450000;2. 鄭州輕工業(yè)大學(xué)信息化管理中心,河南 鄭州 450000)
隨著時(shí)代的發(fā)展,數(shù)據(jù)的形式發(fā)生了滄海桑田般的變化,傳統(tǒng)的圖像已滿足不了人們的日常需求[1,2]。與此同時(shí),隨著視頻的興盛,視頻圖像中含有的運(yùn)動(dòng)信息和畫(huà)面信息等復(fù)雜特征,在圖像發(fā)生形變后使圖像的識(shí)別更加困難,因此需要結(jié)合圖像的時(shí)間和空間等相關(guān)顯著目標(biāo)才能更好的重構(gòu)視頻的連續(xù)圖像[3,4]。
近年來(lái),動(dòng)態(tài)視頻成為計(jì)算機(jī)視覺(jué)領(lǐng)域研究的熱點(diǎn)問(wèn)題之一,引起廣大研究者的關(guān)注。文獻(xiàn)[5]將圖像中冗余的信息剔除,對(duì)圖像進(jìn)行預(yù)處理,同時(shí)對(duì)連續(xù)形變的圖像采取參照原本圖像信息與灰度相融合的方式實(shí)現(xiàn)圖像變光背景的更新,通過(guò)對(duì)圖像特征矩陣的計(jì)算,完成矩陣相似信息的自適應(yīng)識(shí)別,該方法對(duì)連續(xù)形變圖像信息的識(shí)別率較高,適應(yīng)性較好。文獻(xiàn)[6]通過(guò)分?jǐn)?shù)階微分函數(shù)增加圖像的高頻分量,使圖像細(xì)節(jié)增強(qiáng),采用高斯平滑濾波算子對(duì)拉格朗日梯度算子進(jìn)行更新,去除影響圖像重構(gòu)的高斯白噪聲增量,該方法使圖像重構(gòu)的質(zhì)量有了明顯地提高,并增加了圖像的紋理細(xì)節(jié)。文獻(xiàn)[7]利用BRISK特征檢測(cè)方法對(duì)視頻中的特征點(diǎn)進(jìn)行提取,確定圖像跟蹤的目標(biāo)模板和特征集合,利用FLANN方法對(duì)特征點(diǎn)子集進(jìn)行匹配,確定視頻圖像中的可靠特征點(diǎn)子集,若有三幀連續(xù)的目標(biāo)發(fā)生形變,對(duì)目標(biāo)模板和特征點(diǎn)集進(jìn)行更新,該方法對(duì)形變嚴(yán)重的視頻圖像具有較好的跟蹤效果,跟蹤精度較高。
基于以上研究,本文提出動(dòng)態(tài)視頻多幀連續(xù)圖像形變特征重構(gòu)方法。使用卷積網(wǎng)絡(luò)對(duì)視頻圖像的特征進(jìn)行提取,有利于實(shí)現(xiàn)圖像的重構(gòu)效果,利用改進(jìn)的殘差結(jié)構(gòu)進(jìn)行時(shí)間-空間特征融合,重構(gòu)出細(xì)節(jié)更加豐富的視頻圖像。
對(duì)于動(dòng)態(tài)視頻流中特征的處理主要有幀間差分和光流兩種方法。光流法主要是通過(guò)目標(biāo)速度與背景的不同將兩者區(qū)分開(kāi),但算法較為復(fù)雜,計(jì)算效率低。而幀差法執(zhí)行速度相對(duì)更快,因此這里對(duì)視頻信息的處理采用改進(jìn)的幀差法。視頻是由若干幀組成的視頻序列,具有連續(xù)性。如果視頻中沒(méi)有運(yùn)動(dòng)目標(biāo),那么連續(xù)幀變化不明顯;如果視頻中存在運(yùn)動(dòng)目標(biāo),那么連續(xù)幀變化明顯。因此目標(biāo)的運(yùn)動(dòng)使圖像幀的位置不同,各個(gè)像素點(diǎn)間存在像素差。幀差法對(duì)連續(xù)幀進(jìn)行差分運(yùn)算,將RGB圖像轉(zhuǎn)化為灰度圖像后對(duì)灰度差的絕對(duì)值進(jìn)行判斷。若絕對(duì)值比閾值低,則判定該點(diǎn)為背景點(diǎn);若絕對(duì)值比閾值高,則判定該點(diǎn)為運(yùn)動(dòng)目標(biāo),公式可表示為
(1)
其中,Aima(x,y)=1表示前景;Aima(x,y)=0表示背景;B(t)表示t時(shí)刻的圖像;B(t-1)表示t-1時(shí)刻的圖像;Vthr表示差分圖像的閾值。由于運(yùn)動(dòng)目標(biāo)的內(nèi)部灰度值較為接近,使檢測(cè)的運(yùn)動(dòng)目標(biāo)存在“空洞”現(xiàn)象,因此只能提取運(yùn)動(dòng)目標(biāo)的輪廓信息,使圖片信息不完整?;诖藢?duì)幀差法進(jìn)行改進(jìn),將圖像的當(dāng)前幀和后一幀作為輸入,分別對(duì)當(dāng)前幀圖像的RGB三個(gè)通道做差分運(yùn)算,并進(jìn)行加權(quán)求和處理,公式可表示為
(2)
其中,BR(t)、BG(t)和BB(t)分別表示t時(shí)刻R、G和B三個(gè)通道的圖像;BR(t+1)、BG(t+1)和BB(t+1)分別表示t+1時(shí)刻R、G和B三個(gè)通道的圖像。改進(jìn)后的幀差法不僅改善了圖像的“空洞”現(xiàn)象,還明顯增強(qiáng)了目標(biāo)的運(yùn)行痕跡。圖1 為改進(jìn)后幀差法與傳統(tǒng)幀差法的計(jì)算對(duì)比結(jié)果。
圖1 改進(jìn)幀差法與傳統(tǒng)幀差法的對(duì)比圖
對(duì)視頻的顯著性進(jìn)行檢測(cè),不僅要考慮時(shí)間上的運(yùn)動(dòng)特征,還要對(duì)當(dāng)前視頻幀的空間特征進(jìn)行分析,本文采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)視頻的顯著性進(jìn)行檢測(cè)。采用卷積對(duì)輸入的視頻圖像進(jìn)行特征提取,然后對(duì)提取的多特征進(jìn)行時(shí)間與空間特征的融合處理,公式表示為
(3)
特征提取主要是對(duì)輸入視頻的初步特征進(jìn)行提取,由于固定大小的卷積核只能提取一種尺度的特征,而不同大小的卷積核可以提取不同尺度的特征信息,因此采用大小不同的卷積核對(duì)圖像特征進(jìn)行提取,獲得更加豐富的圖像信息,有利于圖像特征的重構(gòu)。在特征提取模塊中分別使用大小為3和5的卷積核對(duì)圖像的兩種尺度進(jìn)行特征提取,同時(shí)為了減少網(wǎng)絡(luò)中的參數(shù),將各個(gè)卷積層輸入到一個(gè)卷積核大小為1的卷積層中,并將輸出合并到一起,公式表示為
Dout_img=E1([E3(X),E5(X)])
(4)
其中,Dout_img表示圖像的輸出特征;E表示進(jìn)行的卷積操作;X表示圖像的輸入信息。進(jìn)行特征提取后,需要對(duì)圖像的特征進(jìn)行時(shí)間-空間的融合處理,采用卷積殘差塊的方法進(jìn)行特征融合。其中包含3個(gè)卷積層,前2個(gè)卷積層使用卷積核的大小為3;同時(shí)將第1個(gè)卷積層的輸出分成Dout_img1和Dout_img2兩部分,第2個(gè)卷積層只對(duì)Dout_img2作處理,最后使用卷積核大小為1的卷積層將兩部分特征融合起來(lái),公式表示為
(5)
其中,F(xiàn)表示分離操作;Dout_img_in表示殘差塊的輸入;Dout_img表示圖像的特征輸出。通過(guò)殘差塊對(duì)時(shí)間-空間的融合可以對(duì)視頻幀間的運(yùn)動(dòng)進(jìn)行較好的補(bǔ)償,不僅可以降低網(wǎng)路的復(fù)雜度,還可以使圖像的重構(gòu)結(jié)果更加準(zhǔn)確。
當(dāng)動(dòng)態(tài)視頻連續(xù)多幀變化時(shí),會(huì)使視頻中目標(biāo)姿態(tài)發(fā)生劇烈的改變,如果不對(duì)形變的圖像進(jìn)行重構(gòu),會(huì)導(dǎo)致對(duì)提取的特征點(diǎn)出現(xiàn)誤判,因此需要對(duì)圖像特征進(jìn)行重構(gòu)。重構(gòu)方法模型可表示為
(6)
(7)
其中,δ表示正常數(shù);x表示輔助變量;l表示拉格朗日常數(shù)。為了進(jìn)一步解決低秩矩陣極小化問(wèn)題,對(duì)式(6)進(jìn)行迭代求解,公式表示為
(8)
其中,t表示迭代次數(shù)。綜上所述圖像的重構(gòu)問(wèn)題可轉(zhuǎn)換成對(duì)Li、g和x求解的問(wèn)題。
首先假定g和x為固定值,Li優(yōu)化后通過(guò)加權(quán)范數(shù)處理,用公式可表示為
(9)
(10)
(11)
(12)
其中,μ為利普希茨常量,于是Li的求解問(wèn)題可轉(zhuǎn)換為求解加權(quán)核范數(shù)的最小化問(wèn)題,通過(guò)迭代權(quán)重加權(quán)核就可以方便的計(jì)算出其數(shù)值。
假定Li和x為固定值,原始圖像的特征信號(hào)g的優(yōu)化處理公式可表示為
(13)
由上式可知,g優(yōu)化處理后是一個(gè)凸二次優(yōu)化問(wèn)題,將其進(jìn)行封閉求解,公式可表示為
(14)
其中,I表示單位矩陣。因圖像中含有大量信息,采用共軛梯度法進(jìn)行求解,可以大大提高運(yùn)算的速率。
假定Li和g為固定值,輔助變量x的優(yōu)化處理公式可表示為
(15)
由上式可知,x優(yōu)化處理后也是一個(gè)凸二次函數(shù)的極小化問(wèn)題,為了得到x的封閉解,對(duì)其進(jìn)行求導(dǎo),得
(16)
為了驗(yàn)證動(dòng)態(tài)視頻多幀連續(xù)圖像形變特征重構(gòu)方法的有效性和適用性,本文選擇VideoSal數(shù)據(jù)集,其中包含不同場(chǎng)景的視頻序列7萬(wàn)個(gè),每個(gè)視頻序列由7幀連續(xù)的視頻幀組成,較為全面的覆蓋了目標(biāo)的高速運(yùn)動(dòng)和角度變化等場(chǎng)景,能夠?qū)σ曨l顯著性進(jìn)行有效地驗(yàn)證。本文通過(guò)平均絕對(duì)誤差(MEA)和精確率與召回率的加權(quán)平均(F-Measure)兩個(gè)指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià)。
MEA表示原始圖像與其在像素層的真值之間的絕對(duì)誤差平均值,公式表示為
(17)
其中,U表示原始圖像;V表示原始圖像在像素層的真值;Wima表示圖像的寬度;Hima表示圖像的高度;(x,y)表示像素點(diǎn)與中心像素點(diǎn)的坐標(biāo)。
F-Measure表示精度與召回率加權(quán)后的平均值,用公式可表示為
(18)
其中,ζ表示權(quán)重,J表示精確率;Z表示召回率。
為了驗(yàn)證特征融合對(duì)視頻的作用,使用普通的殘差塊與本文提出改進(jìn)的殘差塊對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,分別用方法1和方法2表示,并在VideoSal數(shù)據(jù)集上測(cè)試。對(duì)比結(jié)果如表1所示。
表1 兩種方法的性能評(píng)價(jià)指標(biāo)
從表中可以看出,采用普通殘差塊方法對(duì)視頻融合時(shí),MEA和F-Measure這兩種性能評(píng)價(jià)指標(biāo)明顯沒(méi)有本文改進(jìn)后的方法好,而且網(wǎng)絡(luò)參數(shù)量比本文方法略高。為了驗(yàn)證視頻融合過(guò)程的有效性,將本文方法與文獻(xiàn)[5]、文獻(xiàn)[6]和文獻(xiàn)[7]的方法進(jìn)行對(duì)比,同時(shí)對(duì)圖像進(jìn)行2倍和4倍的放大處理,不同方法在VideoSal數(shù)據(jù)集上的評(píng)價(jià)指標(biāo)如表2所示。
表2 不同放大倍數(shù)下性能評(píng)價(jià)指標(biāo)
從表中可以看出,本文提出的方法與其它方法相比,評(píng)價(jià)指標(biāo)均有一定的提升,證明了本文方法的有效性。在進(jìn)行圖像的2倍放大時(shí),與效果較好的文獻(xiàn)[6]和文獻(xiàn)[7]方法相比,本文方法在MEA指標(biāo)上分別提高了0.025和0.021;在F-Measure指標(biāo)上分別提高了0.207和0.146。在進(jìn)行圖像的4倍放大時(shí),本文方法較文獻(xiàn)[6]和文獻(xiàn)[7]方法在MEA指標(biāo)上分別提高了0.03和0.026;在F-Measure指標(biāo)上分別提高了0.209和0.147。雖然在網(wǎng)絡(luò)參數(shù)量上本文方法比文獻(xiàn)[7]方法略高,但獲得的重建性能較好。
為了對(duì)視頻中某幀圖像的檢測(cè)效果進(jìn)行驗(yàn)證,隨機(jī)選擇3張VideoSal數(shù)據(jù)集中的某幀圖像作為目標(biāo)圖像,并將本文方法與文獻(xiàn)[5]、文獻(xiàn)[6]和文獻(xiàn)[7]的方法進(jìn)行對(duì)比。各個(gè)重構(gòu)算法的圖像對(duì)比圖如圖2所示。
圖2 不同方法重構(gòu)圖像對(duì)比結(jié)果
從圖中可以看出,采用文獻(xiàn)[5]和文獻(xiàn)[6]的方法重構(gòu)出的圖像邊緣等細(xì)節(jié)較為模糊,重構(gòu)的效果比較差;利用文獻(xiàn)[7]的方法,當(dāng)采樣率較低時(shí),重構(gòu)圖像相對(duì)有改善,但邊緣等細(xì)節(jié)仍不能取得較好的效果;而本文的重構(gòu)方法,充分利用了函數(shù)求解和圖像本身的特性,即使在低秩矩陣中,圖像的重構(gòu)效果也較好,與原始圖像最為接近,視覺(jué)效果比其它方法相對(duì)較好,通過(guò)圖像的局部放大可以看出本文方法對(duì)圖像的細(xì)節(jié)保護(hù)性能更佳。
本文提出動(dòng)態(tài)視頻多幀連續(xù)圖像形變重構(gòu)方法,利用改進(jìn)后的幀間差分法對(duì)視頻幀的RGB三通道上的差分值進(jìn)行計(jì)算,提取圖像在時(shí)間上的運(yùn)動(dòng)特性,再通過(guò)卷積神經(jīng)網(wǎng)絡(luò)對(duì)視頻的每幀圖像進(jìn)行空間特征的提取,并采用改進(jìn)的殘差塊對(duì)RGB通道分離出的圖像特征進(jìn)行融合,對(duì)形變的圖像通過(guò)改進(jìn)后的方法進(jìn)行重構(gòu)。在VideoSal數(shù)據(jù)集上將本文方法與其它文獻(xiàn)方法進(jìn)行對(duì)比,并選擇MEA和F-Measure這兩個(gè)值作為性能評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)結(jié)果表明,本文方法與采用普通殘差塊方法對(duì)視頻融合時(shí),MEA和F-Measure性能評(píng)價(jià)指標(biāo)較好,且網(wǎng)絡(luò)參數(shù)量較少,圖像的重構(gòu)效果與原始圖像最為接近,對(duì)圖像的細(xì)節(jié)保護(hù)性能更佳。