文介華,譚立輝
(廣東工業(yè)大學 應(yīng)用數(shù)學學院,廣東 廣州 510520)
隨著互聯(lián)網(wǎng)以及各類視覺設(shè)備的普及,存儲的圖像和視頻早已不計其數(shù),從而使得在海量圖片中檢索出與目標圖片相似的圖像變得極為困難. 因為這不僅需要考慮檢索的準確度,還需要考慮檢索所需的時間. 傳統(tǒng)的圖像檢索方法主要分兩種:一種是基于標簽的圖像檢索(Text-Based Image Retrieval,TBIR),另一種是基于內(nèi)容的圖像檢索(Content Based Image Retrieval,CBIR). TBIR方法主要是通過圖像的關(guān)鍵字和標題等標簽信息進行圖像的檢索,而CBIR主要是通過提取圖像的特征,通過相似性度量、排序得出目標結(jié)果. CBIR一直是圖像檢索領(lǐng)域內(nèi)的重心,而影響其檢索效果的關(guān)鍵在于其提取的圖像特征. 好的特征不僅對圖像檢索精確度有很大的幫助,在檢索速度上面也有極大的提升. 主要的特征提取方式有:基于顏色的,一般采用顏色直方圖實現(xiàn)檢索;基于紋理方面的,有PHOG、LBP、Gabor等方式;基于形狀、輪廓方面的,一般使用形狀上下文描述子,這種不僅適合剛性物體,也對非剛性物體有較好的魯棒性[1-4]. 這些經(jīng)典的傳統(tǒng)算法雖然很實用,但提取的特征一般比較簡單和粗糙.
近年來,隨著深度學習的興起和發(fā)展,利用深度學習方法來提取圖像的復雜特征成了研究的熱點.深度學習提取的特征屬于高層語義特征,它能更好地表達圖像的內(nèi)容和細節(jié). 最近,研究者們提出了一種專門為計算圖像之間相似度而設(shè)計的一種深度學習框架——孿生卷積網(wǎng)絡(luò)(Siamese CNN),它在實際應(yīng)用中取得了很好的效果. 由于此網(wǎng)絡(luò)是監(jiān)督性網(wǎng)絡(luò),需要大量的標簽樣本,因此它存在著一定的局限性[5-7]. 為了改進這種需要監(jiān)督的局限性,Mallat S等[8]提出來了一種新的小波散射卷積神經(jīng)網(wǎng)絡(luò). 它已經(jīng)在理論上證明了通過此方法提取的特征具有平移不變性和形變穩(wěn)定性,而且這種網(wǎng)絡(luò)為非監(jiān)督的前饋式神經(jīng)網(wǎng)絡(luò). 它的識別效果在小數(shù)據(jù)集上表現(xiàn)良好,已經(jīng)被成功運用到圖像識別和語音識別等領(lǐng)域[9-13]. 因為小波卷積神經(jīng)網(wǎng)絡(luò)優(yōu)越的性能和完美的數(shù)學理論性質(zhì),為了拓廣其應(yīng)用背景,類比經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)的思路,所以Wiatowski T等人不斷完善并擴展延伸了小波散射卷積網(wǎng)絡(luò)的理論及其網(wǎng)絡(luò)結(jié)構(gòu),使得非線性化和池化在網(wǎng)絡(luò)中得以運用. 這在一定程度上使得提取的特征實現(xiàn)了降維[14].
針對圖像檢索的復雜背景、大規(guī)模圖像檢索消耗的時間過長以及深度神經(jīng)網(wǎng)絡(luò)需要固定輸入尺寸等問題,本文主要利用小波散射卷積神經(jīng)網(wǎng)絡(luò)做了以下工作:(1) 將小波散射卷積神經(jīng)網(wǎng)絡(luò)運用到圖像檢索領(lǐng)域;(2) 對每張圖片構(gòu)造對應(yīng)大小的小波核,解決任意尺度輸入問題;(3) 對小波散射提取的特征進行加工,以特征系數(shù)的均值和方差作為新的特征,從而降低特征維度來滿足大規(guī)模圖像檢索在時間上的需求.
圖像檢索的先決條件就是提取圖像的特征,而特征的好壞直接關(guān)系到圖像檢索的準確度和檢索時間. 有一種做法就是將其轉(zhuǎn)化到時頻域,然后求其特征. 早期使用的方法是傅里葉變換,該方法是頻域分析法,只能描述全局特征,且提取出來的特征只有平移不變性不具備形變穩(wěn)定性. 而由傅里葉變換改進的小波變換,提取的特征滿足形變穩(wěn)定性,在時域和頻域都有很好的表現(xiàn). 但是,單純的小波變換對特征并沒有平移不變性,最新提出的小波散射卷積神經(jīng)網(wǎng)絡(luò)恰好彌補了這一不足[5]. 本節(jié)將具體介紹如何利用小波散射卷積神經(jīng)網(wǎng)絡(luò)提取圖像的特征.
小波散射實際上是二維方向母小波通過縮放、旋轉(zhuǎn)得到一組小波簇,在不同尺度的情況下對信號源進行濾波,然后通過尺度函數(shù)不斷提取其高頻信息的過程. 具體過程如下.
因為小波變換不具有平移不變性,所以維持其不變性需要加入非線性的度量. 這里取小波變換的模算子更一般的有[14-15]
為了更好地分類,本文采用局部低通濾波器——Gabor小波作為尺度函數(shù)來提取細節(jié),即
由此可得小波傳播算子為
Lumion,中文名稱流明,是實時的3D可視化工具,沒有建模功能,該軟件開發(fā)年限較短(2010年11月),但因其優(yōu)勢明顯,迅速被園林規(guī)劃設(shè)計、建筑設(shè)計等行業(yè)廣為利用,主要優(yōu)勢是:渲染和場景創(chuàng)建時間極短,可節(jié)省大量時間和精力,擁有豐富的3D材質(zhì)和模型,支持高分辨率視頻和圖像輸出,可視化效果逼真,是對Google SketchUp軟件的良好補充。
其中前一個分量表達的是信號不變的高頻特征,后一個分量為穩(wěn)定的低頻特征(散射算子).
每做一次低頻散射,都會伴隨著高頻的丟失. 因此,在下一步操作時又得恢復高頻. 通過路徑的不斷迭代,最終可得
這樣,可得小波散射的網(wǎng)絡(luò)結(jié)構(gòu),見圖1所示.
圖1 小波散射卷積網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Structure diagram of wavelet scattering convolution network
因為在網(wǎng)絡(luò)的每一層都有低頻穩(wěn)定的特征輸出,故其特征集合為
Mallat S等[8]在實驗中已經(jīng)得到當網(wǎng)絡(luò)深度達到3層時,散射能量可達到99%以上. 因此本文所取的網(wǎng)絡(luò)深度為M=3.
圖2 檢索流程Fig.2 the retrieval process
本文算法小波散射結(jié)果如圖1. 圖像先通過小波散射卷積神經(jīng)網(wǎng)絡(luò)提取小波散射特征系數(shù),此處設(shè)置網(wǎng)絡(luò)深度M=3,方向L=4,尺度J=3,這樣可提取出散射網(wǎng)絡(luò)在不同尺度和不同方向上對應(yīng)的3層特征系數(shù)矩陣:第1層為1個,第2層為12個,第3層為48個.所有特征集合在一起為是第1層特征系數(shù)矩陣是第2層的特征系數(shù)矩陣是第3層的特征系數(shù)矩陣. 圖3(a)、(b)分別是原圖和小波散射之后的特征圖.
圖3 恐龍及其小波散射特征實例圖Fig.3 The original image and its wavelet scattering feature example
根據(jù)小波散射的性質(zhì),已知第1層特征系數(shù)矩陣為全局特征,能量最大,但噪聲也最大. 第2層、第3層特征系數(shù)矩陣為局部特征,突出細節(jié). 本文主要是通過分析小波散射特征系數(shù)矩陣的第2層和第3層,并計算其特征系數(shù)矩陣對應(yīng)的平均值()和方差()來實現(xiàn)在圖像檢索方面的應(yīng)用,其定義為
其中Ss,k表示第s個尺度,第k個方向上個的特征系數(shù)矩陣. 因此,根據(jù)上述方法得到最終的特征. 第2層特征為第2層系數(shù)矩陣的所有的均值和標準差級聯(lián)一起第3層特征為第3層系數(shù)矩陣的所有的均值和標準差級聯(lián)一起
本文采用的歐氏距離來計算相似度,即特征向量之間的距離來計算相似度. 根據(jù)式(7)、(8)的計算方式,可以得到每張圖片的特征向量同樣可以計算出待檢索圖片的特征向量根據(jù)歐氏距離計算兩張圖片的相似度S,見式(9).
本文采用電腦配置Windows 7,i5-6600cpu,8 G內(nèi)存,MATLAB R2014a編程實現(xiàn). 本文使用的數(shù)據(jù)庫為圖像檢索中常用的corel-1000圖像庫作為實驗數(shù)據(jù)庫,其中包含了土著人、沙灘、大巴車、恐龍等10類圖像,每個類別為100張圖片,其大小為384×256像素或者256×384像素. 本文使用查全率(recall)P作為評價指標.
式(10)中M表示返回的檢索圖片數(shù)量,表示在返回結(jié)果中相似的圖片數(shù)量.
圖4(a)、(b)分別為恐龍和公共汽車在本文算法上檢索的結(jié)果.
圖4 恐龍和公交圖片的檢索結(jié)果Fig.4 The dinosaur and the bus image retrieval results
基于小波散射變換的圖像檢索算法步驟為:(1) 圖片統(tǒng)一進行預處理,歸一化. (2) 對圖庫和待檢索的圖片進行小波散射變換,提取其小波散射系數(shù)特征(此處用的最大池化和絕對值的非線性變換). (3) 針對第2層和第3層的小波散射系數(shù)特征矩陣,求其均值和方差.(4) 利用式(9),對圖庫中每張圖片和待檢測圖片進行特征歐氏相似距離計算. (5) 利用下面3.2尋找最優(yōu)的超參. 然后代入最優(yōu)的,得到圖庫的檢索模型.(6) 加載一張需檢索的圖片,代入已求最優(yōu)的檢索模型,返回10張相似的圖片.
本文在非洲居民類(其余類別背景相對簡單)中隨機選取10張圖片,每張圖片檢索并返回這10張圖片的結(jié)果. 在遍歷(0~1之間)時,累計檢索出準確結(jié)果最多的點,就定為最優(yōu)的點. 如圖5所示.
表1為結(jié)果返回10張圖片本文算法和文獻[15-16]的所有圖片平均查全率.
由表1可知,本文算法在corel-1000圖像庫上的圖像檢索效果總體上優(yōu)于另外兩種算法,尤其是在公共汽車和花等輪廓和紋理特征比較明顯的圖像上檢索效果尤為明顯. 其中,在文獻[15]中,它用到的方法是對圖片的HSV3個通道分別做小波變換,級聯(lián)3個通道的小波特征. 文獻[16]是圖像的顏色矩和小波變換相結(jié)合. 兩者都為小波變換的紋理特征和顏色特征結(jié)合,相當于多特征的融合. 本文算法僅僅是基于灰度圖的小波散射系數(shù)特征(單一特征),但效果卻更好,這也驗證了本文算法的可行性和優(yōu)越性.
圖5 不同取值下的累計準確結(jié)果的數(shù)量Fig.5 The number of accumulated accurate results under different values
表1 3種算法平均查全率比較Tab.1 Comparison of average precision of three algorithms
本文算法是利用小波散射卷積網(wǎng)絡(luò)方法來提取圖片特征并進行加工以實現(xiàn)在圖像檢索方面的應(yīng)用,實驗表明了我們方法的有效性和優(yōu)越性. 但此方法僅從圖像的灰度圖的紋理特性著手,用到的特征較為單一,并不能完美地檢索出所有圖片,同時在尋找超參值方面也有一定的局限,因此算法還需進一步深入研究,以提高檢索效果.