郭蘭圖,余 芳,陳金鳳
(1.中國(guó)電波傳播研究所,山東 青島266107;2.中國(guó)石油大學(xué)(華東),山東 青島266580)
圖像檢索的主要目的是從大規(guī)模數(shù)據(jù)庫(kù)中檢索出與查詢圖像相似的圖像。SWAIN M J和BALLARD D H[1]提出利用顏色直方圖作為圖像顏色特征的表示方法,該方法能夠簡(jiǎn)單描述一幅圖像中顏色的全局分布,簡(jiǎn)單易行,具有旋轉(zhuǎn)不變性。此外,STRICKER和ORENGO提出的累積直方圖方法[2]也優(yōu)于一般基于圖像顏色直方圖的方法。但是由于顏色對(duì)圖像或圖像區(qū)域的方向、大小等變化不敏感,因此顏色特征不能很好地捕捉圖像中對(duì)象的局部特征。為此,MARR和NISHIHARA H[3]和BRADDY M[4]詳細(xì)闡述了形狀的表示方法和評(píng)價(jià)標(biāo)準(zhǔn),然而基于圖像形狀特征的方法在獲得有關(guān)目標(biāo)的形狀參數(shù)時(shí)通常需要對(duì)圖像進(jìn)行邊界提取或分割操作,因此形狀特征的提取會(huì)受到圖像分割效果的影響。目前大多數(shù)基于內(nèi)容的圖像檢索系統(tǒng)也是基于上述特征的。
一般圖像特征可以分為全局特征和局部特征[5]。基于全局特征的檢索系統(tǒng)只能表示圖像的整體內(nèi)容,并不適合部分圖像的匹配和具有不同視角的相同目標(biāo)或場(chǎng)景的圖像檢索。受參考文獻(xiàn)[6]的啟發(fā),本文提出一種基于圖像的穩(wěn)定局部區(qū)域特征和全局GIST特征相結(jié)合的圖像檢索算法。圖像的穩(wěn)定局部區(qū)域不僅具有顯著性,并且對(duì)旋轉(zhuǎn)以及仿射變換具有不變性,已廣泛應(yīng)用于目標(biāo)識(shí)別等領(lǐng)域。而基于仿射不變區(qū)域檢測(cè)技術(shù)也得到很大的發(fā)展,例如最大穩(wěn)定極值區(qū)域檢測(cè)器MSER[7]等方法。參考文獻(xiàn)[8]對(duì)目前國(guó)際上比較流行的6種仿射不變區(qū)域檢測(cè)方法進(jìn)行了比較,得出最大穩(wěn)定區(qū)域(MSER)檢測(cè)方法檢測(cè)效果最好。為了更好地找到圖像的穩(wěn)定局部區(qū)域,本文選取目前國(guó)際上最流行的MSER檢測(cè)方法。
在基于區(qū)域的檢測(cè)方法中,最大穩(wěn)定極值區(qū)域檢測(cè)方法的檢測(cè)效果較好,并且已經(jīng)得到了廣泛的應(yīng)用。MSER利用地形中分水嶺的概念檢測(cè)穩(wěn)定局部區(qū)域,與傳統(tǒng)的分水嶺算法重要的區(qū)別是二者所關(guān)心的水位選取是不一樣的。MSER尋找圖像中的穩(wěn)定區(qū)域,也就是當(dāng)水位變化時(shí)水的體積變化率最小的區(qū)域。圖像I是區(qū)域D到灰度S的映射:D∈Z2→S,且滿足下述條件。
(1)S具有自反、非對(duì)稱(chēng)和傳遞的二值關(guān)系,S={0,1,…,255}。鄰域關(guān)系A(chǔ)?D×D。
(2)區(qū)域Q是D的一個(gè)連通子集。
(3)區(qū)域Q的邊界δQ,δQ={q∈DQ∶p∈Q∶q∈A(p)}。
(4)極值區(qū)域Q。極值區(qū)域Q屬于集合D,對(duì)所有p∈Q,q∈δQ∶I(p)>I(q)屬于最大極值區(qū)域,若I(p)
(5)最大穩(wěn)定極值區(qū)域(MSER)。如果Q1,Q2,…,Qi-1,Qi,…為一系列相互包含的極值區(qū)域,當(dāng)且僅當(dāng)區(qū)域變化率q(i)=|Qi+thQi-th|/|Qi|在i處取得局部極小值。
在利用MSER區(qū)域檢測(cè)方法對(duì)其進(jìn)行檢測(cè)后,MSER方法檢測(cè)到的區(qū)域中有很多較小的區(qū)域,這些區(qū)域往往是由于噪聲造成的,本文根據(jù)面積閾值過(guò)濾掉較小的區(qū)域。經(jīng)過(guò)多次驗(yàn)證,在檢索時(shí)所用的最小面積閾值為100。最后把檢測(cè)到的區(qū)域擬合為橢圓。對(duì)數(shù)據(jù)庫(kù)COIL-100中的圖像進(jìn)行MSER區(qū)域檢測(cè),部分檢索結(jié)果如圖1所示。
圖1 MSER穩(wěn)定區(qū)域檢測(cè)結(jié)果
為了精確地描述圖像局部區(qū)域的內(nèi)容,本文采用基于GIST特征的區(qū)域描述算法。參考文獻(xiàn)[9]提出了GIST描述符,其思想就是不用任何形式的圖像分割,找到一種圖像場(chǎng)景的低維表示。目前,GIST特征被廣泛應(yīng)用于自然圖像檢索領(lǐng)域,并且取得了較好的效果。
(1)利用MSER區(qū)域檢測(cè)算法檢測(cè)到圖像的穩(wěn)定區(qū)域;
(2)把最終檢測(cè)到的區(qū)域擬合為橢圓,計(jì)算橢圓區(qū)域的最小外接矩形;
(3)對(duì)最小外接矩形進(jìn)行方向校正,并提取矩形區(qū)域內(nèi)的GIST特征。
本文的圖像檢索系統(tǒng)的框架流程如圖2所示。
本文借助于sift關(guān)鍵點(diǎn)匹配與k-d樹(shù)算法相結(jié)合進(jìn)行圖像匹配,其詳細(xì)步驟如下。
(1)對(duì)待查詢圖像進(jìn)行局部區(qū)域檢測(cè)并提取特征;
(2)對(duì)于查詢圖像的每一個(gè)區(qū)域與數(shù)據(jù)庫(kù)圖像的所有區(qū)域利用歐氏距離進(jìn)行比較,找到距離最小和次小值;
圖2 圖像檢索系統(tǒng)框架流程圖
(3)如果距離的最小值除以次小值小于某個(gè)預(yù)設(shè)閾值(本實(shí)驗(yàn)中的閾值為0.85),就認(rèn)為此區(qū)域找到了與其匹配的區(qū)域;
(4)找到與查詢圖像匹配區(qū)域數(shù)最多的圖像作為檢索結(jié)果。
為了與參考文獻(xiàn)[6]的方法進(jìn)行對(duì)比,數(shù)據(jù)庫(kù)也選擇哥倫比亞大學(xué)的COIL-100數(shù)據(jù)庫(kù)[10]。此數(shù)據(jù)庫(kù)含有100個(gè)類(lèi),每個(gè)類(lèi)含有72幅不同視角的圖像。本文也同樣選取了與參考文獻(xiàn)[6]相同的10類(lèi)作為實(shí)驗(yàn)庫(kù),每類(lèi)含有72幅不同視角的圖像。
為了驗(yàn)證本文算法的有效性,從每一類(lèi)中隨機(jī)地選取5幅圖像作為查詢圖像。對(duì)數(shù)據(jù)庫(kù)中的所有圖像檢測(cè)到穩(wěn)定區(qū)域并提取區(qū)域的特征。
圖3展示了一些數(shù)據(jù)庫(kù)中的圖像實(shí)例。在實(shí)驗(yàn)中從每一個(gè)類(lèi)中隨機(jī)選取5幅圖像作為查詢圖像并在最后統(tǒng)計(jì)了相應(yīng)的實(shí)驗(yàn)結(jié)果。
圖3 數(shù)據(jù)庫(kù)中的部分圖像類(lèi)別實(shí)例
檢索的部分結(jié)果如圖4所示,其中第一幅為待檢索圖像,后4幅為查詢結(jié)果中選取的前4幅圖像。從實(shí)驗(yàn)結(jié)果可以看出,該方法能夠抵制較強(qiáng)的旋轉(zhuǎn)與光照干擾,這與穩(wěn)定局部區(qū)域和全局內(nèi)容信息特征的有效選取是分不開(kāi)的。
本文的一些實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)如表1所示,其中查詢圖像從每一類(lèi)中隨機(jī)選取5幅圖像。查準(zhǔn)率即檢出的相關(guān)圖像與檢出的全部圖像的百分比。
圖4 部分檢索結(jié)果示例
表1 圖像查準(zhǔn)率統(tǒng)計(jì)
為測(cè)試算法的有效性,與參考文獻(xiàn)[6]中提到的方法進(jìn)行了對(duì)比,在相同數(shù)據(jù)圖像庫(kù)條件下,參考文獻(xiàn)[6]的平均查準(zhǔn)率為82.46%,而本文的平均查準(zhǔn)率為89.6%。由實(shí)驗(yàn)結(jié)果可知,本文方法的平均查準(zhǔn)率遠(yuǎn)高于參考文獻(xiàn)[6]中的平均檢索精度,驗(yàn)證了本文方法的有效性。
本文提出了一種基于穩(wěn)定局部區(qū)域和區(qū)域全局內(nèi)容特征相結(jié)合的圖像檢索算法。實(shí)驗(yàn)結(jié)果表明,兩者結(jié)合能夠達(dá)到很好的圖像檢索效果。與參考文獻(xiàn)[6]的方法相比,本文方法不需要設(shè)定權(quán)值,平均檢索精度更優(yōu)。
[1]SWAIN M J,BALLARD D H.Color indexing[J].International Journal of Computer Vision,1991,7(1)∶11-32.
[2]顧曙輝.基于內(nèi)容的圖像檢索技術(shù)研究[J].科技資訊,2007(14)∶189.
[3]MARR D,NISHIHARA H K.Representation and recognition of the spatial rganization of three-dimensional shapes[J].Proceedings of Royal Seciety,1978,200(1140)∶269-294.
[4]BRADY M.Criteria for representations and of shape[J].Academic Press,1993∶39-84.
[5]HALAWANI A,TEYNOR A,SETIA L,et al.Fundamentals and applications of image retrieval∶an overview[J].Datenbank Spektrum,2006∶14-23.
[6]VELMURUGAN K,LT D S,BABOO S.Image retrieval using harris corners and histogram of oriented gradients[J].International Journal of Computer Applications,2011,24(7)∶6-10.
[7]MATAS J,CHUM O,URBAN M,et al.Robust widebaseline stereo from maximally stable extremal regions[C].British Machine Vision Conference,2002∶384-393.
[8]MIKOLAJCZYK K,TUYTELAARS T,SCHMID C,et al.A comparision of affine region detectors[J].International Journal of Computer Vision,2005,65(1-2)∶43-72.
[9]OLIVA A,TORRALBA A.Modeling the shape of the scene∶a holistic representation of the spatial envelope[J].International Journal of Computer Vision,2001,42(3)∶145-175.
[10]NENE S A,AYAR S K,MURASE H.Columbia object image library[R].New Yourk∶Deptartment of Competter Science,Columbia University,1996.