姜 雪,邵寶民,王 振,李秋玲
(1.山東理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 淄博 255049;2.淄博職業(yè)學(xué)院 信息工程系,山東 淄博 255314)
基于內(nèi)容的圖像檢索CBIR(Content Based Image Retrieval)[1]發(fā)展到今天已經(jīng)比較成熟,但隨著人工智能的不斷發(fā)展,CBIR仍然是圖像領(lǐng)域研究的熱點(diǎn)。CBIR是利用圖像的顏色、紋理、形狀等視覺特征進(jìn)行的圖像檢索。檢索中,建立數(shù)據(jù)庫圖像和查詢圖像的特征空間,在特征空間內(nèi)進(jìn)行圖像間的相似性匹配,從而檢索出與查詢圖像相類似的圖像[2]。
基于圖像內(nèi)容信息提取的基本方法常用的有全局特征和局部特征[3]。全局特征是指圖像的整體屬性,具有良好的不變性、計(jì)算簡單、表示直觀等特點(diǎn),但這種描述不適用于圖像混疊或有遮擋的情況;局部特征則是從圖像局部區(qū)域中抽取的特征,描述了圖像的個(gè)性化信息,如邊緣、角點(diǎn)、線等區(qū)域的特征,具有在圖像中蘊(yùn)含數(shù)量豐富、特征間相關(guān)度小、遮擋情況下不會(huì)因?yàn)椴糠痔卣鞯南Ф绊懫渌卣鞯臋z測和匹配等特點(diǎn)。如早期IBM的QBIC[4]、MIT的Photobook[5]等是基于全局特征的圖像檢索方法,Visual SEEK[6]、Blobworld[7]系統(tǒng)等是基于區(qū)域的圖像檢索。近期張麗[8]提出的基于顏色和紋理特征的圖像檢索技術(shù),提取了圖像全局的顏色和紋理特征,取得了較好的檢索效果。丁軍娣等[9]提出的基于角點(diǎn)特征的圖像檢索新方法,提取了角點(diǎn)的紋理和形狀特征,也進(jìn)行了有效的圖像檢索。周東堯等[10]提出的基于全局特征和尺度不變特征轉(zhuǎn)換特征融合的醫(yī)學(xué)圖像檢索,把全局特征和SIFT特征融合起來進(jìn)行圖像檢索,依然較好地優(yōu)化了檢索效果。本文提出融合全局特征和角點(diǎn)特征的圖像檢索方法,從整幅圖像中提取HSV直方圖特征和LBP特征,再提取圖像角點(diǎn)的Hu矩形狀特征和基于GLCM的紋理特征,將這兩類特征融合起來并選用相對曼哈頓距離進(jìn)行相似性度量,以此完成圖像檢索。
圖像檢索有兩個(gè)關(guān)鍵技術(shù):一是要提取恰當(dāng)?shù)膱D像特征;二是要采取有效的特征度量算法。本文的圖像檢索流程如圖1所示,首先提取數(shù)據(jù)庫圖像的全局特征和角點(diǎn)特征,并將二者融合建立數(shù)據(jù)庫圖像的特征數(shù)據(jù)集;然后提取查詢圖像的全局特征和角點(diǎn)特征,并融合生成查詢圖像的特征向量;再設(shè)置度量方式和返回?cái)?shù)目;最終通過相似性計(jì)算輸出查詢結(jié)果。
圖1 圖像檢索流程Fig.1 Image retrieval process
顏色是圖像信息表達(dá)最直觀的特征,對圖像本身的尺寸、方向、視角的依賴性較小,具有較高的魯棒性,是圖像檢索中應(yīng)用最為廣泛的視覺特征[11]。鑒于HSV(色調(diào)、飽和度、亮度)模型更符合描述和解釋顏色的方式,本文提取了圖像HSV模型的HSV顏色直方圖特征[12]。將每個(gè)H、S、V分量分別均勻量化為8、2、2個(gè)顏色區(qū)間,計(jì)算顏色落在每個(gè)顏色區(qū)間內(nèi)的像素?cái)?shù)量,并進(jìn)行歸一化得到圖像的HSV顏色直方圖特征。一般彩色圖像都是RGB模型,圖像從RGB模型到HSV模型的轉(zhuǎn)換公式為
(1)
式中,
(2)
(3)
(4)
例如圖2為一幅蝴蝶的圖像,其提取的HSV顏色直方圖特征向量為
hsvCH=0.03430.12100.10280.01300.0248 0.0060 …… 00
圖2 原圖Fig.2 Original image
局部二值模式(Local Binary Pattern,LBP),是一種有效的圖像局部紋理特征的描述,是灰度范圍內(nèi)的紋理度量[13]。由于LBP方法原理相對簡單,計(jì)算復(fù)雜度低,同時(shí)又具有旋轉(zhuǎn)不變性和灰度不變性等顯著優(yōu)點(diǎn),因而該方法被廣泛地應(yīng)用于圖像匹配、行人和汽車目標(biāo)的檢測與跟蹤等多個(gè)領(lǐng)域[14]。
為了更好地反映圖像的局部信息,提高圖像紋理特征的準(zhǔn)確性,本文將圖像的LBP特征譜(由旋轉(zhuǎn)不變的LBP算子得到)均等地劃分成四個(gè)區(qū)域,分別計(jì)算其統(tǒng)計(jì)直方圖,得到圖像的LBP特征。圖3為圖2所示蝴蝶圖像的LBP圖譜。
圖3 LBP圖譜Fig.3 LBP map
該蝴蝶圖像提取的LBP特征向量為
lbp=0.05240.069600.047900.009800.0781……0.0579
取某個(gè)像素的一個(gè)鄰域窗口,當(dāng)這個(gè)窗口在各個(gè)方向上滑動(dòng)時(shí),比較滑動(dòng)前后窗口中的像素灰度變化程度,如果都有著較大灰度變化,則認(rèn)為該窗口中存在角點(diǎn)[15]。
Harris角點(diǎn)檢測,使用自相關(guān)矩陣M表達(dá)式度量角點(diǎn)響應(yīng)為
R=detM-κ(traceM)2
(5)
式中:detM=λ1λ2;traceM=λ1+λ2;κ是常量,一般取值為0.04~0.06,本文取κ=0.04。
圖像中某個(gè)像素點(diǎn)的響應(yīng)值R如果比其鄰域像素點(diǎn)的都大,則該像素點(diǎn)為圖像的一個(gè)Harris角點(diǎn),如此便可以找到圖像的所有Harris角點(diǎn)。圖4為3幅蝴蝶圖像的Harris角點(diǎn)檢測結(jié)果。
圖4 Harris角點(diǎn)檢測結(jié)果Fig.4 Harris corner detection results
由于每幅圖像檢測到的Harris角點(diǎn)數(shù)目是不同的,選擇角點(diǎn)太少會(huì)缺少圖像信息的重要描述,而選擇角點(diǎn)太多又會(huì)失去圖像信息的個(gè)性化描述,這兩種情況都不利于圖像信息的精確和可區(qū)分性描述,本文選取了圖像的Harris響應(yīng)值R較大的前20個(gè)角點(diǎn)作為待處理點(diǎn)。
對于圖像中檢測到的Harris角點(diǎn),需要提取其鄰域的形狀特征和紋理特征。
2.4.1 角點(diǎn)的形狀特征提取
數(shù)字圖像的幾何矩和幾何中心矩可用于描述區(qū)域的形狀,經(jīng)過一系列代數(shù)恒等變換,提出了7個(gè)不變矩(φ1,φ2,φ3,φ4,φ5,φ6,φ7)[16]即Hu矩,它們對于平移、旋轉(zhuǎn)、尺度變化都具有不變性。
本文計(jì)算每個(gè)角點(diǎn)3×3鄰域的7個(gè)Hu不變矩,再將其對應(yīng)相加,得到的7維Hu矩作為該圖像的角點(diǎn)形狀特征[9]。于是圖像的角點(diǎn)形狀特征可以表示為一個(gè)7維向量:
式中:N表示角點(diǎn)個(gè)數(shù);φij(j=1,2,…,7)表示第i個(gè)角點(diǎn)的第j個(gè)不變矩。
2.4.2 角點(diǎn)的紋理特征提取
圖像紋理是由紋理基元按某種確定性的規(guī)律或者某種統(tǒng)計(jì)規(guī)律排列組成的,反映了圖像亮度的空間變化情況。本文采用統(tǒng)計(jì)紋理分析法對圖像灰度共生矩陣(Gray Level Co-occurrence Matrix,GLCM)的特征進(jìn)行提取[17]。
由于灰度共生矩陣的數(shù)據(jù)量較大,一般不直接用于區(qū)分紋理的特征,而是采用基于它構(gòu)建的統(tǒng)計(jì)量作為紋理特征。本文基于灰度共生矩陣紋理特征的計(jì)算步驟如下:
1)生成每幅圖像的4個(gè)灰度共生矩陣,分別取距離為d=1,角度分別為θ=0°,45°,90°,135°。
2)計(jì)算灰度共生矩陣的能量(Asm)、熵(Ent)、對比度(Con)和相關(guān)性(Corr)4個(gè)參數(shù)[18]。
(6)
(7)
(8)
(9)
式中:μi、μj和σi、σj表示如下:
(10)
(11)
(12)
(13)
GLCM大小為k×k,i表示矩陣的行元素,j示矩陣的列元素,P(i,j) 表示矩陣的元素值。
本文計(jì)算每個(gè)角點(diǎn)5×5鄰域的4維灰度共生矩陣紋理特征,再將其對應(yīng)相加,得到的4維紋理特征作為該圖像的角點(diǎn)紋理特征。于是圖像的角點(diǎn)紋理特征可以表示為一個(gè)4維向量:
其中N表示角點(diǎn)個(gè)數(shù),i表示第i個(gè)角點(diǎn)。
本文選用曼哈頓距離進(jìn)行相似性度量[19]。將從圖像中提取的全局HSV顏色直方圖特征和LBP特征,以及基于角點(diǎn)的Hu矩形狀特征和GLCM紋理特征,線性融合成圖像的特征向量,采用相對曼哈頓距離進(jìn)行相似性度量,其計(jì)算公式為
(14)
式中:D(x,y)為兩幅圖像的相似度;xi和yi分別是兩幅圖像的特征向量的分量;n是特征向量分量的個(gè)數(shù)。
本文的仿真實(shí)驗(yàn)環(huán)境為Intel(R) Core(TM) i5-4460 CPU @ 3.20GHz,8.00GB RAM,Windows7操作系統(tǒng),MATLAB R2016a軟件。
實(shí)驗(yàn)采用的數(shù)據(jù)集為Caltech256數(shù)據(jù)集和Corel1000數(shù)據(jù)集,前者有256個(gè)語義類共30 607張圖像,本文從中選擇了backpack、bear、binoculars、bonsai、butterfly 5個(gè)語義類,每類100幅共500幅圖像;后者有Africa、beach、building、bus、dinosaur、elephant、flower、horse、mountain、food等10個(gè)語義類,每類100幅共1 000幅圖像。
采用查準(zhǔn)率(precision)P來衡量圖像檢索的精度,查準(zhǔn)率的計(jì)算公式為
(15)
式中:t表示檢索到的相關(guān)圖像個(gè)數(shù);m表示檢索到的圖像數(shù)。
以Caltech256數(shù)據(jù)集butterfly語義類中的一幅圖像作為查詢圖像,圖5所示為基于全局的HSV顏色直方圖特征和LBP特征的圖像檢索結(jié)果。從結(jié)果來看,有5幅bear語義類的圖像也被檢索出來了,說明此全局特征基本上抓住了圖像信息,但是在圖像具體細(xì)節(jié)的區(qū)分上準(zhǔn)確度還不夠。
圖5 基于全局的HSV顏色直方圖特征和LBP特征的檢索結(jié)果Fig.5 Retrieval results based on global HSV color histogram and LBP features
基于角點(diǎn)的Hu矩特征和GLCM特征的圖像檢索結(jié)果如圖6所示,此時(shí)backpack、bear、binoculars、bonsai語義類的圖像都被檢索到了,檢索精度相對較低,可見僅僅采用基于角點(diǎn)的特征亦不能全面和準(zhǔn)確地描述圖像信息。
圖6 基于角點(diǎn)的Hu矩特征和GLCM特征的檢索結(jié)果Fig.6 Retrieval results of Hu moment feature and GLCM feature based on corner
基于全局的HSV顏色直方圖特征、LBP特征和基于角點(diǎn)的Hu矩特征、GLCM特征的圖像檢索結(jié)果如圖7所示,從檢索精度和相似性排名來看提高了很多。
圖7 基于全局的HSV顏色直方圖、LBP特征和角點(diǎn)的Hu矩、GLCM特征的檢索結(jié)果Fig.7 Retrieval results based on global HSV color histogram, LBP feature and corner Hu moment, GLCM feature
從Caltech256數(shù)據(jù)集選擇的5個(gè)圖像類別中,每類隨機(jī)抽取5幅共25幅圖像作為查詢圖像,檢索結(jié)果返回20個(gè)圖像,計(jì)算三種情況下每類圖像的平均查準(zhǔn)率,實(shí)驗(yàn)數(shù)據(jù)見表1。
表1 平均查準(zhǔn)率比較
Tab.1 Comparison of average precision rate
類別HSV-LBPHarris-Hu-GLCMHSV-LBP-Harrisbackpack0.5500.2300.520bear0.4100.3500.440binoculars0.5500.2600.570bonsai0.5600.4800.640butterfly0.6600.3500.680average0.5460.3340.570
從表1可以看出,本文將基于全局的HSV顏色直方圖特征和LBP特征與基于角點(diǎn)的Hu矩特征和GLCM特征融合起來作為檢索特征,比單獨(dú)采用二者之一作為檢索特征的效果要好。雖然僅采用基于角點(diǎn)的特征作為檢索特征時(shí),其檢索精度并不高,而且當(dāng)特征融合時(shí)對于最終檢索的平均查準(zhǔn)率貢獻(xiàn)不大,但優(yōu)化了相似度排名。因此,本文的檢索方法以全局的基于HSV顏色直方圖特征和LBP特征為主要的檢索特征,而以基于角點(diǎn)的Hu矩特征和GLCM特征作為輔助的檢索特征,從而對檢索結(jié)果進(jìn)行了優(yōu)化。
從Corel1000數(shù)據(jù)集的每個(gè)類中,隨機(jī)挑選20幅圖像作為查詢圖像,檢索結(jié)果返回20個(gè)圖像,計(jì)算每類20幅查詢圖像的平均查準(zhǔn)率。作為對比,文獻(xiàn)[8]采用了基于全局的顏色和紋理特征進(jìn)行圖像檢索的方法,文獻(xiàn)[9]采用了基于角點(diǎn)特征的圖像檢索方法,實(shí)驗(yàn)結(jié)果見表2。
表2 平均查準(zhǔn)率比較
Tab.2 Comparison of average precision rate
類別本文算法文獻(xiàn)[8]算法文獻(xiàn)[9]算法平均查準(zhǔn)率最高查準(zhǔn)率最低查準(zhǔn)率平均查準(zhǔn)率平均查準(zhǔn)率Africa0.8101.0000.1500.6030.200beach0.4000.7000.0500.3750.300building0.7430.9500.3500.3880.400bus0.9301.0000.7000.7000.600dinosaur0.9981.0000.9500.9850.500elephant0.5900.9500.1000.4880.200flower0.9401.0000.2000.9350.725horse0.8801.0000.4000.6530.375mountain0.4530.8000.1000.2900.170food0.8081.0000.4000.4250.100average0.7550.9400.3400.5840.357
由表2可以看出,本文的圖像檢索方法查準(zhǔn)率更高,檢索效果更好。
本文將圖像的全局特征和角點(diǎn)特征融合起來進(jìn)行圖像檢索,使圖像信息的描述更加全面、更具有區(qū)分性,通過實(shí)驗(yàn)結(jié)果來看,該算法的檢索效果較好。但同時(shí)也注意到在Caltech256數(shù)據(jù)集的bear類及Corel1000數(shù)據(jù)集的beach和mountain類圖像的檢索精度相對較低,主要是因?yàn)檫@些圖像前景和背景的顏色、大小及方向的變化較大,從而導(dǎo)致提取的特征不能對該類圖像進(jìn)行區(qū)分性更好地描述。如何提取更精確的圖像特征,如何將特征進(jìn)行更有效地融合,將作為今后研究工作的重點(diǎn)。