謝光藝,郭寶龍,黃 喆
(西安電子科技大學(xué)空間科學(xué)與技術(shù)學(xué)院,陜西 西安 710071)
圖像同語言相比更加直觀、簡潔,含有更豐富的視覺信息。雖然圖像識別技術(shù)已得到極大發(fā)展,在網(wǎng)上購物、監(jiān)控視頻、車牌、人臉和目標識別等諸多領(lǐng)域得到應(yīng)用。但是隨著互聯(lián)網(wǎng)信息的快速增長,想找到一幅相關(guān)的圖像越發(fā)困難,首先是圖像數(shù)量呈現(xiàn)幾何級數(shù)式的增長,在海量的信息中僅憑人工去尋找費時費力。其次雖然增加文字標注會明顯提高檢索效率,但不同的人對圖像有不同的理解,會造成圖像底層內(nèi)容和高級語義的歧義,影響檢索效果。針對這些情況,圖像檢索具有重要的作用和價值。
根據(jù)圖像紋理、顏色信息、幾何特征和空間關(guān)系等底層特征信息進行圖像檢索,一直是研究的主要方向。文獻[5]中使用塊級離散余弦變換(DCT)和灰度級共生矩陣(GLCM)提取了圖像的視覺內(nèi)容。在所有的圖像檢索方法中,興趣點法使用的興趣點具有運算量小、信息量大的優(yōu)點,在運動估計、圖像匹配合成諸多領(lǐng)域得到大量應(yīng)用,并且使用興趣點進行圖像檢索也是一個熱點問題。興趣點即為一幅圖像內(nèi)在水平X軸和垂直Y軸兩個方向灰度值都有顯著改變的特殊像素點。由于興趣點也通常是邊緣點,在其附近的鄰域內(nèi)應(yīng)該蘊含了豐富的細節(jié)信息。在文獻[7-9]中檢測圖像的穩(wěn)定興趣點,利用底層的顏色直方圖、紋理特征并結(jié)合空間特征進行檢索。但這些方法都沒考慮到大多數(shù)的檢測圖像都有檢測主體,位于背景圖像中的興趣點會影響圖像檢測的準確率。為了克服這個缺點,需要去除這些干擾興趣點。針對這些方法的不足本文提出了穩(wěn)定興趣點區(qū)域的圖像檢索方法。
所提方法首先利用Harris算子檢測到圖像的興趣點,再計算以興趣點為中心鄰域灰度值的偽澤尼克矩。比較查詢圖像和候選圖像間各個興趣點間的偽澤尼克距離找到最佳配對點對,并取得相應(yīng)凸包區(qū)域從而能夠?qū)崿F(xiàn)物體形狀粗略表征,再結(jié)合顏色和紋理特征進行圖像檢索。該方法克服了傳統(tǒng)興趣點算法只提取邊緣局部特征的不足,整體框圖如圖1所示。
圖1 算法流程圖
檢測興趣點的算法很多,常見的有SUSAN(Small univalue segment assimilating nucleus)算法、Moravec算法和 Harris算法,本文采用 Harris 和 Stephens所提方法。這種方法運算較簡單、對平移、旋轉(zhuǎn)適用性好。圖像灰度顯著變化的位置由自相關(guān)函數(shù)來確定,公式為
(1)
興趣點的判斷公式為
(2)
.
2.
1 匹配興趣點偽澤尼克矩是典型的一種不變矩,抗噪性能強于澤尼克矩。通過計算興趣點鄰域的灰度偽澤尼克矩,比較查詢圖像和待檢圖像間各個興趣點間的距離,確定最佳匹配點對,并去除圖像背景上的無關(guān)興趣點。
把變換圖像I
(x
,y
)映射到偽澤尼克矩的基集 (單位圓(x
+y
≤1)中的一組完備正交集)上,即得到偽澤尼克矩變換(3)
式中n
是階數(shù),為非負整數(shù)。m
是重復(fù)度,取整數(shù),兩者滿足n
≥|m
| ;*表示復(fù)數(shù)共軛。極坐標下像素點的半徑和角度分別是ρ
和θ
,極坐標下(n
,m
)階數(shù)偽澤尼克矩定義為V
=V
(ρ
,θ
)(4)
此坐標下求圖像的偽澤尼克矩由式(3)變?yōu)?/p>
(5)
計算圖像的偽澤尼克矩時,極坐標原點選做圖像的興趣點,運算相關(guān)鄰域圖像變換到單位圓內(nèi)的像素點,其余的像素點不予計算。
圖2 穩(wěn)定區(qū)域示意圖
由以上計算可得查詢圖像和候選圖像每個點的偽澤尼克矩。偽澤尼克矩階數(shù)越高,計算代價越大,所以圖像檢索通常只用10 階之內(nèi)的偽澤尼克矩, 就能夠?qū)崿F(xiàn)圖像良好的形狀表征。由于偽澤尼克矩的共扼對稱性,運算減少一半,計算m
≥ 0時的|A
|,又因為歸一化圖像A
和A
的是常數(shù),故只需計算n
從2 到10階偽澤尼克矩,所以一個34維度的向量就可表示圖像形狀特征。(6)
由(6)式計算查詢圖像和候選圖像每個點的偽澤尼克矩距離。候選圖像每一個查詢圖像的興趣點值可以找到查詢圖像上偽澤尼克矩距離值最小值的點,作為兩張圖像的匹配興趣點,然后去除非配對的興趣點。
2.
2.
2 計算穩(wěn)定興趣點區(qū)域在平面上包括所有觀測點的最小凸多邊形為凸包。它在圖像處理、物體追蹤等領(lǐng)域得到大量應(yīng)用。計算凸包的方法很多,格雷厄姆掃描法具有運算簡單、運行速度快。所以本文采用此種方法算出興趣點凸包,從而獲得穩(wěn)定興趣點區(qū)域。穩(wěn)定興趣點區(qū)域為關(guān)注焦點所在,特別是查詢圖像有主體對象時,基本可以實現(xiàn)感興趣對象和背景的分割。圖2(b)是穩(wěn)定興趣點區(qū)域的示意圖,左側(cè)是查詢圖像,右側(cè)為候選圖像,白色點代表匹配的興趣點。凸包劃分的結(jié)果如白色多邊形區(qū)域所示。從圖中可以看出,經(jīng)過興趣點匹配再進行凸包運算,大致得到兩輛公共汽車的輪廓,從而得到穩(wěn)定的興趣點凸包區(qū)域。
圖3 紋理特征提取示意圖
2.3.1 顏色直方圖
因為RGB顏色空間是計算機上的顯視顏色空間,所以在此空間提取圖像的顏色信息特征產(chǎn)生的誤差會最小,然而由于計算量及存儲的原因,實際中較少采用。而HSV顏色空間更符合人眼視覺特征,并且HSV三個變量互相獨立。另外為提高運算效率而不影響檢索效果,先量化圖像顏色,這里采用非等間隔量化方法。具體方法為:首先對HSV
空間的圖像進行映射編碼,飽和度S
和亮度V
的取值范圍都從[0,1]映射到整數(shù)空間[0,2],色調(diào)H
的取值范圍從[0°,360°]映射為[0,7],再由V
=9H
+3S
+V
計算得到圖像的特征矢量V
,其取值范圍為[0,71],每個值都對應(yīng)一種圖像顏色。按公式H
=number
/number
,(k
=10,1…,71)統(tǒng)計穩(wěn)定的興趣點區(qū)域內(nèi)的顏色直方圖,其中number
為穩(wěn)定區(qū)域內(nèi)顏色為k
的像素數(shù)量,number
為穩(wěn)定區(qū)域內(nèi)像素的總數(shù)。2.
3.
2 紋理特征提取圖像的紋理是能夠表達圖像細節(jié)信息的局部結(jié)構(gòu)化特征,有利于體現(xiàn)物體的特質(zhì)。人們通過研究發(fā)現(xiàn),Gabor濾波器的多尺度多方向類似人眼的視覺系統(tǒng),用Gabor濾波器提取和區(qū)分物體的紋理信息特征很有優(yōu)勢,所以這里用Gabor函數(shù)來獲取物體的紋理信息特征。
(7)
這里ψ
(x
,y
)為小波基函數(shù),σ
和σ
是沿水平X
軸和垂直Y
軸上的方差,基波函數(shù)是以(ω
,0)為中心頻率的帶通濾波器。令x
′=a
-(cosθ
+y
sinθ
),y
′=a
-(y
cosθ
-x
sinθ
),θ
=n
π/k
,k
為變換方向數(shù),a
-為尺度變換因子。則ψ
(x
,y
)是由基函數(shù)ψ
(x
,y
)進行尺度和旋轉(zhuǎn)變換后可得到Gabor小波族,其表示如下ψ
(x
,y
)=a
-ψ
(x
′,y
′),a
> 1,m
,n
∈Z
(8)
圖像I
(x
,y
)與Gabor濾波器各子帶信號進行卷積和的計算,就能得到不同尺度和不同方向的各個濾波子圖像,可表示為(9)
設(shè)I
(x
,y
)的大小為M
×N
,由式(10)(11)分別計算出圖像經(jīng)多尺度和多方向濾波后各子圖的均值μ
和標準方差σ
,從而提取出圖像的紋理特征。一幅經(jīng)過濾波后的圖像如圖3所示。(10)
(11)
實驗已經(jīng)表明當(dāng)尺度數(shù)和方向數(shù)分別取值為4和6時Gabor提取紋理時的效果最好[15],因此本文也選取4個尺度,6個方向提取特征。紋理特征向量為:T
(μ
,σ
;μ
,σ
;…μ
,σ
)。Q
,圖像數(shù)據(jù)庫里的一張圖像為I
,這里使用它們的特征加權(quán)距離來計算兩張圖內(nèi)容的相近度。目標圖像Q
與庫圖像I
的顏色直方圖信息特征相近度是S
,它們的紋理信息特征相近度為S
,兩張圖最終的相近度為S
(Q
,I
)=ω
S
(Q
,I
)+ω
S
(Q
,I
)(12)
其中,ω
和ω
是可調(diào)權(quán)值,且滿足ω
+ω
=1;檢索目標圖像Q
和庫待檢圖像I
的顏色信息特征向量分別為H
和H
,而T
和T
是查詢圖像Q
和庫待檢圖像I
的紋理特征向量;ω
和ω
的選擇是依據(jù)顏色直方圖和紋理在檢索中的作用決定的,可用支持向量基、蟻群等算法優(yōu)化,因為本算法不涉及這部分內(nèi)容,后面實驗為簡化,兩個值都取0.
5。抽取待檢圖像和數(shù)據(jù)庫中的每幅圖像,按上式計算S
(Q
,I
)數(shù)值,并按從大到小排序,值越大越表明兩幅圖像越相似。P
=n/R
,這里n
是檢索返回和檢索目標圖像屬于同類別圖像的數(shù)目,R
為數(shù)據(jù)庫中屬于檢索目標圖像類別中的圖像總個數(shù)。查準率被用來描述算法查詢的準確性,查全率用來描述算法查詢的全面性。只要查準率和查全率數(shù)值越高,算法的功能就越好。查準率(P
)和查全率(P
)是目前衡量查詢算法最廣泛的評價標準。圖5是上面所提三種算法查準率—查全率統(tǒng)計圖,從圖中可以看出本文的算法包含的圖形面積區(qū)域最大,表明本文所提算法明顯提高了查準率和查全率。為了更好的檢驗本文所提的算法,在Corel-10K數(shù)據(jù)集上進行了實驗。該數(shù)據(jù)集圖像大小為187×126(或126×187),包含100種類別物體,有旗幟,郵票,船舶,摩托車,帆船,飛機等類別圖像,每個類別100張圖像,總共10,000張圖像。
表1 數(shù)據(jù)集Corel-1k上各算法檢索結(jié)果比較Unit:%
圖4 三種算法對bus類圖像的檢測結(jié)果.
圖5 三種算法在數(shù)據(jù)集Corel-1k上查準率—查全率圖
圖6 三種算法在數(shù)據(jù)集Corel-10k上查準率—查全率圖
利用檢測出的興趣點鄰域灰度信息計算各點的偽澤尼克矩,通過比較查詢圖像和候選圖像間各個興趣點間的偽澤尼克矩距離,找到最佳配對點對。然后以這些點對取得相應(yīng)凸包區(qū)域,即得到穩(wěn)定的興趣點區(qū)域。最后利用顏色直方圖結(jié)合Gabor小波變換提取穩(wěn)定興趣點區(qū)域內(nèi)圖像的顏色和紋理信息作為特征進行圖像檢索,實驗表明所提方法提高了準確率和查全率。在接下來的工作中,利用興趣點的幾何形狀預(yù)判圖像中有無明顯主體,再采取不同的機制進行檢索。還可以引入反饋機制,調(diào)整權(quán)系數(shù),從而進一步提高檢效果。