謝 玲, 陸 坤, 胡志偉
(大連理工大學 軟件學院,遼寧 大連 116600)
數(shù)字圖像處理(Digital Image Processing)技術,是對圖像進行去除噪聲、增強、復原、分割和特征提取的技術[1]。在計算機硬件、軟件和Internet技術高速進步的今天,圖像信息的量也隨之以一個駭人的速度迅速發(fā)展。各行業(yè)都逐漸越來越多的開始使用圖像信息,這之中有很多重要或者有用的信息。但是這些圖像信息太多,過于分散,沒有能讓他們集中起來的辦法,所以空有這些資源,卻管理不好,不能讓大家都使用。因此,怎樣在圖海之中,找到需要的,或是感興趣的信息,對圖像信息的檢索技術是一個巨大的挑戰(zhàn)。
基于內容的圖像檢索(Content-based image retrieval)技術[2],是檢索技術中的一種以提取圖像本身特征為重點的檢索方法,是用一種或者多種特征來描述一幅圖像,而基于內容的圖像檢索就是把兩張圖片的特征提取出來,根據(jù)特定的方法進行對比和匹配,使用相似性匹配算法來達到這個目的,很明顯,對圖像特征的提取就是圖像特征匹配的關鍵環(huán)節(jié)和條件[3]?;趦热莸膱D像分類的目的在于,使圖像具有結構化特性,消除內容的多義性,使人們能夠方便地查找并使用這些圖像信息,最終實現(xiàn)資源的共享和查詢。
圖像的特征可以分成兩個大類:其一,低層物理特征,即圖像的一些視覺特征或者固有屬性,低層特征又可以細分為很多種視覺特征,包括顏色、形狀和紋理等。高層語意特征主要是對對象的識別和解釋,通常需要用到人類知識的推理,比如人對于某個圖像的感受等等[4]。所以對于高層語義特征,就得靠人來定義,用人工的標注方法,傳統(tǒng)的方法都是如此,也就是指基于文本的檢索方法,這個方法很難實現(xiàn)自動化,且太過主觀,不利于實現(xiàn)標準化。而與之對比,低層次物理特征的提取顯得較為容易,還能將兩圖像之間的異同點客觀的反映出來。最常使用的圖像特征有形狀特征,顏色特征,紋理特征等等,經過對比測試,本系統(tǒng)采用的是形狀特征中的不變矩特征[5]。
Hu矩是Hu在1962年提出的[6-7],圖像f(x+y)的(p+q)階的矩定義為
Mpq=?xpyqf(x,y)dxdy,p,q=0,1,2
在圖像處理領域用來描述圖像灰度密度的分布情況,進而能夠提取特征。其中被用的最多的,物體的0階的矩用來表示圖像的“質量”
M00=?f(x,y)dxdy
一階矩(M01,M10)被用來確定圖像的質心(XC,YC),XC=M10/M00;YC=M01/M00;如果改變坐標原點,將其移到XC和YC處,便能夠得到圖像的位移不變的中心矩。如
Upq=?[(x-XC)p][(y-Y)q]f(x,y)dxdy
Hu矩的里面一共有7個值,也就是7個不變量,它們各自代表不同的意義,但組合起來,便能夠有圖像的位置平移、方向改編以及比例放大縮小而不變的特性[8]。
Hu 矩的7個特征量不會因為圖像的位置平移、放大縮小、以及方向的旋轉而有所改變,所以是提取圖像形狀特征很好的選擇。
對于Hu 矩的特征,要先對圖像進行一次灰度分布統(tǒng)計,在此統(tǒng)計結果之上對圖像進行描述,能夠從全局出發(fā)來描述對象的整體特征[9-10]。
區(qū)域f(x+y)的(p+q)階的矩的定義為
(x,y)
(1)
它對應的中心矩定義為
(x,y)
(2)
一階(p+q)階中心矩定義為
(3)
式中:p,q=0,1,…。
γ=(p+q)/2
(4)
下面7個式子就是Hu矩里面的7個不變量,將低階的中心矩進行歸一化操作后,便能得到這7個值,它們共同組成了不變矩的特征,如公式(5)所示。
(5)
它們有不跟隨位置平移、方向旋轉改變、以及圖像放大縮小而改變的特性。
提取特征,是在對圖像的預處理完成之后,進行分類之前的重要環(huán)節(jié),同一個目標,在旋轉不同的角度、平移、縮放不同的比例之后,不變矩的值是幾乎不會變化的。因此,可用于識別目標,也就是在判斷待檢索目標是否屬于訓練樣本的同類時,求出待檢索目標和已知訓練樣本的距離,如果在已知類別的一定范圍內,則可判定這個待檢索的目標為已知樣本的相似圖像。
因為人對物體形狀的變換、旋轉和縮放并不太敏感,所以好的形狀特征就要做到對變換、旋轉和縮放無關,但這也增加了描述形狀特征和計算相似度的難度。然而根據(jù)人先區(qū)分輪廓,再填充局部來識別物體的特點,形狀特征依然是圖像的檢索技術中,主要的一種描述圖像內容的方法[11-12]。
假定A、B、C為任意的n維特征向量,一般來說,相似距離的度量函數(shù)會受到以下的4條公理約束:
(1) 自相似公理
d(A,A)=d(B,B)
(6)
(2) 最小公理
d(A,B)≥d(A,A)
(7)
(3) 對稱公理
d(A,B)=d(B,A)
(8)
(4) 三角不等公理
d(A,C)≤d(A,B)+d(B,C)
(9)
在實際的應用中,所使用的相似性度量函數(shù)并不一定非要完全滿足上面所說的4條公理,通常只是滿足4個公理中的某一個或者幾個。
相似性度量的常用方法是向量空間模型(Vector Space Model),簡單地說,就是把所提取的特征值當作該空間中的一點,已知的特征也是這個空間中的點,那么這兩點之間必然有一個距離,距離越小則表示兩者越相似,反之差異越大。目前,圖像檢索中有各種各樣的匹配方法,下面介紹最常見的Minkowsky 距離法。
MInkowsky距離是在Lp范數(shù)的基礎上定義的,表達式為
(10)
該方法根據(jù)p值所取值的不同,又可以分為不同的方法。
若p的值取1,L1(A,B)就被叫做Manhattan距離,表達式為
(11)
若p的取值為2,那么稱L2(A,B)為Euclidean distance距離,即
(12)
若p的取值趨于無窮大的話,L∞(A,B)就是Chebychv距離了,表達式變?yōu)?/p>
(13)
本系統(tǒng)所使用的相似性度量方法是曼哈頓距離法。通過提取圖像的7個特征值,并和訓練樣本的特征值進行計算,算出兩者距離。
圖像質量評估,就是對圖像的質量進行評價打分,而圖像的質量主要就是它的保真度和可懂度,在大量的圖像信息中,難免出現(xiàn)一些相似度極高的圖像,甚至包含幾乎一樣的信息,比如拍照時通常會對同一個地方連拍好幾張,以便能有足夠的選擇,那么這樣的一堆圖片信息就稱其為冗余信息,因為數(shù)量多并沒有什么用處,所以只需選出其中最好的一張,其他的去掉即可,這樣就可以將信息進行有價值的篩選。除了篩選之外還可以用其來對圖像處理的各環(huán)節(jié)進行監(jiān)測檢查,因為當對圖片進行一系列操作,比如壓縮,降噪等等操作后,得到的結果圖片與初始圖片是必然有一些差距的,所以需要對結果進行質量評估,來確定結果的質量是否符合要求,若符合,則繼續(xù)往下進行操作,若不符合,則進行改進操作。
與圖像的高層特征相似的是主觀評價方法,它們都是以人為主體,依靠人的視覺特征進行操作的,也就是說,這種方法需要一定數(shù)量的人來對圖像進行觀察評價打分,然后再綜合所有人的結果來打出最終的分數(shù)即為質量評價結果。雖說這種方法簡單易懂,但實際卻非常麻煩,首先人觀察一幅圖像是要花一定時間的,而且代價也更高,再者,與對特征的手工標注一樣,因其是人為的操作,所以如果人受到了不良因素的影響,比如受到了刺激或者太過疲倦,那么對操作結果就會有一定影響,這是十分不穩(wěn)定的。而與低層特征相似的方法稱之為客觀評價方法,主體是機器,由計算機進行操作,通過某種方法計算出結果圖像與原始圖像之間的差異,差異越大,則說明該圖像失真越大,質量較低,反之則失真小,質量高。而后者中最有名,也是最典型的方法就是PSNR法[13]。
峰值信噪比(Peak Signal to Noise Ratio,PSNR)可以這樣來表述它,等待評價的圖像f(x,y),大小為M×N,初始圖像f0(x,y),大小也是M×N,那么計算圖像f的PSNR值的表達式為
(14)
另外一個常用的評價參數(shù)是均方誤差(MSE),其表達式為
(15)
則
(16)
式(14)以及式(16)中的fmax是指圖像f(x,y)的最大灰度值,如果所需要評價的圖像的bit數(shù)是n,那么其fmax的值就是(2n-1),而在生活工作中,一般用的最多的是8 bit,也就是說fmax值是255。
前面所說計算全都只是針對灰度圖像,因為其每個像素點都可用灰度表示而不需要顏色的疊加。但是彩色的圖像就不一樣了,彩色圖像中的每個像素點的顏色,都是由RGB 3個分量疊加出來的復合型顏色,而不是單獨的,這3個分量需要各自用一個字節(jié)來表示,所以彩色圖像的PSNR表達式為
PSNR=
(17)
式(17)中的MSE(R)、MSE(G)、MSE(B)分別是指紅、綠、藍各自的均方誤差。其還有另外一種表達方式為
/3
(18)
也就是說先分別算出R、G、B3個分量的峰值信噪比PSNRR、PSNRG、PSNRB,再對這3個值求出平均值即可。
現(xiàn)在用PSNR方法更多一些,因為這種方法理解起來相對容易,計算也不那么的復雜,其值與圖像的質量呈正相關,和主觀感受更接近一點,也就是說一般PSNR值高的圖像,質量會更好一些。一般來說,當PSNR>28時,圖像質量的差異就已經不明顯了,而當超過35或40的時候,人就幾乎看不出區(qū)別了;而MSE方法和主觀感受并不相近,所以一般不會單獨用來評價圖像,都是代入PSNR方法中。
本系統(tǒng)在Windows 8操作系統(tǒng)上在,通過MATLAB 7.0[14]實現(xiàn)。
本系統(tǒng)的功能有:
(1) 打開待檢索圖集所在文件夾,以便進行圖像的管理(添加或刪除);
(2) 打開訓練樣本圖集所在文件夾,以便進行管理;
(3) 對輸入的待檢索圖像進行特征提??;
(4) 計算不變矩的特征的相似性度量,以便進行分類;
(5) 圖像質量評估,對分好類的圖像,每一類進行一次質量評估以選出最好的一張;
(6) 退出。
此次系統(tǒng)的設計的最重要的地方共有3個:① 圖像特征的提?。虎?進行分類的時候所用到的相似性度量算法;③ 圖像質量評估方法。所提取的特征為形狀特征,具體方法用的是不變矩的方法中的Hu矩,相似性度量用的是曼哈頓距離法,圖像質量評估方法用的PSNR算法。
首先打開界面,如圖1所示,讀入待檢索的圖片集。點擊“test image”按鈕,會彈出待檢索的圖片所在的文件夾。可在里面增加或者刪除圖片,確認無誤后關閉即可(見圖2)。點擊“feature extraction”按鈕,可對待提取特征的圖像進行特征提取,并以圖像的形式表示出來,但是由于后面幾個特征值的數(shù)值實在太小,所以再配合具體數(shù)據(jù)共同觀察,如圖3所示。點擊“classify”按鈕,可對待檢索圖集執(zhí)行分類操作,并在屏幕上顯示結果。如圖對旋轉放大圖片和模糊清晰圖片進行了測試,沒加入訓練樣本集的圖片則添加標簽“暫無此分類”以提醒,結果如圖4所示。點擊“run”按鈕,先對待檢索的圖片集進行分類,之后再從每一類中選出最好的一張圖片,篩選結果如圖5所示,上方的兩種人臉是笑與不笑的分類。
圖1 檢索系統(tǒng)的操作界面
圖2 待檢索的圖集
圖3 圖像的7個不變矩的值
圖4 模糊與清晰圖片測試
圖5 分類及篩選后的最終結果
本文在研究國內外基于內容的圖像檢索技術的歷史發(fā)展和應用狀況的基礎上,主要進行了以下工作。對基于內容的相似圖像檢索技術進行了簡要描述,用不變矩特征中的Hu矩進行特征提取操作,介紹了常見的幾種相似性匹配算法,并選用PSNR圖像質量評估算法對優(yōu)質圖像進行選擇,最后用文中介紹的技術實現(xiàn)了一個相似圖像檢索系統(tǒng)。實現(xiàn)該系統(tǒng)的3個關鍵問題是:圖像的特征值提取和基于內容特征的圖像相似性匹配方法,以及圖像質量評估方法。本文對這些方法的研究和探索,實現(xiàn)了設計預期的基本功能。
參考文獻(References):
[1] 葉金財. 數(shù)字圖像質量的多源特征分析與提取[D].南昌:江西財經大學計算機應用技術,2010.
[2] 肖 明,王永紅,石 勇. 基于內容的圖像檢索研究進展[J].情報雜志, 2007,26(1): 43-45.
[3] Ooi B C, Tan K L, Chua T S,et al. Fast image retrieval using color-spatial information[J].Vldb Journal — the International Journal on Very Large Data Bases, 1998, 7(2):115-128.
[4] 李 勇. 基于內容的圖像檢索技術研究[D].吉林:吉林大學通信工程學院,2009.
[5] 傅文林. 基于內容的圖像檢索技術研究[D].上海:上海交通大學模式識別與智能系統(tǒng),2010.
[6] 梁大寬, 韓曉明. 基于融合Hu矩和區(qū)域矩特征的多車牌定位[J]. 計算機工程與設計, 2016, 37(11):3097-3101.
[7] 原 玥, 王 宏, 原培新,等. 一種改進的Hu不變矩算法在存儲介質圖像識別中的應用[J]. 儀器儀表學報, 2016, 17(5):1042-1048.
[8] 郭曉宇. 基于Hu矩和Zernike矩的圖像目標識別算法設計[D].沈陽:沈陽航空工業(yè)學院測控技術與儀器,2009.
[9] 任金昌,趙榮椿,馮大淦. 用形狀相似性進行基于內容的圖像檢索[J]. 中國體視學與圖像分析, 2000(1): 44-48.
[10] 馮愛萍. 基于內容的圖像檢索系統(tǒng)研究[D].北京:北京郵電大學信息與通信工程學院,2011.
[11] 許 凱. 基于圖像識別的蘋果果實檢測技術[J]. 實 驗室研究與探索, 2016, 35(10):36-39.
[12] 李紅蕾,凌 捷,徐少強. 關于圖像質量評價指標PSNR的注記[J].廣東工業(yè)大學學報,2004,1(3): 74-78.
[13] 孫 燕, 李曉光, 卓 力,等. 一種基于小波壓縮感知的藏族壁畫圖像處理[J]. 實驗室研究與探索, 2016, 35(5):138-140.
[14] Gonzalez Rafael C, Woods Richard E, Eddins Steven L,等.數(shù)字圖像處理(MATLAB版)[M].2版.北京:電子工業(yè)出版社,2014.