曹 健,魏 星,李海生,蔡 強
?
基于局部特征的圖像分類方法
曹 健1,魏 星2,李海生1,蔡 強1
(1. 北京工商大學計算機與信息工程學院 北京海淀區(qū) 100048;2. 北京科技大學計算機與通信工程學院 北京海淀區(qū) 100083)
為了有效地組織、管理和瀏覽大規(guī)模的圖像資源,提出了一種利用局部特征進行圖像分類的方法。通過深入分析和比較常見的局部特征,選用合適的局部特征構(gòu)建視覺單詞庫。這些視覺單詞具有很好的平移、旋轉(zhuǎn)、尺度不變性,并對噪聲有一定的抵抗能力。借鑒文本分類領域的向量空間模型進行圖像的表示,并設計出了相應的分類算法。標準圖像庫上的實驗結(jié)果表明,該方法在圖像分類中有效,有較高的實用價值。
凝聚聚類; 分類器; 圖像分類; 局部特征; 視覺單詞
隨著數(shù)字技術(shù)和通信技術(shù)的迅速發(fā)展,人們在網(wǎng)絡上接觸到越來越多的圖像信息,需要通過計算機對圖像進行自動分類處理。作為人工智能的重要應用領域,圖像分類的主流方法是通過對選定的圖像集(人工標注)進行學習,訓練出合適的分類器,并利用分類器對未知圖像進行分類決策[1]。
圖像目標的特征提取是圖像分類中的關(guān)鍵技術(shù),對最終的分類效果具有決定性的影響。常見的一類方法是將圖像目標作為一個整體,從大量正樣本中學習并提取其整體特征,如面積、周長等,然后采用機器學習或者規(guī)則函數(shù)進行處理。這種方法有一些無法避免的缺點:1) 預處理和圖像分割的好壞極易影響分類效果;2) 需要長時間的學習和大量已標注的圖像;3) 由于沒有專門捕捉圖像目標的局部信息,當目標外觀發(fā)生較大變化時,容易造成整體特征突變,進而導致分類方法失效。
心理學研究表明,人類的視覺系統(tǒng)可以將看到的場景進行分解,對這些小塊的信息及其相互間的關(guān)系進行處理,從而分類識別。根據(jù)這一理論,在機器視覺領域出現(xiàn)了相對整體特征而言的局部特征,其含有的局部信息可以對圖像目標進行多語義層次的描述。最近幾年,許多研究者[2-5]不斷提出了一些新的局部特征,并在大量的工程應用中驗證了其性能相對優(yōu)越、適用范圍比較廣泛。于是出現(xiàn)了嘗試將局部特征技術(shù)用于圖像拼接、圖像檢索和圖像分類的文獻[6-8]。
本文分析了常用的特征提取、圖像處理和分類器技術(shù),提出了一種有效地利用局部特征的圖像分類方法。實驗結(jié)果顯示,該方法穩(wěn)定性、查準率和查全率跟國內(nèi)外前沿接近,甚至稍好。
一般將底層局部特征的提取過程分為特征點檢測和特征區(qū)域描述兩步。常用的特征點檢測算子有SUSAN檢測算子、Harris-Laplace檢測算子、Hessian- Laplace檢測算子和DoG(difference of gaussian)檢測算子[4]等。常用的特征區(qū)域描述子有SC(shape context)描述子、GH(geometric histogram)描述子、SIFT(scale invariant feature transform)描述子和GLOH(gradient location orientation histograms)描述子[5]等。
本文對這些特征區(qū)域檢測算法以及描述子進行了研究分析,發(fā)現(xiàn)通過DoG檢測算子和GLOH描述子提取的特征具有如下特性:1) 不變性,在圖像大小、平移、旋轉(zhuǎn)發(fā)生變化,甚至光照改變之后依然穩(wěn)定;2) 區(qū)分性,產(chǎn)生大量包含豐富內(nèi)容信息的特征,很適合圖像分類;3) 高效性,特征提取速度比較快,并且已出現(xiàn)了一些優(yōu)化的匹配算法。所以,選用DoG檢測算子和GLOH描述子提取出的局部特征比較適合于對絕大多數(shù)圖像內(nèi)容的描述,進而可以實現(xiàn)準確、穩(wěn)健的圖像分類。
DoG算子用高斯函數(shù)作為卷積核,通過與相鄰尺度以及相鄰位置的點的對比,得到圖像中極值點所處的位置和對應的尺度,并在這些候選點中篩選掉對比度較低以及處于邊緣的特征點,提取出穩(wěn)定的特征點,如圖1所示。
a. 建筑與行人
b. 汽車與植物
圖1 用DoG算子檢測圖像特征點示意圖
GLOH描述子是對SIFT描述思想的改進和發(fā)展。通過主分量分析(principal component analysis, PCA)進行降維,最終得到一個128維的向量,在最大程度保留原始數(shù)據(jù)的同時減少了后續(xù)應用的計算時間。
從眾多圖像中提取的底層局部特征規(guī)模非常大,而且都有或多或少的差別。如圖2所示,針對同一種目標的相同部位提取的相似特征,也會存在一些細微的差別。這些“模板”描述得過于具體,雖然可以對某一個體進行精確匹配,但不適于對一類圖像目標的分類識別。需要像自然語言中的單詞一樣,抓住一類事物的共性,即針對眾多關(guān)于個體樣本的“具體描述”進一步抽象出“概念”。
圖2 同類目標的局部特征示意圖
相近的局部特征經(jīng)過優(yōu)化組合之后可以形成“原型”特征,即視覺單詞。大量的視覺單詞就組成了視覺單詞庫,又稱為視覺詞表(visual vocabulary)或碼書(codebook)[9-10]。國內(nèi)一些研究人員將其應用于各種圖像的處理和識別過程中,其中對局部特征進行聚類是構(gòu)造視覺單詞的一種有效的途徑[11-12],最常用的是劃分方法中的-平均值(-means)算法、-中心點(-medoids)算法和層次方法中的凝聚聚類。劃分方法雖然簡單便捷,但是它經(jīng)常以局部最優(yōu)結(jié)束,而且必須實現(xiàn)給出簇的數(shù)目,對“噪聲”和孤立點數(shù)據(jù)非常敏感。所以,本文選用RNN (reciprocal nearest neighbor)凝聚聚類算法[13]構(gòu)建視覺單詞庫,這種方法先是將每個局部特征作為一個簇,然后將相似度最大的原子簇合并,直至達到某個希望的簇的數(shù)目。簇間相似度是通過計算平均相似度(一個簇中所有對象和另一簇所有對象之間的相似度的平均)得到:
相似度的度量采用的是歐式距離。用每個簇的重心(簇的所有特征向量的平均值)來代表整個簇。
如果令訓練樣本總數(shù)為,數(shù)量為的樣本包含且屬于類;數(shù)量為的樣本包含但不屬于類;數(shù)量為的樣本不包含但屬于類;數(shù)量為的樣本既不包含也不屬于類。視覺單詞對的CHI值為:
(2)
如果是針對多分類的情況,篩選視覺單詞可以通過兩個途徑實現(xiàn):
式中,代表類別的數(shù)量。根據(jù)給定閾值篩除計算結(jié)果低的視覺單詞,存留下來的特征作為最終使用的視覺單詞庫。
然后用這個平均值來衡量該視覺單詞與各個類別的相關(guān)程度。不過,實驗表明求取平均值的效果不如求取最大值,所以本文暫時采用方法1)進行視覺單詞的篩選。
“向量空間模型”(vector space model, VSM),又稱特征包模型或詞袋模型,是在20世紀70年代初提出的,早期主要用在自然語言處理領域,尤其是信息檢索和文本分類。2004年,該模型逐漸被引入到了圖像識別領域。
對于向量空間模型,特征項是最小的不可分的語義單元。對于圖像,它可以是任意分割程度上的子區(qū)域。所以,一幅圖像可以認為是特征項(視覺單詞)組成的集合,表示為,其中是特征項,。每一特征項(視覺單詞)都有一個權(quán)重(依據(jù)一定的原則,如語義的重要程度)。
簡記為:
(6)
如果采用視覺單詞作為向量空間模型中的特征項,圖像表示的問題轉(zhuǎn)化為求取每個視覺單詞的權(quán)重問題。最為簡單的是采用布爾權(quán)重(Boolean weighting),其基本思想是,如果圖像中出現(xiàn)過該視覺單詞,那么該視覺單詞的權(quán)重為1,否則為0。
由于布爾權(quán)重的表示方法沒有體現(xiàn)視覺單詞在圖像中的作用程度,因而在實際應用中0、1值逐漸地被更精確的視覺單詞的頻率所代替,即是絕對詞頻(term frequency,TF)方法——使用視覺單詞在圖像中出現(xiàn)的頻度作為權(quán)重。
樸素貝葉斯分類器進行圖像分類的基本思想是利用視覺單詞和類別的聯(lián)合概率,估計給定目標圖像的類別概率。該模型假定特征向量的各個分量間對于決策變量是相對獨立的,即目標圖像是基于視覺單詞的一元模型,當前視覺單詞的出現(xiàn)依賴于圖像類別但不依賴于其他視覺單詞。
(8)
在多元伯努利模型(multi-variate Bernouli model)中,特征向量的每個分量采用布爾值,即一幅圖像的每個視覺單詞采用布爾權(quán)重,故和的計算分別為:
(10)
因此有:
(12)
在多項式模型(multinomial model)中,特征向量的每個分量采用絕對詞頻,即若一幅圖像的每個視覺單詞采用其出現(xiàn)的頻度為權(quán)重,則圖像屬于類的概率為:
(14)
為了驗證本文提出的基于局部特征的圖像分類方法的有效性,進行了相關(guān)實驗。實驗數(shù)據(jù)選自Caltech101圖像庫,該圖像庫是由加州理工學院的Li等創(chuàng)建,每類目標有40~800幅圖像,大小約300×200像素。該圖像庫的優(yōu)點在于:圖像大小和目標相對位置大體相同,不需要花時間去裁剪圖像就能進行實驗;圖像的雜亂或遮擋部分很少,分類算法可以依賴于目標圖像的顯著特征;對每幅圖像都進行了注釋,每個注釋包括目標位置的邊界盒以及人工描繪的目標輪廓兩種信息。
實驗選用8類圖像分別統(tǒng)計在二分類問題上的實驗結(jié)果。這8類圖像目標分別為汽車、自行車、人、馬、花卉、沙發(fā)、顯示器和建筑物,挑選正負樣本各100幅作為訓練集樣本,各25幅作為測試集樣本,并挑選出40~100個正樣本(已標注出目標輪廓)用以構(gòu)造視覺單詞庫。訓練集與測試集相互獨立,即兩者不含有同一幅圖像。
ROC(receiver operating characteristics)曲線線圖的軸和軸分別是評價指標TPr(true positive rate)和FPr(false positive rate),其中,TPr和FPr的計算公式為:
ROC空間對樣本在類別間的分布不敏感,基于該曲線的相等錯誤率(equal error rate, EER)即是選取時的值,可以直觀反映分類算法的效果。式中,各個參數(shù)的含義如表1所示。
表1 圖像分類算法輸出結(jié)果
根據(jù)表1可以得到查全率(Recall)和查準率(Precision)的計算公式為:
對于圖像分類,查準率和查全率是一對相互矛盾的物理量,提高查準率往往要犧牲一定的查全率,反之亦然。為更全面地反映分類算法的性能,本文采用RPC曲線圖。
為了驗證利用聚類算法構(gòu)造視覺單詞這一途徑的有效性,將凝聚聚類算法與劃分方法中的-平均值和-中心點聚類應用于同一樣本集,并比較最終的分類效果。該實驗從60幅圖片(汽車圖像)中共提取出19 127個局部特征用以構(gòu)造視覺單詞庫,對小汽車圖像和建筑物圖像進行分類測試,得到單詞庫規(guī)模為200~1 800之間的正確率,該評估指標是在相等錯誤率(EER)下的分類效果,對圖像進行向量空間模型表示時用的是布爾權(quán)重。
如圖3所示,由于凝聚聚類算法得到的簇相對緊致,總體比劃分方法中的兩種聚類算法性能好。關(guān)于視覺單詞庫的規(guī)模,在200~800之間隨著視覺單詞數(shù)量的增加,分類效果得到了明顯的改善,在800以上RNN凝聚聚類算法相對穩(wěn)定,-平均值和-中心點方法則會出現(xiàn)波動,這是因為劃分方法經(jīng)常以局部最優(yōu)結(jié)束。
圖3 不同視覺單詞庫構(gòu)造方法的性能
采用不同的特征權(quán)重類型對分類的最終效果也會有較大的影響,本文對布爾、絕對詞頻(TF)兩種特征權(quán)重計算方法進行實驗對比。采用樸素貝葉斯分類器對8類圖像分別進行二分類實驗,求取每次分類的查準率和查全率。由于樣本在所有類別中分布均勻,計算出的宏平均查準率和查全率等于微平均查準率和查全率。如圖4的RPC曲線所示,TF權(quán)重較布爾權(quán)重效果好。這是由于用0、1代表該視覺單詞是否在圖像中出現(xiàn),無法體現(xiàn)視覺單詞在圖像分類中的作用程度,因而效果不如更精確的TF方法。
圖4 采用不同特征權(quán)重的分類效果
為了更為直觀地比較本文的方法和其他相近算法[12~14]的性能差異,本文進行一些仿真實驗對比。為了與相關(guān)算法保持一致,實驗所用的摩托車和小汽車(背面視圖)兩類圖像都選自Caltech圖像庫,算法的正確率是在相等錯誤率(EER)時計算所得的。從表2可以看出,與其他算法的最佳效果相比,本文的方法在沒有經(jīng)過特征選擇優(yōu)化之前,性能是中等偏上的;經(jīng)過基于CHI統(tǒng)計量的視覺單詞篩選后,性能得到了一定的提升,僅比其他算法中的一種稍遜。總體來看正確率較高,一方面證明了其可行性,另一方面也說明了在特征優(yōu)化上可能還有較大的改進空間。
表2 與相近算法的實驗對比
本文提出了一種基于局部特征的圖像分類方法,通過凝聚聚類將大量的局部特征進一步構(gòu)造成視覺單詞,并引入信息論中的CHI統(tǒng)計量進行視覺單詞的篩選。同時,借鑒文本分類領域的向量空間模型進行圖像表示,不僅能夠描述出圖像的關(guān)鍵內(nèi)容,而且具有很好的平移、旋轉(zhuǎn)、尺度、亮度不變性。根據(jù)視覺單詞權(quán)重的不同計算方法,本文設計出了相應的樸素貝葉斯分類器,并在標準圖像庫上進行了實驗分析,結(jié)果證明了該方法的有效性和健壯性。
本文的方法在視覺單詞庫的構(gòu)造過程中,沒有考慮視覺單詞之間的空間關(guān)系,使用的局部特征類型也比較單一。下一步工作將考慮建立局部特征的空間關(guān)系模型,并將多種局部特征甚至整體特征結(jié)合起來,相信會有更好的實用價值和發(fā)展前景。
[1] CAO Jian, MAO Dian-hui, CAI Qiang, et al. A review of object representation based on local features[J]. Journal of Zhejiang University-Science C (Computers & Electronics), 2013, 14 (7): 495-504.
[2] 葛娟, 曹偉國, 周煒, 等. 一種顏色仿射變換下的局部特征描述子[J]. 計算機輔助設計與圖形學學報, 2013, 25(1): 26-33.
GE Juan, CAO Wei-guo, ZHOU Wei, et al. A local feature descriptor under color affine transformation[J]. Journal of Computer-Aided Design & Computer Graphics, 2013, 25(1): 26-33.
[3] 葛琦, 韋志輝, 肖亮, 等. 基于局部特征的自適應快速圖像分割模型[J]. 計算機研究與發(fā)展, 2013, 50(4): 815-822.
GE Qi, WEI Zhi-hui, XIAO Liang,et al. Adaptive fast image segmentation model based on local feature[J]. Journal of Computer Research and Development, 2013, 50(4): 815-822.
[4] LOWE D. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110.
[5] MIKOLAJCZYK K, SCHMID C. A performance evaluation of local descriptors[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(10): 1615-1630.
[6] LI L J, SU H, LIM Y, et al. Object bank: an object-level image representation for high-level visual recognition[J]. International Journal of Computer Vision, 2014, 107(1): 20-39.
[7] 丁建睿, 黃劍華, 劉家鋒, 等. 局部特征與多示例學習結(jié)合的超聲圖像分類方法[J]. 自動化學報, 2013, 39(6): 861- 867.
DING Jian-rui, HUANG Jian-hua, LIU Jia-feng, et al. Combining local features and multi-instance learning for ultrasound image classification[J]. Acta Automatica Sinica, 2013, 39(6): 861-867.
[8] CHOI J Y, RO Y M, PLATANIOTIS K N. Color local texture features for color face recognition[J]. IEEE Transactions on Image Processing, 2012, 21(3): 1366-1380.
[9] NAKAYAMA H, HARADA T, KUNIYOSHI Y. Global Gaussian approach for scene categorization using information geometry[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2010: 2336-2343.
[10] REDONDO C C, LOPEZ S R, ACEVEDO R J, et al. SURFing the point clouds: Selective 3D spatial pyramids for category-level object recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2012: 3458- 3465.
[11] 韓冰, 楊辰, 高新波. 融合顯著信息的 LDA 極光圖像分類[J]. 軟件學報, 2013, 24(11): 2758-2766.
HAN Bing, YANG Chen, GAO Xin-bo. Aurora image classification based on lda combining with saliency information[J]. Journal of Software, 2013, 24(11): 2758-2766.
[12] 宋相法, 焦李成. 基于稀疏編碼和集成學習的多示例多標記圖像分類方法[J]. 電子與信息學報, 2013, 35(3): 622-626.
SONG Xiang-fa, JIAO Li-cheng. A multi-instance multi-label image classification method based on sparse coding and ensemble learning[J]. Journal of Electronics & Information Technology, 2013, 35(3): 622-626.
[13] LEIBE B, LEONARDIS A, SCHIELE B. Robust object detection with interleaved categorization and segmentation [J]. International Journal of Computer Vision, 2008, 77(1-3): 259-289.
[14] BILEN H, NAMBOODIRI V P, VAN GOOL L J. Classification with global, local and shared features[C]// Pattern Recognition (Lecture Notes in Computer Science). Berlin: Springer, 2012.
編 輯 黃 莘
Image Classification Methods Based on Local Features
CAO Jian1, WEI Xing2, LI Hai-sheng1, and CAI Qiang1
(1. School of Computer and Information Engineering, Beijing Technology and Business University Haidian Beijing 100048; 2. School of Computer and Communication Engineering, University of Science and Technology Beijing Haidian Beijing 100083)
In order to organize, manage and browse large-scale image databases effectively, an image classification algorithm based on local features is proposed. After analyzing of several fashionable local features at present, we choose the suitable features to construct the visual vocabulary. These visual words are invariant to image scale and rotation, and are shown robust to addition of noise and changes in 3D viewpoint. We also describe two approaches to represent objects using these visual words. As baselines for comparison, some additional classification systems also have been implemented. The performance analysis on the obtained experimental results demonstrates that the proposed methods are effective and highly valuable in practice.
agglomerative clustering; classifier; image classification; local features; visual word
TP391.41
A
10.3969/j.issn.1001-0548.2017.01.011
2014-06-26;
2016-06-03
國家自然科學基金(61402023);北京市教委科研計劃(SQKM201610011010);北京市自然科學基金(4162019);北京市科技計劃(Z161100001616004)
曹健(1982-),男,博士,副教授,主要從事圖像處理、機器學習、模式識別等方面的研究.