浙江工業(yè)職業(yè)技術(shù)學(xué)院 吳曦德
基于SURF特征的PLSA圖像分類器研究
浙江工業(yè)職業(yè)技術(shù)學(xué)院吳曦德
在圖像分類中,存在兩方面的因素影響著圖像分類的性能。第一個是圖像的采集過程中受到的客觀影響。第二是選擇分類器的主觀影響。考慮上述影響分類性能的因素,本文對局部特征、圖像表示模型和無監(jiān)督分類方法進行了研究。
圖像分類;SURF PLSA;視覺詞典
目前,圖像分類的性能主要受到兩個方面的影響。第一個是圖像采集過程中對圖像的客觀影響。第二是選擇分類器的主觀影響。目前的圖像分類方法是按照是否需要訓(xùn)練樣本分為監(jiān)督分類和無監(jiān)督分類。
針對上述的兩類問題,本文選擇圖像的局部特征來處理光照、尺度和旋轉(zhuǎn)、遮擋等問題的影響。再選擇PLSA這種分類表現(xiàn)優(yōu)良的無監(jiān)督分類算法對圖像進行分類。本文結(jié)合視覺詞典的方法,得到數(shù)據(jù)集的共生矩陣,再從共生矩陣中提取出潛在語義信息。在PLSA中,我們使用期望最大化,EM(Expectation Maximization)算法對參數(shù)進行最大似然值估計。然后得到主題關(guān)于圖像的概率分布,即某一圖像對應(yīng)各主題的隸屬程度。該圖像的類別則為隸屬度最高值所對應(yīng)的主題類型。
特征是對物體的一種表示或者描述。它是從對象中處理或測量出來的數(shù)據(jù)。在選擇特征時,我們最簡單則是使用圖像各像素的灰度值。但處理這樣特征的計算量大,針對某些噪聲和轉(zhuǎn)換敏感,不易后期識別。正因為含有不同信息的特征處理不同的問題,所以提取特征時應(yīng)該具體問題具體分析。
SURF將Hessian行列式(DoH)中的二階高斯微分模板進行了離散化,使得圖像特征的計算速度更快。SURF特征點的搜索過程分為建立尺度空間、檢測特征點和生成特征向量。
在處理圖像分類的問題時,先得到一個能充分描述圖像的描述符或描述向量。通過視覺詞典的建立,可以輕松的得到圖像的矢量表示。視覺詞典以傳統(tǒng)的模型為基礎(chǔ)。由此模型得到的表示向量,體現(xiàn)了在文本中單詞的字頻而忽略文本單詞語序和文法。提取圖像的視覺詞典類似于文檔單詞表的生成。在視覺詞典的模型中,算法同樣不考慮特征之間的空間關(guān)系,算法的核心在于視覺單詞的生成和統(tǒng)計。在文本處理中,BOW模型的制勝原因在于提取出高辨識能力的單詞和語言的冗余信息。
(1)特征提取
BOW模型能在計算機視覺領(lǐng)域中得到廣泛應(yīng)用,很大一部分原因是因為現(xiàn)代特征具有很高的識別性。這些識別性強的特征可以生成出強語義信息的視覺單詞,這些語義包含著圖像的隱含主題信息。例如采用顏色特征對圖像進行顏色直方圖統(tǒng)計。如果某一圖片紅色居多,我們可以得到這張圖片為暖色系的隱含信息。如果要對圖像中的局部對象進行分析,這時使用局部特征更為良好。使用SURF算法作為視覺單詞的基礎(chǔ),可以得到一組強描述性的視覺詞典。
(2)詞典的生成
視覺單詞生成的過程就是把相近相似的圖像特征歸為一類,最后獲取類別的中心為單詞。如圖1所示,從圖像提取出一條一條的特征向量后,再將具有共性的特征向量聚類到一起。每個聚類的中心點則是所生成的視覺單詞。這里我們使用k均值算法無監(jiān)督的構(gòu)造視覺詞典。根據(jù)事先設(shè)置的K值,把所有圖像特征劃定成K類。最后由k均值算法計算得到的K個聚類中心組成視覺詞典。
圖1 生成視覺單詞過程
(3)將圖像用視覺單詞表示
利用局部特征提取算法和聚類算法將特征融合為一個個的視覺單詞。然后將這些視覺單詞與圖像的所有特征進行近似比較,用詞典中的視覺單詞來代替所有特征。最后統(tǒng)計K個視覺單詞出現(xiàn)的次數(shù),得到一個關(guān)于視覺詞典的直方圖。
到此,我們就將一幅圖像表征為一個K維的向量。之后,將所有圖像的表示向量輸入到分類器中實現(xiàn)圖像分類功能。
圖像分類是從圖像信息里提取出的不同特征,將目標(biāo)劃分到各自的類別區(qū)域中。概率潛在語義分析(Probability Latent Semantic Analysis,PLSA)就是一種隱含變量模型學(xué)習(xí)算法。 PLSA模型是LS A的概率學(xué)延伸。PLSA最早應(yīng)用于自然語言處理領(lǐng)域,主要解決單詞在文本中表達的語義問題。因為單詞具有多義性,還有一個語義具有多詞性。如果不弄清楚單詞在文本中真正表達的含義,就會造成文本或語句匹配錯誤率大。PLSA不僅繼承了LSA的辨別一義多詞的優(yōu)點,同時還使用統(tǒng)計學(xué)中的最大似然估計對算法進行優(yōu)化計算,這使得文本間的語義關(guān)系更為清晰。文本與單詞之間的關(guān)系被投射到一個低維的概率空間,再通過Expectation Maximization進行參數(shù)估計,化解了語義鴻溝。同時該算法計算穩(wěn)定,具有很強的自適應(yīng)性,計算速度快,對文本的共生矩陣進行分析便可得到文本的類別信息。
圖2 精度比較圖
表1 兩種分類器的精度值
為了驗證本文方法的有效性,首先從基于相同的視覺詞典模型,比對不同的無監(jiān)督分類算法的精度。這里選擇的是K-means與PLSA算法進行對比。再基于相同的分類器,對比不同的局部圖像特征對分類器性能的影響。
這里我們使用相同視覺詞典形成的表示向量作為輸入。其中,視覺詞典使用的是SURF特征,視覺詞典的單詞數(shù)為300。向量輸入值分別送入K-means與PLSA分類器中。圖2是對兩種分類方法的精度比較圖。表1統(tǒng)計了分類器對2類,3類,4類圖像集的分類精度情況。
綜合圖2表1,我們可以看到PLSA分類器的總體性能更優(yōu)。在2類圖像分類中,兩者的分類精度相近,都為0.9左右。但隨著分類圖像數(shù)目增多,類別增多,兩種分類器的分類精度都有所下降。原因在于分類圖像數(shù)目和類別較少時,分類器要處理的信息量少,圖像的信息易于區(qū)分。但隨著分類的圖像數(shù)目增加,冗余信息和噪聲增多,圖像之間的變化也增多,干擾了分類器的判斷。但是在這樣的情況下,PLSA的分類器的分類精度都高于K均值分類器。在復(fù)雜情況下,PLSA分類器的精度下降得慢,抗干擾性強于K-means算法。
本文以實現(xiàn)自動分類器為目的,從特征提取、圖像表示模型和無監(jiān)督分類算法等方面展開討論和研究,構(gòu)造基于SURF特征的PLSA分類器,并在給定的圖像數(shù)據(jù)集進行實驗,實現(xiàn)了圖像的自動分類。
[1]趙清杰,錢芳,蔡利.計算機視覺[M].北京:機械工業(yè)出版社,2005.
[2]D.G.Lowe,Object recognition from local scal-invariant features[J]. Proc of the7th IEEE International Conference on Computer Vision,Kerkyr a,Greece,1999:1150-1157.
[3]M.J.Swain,D.H.Ballard.Color Indexing[J].International Journal of Computer Vision,1991,7(1):11-32.
吳曦德(1981—),男,浙江紹興人,碩士,講師,現(xiàn)供職于浙江工業(yè)職業(yè)技術(shù)學(xué)院。