劉會波
上海市同濟(jì)大學(xué)軟件學(xué)院,上海 200438
圖片分類即基于圖片內(nèi)容對圖片進(jìn)行分類。過去的很多論文都是基于支持向量機(jī)(SVM)構(gòu)建分類器[1],并取得了一定的成果。但是,要獲得很高的圖片分類正確率以及穩(wěn)定性仍具有相當(dāng)大的挑戰(zhàn)。這部分是因為語義相關(guān)的圖片可能并不是一個線性超平面的特征空間。本文著重探討這個問題,并提出了一個新穎的基于熵描述符的圖片分類算法。
文中提出的熵用來描述表示幾何特征的流形特征。通過最小化熵值,將圖片數(shù)據(jù)組織為一個語義連續(xù)的環(huán)。優(yōu)化的環(huán)實(shí)際上為訓(xùn)練圖像建立了一個數(shù)學(xué)模型,而這些模型可用來決定測試圖像的分類標(biāo)簽。該分類策略為:首先搜索該測試圖像在每個環(huán)中最優(yōu)或算法所能達(dá)到的最優(yōu)位置。對于每個環(huán),測試圖像會插入使熵增加最小的位置,再通過比較所有環(huán)的熵增量,測試圖片會添加到熵值增加最小的環(huán)所代表的分組即分類中。在本文的研究中,采用禁忌搜索方法[2]求解該優(yōu)化問題。
圖片的語義表示是圖片分類方法成功的關(guān)鍵。本文的研究中,我們應(yīng)用幾何流形熵(GEOMEN)描述特征空間中得圖片的語義相似性。
且各s(X,O,i)為兩分量加權(quán)和:空間分量p(X,O,i)和幾何分量g(X,O,i)如下:
上式a是用來修正空間分量對GEOMEN的貢獻(xiàn)大小。GEOMEN表征按照順序O連接的環(huán)的平滑程度。另外,它也是在數(shù)據(jù)近似性的量度。因為圖片排序可以被看做提取一維流行的問題,但實(shí)際情況下這是一條曲線,因此我們僅僅考慮在一維曲線上GEOMEN的表示。
引入正則項可以修正噪聲對曲率的影響。
因為如果兩個類別有一個明顯的區(qū)別,那么在邊界點(diǎn)處熵值便會極大的增加。這個啟發(fā)我們對一個點(diǎn)的錯誤分類將會導(dǎo)致該類最優(yōu)環(huán)熵值的急劇增加。反之,如果一個點(diǎn)正確分組進(jìn)入一個類,該類的最優(yōu)環(huán)的熵值將只會增加一點(diǎn)點(diǎn)。這正是本文基于熵描述符的圖片分類算法基本框架的基本思想。因此每個類首先都需要通過訓(xùn)練獲得一個最優(yōu)環(huán)即該類別的模型。這樣對于待預(yù)測圖片,通過比較其插入每個最優(yōu)環(huán)的熵增即可獲得該圖片的分類標(biāo)簽。
這樣,為了找到最優(yōu)環(huán),我們需要最小化GEOMEN值,亦即:O?=argminS( X, O)。在該研究中,我們估計通過簡單的禁忌搜索算法獲得熵的全局最小值。關(guān)于禁忌搜索算法可以參看文獻(xiàn)[2]。
每個類的最優(yōu)環(huán)實(shí)際上訓(xùn)練圖片的提取模型。該模型可用于獲取測試未知圖片的類別標(biāo)簽。分類的策略為在所有環(huán)中找到圖片Q的最優(yōu)位置。測試圖片的類別即位最優(yōu)位置所在環(huán)的類別。
本實(shí)驗采用PHOG[3]作為特征描述符。實(shí)驗針對對三個數(shù)據(jù)集進(jìn)行了測試:UMIST 人臉數(shù)據(jù)集,以及自制的背景雜亂的汽車數(shù)據(jù)集,飛機(jī)模型數(shù)據(jù)集。飛機(jī)模型數(shù)據(jù)集通過使用3DMAX軟件對各種飛機(jī)模型進(jìn)行旋轉(zhuǎn),并選取角度渲染投影成二維照片獲得。同時,我們基于SVM的分類器與之相比較。
由表1可知,我們的算法框架具有更好的性能,更高的正確率以及可靠性。
人臉數(shù)據(jù)集表明我們的算法框架中在人臉分析中具有很好的分類性能。同時,汽車數(shù)據(jù)集盡管背景雜亂,但仍具有較高正確率,更比SVM高出22.50%,表明該框架對背景的高穩(wěn)定性。同時,對于飛機(jī)模型優(yōu)異表現(xiàn),表明該算法框架對于基于圖片的模型檢索的重大應(yīng)用潛力??傊?,該算法無論對于多視角圖片集中,不管背景雜亂與否,總能表現(xiàn)出優(yōu)秀的分類正確率和健壯性。
表1 實(shí)驗結(jié)果對照表
[1]X.Li,L.Wang and E.Sung"Multilabel SVM active learning for image classification",Proc.ICIP,p.2207,2004.
[2]C.Zhang,H.Li,Q.Guo,J.Jia,and I.-F.Shen.Fast active tabusearch and its application to image retrieval.In IJCAI’09,pages 1333-1338,2009
[3]A.Bosch,A.Zisserman,and X.Munoz.Representing shape with a spatial pyramid kernel.CIVR,2007.