趙永威,周 苑,李弼程,柯圣財(cái)
(1.武警工程大學(xué)電子技術(shù)系,陜西西安 710000;2.河南工程學(xué)院計(jì)算機(jī)學(xué)院,河南鄭州,451191;3.解放軍信息工程大學(xué)信息系統(tǒng)工程學(xué)院,河南鄭州 450002)
?
基于近義詞自適應(yīng)軟分配和卡方模型的圖像目標(biāo)分類方法
趙永威1,周 苑2,李弼程3,柯圣財(cái)3
(1.武警工程大學(xué)電子技術(shù)系,陜西西安 710000;2.河南工程學(xué)院計(jì)算機(jī)學(xué)院,河南鄭州,451191;3.解放軍信息工程大學(xué)信息系統(tǒng)工程學(xué)院,河南鄭州 450002)
傳統(tǒng)的視覺詞典模型(Bag of Visual Words Model,BoVWM)中廣泛存在視覺單詞同義性和歧義性問題.且視覺詞典中的一些噪聲單詞—“視覺停用詞”,也會降低視覺詞典的語義分辨能力.針對這些問題,本文提出了基于近義詞自適應(yīng)軟分配和卡方模型的圖像目標(biāo)分類方法.首先,該方法利用概率潛在語義分析模型(Probabilistic Latent Semantic Analysis,PLSA)分析圖像中視覺單詞的語義共生概率,挖掘圖像隱藏的語義主題,進(jìn)而得到語義主題在某一視覺單詞上的概率分布;其次,引入K-L散度度量視覺單詞間的語義相關(guān)性,獲取語義相關(guān)的近義詞;然后,結(jié)合自適應(yīng)軟分配策略實(shí)現(xiàn)SIFT特征點(diǎn)與若干語義相關(guān)的近義詞之間的軟映射;最后,利用卡方模型濾除“視覺停用詞”,重構(gòu)視覺詞匯分布直方圖,并采用SVM分類器完成目標(biāo)分類.實(shí)驗(yàn)結(jié)果表明,新方法能夠有效克服視覺單詞同義性和歧義性問題帶來的不利影響,增強(qiáng)視覺詞典的語義分辨能力,較好地改善了目標(biāo)分類性能.
視覺詞典模型;概率潛在語義分析模型;K-L散度;卡方模型;目標(biāo)分類
隨著計(jì)算機(jī)技術(shù)、通信技術(shù)的飛速發(fā)展及廣泛應(yīng)用,形成了海量圖像信息環(huán)境.如何讓計(jì)算機(jī)對其進(jìn)行快速有效的分類處理,已成當(dāng)前計(jì)算機(jī)視覺領(lǐng)域亟待解決的問題.視覺詞典模型(Bag of Visual Words Model,BoVWM)[1~5]已成為目前圖像目標(biāo)分類領(lǐng)域[6]的主流處理方法.其基本思想是利用K-Means等聚類算法[7,8]對訓(xùn)練圖像庫中提取的局部特征(通常選取SIFT特征[9])集合進(jìn)行聚類生成視覺碼本,也即視覺詞典,然后,將每幅圖像的SIFT特征與視覺詞典進(jìn)行映射匹配得到表征圖像內(nèi)容的視覺詞匯直方圖,最后,結(jié)合機(jī)器學(xué)習(xí)方法訓(xùn)練識別測試圖像的類別.然而,由K-Means及其改進(jìn)聚類算法生成的視覺詞典存在視覺單詞同義性和歧義性問題[10].
為了克服視覺單詞同義性和歧義性問題帶來的不利影響,研究人員進(jìn)行了諸多嘗試.Philbin等[11]提出了一種基于軟分配的視覺詞典模型方法(Soft Assignment,SA)來構(gòu)建視覺詞匯分布直方圖,將一個SIFT特征分配至與之距離最近的幾個視覺單詞上,并根據(jù)距離大小賦以相應(yīng)的權(quán)重.Gemert等[10]提出了視覺單詞不確定性(Visual Word Uncertainty)模型,通過核函數(shù)完成圖像局部特征點(diǎn)與視覺單詞之間的軟映射,有效地減小了特征點(diǎn)與視覺單詞映射匹配時的量化誤差.Koniusz等[12]則進(jìn)一步驗(yàn)證了軟分配方法對克服視覺單詞同義性和歧義性,減小量化誤差的有效性.Li等[13]在構(gòu)建直方圖時引入了一種上下文信息的策略提高了特征點(diǎn)與視覺單詞間的匹配精度,在一定程度上降低了單詞同義性和歧義性導(dǎo)致的量化誤差.Weinshall等[14]則將軟分配策略與潛在狄里克雷分布模型相結(jié)合(Latent Dirichlet Allocation,LDA),提出了種一軟分配的LDA模型;Danilo等[15]考慮到視覺單詞歧義性的影響,提出了一種模糊聚類的算法完成視覺單詞的軟分配,并取得了不錯的效果.上述方法較于傳統(tǒng)的硬分配的視覺詞典模型方法[8](Hard-Assignment,HA)都能在一定程度上克服視覺單詞的同義性和歧義性問題,減小特征與單詞映射時的量化誤差,增強(qiáng)視覺詞匯直方圖特征的語義表達(dá)能力.但是,它們都以特征空間距離大小來衡量單詞之間的語義距離大小,而由于度量空間的不一致性,使得特征空間距離相近的視覺單詞在語義空間并不一定相近.此外,這些方法[10~15]在軟分配時對每個局部特征都分配相同數(shù)量的視覺單詞,難免會使一些不具有歧義性的局部特征也都強(qiáng)制性的映射到了多個視覺單詞上,引入新的噪聲和冗余信息.
此外,由于圖像背景噪聲的存在和聚類算法的局限性[16,17],使得生成的某些視覺單詞類似于文本信息中的“的”、“和”、“是”等“停用詞”,從而降低視覺詞典的語義分辨能力,這里稱其為“視覺停用詞”.Sivic等[1]考慮到單詞的信息量大小與其出現(xiàn)的頻率有一定的關(guān)系,從而提出了一種基于詞頻的“視覺停用詞”過濾方法.Yuan等[18]試圖以統(tǒng)計(jì)視覺單詞組合也即“停用詞組”出現(xiàn)的概率來濾除一些無用信息,但是卻忽略的視覺詞組內(nèi)部各單詞的順序.Chen等[19]則提出了一種強(qiáng)分辨力的視覺詞組(Discriminative Visual Phrases,DVP)篩選方法,在濾除噪聲的同時有效克服了傳統(tǒng)視覺詞組構(gòu)建方法[20]導(dǎo)致的特征信息丟失問題.然而,這幾種方法都忽略了視覺單詞和圖像類別和語義概念間的相互關(guān)系,容易錯誤地將一些出現(xiàn)次數(shù)較少而分辨力較強(qiáng)的視覺單詞當(dāng)作“視覺停用詞”.
綜上所述,為了更加準(zhǔn)確地衡量視覺單詞間的語義相關(guān)性,且針對不同類別的局部特征自適應(yīng)地選擇軟分配數(shù)目,同時,有效濾除“視覺停用詞”.本文提出了一種基于近義詞自適應(yīng)軟分配和卡方模型的圖像目標(biāo)分類方法,解決視覺單詞同義性和歧義性問題及其帶來的不利影響,增強(qiáng)視覺詞典的語義分辨能力,進(jìn)而提高目標(biāo)分類準(zhǔn)確率.
對于訓(xùn)練圖像集C={C1,C2,…,Ck},這里,采用文獻(xiàn)[9]的方法提取SIFT特征,并采用近似K-Means算法[11](Approximate K-Means,AKM)對特征點(diǎn)聚類生成視覺詞典.基于近義詞軟分配和卡方模型的圖像目標(biāo)分類方法具體流程如圖1所示.首先,通過PLSA分析圖像中視覺單詞的語義共生概率,挖掘圖像潛在的語義主題,進(jìn)而得到語義主題在某視覺單詞上的概率分布;然后,引入K-L散度度量視覺單詞間的語義距離,得到語義相近的近義詞,并根據(jù)SIFT的模糊性自適應(yīng)地選擇軟分配視覺單詞數(shù)目,實(shí)現(xiàn)SIFT特征與若干語義相近單詞之間的軟映射;最后,采用卡方模型分析視覺單詞與各圖像類別之間的相關(guān)性,濾除若干相關(guān)性小的“視覺停用詞”,重構(gòu)視覺詞匯直方圖,并由SVM分類器完成圖像目標(biāo)分類.
2.1 視覺單詞語義概念表達(dá)與度量
傳統(tǒng)的通過計(jì)算單詞間歐氏距離來衡量視覺單詞間語義距離的方法[10,14],并不能準(zhǔn)確地詮釋單詞間的語義相關(guān)性.文獻(xiàn)[13]通過獲取圖像類別在視覺單詞上的條件概率分布來代表單詞所表達(dá)的語義概念,取得了較好的分類效果,但是該方法的前提是來自不同類別的圖像中不能包含相同的語義概念.而通過PLSA模型能夠獲取語義主題在某一視覺單詞上的條件概率分布,能更為準(zhǔn)確地表達(dá)單詞蘊(yùn)含的語義概念.下面介紹基于PLSA模型的視覺單詞語義概念表達(dá).
2.1.1 基于PLSA模型的視覺單詞語義概念表達(dá)
PLSA模型是由Hoffman等[21]針對潛在語義分析提出的一種主題生成模型.其關(guān)鍵思想是通過分析已知文檔集中單詞的共生概率,學(xué)習(xí)得到模型參數(shù),進(jìn)而預(yù)測未知文檔隱藏的主題zk(k=1,2,…,K),后被廣泛應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域的圖像潛在主題分析.對于訓(xùn)練圖像集C={C1,C2,…,Ck}和由AKM聚類生成的視覺詞典W={w1,w2,…,wn},一幅圖像I的潛在語義主題z分析過程可描述如下:
(1)選擇一幅圖像,得其觀測概率P(I),P(I)表示在訓(xùn)練圖像庫中觀測到圖像I的概率;
(2)選擇一個潛在主題z,得P(z|I),P(z|I)表示主題z在圖像I下的條件概率分布;
(3)在已知主題的條件下,得到單詞w的條件概率P(w|z).
重復(fù)上述過程就能得到圖像和視覺單詞的共現(xiàn)頻率矩陣N=[n(wi,Ij)],其中n(wi,Ij)表示圖像Ij中單詞wi出現(xiàn)的次數(shù).那么,(w,I)的聯(lián)合分布可計(jì)算如下:
P(w,I)=P(I)P(w|I)
(1)
其中,Z表示潛在語義空間中所有的主題集合.而根據(jù)最大似然準(zhǔn)則,變量P(z),P(w|z),P(I|z)可以通過EM算法迭代式(2)的最大化對數(shù)似然函數(shù)得到.
s.t.
(2)
然后,再利用貝葉斯估計(jì)就能得到單詞w的出現(xiàn)概率和主題z在w下的條件概率分布,如式(3)和式(4)所示:
(3)
(4)
然而,在當(dāng)前PLSA模型中主題數(shù)目的多少大多是由人工根據(jù)經(jīng)驗(yàn)設(shè)定的一個固定值[22],并在此基礎(chǔ)上訓(xùn)練主題模型,得到固定主題集下的圖像語義表示.這種人工設(shè)定主題數(shù)的方法忽略了各圖像類別之間內(nèi)容繁簡不一的情況.為此,可以采用文獻(xiàn)[23]中的基于密度的最優(yōu)PLSA模型主題數(shù)選擇方法,該方法在為各圖像類別語義內(nèi)容構(gòu)建主題模型時,能夠依據(jù)圖像內(nèi)容復(fù)雜度較好地自動設(shè)置語義主題數(shù).
2.1.2 基于K-L散度的語義距離度量
K-L散度[13]可以很好地用來衡量兩個概率分布之間的差別,因此得到主題z在w下的條件概率分布后就能引入K-L散度度量不同視覺單詞間的語義距離.而同一幅圖像可能會包含多個潛在語義主題,且不同的語義主題對表達(dá)圖像語義內(nèi)容的貢獻(xiàn)是不一樣的,因此,需要對不同的語義主題分配不同權(quán)重.研究表明,訓(xùn)練集C在某一主題下z的條件熵H能夠衡量某一語義主題z的分辨力.H值計(jì)算如下:
(5)
從式(5)中不難看出,條件熵H的值越大,數(shù)據(jù)集C的表達(dá)內(nèi)容的不確定性就越大,也即是該主題z的分辨力較弱,為此,采用式(6)對條件熵值H(C|z)進(jìn)行高斯歸一化得權(quán)值ω(z)表征主題z的貢獻(xiàn)大小.
(6)
然后,就可以利用K-L散度度量兩視覺單詞wi,wj之間的語義距離,如式(7)所示:
d(wi,wj)=KL(P(z|wi)‖P(z|wj))
(7)
不難看出,式(7)在計(jì)算視覺單詞wi,wj間語義距離時,K-L散度同時考慮了主題z的權(quán)值,但K-L散度是一個非對稱的距離度量,也即是并不能保證d(wi,wj)=d(wj,wi).為此,對其式(7)改進(jìn)如式(8)所示,使其為一個標(biāo)準(zhǔn)的對稱式距離度量.
d(wi,wj)=
(8)
由式(3)~式(7)就能計(jì)算兩個視覺單詞間的語義距離,獲取語義相關(guān)的近義詞,進(jìn)而結(jié)合軟分配策略構(gòu)建視覺詞匯分布直方圖,更好地克服視覺單詞同義性和歧義性帶來的不利影響.
2.2 自適應(yīng)軟分配構(gòu)建視覺詞匯直方圖
由PLSA模型及K-L散度度量得到語義相關(guān)的近義詞之后,若要實(shí)現(xiàn)自適應(yīng)軟分配構(gòu)建視覺詞匯分布直方圖,首先需要對SIFT特征的模糊性進(jìn)行分析,其模糊性示意圖如圖2所示.其中,圓點(diǎn)代表SIFT特征,橢圓代表視覺單詞,菱形和正方形代表兩種不同性質(zhì)的SIFT特征.對于菱形特征而言,與視覺單詞w1的距離最近,且與其他視覺單詞距離較遠(yuǎn),則可假定其代表的語義內(nèi)容可由視覺單詞w1來表達(dá).也即是該特征點(diǎn)不具有模糊性或者模糊性很小,定義這類可靠特征為第一類特征;對于正方形特征而言,其距離視覺單詞w2和w3之間(或者與更多單詞之間)的距離很近,則可假設(shè)其代表的語義內(nèi)容需由w2和w3或更多視覺單詞共同來表達(dá).也即是該特征點(diǎn)具有較大的模糊性,定義這類模糊特征為第二類特征.
自適應(yīng)軟分配即是對圖像中每一個SIFT特征到近義詞之間的距離進(jìn)行分析和歸類,然后對不同類別的SIFT特征采用不同的的分配策略.假設(shè)已經(jīng)建立好的視覺詞典為W={w1,w2,…,wn},其中,n為視覺詞典規(guī)模大小.那么,不同類別的SIFT特征,就能自適應(yīng)地將其映射到一定數(shù)目的視覺單詞上.過程可描述如下:
2.3 “視覺停用詞”濾除
傳統(tǒng)的“視覺停用詞”濾除方法主要是依據(jù)詞頻高低,這種方法容易出現(xiàn)誤判現(xiàn)象.而卡方模型[24]是一種常用的測量兩個隨機(jī)變量獨(dú)立性的方法,利用卡方模型能夠統(tǒng)計(jì)視覺單詞與各圖像類別之間的相關(guān)性,卡方值越小表示該視覺單詞與各圖像類別的相關(guān)性越小,區(qū)分性也就弱,反之亦然.因此,可以在統(tǒng)計(jì)單詞詞頻的基礎(chǔ)上,結(jié)合卡方模型更好地濾除“視覺停用詞”.這里,假設(shè)視覺單詞w的出現(xiàn)頻次獨(dú)立于圖像類別Cj,Cj∈C,1≤j≤k,訓(xùn)練圖像集C={C1,C2,…,Ck},而視覺單詞w與圖像集C中圖像類別的相互關(guān)系可以由表 1來描述.
表1 視覺單詞w與各目標(biāo)類別的統(tǒng)計(jì)關(guān)系
表中,n1j表示圖像類別Cj包含單詞w的圖像數(shù)目,n2j表示圖像類別Cj不包含單詞w的圖像數(shù)目,n+j則表示圖像類別Cj中的圖像總數(shù),并用ni+,i=1,2分別表示圖像集C中包含單詞w的圖像總數(shù)和不包含w的圖像總數(shù).那么,表1中視覺單詞w與各圖像類別的卡方值可計(jì)算如下:
(9)
卡方值的大小則表征了視覺單詞w與各圖像類別之間的統(tǒng)計(jì)相關(guān)性大小,同時為了考慮單詞詞頻的影響,這里為每個視覺單詞的卡方值賦予相應(yīng)的權(quán)重如下:
(10)其中,tf(w)表示單詞w的詞頻.不難看出,式(10)同時兼顧了視覺單詞w的詞頻及其與各圖像類別之間的統(tǒng)計(jì)相關(guān)性,因而能更準(zhǔn)確地判別單詞w是否為“視覺停用詞”.通常的做法是按照式(10)對單詞的卡方值進(jìn)行排序,然后去除一定數(shù)量S的“視覺停用詞”即可,而在重構(gòu)視覺詞匯分布直方圖時,對應(yīng)單詞的維度將被濾除.
3.1 實(shí)驗(yàn)設(shè)置與性能評價
實(shí)驗(yàn)數(shù)據(jù)采用目標(biāo)分類常用的Caltech-256圖像集和和Proval Voc 2007數(shù)據(jù)集[25]對本文方法性能進(jìn)行評估.隨機(jī)選取Caltech-256圖像集中的15個目標(biāo)類別進(jìn)行實(shí)驗(yàn)以驗(yàn)證文中各方法的有效性.并從每個類別中隨機(jī)選取50幅,共750幅圖像構(gòu)成訓(xùn)練圖像集,其余作測試集,視覺詞典規(guī)模為1000.圖3給出了每個目標(biāo)圖像示例.這里分類采用的SVM分類器,具體為LIBSVM[26]工具包,其核函數(shù)采用徑向基型內(nèi)積函數(shù).而為了獲取可靠的實(shí)驗(yàn)結(jié)果,所有結(jié)果都是進(jìn)行10次獨(dú)立的目標(biāo)分類實(shí)驗(yàn)平均得來.實(shí)驗(yàn)硬件配置為一臺Core 3.1G×4 CPU,內(nèi)存為4G的臺式機(jī).目標(biāo)分類性能評價指標(biāo)為召回率、準(zhǔn)確率,以召回率為基礎(chǔ)的混淆矩陣(Confusion Matrix)以及平均準(zhǔn)確率(Average Precision,AP),相關(guān)定義如下:
(11)
(12)
(13)
3.2 實(shí)驗(yàn)結(jié)果與分析
首先,為了驗(yàn)證文中基于PLSA模型的近義詞軟分配方法(PLSA+ Soft Assignment,PLSA+SA)對克服視覺單詞同義性和歧義性問題的有效性,將其與傳統(tǒng)的軟分配方法[12](SA)和硬分配方法[8](HA)相比較,得到三種方法隨單詞軟分配數(shù)目變化的分類平均準(zhǔn)確率AP值,如圖4所示.從圖4中可以看出,SA方法及本文的PLSA+SA方法的分類準(zhǔn)確率均高于HA方法.HA方法的AP值始終保持在66.3%.SA方法及PLSA+SA方法的AP值則先是隨單詞軟分配數(shù)目的增大而增大,當(dāng)軟分配數(shù)目超過一定數(shù)目時,準(zhǔn)確率反而呈一定的下降趨勢,且軟分配數(shù)目大于7時,SA的分類效果反而差于HA方法.而本文中的PLSA+SA方法由于能夠從語義概念表達(dá)上分析單詞間的相似性,進(jìn)而將相應(yīng)特征點(diǎn)分配至若干與之語義相近的視覺單詞上,可以更準(zhǔn)確地表達(dá)圖像內(nèi)容,其分類準(zhǔn)確率也優(yōu)于傳統(tǒng)SA方法.
需要注意的是,在圖4中的實(shí)驗(yàn)中為每個SIFT特征點(diǎn)都分配了相同的單詞數(shù)目,并沒有考慮不同SIFT特征之間的差異性,難免會使一些不具有歧義性的局部特征也都強(qiáng)制性的映射到了多個視覺單詞上,引入新的噪聲和冗余信息.由2.2節(jié)內(nèi)容可知,通過分析SIFT特征的模糊性類別進(jìn)而實(shí)現(xiàn)自適應(yīng)軟分配的方法能夠在一定程度上克服該問題.因此,為了驗(yàn)證這種自適應(yīng)軟分配的效果,并分析其隨自適應(yīng)軟分配因子α的變化情況.在利用PLSA模型得到近義詞之后分別采用傳統(tǒng)的軟分配方法(即PLSA+SA)和自適應(yīng)軟分配方法(PLSA+Adaptive Soft-Assignment,PLSA+ASA)進(jìn)行分類實(shí)驗(yàn),令2.2節(jié)中自適應(yīng)軟分配方法中的m=20,且PLSA+SA方法的AP值選擇的是單詞軟分配數(shù)目為5時的74.4%.得目標(biāo)分類的AP值如圖5所示.從圖5中可以看出,隨著參數(shù)α的增大,具有不同模糊類別的SIFT特征能夠更準(zhǔn)確地分配到若干近義詞上,PLSA+ASA方法的分類平均準(zhǔn)確率也隨之提高,當(dāng)α=2時,取得最高AP值77.86%,優(yōu)于PLSA+SA方法.然而,當(dāng)α值增大到一定程度時,其分類AP值會呈一定的下降趨勢,因?yàn)檫^大的α值同樣會引起傳統(tǒng)軟分配方法導(dǎo)致的過分配問題.需要注意的是α的取值與訓(xùn)練數(shù)據(jù)密切相關(guān).
而為了驗(yàn)證文中卡方模型濾除“視覺停用詞”的效果,實(shí)驗(yàn)將基于近義詞自適應(yīng)軟分配與卡方模型相結(jié)合(PLSA+ASA+CSM)驗(yàn)證過濾不同數(shù)目“視覺停用詞”對分類結(jié)果的影響,并與未進(jìn)行視覺停用詞濾除時的目標(biāo)分類結(jié)果進(jìn)行對比,得其分類準(zhǔn)確率如圖6所示.從圖6不難看出,采用卡方模型濾除一定數(shù)目的“視覺停用詞”能夠在一定程度上提高目標(biāo)分類準(zhǔn)確率,并且在濾除數(shù)目S=150時能夠達(dá)到最好的分類性能,即AP值為81.53%.然而,當(dāng)濾除的單詞數(shù)目過多時,難免使一些代表性強(qiáng)的單詞也被錯誤地濾除,進(jìn)而導(dǎo)致目標(biāo)分類性能降低.
此外,圖7給出了未進(jìn)行視覺停用詞濾除時,采用文中的近義詞自適應(yīng)軟分配方法(PLSA+ASA)對隨機(jī)選取的15類測試集進(jìn)行目標(biāo)分類結(jié)果的混淆矩陣圖.圖8則給出了利用卡方模型濾除“視覺停用詞”數(shù)目S=150時對這15類測試集進(jìn)行目標(biāo)分類結(jié)果的混淆矩陣圖.從圖7和圖8中可以看出,采用本文方法(PLSA+ASA+CSM)進(jìn)行目標(biāo)分類時,多個目標(biāo)分類的召回率均保持較高水平,且濾除“視覺停用詞”可以使目標(biāo)分類的召回率均有一定的提升.但是,由于訓(xùn)練數(shù)據(jù)中各目標(biāo)類別的差異性,所以針對不同的目標(biāo)類別而言,濾除相同數(shù)目的“視覺停用詞”對其性能改善程度略有不同,圖7和圖8能從另一個方面說明利用本文方法濾除視覺停用詞對提高分類性能的有效性.
最后,為了進(jìn)一步驗(yàn)證本文方法的有效性,又在Pascal Voc2007圖像集[25]中的上進(jìn)行實(shí)驗(yàn),分別將trainval子集和test子集作為訓(xùn)練集和測試集,詞典規(guī)模為10K.將本文方法(PLSA+ASA+CSM,文中參數(shù)分別為α=2.4,m=20,S=1200)與文獻(xiàn)[8]中基于硬分配的視覺詞典模型方法(HA)、文獻(xiàn)[12]中基于軟分配的視覺詞典模型方法(SA)、文獻(xiàn)[13]中基于上下文信息的視覺詞典模型方法(Contextual-BoVW)以及文獻(xiàn)[14]的基于LDA模型的軟分配方法(LDA+SA)進(jìn)行比較,得各目標(biāo)分類準(zhǔn)確率如表2所示.從表2可以看出,SA方法及Contextual-BoVW方法由于都引入一定的策略來克服視覺單詞同義性和歧義性帶來的量化誤差嚴(yán)重等問題,其分類效果明顯優(yōu)于HA方法.而LDA+SA方法在SA方法的基礎(chǔ)上又利用LDA模型實(shí)現(xiàn)了更為準(zhǔn)確的圖像內(nèi)容表達(dá),因此,其分類準(zhǔn)確率得到進(jìn)一步改善.而本文方法能夠很好地從語義空間分析視覺單詞間的遠(yuǎn)近,且采用了一種自適應(yīng)軟分配策略,并利用卡方模型濾除部分“視覺停用詞”,因而較于其他方法能夠取得最好的分類準(zhǔn)確率.
表2 不同方法在Pascal Voc2007圖像集上的目標(biāo)分類結(jié)果
目標(biāo)類別HA(%)SA(%)Contextual?BoVW(%)LDA?SA(%)PLSA+ASA+CSM(%)airplanes713765796817831bicycle671738771795827bird625675694721758boat667731782795824bottle467557631664685bus702749778804834car738796831858872cat627686736764763chair678708742771807cow681743776804851diningtable664714753768836dog545645691742794horse796847864883921motorbike706750776785805person859901916914934pottedplant587650728754793sheep624681732761802sofa619682716732776train826895924926945Tvmonitor614666703734767Average66857289756578968113
本文首先采用概率潛在語義分析模型得到語義主題在某視覺單詞下的概率分布,進(jìn)而引入K-L散度度量視覺單詞間的語義相關(guān)性,得到語義空間相近的近義詞.然后,根據(jù)圖像各SIFT特征點(diǎn)模糊性類別自適應(yīng)地完成特征點(diǎn)與若干近義詞之間的軟分配.最后,采用卡方模型統(tǒng)計(jì)各視覺單詞與圖像類別的相關(guān)性,濾除“視覺停用詞”,重構(gòu)視覺詞匯分布直方圖,并由SVM分類器完成目標(biāo)分類.實(shí)驗(yàn)結(jié)果較好地驗(yàn)證了本文方法對克服視覺單詞同義性和歧義性及量化誤差問題的有效性,并能夠有效地濾除視覺詞典中的“視覺停用詞”,進(jìn)而提高目標(biāo)分類性能.需要指出的是,本文方法在語義層面分析視覺單詞間的距離的同時,缺少有效的度量SIFT特征點(diǎn)與視覺單詞間語義距離的方法,這在一定程度上會影響本文方法的性能.因此,如何通過距離度量的學(xué)習(xí)使得特征空間的距離更加接近真實(shí)的語義距離是今后亟待解決的問題.
[1]Sivic J,Zisserman A.Video Google:a text retrieval approach to object matching in videos[A] Proceedings of the 9th IEEE International Conference on Computer Vision[C].Nice:IEEE Press,2003.1470-1477.
[2]劉碩研,須德,馮松鶴,等.一種基于上下文語義信息的圖像塊視覺單詞生成算法[J].電子學(xué)報(bào),2010,38(5):1156-1161.
LIU Shuo-yan,XU De,FENG Song-he,et al.A novel visual words definition algorithm of image patch based on contextual semantic information[J].Acta Electronica Sinica,2010,38(5):1156-1161.(in Chinese).
[3]馮松鶴,郎叢妍,須德.一種融合圖學(xué)習(xí)和區(qū)域顯著性分析的圖像檢索算法[J].電子學(xué)報(bào),2011,39(10):2288-2294.
FENG Song-he,LANG Cong-yan,XU De.Combining graph learning and region saliency analysis for content-based image retrieval[J].Acta Electronica Sinica,2011,39(10):2288-2294.(in Chinese)
[4]Chen Y Z,Dick A,Li X,et al.Spatially aware feature selection and weighting for object retrieval[J].Image and Vision Computing,2013,31(6):935-948.
[5]Wang J Y,Bensmail H,Gao X.Joint learning and weighting of visual vocabulary for bag-of-feature based tissue classification[J].Pattern Recognition,2013,46(3):3249-3255.
[6]Otávio A B,Penatti,Fernanda B,et al.Visual word spatial arrangement for image retrieval and classification[J].Pattern Recognition,2014,47 (1):705-720.
[7]Nister D,Stewenius H.Scalable recognition with a vocabulary tree[A].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition[C].New York:IEEE Press,2006.2161-2168.
[8]Philbin J,Chum O,Isard M,et a1.Object retrieval with large vocabularies and fast spatial matching[A].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition[C].Minneapolis:IEEE Press,2007.1-8.
[9]Lowe D G.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.
[10]Van G J C,Veenman C J,Smeulders A W M,et al.Visual word ambiguity[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,7(32):1271-1283.
[11]Philbin J,Chum O,Isard M,et al.Lost in quantization:Improving particular object retrieval in large scale image databases[A].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition[C].Anchorage:IEEE Press,2009.278-286.
[12]Koniusz P,Mikolajczyk K.Soft Assignment of visual words as linear coordinate coding and optimisation of its reconstruction error[A].Proceedings of 18th IEEE International Conference on Image Processing[C].Brussels:IEEE Press,2011.2413-2416.
[13]Li T,Mei T,Kweon I S,et al.Contextual bags-of-words for visual categorization[J].IEEE Transactions on Circuits System Video Technology,2012,21(4),381-392.
[14]Weinshall D,Levi G,Hanukaev D.LDA topic model with soft assignment of descriptors to words[A] Proceedings of the 30th International Conference on Machine Learning[C].Atlanta:JMLR Press,2013.711-719.
[15]Danilo D,Carneiro G,Chin T J,et al.Fuzzy clustering based encoding for Visual Object Classification[A].Proceedings of IFSA World Congress and NAFIPS Annual Meeting[C].Joint:IEEE Press,2013.1439-1444.
[16]Su Y,Jurie F.Visual word disambiguation by semantic contexts[A].Proceedings of International Conference on Computer Vision[C].Barcelona:Springer,2011.311-318.
[17]Liu S,Bai X.Discriminative features for image classification and retrieval[J].Pattern Recognition Letters,2012,33(6):744-751.
[18]Yuan J,Wu Y,Yang M.Discovery of collocation patterns:From visual words to visual phrases[A].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition[C].Rhode Island:IEEE Press,2012.1-8.
[19]Chen T,Yap K H,Zhang D J.Discriminative soft bag-of-visual phrase for mobile landmark recognition[J].IEEE Transactions on Multimedia,2014,16(3):612-622.
[20]Yeh J B,Wu C H.Extraction of robust visual phrases using graph mining for image retrieval[A].Proceedings of IEEE Conference on Multimedia and Expo[C].Singapore:IEEE Press,2010.3681-3684.
[21]Hoffmann T.Probabilistic latent semantic analysis[A].Proceedings of 15th Uncertainty in Artificial Intelligence[C].Stockholm Sweden:AUAI Press,1999.289-296.
[22]Emrah E,Nafiz A.Scene classification using spatial pyramid of latent topics[A].Proceedings of IEEE 20th International Conference on Pattern Recognition[C].San Francisco:IEEE Press,2010.3603-3606.
[23]張瑞杰,李弼程,魏福山.基于多尺度上下文語義信息的圖像場景分類算法[J].電子學(xué)報(bào),2014,42(4):646-652.
Zhang Ruijie,Li Bicheng,Wei Fushan.Image scene classification based on multi-Scale and contextual semantic information[J].Acta Electronica Sinica,2014,42(4):646-652.(in Chinese)
[24]Kesorn K,Poslad S.An enhanced bag-of-visual word vector space model to represent visual content in athletics images[J].IEEE Transactions on Multimedia,2012,14(1):211-222.
[25]Everingham M,Van Gool L,Williams C K I,et al.The PASCAL Visual Object Classes Challenge 2007 (VOC 2007) Results[DB/OL].http://pascallin.ecs.soton.ac.uk/challenges/VOC/voc2007/results/index.shtml,2014-05-11.
[26]Chang Chih Chung,Lin CJ.LIBSVM-A library for support vector machines[DB/OL].http://www.csie.ntu.edu.tw/cjlin/libsvm/.2014-04-12.
趙永威 男,1988年1月生于河南省周口市.2015年畢業(yè)于解放軍信息工程大學(xué)獲博士學(xué)位.現(xiàn)為武警工程大學(xué)電子技術(shù)系講師,主要研究方向?yàn)閳D像分析及處理.
E-mail:zhaoyongwei369@163.com
周 苑 女,1978年出生,河南鎮(zhèn)平縣人,2006年畢業(yè)于華中科技大學(xué),獲碩士學(xué)位,現(xiàn)為河南工程學(xué)院講師,主要研究方向?yàn)槊襟w技術(shù)、計(jì)算機(jī)應(yīng)用.
E-mail:363078125@qq.com
李弼程 男,1970年生于湖南省衡陽市.1998年畢業(yè)于國防科技大學(xué)獲博士學(xué)位.現(xiàn)為解放軍信息工程大學(xué)教授、博士生導(dǎo)師.主要研究方向?yàn)橹悄苄畔⑻幚?
E-mail:lbclm@163.com
柯圣財(cái) 男,1991年生于湖北黃石市.2013畢業(yè)于解放軍信息工程大學(xué).現(xiàn)為解放軍信息工程大學(xué)碩士研究生,主要研究方向?yàn)閳D像檢索.
E-mail:ke-shengcai@163.com
Image Object Classification Method with Homoionym Based Adaptive Soft-Assignment and Chi-Square Model
ZHAO Yong-wei1,ZHOU Yuan2,LI Bi-cheng3,KE Sheng-cai3
(1.DepartmentofElectronicTechnology,EngineeringUniversityofCAPF,Xi′an,Shaanxi710000,China;2.ComputerCollege,HenanInstitueofEngineering,Zhengzhou,Henan451191,China;3.InstituteofInformationSystemEngineering,PLAInformationEngineeringUniversity,Zhengzhou,Henan450002,China)
The synonymy and ambiguity of visual words always exist in the conventional bag of visual words model based object classification methods.Besides,the noisy visual words,so-called “visual stop-words” will degrade the semantic resolution of visual dictionary.In this article,an image object classification method with homoionym based adaptive soft-assignment and chi-square model is proposed to solve these problems.Firstly,PLSA (Probabilistic Latent Semantic Analysis) is used to analyze the semantic co-occurrence probability of visual words,excavate the latent semantic topics in images,and get the latent topic distributions induced by the words; Secondly,the KL divergence is adopted for measuring semantic distance between visual words,which can get semantically related homoionym; then,adaptive soft-assignment is proposed to realize the soft mapping between SIFT features and some homoionym; finally,the Chi-square model is introduced to eliminate the “visual stop-words” and reconstruct the visual vocabulary histograms,and moreover,SVM (Support Vector Machine) is used to accomplish object classification.Experimental results indicated that the adverse effects produced by the synonymy and ambiguity of visual words can be overcome effectively,the distinguishability of visual semantic resolution is improved,and the image classification performance is substantially boosted compared with the traditional methods.
bag of visual words model; probabilistic latent semantic analysis; K-L divergence; Chi-square model; object classification
2014-12-03;
2015-03-09;責(zé)任編輯:梅志強(qiáng)
國家自然科學(xué)基金(No.60872142,No.61379152); 全軍軍事學(xué)研究生課題資助項(xiàng)目(No.YJS1062)
TP391
A
0372-2112 (2016)09-2181-08
??學(xué)報(bào)URL:http://www.ejournal.org.cn
10.3969/j.issn.0372-2112.2016.09.024