崔 崟,段 菲,章毓晉
(1.北京航空航天大學(xué)電子信息工程學(xué)院,北京100191;2.清華大學(xué)電子工程系,北京100084)
對(duì)圖像的理解實(shí)際上是要實(shí)現(xiàn)對(duì)場(chǎng)景的理解。對(duì)場(chǎng)景進(jìn)行分類(lèi)是實(shí)現(xiàn)場(chǎng)景理解的重要手段。具體說(shuō)來(lái),場(chǎng)景分類(lèi)要根據(jù)視覺(jué)感知組織原理,確定出圖像中存在的各種特定區(qū)域及其特性,并在此基礎(chǔ)上給出場(chǎng)景的概念性解釋?zhuān)?]。實(shí)際中,場(chǎng)景分類(lèi)??醋魇抢糜?jì)算機(jī)自動(dòng)地將圖像標(biāo)記為不同語(yǔ)義場(chǎng)景類(lèi)別的過(guò)程。場(chǎng)景分類(lèi)在基于內(nèi)容的圖像檢索等領(lǐng)域得到廣泛重視和應(yīng)用。
場(chǎng)景中感興趣的部分常稱(chēng)為前景或目標(biāo),對(duì)場(chǎng)景的分類(lèi)與對(duì)目標(biāo)的識(shí)別有密切的聯(lián)系。對(duì)目標(biāo)的充分認(rèn)識(shí)肯定對(duì)場(chǎng)景的分類(lèi)有幫助,但場(chǎng)景分類(lèi)與目標(biāo)識(shí)別又不同,通常需要在尚未獲得對(duì)目標(biāo)的完全認(rèn)識(shí)前對(duì)其進(jìn)行分類(lèi)。另一方面,分類(lèi)的場(chǎng)景對(duì)目標(biāo)的識(shí)別具有一定的指導(dǎo)作用。
從場(chǎng)景分類(lèi)的方法看,最初的思路常將其建立在對(duì)目標(biāo)識(shí)別的基礎(chǔ)上。但一方面,由于目標(biāo)識(shí)別本身就是一個(gè)困難的問(wèn)題,另一方面,參照人類(lèi)的視覺(jué)認(rèn)知過(guò)程,僅初步的目標(biāo)識(shí)別已可滿足對(duì)場(chǎng)景的分類(lèi)要求(場(chǎng)景分類(lèi)并不一定完全基于對(duì)目標(biāo)的完全認(rèn)識(shí)),所以近年許多研究繞過(guò)目標(biāo)識(shí)別直接進(jìn)行場(chǎng)景分類(lèi)。
基于圖像的場(chǎng)景分類(lèi)要借助從圖像中提取的低層特征實(shí)現(xiàn)對(duì)高層語(yǔ)義(場(chǎng)景信息)的區(qū)分。為克服低層特征和高層語(yǔ)義之間的“語(yǔ)義鴻溝”,近年來(lái)有不少方法致力于構(gòu)建中間語(yǔ)義層以在低層特征和高層語(yǔ)義間搭橋。如文獻(xiàn)[2]就定義了圖像的開(kāi)放性、粗糙性等5個(gè)視覺(jué)屬性作為中間語(yǔ)義層特性。
近年許多場(chǎng)景分類(lèi)工作利用了詞袋模型。詞袋模型源自對(duì)自然語(yǔ)言的處理,引入圖像領(lǐng)域后也常稱(chēng)為特征包模型。特征包模型由類(lèi)別特征歸屬于同類(lèi)目標(biāo)集中形成包而得名[3]?;谏墒降摹霸~袋模型”,文獻(xiàn)[4,5]分別利用LDA概率模型[6]和pLSA模型[7],試圖尋找圖像的“主題”作為中層語(yǔ)義特征。為克服“詞袋模型”僅考慮了組成圖像的基元部件的自身特性而丟失了這些基元部件的空間位置信息的缺點(diǎn),文獻(xiàn)[8]提出了空間金字塔匹配與匯總的方法。最近取得較好結(jié)果的一種場(chǎng)景分類(lèi)方法[9]就是基于“詞袋模型”和空間金字塔匯總的框架。
考慮到場(chǎng)景內(nèi)容的多樣性和復(fù)雜性,對(duì)場(chǎng)景的分類(lèi)常需要提取多種不同類(lèi)型的低層特征,并將它們組合用于場(chǎng)景分類(lèi)。現(xiàn)有的特征組合方法均將所提取的特征直接結(jié)合形成單個(gè)綜合特征,然后以此進(jìn)行分類(lèi)工作??紤]到如上所述構(gòu)建中間層對(duì)聯(lián)系低層和高層的作用,本文試圖將所提取的特征并不在開(kāi)始就直接結(jié)合,而是對(duì)各類(lèi)提取的特征先分別進(jìn)行加工,而在較后的(對(duì)應(yīng)較高層次)步驟中再結(jié)合。
本文概括介紹了典型的場(chǎng)景分類(lèi)框架,討論了場(chǎng)景分類(lèi)中所用的特征,在回顧一般的特征層直接組合方法的基礎(chǔ)上,詳細(xì)介紹所提的編碼層特征組合的方法,最后給出在實(shí)際數(shù)據(jù)上對(duì)特征層直接組合方法和編碼層特征組合方法的對(duì)比實(shí)驗(yàn)結(jié)果和對(duì)結(jié)果的討論分析。
基于詞袋模型的圖像場(chǎng)景分類(lèi)框架如圖1所示。四個(gè)具體步驟是:①對(duì)輸入圖像進(jìn)行特征提取以得到特征描述向量;②結(jié)合特征向量形成視覺(jué)詞匯的詞典;③對(duì)每幅圖像的特征向量進(jìn)行編碼得到編碼向量;④利用空間金字塔進(jìn)行匹配匯總,并對(duì)匯總結(jié)果進(jìn)行分類(lèi)以得到類(lèi)別標(biāo)簽。
圖1 場(chǎng)景分類(lèi)框架Fig.1 Framework of scene classification
選取恰當(dāng)?shù)奶卣髟趫?chǎng)景分類(lèi)中起著重要作用。尺度不變特征變換(SIFT)可看作一種檢測(cè)圖像中顯著特征的方法[10-11],它不僅能在圖像中確定具有顯著特征點(diǎn)的位置,還能給出該點(diǎn)的一個(gè)描述矢量,也稱(chēng)為SIFT算子或描述符。
考慮到實(shí)際場(chǎng)景多是彩色的,在提取特征時(shí),利用彩色信息可增加對(duì)場(chǎng)景的描述能力,從而更準(zhǔn)確地進(jìn)行場(chǎng)景分類(lèi)。對(duì)彩色特征描述符的要求主要是能有效地描述彩色分布并且對(duì)光照強(qiáng)度的線性變化和偏移有較強(qiáng)的魯棒性。一種利用彩色信息的方法將SIFT特征推廣到彩色空間,提出了RGB-SIFT特征[12]。RGB-SIFT特征是對(duì)圖像中的紅、綠、藍(lán)三色通道分別求出SIFT特征后將結(jié)果合并得到的,具有對(duì)光照線性變化及偏移的魯棒性。
本文探討在不同層次進(jìn)行特征組合的問(wèn)題,所以除選擇SIFT特征外,還增加了歸一化彩色直方圖(Normalized color histogram,NCH)特征[12]。與傳統(tǒng)的彩色直方圖不同,為了服從標(biāo)準(zhǔn)正態(tài)分布N(0,1),紅(R)、綠(G)、藍(lán)(B)三個(gè)彩色通道的像素值分布被分別歸一化:
式中:R',G',B'分別為歸一化后的紅、綠、藍(lán)三通道像素值。本文采用的歸一化顏色直方圖對(duì)每個(gè)顏色通道取16個(gè)bins(直方條),共計(jì)48維。
對(duì)低層特征的直接組合是在特征層進(jìn)行的。具體就是分別提取輸入圖像的 SIFT特征和NCH特征,將兩種特征合并作為一個(gè)新的特征參與接下來(lái)的視覺(jué)詞典建立,編碼成向量,并進(jìn)行匹配匯總等步驟(見(jiàn)圖2)。設(shè)SIFT特征和NCH特征的維數(shù)分別為DS和DN,則組合后特征的維數(shù)D為D=DS+DN。組合后的特征在前DS維和后DN維分別使用SIFT和NCH兩種特征描述圖像,其描述性能與兩種異質(zhì)信息的加權(quán)和相關(guān)。
圖2 特征層特征組合Fig.2 Feature combination in feature layer
在特征層直接組合方法形成的視覺(jué)詞典中每個(gè)“詞”包含了所有參與組合的特征的信息,編碼過(guò)程中待編碼特征與碼本的距離測(cè)度將同時(shí)由所有特征參與衡量。這樣得到的特征編碼顯然是所有特征綜合的結(jié)果,無(wú)法保證單一特征的鑒別性不變。
為在不同特征組合的同時(shí)保留單一特征的鑒別性,本文考慮在編碼層(相比特征層更高,也可看作中層)進(jìn)行特征組合。具體做法是在分別提取SIFT和NCH特征后,對(duì)兩種特征分別生成視覺(jué)詞典并編碼,然后將兩種特征的編碼結(jié)果合并后進(jìn)行空間匯總并送入分類(lèi)器(見(jiàn)圖3)。設(shè)SIFT特征和NCH特征的詞典長(zhǎng)度分別為L(zhǎng)S和LN,則組合后的特征編碼維數(shù)為L(zhǎng)=LS+LN。
圖3 編碼層特征組合Fig.3 Feature combination in coding layer
如上組合得到的編碼具有一定的結(jié)構(gòu)性,編碼向量中前LS維和后LN維分別對(duì)應(yīng)于SIFT特征和NCH特征。由于編碼結(jié)果將直接參與分類(lèi),所以在編碼層的特征組合不僅利用了編碼的結(jié)構(gòu)性而且在組合的同時(shí)保留了參與組合的單一特征的鑒別性。在場(chǎng)景分類(lèi)中,多特征組合要取得比單一特征更好結(jié)果的關(guān)鍵是在特征組合時(shí)沒(méi)有喪失其中每個(gè)單一特征的鑒別性,從而在某些特征無(wú)法對(duì)場(chǎng)景進(jìn)行區(qū)分時(shí)可利用其它特征進(jìn)行分類(lèi)。所以,可期望在編碼層的特征組合將比在特征層的特征組合獲得更高的分類(lèi)準(zhǔn)確率。
為驗(yàn)證所提出的特征層組合方法的有效性和編碼層特征組合方法相對(duì)于傳統(tǒng)特征層組合方法的優(yōu)越性,本文選用384維的RGB-SIFT特征[12]作為基準(zhǔn),分別對(duì)SIFT和NCH在特征層的組合以及SIFT和NCH在編碼層的組合進(jìn)行了對(duì)比。
實(shí)驗(yàn)在三個(gè)場(chǎng)景圖像數(shù)據(jù)集上進(jìn)行:Corel-10、Sports-8和MIT Scene-8。其中,Corel-10含有10類(lèi)自然場(chǎng)景的共1000張圖片,實(shí)驗(yàn)中隨機(jī)選取每類(lèi)50張圖片用于訓(xùn)練,剩余50張圖片測(cè)試; Sports-8含有8類(lèi)運(yùn)動(dòng)場(chǎng)景的共1579張圖片,實(shí)驗(yàn)中隨機(jī)選取每類(lèi)70張圖片用于訓(xùn)練,剩余圖片中隨機(jī)選取60張用于測(cè)試;MIT Scene-8含有8類(lèi)戶(hù)外場(chǎng)景共2696張圖片,實(shí)驗(yàn)中隨機(jī)選取每類(lèi)100張圖片用于訓(xùn)練,剩余圖片用于測(cè)試。為了得到更可靠的結(jié)果,在每個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果都是10次獨(dú)立隨機(jī)選擇訓(xùn)練集與測(cè)試集后運(yùn)行結(jié)果的平均值,并給出標(biāo)準(zhǔn)差。
為歸一化數(shù)據(jù),在所有實(shí)驗(yàn)中都將輸入圖像統(tǒng)一按比例縮小至最大邊長(zhǎng)為300像素。通過(guò)用采樣步長(zhǎng)為8像素的密集采樣將每幅圖片劃分為16×16像素大小的圖像塊,以圖像塊為單位提取特征,并對(duì)特征進(jìn)行L2范數(shù)歸一化。為生成視覺(jué)詞典,利用了K-means聚類(lèi)算法,其后再用5-近鄰矢量量化方法[13]對(duì)特征進(jìn)行編碼。在匯總方法中,采用了最大值匯總[14]。具體采用3層空間金字塔[9]結(jié)構(gòu)(1×1+2×2+1×3)進(jìn)行最大值空間匯總。最后,本文選擇直方圖相交核[15]的支持向量機(jī)作為分類(lèi)器,在多類(lèi)分類(lèi)中采用一對(duì)多的分類(lèi)策略。
在特征層組合實(shí)驗(yàn)中,比較了RGB-SIFT特征與SIFT和NCH在特征層組合的特征。所采用的詞典長(zhǎng)度均為1024。實(shí)驗(yàn)結(jié)果如表1所示。
表1 特征層組合結(jié)果Table 1 Results of feature layer combination
從實(shí)驗(yàn)結(jié)果可以看出,特征層組合后用176維的特征取得了與384維RGB-SIFT特征相近的分類(lèi)準(zhǔn)確率。RGB-SIFT特征從某種意義上來(lái)說(shuō)也是一種在特征層組合的特征(可看作在提取特征前先進(jìn)行了組合),通過(guò)計(jì)算三色通道的SIFT特征間接利用了彩色信息。但是,由于SIFT特征主要是對(duì)圖像中梯度信息的描述,而灰度圖像與彩色圖像相比并沒(méi)有明顯的梯度信息的缺失。所以,RGB-SIFT特征在綜合利用梯度和顏色信息時(shí)有一定的冗余性。特征層組合的方法(可看作在分別提取特征后再進(jìn)行組合)更高效地綜合利用了梯度與顏色信息。SIFT和NCH組合特征與RGB-SIFT特征相比,特征維數(shù)大大減少,所以在詞典生成與編碼效率上應(yīng)有明顯的優(yōu)勢(shì)。
在編碼層組合實(shí)驗(yàn)中,比較了RGB-SIFT特征與SIFT和NCH在編碼層組合的特征。所采用的詞典長(zhǎng)度均為2048,其中兩個(gè)待組合特征分別采用長(zhǎng)度為1024的詞典。實(shí)驗(yàn)結(jié)果如表2所示。
表2 編碼層特征組合結(jié)果Table 2 Results of coding layer feature combination
從實(shí)驗(yàn)結(jié)果可看出,利用編碼層特征組合得到的分類(lèi)準(zhǔn)確率在使用相同長(zhǎng)度的詞典時(shí)明顯高于使用RGB-SIFT特征得到的結(jié)果。這在圖4給出的對(duì)Corel-10數(shù)據(jù)集分別利用SIFT特征和編碼層特征組合得到的分類(lèi)混淆矩陣中也得到了驗(yàn)證。圖4右圖中主對(duì)角線上的數(shù)值明顯大于圖4左圖中主對(duì)角線上的數(shù)值,即分類(lèi)正確率都有所提高。
圖4 SIFT特征與編碼層特征組合方法在Corel-10上的混淆矩陣比較Fig.4 Com parison of confusion matrixes between SIFT and coding layer feature combination on Corel 10
本文比較了編碼層特征組合與特征層特征組合的效果,分析和實(shí)驗(yàn)均表明編碼層特征組合在圖像分類(lèi)中有更好的效果。本文也比較了利用(在特征提取前的)組合特征與分別提取特征再將結(jié)果組合的效果,分析和實(shí)驗(yàn)均表明后者優(yōu)于前者。因此,從語(yǔ)義角度看,在組合特征以提高圖像分類(lèi)的準(zhǔn)確性時(shí),對(duì)特征的組合應(yīng)盡量在較高的語(yǔ)義層上進(jìn)行。
上述結(jié)論也為進(jìn)一步的工作指明了方向,即一方面要研究更多種類(lèi)的異質(zhì)特征以更全面描述圖像的特性,另一方面還要研究較高語(yǔ)義層次的特征組合或融合方法,以期更有效地利用特征信息。
[1]章毓晉.圖像工程(下冊(cè)):圖像理解[M].(第3版).北京:清華大學(xué)出版社,2012.
[2]Oliva A,Torralba A.Modeling the shape of the scene:a holistic representation of the spatial envelope[J]. IJCV,2001,42(3):145-175.
[3]Sivic J,Zisserman A.Video Google:A text retrieval approach to objectmatching in videos[C]∥Proc ICCV II,Nice,F(xiàn)rance,2003:1470-1477.
[4]Li F F,Perona P.A bayesian hierarchical model for learning natural scene categories[C]∥Proc CVPR,San Diego,USA,2005:524-531.
[5]Bosch A,Zisserman A,Munoz X.Scene classi cation via pLSA[C]∥Proc ECCV,Graz,Austria,2006:517-530.
[6]BleiD,Ng A,Jordan M.Latent dirichletallocation[J]. Journal of Machine Learning Research,2003(3):993-1022.
[7]Sivic J,Russell B C,Efros A A,et al.Discovering objects and their location in images[C]∥Proc ICCV,Beijing,China,2005:370-377.
[8]Lazebnik S,Schmid C,Ponce J.Beyond bags of features:Spatial pyramid matching for recognizing natural scene categories[C]∥Proc CVPR,New York,2006: 2169-2178.
[9]Yang J,Yu K,Gong Y,et al.Linear spatial pyramid matching using sparse coding for image classification[C]∥Proc CVPR,2009:1794-1801.
[10]Lowe D.Distinctive image features from scale-invariant key points[J].IJCV,2004,60(2):91-110.
[11]Nixon M S,Aguado A S.Feature extraction and image processing[M].(2ed).Academic Press,2008.
[12]Van de Sande K E A,Gevers T,Snoek C G M.Evaluation of color descriptors for objects and scene recognition[C]∥Proc CVPR,Anchorage,USA,2008:1-8.
[13]Van Gemert JC,Veenman C J,Smeulders A W M,et al.Visualword ambiguity[J].TPAMI,2010,32(7): 1271-1283.
[14]Boureau Y,Bach F,Le Cun Y,et al.Learningmid-level features for recognition[C]∥Proc CVPR,2010:2559-2566.
[15]Maji S,Berg A C,Malik J.Classification using intersection kernel support vector machine is efficient[C]∥Proc CVPR,Anchorage,USA,2008:1-8.