朱 杰,吳樹(shù)芳,謝博鋆,馬麗艷
(1.中央司法警官學(xué)院 信息管理系, 河北 保定 071000; 2.天津大學(xué) 管理與經(jīng)濟(jì)學(xué)部,天津 300072;3.河北大學(xué) 管理學(xué)院,河北 保定 071000; 4.河北大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,河北 保定 071000;5.中國(guó)科學(xué)院 微電子研究所,北京 100029)
基于顏色的壓縮層次圖像表示方法
朱 杰1,吳樹(shù)芳2,3*,謝博鋆4,馬麗艷5
(1.中央司法警官學(xué)院 信息管理系, 河北 保定 071000; 2.天津大學(xué) 管理與經(jīng)濟(jì)學(xué)部,天津 300072;3.河北大學(xué) 管理學(xué)院,河北 保定 071000; 4.河北大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,河北 保定 071000;5.中國(guó)科學(xué)院 微電子研究所,北京 100029)
空間金字塔模型在每層中把圖像劃分成細(xì)胞單元用于給圖像表示提供空間信息,但是這種方式不能很好地匹配對(duì)象上的不同部分,為此提出一種基于顏色的層次(CL)劃分算法。CL算法從多特征融合的角度出發(fā),通過(guò)優(yōu)化的方式在不同層次中得到每個(gè)類(lèi)別中有判別力的顏色,然后根據(jù)每層中有判別力的顏色對(duì)圖像進(jìn)行迭代的層次劃分;最后連接不同層次直方圖用于圖像表示。為了解決圖像表示維度過(guò)高的問(wèn)題,采用分化信息理論的特征聚類(lèi)(DITC)方法對(duì)字典進(jìn)行聚類(lèi)用于字典降維,并用壓縮生成的字典進(jìn)行最終的圖像表示。實(shí)驗(yàn)結(jié)果表明,所提方法能夠在Soccer,F(xiàn)lower 17 和Flower 102上取得良好的識(shí)別效果。
有判別力的顏色;層次;維度約減;分化信息理論的特征聚類(lèi);對(duì)象識(shí)別
詞袋模型(Bag-Of-Words, BOW)[1]是對(duì)象識(shí)別和場(chǎng)景分類(lèi)領(lǐng)域最成功的方法之一[2-3]。這種方法把圖像表示為局部特征的直方圖形式。BOW利用局部特征構(gòu)造字典,然后通過(guò)統(tǒng)計(jì)圖像中出現(xiàn)的視覺(jué)詞的數(shù)量來(lái)表示圖像,最終用于圖像分類(lèi)。
但是,BOW模型忽略了不同特征之間的空間和位置關(guān)系。為了給模型提供空間信息,Berg等[4]通過(guò)對(duì)于幾何對(duì)應(yīng)位置的搜索來(lái)給特征表示提供空間信息; 文獻(xiàn)[5-6]的方法中用特征向量之間的上下文關(guān)系給BOW增加空間位置關(guān)系; Li等[7]通過(guò)局部圖像塊之間的關(guān)系構(gòu)造了上下文詞袋模型(Contextual BOW, CBOW)方法,用于給圖像表示提供空間信息;Feng等[8]用局部出現(xiàn)的相關(guān)特征來(lái)產(chǎn)生有判別力的直方圖表示;Tang等[9]通過(guò)發(fā)現(xiàn)不同特征之間的模式來(lái)進(jìn)行圖像表示。有判別力的模式更能夠體現(xiàn)出圖像內(nèi)容的本質(zhì)特征,Tang等[10]通過(guò)多示例學(xué)習(xí)的方法發(fā)現(xiàn)有判別力的模式用于圖像分類(lèi)。
在眾多的研究當(dāng)中,空間金字塔匹配(Spatial Pyramid Matching, SPM)[11]是最經(jīng)典的方法之一,并且得到了普遍的認(rèn)可??臻g金字塔在場(chǎng)景識(shí)別和對(duì)象識(shí)別領(lǐng)域都取得了良好的效果,空間金字塔將圖像劃分成不同的層次,并且在不同的層次下把圖像劃分成不同的細(xì)胞單元(cell);然后,分別對(duì)每個(gè)細(xì)胞單元的圖像區(qū)域進(jìn)行直方圖表示;最后,把不同層次的區(qū)域直方圖串接起來(lái)作為最終的圖像表示??臻g金字塔存在的一個(gè)主要問(wèn)題是圖像的硬劃分方式不合理,它在不同層次中把圖像不斷地細(xì)分為大小相等的細(xì)胞單元,這種方式的確能夠提供一種由粗到細(xì)的劃分方式,并且能夠?yàn)橄噜彽膱D像塊提供空間信息,但是不能保證每個(gè)細(xì)胞單元有唯一的語(yǔ)義表示。圖1為圖像的空間金字塔劃分方法,圖像被劃分成了3個(gè)不同的層次,在每個(gè)層次中,圖像被劃分成了大小相同的細(xì)胞單元。從圖1中不難發(fā)現(xiàn),每個(gè)細(xì)胞單元并不能表示成一個(gè)有確定語(yǔ)義信息的內(nèi)容。在第1層當(dāng)中,每個(gè)細(xì)胞單元包含了花朵的一部分和背景,在第2層當(dāng)中,有的細(xì)胞單元包含花朵的一部分,有的只包含背景。并且在最終圖像表示的時(shí)候沒(méi)有考慮到不同細(xì)胞單元間特征的關(guān)系即沒(méi)有考慮到應(yīng)該把細(xì)胞單元表示為對(duì)象的某個(gè)特定區(qū)域。此外,隨著層次的深入,圖像的向量表示長(zhǎng)度會(huì)不斷增大,例如,一個(gè)2層空間金字塔,需要連接1+4+16=21個(gè)局部直方圖表示,如何控制字典的維度也是一個(gè)需要解決的問(wèn)題。
本文主要著手解決了兩個(gè)問(wèn)題:首先,為了克服空間金字塔硬劃分的缺點(diǎn),從多特征融合的角度出發(fā)對(duì)圖像進(jìn)行分層。把顏色作為誘導(dǎo)劃分的依據(jù);其次,為了縮短字典維度進(jìn)而提高分類(lèi)精度,本文采用了分化信息理論的特征聚類(lèi)(Divisive Information-Theoretic feature Clustering, DITC)[12]聚類(lèi)方法對(duì)字典的維度進(jìn)行約減。
圖1 空間金字塔劃分Fig. 1 SPM partition
算法流程如下所示:首先,計(jì)算出不同顏色的判別性,并利用不同類(lèi)別顏色的優(yōu)化選擇對(duì)圖像進(jìn)行分層;然后,把不同層次圖像劃分的表示連接起來(lái)作為整幅圖像的表示,為了解決圖像表示維度過(guò)高的問(wèn)題,算法對(duì)特征字典進(jìn)行了壓縮,并利用壓縮后的字典進(jìn)行最終的圖像表示。
發(fā)現(xiàn)對(duì)象區(qū)域是對(duì)象識(shí)別的一個(gè)重要環(huán)節(jié),顏色是一種有效判斷對(duì)象區(qū)域的手段。圖像中存在不同的顏色,本文認(rèn)為每類(lèi)中有判別力的顏色的區(qū)域代表對(duì)象或?qū)ο笊夏硞€(gè)部分的某個(gè)區(qū)域。準(zhǔn)確找到有判別力的顏色能夠幫助更有針對(duì)性地對(duì)圖像進(jìn)行表示。
圖2 Frangipani的顏色直方圖和有判別力的顏色直方圖Fig. 2 Differences between color histogram and discriminative color histogram of Frangipani
定義C={c1,cc,…,ck}為圖像類(lèi)別的集合,k代表類(lèi)別的數(shù)量。為了找到每類(lèi)中有判別力的顏色集合,本文提出了有判別力的顏色直方圖的概念。有判別力的顏色直方圖是在顏色直方圖的基礎(chǔ)上構(gòu)造的,兩者都是基于顏色字典所構(gòu)造的,但是在有判別力的顏色直方圖中只保留了有判別力顏色的出現(xiàn)頻率,如圖3所示,F(xiàn)rangipani中有判別力的顏色是黃色和白色,所以在Frangipani的有判別力的顏色直方圖中,只保留了這兩種顏色。
文中用類(lèi)與顏色的互信息(Mutual Information, MI)(式(1))來(lái)衡量顏色的判別力強(qiáng)弱:
(1)
為了選擇出對(duì)于任一類(lèi)ci最重要的mi種顏色,構(gòu)造了如下目標(biāo)函數(shù)
(2)
s.t. 1≤mi≤Vc
圖像的層次劃分能夠把圖像分成不同的區(qū)域,通過(guò)分別對(duì)這些區(qū)域進(jìn)行表示可以生成更加有判別力的圖像表示[15]。本文嘗試把顏色作為層次劃分的依據(jù)。與空間金字塔相似,本算法認(rèn)為原圖像屬于圖像的第0層。在第1層根據(jù)優(yōu)化得到的有判別力顏色,把原圖像中采樣得到的圖像塊分為兩部分,即有判別力的圖像塊集合和無(wú)判別力的圖像塊集合。在第2層中,把有判別力的圖像塊集合認(rèn)為是一幅子圖像,然后,根據(jù)式(2)中的優(yōu)化方法,得到不同類(lèi)別在第2層的子圖像的有判別力的顏色,并用這些顏色把第2層的圖像劃分為有判別力的圖像塊集合和無(wú)判別力的圖像塊集合,把這層中有判別力的圖像塊作為第3層的圖像塊。最后用這種方法把圖像進(jìn)行進(jìn)一步劃分層次,這種方法叫作顏色層次(Color Level,CL)圖像劃分方法。
如圖3所示,圖像在0層被表示為圖像塊的集合,通過(guò)優(yōu)化得到圖像的有判別力顏色,這些顏色把圖像分為第1層的兩部分,可以發(fā)現(xiàn)有判別力顏色對(duì)應(yīng)的區(qū)域是花朵的或者葉片的某個(gè)部分,而無(wú)判別力顏色的部分主要對(duì)應(yīng)著背景部分。在第2層中,從第1層的有判別力顏色中優(yōu)化選取一部分作為此層的有判別力的顏色,把圖像塊又分為了兩部分。
圖3 顏色層次圖像劃分方法Fig. 3 Color level image partition method
在每一層(層數(shù)大于1)分別對(duì)有判別力的部分和無(wú)判別力的部分進(jìn)行直方圖表示,并把兩部分的直方圖連接起來(lái)作為本層的圖像表示。然后把所有層的圖像表示連接起來(lái)作為最終的圖像的表示。
對(duì)于任意一幅圖像,如果劃分為L(zhǎng)層,那么圖像總共被劃分為2L+1個(gè)部分。圖像表示與文獻(xiàn)[13]相似,本文假設(shè)圖像屬于所有k個(gè)類(lèi)別,然后在不同類(lèi)別下進(jìn)行圖像劃分,總共得到k(2L+1)部分。圖像劃分的每一部分對(duì)應(yīng)著一系列的圖像塊,假設(shè)用于表示這些圖像塊的特征的維度是h,則最終的圖像表示的字典維度為kh(2L+1)。以Flower 102為例,如果字典維度為1 000,層次數(shù)L為5,則最后生成的圖像維度為102×1 000×(10+1)=1 122 000。
從圖像維度的計(jì)算方法中可以發(fā)現(xiàn),CL在處理大規(guī)模數(shù)據(jù)集的圖像表示的時(shí)候,數(shù)據(jù)維度過(guò)高。如何在不影響分類(lèi)準(zhǔn)確率的情況下對(duì)數(shù)據(jù)維度進(jìn)行約減是這部分的研究重點(diǎn),DITC聚類(lèi)方法是一種重要的用于字典聚類(lèi)[16-17]的方法,在這部分內(nèi)容中本文把DITC聚類(lèi)方法用于壓縮CL的圖像表示。
(3)
對(duì)字典進(jìn)行聚類(lèi)能夠降低圖像表示維度,同時(shí)也有可能降低類(lèi)別與字典的互信息。為了降低互信息損失,需要使式(4)盡可能小。
I(C,Wsc)-I(C,Wcom)
(4)
其中,Wcom為字典聚類(lèi)之后的壓縮字典, 字典壓縮之后的維度用Vcom代表。式(4)展開(kāi)后可以寫(xiě)成如下形式:
(5)
最終互信息的損失表示為如下形式:
I(C,Wsc)-I(C,Wcom)=
(6)
其中KL(,)代表KL距離。
實(shí)驗(yàn)通過(guò)每隔8個(gè)像素進(jìn)行采樣,每個(gè)圖像塊的大小是16×16。CN(Color Name)[18]和HUE[19]是兩種非常出色的顏色描述子,本算法把這兩種描述子連接起來(lái)形成一個(gè)新的描述子來(lái)描述圖像塊顏色,然后通過(guò)K-means聚類(lèi)算法生成顏色字典用于圖像的層次劃分。算法連接SIFT、CN和HUE三種描述子來(lái)描述圖像塊的顏色形狀特征,通過(guò)K-means聚類(lèi)生成顏色形狀字典。為了對(duì)圖像進(jìn)行基于顏色的層次劃分,同時(shí)又考慮到圖像集規(guī)模的不同,顏色字典的維度也不同,在Soccer圖像集中,顏色字典的維度是300而在Flower 17圖像集和Flower 102圖像集中,顏色字典的維度是500。在所有圖像集中劃分的層次數(shù)目均為3,3種描述子連接形成的特征聚類(lèi)生成的特征字典,維度均為1 000,Soccer、Flower 17 和Flower 102最終的圖像表示的維度為49 000,119 000和714 000。DITC聚類(lèi)用于給字典降維,最終這三個(gè)圖像集的圖像表示維度為1 000,2 000和800。實(shí)驗(yàn)中,本文用標(biāo)準(zhǔn)的非線(xiàn)性支持向量機(jī)(Support Vector Machine, SVM)來(lái)進(jìn)行分類(lèi),核函數(shù)采用交核(Intersection Kernel)。
Soccer圖像集[14]中包括了7個(gè)球隊(duì)的280幅圖像,每個(gè)類(lèi)別中25幅用于訓(xùn)練,15幅用于測(cè)試。在這個(gè)圖像集中顏色是最主要的特征,可以有效地判斷出球員所在的區(qū)域。從圖4中可以發(fā)現(xiàn),每一幅圖像中可能同時(shí)包含屬于該類(lèi)別和不屬于該類(lèi)別的圖像。例如:Liverpool球隊(duì)的隊(duì)服主要顏色是紅色,但是在圖像中也存在著穿藍(lán)色球衣的隊(duì)員。Chelsea隊(duì)服的顏色為藍(lán)色,但是穿紅黑隊(duì)服的球員和黃色衣服的裁判同樣出現(xiàn)在了圖像中。利用顏色找到本類(lèi)別的球員特征進(jìn)行針對(duì)性的表示能夠提高對(duì)象識(shí)別率。
圖4 Soccer圖像集示例Fig. 4 Images from Soccer
表1中為本文算法與一些優(yōu)秀算法的識(shí)別準(zhǔn)確率的比較。早融合[13]和晚融合[13]是兩種最常見(jiàn)的特征融合方式,其中并沒(méi)有涉及到圖像的層次劃分以及字典維度的約減。實(shí)驗(yàn)結(jié)果中可以發(fā)現(xiàn)這兩種圖像表示方式的準(zhǔn)確率在89%左右??臻g金字塔的方法對(duì)圖像進(jìn)行劃分,提供了空間信息,但是細(xì)胞單元的內(nèi)容不能表示一個(gè)具體內(nèi)容。主成分分析(Principal Component Analysis,PCA)可以用于特征降維,CL+PCA能夠取得不錯(cuò)的效果,但是識(shí)別率仍然比顏色注意力(Color Attention, CA)[13]低?;谶壿嫽貧w的特征融合 (Logistic Regression-based Feature Fusion, LRFF)[21]對(duì)字典進(jìn)行了合理的加權(quán),但是并沒(méi)有嘗試去發(fā)現(xiàn)對(duì)象的位置。CL方法分類(lèi)準(zhǔn)確率為95%左右,而CL+DITC的方法能夠得到96%的準(zhǔn)確率,因?yàn)镈ITC在對(duì)特征進(jìn)行維度約減的同時(shí)合并了相似特征,使得圖像的表示有更強(qiáng)的魯棒性。
表1 在Soccer圖像集上的分類(lèi)結(jié)果Tab. 1 Classification results on the Soccer dataset
Flower 17圖像集[22]中包含了17種花的1 360幅圖像,其中1 020幅圖像用于訓(xùn)練,340幅圖像用于測(cè)試。圖5為Flower 17圖像集中的一些圖像。在這個(gè)圖像集中,形狀和顏色對(duì)于提高識(shí)別準(zhǔn)確率都有著重要的作用。
表2顯示了本文算法與一些優(yōu)秀算法的識(shí)別準(zhǔn)確率的比較。在這些方法中空間金字塔的識(shí)別率仍然不高,這是因?yàn)榭臻g金字塔的方法既沒(méi)有識(shí)別出對(duì)象區(qū)域也沒(méi)有應(yīng)用一些其他的方法如注意力圖或者特征加權(quán)的方法等對(duì)圖像進(jìn)行針對(duì)性的表示,只是給圖像提供了不夠準(zhǔn)確的空間信息,所以識(shí)別率比較低。多核學(xué)習(xí)(Multiple Kernel Learning, MKL)[23]的方法通過(guò)多核學(xué)習(xí)得到不同特征之間的合理權(quán)重,CA[13]用顏色給圖像塊上的形狀特征加權(quán),在圖像表示的時(shí)候仍然是把采樣中得到的所有圖像塊在同一個(gè)直方圖中進(jìn)行表示,即在全局對(duì)圖像進(jìn)行表示并沒(méi)有分層,沒(méi)有考慮空間關(guān)系。通過(guò)比對(duì)可以發(fā)現(xiàn),CL+DITC比CA算法的分類(lèi)精度提高了5%左右。全局標(biāo)識(shí)一致性分類(lèi)器(Global Label Consistent Classifier,GLCC)[32]通過(guò)構(gòu)造不同特征的分類(lèi)器進(jìn)行集成學(xué)習(xí),但是并沒(méi)有考慮到不同特征之間的關(guān)系,仍然是一種全局圖像表示方法。
表2 在Flower 17圖像集上的分類(lèi)結(jié)果Tab. 2 Classification results on the Flower 17 dataset
圖5 Flower 17圖像集示例Fig. 5 Images from Flower 17
需要說(shuō)明的是,基于中間層挖掘的方法在Flower 17圖像集中取得了不錯(cuò)的效果,在HoPS方法[24]采用了隨機(jī)映射和數(shù)據(jù)挖掘的方法進(jìn)行圖像表示,利用頻繁項(xiàng)集挖掘的方法可以發(fā)現(xiàn)不同特征之間的關(guān)系。本文采用了文獻(xiàn)[24]中的挖掘(mining)方法對(duì)壓縮后的字典進(jìn)行特征挖掘,這種方法利用挖掘到的有效模式代替碼字構(gòu)成字典,從而進(jìn)行圖像表示,能夠有效地發(fā)現(xiàn)碼字之間的內(nèi)在聯(lián)系。CL+DITC+mining的方法取得了令人滿(mǎn)意的結(jié)果。從實(shí)驗(yàn)對(duì)比中可以發(fā)現(xiàn),CL+DITC的方法在挖掘前后的分類(lèi)結(jié)果產(chǎn)生了明顯的變化,利用挖掘到的模式進(jìn)行圖像表示更能夠體現(xiàn)出壓縮字典內(nèi)部特征之間的關(guān)聯(lián)關(guān)系。此外文獻(xiàn)[34]中在采用了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)提取特征之后取得了94.8%的分類(lèi)準(zhǔn)確率,而本文利用中間層特征與此方法獲得了相似的結(jié)果。
Flower102圖像集[28]中包含了102種花的8 189幅圖像,每類(lèi)中給定了10幅圖像用于訓(xùn)練和10幅圖用于驗(yàn)證,剩下的用于測(cè)試。圖6為Flower 102圖像集中的一些圖像。在這個(gè)圖像集中形狀是最主要的特征,顏色是輔助特征。
從表3中可以發(fā)現(xiàn),本文算法識(shí)別率仍然高于空間金字塔、CA和MKL。CLC[29]通過(guò)發(fā)現(xiàn)局部特征之間的關(guān)系和減少噪聲特征來(lái)提高分類(lèi)準(zhǔn)確率,本文的方法與CLC相比能夠把圖像不斷細(xì)分,使得特征之間的關(guān)系更加緊密。Flower 102圖像庫(kù)被認(rèn)為是一個(gè)用于細(xì)粒度分類(lèi)的庫(kù),找到花朵的區(qū)域非常重要,在文獻(xiàn)[30]算法中,首先對(duì)圖像進(jìn)行分割,通過(guò)優(yōu)化發(fā)現(xiàn)分割塊中的花朵。這與首先通過(guò)顏色來(lái)劃分對(duì)象區(qū)域的算法類(lèi)似,但是,與本文算法相比,這種方法并沒(méi)有考慮到特征之間的空間關(guān)系。Xie等[34]把不同種類(lèi)有描述性的信息集合起來(lái)用于圖像分類(lèi),本文的算法不但提取出了不同種類(lèi)最有判別力的特征,還考慮到了空間特征,所以本文算法性能更優(yōu)。當(dāng)只采用CL和CL+DITC兩種情況時(shí),分類(lèi)精度分別為73.0%和75.2%,通過(guò)挖掘圖像塊之間的關(guān)聯(lián)關(guān)系,可以發(fā)現(xiàn)圖像塊的關(guān)聯(lián)關(guān)系,需要注意的是,挖掘出的關(guān)聯(lián)性強(qiáng)的圖像塊并不一定具有類(lèi)似的顏色,這在很大程度上彌補(bǔ)了顏色劃分的局限性,所以CL+DITC+mining能夠取得77.3%的分類(lèi)準(zhǔn)確率。
圖6 Flower 102圖像集示例Fig. 6 Images from Flower 102表3 在Flower 102圖像集上的分類(lèi)結(jié)果Tab. 3 Experimental results on the Flower 102 dataset
算法精度/%算法精度/%空間金字塔70.5fine-grained[30]76.7CA[13]70.8文獻(xiàn)[31]方法71.5CLC[29]71.0CL+DITC+mining77.3MKL[23]72.8
CL+DITC的方法可以有效地提高分類(lèi)準(zhǔn)確率,同時(shí)字典的維度對(duì)于分類(lèi)準(zhǔn)確率有著重要的影響:如果字典的維度過(guò)大,有相似特征的局部特征不能很好的合并;如果字典維度過(guò)小,不同特征的圖像塊會(huì)被認(rèn)為相同。圖7為CL+DITC方法在不同字典維度下的分類(lèi)準(zhǔn)確率,可以發(fā)現(xiàn)字典維度過(guò)大或者過(guò)小都會(huì)降低分類(lèi)準(zhǔn)確率。另外,由于DITC在不影響互信息的情況下進(jìn)行字典聚類(lèi),雖然字典維度發(fā)生了變化,但是在一定范圍內(nèi)的分類(lèi)精度變化比較平穩(wěn)。
本文提出了一種基于顏色的壓縮層次圖像表示方法,這種方法首先通過(guò)有判別力的顏色對(duì)圖像進(jìn)行分層,用以為圖像表示提供空間信息,但是這種顏色層次圖像表示方法的表示維度會(huì)隨著層次和類(lèi)別的數(shù)量增加而增加。文章中采用DITC聚類(lèi)的方法,利用類(lèi)別和視覺(jué)詞之間的互信息關(guān)系,在不降低分類(lèi)準(zhǔn)確率的情況下對(duì)數(shù)據(jù)維度進(jìn)行約減,提高了字典的判別性,增強(qiáng)了圖像的表示能力。通過(guò)算法實(shí)驗(yàn)比對(duì),基于顏色的層次壓縮表示方法在三個(gè)圖像集上都能取得比較好的分類(lèi)效果。此外,顏色特征的提取速度快,在未來(lái)的工作中,可以把顏色特征作為發(fā)現(xiàn)對(duì)象的手段并將其應(yīng)用于視頻監(jiān)控中。
圖7 字典維度對(duì)于分類(lèi)精度的影響Fig. 7 Influence of dictionary dimension on classification accuracy
References)
[1] CSURKA G, DANCE C R, FAN L X, et al. Visual categorization with bags of keypoints[C]// Proceedings of the 8th European Conference on Computer Vision. Piscataway, NJ: IEEE, 2004:1-22.
[2] OKAWA M. Offline signature verification based on bag-of-visual words model using KAZE features and weighting schemes[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Piscataway, NJ: IEEE, 2016: 184-190.
[3] 楊浩,張永.基于優(yōu)化視覺(jué)詞袋模型的圖像分類(lèi)方法[J].計(jì)算機(jī)應(yīng)用, 2017, 37(8):2244-2247.(YANG H, ZHANG Y. A image classification method by optimizing bag-of-visual words model[J]. Journal of Computer Applications, 2017, 37(8):2244-2247.)
[4] BERG A C, BERG T L, MALIK J. Shape matching and object recognition using low distortion correspondences[C]// Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2005: 26-33.
[5] 生海迪,段會(huì)川,孔超.基于語(yǔ)義短語(yǔ)的空間金字塔詞袋模型圖像分類(lèi)方法[J].小型微型計(jì)算機(jī)系統(tǒng),2015,36(4):877-881.(SHENG H D, DUAN H C, KONG C. Spatial pyramid bag-of-words model for image classification based on semantic phrases[J]. Journal of Chinese Computer Systems, 2015, 36(4): 877-881.)
[6] 陳瑩,高含.采用空間詞袋模型的圖像分類(lèi)方法[J].小型微型計(jì)算機(jī)系統(tǒng),2016,37(9): 2099-2103.(CHEN Y, GAO H. Image classification method based on spatial bag of words model[J].Journal of Chinese Computer Systems, 2016, 37(9): 2099-2103.)
[7] LI T, MEI T, KWEON I S, et al. Contextual bag-of-words for visual categorization[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2011, 21(4): 381-392.
[8] FENG J, NI B, XU D, et al. Histogram contextualization[J]. IEEE Transactions on Image Processing, 2012, 21(2):778-788.
[9] TANG P, ZHANG J, WANG X, et al. Learning extremely shared middle-level image representation for scene classification[J]. Knowledge and Information Systems, 2017, 52(2):509-530.
[10] TANG P, WANG X, FENG B, et al. Learning multi-instance deep discriminative patterns for image classification[J]. IEEE Transactions on Image Processing, 2016, 26(7):3385-3396.
[11] LAZEBNIK S, SCHMID C, PONCE J. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories[C]// Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2006: 2169-2178.
[12] DHILLON I S, MALLELA S, KUMAR R, et al. A divisive information-theoretic feature clustering algorithm for text classification[J]. Journal of Machine Learning Research, 2003, 3(3): 1265-1287.
[13] KHAN F S, RAO M A, WEIJER J V D, et al. Coloring action recognition in still images[J]. International Journal of Computer Vision, 2013, 105(3):205-221.
[14] GAVVES E, FERNANDO B, SNOEK C G M, et al. Fine-grained categorization by alignments[C]// Proceedings of the 2013 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2013:1713-1720.
[15] ZHOU Y, WEI Y. Learning hierarchical spectral-spatial features for hyperspectral image classification[J]. IEEE Transactions on Cybernetics, 2016, 46(7):1667.
[16] ELFIKY N M, KHAN F S, VAN DE WEIJER J, et al. Discriminative compact pyramids for object and scene recognition[J]. Pattern Recognition, 2012, 45(4): 1627-1636.
[17] VAN DE WEIJER J, SCHMID C, VERBEEK J, et al. Learning color names for real-world applications[J]. IEEE Transactions on Image Processing, 2009, 18(7):1512-1523.
[18] VAN DE WEIJER J, SCHMID C. Coloring local feature extraction[C]// Proceedings of Computer Vision — ECCV 2006. Berlin: Springer, 2006: 334-348.
[19] LOWE D G. Distinctive image features from scale-invariant points[J]. International Journal of Computer Vision, 2004, 60(2): 91-110.
[20] FERNANDO B, FROMONT E, MUSELET D, et al. Discriminative feature fusion for image classification[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 3434-3441.
[21] NILSBACK M E, ZISSERMAN A. A visual vocabulary for flower classification[C]// Proceedings of the 19th IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2006: 1447-1454.
[22] GEHLER P, NOWOZIN S. On feature combination for multiclass object classification[C]// Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Piscataway, NJ: IEEE, 2009: 221-228.
[23] VORAVUTHIKUNCHAI W, CRéMILLEUX B, JURIE F. Histograms of pattern sets for image classification and object recognition[C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2014: 224-231.
[24] FERNANDO B, FROMONT E, TUYTELAARS T. Mining mid-level features for image classification[J]. International Journal of Computer Vision, 2014, 108(3): 186-203.
[25] YUAN X T, LIU X, YAN S. Visual classification with multitask joint sparse representation[J]. IEEE Transactions on Image Processing, 2012, 21(10):4349-4360.
[26] YE G, LIU D, JHUO I H, et al. Robust late fusion with rank minimization[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012:3021-3028.
[27] NILSBACK M E, ZISSERMAN A. Automated flower classification over a large number of classes[C]// Proceedings of the 6th Indian Conference on Computer Vision, Graphics & Image Processing. Piscataway, NJ: IEEE, 2008: 722-729.
[28] WANG Z, FENG J, YAN S. Collaborative linear coding for robust image classification[J]. International Journal of Computer Vision, 2015, 114(2/3): 322-333.
[29] ANGELOVA A, ZHU S. Efficient object detection and segmentation for fine-grained recognition[C]// Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2013: 811-818.
[30] FU Z, ROBLES-KELLY A, ZHOU J. MILIS: multiple instance learning with instance selection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(5): 958-977.
[31] ZHANG L, ZHANG D. Visual understanding via multi-feature shared learning with global consistency[J]. IEEE Transactions on Multimedia, 2016, 18(2): 247-259.
[32] MINH H Q, BAZZANI L, MURINO V. A unifying framework in vector-valued reproducing kernel Hilbert spaces for manifold regularization and co-regularized multi-view learning[J]. Journal of Machine Learning Research, 2016, 17(1): 769-840.
[33] XIE G S, ZHANG X Y, SHU X, et al. Task-driven feature pooling for image classification[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2015: 1179-1187.
[34] XIE L, WANG J, ZHANG B, et al. Incorporating visual adjectives for image classification[J]. Neurocomputing, 2016, 182(C): 48-55.
This work is partially supported by the National Natural Science Foundation of China (61402462), the National Social Science Foundation of China (17BTQ068), the Youth Foundation of Education Bureau of Hebei Province (QN2015099), the Research Program of the National Police University for Criminal Justice (XYZ201602), the Touth Foundation Project of Humanities and Social Sciences Research of Ministry of Education (15YJC630021), the Youth Foundation Project of Hebei Natural Science Foundation of China(F2018511002), the Special Funds to Enhance Central and Western Strength of Hebei University.
ZHUJie, born in 1982, Ph. D., associate professor. His research interests include machine learning, computer vision.
WUShufang, born in 1980, Ph. D., associate professor. Her research interests include information retreival, machine learning.
XIEBojun, born in 1981, Ph. D., lecturer. His research interests include machine learning, computer vision.
MALiyan, born in 1983, Ph. D., research assistant. Her research interests include computer vision.
Colorbasedcompacthierarchicalimagerepresentation
ZHU Jie1, WU Shufang2,3*, XIE Bojun4, MA Liyan5
(1.DepartmentofInformationManagement,theNationalPoliceUniversityforCriminalJustice,BaodingHebei071000,China;2.CollegeofManagementandEconomics,TianjinUniversity,Tianjin300072,China;3.CollegeofManagement,HebeiUniversity,BaodingHebei071000,China;4.CollegeofMathematicsandInformationScience,HebeiUniversity,BaodingHebei071000,China;5.InstituteofMicroelectronics,ChineseAcademyofSciences,Beijing100029,China)
The spatial pyramid matching method provides the spatial information by splitting an image into different cells. However, spatial pyramid matching can not match different parts of the objects well. A hierarchical image representation method based on Color Level (CL) was proposed. The class-specific discriminative colors of different levels were obtained from the viewpoint of feature fusion in CL algorithm, and then an image was iteratively split into different levels based on these discriminative colors. Finally, image representation was constructed by concatenating the histograms of different levels. To reduce the dimensionality of image representation, the Divisive Information-Theoretic feature Clustering (DITC) method was used to cluster the dictionary, and the generated compact dictionary was used for final image representation. Classification results on Soccer, Flower 17 and Flower 102 datasets, demonstrate that the proposed method can obtain satisfactory results in these datasets.
discriminative color; hierarchy; dimensional reduction; Divisive Information-Theoretic feature Clustering (DITC); object recognition
2017- 05- 11;
2017- 06- 05。
國(guó)家自然科學(xué)基金資助項(xiàng)目(61402462);國(guó)家社會(huì)科學(xué)基金資助項(xiàng)目(17BTQ068);河北省教育廳青年基金資助項(xiàng)目(QN2015099);中央司法警官學(xué)院校級(jí)科研項(xiàng)目(XYZ201602);教育部人文社會(huì)科學(xué)研究青年基金資助項(xiàng)目(15YJC630021);河北省自然科學(xué)基金青年科學(xué)基金資助項(xiàng)目(F2018511002);河北大學(xué)中西部提升綜合實(shí)力專(zhuān)項(xiàng)資金資助項(xiàng)目。
朱杰(1982—),男,河北保定人,副教授,博士,主要研究方向:機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué); 吳樹(shù)芳(1980—),女,河北邯鄲人,副教授,博士,主要研究方向:信息檢索、機(jī)器學(xué)習(xí); 謝博鋆(1981—),男,河北保定人,講師,博士,主要研究方向:機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué); 馬麗艷(1983—),女,北京人,助理研究員,博士,主要研究方向:計(jì)算機(jī)視覺(jué)。
1001- 9081(2017)11- 3238- 06
10.11772/j.issn.1001- 9081.2017.11.3238
(*通信作者電子郵箱shufang_44@126.com)
TP391.41
A