生海迪,段會川,孔 超
(1.山東師范大學(xué) 信息科學(xué)與工程學(xué)院,山東 濟(jì)南250014;2.山東師范大學(xué) 山東省分布式計算機(jī)軟件新技術(shù)重點實驗室,山東 濟(jì)南250014)
目前,詞袋 (bag-of-words,BOW)模型應(yīng)用于圖像分類中仍存在分類精度不高的問題,優(yōu)化工作主要側(cè)重于其實現(xiàn)過程的各個階段。常規(guī)詞袋模型一般采用SIFT (scaleinvariant feature transform)特征作為描述子,但常規(guī)SIFT特征的提取需要構(gòu)造高斯差分空間并且需要進(jìn)一步檢測極值點[1-6],考慮到常規(guī)提取方法比較耗時并且忽略全局信息,本文采用面向稠密特征提取的可快速計算的局部圖像特征DAISY 描述子[7]。在特征提取過程中,梯度方向直方圖的維數(shù)即梯度方向離散精度的選取非常重要,常規(guī)詞袋模型中梯度方向離散精度一般選取為8[8-10],但是此精度構(gòu)造的詞袋模型分類效果并非最佳,若能確定一個最合適的精度不僅可以避免選擇時的盲目性,而且還可以構(gòu)造出最佳的詞袋模型,提高應(yīng)用詞袋模型分類的效果。
本文通過大量基于不同分塊下選取不同離散精度進(jìn)行實驗分析研究,找到了在構(gòu)造詞袋模型過程中梯度方向離散精度閾值,利用該閾值構(gòu)造的詞袋模型在進(jìn)行分類時能得到最佳的分類效果,同時還能避免選擇時的盲目性。
常規(guī)詞袋模型是通過構(gòu)建多尺度差分空間生成SIFT 描述子,將這些描述子進(jìn)行聚類來構(gòu)造的,但是構(gòu)造多尺度計算復(fù)雜容易造成運算速度過慢,同時還會得到過多的極值點,有些極值點并無太多的視覺信息進(jìn)而會影響最后的分類正確性。DAISY 是面向稠密特征提取的可快速計算的局部圖像特征描述子,它的本質(zhì)思想和SIFT 是一樣的,通過分塊來統(tǒng)計梯度方向直方圖,但DAISY 相較于SIFT 在分塊策略上進(jìn)行了改進(jìn),利用高斯卷積的可快速計算性來進(jìn)行梯度方向直方圖的分塊匯聚。DAISY 的這種特性使其不僅在運算速度上高于SIFT 而且還能在一定程度上兼顧圖像的全局信息。
本文在基于DAISY 特征描述的基礎(chǔ)上構(gòu)造詞袋模型,大致分為以下4步:
步驟1 將圖像利用網(wǎng)格劃分得到相同大小的特征塊(block),并且塊與塊之間采用重疊方式,每個特征塊的中心位置作為一個特征點,通過同一個特征塊里的所有像素點來形成該特征點的DAISY 描述子。
步驟2 將步驟1中得到的每幅圖像特征點的DAISY描述子利用K-means進(jìn)行聚類,聚類后形成詞典,每個聚類中心對應(yīng)詞典中的一個單詞。
步驟3 詞典生成后,統(tǒng)計每幅圖像對應(yīng)詞典中的單詞出現(xiàn)的頻率,將每幅圖像映射成一個K 維的圖像描述向量,其中K 為聚類數(shù)目,即詞袋模型中單詞總數(shù)[11]。
步驟4 SVM (support vector machine)分類,本文采用其提供的徑向基函數(shù)作為核函數(shù)[12]
一階微分處理對灰度梯度有較強(qiáng)的響應(yīng),一階微分
對于灰度值函數(shù)f(x),采用梯度模板 [-1,0,1]計算像素點坐標(biāo)為 (x,y)的水平方向和垂直方向上的梯度分別如下
則該像素點的梯度幅值和梯度方向分別表示為
梯度對于噪點相當(dāng)敏感,對于灰度圖像,一般需要先利用離散高斯平滑模板對圖像進(jìn)行平滑以便去除噪點。本文直接利用高斯模板卷積近似梯度,相當(dāng)于在梯度運算之前先進(jìn)行一次平滑濾波處理。梯度幅值可以在一定程度上反映出像素上一定的邊緣信息,因此本文選取像素點的梯度幅值對梯度方向進(jìn)行投影加權(quán)。
構(gòu)建詞袋模型的過程中,梯度方向直方圖維數(shù)即梯度方向離散精度的選取對于構(gòu)造的詞袋模型性能有很大影響,是否存在一個明顯的閾值,在選擇該閾值時構(gòu)造出的詞袋模型應(yīng)用到分類上能有最佳的分類效果,低于或高于該閾值時構(gòu)造出的詞袋模型分類性能均有所下降。若有并能找到該閾值不僅能避免在選擇梯度方向離散精度時的盲目性,還能構(gòu)建出最佳的詞袋模型,獲到最佳圖像分類效果。
本文采用DAISY 描述子,將圖像劃分成均等間隔大小的特征塊區(qū)域,每個特征塊區(qū)域都由若干個單元 (cell)構(gòu)成,每個單元又由若干個像素點組成。在每個單元中獨立將梯度方向進(jìn)行離散化,做以梯度方向為橫軸的直方圖統(tǒng)計,梯度方向可選取0-2π,然后將此梯度方向分布離散化為W 個離散區(qū),每個離散區(qū)范圍對應(yīng)一個直方柱。W 如何選取才能得到最佳的詞袋模型,本文通過大量實驗進(jìn)行探究驗證,將角度0-2π分別離散化為8、12、16、20、24、28、32、36個離散區(qū),不同離散區(qū)個數(shù)對應(yīng)的離散區(qū)大小分別為π/4、π/6、π/8、π/10、π/12、π/14、π/16、π/18。特征塊大小選取16*16,單元大小設(shè)定為4*4時,離散區(qū)個數(shù)為8和24的具體區(qū)別如圖1所示。
圖1 不同梯度方向離散精度對比
由圖1可以看出,不同的離散精度對應(yīng)不同的分區(qū)大小,精度越低角度劃分地越粗糙,對應(yīng)的每個離散區(qū)越大,精度越高角度劃分地越細(xì)致,對應(yīng)的每個離散區(qū)越小。精度越低即離散區(qū)越大,具有不同梯度方向的像素點可能會被映射到同一個離散區(qū)內(nèi),降低了不同像素點之間的差異性;精度越高即離散塊越小,能夠使得每個像素點的梯度方向得到精確定位,對以梯度方向為特征的像素點刻畫地越準(zhǔn)確,圍繞像素點區(qū)域提取出的DAISY 特征也能準(zhǔn)確、高效地代表圖像特征。但是,離散精度越高,提取的特征維數(shù)也就越高,運算復(fù)雜度也會隨之增加,造成運算時間過長,同時還會出現(xiàn)過擬合現(xiàn)象,精度越高提取出的特征通過聚類形成的詞典,雖能夠很好地擬合訓(xùn)練數(shù)據(jù),但若待分類圖像數(shù)據(jù)與訓(xùn)練數(shù)據(jù)稍有不同就會認(rèn)為該分類圖像不屬于該訓(xùn)練類別,使得分類率降低。通過大量實驗探究表明,梯度方向離散精度并非越高越好,離散精度存在一個明顯、統(tǒng)一的閾值,當(dāng)選擇離散精度為24時構(gòu)造的詞袋模型性能最佳,此時應(yīng)用該BOW 模型進(jìn)行分類得到的分類率最高。分類率在精度選擇為24之前呈大致上升趨勢,24之后呈大致下降趨勢,24即為探究出的梯度方向離散精度閾值。
本實驗使用在Windows XP 系統(tǒng)下利用MATLAB 2012A 作為開發(fā)環(huán)境,為保證研究結(jié)果的可靠性,本文選取了3個數(shù)據(jù)集分別進(jìn)行實驗,其中包括在圖像分類和識別領(lǐng)域中較為常用的Caltech 101 數(shù)據(jù)集和Corel數(shù)據(jù)集,以及自己做實驗采集的圖像集 (Original數(shù)據(jù)集)。
Caltech101數(shù)據(jù)集具有圖像種類多、對象類內(nèi)變化多樣的特點,本文從中隨機(jī)選取6 類,分別為:Airplane、Bonsai、Brain、Buddha、Butterfly、Chair。
Corel數(shù)據(jù)集中包含一些常見的圖像類別,具有很好的實用性,本文從中隨機(jī)選取6 類,分別為:Beach、Bus、Face、Flower、Food、Mountain。
Original數(shù)據(jù)集有6 類物體,分別為:Phoning、Running、Shooting、Playingguitar、Ridingbike、Ridinghorse。
對于每一個數(shù)據(jù)集,分別隨機(jī)選取其中6類圖像,每類60幅,其中40幅作為訓(xùn)練集,20幅作為測試集,即每一數(shù)據(jù)集形成240幅訓(xùn)練集,120幅測試集,共360幅圖像。
本文重點探究構(gòu)建詞袋模型過程中梯度方向離散精度的最佳取值問題,由于分塊大小影響特征區(qū)域的大小和個數(shù),對于每一個數(shù)據(jù)集,分別選取分塊大小12*12、16*16、20*20、24*24,塊與塊之間的重疊度均為50%,在此基礎(chǔ)上選取梯度方向離散精度,分別為8、12、16、20、24、28、32、36進(jìn)行實驗。對于每一種分塊大小對應(yīng)的每一個梯度方向離散精度進(jìn)行3次重復(fù)實驗,記錄每一次實驗的分類結(jié)果,計算出每個離散精度對應(yīng)實驗結(jié)果的平均分類率。在使用K-means進(jìn)行聚類時,設(shè)定聚類中心K為300。
根據(jù)4種不同分塊大小分別對應(yīng)的8個不同梯度方向離散精度的實驗結(jié)果,擬合出4組平均分類率曲線,如圖2所示。
圖2中,曲線橫軸表示梯度方向離散精度,縱軸表示應(yīng)用不同離散精度形成的BOW 模型所獲得的圖像平均分類率,每個離散精度對應(yīng)的平均分類率均是由3次重復(fù)實驗得來。圖2 (a)~圖2 (d)分別表示選取分塊大小為12*12、16*16、20*20、24*24像素,塊與塊重疊度均為50%所獲得的平均分類率曲線圖。從這4組實驗曲線圖均可看出,梯度方向離散精度在8到24范圍內(nèi),BOW 平均分類率曲線呈大致上升趨勢,在24到36范圍內(nèi),BOW 平均分類率曲線呈大致下降趨勢,精度為24時獲得的圖像分類率最高。
圖2 不同分塊下8個梯度方向離散精度分類率曲線
圖像中包含大量的像素,每個像素都有其對應(yīng)的梯度方向并且不同像素點的梯度方向均有不同程度上的差別,若梯度方向離散精度過低,那么就會降低具有不同梯度方向和梯度模值像素點間的差異性,進(jìn)而影響了詞袋模型的性能,降低了應(yīng)用詞袋模型進(jìn)行分類的效果。梯度方向離散精度越高,雖然對像素點刻畫的越準(zhǔn)確,但在一定程度上也增加了運算時間,降低詞袋模型的性能。不同梯度方向離散精度對應(yīng)的平均運行時間見表1,離散精度在大于24 之后,運行時間過長顯然會影響詞袋模型的性能。
表1 不同梯度方向離散精度下的平均運行時間/min
通過實驗結(jié)果可知,梯度方向離散精度為24時,形成的詞袋模型運用到圖像分類中得到的分類率最高,此時詞袋模型的性能最佳。梯度方向離散精度低于24或者高于24分類效果均有所下降,故在構(gòu)建詞袋模型的過程中,梯度方向離散精度存在一個明顯、統(tǒng)一的閾值,此閾值為24。
本文通過采用面向稠密特征提取的可快速計算的局部圖像特征DAISY 描述子來進(jìn)行特征描述,不僅降低了運算量,而且在一定程度上兼顧了全局信息,同時重點探究出構(gòu)造詞袋模型的過程中梯度方向離散精度的選取問題,選擇精度閾值來構(gòu)造詞袋模型能夠構(gòu)造出最佳的詞袋模型,并且還可以提高圖像的分類正確率。但是,本文從實驗結(jié)果分析可知,對于背景信息較多的物體,使用構(gòu)造出的詞袋模型進(jìn)行分類仍存在較高的錯誤分類率,因此進(jìn)一步提高詞袋模型應(yīng)用在背景、干擾較多的物體上進(jìn)行分類的性能,將是筆者下一步研究的重點。
[1]Vigo D A R,Khanfs,Van D W J,et al.The impact of color on bag-of-words based object recognition [C]//International Conference on Pattern Recognition,2010:1549-1553.
[2]Deselaers T,Pimenidis L,Nry H.Bag-of-visual-words models for adult image classif-ication and filtering [C]//19th International Conference on Pattern Recognition.Washington,DC:IEEE Computer Society,2008:1-4.
[3]WU LEI,HOI S C H,YU Nenghai.Semantics preserving bag-of-words models and applications [J].IEEE Transactions on Image Proces-sing,2010,19 (7):1908-1920.
[4]Manuele B,Andrea L,Enrico G.On the use of SIFT features for face authentication [C]//Proceeding of the Conference on Computer Vision and Pattern Recognition Workshop,2006.
[5]Matthew Brown,David G Lowe.Automatic panoramic image stitching using invariant features[J].International Journal of Computer Vision,2007,74 (1):59-73.
[6]WU Jian,MA Yue.Improved SIFT algorithm [J].Computer Science,2013,40(7):270-272(in Chinese). [吳建,馬躍.一種改進(jìn)的SIFT算法[J].計算機(jī)科學(xué),2013,40(7):270-272.]
[7]Chao Zhu,Bichot Charles-Edmond,Liming C-h(huán)en.Visual object recognition using DAISY descriptor[C]//IEEE International Conference on Multimedia and Expo,2011:1-6.
[8]HU Min,QI Mei,WANG Xiaohua,et al.Object recognition method based on salient regions and BOW model[J].Journal of Electronic Measurement and Instrument,2013,27 (7):647-652 (in Chinese).[胡敏,齊梅,王曉華,等.基于顯著區(qū)域詞袋模型的物體識別方法 [J].電子測量與儀器學(xué)報,2013,27 (7):647-652.]
[9]ZHAO Chunhui,WANG Ying,Masahide Kaneko.An optimized method for image classification based on bag of words model[J].Journal of Electronics and Information Technology,2012,34 (9):2064-2070 (in Chinese). [趙春暉,王瑩,Masahide Kaneko.一種基于詞袋模型的圖像優(yōu)化分類方法[J].電子與信息學(xué)報,2012,34 (9):2064-2070.]
[10]CHEN Kai,XIAO Guoqiang,PAN Zhen,et al.Single scale image classification employing bag of words model[J].Application Research of Computers,2011,28 (20):3986-3988 (in Chinese).[陳凱,肖國強(qiáng),潘珍,等.單尺度詞袋模型圖像分類方法[J].計算機(jī)應(yīng)用研究,2011,28 (20):3986-3988.]
[11]XU Ming,HAN Junwei,GUO Lei,et al.Determine word number of visual Bag-of-words model by model selection method [J].Computer Engineering and Applications,2011,47(31):148-150 (in Chinese).[許明,韓軍偉,郭雷,等.利用模型選擇確定視覺詞袋模型中詞匯數(shù)目 [J].計算機(jī)工程與應(yīng)用,2011,47 (31):148-150.]
[12]Zaidi N A,Squire D M.Local adaptive SVMfor object recognition [C]//International Conference on Digital Image Computing:Techniques and Applications,2010:196-201.