呂 潔,麥雄發(fā),謝 妙
(1.玉林師范學院 計算機科學與工程學院,廣西 玉林 537000;2.南寧師范大學 數(shù)學與統(tǒng)計學院,廣西 南寧 530001)
圖像數(shù)據(jù)作為重要的數(shù)據(jù)存儲方式,其識別性能影響其在多個領(lǐng)域應用的適用性。圖像數(shù)據(jù)相比較于文本,其維度和數(shù)據(jù)量都較大,因此如何從圖像中提取關(guān)鍵的特征及紋理對于圖像識別研究具有重要意義。將圖像中的高維圖像特征進行分割提取,并通過有效濾波獲得圖像的大致紋理,通過對紋理特征的分析來區(qū)分不同的圖像樣本,從而實現(xiàn)圖像樣本的準確識別。在圖像識別過程中,圖像樣本的特征提取、圖像特征的維度分解及圖像特征的分類成為圖像識別的研究熱點[1],通過這三方面的協(xié)同優(yōu)化來促使圖像識別能夠獲得更高的性能。
關(guān)于圖像識別的研究較多,遠攀等[2]詳細對比了各種深度學習算法在圖像識別中的適用性及優(yōu)缺點;胡龍輝等[3]采用廣泛生成對抗網(wǎng)絡算法進行圖像特征分類識別,識別準確率較高但對復雜環(huán)境的圖像紋理識別效率低;孫平安等[4]采用卷積神經(jīng)網(wǎng)絡算法進行圖像識別,通過特征的卷積運算有效提高的復雜圖像的識別性能。Gabor小波變換作為一種較為先進的特征提取技術(shù),可以較好地分析局部時頻域所蘊含的信息,從而更加準確地分析信號的高低頻域特性。
本文嘗試采用二維Gabor小波進行圖像紋理特征提取,實現(xiàn)更加有效的圖像關(guān)鍵紋理提取。結(jié)合局部線性嵌入(Locally linear embedding,LLE)完成特征降維,在一定程度上緩解特征冗余和高維特征運算的效率問題。然后,采用孿生支持向量機(Twin support vector machine,TWSVM)來進行圖像分類識別,證實TWSVM分類器在提高高維圖像樣本的識別準確率方面的性能。
首先,通過對待識別的圖像樣本進行分塊,提取每一塊圖像特征并進行Gabor濾波,設(shè)置濾波的尺度和方向,接著采用LLE進行特征降維,最后采用TWSVM對降維后的特征進行分類,如圖1所示。
圖1 圖像識別流程
二維Gabor小波作為圖像尺度表示和特征分析的常用工具,可以方便實現(xiàn)圖像的尺度變化。對于灰度圖像z=(x,y),其濾波器表達式[5]為
(1)
將式(1)按實部與虛部進行拆分得[7]
(2)
[sin(iku,v)]
(3)
進行二維Gabor小波時,為了獲取全面圖像數(shù)據(jù)而不丟失,需要合理設(shè)置二維Gabor小波主要參數(shù)u、v和σ。
經(jīng)過Gabor濾波后得到的圖像特征的維數(shù)較高,考慮到特征冗余和高維特征運算及存儲的效率問題,有必要對圖像特征進行有效降維。下面對LLE降維進行數(shù)學描述。對m個樣本點實現(xiàn)降維,設(shè)樣本xi可以由其相鄰樣本xj、xk和xl經(jīng)過線性運算得[8]
xi=ωijxj+ωikxk+ωilxl
(4)
式中:ωij、ωik和ωil分別為樣本xi和其相鄰樣本xj、xk和xl的線性系數(shù)。
在實際操作過程中,xi的相鄰樣本選擇可以多個,設(shè)xi的k個鄰居樣本組成的集合為Qi,為了保持降維后樣本點仍屬以前的線性關(guān)系,其目標函數(shù)為[9]
(5)
設(shè)Cjk=(xi-xj)T(xi-xk),則
(6)
式中:Cls=(xi-xl)T(xi-xs)。
LLE能夠保持降維過程中ωij保持不變,所以根據(jù)ωij,可以求解降維后的樣本集合[10]。
(7)
式中:zi為xi經(jīng)過降維后的值,通過求解ωij的特征值所對應的特征向量則可以得到降維后的集合Z,Z=[z1,z2,…zm]。
TWSVM采用2個超平面進行分類,兩類樣本個數(shù)分別為m1和m2,維度均為n,TWSVM的兩個超平面的數(shù)學表示為[11]
xTw(1)+b(1)=0xTw(2)+b(2)=0
(8)
TWSVM1:
s.t. -(Bw(1)+e2b(1))+ξ≥e2
ξ≥0
(9)
TWSVM2:
s.t. -(Aw(2)+e1b(2))+η≥e1
η≥0
(10)
式中:ξ和η為非負常量,e1=(1,1,…,1)T∈Rm1,e2=(1,1,…,1)T∈Rm2,c1和c2常量。
構(gòu)建拉格朗日乘子,計算式(9),得
e2b(1))+ξ-e2)-βTξ
(11)
式中:α=(α1,α2,…,αm2)T,β=(β1,β2,…,βm2)T,兩個向量分別為兩個拉格朗日參數(shù)變量集合。
式(7)分別對w(1)、b(1)和ξ求偏導,且令等式為0,可得[13]
AT(Aw(1)+e2b(1))+βTα=0
(12)
(13)
c1e2-α-β=0
(14)
聯(lián)合式(9)和(10)得
(15)
HTHu+GTα=0
(16)
則u=-(HTH)-1GTα。
由于u=[w(1)b(1)]T,那么求得u后可以求得w(1)和b(1),獲得超平面xTw(1)+b(1)=0。根據(jù)同樣的方法可以獲得另外一個超平面xTw(2)+b(2)=0。
首先,對二維Gabor小波的尺度和方向參數(shù)進行差異化設(shè)置,驗證不同參數(shù)下的圖像識別性能。其次,分別對比SVM和TWSVM的性能差異,驗證TWSVM在圖像識別分類中的差異性。最后,對常見圖像識別算法和本文算法進行對比,驗證不同算法的圖像識別差異性。
為了驗證二維Gabor小波和TWSVM對圖像識別的性能,進行實例仿真。為了充分驗證Gabor+LLE+TWSVM在圖像識別中的性能,分別選擇了表1所示的ORL人臉數(shù)據(jù)庫、CASIA WebFace數(shù)據(jù)庫和dogs_vs_cats數(shù)據(jù)庫3個數(shù)據(jù)來源作為本文仿真對象,訓練和測試比例均按照3∶1分配。
表1 仿真數(shù)據(jù)庫
采用Gabor+LLE+TWSVM算法分別對表1中的3個庫樣本進行性能仿真。為了驗證二維Gabor小波紋理提取對圖像識別性能的影響,分別差異化設(shè)置二維Gabor小波的尺度和方向變量,驗證對3個圖像庫的識別準確率性能,結(jié)果如表2~表4所示。
表2 不同u,v參數(shù)對應的識別率(ORL庫)
表3 不同u,v參數(shù)對應的識別率(CASIA WebFace庫)
表4 不同u,v參數(shù)對應的識別率(dogs_vs_cats庫)
從上述3個表可知,不同二維Gabor小波參數(shù)對3種不同樣本的圖像識別率影響顯著,ORL庫在v=5,u=8時獲得了最優(yōu)識別率98.29%,CASIA WebFace庫在v=4,u=8時獲得了最優(yōu)識別率96.14%,dogs_vs_cats庫在v=5,u=8時獲得了最優(yōu)識別率95.33%,因此不同的庫在進行識別時應選取適合的v和u參數(shù),這3種圖像樣本的尺寸各異,在分割時模塊大小和維度有差異,在進行二維Gabor小波濾波時的尺寸和方向需要靈活選擇,否則可能提取圖像紋理時造成與原圖像誤差較大,不能體現(xiàn)二維Gabor小波在圖像處理關(guān)鍵紋理提取中的優(yōu)勢。
根據(jù)4.1節(jié),選擇合適的二維Gabor小波u和v參數(shù)進行紋理提取并進行LLE降維,圖像識別分類器分別選擇SVM和TWSVM方法,驗證兩種不同分類器對圖像識別性能影響。
從表5可知,TWSVM在3種不同圖像集的識別性能均優(yōu)于SVM,在ORL集中TWSVM比SVM提高了3.84%,在CASIA WebFace集中提高了4.87%,在dogs_vs_cats 集中提高了4.66%。下面對3種算法的RMSE性能進行仿真,結(jié)果如圖2、3和4所示。
表5 TWSVM與SVM的圖像識別性能
圖2 識別準確率的RMSE性能(ORL集)
圖3 識別準確率的RMSE性能(CASIA WebFace集)
圖4 識別準確率的RMSE性能(dogs_vs_cats集)
在ORL集中,Gabor+LLE+TWSVM獲得了低于0.2的RMSE性能,算法在26 s獲得了穩(wěn)定的RMSE值,而Gabor+LLE+SVM在訓練過程中的RMSE性能均不如本文算法,在20 s之前,2種算法的RMSE性能差距較小,但20 s后兩者RMSE值逐漸拉開,Gabor+LLE+SVM在24 s達到收斂,而本文算法在26 s達到收斂,且本文算法收斂時RMSE更小;在CASIA WebFace集中,從5 s之后,兩者的RMSE值呈現(xiàn)較大差距,兩者均在26 s開始收斂,Gabor+LLE+SVM的RMSE值收斂于0.5左右,而Gabor+LLE+TWSVM約收斂于0.25;在dogs_vs_cats集中,Gabor+LLE+SVM和Gabor+LLE+TWSVM分別在26 s和28 s開始收斂,收斂值分別為0.5和0.2。綜合而言,在RMSE收斂值方面,采用TWSVM分類器比SVM分類器圖像識別效果更好,識別時間方面兩者相差較近。
為了進一步驗證Gabor+LLE+TWSVM算法在3種圖像集中的識別性能,分別采用神經(jīng)網(wǎng)絡(NN)[14]算法、Adaboost[15]算法、卷積神經(jīng)網(wǎng)絡(CNN)[16]算法和Gabor+LLE+TWSVM算法進行圖像識別,其仿真性能如圖5~7所示。
圖5 4種算法的識別準確率(ORL集)
圖6 4種算法的識別準確率(CASIA WebFace集)
圖7 4種算法的識別準確率(dogs_vs_cats集)
在3種不同數(shù)據(jù)集中,Gabor+LLE+TWSVM算法均表現(xiàn)出了最高的識別準確率,對于3種不同數(shù)據(jù)集的識別準確率均高于0.95,CNN算法次之,NN算法最差;在圖像識別效率方面,NN算法最好,其他3種算法差距不大。本文算法因為濾波和降維增加了圖像識別的時間,但卻獲得了更高的圖像識別準確率,但對比其他2種分類準確率較高的算法,本文算法的識別時間與其他2種算法相差較小。
綜上所述,本文采用二維Gabor小波進行圖像紋理提取,通過LLE降維后獲得待識別的圖像樣本,這樣有效提高了圖像識別效率,最后采用TWSVM進行分類識別。合理設(shè)置二維Gabor小波尺度和方向參數(shù)可以獲得圖像的關(guān)鍵紋理,經(jīng)過TWSVM分類后可以獲得較好的圖像識別準確率,后續(xù)研究將從二維Gabor小波參數(shù)優(yōu)化和TWSVM的多種激勵函數(shù)方面展開研究,以進一步提高Gabor+LLE+TWSVM在圖像識別方面的適用度。