左 軍,周 靈,孫亞民
(1.佛山科學(xué)技術(shù)學(xué)院 電子與信息工程學(xué)院,廣東 佛山 528000;2.南京理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 210094)
在許多模式識(shí)別系統(tǒng)中,用到最多的分類方法是統(tǒng)計(jì)方法,即將從輸入模式的統(tǒng)計(jì)信息得到的決策理論用來(lái)設(shè)計(jì)分類器。盡管這類方法已經(jīng)成功地用來(lái)解決各種模式分類問(wèn)題,但如果沒(méi)有合適的特征選擇,它還是很難表示結(jié)構(gòu)信息的。基于神經(jīng)網(wǎng)絡(luò)的方法作為一種基于統(tǒng)計(jì)和結(jié)構(gòu)化的方法,是實(shí)現(xiàn)不同分類器的新方法。由于它具有很好的學(xué)習(xí)能力和泛化能力,因此在分類方面具有許多優(yōu)勢(shì)。近幾年來(lái),RBF神經(jīng)網(wǎng)絡(luò)在神經(jīng)網(wǎng)絡(luò)領(lǐng)域引起了人們廣泛的興趣,并得到了廣泛的應(yīng)用。
一個(gè)具有r個(gè)輸入和一個(gè)輸出的RBF神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)可以看成如下形式的映射f:Rr→Rs:
(1)
其中,X∈Rr是輸入向量,Ri(·)是基函數(shù),‖·‖表示輸入空間上的歐氏范數(shù),wi(0≤i≤u)是權(quán)值,Ci∈Rr(1≤i≤u)是RBF的中心,u是RBF的單元數(shù)。為了定義上的簡(jiǎn)單,這里僅僅考慮了單輸出的情形,但很容易推廣到多輸出的情形[1]。
如果采用高斯函數(shù)而不考慮偏置量,則式(1)可以寫(xiě)為如下的函數(shù):
(2)
如果把各高斯函數(shù)的輸出歸一化,則RBF網(wǎng)絡(luò)可以產(chǎn)生如下歸一化的輸出響應(yīng)。
(3)
由于高斯函數(shù)具有各向同性,因此以高斯函數(shù)作為激活函數(shù)的神經(jīng)網(wǎng)絡(luò)稱為徑向基(RBF)神經(jīng)網(wǎng)絡(luò)。文獻(xiàn)[2]的結(jié)論指出:RBF神經(jīng)網(wǎng)絡(luò)具有最好的逼近特性,而MLPs則沒(méi)有。正因RBF神經(jīng)網(wǎng)絡(luò)有如此良好的特性,所以本文的研究是基于動(dòng)態(tài)徑向基神經(jīng)網(wǎng)絡(luò)。
RBF節(jié)點(diǎn)參數(shù)的調(diào)整是一個(gè)非線性的過(guò)程,而權(quán)值w(i,j)的辨識(shí)是一個(gè)線性問(wèn)題。盡管可以應(yīng)用梯度下降算法來(lái)找到整個(gè)最優(yōu)參數(shù)集,但是這種方法通常很慢而且很有可能陷入局部極小。我們提出混合學(xué)習(xí)方法,這種混合方法結(jié)合了梯度算法和線性最小二乘法來(lái)調(diào)整參數(shù)。
首先是權(quán)值調(diào)整。令r和s分別表示輸入和輸出的數(shù)量,并且假定對(duì)于所有的訓(xùn)練樣本,通過(guò)上面的聚類算法得到u個(gè)RBF單元。對(duì)于任何一個(gè)輸入Pi,系統(tǒng)的第j個(gè)輸出yj為
(4)
或者
Y=WR
(5)
W*=T(RTR)-1RT
(6)
其中,RT是R的轉(zhuǎn)置,W*=(RTR)-1RT是R的廣義逆。
其次是RBF節(jié)點(diǎn)參數(shù)的調(diào)整。這里通過(guò)取誤差函數(shù)El的負(fù)梯度來(lái)調(diào)整節(jié)點(diǎn)參數(shù),El定義為
(7)
(8)
對(duì)于內(nèi)部節(jié)點(diǎn),誤差率可以通過(guò)下面的鏈?zhǔn)揭?guī)則得到[3]:
(9)
(10)
假定一幅人臉圖像Zi為一個(gè)m×m的二維灰度圖像。一幅圖像也可以看做是m2維的向量。定義n個(gè)人臉圖像的訓(xùn)練集為Z=(Z1,Z2,…,Zn)?Rm2×n,并且假定每個(gè)圖像屬于c個(gè)類中的一個(gè)。定義如下的協(xié)方差矩陣:
(11)
X=UTZ
(12)
用Fisher線性判別式(FLD)來(lái)產(chǎn)生一組最具判別性的特征,使不同類間的訓(xùn)練數(shù)據(jù)可以盡可能地分開(kāi),而同一類的樣本盡可能地靠近。PCA方法把訓(xùn)練樣本集投影到特征臉空間X=(X1,X2,…,Xn)?Rr×n,除了維數(shù)減少之外,實(shí)際上它不能提供任何的分類信息。因此,在PCA變換的基礎(chǔ)上,我們進(jìn)一步運(yùn)用FLD方法,為分類找到一個(gè)最佳的子空間,使類間距離和類內(nèi)距離之比最大化[4]。
類間散布矩陣定義為
(13)
類內(nèi)散布矩陣定義為
(14)
那么,由FLD方法得到的最佳的子空間Eoptimal由下式?jīng)Q定[4]:
(15)
其中,[e1,e2,…,ec-1]是SB和Sw對(duì)應(yīng)于c-1個(gè)最大的廣義特征值λi,i=1,2,…,c-1的廣義特征向量集,即
SBEi=λiSWEii=1,2,…,c-1
因此,對(duì)于任何一張測(cè)試人臉圖Z,在最大判別意義下的特征向量P可以用以下公式計(jì)算:
(16)
圖1是RBF神經(jīng)網(wǎng)絡(luò)用于高維、小樣本分類示意圖。
圖1 RBF神經(jīng)網(wǎng)絡(luò)用于高維、小樣本分類
實(shí)驗(yàn)在ORL人臉數(shù)據(jù)庫(kù)上進(jìn)行的,該數(shù)據(jù)庫(kù)由英國(guó)劍橋大學(xué)提供。ORL標(biāo)準(zhǔn)人臉庫(kù)由40人,每人10幅112×92圖像組成。這些圖像拍攝于不同時(shí)間,在光照強(qiáng)度和角度,面目表情,姿態(tài)及面部細(xì)節(jié)等方面均有很大的變化。圖2 是識(shí)別錯(cuò)誤的兩幅圖像及其訓(xùn)練樣本。
下面用不同的分類器對(duì)不同的人臉特征進(jìn)行測(cè)試。圖3和圖4分別顯示了用最近鄰分類法對(duì)PCA和PCA+FLD產(chǎn)生的數(shù)據(jù)進(jìn)行分類的情況??梢钥吹剑瑢?duì)PCA方法,更多信息會(huì)導(dǎo)致PCA更好的性能。然而,PCA+FLD的性能并不會(huì)隨著特征維數(shù)的增加而單調(diào)地提高,而且最佳的性能在PCA+FLD中由于信息的丟失而略有降低。表1列出了不同的人臉特征和不同的分類器所得的識(shí)別結(jié)果。
圖2 識(shí)別錯(cuò)誤的兩幅圖像及其訓(xùn)練樣本
表1 混合學(xué)習(xí)過(guò)程中的兩個(gè)通道
Table 1 Two channel hybrid learning process
分類器人臉特征聚類數(shù)特征維數(shù)誤差率/%最近鄰分類器PCA401719 01PCA+FLD40249 76RBF神經(jīng)網(wǎng)絡(luò)分類器PCA401714 76PCA+FLD40241 93
如前所述,F(xiàn)LD是線性變換,由這種準(zhǔn)則產(chǎn)生的特征維數(shù)仍然有很大的重疊。因?yàn)檎缥墨I(xiàn)[1]所示的,“FLD判別準(zhǔn)則并不直接與輸出空間的分類正確性直接相關(guān)”。因此,非線性判別分析在分類中是必須的,而神經(jīng)網(wǎng)絡(luò)是其中使用最廣泛的方法之一[3]。
圖3 PCA仿真錯(cuò)誤率
圖4 PCA+FLD仿真錯(cuò)誤率
神經(jīng)網(wǎng)絡(luò)分類器相比于線性分類器的優(yōu)勢(shì)在于神經(jīng)網(wǎng)絡(luò)分類器能夠減少相鄰類間的錯(cuò)誤分類。然而,這種能力會(huì)隨著維數(shù)的增加而逐漸減少??梢詮谋?中看到,用RBF神經(jīng)網(wǎng)絡(luò)作為分類器時(shí),PCA+FLD所獲得的性能要比PCA好。
有不同的方法來(lái)確定高斯函數(shù)中心,最簡(jiǎn)單的方法就是把訓(xùn)練數(shù)據(jù)作為高斯中心,如文獻(xiàn) [5],[6],[7]所示。其中典型的方法有聚類算法或者中值運(yùn)算[1,8]。如果選擇同樣的6組由PCA+FLD產(chǎn)生的人臉特征數(shù)據(jù),但用其他聚類算法,那么訓(xùn)練樣本的初始聚類誤差列于表2中。
表2 用其他聚類算法所得聚類誤差
從表2中可以看到,許多數(shù)據(jù)被無(wú)監(jiān)督的K-均值聚類算法和回歸聚類方法錯(cuò)誤的分類。然而,如果很好地利用樣本的類別信息,比如我們所提的由監(jiān)督的聚類方法,聚類誤差將會(huì)大大減少,如表3所示。
高斯函數(shù)寬度的適當(dāng)估計(jì)對(duì)于RBF神經(jīng)網(wǎng)絡(luò)的泛化能力非常重要。一般地說(shuō),寬度值通常都是通過(guò)啟發(fā)式方法來(lái)選擇的。一些研究人員把所有訓(xùn)練樣本的方差CV或者類內(nèi)樣本方差CRV 作為寬度。最近也有研究人員提出了新的方法來(lái)估計(jì)寬度[-10],例如,類內(nèi)樣本方差加上訓(xùn)練樣本方差(SCCC)[11]、聚類中心之間的最小距離(即使用σB)[6]、中值運(yùn)算(MO)[8]或者最優(yōu)進(jìn)化(evolutionary optimization)[7]。我們同樣使用PCA+FLD產(chǎn)生的6組數(shù)據(jù),這些數(shù)據(jù)的中心由所提出的聚類算法來(lái)決定,聚類的數(shù)目仍然是40,不同的方法所選擇的不同的寬度所產(chǎn)生的初始聚類誤差列于表3中,表顯示了在ORL數(shù)據(jù)庫(kù)上進(jìn)行測(cè)試樣本的泛化性能。
表3 用不同的方法選擇的寬度訓(xùn)練樣本的聚類誤差
從表3中可以看到,SCCC方法是描述樣本最好的方法。另一方面,MO和CRV方法在學(xué)習(xí)前的測(cè)試非常高,但是學(xué)習(xí)后的最終性能跟其他方法差不多(CV、SCCC和σW)。理論上,如果學(xué)習(xí)算法好,那么不管初始參數(shù)多少,最終的結(jié)果都應(yīng)該是一樣的。這些差異主要是由高維、小樣本所導(dǎo)致的過(guò)擬合和過(guò)訓(xùn)練引起的。
文獻(xiàn)[12]報(bào)道,當(dāng)利用多層前饋網(wǎng)絡(luò)(MLN)分類器,分別采用PCA和SOM(自組織特征映射)方法來(lái)提取ORL數(shù)據(jù)庫(kù)人臉特征時(shí),其錯(cuò)誤率分別為41.2%和39.6%。我們提出的方法不同于MLN,特別是充分利用了樣本的信息進(jìn)行聚類分析和確定RBF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù),因此,識(shí)別效果比MLN、CNN和文獻(xiàn)的RBF方法都好很多[12-13]。
采用平均錯(cuò)誤率作為指標(biāo)來(lái)評(píng)判性能。所謂平均錯(cuò)誤率Eave的定義由下式表示[12,14]:
(17)
表4 性能識(shí)別比較
提出一種基于訓(xùn)練樣本的類別信息的新的聚類算法,所有同類的數(shù)據(jù)可被聚集在一起,盡量減少不同類數(shù)據(jù)混雜在一起,同時(shí)結(jié)構(gòu)盡可能緊湊的RBF神經(jīng)網(wǎng)絡(luò)分類器。用FLD線性判別式來(lái)產(chǎn)生一組最具判別性的特征, PCA方法把訓(xùn)練樣本集投影到特征臉空間,以減少維數(shù)。提出了兩個(gè)重要的準(zhǔn)則來(lái)估計(jì)RBF單元的初始寬度,這個(gè)寬度可以控制RBF神經(jīng)網(wǎng)絡(luò)分類器的泛化能力。提出了一個(gè)混合的學(xué)習(xí)算法來(lái)訓(xùn)練RBF神經(jīng)網(wǎng)絡(luò),使梯度下降法的搜索空間可以大大減少。實(shí)驗(yàn)表明,這個(gè)方法無(wú)論是在分類的錯(cuò)誤率上還是在學(xué)習(xí)的效率上都能表現(xiàn)極好的性能。
參考文獻(xiàn):
[1]MYOOD J, DARKEN C J. Fast Leaning in network of locally-tuned processing units[J]. Neural Computation, 2011,1: 281-294
[2]GIROSI F, POGGIO T. Networks and the best approximation property[J]. Biological Cybernetics, 2012,63: 169-176.
[3]楊文光. 權(quán)值直接確定的三角型模糊前向神經(jīng)網(wǎng)絡(luò)[J]. 中山大學(xué)學(xué)報(bào):自然科學(xué)版,2013,52(2):33-37.
[4]任愛(ài)紅. 模糊隨機(jī)過(guò)程函數(shù)列均方差一致Henstock積分的可積性[J]. 中山大學(xué)學(xué)報(bào):自然科學(xué)版, 2010, 51(4): 41-44.
[5]CHEN S, COWAN C F N, GRANT P M. Orthogonal least squares algorithm for radial basis function network[J]. IEEE Trans Neural Networks, 2011,2:302-310.
[6]Wu S Q, Er M J. Dynamic Fuzzy Neural Networks: A Novel Approach to Function Approximation[J]. IEEE Trans Syst, Man, Cybern: Part B, 2012,30: 358-364.
[7]ESPOSITO A, MARINARO M, ORICCHOI D et al. Approximation of continuous and discontinuous mappings by a growing neural RBF-based algorithm[J]. Neural Networks, 2013,25:651-665.
[8]BORS A G, PITAS I. Median radial basis function neural network[J]. IEEE Trans Neural Networks, 2012,23: 1351-1364.
[9]HAYKIN S. Neural networks, a comprehensive foundation[J]. New York:Macmillan, 2012.
[10]BORS G, GABBOUJ M. Minimal topology for a radial basis functions neural networks for pattern classification[J]. Digital processing, 2012,34:173-188.
[11]HOFFBECK J P, LANDGREBE D A. Covariance matrix estimation and classification with limited training data[J]. IEEE Trans Pattern Analysis and Machine Intelligence, 2013,18:763-767.
[12]LAWRENCE S, GILES C L, TSOI A C et al. Face recognition: a convolutional neural-network approach[J]. IEEE Trans Neural Networks, Special Issue on Neural Networks and Pattern Recognition,2011,8: 114-132.
[13]VIRGINIA E-D. Biometric identification system using a radial basis network[C]. Pro 34ndAnnual IEEE Carnahan Conf on Security Technology, 2011:47-51.
[14]LI S Z, LU J. Face recognition using the nearest feature line method[J]. IEEE Trans Neural Networks, 2012,10: 439-443.
[15]BRENNAN V, PRINCIPE J. Face classification using a multiresolution principal component analysis[J]. Proc IEEE Workshop Neural Network for Signal Processing, 2011:506-515.