張啟明,李凡長(zhǎng)
蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇蘇州215006
ISSN 1673-9418 CODEN JKYTA8
Journal of Frontiers of Computer Science and Technology
1673-9418/2016/10(04)-0533-10
?
標(biāo)架叢上的局部特征聯(lián)絡(luò)學(xué)習(xí)算法*
張啟明,李凡長(zhǎng)+
蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇蘇州215006
ISSN 1673-9418 CODEN JKYTA8
Journal of Frontiers of Computer Science and Technology
1673-9418/2016/10(04)-0533-10
E-mail: fcst@vip.163.com
http://www.ceaj.org
Tel: +86-10-89056056
* The National Natural Science Foundation of China under Grant Nos. 61033013, 60775045 (國(guó)家自然科學(xué)基金); the Soochow Scholar Program Foundation of China under Grant No. 14317360 (東吳學(xué)者計(jì)劃).
Received 2015-05,Accepted 2015-10.
CNKI網(wǎng)絡(luò)優(yōu)先出版: 2015-10-16, http://www.cnki.net/kcms/detail/11.5602.TP.20151016.1103.004.html
摘要:人臉識(shí)別問題中,經(jīng)常會(huì)面臨樣本少的情況,在身份證識(shí)別、電子護(hù)照識(shí)別等系統(tǒng)中,甚至只有一個(gè)訓(xùn)book=534,ebook=88練樣本,很多傳統(tǒng)人臉識(shí)別方法在處理單樣本時(shí)將失效。從流形學(xué)習(xí)角度出發(fā)提出了一種有效解決單樣本人臉識(shí)別的方法。以自組織映射神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),將人臉局部特征(眼、鼻、嘴等)視為一個(gè)流形,訓(xùn)練出多流形結(jié)構(gòu)。利用聯(lián)絡(luò)關(guān)聯(lián)不同的流形,同時(shí)學(xué)習(xí)出局部特征流形間與流形內(nèi)的方向變化信息,再進(jìn)行有監(jiān)督的訓(xùn)練。整個(gè)方法結(jié)合了神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)和流形學(xué)習(xí),將單樣本人臉識(shí)別問題轉(zhuǎn)換成多流形匹配問題。在著名人臉庫(kù)ORL、UMIST、FERET、AR上的實(shí)驗(yàn)顯示該算法在處理單樣本問題時(shí)優(yōu)于已有算法,在處理姿態(tài)、表情等變化問題時(shí)也表現(xiàn)出很好的效果。
關(guān)鍵詞:聯(lián)絡(luò)學(xué)習(xí);標(biāo)架叢;多流形;橫空間;縱空間;單樣本訓(xùn)練
人臉識(shí)別自從20世紀(jì)90年代被提出以來,已成為模式識(shí)別、計(jì)算機(jī)視覺和信息技術(shù)等領(lǐng)域研究的熱點(diǎn)課題。研究者們基于幾何特征[1]、子空間[2-3]、神經(jīng)網(wǎng)絡(luò)[4]等方法提出了各種有效的識(shí)別算法。在一些特殊場(chǎng)合,如身份證驗(yàn)證、護(hù)照驗(yàn)證等,每類只有一張訓(xùn)練樣本,這就產(chǎn)生了單樣本人臉識(shí)別問題。解決單樣本問題在拓寬人臉識(shí)別應(yīng)用,降低數(shù)據(jù)庫(kù)構(gòu)建成本等方面具有重要意義。
然而,由于訓(xùn)練樣本的減少,傳統(tǒng)的人臉識(shí)別方法不能有效地處理單樣本人臉識(shí)別問題。例如,基于主成分分析(principal component analysis,PCA)[2]技術(shù)的人臉識(shí)別方法無法準(zhǔn)確地計(jì)算類內(nèi)散度矩陣,導(dǎo)致丟失很多有用的判別信息。Tan等人[5]就此問題在ORL人臉數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),發(fā)現(xiàn)算法的識(shí)別率隨著訓(xùn)練樣本的減少急速下降,當(dāng)只有一張訓(xùn)練人臉時(shí),平均識(shí)別率已經(jīng)低到65%以下,下降幅度約30%。由此可見,在單訓(xùn)練樣本條件下,傳統(tǒng)人臉識(shí)別效果并不理想。研究人員根據(jù)不同思路提出了不同的解決方法,包括擴(kuò)展傳統(tǒng)的統(tǒng)計(jì)方法[6-10]、合成虛擬樣本方法[11-13]、局部外觀方法[14-15]。文獻(xiàn)[6]改進(jìn)了線性判別分析(linear discriminant analysis,LDA)[3]算法,將每類的單個(gè)樣本進(jìn)行聚類,形成多個(gè)類別,用每個(gè)聚類的類間散度矩陣代替每類為零的類間散度矩陣。文獻(xiàn)[7-8]計(jì)算圖像的水平和垂直積分投影,將積分投影得到的投影圖與原圖像結(jié)合形成增強(qiáng)的圖像。合成虛擬樣本通過擴(kuò)大訓(xùn)練樣本集將單樣本人臉識(shí)別方法轉(zhuǎn)換成一般的人臉識(shí)別問題。文獻(xiàn)[11]提出了ROCA(representational oriented component analysis)方法,應(yīng)用線性和非線性的過濾方法生成圖像的150種表示方法,OCA分類器作用于每種表示。文獻(xiàn)[12]利用擾動(dòng)方法生成新樣本,再利用標(biāo)準(zhǔn)特征臉技術(shù)進(jìn)行特征提取和識(shí)別。局部外觀方法一般有如下步驟:局部區(qū)域分塊,特征提取與選擇,分類。文獻(xiàn)[15]提出用自組織映射表征人臉子空間的方法,利用分塊訓(xùn)練出一個(gè)自組織映射神經(jīng)網(wǎng)絡(luò)(self-organization mapping,SOM),用最近鄰算法將同一張人臉的每個(gè)分塊投影到與之相關(guān)的最佳匹配單元,去除原始圖像的噪聲。
上述方法在一定程度上解決了單樣本人臉識(shí)別問題,但仍存在很多不足。文獻(xiàn)[9]在表征同樣大小圖像信息時(shí)消耗的數(shù)據(jù)會(huì)更多。合成虛擬樣本法合成出的圖像與原圖像是高度相關(guān)的,并非真正的獨(dú)立圖像。局部外觀法忽略了圖像的整體結(jié)構(gòu),計(jì)算時(shí)間復(fù)雜度一般較高。本文從流形學(xué)習(xí)的角度出發(fā),利用標(biāo)架叢這一特殊流形上的聯(lián)絡(luò)算子處理多流形數(shù)據(jù)結(jié)構(gòu)的能力,學(xué)習(xí)出流形內(nèi)及流形間主要方向變化信息,獲得各局部特征流形的權(quán)重值,將單樣本人臉識(shí)別問題轉(zhuǎn)化成多流形間匹配問題。
2.1流形學(xué)習(xí)
流形學(xué)習(xí)可以看作非線性降維技術(shù)的一個(gè)分支,2000年Science發(fā)表的兩篇文章等距映射(isometric feature mapping,Isomap)[16]和局部線性嵌入(locally linear embedding,LLE)[17]奠定了流形學(xué)習(xí)的基礎(chǔ)。Isomap的作者Silva等人[18]描述流形學(xué)習(xí)如下。
定義1設(shè)Y??d是一個(gè)低維流形,f:Y→?D是一個(gè)光滑嵌入,其中d?D。數(shù)據(jù)集{yi}是隨機(jī)生成的,且經(jīng)過f映射為觀察空間的數(shù)據(jù){xi=f(yi)}。流形學(xué)習(xí)就是在給定觀察樣本集{xi}的條件下重構(gòu)f 和{yi}。
流形學(xué)習(xí)中有個(gè)重要假設(shè)是樣本足夠稠密以覆蓋整個(gè)流形。在單樣本問題中,這個(gè)假設(shè)被破壞,無法準(zhǔn)確估計(jì)低維流形。本文采用多流形學(xué)習(xí)機(jī)制,假設(shè)原始數(shù)據(jù)集分布在多個(gè)不連續(xù)的低維子流形上,不同流形間通過標(biāo)架叢上的整體標(biāo)架場(chǎng)相聯(lián)系。
2.2切叢
微分流形上[19]的切叢T(M)[20-21]是一個(gè)由M上各點(diǎn)切空間組成的向量從,其總空間是各切空間的不交并集:
基于切叢的流形學(xué)習(xí)方法已相對(duì)成熟,Rifai等人[22]提出了原始數(shù)據(jù)的主要變化方向存在于每點(diǎn)切空間張成的線性空間中,認(rèn)為流形上每點(diǎn)可由其切空間坐標(biāo)近似逼近。Yu等人[23-24]也提出了相似的觀點(diǎn),為每個(gè)樣本點(diǎn)建立局部坐標(biāo)卡以得到泛化性的表示。但Bengio等人[25-26]指出局部坐標(biāo)卡方法的訓(xùn)練樣本數(shù)目會(huì)隨著流形維數(shù)和曲率呈指數(shù)上升,這在單樣本情況下是不能接受的,解決此問題就需要有整體的覆蓋流形的坐標(biāo)系統(tǒng)。
2.3標(biāo)架叢
標(biāo)架叢[27]是和切叢密切相關(guān)的,流形中點(diǎn)x的一個(gè)標(biāo)架是其切空間TxM的一組有序基{e1,e2,…,en},點(diǎn)x上的所有標(biāo)架的集合記為L(zhǎng)x(M),標(biāo)架叢就是流形M上的全體標(biāo)架的集合,記為L(zhǎng)(M)。
π:L(M)→M為標(biāo)架叢到流形M的自然映射,它是一個(gè)具有結(jié)構(gòu)群GL(n;?)的主纖維叢(非矢量叢)。令(U,?)為M的一個(gè)坐標(biāo)卡,其坐標(biāo)系定義為(x1,x2,…,xn)。如果u={e1,e2,…,en}是x∈U的一個(gè)標(biāo)架,可將它寫成:
則此一維流形上的標(biāo)架叢如圖1所示。
Fig.1 Frame bundle on one-dimensional manifold圖1 一維流形上的標(biāo)架叢
2.4標(biāo)架叢上的聯(lián)絡(luò)
設(shè)M上有一個(gè)聯(lián)絡(luò)D,其能自然地導(dǎo)出一個(gè)L(M)上的聯(lián)絡(luò)H,反之也成立。如果固定x∈M和(x,e)∈L(M),考慮所有滿足γ(0)=x的曲線以及對(duì)應(yīng)的提升?(x,e),使得?(x,e)(0)=(x,e)。當(dāng)γ(0)跑遍所有x點(diǎn)的所有向量時(shí),?(x,e)(0)在L(M)(x,e)中就填滿一個(gè)子集合H(x,e),這里L(fēng)(M)(x,e)是L(M)在(x,e)處的切空間。而H(x,e)是L(M)(x,e)中的一個(gè)n維子空間。此子空間具有性質(zhì):
(2)H(x,e)⊕V(x,e)=L(M)(x,e),?(x,e)∈L(M),其中V(x,e)是叢L(M)→M的纖維在(x,e)點(diǎn)處的切空間。
(3)dRa(H(x,e))=H(x,e)a,?a∈GL(n,?),(x,e)∈L(M)。
TL(M)中滿足3個(gè)性質(zhì)的子叢H就是L(M)上的聯(lián)絡(luò)。依然用M=?的例子來表示標(biāo)架叢上的聯(lián)絡(luò),有L(M)??×?*的一個(gè)坐標(biāo)(x,a),計(jì)算A∈gl(1;?)的無窮小生成元,exp(A)=eA∈?*?GL(1;?),因此
這里R非零(因?yàn)橄蛄繄?chǎng)必須與縱子叢互補(bǔ)),而水平分布不變性這一條件限制了R和S,也就是說,如果有h(x,ab)=T(x,a)Rb(h(x,a)),那么h將生成一個(gè)聯(lián)絡(luò),計(jì)算式(3):
則有
R(x,ab)=R(x,a),S(x,ab)=bS(x,a)
為簡(jiǎn)化問題,假設(shè)a=1,R=1,那么向量場(chǎng)生成的?上線性聯(lián)絡(luò)的橫子叢如下:
橫子空間的傾斜度會(huì)隨著群作用方向的變化而變化,對(duì)于底空間M=?中的每點(diǎn),聯(lián)絡(luò)由其纖維上某點(diǎn)的傾斜度決定,見圖2。
Fig.2 Frame bundle connection of one-dimensional manifold圖2 一維流形標(biāo)架叢上的聯(lián)絡(luò)
綜上所述,從標(biāo)架叢這一特殊流形的角度看,流形上每點(diǎn)的切空間能直和地分解成橫空間和縱空間,縱空間是各纖維的切空間,而橫空間與流形M的切空間是同構(gòu)的。當(dāng)處理多流形結(jié)構(gòu)時(shí),可以很自然地使用這兩個(gè)子空間關(guān)聯(lián)不同的流形。因此,既能將原始數(shù)據(jù)結(jié)構(gòu)通過水平提升到橫空間中來進(jìn)行全局分析,又能將單一流形結(jié)構(gòu)映射到縱空間中進(jìn)行局部分析。
單樣本識(shí)別也存在人臉圖像的幾何變化(平移、旋轉(zhuǎn)、伸縮等),表情變化,姿態(tài)變化等問題,本文的目的是使神經(jīng)網(wǎng)絡(luò)的輸出對(duì)這些變化不敏感。首先,根據(jù)人臉的局部特征,構(gòu)造出多流形結(jié)構(gòu),學(xué)習(xí)人臉不同局部流形的權(quán)重值。在此多流形結(jié)構(gòu)上,使用標(biāo)架叢上的聯(lián)絡(luò)算子學(xué)習(xí)出輸入空間變化的方向信息,并結(jié)合反向傳播(backpropagation,BP)算法實(shí)現(xiàn)分類器的設(shè)計(jì)。
3.1多流形構(gòu)造
根據(jù)上面的思路,人們希望圖像的不變性能帶來更好的識(shí)別效果,但往往從圖像的全局結(jié)構(gòu)上無法體現(xiàn)這樣的性質(zhì)。因此利用分塊的方法,獲得人臉的不同局部特征,如眼睛、鼻子、嘴巴等,通過樣本的局部特征構(gòu)造多流形結(jié)構(gòu),即將人的眼睛特征視為一個(gè)流形,鼻子特征視為一個(gè)流形,嘴巴特征也視為一個(gè)流形等。
本文使用自組織映射神經(jīng)網(wǎng)絡(luò)(SOM)實(shí)現(xiàn)對(duì)多流形結(jié)構(gòu)的逼近。在SOM中,輸出層(競(jìng)爭(zhēng)層)是由神經(jīng)元排列的點(diǎn)陣集合,獲勝的神經(jīng)元與其鄰近的神經(jīng)元的權(quán)值都將被調(diào)整。如二維平面陣,見圖3。獲勝神經(jīng)元為紅點(diǎn),若定義獲勝鄰域是大小為1的矩陣,則圖中藍(lán)色神經(jīng)元權(quán)值也將被調(diào)整。
Fig.3 SOM neural network圖3 SOM神經(jīng)網(wǎng)絡(luò)模型
SOM不但識(shí)別輸入?yún)^(qū)域臨近的區(qū)域,還研究輸入向量的分布特性和拓?fù)浣Y(jié)構(gòu)。即某個(gè)輸出結(jié)點(diǎn)只響應(yīng)某類特征流形,相似的局部特征流形在拓?fù)淇臻g中也保持相近。將局部特征分塊作為SOM網(wǎng)絡(luò)的原始輸入xi=(x1,x2,…,xn)T,xi為一分塊,x1,x2…,xn代表分塊中像素拉成列向量后的形式。對(duì)輸入向量及權(quán)值向量分別歸一化后,用下式尋找獲勝神經(jīng)元:
wj是權(quán)值向量,n是競(jìng)爭(zhēng)層神經(jīng)元個(gè)數(shù)。然后,根據(jù)拓?fù)溧徲騈(S)進(jìn)行權(quán)值更新。
Fig.4 Multi-manifold structure constructed by local feature圖4 局部特征多流形
3.2多流形上的標(biāo)架
在獲得的多流形結(jié)構(gòu)數(shù)據(jù)集上,人們希望設(shè)計(jì)出對(duì)原始輸入空間變化具有很好魯棒性的分類器來完成識(shí)別工作。Rifai在文獻(xiàn)[22]中指出,若要重構(gòu)誤差與輸入空間變換不敏感達(dá)到平衡,則每個(gè)訓(xùn)練樣本點(diǎn)周圍,實(shí)質(zhì)上只對(duì)某些特定輸入方向敏感,不同的訓(xùn)練樣本點(diǎn)對(duì)應(yīng)不同的敏感方向。
Fig.5 Frame system on multi-manifold圖5 多流形上的標(biāo)架系統(tǒng)
3.3基于標(biāo)架的多流形變化方向
這里,Uk(x)是U(x)的第k列;ε是一個(gè)可調(diào)參數(shù),規(guī)定凡大于ε的特征值對(duì)應(yīng)的特征向量就是引起聯(lián)絡(luò)系數(shù)變化較大的方向。因此,Bx中的元素就是流形上點(diǎn)x在訓(xùn)練過程中需要被約束的方向。
Fig.6 Variation of same-class local feature manifold is less than the different-class圖6 同類局部特征流形的變化小于異類局部特征流形的變化
3.4應(yīng)用方向信息分類
要約束變化的方向,就要使得網(wǎng)絡(luò)輸出沿這些方向的方向?qū)?shù)變小。這些額外信息可被加入到最終的監(jiān)督學(xué)習(xí)中來提升分類性能。利用改進(jìn)的反向傳播算法訓(xùn)練神經(jīng)網(wǎng)絡(luò),在原有的目標(biāo)方程上加入懲罰項(xiàng):
此外,各局部特征流形對(duì)最終的分類結(jié)果應(yīng)產(chǎn)生不同程度的影響,即不同的人臉特征流形應(yīng)擁有不同的權(quán)重值。如果某類局部特征流形激活了較多的神經(jīng)元,則表示該局部特征表達(dá)的是人臉的公共信息部分,此局部特征對(duì)分類的貢獻(xiàn)度較小。如果某類局部特征流形激活了較少的神經(jīng)元,則表示該局部特征傳達(dá)了人臉重要判別信息。此類局部特征對(duì)分類的貢獻(xiàn)度較大。根據(jù)以上觀點(diǎn),得出各局部特征流形對(duì)最終分類性能的貢獻(xiàn)程度為:
其中,N表示競(jìng)爭(zhēng)層的神經(jīng)元總個(gè)數(shù);ni表示局部特征流形Mi激活的神經(jīng)元總個(gè)數(shù)。
下面給出整個(gè)標(biāo)架叢上的局部特征聯(lián)絡(luò)學(xué)習(xí)算法(local feature connection learning algorithm based on frame bundle,LFCA-FB):
算法1標(biāo)架叢上的局部特征聯(lián)絡(luò)學(xué)習(xí)算法
輸入:多個(gè)訓(xùn)練流形[M1,M2,…,MN],對(duì)應(yīng)標(biāo)簽[T1,T2,…,TN],測(cè)試流形MT,參數(shù)τ、σ、ε,學(xué)習(xí)速率η0,收斂誤差η。
輸出:每點(diǎn)的約束方向Bx,局部特征流形的權(quán)重w,分類標(biāo)簽c。
步驟1利用自組織映射神經(jīng)網(wǎng)絡(luò)(SOM)訓(xùn)練出多流形結(jié)構(gòu)的同時(shí)(無監(jiān)督學(xué)習(xí)),用式(8)學(xué)習(xí)出人臉各局部特征流形的權(quán)重值。
步驟2基于標(biāo)架上的橫空間和縱空間的聯(lián)絡(luò)矩陣,使用式(6)尋找出每點(diǎn)x的約束方向Bx。
步驟3在目標(biāo)函數(shù)中加入懲罰項(xiàng),即式(7),在有監(jiān)督的情況下使用改進(jìn)BP算法調(diào)節(jié)整個(gè)神經(jīng)網(wǎng)絡(luò),結(jié)合步驟1中學(xué)習(xí)到的權(quán)重值來構(gòu)建分類器。
時(shí)間復(fù)雜度分析:算法的時(shí)間復(fù)雜度分成兩個(gè)部分,一部分是計(jì)算奇異值和奇異向量,其時(shí)間復(fù)雜度為O(dL×d×dh);另一個(gè)部分是訓(xùn)練神經(jīng)網(wǎng)絡(luò),開始是非監(jiān)督的多流形構(gòu)造學(xué)習(xí),之后是有監(jiān)督的分類訓(xùn)練,采用的是改進(jìn)的隨機(jī)梯度下降算法。因此,在訓(xùn)練階段整個(gè)算法的時(shí)間復(fù)雜度較高。
本文使用4個(gè)通用人臉數(shù)據(jù)庫(kù)ORL、UMIST、FERET、AR進(jìn)行實(shí)驗(yàn)評(píng)估。ORL人臉數(shù)據(jù)集共有40類人臉,每類人臉有10幅圖像,一幅圖像的大小為112×92像素,主要包括表情變化,微小姿態(tài)變化,尺度變化。圖7為部分ORL數(shù)據(jù)集圖像。
UMIST數(shù)據(jù)集有20類人臉,每類圖像數(shù)為19至36幅,大小為220×220像素,包括人臉從左往右的姿態(tài)變化。圖8為UMIST部分圖像。
FERET-1共有200人的400張人臉圖像,每人都有兩張圖像Fa與Fb,大小為256×384像素,該數(shù)據(jù)集體現(xiàn)了不同的年齡、表情、光照等特征。使用每類的Fa圖像進(jìn)行訓(xùn)練,F(xiàn)b圖像進(jìn)行測(cè)試。圖9展示了部分FERET-1數(shù)據(jù)集。
Fig.7 ORL database圖7 ORL人臉數(shù)據(jù)集
Fig.8 UMIST database圖8 UMIST人臉數(shù)據(jù)集
Fig.9 FERET database圖9 FERET人臉數(shù)據(jù)集
AR根據(jù)拍攝時(shí)間(間隔兩周)分成兩個(gè)部分,圖10為部分AR數(shù)據(jù)集,本文使用AR中100人的1 400張人臉子集進(jìn)行實(shí)驗(yàn),包括兩個(gè)時(shí)間段的表情變化、光照、遮擋等情況。表1顯示了選用的標(biāo)準(zhǔn),表里每個(gè)子集都可用于訓(xùn)練樣本,其余子集作為測(cè)試樣本。
Fig.10 AR database圖10 AR人臉數(shù)據(jù)集
使用ORL和UMIST數(shù)據(jù)集將本文提出的LFCAFB算法與其他單樣本人臉識(shí)別算法進(jìn)行比較。參與比較的算法包括主成分分析(PCA)[2]、二維PCA (2DPCA)[9]、分塊LDA(FLDA)[14]、局部保持投影(LPP)[28]、局部切空間排列(LTSA)[29]和SOM[15],在這些算法中,采用歐式空間的最近鄰分類器進(jìn)行分類。首先,利用PCA將UMIST數(shù)據(jù)集降維到112× 92,與ORL數(shù)據(jù)集圖像大小保持一致。取兩個(gè)數(shù)據(jù)集各自的正臉圖像作為訓(xùn)練樣本,其余圖像作測(cè)試樣本,ORL每類人臉有9張測(cè)試圖像,UMIST也從每類中取9種不同姿態(tài)下的圖像作為測(cè)試樣本。取分塊大小為4×4,表2列出了各算法在兩個(gè)數(shù)據(jù)集上的最低和最高識(shí)別率。
Table 1 Subset collection of AR database表1 AR數(shù)據(jù)集的子數(shù)據(jù)集選擇
Table 2 Highest and lowest recognition rates of different methods on ORL and UMIST表2 各算法在ORL及UMIST數(shù)據(jù)集上的最低和最高識(shí)別率
從表2中可以看出,UMIST數(shù)據(jù)集上的識(shí)別結(jié)果基本低于ORL上的識(shí)別結(jié)果,這是因?yàn)镺RL數(shù)據(jù)集只包含了每張人臉圖像微小的姿態(tài)變化,而人工選取的UMIST測(cè)試樣本包含了較大幅度的姿態(tài)變化??梢?,在單樣本識(shí)別問題中,姿態(tài)變化很大程度上影響著最后的識(shí)別結(jié)果。不過,本文算法表現(xiàn)出了很好的魯棒性,與其他最優(yōu)算法相比,識(shí)別率也要高出2至3個(gè)百分點(diǎn)。這是因?yàn)長(zhǎng)FCA-FB算法學(xué)習(xí)出了姿態(tài)變化所引起的輸入空間變化的方向,從而使整個(gè)神經(jīng)網(wǎng)絡(luò)的輸出不受這些方向變化的影響。
同樣,將LFCA-FB算法運(yùn)用在AR的遮擋子數(shù)據(jù)集上并與SOM算法進(jìn)行比較,圖11為實(shí)驗(yàn)結(jié)果。從圖中可以看出,在F1、F2、G1、G2數(shù)據(jù)集上的識(shí)別率要比SOM分別高出2、2、3、4個(gè)百分點(diǎn)。G1、G2(圍巾遮擋)上的識(shí)別率也分別高于F1、F2(太陽(yáng)鏡遮擋)上的識(shí)別率,也就是說嘴巴、下顎部分被遮擋對(duì)算法的影響要小于眼睛、鼻子被遮擋時(shí)的影響,這從人們的直觀感覺來看是容易理解的。對(duì)于權(quán)值較小的局部特征流形,即使它的輸入變化顯著,也不會(huì)輕易影響到神經(jīng)網(wǎng)絡(luò)的輸出。
Fig.11 Comparative performance of LFCA-FB and SOM on F1, F2, G1, G2 subsets of AR圖11 在AR子集F1、F2、G1、G2上LFCA-FB與SOM的比較
D1和D2是尖叫表情的子數(shù)據(jù)集,它與訓(xùn)練圖像已產(chǎn)生很大的表情變化,見圖10。將LFCA-FB運(yùn)行在此數(shù)據(jù)集上,并與SOM算法比較,結(jié)果見圖12。從圖中可以看出,LFCA-FB算法對(duì)于復(fù)雜表情變化有很好的魯棒性,其在D1、D2子集的最高識(shí)別率分別達(dá)到了93.0%和92.5%,相比SOM算法提高了3個(gè)百分點(diǎn)。顯然,LFCA-FB很好地捕捉到了表情變化所引起的局部特征變化的方向,將表情變化對(duì)最終輸出結(jié)果的影響降到最低。
Fig.12 Comparative performance of LFCA-FB and SOM on D1, D2 subsets of AR圖12 在AR子集D1、D2上LFCA-FB與SOM的比較
LFCA-FB算法的時(shí)間復(fù)雜度較高,這是因?yàn)槭紫刃枰?jīng)過SOM的預(yù)訓(xùn)練,然后再用改進(jìn)的反向傳播算法進(jìn)行微調(diào)。因此,訓(xùn)練階段的耗時(shí)即是算法時(shí)間復(fù)雜度。表3給出了在FERET-1數(shù)據(jù)集上,不同樣本數(shù)、神經(jīng)元數(shù)情況下,訓(xùn)練階段的耗時(shí)。同時(shí),在AR的B、C子集上驗(yàn)證算法的收斂性,圖13(a)和(b)分別顯示了算法在B、C子集上識(shí)別率隨迭代次數(shù)的變化情況。從圖中可以看出,LFCA-FB算法最終能收斂到一個(gè)局部最優(yōu)值。
Table 3 Running time of LFCA-FB on FERET-1表3 LFCA-FB在FERET-1上的運(yùn)行時(shí)間
本文使用人臉的局部特征構(gòu)造多流形結(jié)構(gòu)。通過橫空間、縱空間聯(lián)絡(luò)矩陣的變化學(xué)習(xí)出原始輸入數(shù)據(jù)在流形間及流形內(nèi)影響最終輸出的主要變化方向,將此額外信息應(yīng)用到最終的神經(jīng)網(wǎng)絡(luò)訓(xùn)練中,解決單樣本人臉識(shí)別的同時(shí)增強(qiáng)算法對(duì)人臉流形隨姿態(tài)、表情等變化的魯棒性。
Fig.13 Convergence on B, C subsets of AR圖13 在AR子集B、C上算法的收斂情況
實(shí)驗(yàn)部分發(fā)現(xiàn)算法的時(shí)間復(fù)雜度較高,如何選擇合適的分塊大小、神經(jīng)元數(shù)目以減少訓(xùn)練時(shí)間值得進(jìn)一步研究。
References:
[1] Brunelli R, Poggio T. Face recognition: features versus templates[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1993, 15(10): 1042-1052.
[2] Turk M, Pentland A. Eigenfaces for recognition[J]. Journal of Cognitive Neuroscience, 1991, 3(1): 71-86.
[3] Martinez A M, Kak A C. PCA versus LDA[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(2): 228-233.
[4] Er M J, Wu Shiqian, Lu Juwei, et al. Face recognition with radial basis function (RBF) neural networks[J]. IEEE Transactions on Neural Networks, 2002, 13(3): 697-710.
[5] Tan Xiaoyang, Chen Songcan, Zhou Zhihua, et al. Face recognition from a single image per person: a survey[J]. Pattern recognition, 2006, 39(9): 1725-1745.
[6] Pang Yanwei, Pan Jing, Liu Zhengkai. Cluster-based LDA for single sample problem in face recognition[C]//Proceedings of the 2005 International Conference on Machine Learning and Cybernetics, Guangzhou, China, Aug 18-21, 2005. Piscataway, USA: IEEE, 2005: 4583-4587.
[7] Wu Jianxin, Zhou Zhihua. Face recognition with one training image per person[J]. Pattern Recognition Letters, 2002, 23 (14): 1711-1719.
[8] Chen Songcan, Zhang Daoqiang, Zhou Zhihua. Enhanced (PC)2A for face recognition with one training image per person[J]. Pattern Recognition Letters, 2004, 25(10): 1173-1181.
[9] Yang Jian, Zhang D, Frangi A F, et al. Two-dimensional PCA: a new approach to appearance-based face representation and recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2004, 26(1): 131-137.
[10] Zhang Daoqiang, Zhou Zhihua. (2D)2PCA: two-directional two-dimensional PCA for efficient face representation and recognition[J]. Neurocomputing, 2005, 69(1): 224-231.
[11] De la Torre F, Gross R, Baker S, et al. Representational oriented component analysis (ROCA) for face recognition with one sample image per training class[C]//Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, San Deigo, USA, Jun 20-26, 2005. Piscataway, USA: IEEE, 2005: 266-273.
[12] Martinez A M. Recognizing imprecisely localized, partially occluded, and expression variant faces from a single sample per class[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(6): 748-763.
[13] Beymer D, Poggio T. Face recognition from one example view[C]//Proceedings of the 5th International Conference on Computer Vision, Cambridge, USA, Jun 20-23, 1995. Piscataway, USA: IEEE, 1995: 500-507.
[14] Chen Songcan, Liu Jun, Zhou Zhihua. Making FLDA applicable to face recognition with one sample per person[J]. Pattern Recognition, 2004, 37(7): 1553-1555.
[15] Tan Xiaoyang, Chen Songcan, Zhou Zhihua, et al. Recognizing partially occluded, expression variant faces from single training image per person with SOM and soft k-NN ensemble[J]. IEEE Transactions on Neural Networks, 2005, 16 (4): 875-886.
[16] Tenenbaum J B, De Silva V D, Langford J C. A global geometric framework for nonlinear dimensionality reduction[J]. Science, 2000, 290(5500): 2319-2323.
[17] Roweis S T, Saul L K. Nonlinear dimensionality reduction by locally linear embedding[J]. Science, 2000, 290(5500): 2323-2326.
[18] Silva V D, Tenenbaum J B. Global versus local methods in nonlinear dimensionality reduction[C]//Advances in Neural Information Processing Systems 15: Proceedings of the 16th Annual Conference on Neural Information Processing Systems, Vancouver, Canada, Dec 9-14, 2002. Cambridge, USA: MIT Press, 2002: 705-712.
[19] Chen Xingshen, Chen Weihuan. Lectures on differential geometry[M]. Beijing, China: Peking University Press, 2001.
[20] Rifai S, Dauphin Y N, Vincent P, et al. The manifold tangent classifier[C]//Advances in Neural Information Processing Systems 24: Proceedings of the 25th Annual Conference on Neural Information Processing Systems, Granada, Spain, Dec 12-14, 2011. Cambridge, USA: MIT Press, 2011: 2294-2302.
[21] Alavi A, Wiliem A, Zhao K, et al. Random projections on manifolds of symmetric positive definite matrices for image classification[C]//Proceedings of the 2014 IEEE Winter Conference on Applications of Computer Vision, Steamboat Springs, USA, Mar 24- 26, 2014. Piscataway, USA: IEEE, 2014: 301-308.
[22] Rifai S, Vincent P, Muller X, et al. Contractive auto-encoders: explicit invariance during feature extraction[C]//Proceedings of the 28th International Conference on Machine Learning, Bellevue, USA, Jun 28- Jul 2, 2011. Madison, USA: Omni Press, 2011: 833-840.
[23] Yu Kai, Zhang Tong, Gong Yihong. Nonlinear learning using local coordinate coding[C]//Advances in Neural Information Processing Systems 22: Proceedings of the 23rd Annual Conference on Neural Information Processing Systems, Vancouver, Canada, Dec 7-10, 2009. Red Hook, USA: Curran Associates, 2009: 2223-2231.
[24] Yu Kai, Zhang Tong. Improved local coordinate coding using local tangents[C]//Proceedings of the 27th International Conference on Machine Learning, Haifa, Israel, Jun 21-24, 2010. Madison, USA: Omni Press, 2010: 1215-1222.
[25] Bengio Y, Monperrus M. Non-local manifold tangent learning [C]//Advances in Neural Information Processing Systems 17: Proceedings of the 18th Annual Conference on Neural Information Processing Systems, Vancouver, Canada, Dec 13-18, 2004: 129-136.
[26] Bengio Y, Larochelle H, Vincent P. Non-local manifold parzen windows[C]//Advances in Neural Information Processing Systems 18: Proceedings of the 19th Annual Conference on Neural Information Processing Systems, Vancouver, Canada, Dec 5-8, 2005. Cambridge, USA: MIT Press, 2005: 115-122.
[27] Li Fanzhang, Zhang Li, Yang Jiwen, et al. Lie group machine learning[M]. Hefei, China: China Science and Technology University Press, 2013.
[28] He Xiaofei, Niyogi P. Locality preserving projections[C]// Advances in Neural Information Processing Systems 16: Proceedings of the 17th Annual Conference on Neural Information Processing Systems, Vancouver, Canada, Dec 8-13, 2003. Cambridge, USA: MIT Press, 2003: 153-160.
[29] Zhang Zhenyue, Zha Hongyuan. Principal manifolds and nonlinear dimensionality reduction via tangent space alignment[J]. Journal of Shanghai University: English Edition, 2004, 8(4): 406-424.
附中文參考文獻(xiàn):
[19]陳省身,陳維桓.微分幾何講義[M].北京:北京大學(xué)出版社, 2001.
[27]李凡長(zhǎng),張莉,楊季文,等.李群機(jī)器學(xué)習(xí)[M].合肥:中國(guó)科學(xué)技術(shù)大學(xué)出版社, 2013.
ZHANG Qiming was born 1989. He is an M.S. candidate at School of Computer Science and Technology, Soochow University. His research interest is machine learning.
張啟明(1989—),男,江蘇揚(yáng)州人,蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院碩士研究生,主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí)。
LI Fanzhang was born in 1964. He received the M.S. degree in computer science and technology from University of Science and Technology of China in 1995. Now he is a professor and Ph.D. supervisor at Soochow University, and the senior member of CCF. His research interests include artificial intelligence and machine learning, etc.
李凡長(zhǎng)(1964—),男,云南宣威人,1995年于中國(guó)科技大學(xué)獲得碩士學(xué)位,現(xiàn)為蘇州大學(xué)教授、博士生導(dǎo)師,CCF高級(jí)會(huì)員,主要研究領(lǐng)域?yàn)槿斯ぶ悄埽瑱C(jī)器學(xué)習(xí)等。
Local Feature Connection Learning Algorithm Based on Frame Bundle?
ZHANG Qiming, LI Fanzhang+
School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu 215006, China
+ Corresponding author: E-mail: lfzh@suda.edu.cn
ZHANG Qiming, LI Fanzhang. Local feature connection learning algorithm based on frame bundle. Journal of Frontiers of Computer Science and Technology, 2016, 10(4): 533-542.
Abstract:Small sample size is one challenging problem for face recognition. In many practical applications such as ID card identification, e-passport, even there is only single sample per person. Many traditional methods fail to work in this scenario because there are not enough samples for learning. This paper proposes a novel method which is based on manifold learning to solve this problem. Firstly, this proposed method views local feature (eyes, nose, mouth) of a face as a manifold and uses self-organization mapping neural network to train a multi-manifold structure. Then it associates each manifold by connection operator on frame bundle and learns the directions of intermanifold and intra-manifold which are not sensitive to the variations of the input. Finally, it adds this additional information to supervised training. The proposed method combines neural network and manifold learning, changing single sample problem to multi-manifold matching problem. Experiments on well-known face databases ORL, UMIST, FERET and AR show that the proposed method outperforms some renowned methods and gets a better performance when facing the problem of variation of expression and pose, etc.
Key words:connection learning; frame bundle; multi-manifold; horizontal space; vertical space; one training sample
文獻(xiàn)標(biāo)志碼:A
中圖分類號(hào):TP181
doi:10.3778/j.issn.1673-9418.1505062