基于PCA和SVM的人臉識(shí)別系統(tǒng)研究

2014-07-19 06:59:02姚家振

赤峰學(xué)院學(xué)報(bào)·自然科學(xué)版 2014年20期

關(guān)鍵詞：二叉樹人臉識(shí)別正確率

宋杰，姚家振

（安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，安徽合肥 230601）

基于PCA和SVM的人臉識(shí)別系統(tǒng)研究

宋杰，姚家振

（安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，安徽合肥 230601）

本文采用了圖像的RGB特征進(jìn)行人臉識(shí)別，所用的是ORL頭像數(shù)據(jù)庫.先對(duì)其進(jìn)行圖像預(yù)處理來增強(qiáng)圖像特征，然后采用PCA方法將其降維，取出其主特征信息.用這個(gè)主特征向量空間進(jìn)行SVM訓(xùn)練得到支持向量機(jī)模型.識(shí)別的時(shí)候先將要識(shí)別的頭像進(jìn)行相同的預(yù)處理，之后映射到樣本空間再進(jìn)行識(shí)別.同時(shí)使用了SVM的默認(rèn)多分類，也采用了一種基于二叉樹方法的多分類，并比較其異同.

人臉識(shí)別；PCA；SVM；樣本空間

引言

隨著社會(huì)的不斷進(jìn)步以及各行業(yè)對(duì)于快速有效的自動(dòng)身份驗(yàn)證的迫切要求，生物特征識(shí)別技術(shù)在近幾十年中得到了飛速的發(fā)展.作為人的一種內(nèi)在屬性，并且具有很強(qiáng)的自身穩(wěn)定性及個(gè)體差異性，生物特征成為了自動(dòng)身份驗(yàn)證的最理想依據(jù).當(dāng)前的生物特征識(shí)別技術(shù)主要包括：指紋識(shí)別，視網(wǎng)膜識(shí)別，虹膜識(shí)別，步態(tài)識(shí)別，靜脈識(shí)別，人臉識(shí)別等.

與其他識(shí)別方法相比，人臉識(shí)別由于具有直接，友好，方便的特點(diǎn)，使用者無任何心理障礙，易于為用戶所接受，從而得到了廣泛的研究與應(yīng)用.人臉分析主要包括人臉檢測(cè)(Face Detection)和人臉識(shí)別(Face Recognition)兩方面.從20世紀(jì)70年代開始，人臉識(shí)別已經(jīng)引起了一些研究人員的強(qiáng)烈興趣，到了20世紀(jì)90年代，隨著模式識(shí)別、圖像處理、計(jì)算機(jī)視覺、生理學(xué)、心理學(xué)及認(rèn)知學(xué)等諸多學(xué)科的發(fā)展，人臉識(shí)別技術(shù)獲得了突破性的進(jìn)展.

1 PCA降維，提取主特征向量

主成分分析(Principal Component Analysis,簡(jiǎn)稱PCA)是一種常用的基于變量協(xié)方差矩陣對(duì)信息進(jìn)行處理、壓縮和抽提的有效方法.PCA方法由于其在降維和特征提取方面的有效性，在人臉識(shí)別領(lǐng)域得到了廣泛的應(yīng)用.PCA方法的基本原理是利用K-L變換抽取人臉的主要成分，構(gòu)成特征臉空間，識(shí)別時(shí)將測(cè)試圖像投影到此空間，得到一組投影系數(shù)，通過與各個(gè)人臉圖像比較進(jìn)行識(shí)別.

2 SVM分類及其多分類實(shí)現(xiàn)的方案

2.1 SVM簡(jiǎn)介

支持向量機(jī)(Support Vector Machine，簡(jiǎn)稱SVM)，是統(tǒng)計(jì)學(xué)理論中最年輕的內(nèi)容，也是最實(shí)用的部分.本方案采用了C-SVC模型，其模型優(yōu)化函數(shù)(C為懲罰系數(shù))為：

決策函數(shù)如下(K(xi,x)為核函數(shù))：

此設(shè)計(jì)中核函數(shù)使用的是RBF核函數(shù)：

同時(shí)使用了臺(tái)灣大學(xué)林智仁副教授開發(fā)的一個(gè)運(yùn)行于matlab的工具箱(libsvm-mat)來實(shí)現(xiàn)svm分類，

參數(shù)說明：model即為支持向量積模型，svmtrain用來訓(xùn)練樣本,第一個(gè)參數(shù)是標(biāo)簽參數(shù)，是n*l維矩陣代表第二個(gè)樣本參數(shù)的標(biāo)簽，第三個(gè)參數(shù)是模型以及核函數(shù)及其函數(shù)參數(shù)的選擇.svmpredict是用來預(yù)測(cè)分類的,返回其分類的準(zhǔn)確率.

2.2 SVM多分類的實(shí)現(xiàn)方案

由于SVM只能處理二分類問題，其內(nèi)部的多分類實(shí)現(xiàn)是兩兩配對(duì)然后進(jìn)行投票分類.

本方案設(shè)計(jì)了一種完全二叉樹的方法，即先將數(shù)據(jù)按照某種方法分成分，將其作為SVM的兩個(gè)分類數(shù)據(jù)，同理遞歸的對(duì)這兩個(gè)數(shù)據(jù)進(jìn)行同樣的操作，即分成四份，以此類推.本方案為了實(shí)現(xiàn)方便，將訓(xùn)練樣本和測(cè)試樣本各占50%，共400張頭像，40個(gè)分類，每個(gè)人十個(gè)頭像.這種多分類明顯的缺點(diǎn)是不如每種數(shù)據(jù)兩兩分類再投票的正確率來得高，但是效率要比這種默認(rèn)的多分類高，因?yàn)槎鏄涞姆诸惙椒ū容^次數(shù)要遠(yuǎn)遠(yuǎn)小于兩兩分類的比較次數(shù).

本方案為了方便比較，選取了兩種預(yù)分類方案：

i將原數(shù)據(jù)按照特征的方差進(jìn)行排序，將同一類的數(shù)據(jù)方差取平均數(shù)操作，然后按照這個(gè)平均數(shù)進(jìn)行排序，將前面的50%分為第一類，將靠后的50%分為第二類.同理依次類推，直到分到第四次的時(shí)候使用默認(rèn)的分類方法.

其索引和特征值見表1：

表1 按照方差進(jìn)行排序的索引和特征值

ii用Kmeans聚類方法將數(shù)據(jù)預(yù)分類為兩類，再將分類數(shù)據(jù)進(jìn)行SVM訓(xùn)練，遞歸這兩類數(shù)據(jù)，將其每個(gè)數(shù)據(jù)再次Kmeans聚類成兩類，直到第三層停止，然后使用默認(rèn)分類方法.

其索引和特征值見表2：

表2 Kmeans聚類方法的索引和特征值

3 實(shí)驗(yàn)結(jié)果

上面已經(jīng)介紹過如何用SVM進(jìn)行數(shù)據(jù)預(yù)測(cè)分類,可以直接調(diào)用svmtrain進(jìn)行多樣本分類,由于本設(shè)計(jì)自行設(shè)計(jì)了二叉樹實(shí)現(xiàn)的多分類,其為完全二叉樹存放在數(shù)組中,所以在進(jìn)行測(cè)試數(shù)據(jù)樣本分類時(shí)使用了遞歸的算法.

測(cè)試第i(i

表3 數(shù)據(jù)表

使用原圖像和圖像增強(qiáng)處理后進(jìn)行SVM分類,最后的匹配效果見圖1：

圖1 增強(qiáng)圖像匹配效果

原圖像匹配效果見圖2

圖2 原圖像匹配效果

比較可知，圖像預(yù)處理是必要的,預(yù)處理后特征向量的區(qū)分度明顯高于處理前，三種SVM的最終識(shí)別率如表4所示：

表4 三種SVM的最終的識(shí)別率

上述結(jié)果可能因?qū)嶒?yàn)環(huán)境的不同而出現(xiàn)略微的差異，結(jié)果的誤差在2%左右.

因?yàn)楸痉桨缸罱K有三個(gè)學(xué)習(xí)機(jī)，所以可以按照一定的策略進(jìn)行組合預(yù)測(cè)，比如提供如下策略：采用投票加信賴機(jī)制，如果兩個(gè)以上的學(xué)習(xí)機(jī)預(yù)測(cè)到了同一個(gè)結(jié)果，那么結(jié)果就毫無疑問，當(dāng)三個(gè)分別預(yù)測(cè)了不同方案時(shí)，選取一個(gè)比較信賴的學(xué)習(xí)機(jī)的結(jié)果.按照這種方案進(jìn)行了組合預(yù)測(cè)，其實(shí)驗(yàn)結(jié)果如表5：

表5 預(yù)測(cè)結(jié)果

4 結(jié)論

用二叉樹分類比libsvm自帶的多分類的88%識(shí)別率要低，說明上述用方差或者Kmeans來分類是有所欠缺的，錯(cuò)誤多數(shù)是發(fā)生在第一次樣本分類上，說明用很多樣本進(jìn)行一次訓(xùn)練的時(shí)候,樣本之間的交叉程度很高，這也說明了一點(diǎn)，SVM在多分類方面確實(shí)有所欠缺，默認(rèn)的多分類要進(jìn)行次數(shù)太多，而采用二叉樹分類，雖然在比較次數(shù)上有所減少，但是很難找到一個(gè)正確率無限接近默認(rèn)多分類的預(yù)分類方案，本方案的兩種預(yù)分類都比默認(rèn)多分類正確率低6% -8%左右，所以在今后應(yīng)努力找到一種好的預(yù)分類方案，能用最少的次數(shù)預(yù)測(cè)出和默認(rèn)一樣的正確率，即在對(duì)預(yù)測(cè)影響不大的情況下，找到一種比較次數(shù)最少的也就是效率最高的方法.

〔1〕Mathias Eitz,Kristian Hildebrand.A descriptor for large scale image retrieval based on sketched feature lines[J]. EUROGRAPHICS Symposium on Sketch-Based Interfaces and Modeling,2009.

〔2〕Pang Ying Han,Fazly Salleh Abas,Hiew Fu San. Kernelization of regularized feature extractor in face recognition[J].International Conference on Electronics, Information and Communication Engineering Lecture Notes in Information Technology,Vol.11,2012.

〔3〕Josef Sivic,Andrew Zisserman.Video Google:A text retrieval approach to object matching in videos[J]. Proceedings of the Ninth IEEE International Conference on Computer Vision(ICCV’03),2003.

〔4〕焦斌亮，陳爽.基于PCA算法的人臉識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用，2011,47(18).

〔5〕胡斌斌，姚明海.基于SVM的圖像分類[J].微計(jì)算機(jī)信息，2010，26（1-1）.

〔6〕宋暉，薛云，張良均.基于SVM分類問題的核函數(shù)選擇仿真研究[J].計(jì)算機(jī)與現(xiàn)代化，2011（8）.

〔7〕黃昉，張寶昌，劉金琨.PCA在人臉識(shí)別中的改進(jìn)算法[J].中國科技論文在線，2011，6（1）.

〔8〕劉學(xué)勝.基于PCA和SVM算法的人臉識(shí)別[J].計(jì)算機(jī)與數(shù)字工程，2011（7）.

TP391

1673-260X（2014）10-0031-02