莊薪霖
(中國(guó)海洋大學(xué) 信息科學(xué)與工程學(xué)部,山東 青島266100)
作為一種通過(guò)獲取人面部的特征信息進(jìn)行身份確認(rèn)的技術(shù),人臉識(shí)別近年來(lái)一直是人工智能、計(jì)算機(jī)視覺(jué)、心理學(xué)等領(lǐng)域的熱門(mén)研究問(wèn)題。類似已用于身份識(shí)別的人體的其他生物特征(如虹膜、指紋等),人臉具備唯一性、一致性和高度的不可復(fù)制性,為身份識(shí)別提供了穩(wěn)定的條件。人臉識(shí)別的應(yīng)用日益廣泛,例如用于刑事案件偵破、智慧交通、出入口控制、互聯(lián)網(wǎng)服務(wù)等。人臉識(shí)別不同于傳統(tǒng)的學(xué)科,涉及到計(jì)算機(jī)視覺(jué)、心理學(xué)等諸多學(xué)科的理論和方法[1],人臉識(shí)別技術(shù)的研究對(duì)相關(guān)人員知識(shí)體系的完備性提出了較高要求,具有豐富的研究意義。
本文按照實(shí)際使用的場(chǎng)景將人臉識(shí)別劃分為兩類:無(wú)遮擋人臉識(shí)別和有遮擋人臉識(shí)別。早期的人臉識(shí)別算法在無(wú)遮擋條件下可以正常使用,但對(duì)于有遮擋的情況表現(xiàn)不佳;人臉識(shí)別系統(tǒng)通常會(huì)受到各類因素的影響,獲得的人臉并不完整,比如受到光照遮擋、實(shí)物遮擋等的影響[2]。本文分別介紹了各類比較成熟完善的方法與技術(shù),最后進(jìn)行了總結(jié)和展望。
無(wú)遮擋人臉識(shí)別是指受外界條件影響因素小或較理想地?zé)o外界影響因素情況下的人臉識(shí)別。根據(jù)發(fā)展歷程,本文將其分為傳統(tǒng)的無(wú)遮擋人臉識(shí)別方法和現(xiàn)代的無(wú)遮擋人臉識(shí)別方法。傳統(tǒng)無(wú)遮擋人臉識(shí)別方法可分為基于幾何特征的方法、基于代數(shù)特征的方法;現(xiàn)代無(wú)遮擋人臉識(shí)別方法可分為基于特征子空間的方法、基于雙模態(tài)融合的方法。
1.1.1 基于幾何特征的方法
基于幾何特征的人臉識(shí)別方法是一種比較直觀且常用于早期人臉識(shí)別的傳統(tǒng)方法。該類方法通常需要和其他輔助算法結(jié)合使用才可以獲得更好的效果[3]?;谠摲椒ǖ娜四樧R(shí)別系統(tǒng)主要提取人臉的主要幾何特征點(diǎn)(如面部輪廓等)、面部主要器官連續(xù)形狀、幾何特征曲率等信息進(jìn)行識(shí)別。人面部不能完全近似為剛體的特性為幾何特征的提取帶來(lái)了較高的復(fù)雜度和難度。
張俊等使用形態(tài)交離變換法先確定眼球的位置,以此為基礎(chǔ)來(lái)確定各器官的分布區(qū)域、根據(jù)區(qū)域點(diǎn)投影圖確定特征點(diǎn)[4]。其設(shè)計(jì)的特征向量具有尺寸、旋轉(zhuǎn)和位移的不變性,獲得了較好的適應(yīng),最后在250 個(gè)待測(cè)樣本中達(dá)到96%的識(shí)別率。闕曉輝等結(jié)合使用PCA 等算法,利用膚色模型和器官特征提取了人臉特征和用于輔助的側(cè)臉特征(正側(cè)面特征相結(jié)合),提出了基于局部特征的人臉識(shí)別算法。該方法也獲得了比較好的識(shí)別效果[5]。
1.1.2 基于代數(shù)特征的方法
此類方法從代數(shù)特征的角度出發(fā),相較于基于幾何特征的方法,其優(yōu)勢(shì)在于對(duì)光照和人的表情變化有一定的包容度[6]。
彭輝等改進(jìn)K-L 變換進(jìn)行人臉識(shí)別[7]。該方法的核心為分層次的最小距離分類器,其識(shí)別率達(dá)到86.13%、91.06%。高麗萍等提出了特征半臉?lè)椒╗8]。該方法在Stirling人像數(shù)據(jù)庫(kù)的識(shí)別率優(yōu)于單獨(dú)的特征臉?lè)椒?。周德龍以奇異值特征向量為基礎(chǔ),結(jié)合模擬K-L 變換、Fisher 線性判別分析技術(shù)等,設(shè)計(jì)出了十分簡(jiǎn)潔有效的分類器,利用少量的特征向量得到了較高識(shí)別率:在Essex 彩色人臉圖像數(shù)據(jù)庫(kù)中測(cè)試達(dá)到96.25%的識(shí)別率[9]。王蘊(yùn)紅等引入了正負(fù)樣本學(xué)習(xí)過(guò)程進(jìn)行人臉識(shí)別[10]。該方法對(duì)結(jié)果隸屬度函數(shù)進(jìn)行了LOGISTIC 回歸,從而在一定程度上克服了小樣本效應(yīng)的問(wèn)題。該方法在標(biāo)準(zhǔn)ORL 人臉數(shù)據(jù)庫(kù)中測(cè)試結(jié)果達(dá)到了90.48%的識(shí)別率。
現(xiàn)代無(wú)遮擋人臉識(shí)別大多結(jié)合深度學(xué)習(xí)的理論和技術(shù)。該類方法不必人為對(duì)不同類型的類內(nèi)差異(例如人臉的姿勢(shì)、待識(shí)別者的年齡等)設(shè)計(jì)特定特征,因?yàn)槠淠軌蜃匀坏貜挠?xùn)練數(shù)據(jù)中獲得。
1.2.1 基于特征子空間的方法
基于特征子空間的方法是一種將人臉的二維圖像通過(guò)變換調(diào)整到另外的空間中,從而便于在其他空間中處理非人臉特征同人臉特征之間的區(qū)別的處理方法。其常用的算法有主元分析法(又稱K-L 變換法)、因子分解法、Fisher 準(zhǔn)則方法、小波變換等[11]。
尹飛等基于一般的PCA 方法做了一定改善[12]。該方法在選用的部分小像素圖像中實(shí)驗(yàn)得到大約76%的識(shí)別準(zhǔn)確率。喬宇等提出了一種基于加權(quán)的主元分析法[13]。該方法先利用大量樣本的統(tǒng)計(jì)學(xué)習(xí)求得各特征較合適的加權(quán)系數(shù),再加強(qiáng)對(duì)關(guān)鍵特征的識(shí)別、弱化非關(guān)鍵特征的作用實(shí)現(xiàn)加權(quán)K-L 變換。該方法在劍橋的ORL 人臉數(shù)據(jù)庫(kù)達(dá)到接近95%的識(shí)別率。齊興敏改善了以往Fisher 準(zhǔn)則類方法應(yīng)用于人臉識(shí)別中常見(jiàn)的小樣本問(wèn)題,提出了改進(jìn)的基于Fisher 準(zhǔn)則的2DPCA 人臉識(shí)別算法[14]。該方法綜合運(yùn)用了2DPCA 提取人臉特征和LDA 作分類,克服了小樣本問(wèn)題,在50-55 維之間保持較高的識(shí)別率。
1.2.2 基于雙模態(tài)融合的方法
基于雙模態(tài)融合的方法同時(shí)運(yùn)用二維和三維兩個(gè)模態(tài)的信息,可以在信號(hào)層、特征層、決策層進(jìn)行融合,從而獲得比單模態(tài)更優(yōu)的識(shí)別效果[15]。
Sotiris 等提出了一種計(jì)算效率高并且不需要擴(kuò)展訓(xùn)練集的歸一化方法[16]。在其大數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,在分類前應(yīng)用所提出的歸一化算法可以顯著提高基于模板的人臉識(shí)別性能。該方法在其自行采集的三維人臉數(shù)據(jù)集中,識(shí)別率達(dá)到96.3%以上。Yingjie 等融合了歸一化的形狀和紋理權(quán)重向量,提出了一種基于三維距離數(shù)據(jù)和二維灰度圖像的人臉識(shí)別方法[17]。在對(duì)其50 名學(xué)生的面部圖像的實(shí)驗(yàn)中,達(dá)到了90%以上的識(shí)別率。Chiraz 等融合了深度和紋理的人臉編碼,提出了一種模式分類器,支持深度、紋理、深度和紋理融合這三種輸入[18]。該方法在185 個(gè)測(cè)試人臉數(shù)據(jù)中,均達(dá)到了92%以上的識(shí)別率;且深度和紋理結(jié)合達(dá)到97%左右的識(shí)別率。
相比于無(wú)遮擋人臉識(shí)別,有遮擋人臉識(shí)別更常見(jiàn)于現(xiàn)實(shí)應(yīng)用場(chǎng)景。有遮擋人臉識(shí)別需要考慮的影響因素較多,不易實(shí)現(xiàn)。其主要影響因素有特征損失、局部混疊、對(duì)準(zhǔn)誤差等。當(dāng)前常用方法有傳統(tǒng)的子空間回歸法、結(jié)構(gòu)化誤差編碼法以及現(xiàn)代應(yīng)用“淺層”魯棒特征提取的方法、深度學(xué)習(xí)方法。
2.1.1 基于子空間回歸方法
基于子空間回歸方法的核心思想是待識(shí)別人臉樣本是否能回歸落到他所屬的子空間之中。人臉圖像之間本身帶有的高度相關(guān)性,再加上遮擋物的干擾,就必須考慮清楚遮擋子空間和人臉子空間相關(guān)性如何去除。
趙雯等主要解決了待識(shí)別圖像中噪聲的影響問(wèn)題,提出了一種同時(shí)運(yùn)用DLRR 和FDDL 方法的魯棒人臉識(shí)別算法[19]。單獨(dú)使用DLRR 會(huì)忽略樣本類內(nèi)結(jié)構(gòu)信息,但加上FDDL 的優(yōu)化會(huì)更好地表示各類別的子字典,從而改善識(shí)別效果。該方法在FERET 人臉庫(kù)、AR 人臉庫(kù)、XM2VTS 人臉庫(kù)中,識(shí)別率最高分別達(dá)到了80.17%、98.25%、95.85%。
2.1.2 基于結(jié)構(gòu)化誤差編碼的方法
由實(shí)物遮擋引起的誤差一般具有一定的空間結(jié)構(gòu)(比如墨鏡遮擋、圍巾遮擋等),這與由高斯噪聲引起的誤差不同。結(jié)構(gòu)化誤差編碼是一類常用解決方法,常見(jiàn)的編碼思路有構(gòu)造遮擋字典、利用反向表示分離出遮擋等。
李小薪等綜述了幾種主流的結(jié)構(gòu)化誤差編碼方式,提出了一種能夠提高人臉識(shí)別率和加強(qiáng)識(shí)別性能的基于奇異值分解的Gabor 遮擋字典學(xué)習(xí)方法[20]。該方法通過(guò)Extended Yale B、AR、UMBDB 三個(gè)人臉數(shù)據(jù)庫(kù)進(jìn)行驗(yàn)證測(cè)試:在Extended Yale B 測(cè)試集中,當(dāng)遮擋比例不超過(guò)40%時(shí)可獲得較高的識(shí)別率;在UMBDB 測(cè)試集和AR測(cè)試集中,采用SVD-2 算法可獲得最高的識(shí)別率。楊方方等面向帶有強(qiáng)噪聲的人臉圖像,提出了一種有優(yōu)秀抗干擾能力的人臉識(shí)別算法[21]。其與SVM、SRC、GSRC、GLR_SRC算法進(jìn)行對(duì)比,通過(guò)Extended Yale B 和AR 人臉數(shù)據(jù)庫(kù)進(jìn)行測(cè)試。在AR 人臉數(shù)據(jù)集中,該算法對(duì)于圍巾遮擋、眼鏡遮擋以及同時(shí)含有圍巾和眼鏡遮擋的圖像識(shí)別率均高于其他四種算法,可識(shí)別率接近80%。
當(dāng)前,已經(jīng)出現(xiàn)了大量識(shí)別性能較好的特征提取和學(xué)習(xí)的有遮擋人臉識(shí)別算法。本文從“淺層”特征到深層特征,對(duì)現(xiàn)有的方法進(jìn)行回顧。
2.2.1 基于“淺層”魯棒特征提取的方法
“淺層”魯棒特征提取的主要思想是依據(jù)人為設(shè)計(jì)的“淺層”特征提取相關(guān)的人臉識(shí)別特征,但對(duì)光照遮擋和實(shí)物遮擋混合出現(xiàn)的情況魯棒性差[22]。
曾慧等提出了一種可應(yīng)用于圖像匹配的魯棒圖像局部特征區(qū)域描述子的構(gòu)造方法。該方法在光照變化、有遮擋等情況下具有較好的魯棒性,能為人臉識(shí)別提供有利的參考[23]。其采用Mikolajczyk 數(shù)據(jù)集驗(yàn)證,并和SIFT、CSLBP 描述子進(jìn)行了對(duì)比:該方法擁有較高的正確檢索率和較短的平均運(yùn)算時(shí)間開(kāi)銷。李昆明等利用韋伯算子的優(yōu)勢(shì)進(jìn)行人臉識(shí)別[24]。該方法融合了韋伯方向差分模式和韋伯局部方向差分激勵(lì)累積模式進(jìn)行判別、采用基于分塊的線性判別降維,提高了識(shí)別速度并減小了空間消耗。該方法在ORL 人臉數(shù)據(jù)庫(kù)上的識(shí)別率最高達(dá)98%。
2.2.2 基于深度學(xué)習(xí)的方法
人臉識(shí)別有遮擋的人臉圖像是通過(guò)理解人臉圖像中的高階屬性實(shí)現(xiàn)的。深度學(xué)習(xí)具有從輸入層到輸出層的多層非線性映射和基于反向傳播的反饋學(xué)習(xí)機(jī)制,非常適合解決這類常規(guī)分類器無(wú)法比擬的變換問(wèn)題。深度網(wǎng)絡(luò)具有穩(wěn)定強(qiáng)大的分布式表達(dá)能力,因此可以設(shè)計(jì)合理的網(wǎng)絡(luò)完成人臉識(shí)別的任務(wù)。
郭偉等采用PCANet 深度學(xué)習(xí)模型,提出了一種結(jié)合DL 和特征點(diǎn)遮擋檢測(cè)的人臉識(shí)別算法[25]。該方法在AR人臉數(shù)據(jù)庫(kù)中驗(yàn)證,并和PCANet 算法、SRC 算法、Gabor-SRC 算法進(jìn)行對(duì)比,在圍巾遮擋、墨鏡遮擋、自行添加的組合式遮擋三種情形下均達(dá)到最高的識(shí)別率。
從現(xiàn)實(shí)應(yīng)用場(chǎng)景來(lái)看,有遮擋人臉識(shí)別顯然比無(wú)遮擋人臉識(shí)別更具普遍性,而有遮擋人臉識(shí)別也是當(dāng)前面臨的一個(gè)重要挑戰(zhàn)。綜合各項(xiàng)人臉識(shí)別方法來(lái)看,將深度學(xué)習(xí)用于人臉識(shí)別方法具有很大優(yōu)勢(shì),其主要表現(xiàn)為:易于從原始數(shù)據(jù)學(xué)習(xí)低層次的“淺層”特征、易于檢測(cè)出特征中的相互作用、易于構(gòu)建精確的模型;然而其劣勢(shì)也比較明顯:模型訓(xùn)練比較耗時(shí)、模型需要進(jìn)行長(zhǎng)期的不斷迭代優(yōu)化、需要大量級(jí)的數(shù)據(jù)庫(kù)。從當(dāng)前發(fā)展趨勢(shì)來(lái)看,深度學(xué)習(xí)和其他方法相結(jié)合將是未來(lái)人臉識(shí)別發(fā)展的一個(gè)重要方向。比如考慮將深度學(xué)習(xí)和人臉光照矯正、姿態(tài)和表情矯正融合,設(shè)計(jì)新的模型等。