陳文云
百色學(xué)院信息工程學(xué)院 廣西 百色 533000
人臉識別技術(shù)是指利用計算手段,使計算機具有像人一樣能通過人臉圖像辨識人的能力。人臉識別技術(shù)是屬于計算機視覺范疇,但其實現(xiàn)核心技術(shù)不限于計算機視覺技術(shù),是多學(xué)科交叉融合技術(shù),主要運用包括模式識別、圖像處理、計算機圖形學(xué)、神經(jīng)網(wǎng)絡(luò)以及心理學(xué)等科學(xué)知識和技術(shù)[1]。
人臉識別技術(shù)最初溯源于20世紀50年代的心理學(xué)研究工作中的表情、情緒和手勢的研究[2]。布萊索于20世紀60年代首次在美國國防部的資助下運用計算機進行人臉識別工作[3],并提出了一些業(yè)界幾十年來一直難以攻克的一些難題,如光照影響、頭部轉(zhuǎn)動角度、臉部表情以及年齡對人臉識別的影響等。這一時期人臉識別主要是通過檢測和測量人臉特有的一些面部特征,如耳朵大小、眉毛形狀、眼睛大小、眼間距、鼻子長度等,通過模式分類技術(shù)來識別人臉[4]。20世紀70年代科研工作者開始運用幾何參數(shù)來描述人臉,然后運用模式識別技術(shù)來識別人臉,1973年基于該技術(shù)的特征自動提取并識別的人臉識別系統(tǒng)Kenade面世[5]。20世紀80年代許多新技術(shù)運用于人臉識別,如模式匹配算法為適應(yīng)表情變化產(chǎn)生了可變模式匹配算法[6];BP算法出現(xiàn)推動神經(jīng)網(wǎng)絡(luò)技術(shù)重新煥發(fā)生機,并運用于人臉識別[7];運用主元分析(PCA)機器學(xué)習(xí)算法來識別人臉,從而通過降低人臉數(shù)據(jù)的維度產(chǎn)生特征臉,一定程度上降低計算復(fù)雜度[8]。20世紀90年代特征臉技術(shù)得到廣泛運用,并基于該技術(shù)產(chǎn)生第一個人臉識別工業(yè)應(yīng)用[9],同時派生出獨立成分分析(ICA)、線性判別分析(LDA)等相關(guān)人臉識別技術(shù)。
人臉識別系統(tǒng)通常是以圖片或視頻作為輸入,輸出為在輸入中出現(xiàn)的一個或多個人的名字。該系統(tǒng)通常由3部分組成:人臉檢測、特征提取以及人臉識別,如圖1所示。人臉檢測負責(zé)查看輸入圖片或視頻中是否有人臉,以及每一個人臉的位置區(qū)域,人臉檢測的本質(zhì)就是二分類問題;特征提取模塊負責(zé)從檢測到的人臉區(qū)域提取人臉識別模塊所需的各種特征信息,不同識別算法所需要的特征信息各不相同;最終由人臉識別模塊完成人臉識別任務(wù),其本質(zhì)是多分類問題。
圖1 人臉識別系統(tǒng)
組成人臉識別系統(tǒng)的各部分之間沒有嚴格的界限,由于識別算法、實現(xiàn)方法的不同或應(yīng)用場景的不同,各部分可能會同時并行進行,也可能級聯(lián)處理。
人臉檢測是在圖中檢測人臉存在與否,并確定其具體位置區(qū)域,可看作為簡化版人臉識別,即兩分類人臉識別,故與識別算法具有某種相似性,常應(yīng)用于目標定位與跟蹤。如果輸入圖片只包含一個標準化的人臉,如公安、安檢以及刷臉支付等受控環(huán)境的人臉檢索、識別系統(tǒng),人臉檢測環(huán)節(jié)就可以省略,直接可進行特征提取或人臉識別。理想情況下,用于人臉檢測的照片是其正面照片。現(xiàn)實應(yīng)用大多是在不受控環(huán)境進行的,很多因素都會影響人臉檢測的性能和準確性,進而影響人臉識別,其中包括:由于物體移動或拍攝角度的影響,導(dǎo)致人臉特征在拍攝的照片中體現(xiàn)不完整;人臉特征之間的遮擋,如戴眼鏡、留胡須、戴帽子等;面部表情會導(dǎo)致人臉特征的變化;不同的照片拍攝環(huán)境以及拍攝工具都會導(dǎo)致圖像的差異。
人臉檢測算法大致由以下部分組成:預(yù)處理,包括數(shù)據(jù)降維、人臉特征抽取等,人臉判斷以及位置檢測,有時也包括人臉跟蹤,如圖2所示。
圖2 人臉檢測算法
人臉檢測算法種類繁多,分類方法也多種多樣。根據(jù)應(yīng)用場景的不同,可分為:受控環(huán)境下的邊界檢測算法[10],彩色照片可用膚色模型[11],視頻中的運動檢測(眨眼、張嘴等)模型[12];根據(jù)檢測算法的不同,可將人臉識別分為:基于知識的算法、基于不變特征算法、模板匹配算法和基于模型的算法。
特征提取是指通過高效的手段找出人臉圖片中有助于辨別出其身份的有用信息的過程,通常包含降維、抽取特征以及特征選擇子過程。特征提取有助于避免維數(shù)災(zāi)難,提高人臉識別的效率和對內(nèi)存的依賴。
特征提取算法很多,主要包括主元分析(PCA)、線性判別分析(LDA)、獨立成分分析(ICA)、神經(jīng)網(wǎng)絡(luò)分析、ASM、AAM、小波變換、離散余弦變換等。
特征選擇是在抽取的特征中選擇一個能使分類誤差最小的特征子集。特征選擇算法有很多,如窮舉法ES、分支定界法BB、順序前進選擇法SFS、順序后退選擇法SBS等。尋找最小誤差子集的過程是一個NP難問題,故業(yè)界通常尋找一個在特征維度和計算復(fù)雜度約束下可接受的算法,而非最優(yōu)算法。
人臉識別算法大致可以分為3類:基于規(guī)則算法、基于模型算法和基于機器學(xué)習(xí)算法。無論是哪一種算法,都是通過在一個或多個分類器來實現(xiàn)對人臉的分類,單個分類器的分類標準多種多樣,大致可以基于相似度、概率和決策邊界等幾種,復(fù)雜任務(wù)有時需要通過多個好而不同的分類器進行集成完成。
正如前面所講,人臉識別由人臉檢測、特征提取和人臉分類模塊組成。它們之間沒有嚴格界限,可能相互交叉,這主要取決于其所在的人臉識別算法和實現(xiàn)方法。
人臉識別算法的分類,根據(jù)不同的分類標準而不同。根據(jù)用于分類的信息本身不同可分為幾何參數(shù)法和統(tǒng)計參數(shù)法[13];根據(jù)用于識別的信息量多少可分為局部判別法和整體判別法;根據(jù)表示臉的方法不同分為外觀法和模型法。當(dāng)下最為流行的人臉識別算法主要分為3類:模板匹配法、統(tǒng)計法和神經(jīng)網(wǎng)絡(luò)法。
模板匹配法在人臉識別算法中得到廣泛運用,它使用像素點、樣本、紋理或模型為模式,匹配算法計算測試樣例的對應(yīng)特征與模式之間的差別來找到最佳匹配,從而完成識別任務(wù)。在模式匹配過程中的差別可以是特征之間的相關(guān)性,也可以是特征之間歐氏距離。
模式匹配可以基于二維圖片,也可以基于三維實體。二維圖片是目前人臉識別的主要方法,但是它對圖片的拍攝角度和光照很敏感,目前較為有效的方法是利用彈性約束圖算法得以緩解。三維模式匹配是通過形狀和紋理在匹配樣本與模式之間進行匹配,形狀、紋理信息與樣本的姿勢和光照無關(guān),因而可以很好地規(guī)避該弱點,但三維模式匹配的主要缺點是三維信息需要在控制條件下進行三維掃描獲得,成為其廣泛應(yīng)用的主要障礙。
基于模式匹配的典型人臉識別算法是主動外觀模型(AAM)。該模型是一種有監(jiān)督的學(xué)習(xí)算法,它是通過對人臉的特征形狀和紋理先進行PCA主元成分分析,提取其主分量作為形狀和紋理特征,然后對形狀和紋理在主分量上進行正交分解,從而得到人臉的外觀模型;在訓(xùn)練階段通過學(xué)習(xí)每個人的多張圖片的形狀點和紋理信息,最終得到其形狀和紋理特征;人臉分割和匹配階段,就是在測試圖片中尋找給定模型的形狀和紋理特征,并加以分割。該算法能夠較好地將人臉形狀和紋理信息進行組合形成新的特征,具有不錯的人臉分割和識別效果。
人臉圖像可以看作由各像素點的亮度值構(gòu)成的高維數(shù)據(jù),如果直接利用原始像素進行計算,不僅增加數(shù)據(jù)存儲空間,增加建模、運算復(fù)雜度,而且浪費大量計算資源。
統(tǒng)計法將高維圖像中的人臉看成低維空間的流形,通過使用適當(dāng)?shù)慕y(tǒng)計工具來提取和分析圖像中蘊含的人臉流形。首先需要在原始圖像空間定義嵌入人臉流形低維空間,再將不同人臉映射到嵌入人臉空間中可分的不同區(qū)域,最后通過已知的人臉識別算法在低維空間對人臉進行識別。
構(gòu)造嵌入人臉空間的方法很多,常見方法有主成分析(PCA)[13]、離散余弦變換(DCT)[14]、線性判別分析(LDA)[15]、局部保留投影(LPP)[16]、Gabor小波[17]、獨立成分分析(ICA)等。
隨著BP算法的發(fā)明,神經(jīng)網(wǎng)絡(luò)技術(shù)開始復(fù)蘇并在圖像處理和識別中顯示強大的威力,人臉識別中運用神經(jīng)網(wǎng)絡(luò)也逐漸流行并取得良好效果[18]。神經(jīng)網(wǎng)絡(luò)技術(shù)不僅在監(jiān)督學(xué)習(xí)中對有標簽人臉數(shù)據(jù)進行訓(xùn)練學(xué)習(xí),也可以運用無監(jiān)督學(xué)習(xí)技術(shù)對人臉進行特征提取,利用監(jiān)督學(xué)習(xí)技術(shù)對人臉特征進行選擇以降低分類誤差[19]。卷積神經(jīng)網(wǎng)絡(luò)是典型基于監(jiān)督學(xué)習(xí)的圖像識別算法,編解碼器神經(jīng)網(wǎng)絡(luò)是常用的無監(jiān)督神經(jīng)網(wǎng)絡(luò)。
傳統(tǒng)的人臉技術(shù)主要用于靜止圖片的識別和處理,現(xiàn)在受控環(huán)境下基本達到可應(yīng)用的水平,非受控環(huán)境的人臉識別仍然有一些技術(shù)障礙等待攻克。近年來隨著物聯(lián)網(wǎng)和大數(shù)據(jù)技術(shù)的出現(xiàn)及快速發(fā)展,如何從海量的視頻數(shù)據(jù)中檢索特定人臉,并對特定人臉的跟蹤,對人臉識別技術(shù)提出了新的挑戰(zhàn),如何利用視頻中的時空信息,對人臉進行檢測、識別和跟蹤稱為當(dāng)下科研工作者的主要努力方向。