耿艷萍
(山西大學(xué)工程學(xué)院,山西 太原 030013)
人臉識(shí)別是基于人的臉部特征,對(duì)輸入的人臉圖像或者視頻流進(jìn)行一種判斷,首先判斷其是否存在人臉,如果存在,則進(jìn)一步的給出每個(gè)臉的位置、大小等信息,并依據(jù)這些信息來提取每個(gè)人臉中所蘊(yùn)含的身份特征,將其與已知的人臉進(jìn)行對(duì)比,從而識(shí)別每個(gè)人臉的身份。廣義的人臉識(shí)別實(shí)際包括構(gòu)建人臉識(shí)別系統(tǒng)的一系列相關(guān)技術(shù),包括人臉圖像采集、人臉定位、人臉識(shí)別預(yù)處理、身份確認(rèn)以及身份查找等;而狹義的人臉識(shí)別特指通過人臉進(jìn)行身份確認(rèn)或者身份查找的技術(shù)。
當(dāng)前很多國(guó)家展開了有關(guān)人臉識(shí)別的研究,主要有美國(guó)等歐洲國(guó)家以及日本,著名的研究機(jī)構(gòu)有美國(guó)MIT的Media lab,AI lab,CMU的 Human-Computer Interface Institute,Microsoft Research,英國(guó)的Department of Engineering in University of Cambridge等。
國(guó)內(nèi)關(guān)于人臉自動(dòng)識(shí)別的研究始于20世紀(jì)80年代,主要的研究單位有清華大學(xué)、哈爾濱工業(yè)大學(xué)、中科院計(jì)算所、中科院自動(dòng)化所、復(fù)旦大學(xué)、北京科技大學(xué)等,并都取得了一定的成果。國(guó)內(nèi)的研究工作主要是集中在三大類方法的研究:基于幾何特征的人臉正面自動(dòng)識(shí)別方法、基于代數(shù)特征的人臉正面自動(dòng)識(shí)別方法和基于連接機(jī)制的人臉正面自動(dòng)識(shí)別方法。周激流實(shí)現(xiàn)了具有反饋機(jī)制的人臉正面識(shí)別系統(tǒng)。彭輝、張長(zhǎng)水等對(duì)“特征臉”的方法做了進(jìn)一步的發(fā)展,提出采用類間散布矩陣作為產(chǎn)生矩陣,而降低了產(chǎn)生矩陣的維數(shù)。程永清、莊永明等對(duì)同類圖像的平均灰度圖進(jìn)行SVD分解得到特征臉空間,每一幅圖像在特征臉空間上的投影作為其代數(shù)特征,然后利用層次判別進(jìn)行分類,張輝、周洪祥、何振亞采用對(duì)稱主元分析神經(jīng)網(wǎng)絡(luò),用去冗余和權(quán)值正交相結(jié)合的方法對(duì)人臉進(jìn)行特征提取和識(shí)別;北京科技大學(xué)的王志良教授主要研究人工心理,建立了以數(shù)學(xué)公式為基礎(chǔ)的心理學(xué)模型。
圖1 人臉結(jié)構(gòu)相似性
綜合國(guó)內(nèi)外研究現(xiàn)狀及有關(guān)文獻(xiàn),目前人臉識(shí)別的方法主要集中在以下幾個(gè)方面:
1.1.1 模板匹配
主要有兩種方法,固定模板和變形模板。固定模板的方法是首先設(shè)計(jì)一個(gè)或幾個(gè)參考模板,然后計(jì)算測(cè)試樣本與參考模板之間的某種度量,以是否大于閾值來判斷測(cè)試樣本是否為人臉。變形模板在原理上與固定模板相同,但其中包含一些非固定的元素:①手工構(gòu)造參數(shù)化的曲線和曲面以表征人臉中的某些非固定特征;②系統(tǒng)自動(dòng)生成自適應(yīng)的曲線或曲面,以構(gòu)成變形人臉模板。檢測(cè)方法是:將模板與測(cè)試圖像進(jìn)行彈性匹配,并加入懲罰機(jī)制,利用某種能量函數(shù)表示匹配程度。
1.1.2 示例學(xué)習(xí)
示例學(xué)習(xí)的基本思想是從某一概念的已給正例和反例的集合中歸納產(chǎn)生出接受所有正例同時(shí)排斥所有反例的該概念的一般規(guī)則。將人臉樣本和非人臉樣本送入學(xué)習(xí)機(jī)中,產(chǎn)生出判別規(guī)則,從而用于判斷輸入的測(cè)試圖像是否屬于人臉的主要判別依據(jù)。為了獲得較高的精度,學(xué)習(xí)過程需要大量的樣本,另外樣本數(shù)據(jù)本身是高維矢量,因此,研究通用而有效的學(xué)習(xí)算法的關(guān)鍵是精確的區(qū)分性和數(shù)據(jù)維數(shù)的降低。將多個(gè)表示人臉模式的線性空間進(jìn)行組合,是示例學(xué)習(xí)的另一條途徑。
1.1.3 神經(jīng)網(wǎng)絡(luò)
從本質(zhì)上講,神經(jīng)網(wǎng)絡(luò)也是一種基于樣本的學(xué)習(xí)方法。將神經(jīng)網(wǎng)絡(luò)用于人臉檢測(cè)取得了很大的進(jìn)展。MIT的學(xué)者首先對(duì)人臉樣本集和非人臉樣本集聚類,以測(cè)試樣本與人臉樣本集和非人臉樣本集的子類之間的距離作為分類的度量,利用多層感知器(MLP)網(wǎng)絡(luò)作為分類器。CMU的研究人員直接以圖像作為神經(jīng)網(wǎng)絡(luò)的輸入,設(shè)計(jì)了一個(gè)具有獨(dú)特結(jié)構(gòu)的適用于人臉特征的神經(jīng)網(wǎng)絡(luò)分類器,并通過前饋神經(jīng)網(wǎng)絡(luò)對(duì)檢測(cè)結(jié)果優(yōu)化。
1.1.4 基于隱馬爾可夫模型的方法
馬爾可夫模型是一個(gè)離散時(shí)序有限狀態(tài)自動(dòng)機(jī),隱馬爾可夫模型(HMM)是指這一馬爾可夫模型的內(nèi)部狀態(tài)在外界不可見,外界只能看到各個(gè)時(shí)刻的輸出值。對(duì)于人臉模式來說,我們可以把它分成前額、眼睛、鼻子、嘴巴和下巴這樣一個(gè)序列。人臉模式就可以通過對(duì)這些區(qū)域的有序的識(shí)別來檢測(cè),這正好是隱馬爾可夫模型容易做到的。除此以外,基于AdaBoost的人臉識(shí)別算法,基于彩色信息的方法,基于形狀分析的方法,以及多模態(tài)信息融合的方法在國(guó)外都進(jìn)行了大量的研究與實(shí)驗(yàn)。
總結(jié)上面人臉識(shí)別的研究現(xiàn)狀及主要方法不難看出,人臉識(shí)別的困難主要是人臉作為生物特征的特點(diǎn)所帶來的。
1.2.1 相似性
不同個(gè)體之間的區(qū)別不大,所有的人臉的結(jié)構(gòu)都相似,甚至人臉器官的結(jié)構(gòu)外形都很相似。這樣的特點(diǎn)對(duì)于利用人臉進(jìn)行定位是有利的,但是對(duì)于利用人臉區(qū)分人類個(gè)體是不利的。
1.2.2 易變性
人臉的外形很不穩(wěn)定。人臉具有相當(dāng)復(fù)雜的細(xì)節(jié)變化,可以通過臉部的變化產(chǎn)生很多表情,如眼、嘴的開與閉等,不同的人有不同的外貌如臉形、膚色等,在不同觀察角度,人臉的視覺圖像也相差很大。另外,人臉識(shí)別還受光照條件(例如白天和夜晚,室內(nèi)和室外等)、人臉的很多遮蓋物(例如口罩、墨鏡、頭發(fā)、胡須等)、年齡等多方面因素的影響,見圖2、圖3。
圖2 人臉識(shí)別受光照影響
圖3 人臉識(shí)別受表情姿態(tài)影響
在人臉識(shí)別中,第一類的變化是應(yīng)該放大而作為區(qū)分個(gè)體的標(biāo)準(zhǔn)的,而第二類的變化應(yīng)該消除,因?yàn)樗鼈兛梢源硗粋€(gè)個(gè)體。通常稱第一類變化為類間變化(inter-class difference),而稱第二類變化為類內(nèi)變化(intra-class difference)。對(duì)于人臉,類內(nèi)變化往往大于類間變化,從而使在受類內(nèi)變化干擾的情況下利用類間變化區(qū)分個(gè)體變得異常困難。
每個(gè)人都有一張臉,而且臉也是一個(gè)人最重要的外貌特征。目前最熱門的應(yīng)用領(lǐng)域有3個(gè)方面:
(1)身份認(rèn)證與安全防護(hù)。在這個(gè)世界上,只要有門的地方幾乎都帶有一把鎖。當(dāng)然,在許多安全級(jí)別要求較高的區(qū)域,例如金融機(jī)構(gòu)、機(jī)關(guān)辦公大樓、運(yùn)動(dòng)場(chǎng)館、甚至重要設(shè)施的工地,都需要對(duì)大量的人員進(jìn)行基于身份認(rèn)證的門禁管理。手機(jī)、筆記本電腦等個(gè)人電子用品,在開機(jī)和使用中經(jīng)常要用到身份驗(yàn)證功能。
(2)媒體與娛樂。人們的許多娛樂活動(dòng)都是跟臉部有關(guān)的。最著名的娛樂節(jié)目之一就是川劇的變臉;在網(wǎng)絡(luò)虛擬世界里,通過人臉的變化,可以產(chǎn)生大量的娛樂節(jié)目和效果;手機(jī)、數(shù)碼相機(jī)等消費(fèi)電子產(chǎn)品中,基于人臉的娛樂項(xiàng)目越來越豐富;QQ、MSN等即時(shí)通信工具以及虛擬化身網(wǎng)絡(luò)游戲也是人臉合成技術(shù)的廣闊市場(chǎng)。
(3)圖像搜索。目前Google的圖像搜索其實(shí)還是文字搜索?;谌四槇D像識(shí)別技術(shù)的搜索引擎將會(huì)具有廣泛的應(yīng)用前景。
從20世紀(jì)90年代中期開始,人臉識(shí)別技術(shù)得到廣泛應(yīng)用,陸續(xù)出現(xiàn)了一些人臉識(shí)別商業(yè)系統(tǒng),例如智能門衛(wèi)、智能視頻監(jiān)控、公安布控、出入境管理、司機(jī)駕照驗(yàn)證等都是典型的應(yīng)用。
一般來說,人臉識(shí)別系統(tǒng)輸入的是一張或者一系列含有未確定身份的人臉圖像,以及人臉數(shù)據(jù)庫(kù)中的若干已知身份的人臉圖象或者相應(yīng)的編碼,而其輸出的則是一系列相似度得分,表明待識(shí)別的人臉的身份。一個(gè)完整的人臉識(shí)別系統(tǒng)的主要的功能模塊有:
(1)人臉捕獲:人臉圖像數(shù)據(jù)源包括圖像序列(視頻流)和靜止圖像。主要可以通過掃描儀,數(shù)碼相機(jī),攝像頭等數(shù)字輸入設(shè)備獲取。
(2)人臉檢測(cè)定位:該模塊用來分析輸入的圖像,判斷其是否存在人臉,如果存在,則進(jìn)一步給出每個(gè)臉的位置,并把人臉從背景圖像中分離出來。
(3)圖像預(yù)處理:盡可能使人臉圖像處于同一尺度和標(biāo)準(zhǔn),為后續(xù)處理提供高質(zhì)量的輸入圖像,需要完成對(duì)圖像的尺度歸一化,灰度歸一化,降噪,去光照等功能。
(4)特征提取和選擇:對(duì)處理后的人臉圖像按照某種策略提取出用于識(shí)別的特征,將原始的臉空間映射到新的特征空間。
(5)訓(xùn)練:此過程主要生成可用于識(shí)別的參數(shù)。通常,在已有的訓(xùn)練樣本集基礎(chǔ)上設(shè)定某個(gè)判別規(guī)則,按此規(guī)則對(duì)識(shí)別對(duì)象進(jìn)行分類所造成的錯(cuò)誤識(shí)別率最小。
(6)識(shí)別。通過比對(duì)獲得未知人臉參數(shù)和訓(xùn)練所得的人臉參數(shù)完成人臉的分類和判別,并給出識(shí)別結(jié)果。
2.2.1 硬件結(jié)構(gòu)
系統(tǒng)采用客戶端、服務(wù)器結(jié)構(gòu),具有建庫(kù)(注冊(cè))和識(shí)別功能,支持多種輸入設(shè)備。識(shí)別系統(tǒng)可以建在市級(jí),一個(gè)識(shí)別系統(tǒng)可以有多個(gè)前端(客戶機(jī)),前端可以建在分局乃至建在派出所。識(shí)別系統(tǒng)可以使用一個(gè)服務(wù)器,也可使用多個(gè)服務(wù)器,一般來講,基于數(shù)據(jù)庫(kù)的識(shí)別系統(tǒng),單服務(wù)器保持在50萬(wàn)人以下的數(shù)據(jù)容量,多服務(wù)器按50萬(wàn)人/臺(tái)的規(guī)模來設(shè)置。見圖4。
圖4 人臉識(shí)別系統(tǒng)結(jié)構(gòu)
2.2.2 軟件支持
2.2.2.1 規(guī)范化的人臉數(shù)據(jù)采集
(1)照片的形成?;旧蠎?yīng)按照身份證照片的要求,大頭照,最好要露出眉毛。
(2)掃描儀分辨率的設(shè)置。用掃描儀形成數(shù)字圖像時(shí),可以采用600 dpi分辨率掃描1寸的照片,形成BMP圖像。保持較高分辨率的原始圖像是很重要的,同時(shí),應(yīng)保證數(shù)字圖像中包括頭頂?shù)较掳偷耐暾祟^像。為了降低存儲(chǔ)空間,常采用圖像壓縮技術(shù)對(duì)人臉圖像進(jìn)行壓縮。
2.2.2.2 系統(tǒng)支持軟件
(1)人臉圖像尺寸歸一化軟件。人臉圖像應(yīng)只包括頭頂?shù)较掳偷耐暾祟^像,在一個(gè)數(shù)據(jù)庫(kù)中,應(yīng)有一個(gè)準(zhǔn)確的尺寸。
(2)人臉圖像設(shè)備屬性歸一化軟件。一般由于照片的數(shù)量較多,所以就以照片為標(biāo)準(zhǔn)進(jìn)行歸一化的工作。
(3)人員信息庫(kù)的數(shù)據(jù)導(dǎo)出軟件。在各單位已有人員庫(kù),其中有照片和文檔資料。如果有導(dǎo)出軟件,就可以大大減少重復(fù)性的工作。
(4)批量入庫(kù)軟件。人臉識(shí)別通常在大庫(kù)上運(yùn)行(10萬(wàn)以上),單張照片入庫(kù)太慢,因此需要批量入庫(kù)。批量入庫(kù)包括兩方面:文檔直接倒入照片特征提取入庫(kù)和圖像壓縮入庫(kù)。
在上述軟件的支持下,根據(jù)已有經(jīng)驗(yàn),在一個(gè)月內(nèi)建立百萬(wàn)級(jí)的人臉識(shí)別數(shù)據(jù)庫(kù)是可能的。
(1)誤識(shí)率(False Accept Rate)。這是將其他人誤作指定人員的概率。
(2)拒識(shí)率(False Reject Rate)。這是將指定人員誤作其他人員的概率。
計(jì)算機(jī)在判別時(shí)采用的閾值不同這兩個(gè)指標(biāo)也不同。一般情況下,誤識(shí)率FAR隨閾值的增大(放寬條件)而增大,拒識(shí)率FRR隨閾值的增大而減小。因此,可以采用錯(cuò)誤率(Equal Error Rate;ERR)作為性能指標(biāo),這是調(diào)節(jié)閾值,使這FAR和FRR兩個(gè)指標(biāo)相等時(shí)的FAR或FRR。
隨著人臉識(shí)別技術(shù)的發(fā)展與人臉識(shí)別市場(chǎng)應(yīng)用日漸廣泛,針對(duì)人臉識(shí)別的難題和困境,一些創(chuàng)見性的解決問題方案也相繼提出。人臉識(shí)別技術(shù)已經(jīng)成功應(yīng)用到金融、軍工等多個(gè)領(lǐng)域,行業(yè)發(fā)展優(yōu)勢(shì)明顯?;诂F(xiàn)階段的技術(shù)與市場(chǎng)現(xiàn)狀,人臉識(shí)別的發(fā)展前景十分樂觀,伴隨技術(shù)的不斷創(chuàng)新,人臉識(shí)別應(yīng)用領(lǐng)域會(huì)更加廣闊,民用市場(chǎng)就是其中之一。目前,已有多家國(guó)內(nèi)知名防盜門廠商與人臉識(shí)別技術(shù)提供商取得聯(lián)系,就人臉識(shí)別技術(shù)嵌入式家用防盜門展開合作。也許在不久的將來,人們將與鑰匙徹底告別,而迎來人臉開門的新時(shí)代。另外,大型的考生驗(yàn)證系統(tǒng)也是人臉識(shí)別將來有望大展拳腳的領(lǐng)域,一旦打開這個(gè)“缺口”,不僅能夠直接刺激人臉識(shí)別市場(chǎng)的發(fā)展,對(duì)于人臉在其他領(lǐng)域的應(yīng)用也將帶來更好的前景。
[1]孫濤,谷士文,費(fèi)耀平,等.基于PCA算法的人臉識(shí)別方法研究比較[J].自動(dòng)化技術(shù),2005,10(3):112~114.
[2]李武軍,王崇駿,張煒,陳世福.人臉識(shí)別研究綜述「J」.模式識(shí)別與人工智能,2006(19):58~62.
[3]張翠平,蘇光大.人臉識(shí)別技術(shù)綜述[J].中國(guó)圖象圖形學(xué)報(bào),2000,5(ll):885~894.
[4]山世光.人臉識(shí)別中若干關(guān)鍵問題的研究[D].北京:中國(guó)科學(xué)院博士學(xué)位論文,2004.