梁元鍇
摘要:根據(jù)人臉數(shù)據(jù)庫發(fā)展至今的歷史,劃分了人臉數(shù)據(jù)庫發(fā)展的2個主要?dú)v史時期,介紹了這2個歷史時期中一些典型的人臉數(shù)據(jù)庫,以此歸納出這2個歷史時期中人臉數(shù)據(jù)庫的主要特點(diǎn)。通過列舉人臉數(shù)據(jù)庫在不同歷史階段發(fā)展時產(chǎn)生的變化并加以分析,總結(jié)出了這些變化發(fā)生的原因。同時還依據(jù)人臉數(shù)據(jù)庫發(fā)展的特點(diǎn),提出了一些未來可能出現(xiàn)并發(fā)展的人臉數(shù)據(jù)庫及其使用方法。
關(guān)鍵詞:人臉數(shù)據(jù)庫;人臉識別;發(fā)展趨勢
中圖分類號:TP392文獻(xiàn)標(biāo)志碼:A文章編號:1008-1739(2021)04-64-4
0引言
如中科院計算所著名研究員山世光所說:“人臉識別技術(shù)史本質(zhì)是測評人臉庫更替史”。人臉數(shù)據(jù)庫的核心功能是供人臉識別技術(shù)進(jìn)行算法性能的分析和測試。其中,人臉識別技術(shù)是人臉識別、人臉檢測、關(guān)鍵點(diǎn)識別等檢測技術(shù)的統(tǒng)稱。人臉數(shù)據(jù)庫的發(fā)展歷史大致可以劃分為2000年以前和2000年以后2個發(fā)展階段,本文將對這2個階段的典型人臉數(shù)據(jù)庫進(jìn)行分析和對比,說明它們之間的差異以及產(chǎn)生差異的原因,并展望人臉數(shù)據(jù)庫未來可能的發(fā)展。
1早期人臉數(shù)據(jù)庫
早期的人臉數(shù)據(jù)庫是指產(chǎn)生于2000年以前的人臉數(shù)據(jù)庫。一般認(rèn)為,對人臉識別的研究始于1964年Bledsoe和Chan[1]于Panoramic Research Inc上發(fā)表的一份關(guān)于人臉自動識別的報告。1964-1990年,人臉識別的發(fā)展較為緩慢,且被視為一般的識別問題。此階段的處理方法包括基于剪影分析的人臉識別、基于人臉低維表示的人臉識別[2]等方法。
1990年初,美國吸引了大量面部識別領(lǐng)域的專家參與人臉識別研究,激發(fā)了全球范圍內(nèi)一批典型人臉數(shù)據(jù)庫的產(chǎn)生,這一時期的人臉數(shù)據(jù)庫突出顯示了早期人臉數(shù)據(jù)庫的特點(diǎn)。
1.1 ORL人臉數(shù)據(jù)庫
ORL人臉數(shù)據(jù)庫是典型的用于進(jìn)行人臉識別測試的人臉數(shù)據(jù)庫,內(nèi)含來自40名對象,每人10張,共400張的256級灰度人臉圖像,均為PGM格式,大小均為92 pixel×112 pixel。這些人臉圖像拍攝時的表情、面部細(xì)節(jié)、光照條件各異,所有圖像中的人臉位于圖像正中,占圖片整體面積比例較大,有些圖像中的人臉有一定程度的側(cè)向偏移。
ORL人臉數(shù)據(jù)庫中的人臉受到了較強(qiáng)的限制,如人臉在圖像中的位置和比例、被攝者的拍攝姿勢、面部偏轉(zhuǎn)角度等變化較少,因而適用于一些基于圖像分割的人臉識別算法[3-4],例如連續(xù)密度隱馬爾可夫模型法[5]。此類方法較依賴人臉數(shù)據(jù)庫中人臉圖像的自然特性,遷移性較差。ORL人臉數(shù)據(jù)庫是早期人類數(shù)據(jù)庫中格式規(guī)范化的典型代表。
1.2 FERET人臉數(shù)據(jù)庫
FERET人臉數(shù)據(jù)庫是自1994年起逐步建立的人臉數(shù)據(jù)庫,內(nèi)含超過14 000張?jiān)诓煌藨B(tài)、光照條件下拍攝的,來自近1 200名被攝對象的灰度人臉圖像。FERET人臉數(shù)據(jù)庫中的一些圖像是相同對象在不同時間拍攝的,這些圖像被稱為“重復(fù)集”。重復(fù)集的提出意味著人臉數(shù)據(jù)庫在建立時首次考慮了時間這一被識別對象的外觀變化尺度。
FERET人臉數(shù)據(jù)庫擁有相較于同時代產(chǎn)品大得多的樣本量,已初步具有近期人臉數(shù)據(jù)庫大容量的特點(diǎn),成為了具有相對客觀評價測試能力的人臉數(shù)據(jù)庫,但對被攝對象仍限定較多。故FERET人臉數(shù)據(jù)庫可被視為早期和近期人臉數(shù)據(jù)庫的分界。
早期的人臉數(shù)據(jù)庫被攝者人數(shù)較少、拍攝環(huán)境布置刻意、被攝者配合,導(dǎo)致人臉圖像的格式統(tǒng)一,因而適用的識別算法一般只在較為理想的環(huán)境下表現(xiàn)良好,實(shí)際應(yīng)用價值較低。
2近期人臉數(shù)據(jù)庫
人臉識別技術(shù)于2001年首次被用于大規(guī)模犯罪分子搜查活動,標(biāo)志著人臉識別正式轉(zhuǎn)化為具有經(jīng)濟(jì)社會價值的技術(shù)。此階段逐漸產(chǎn)生了包括人臉檢測、人臉關(guān)鍵點(diǎn)檢測、情緒識別在內(nèi)的不同類型、多種側(cè)重的人臉識別算法需求。
2.1 Wider Face人臉數(shù)據(jù)庫
Wider Face人臉數(shù)據(jù)庫[6]適用于進(jìn)行人臉檢測測試,其中包含3萬多張大小為1024 pixel×1024 pixel的彩色圖片,共計有約40萬張人臉,且其中大量的人臉尺度較小。圖片中的人臉幾乎均有標(biāo)注,其中最小者可至10 pixel×10 pixel。
Wider Face人臉數(shù)據(jù)庫是目前難度最大的人臉檢測測試集之一。該人臉數(shù)據(jù)庫中的人臉圖片基于61種事件類型進(jìn)行分類,同時包含了姿態(tài)、遮擋、化妝、光照及模糊等各類人臉識別難點(diǎn)。
從屬于每種類型事件的圖片被隨機(jī)分為訓(xùn)練集、驗(yàn)證集和測試集,占比依次為40%,10%,50%,其中測試集未對人臉進(jìn)行標(biāo)注,需將測試結(jié)果交由官方比對,保證了檢驗(yàn)結(jié)果的公正性。
Wider Face人臉數(shù)據(jù)庫中的圖像劃分為Easy,Medium,Hard三個檢測難度,一些典型算法在這3種難度下識別的準(zhǔn)確率[7]如圖1所示。
2.2 FRGC人臉數(shù)據(jù)庫
FRGC人臉數(shù)據(jù)庫[8]基于FRGC項(xiàng)目產(chǎn)生,用于人臉識別,其中的50 000張人臉圖像于2002-2004年間采集。在FRGC人臉數(shù)據(jù)庫的一個圖像組中,含有同一被攝對象的4張?jiān)谙拗茥l件下的圖像、2張非限制條件下的圖像和1張三維圖像,其中三維圖像包括三維形狀信道和紋理信道,如圖2所示。
FRGC人臉數(shù)據(jù)庫中的圖像分為訓(xùn)練集和驗(yàn)證集,其中訓(xùn)練集包括一個靜止訓(xùn)練集和一個三維訓(xùn)練集。前者包括來自222名被攝者的6 388張受限靜態(tài)圖像和6 388張非受限靜態(tài)圖像;后者是來自943個主題的圖像集(包括三維掃描圖像以及對應(yīng)的受限和非受限靜態(tài)圖像)的圖像構(gòu)成的,可用于訓(xùn)練三維或三維到二維算法的訓(xùn)練集,驗(yàn)證集由來自466個主題的4 007個圖像集構(gòu)成。
2.3 LFW人臉數(shù)據(jù)庫
LFW人臉數(shù)據(jù)庫[9]適用于人臉識別測試,含13 000多張圖像,來自互聯(lián)網(wǎng)上的超過5 700名國外名人,其中有1 600多人在LFW人臉數(shù)據(jù)庫中有2張及以上的圖像,剩下約4 000人只有1張。所有圖像的格式均為250 pixel×250 pixel的JPEG圖像,大多數(shù)為彩色。
LFW人臉數(shù)據(jù)庫中的人臉幾乎不受任何限制(唯一要求是可被典型的Viola-Jones檢測器識別)。其中被攝對象有性別、種族、年齡、裝飾等區(qū)分,圖像中的人臉有不同的姿態(tài)、光影條件、背景等區(qū)別,甚至一張圖片中會有多張人臉(只有包含圖像中心像素的人臉會被標(biāo)記)。
使用LFW人臉數(shù)據(jù)庫時,一般從中抽取6 000對人臉對(其中約3 000對來自同一名人物,其余則不然),再逐次輸入一對人臉對,由識別算法判斷是否為同一人,即可計算算法的判斷準(zhǔn)確率。這種方法簡單易懂,而由于LFW人臉數(shù)據(jù)庫對包含其中的人臉圖片要求很少,幾乎沒有規(guī)律可循,故算法測試一般能取得較好效果。
3不同時期典型人臉數(shù)據(jù)庫產(chǎn)生的變化及原因
3.1近期人臉數(shù)據(jù)庫相對于早期人臉數(shù)據(jù)庫產(chǎn)生的變化
3.1.1人臉圖像的質(zhì)量提升
相較于早期人臉數(shù)據(jù)庫,近期人臉數(shù)據(jù)庫質(zhì)量的提升主要體現(xiàn)在:
①圖像的數(shù)量大量增加:近期人臉數(shù)據(jù)庫內(nèi)所含圖像數(shù)量一般為10 000~50 000張。
②被攝對象特征更加多樣:近期人臉數(shù)據(jù)庫一般為數(shù)百人到數(shù)千人,被攝對象本身的特征更加多樣,除神態(tài)、表情、姿勢等方面外還出現(xiàn)了膚色、發(fā)型、圖案、特定裝飾等更多樣的人臉特征。
③清晰度顯著提升:近期產(chǎn)生的人臉數(shù)據(jù)庫,如Wider Face人臉數(shù)據(jù)庫中的圖像大小與ORL人臉數(shù)據(jù)庫相同,但達(dá)到了1 024 pixel×1 024 pixel。
④由灰度圖像為主變?yōu)椴噬珗D像為主:近期的人臉數(shù)據(jù)庫中的人臉圖像多為彩色,被攝對象的特征更加明顯[10]。3.1.2人臉圖像的理想程度降低
早期人臉數(shù)據(jù)庫中的人臉被嚴(yán)格控制,使得人臉在圖像中處于自然分布,導(dǎo)致其中圖像與實(shí)際應(yīng)用場景有較大不同。多數(shù)近期的人臉數(shù)據(jù)庫中人臉的放置更貼近實(shí)際場景,特殊化處理較少,如Wider Face人臉數(shù)據(jù)庫。
3.1.3滿足的識別需求類型更加多樣化
針對某種特定的目的或需求,近期人臉數(shù)據(jù)庫的設(shè)計性更強(qiáng)。設(shè)計性的增強(qiáng)不代表對人臉的限制性增強(qiáng),體現(xiàn)在圖片的數(shù)量和某一類圖片在人類數(shù)據(jù)庫中所占的比例上等非圖像本身的屬性進(jìn)行規(guī)劃,而限制性體現(xiàn)的是對人臉的控制。
3.1.4提供者對人臉數(shù)據(jù)庫的后續(xù)更為關(guān)注
近期人臉數(shù)據(jù)庫的提供者對人臉數(shù)據(jù)庫的更新更加頻密,例如LFW人臉數(shù)據(jù)庫會不定期更新,更新消息將會被發(fā)布于官網(wǎng)[11],甚至出現(xiàn)了由商業(yè)公司提供并維護(hù)的人臉數(shù)據(jù)庫,如BioID人臉數(shù)據(jù)庫。
3.2變化產(chǎn)生的原因
3.2.1技術(shù)條件的提高
主要有計算機(jī)儲存容量和計算能力的提升、圖像處理技術(shù)的發(fā)展[12]和資源獲取手段的增多3個方面。
近年來互聯(lián)網(wǎng)的迅猛發(fā)展、公共社交平臺與新興媒體的興起拓寬了數(shù)據(jù)庫的樣本,特別是非限制場景下樣本的來源。同時,拍攝工具輕便化和拍攝結(jié)果的優(yōu)質(zhì)化提高了非限制場景,特別是偶發(fā)場景下所拍攝圖像的可用性。
3.2.2高效而通用的識別算法的提出和發(fā)展
1990年前,人臉識別建模方法主要是基于人臉本身特征的方法;1990-2000年主要是基于線性子空間的距離比較或統(tǒng)計學(xué)方法;2000年后,光照錐技術(shù)、支持向量機(jī)等方法出現(xiàn)[13]。2006年出現(xiàn)的深度學(xué)習(xí),至今仍是主流人臉識別方法??傮w上看,提出時間越晚的算法往往有越高的識別能力和效率,使得一些早期人臉數(shù)據(jù)庫的使用價值被挖掘殆盡,如ORL人臉數(shù)據(jù)庫和FERET人臉數(shù)據(jù)庫的首選識別率均已達(dá)到99%[14]。近年來,基于深度學(xué)習(xí),F(xiàn)RGC人臉數(shù)據(jù)庫和LFW人臉數(shù)據(jù)庫也正在接近使用價值上限。
另一方面,適用于人臉識別的算法的通用性增強(qiáng),可應(yīng)對非限制條件,這是人臉識別具備實(shí)際應(yīng)用價值的基礎(chǔ)條件。
3.2.3人臉識別等技術(shù)應(yīng)用場景的增加
伴隨人臉識別技術(shù)與產(chǎn)業(yè)經(jīng)濟(jì)的日漸融合,人臉識別技術(shù)的應(yīng)用場景隨之多樣化。例如,在身份識別這一應(yīng)用領(lǐng)域,利用了人臉檢測、人臉識別及人臉關(guān)鍵點(diǎn)識別等技術(shù)。身份識別還可細(xì)化地應(yīng)用于人口出入境管理、嫌疑人身份鑒別、敏感人物動向監(jiān)視、游戲自動登錄、家政機(jī)器人服務(wù)對象識別等方面,每一個細(xì)化方面對人臉識別技術(shù)的精準(zhǔn)度、正確率和反應(yīng)速度等都有不同要求。
3.2.4研究氛圍的改善
人臉識別技術(shù)已廣泛受到各大高校和研究所的重視,研究人臉識別技術(shù)的氣氛相較早些年更加濃厚。同時,人臉識別技術(shù)的商業(yè)價值也吸引了商業(yè)公司的注意,為人臉識別研究提供了資金來源。
4人臉數(shù)據(jù)庫的發(fā)展方向
4.1針對復(fù)雜運(yùn)動對象的人臉數(shù)據(jù)庫
在一個人群密度較大且不斷運(yùn)動的場地中,試圖捕捉一個特定對象的運(yùn)動軌跡,則目標(biāo)對象的人臉會產(chǎn)生正向、側(cè)向乃至背向的變化,并會被遮擋。對動態(tài)視頻,可以將其分解為靜態(tài)圖像來處理,但這可能導(dǎo)致一些問題:運(yùn)動中的人臉在靜態(tài)圖像中會呈現(xiàn)較嚴(yán)重的晃動和模糊、人臉在運(yùn)動中發(fā)生的改變(如佩戴眼鏡)可能影響識別結(jié)果和目標(biāo)的隱匿會使識別出的運(yùn)動路徑失去連貫性。
因此,可建立一個以視頻為人臉圖像主要載體的人臉數(shù)據(jù)庫,其中包含一定數(shù)量被捕捉對象的人臉在復(fù)雜環(huán)境下發(fā)生偏轉(zhuǎn)、特征改變和被遮擋等運(yùn)動的視頻。
針對此人臉數(shù)據(jù)庫,一種建模方法為:將被捕捉對象的人臉視為三維空間中的結(jié)構(gòu),將人臉的移動視為結(jié)構(gòu)的位移,將采樣工具捕捉到的人臉視為結(jié)構(gòu)在平面上的投影。此過程中需對人臉進(jìn)行特征點(diǎn)檢測,利用特征點(diǎn)之間的角度變化來判斷人臉的運(yùn)動方向,并以結(jié)構(gòu)運(yùn)動的連續(xù)性確保人臉運(yùn)動的連續(xù)性,保證人臉不因佩戴裝飾物而改變識別結(jié)果。
目前,已有基于動態(tài)對象的人臉數(shù)據(jù)庫被建立,如COX人臉數(shù)據(jù)庫,但其更側(cè)重人臉運(yùn)動時的遠(yuǎn)近與角度變化,較少考慮人臉中移動的遮擋問題。
4.2基于相似人臉的人臉數(shù)據(jù)庫
相似人臉在大樣本人臉數(shù)據(jù)庫中出現(xiàn)概率較大,是人臉識別尚未突破的難點(diǎn)。鑒于相似人臉在實(shí)際應(yīng)用場景中的低比例,可先對待識別的人臉樣本做一般識別,將被識別為同一人的樣本歸為一類,再額外檢驗(yàn)是否發(fā)生了相似人臉的誤判。
對于額外檢驗(yàn)算法的訓(xùn)練,可以在基于相似人臉的人臉數(shù)據(jù)庫中錄入一定數(shù)量的相似人臉圖像對,并標(biāo)注2幅圖像是否為同一人。在使用該人臉數(shù)據(jù)庫時,只需隨機(jī)抽取一定數(shù)量的人臉對,交由算法做出判斷,并以正確率作為訓(xùn)練指標(biāo)。
4.3模糊特征的人臉數(shù)據(jù)庫
在實(shí)際應(yīng)用場景中,若要求算法在短時間內(nèi)學(xué)習(xí)并識別大量的人臉(如快速學(xué)習(xí)并尋找某人群聚集場景中的嫌犯),而在其訓(xùn)練和測試中使用的圖像細(xì)節(jié)過多,則會降低效率。
為訓(xùn)練具有快速模糊特征檢測機(jī)能的算法,可建立模糊特征的人臉數(shù)據(jù)庫,其中包含大量的人臉圖像及對應(yīng)的壓縮模糊圖像。壓縮方式為,對待檢測圖像進(jìn)行適當(dāng)?shù)哪:?,僅保留人臉大體特征,如毛發(fā)特征、五官大致大小比例和距離比例等。在對比檢測過程中,當(dāng)2張模糊人臉的相似度超過某一閾值時再利用高清晰度人臉圖像進(jìn)行細(xì)節(jié)對比。
5結(jié)束語
通過對不同時期提出的典型人臉數(shù)據(jù)庫特征的分析對比,提出未來人臉數(shù)據(jù)庫將向容量更大、圖像質(zhì)量更高、信息種類更豐富、目的性和設(shè)計性更強(qiáng)以及維護(hù)更專業(yè)的方向發(fā)展,也據(jù)此為將來人臉數(shù)據(jù)庫的設(shè)計及利用提供了一些可行的途徑。
參考文獻(xiàn)
[1] BLEDSOE W W, CHAN H. A Man-Machine Facial Recognition System: Some Preliminary Results[C]//Technical Report, PRI 19A.Palo Alto: Panoramic Research Incorporated,1965: 1-10.
[2] SIROVICH L,KIRBY M.Low-dimensional Procedure for the Characterization of Human Faces[J]. Journal of the Optical Society of America,1987,4(3):519-24.
[3] SAMARIA,F(xiàn)S. Face Recognition Using Hidden Markov Models[D]. Cambridge: University of Cambridge,1995.
[4] BALLOT J S S. Face Recognition Using Hidden Markov Models[D]. Matieland: University of Stellenbosch,2005.
[5] SAMARIA F S,HARTER A C. Parameterisation of a Stochastic Model for Human Face Identication[C]//Sarasota(Florida):Proceedings of the 2nd IEEE Workshop on Applications of Computer VisionSarasota:IEEE, 1994:138-142.
[6] ANON.IEEE Conference on Computer Vision and Pattern Recognition(cvpr 2020)[J].智能系統(tǒng)學(xué)報,2019,14(6):1137.
[7] WIDER FACE: Results [EB/OL]. (2015-11-19)[2020-5-10]. http://shuoyang1213.me/WIDERFACE/WiderFace_Results. html.
[8] PHILLIPS P, FLYNN P, SCRUGGS T, et al. Overview of the face Recognition Grand Challenge[C]// Computer Society Conference on Computer Vision and Pattern Recognition, 2005:947-954.
[9] HUANG G B, RAMESH M, BERG T, et al. Labeled Faces in the wild: A Database for Studying Face Recognition Inunconstrained Environments[C]//Technical Report, University of Massachusetts,Amherst,2007.
[10] WILDER J, PHILLIPS P, CUNHONG J,et al.Comparison of Visible and Infra-red Imagery for Face Recognition[C]// 2nd International Conference on Automatic Face and Gesture RecognitionKillingtan:IEEE, 1996:182-187.
[11] The BioID Face Database [EB/OL]. (2020-3-17)[2020-5-23]. https://www.bioid.com/facedb/.
[12] KUMAR P, PARMAR A. Versatile Approaches for Medical Image Compression: A Review[J]. Procedia Computer Science,2020,167(1):1380-1389.
[13]山世光.Deep Models for Face Processing with "Big" or"Small" Data[R].北京:北京郵電大學(xué),2015.
[14]山世光.深度化的人臉檢測與識別技術(shù)—進(jìn)展與展望[R].太原:中國計算機(jī)學(xué)會,2016.