李秋珍 欒朝陽 汪雙喜
摘 要:針對(duì)人臉識(shí)別過程中人臉圖像質(zhì)量較低造成的低識(shí)別率問題,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的人臉圖像質(zhì)量評(píng)價(jià)模型。首先建立一個(gè)8層的卷積神經(jīng)網(wǎng)絡(luò)模型,提取人臉圖像質(zhì)量的深層語義信息;然后在無約束環(huán)境下收集人臉圖像,并通過傳統(tǒng)的圖像處理方法以及人工篩選進(jìn)行過濾,得到的數(shù)據(jù)集用以進(jìn)行模型參數(shù)的訓(xùn)練;其次通過在圖形處理器(GPU)上加速訓(xùn)練,得到用于擬合人臉圖像到類別的映射關(guān)系;最后將輸入在高質(zhì)量圖像類別的概率作為圖像的質(zhì)量得分,建立人臉圖像的質(zhì)量打分機(jī)制。實(shí)驗(yàn)結(jié)果表明,與VGG-16網(wǎng)絡(luò)相比,所提模型準(zhǔn)確率降低了0.21個(gè)百分點(diǎn),但是參數(shù)規(guī)模減小了98%,極大地提高了模型運(yùn)算效率;同時(shí)所提模型在人臉模糊、光照、姿態(tài)和遮擋方面都具有較強(qiáng)的判別能力。因此,可將該模型應(yīng)用在實(shí)時(shí)人臉識(shí)別系統(tǒng)中,在不影響系統(tǒng)運(yùn)行效率的前提下提高系統(tǒng)的準(zhǔn)確性。
關(guān)鍵詞:人臉識(shí)別;卷積神經(jīng)網(wǎng)絡(luò);圖像質(zhì)量;質(zhì)量評(píng)價(jià);圖像質(zhì)量評(píng)價(jià);人臉圖像質(zhì)量評(píng)價(jià)
中圖分類號(hào): TP391
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-9081(2019)03-0695-05
Abstract: Aiming at the low recognition rate caused by low quality of face images in the process of face recognition, a face image quality evaluation model based on convolutional neural network was proposed. Firstly, an 8-layer convolutional neural network model was built to extract deep semantic information of face image quality. Secondly, face images were collected in unconstrained environment, and were filtered by traditional image processing method and manual selecting, then the dataset obtained was used to train the model parameters. Thirdly, by accelerating training on GPU (Graphics Processing Unit), the mapping relationship of fitted face images to categories was obtained. Finally, the input probability of high-quality image category was taken as the image quality score, and the face image quality scoring mechanism was established. Experimental results show that compared with VGG-16 network, the precision rate of the proposed model is reduced by 0.21 percentage points, but the scale of the parameters is reduced by 98%, which greatly improves the efficiency of the model. At the same time, the proposed model has strong discriminant ability in aspects such as face blur, illumination, posture and occlusion. Therefore, the proposed model can be applied to real-time face recognition system to improve the accuracy of the system without affecting the efficiency.
Key words: face recognition; Convolutional Neural Network (CNN); image quality; quality evaluation; image quality evaluation; quality evaluation of face image
0 引言
近年來,伴隨著計(jì)算機(jī)視覺技術(shù)的飛速發(fā)展,人臉識(shí)別已經(jīng)成為工業(yè)界和學(xué)術(shù)界研究的熱點(diǎn)。人臉識(shí)別即根據(jù)某種模式判斷物體或者物體的一部分是否滿足人臉結(jié)構(gòu),并依據(jù)其特征信息標(biāo)識(shí)出其身份的過程,具體可分為:人臉檢測、特征提取和人臉檢索。人臉識(shí)別作為身份校驗(yàn)的一種重要方式,在安全認(rèn)證方面具有極其重要的意義。傳統(tǒng)的門禁卡、身份證等認(rèn)證方式,極其不方便且容易被盜用,給人們的日常生活帶來許多麻煩。而人臉識(shí)別作為一種生物認(rèn)證的手段,具有安全、可靠、簡單、友好等特點(diǎn),備受人們的青睞;因此,人臉識(shí)別技術(shù)在機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、模式識(shí)別等科研領(lǐng)域具有極其重要的研究意義[1]。
然而,隨著人臉識(shí)別系統(tǒng)的大范圍應(yīng)用、場景環(huán)境的多樣性以及復(fù)雜性,監(jiān)控系統(tǒng)抓取的同一個(gè)人的人臉圖像呈現(xiàn)的效果差別很大,比如圖像模糊、光照不均勻、非正臉等因素,這些因素導(dǎo)致人臉圖像的特征不明顯或者缺失,嚴(yán)重影響到人臉圖像識(shí)別的準(zhǔn)確度。有研究指出,人臉識(shí)別的準(zhǔn)確性不僅僅與識(shí)別算法的優(yōu)劣有關(guān),還與人臉圖像的質(zhì)量高低有關(guān)[2-3]。因此,如何過濾掉低質(zhì)量人臉圖像、保留高質(zhì)量人臉圖像是目前人臉識(shí)別領(lǐng)域面臨的一個(gè)巨大挑戰(zhàn)。
目前,國際上公認(rèn)的人臉圖像質(zhì)量標(biāo)準(zhǔn)ISO/IEC 19794-5(International Organization for Standardization/International Electro technical Commission 19794-5)[4]和ICAO 9303(International Civil Aviation Organization 9303)[5],給用于證件照中的高質(zhì)量人臉圖像提供了參考依據(jù)?;谶@些標(biāo)準(zhǔn),科研工作者提出了許多分析人臉圖像質(zhì)量的方法,可以總結(jié)為兩類:一類是分析人臉圖像質(zhì)量是如何影響檢測和識(shí)別的性能,一般通過在低質(zhì)量圖像的測試來分析模型的健壯性;另一類研究是通過辨別低質(zhì)量的圖像來克服實(shí)際場景中低質(zhì)量圖像帶來的問題。Berrani和Garcia等[6]最早研究了人臉圖像質(zhì)量問題,并采用了PCA(Principal Component Analysis)算法來移除低質(zhì)量的人臉圖像。然而由于監(jiān)控視頻場景中低質(zhì)量的圖像占據(jù)多數(shù),所以這種方法在監(jiān)控視頻場景中無法得到好的效果。目前已知的大部分人臉圖像質(zhì)量評(píng)價(jià)方法都是基于對(duì)人臉特殊屬性的分析,這也是最直接的方案。Yang等[7]使用一種樹形結(jié)構(gòu)來對(duì)姿態(tài)進(jìn)行估計(jì),并把結(jié)果用來評(píng)估人臉質(zhì)量。Gao等[8]利用人臉的不對(duì)稱性來量化人臉的非均勻光照和姿態(tài)。Sellahewa等[9]通過計(jì)算與一張?zhí)厥獾臉?biāo)準(zhǔn)參考圖像的差異來獲得人臉圖像質(zhì)量分?jǐn)?shù)。Wong等[10]使用了概率模型,通過訓(xùn)練均勻光照、中性表情的正臉圖像來評(píng)估高質(zhì)量的可能性,但是這種方法的效果取決于篩選的高質(zhì)量人臉圖像。
雖然現(xiàn)有的人臉圖像的質(zhì)量評(píng)價(jià)很多,但大多數(shù)方法都是通過分析其客觀因素,比如是否對(duì)稱、亮度是否均勻、是否有較高的對(duì)比度等,或是挑選一張標(biāo)準(zhǔn)圖像定義為“基準(zhǔn)臉”,計(jì)算捕獲的人臉圖像與“基準(zhǔn)臉”的差異來衡量人臉圖像的質(zhì)量。這些方法主觀性較強(qiáng),在復(fù)雜的環(huán)境中適應(yīng)性較差。
自從Hinton等[11]于2006年發(fā)表論文提出深度學(xué)習(xí)的概念,并在2012年采用深度學(xué)習(xí)贏得了ImageNet圖像分類比賽的冠軍后,深度學(xué)習(xí)即成為了學(xué)術(shù)界的研究熱點(diǎn)之一。深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)在圖像的分類方面表現(xiàn)出色,同時(shí)其提取的特征向量更具有表達(dá)性。因此本文提出了通過CNN來評(píng)估人臉圖像質(zhì)量的方法,以此來解決人臉識(shí)別系統(tǒng)中圖像質(zhì)量問題。
1 人臉質(zhì)量評(píng)價(jià)模型
人臉圖像質(zhì)量評(píng)價(jià)可以被看作一個(gè)二分類問題,人臉圖像被分為兩類:一類是高質(zhì)量人臉圖像,另一類是低質(zhì)量人臉圖像。通過模型來將輸入映射到質(zhì)量標(biāo)簽空間中,在人臉識(shí)別時(shí)首先判斷輸入人臉圖像的質(zhì)量高低,將質(zhì)量低的進(jìn)行剔除,質(zhì)量高的保留以進(jìn)行后續(xù)處理。下面將對(duì)本文提出的人臉質(zhì)量評(píng)價(jià)網(wǎng)絡(luò)模型進(jìn)行詳細(xì)介紹。
1.1 網(wǎng)絡(luò)模型結(jié)構(gòu)
本文設(shè)計(jì)的人臉質(zhì)量評(píng)價(jià)網(wǎng)絡(luò)模型是由5層卷積層(Convolution)、3層降采樣層(即池化層Pool)和3層全連接層(Fully Connected, FC)堆疊而成的深度CNN,其中還使用了PRelu(Parametric Rectified Linear Unit)激活層、LRN(Local Response Normalization)層和Dropout層等多種不同類型的結(jié)構(gòu),這些多種類型結(jié)構(gòu)的組合共同擬合出從樣本空間到標(biāo)簽空間的映射關(guān)系。人臉質(zhì)量評(píng)價(jià)網(wǎng)絡(luò)模型如圖1所示。
從圖1可以看出,除了第3個(gè)、第4個(gè)卷積層(Conv)外,其他3個(gè)卷積層后都接著降采樣層(即池化層Pool)。網(wǎng)絡(luò)的輸入尺寸是112×112×3的三通道人臉圖像。
第1個(gè)卷積層(Conv1)使用96個(gè)11×11×3的卷積核對(duì)輸入進(jìn)行卷積運(yùn)算,移動(dòng)步長為4個(gè)像素,因此輸出的特征圖尺寸為(112-11)/4+1=26個(gè)像素。由于有96個(gè)卷積核,所以最后會(huì)生成的特征圖的規(guī)模為26×26×96。這些特征圖先經(jīng)過PRelu1激活函數(shù)操作后,再經(jīng)過一個(gè)最大池化層Pool1的處理,池化核的尺寸為3×3,移動(dòng)步長為2,則池化后圖像的寬高分別為(26-3)/2+1=13個(gè)像素,數(shù)量為96個(gè)。
第2個(gè)卷積層(Conv2)的輸入是13×13×96尺寸的特征圖,并在特征圖每個(gè)通道的周圍各填充2個(gè)像素,再通過256個(gè)5×5×96的卷積核處理,移動(dòng)步長為1,輸出的特征圖尺寸為(13-5+2×2)/1+1=13,有256個(gè)。輸出的結(jié)果經(jīng)過PRelu2激活后再經(jīng)過一個(gè)最大池化層Pool2的處理,池化核的大小是3×3,移動(dòng)步長是2,得到輸出的特征圖規(guī)模為6×6×256。
第3個(gè)卷積層(Conv3)使用3×3大小的卷積核,移動(dòng)步長為1,該層同樣在輸入圖像每通道的周圍填充了一個(gè)像素,使得輸出的尺寸跟輸入一致。該層卷積核數(shù)量為384個(gè),產(chǎn)生的輸出特征圖規(guī)模為6×6×384。
第4個(gè)卷積層(Conv4)的參數(shù)與第3個(gè)卷積層(Conv3)一樣,輸入是6×6×384的特征圖,經(jīng)過填充和卷積運(yùn)算,得到的輸出特征圖規(guī)模依然為6×6×384。
第5個(gè)卷積層(Conv5)使用的卷積核尺寸仍為3×3,數(shù)量為256個(gè),移動(dòng)步長為1個(gè)像素。對(duì)輸入特征圖各通道的上下左右填充一個(gè)像素后,經(jīng)過卷積核的卷積運(yùn)算,產(chǎn)生了6×6×256個(gè)特征圖。這些特征圖經(jīng)過激活層PRelu5后,輸入到一個(gè)池化層Pool5。該池化層采用3×3大小的池化核,移動(dòng)步長為2。最后的輸出特征圖為3×3×256。
第6層全連接層(FC6)的輸入尺寸為3×3×256,采用3×3×256尺寸的濾波器對(duì)輸入進(jìn)行卷積運(yùn)算,每個(gè)濾波器都會(huì)生成一個(gè)一維的運(yùn)算結(jié)果。共有64個(gè)這樣規(guī)模的濾波器,所以最后的輸出為64維的向量,再通過PRelu6激活函數(shù)和Dropout6操作后,得到本層最后64維的輸出值。該層的參數(shù)總數(shù)為3×3×256×64=147456。
第7層全連接層(FC7)的神經(jīng)元與第6層的輸出結(jié)果進(jìn)行全連接,共有64個(gè)神經(jīng)元,所以最后的輸出為64個(gè)數(shù)據(jù)。該層的參數(shù)總數(shù)為64×64=4096。
第8層全連接層(FC8)共輸出兩個(gè)值,與第7層全連接層(FC7)的所有神經(jīng)元進(jìn)行全連接,輸出網(wǎng)絡(luò)最終的訓(xùn)練值。該層的參數(shù)總數(shù)為64×2=128。
最后的Softmax層是該網(wǎng)絡(luò)的終點(diǎn),采用Softmax損失函數(shù)來計(jì)算訓(xùn)練的結(jié)果與實(shí)際值之間的誤差,該誤差越小,表明網(wǎng)絡(luò)的分類效果越好。通過反向傳播算法不斷優(yōu)化網(wǎng)絡(luò)參數(shù),減小損失函數(shù)值,直到其收斂,即可得到最終的網(wǎng)絡(luò)模型參數(shù)。
1.2 數(shù)據(jù)準(zhǔn)備及訓(xùn)練
由于人臉質(zhì)量評(píng)價(jià)沒有統(tǒng)一明確的定義,目前學(xué)術(shù)界還沒有一套公開標(biāo)準(zhǔn)的人臉圖像質(zhì)量評(píng)價(jià)數(shù)據(jù)集可供選擇。其他許多公開的人臉數(shù)據(jù)集,比如:CASIA-WebFace(Institute of Automation, Chinese Academy of Sciences WebFace)[12]、LFW(Labeled Faces in the Wild)、FERET(Face Recognition Technology)[13]等,大多是在有約束的環(huán)境中采集的,圖像質(zhì)量普遍偏高,導(dǎo)致高質(zhì)量人臉圖像和低質(zhì)量人臉圖像的比例分布不均,對(duì)模型的訓(xùn)練有誤導(dǎo)作用。
本文實(shí)驗(yàn)所使用的人臉數(shù)據(jù)集,是利用監(jiān)控設(shè)備,在實(shí)際無約束條件下采集的。使用了FFmpeg(Fast Forward MPEG)抓取視頻流數(shù)據(jù),通過MTCNN(Multi-Task Cascaded Convolutional Network)人臉檢測算法檢測視頻幀中人臉的位置,裁剪后將圖像數(shù)據(jù)保存在本地磁盤上??偣彩占行四槇D像498459張。
對(duì)這些人臉圖像,首先對(duì)人臉圖像的光照、模糊度、姿態(tài)進(jìn)行計(jì)算,采用的方法分別為:通過圖像直方圖對(duì)光照均勻度進(jìn)行判別,使用PnP(Perspective-n-Point)方法對(duì)人臉姿態(tài)進(jìn)行估計(jì),采用Brenner梯度函數(shù)對(duì)人臉模糊度進(jìn)行分析;然后將這三種因素的得分歸一化后加權(quán)計(jì)算總得分,用總得分進(jìn)行粗分類;最后人工篩選進(jìn)行精細(xì)分類。這些人臉圖像共分為三類,一類是高質(zhì)量人臉圖像數(shù)據(jù)集簡稱為(High Quality Face Dataset, HQFD),這類數(shù)據(jù)集中的人臉圖像具有面部清晰、五官分明、呈對(duì)稱分布,且光照均勻、無遮擋的特點(diǎn);一類是低質(zhì)量人臉圖像數(shù)據(jù)集簡稱為(Low Quality Face Dataset, LQFD),這類數(shù)據(jù)集中的人臉圖像的特點(diǎn)是模糊、側(cè)臉、光照分布不均或者遮擋嚴(yán)重;還有一類是介于高質(zhì)量和低質(zhì)量圖像之間,難以界定的數(shù)據(jù)集MQFD(Middle Quality Face Dataset),一般面部的輕微遮擋、表情夸張等屬于這類數(shù)據(jù)集。通過清洗篩選,最終得到的人臉圖像數(shù)量如表1所示。
為了使CNN提取人臉圖像具有辨識(shí)度的質(zhì)量特征,更好地?cái)M合人臉圖像到質(zhì)量空間的映射關(guān)系,訓(xùn)練模型時(shí)只選取HQFD和LQFD兩個(gè)數(shù)據(jù)集,其中令HQFD的樣本標(biāo)簽為1,LQFD的樣本標(biāo)簽為0。對(duì)HQFD和LQFD兩個(gè)數(shù)據(jù)集再進(jìn)行劃分,分別劃分為訓(xùn)練集、驗(yàn)證集和測試集,比例為3∶1∶1。對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,計(jì)算所有圖像像素的均值和標(biāo)準(zhǔn)差,然后將圖像的像素值減去均值后除以標(biāo)準(zhǔn)差作標(biāo)準(zhǔn)化處理;并且在模型訓(xùn)練過程中,對(duì)輸入圖像進(jìn)行鏡像操作,即圖像像素左右翻轉(zhuǎn),這樣數(shù)據(jù)集規(guī)模將增大一倍。
2 實(shí)驗(yàn)結(jié)果與分析
本文采用了深度學(xué)習(xí)框架Caffe進(jìn)行模型的訓(xùn)練和測試,運(yùn)行環(huán)境是Ubuntu14.04,硬件平臺(tái)使用了GPU加速訓(xùn)練,其型號(hào)是GeForce GTX TITAN X。模型的部分訓(xùn)練參數(shù)如表2所示。
由于該訓(xùn)練是個(gè)二分類問題,且數(shù)據(jù)特征的差異較明顯,所以在訓(xùn)練時(shí)該模型的準(zhǔn)確率很快就得到了巨大的提升,最后的測試準(zhǔn)確率穩(wěn)定在了99.41%。圖2、圖3分別展示了模型訓(xùn)練損失和測試準(zhǔn)確率隨迭代次數(shù)的變化關(guān)系。
從圖2、圖3中可以看出,隨著迭代次數(shù)的增加,模型很快達(dá)到了收斂,大約在迭代了15000次后,模型的測試準(zhǔn)確率也達(dá)到了99%以上。當(dāng)訓(xùn)練完成后,模型的損失函數(shù)值處于穩(wěn)定的收斂狀態(tài),此時(shí)網(wǎng)絡(luò)的參數(shù)達(dá)到了最優(yōu)。
模型訓(xùn)練完成后,在測試數(shù)據(jù)集上進(jìn)行測試。在低質(zhì)量數(shù)據(jù)集上,正確分類的占比為99.1%,在高質(zhì)量數(shù)據(jù)集上,測試的準(zhǔn)確性為98.7%,整體的測試準(zhǔn)確性達(dá)到了98.9%,如表3所示,說明模型在測試集上仍具有很好的分類效果。
由于Softmax的輸出表示輸入屬于每一類的概率值,屬于高質(zhì)量一類的概率值越高,則輸入是高質(zhì)量人臉圖像的可能性越大。本文使用屬于高質(zhì)量一類的概率值作為對(duì)輸入圖像的質(zhì)量評(píng)分。用打分方法對(duì)測試集人臉圖像進(jìn)行打分,同時(shí)在通過電腦合成的兩張完美人臉上用本文提出的方法進(jìn)行打分,打分的部分結(jié)果如圖4所示。
圖4說明了人臉遮擋、模糊、光照不均勻、姿態(tài)等因素較差時(shí),得分也較低,而兩張完美人臉的得分都為1,屬于高質(zhì)量人臉圖像。同時(shí)對(duì)打分結(jié)果進(jìn)行統(tǒng)計(jì)分析,高質(zhì)量的人臉圖像的得分大部分高于0.8,而在低質(zhì)量測試集上,大約90%的圖像得分都低于0.1,說明模型在測試集上仍具有較好的表現(xiàn)。
為了驗(yàn)證模型在人臉模糊、光照、姿態(tài)以及遮擋方面的性能,本實(shí)驗(yàn)使用公開數(shù)據(jù)集Color FERET、FIIQD(Illumination Quality Assessment for Face Images DataSet)[14]和FDDB(Face Detection Data Set and Benchmark),分別驗(yàn)證模型在人臉姿態(tài)、光照和遮擋上的表現(xiàn)性能,并取部分Color FERET數(shù)據(jù)集進(jìn)行高斯模糊,來驗(yàn)證模型在人臉模糊上的表現(xiàn)性能。實(shí)驗(yàn)結(jié)果表明,模型對(duì)人臉圖像的模糊因素具有明顯的區(qū)分度,在模糊度高于一定值后,模型給出的評(píng)分急劇降低,越模糊的人臉圖像得到的評(píng)分越低,如圖5(a)所示。在光照方面,模型對(duì)光照不均勻、光線較暗的人臉圖像評(píng)分很低,對(duì)光線均勻的人臉圖像評(píng)分很高,說明模型在光照方面表現(xiàn)出優(yōu)越的性能,如圖5(b)所示。在人臉姿態(tài)方面,對(duì)于偏轉(zhuǎn)小于45°的人臉,模型都評(píng)判為高質(zhì)量,而偏轉(zhuǎn)角度過大的人臉都被評(píng)判為低質(zhì)量,說明模型對(duì)人臉姿態(tài)也有很好強(qiáng)的適應(yīng)性,如圖5(c)所示。在遮擋方面,對(duì)于少量遮擋,且能夠清晰辨別出五官的前提下,模型打分較高,對(duì)于遮擋住面部五官的少量遮擋或者大范圍遮擋的情況下,模型給出的得分較低,實(shí)驗(yàn)結(jié)果如圖5(d)所示。
上述實(shí)驗(yàn)表明:本文提出的用于人臉圖像質(zhì)量評(píng)價(jià)的CNN模型,在人臉圖像模糊、光照、姿態(tài)和遮擋方面都表現(xiàn)較好,具有一定的判別能力;同時(shí)模型的參數(shù)較少,只有9.5MB,但是達(dá)到了較高的判別準(zhǔn)確率,其前向傳播一次耗時(shí)為4.1ms,運(yùn)算速度快,能夠?qū)崟r(shí)響應(yīng),可用于人臉識(shí)別系統(tǒng)中人臉質(zhì)量的實(shí)時(shí)評(píng)價(jià)。表4列出了數(shù)據(jù)集在不同網(wǎng)絡(luò)結(jié)構(gòu)下的準(zhǔn)確率等信息,可以看出,在準(zhǔn)確率相差不大的情況下,該模型的參數(shù)規(guī)模比AlexNet(Alex Network)、VGG-16(Visual Geometry Group)、VGG-19分別降低了95.6%、98.1%、98.2%,運(yùn)算效率得到極大的提高。
本文模型在實(shí)際應(yīng)用中,可根據(jù)實(shí)際情況設(shè)定一個(gè)閾值,當(dāng)評(píng)分高于該閾值時(shí),判定是高質(zhì)量人臉圖像,可進(jìn)行后續(xù)步驟處理,否則判定是低質(zhì)量人臉圖像,進(jìn)行拋棄。
3 結(jié)語
本文針對(duì)人臉識(shí)別中的低質(zhì)量圖像造成識(shí)別準(zhǔn)確率低下的問題提出了解決方案。將人臉質(zhì)量評(píng)價(jià)轉(zhuǎn)化為二分類問題,采用流行的CNN對(duì)訓(xùn)練集進(jìn)行學(xué)習(xí),提取人臉圖像的深層質(zhì)量特征,并加以分類。網(wǎng)絡(luò)模型在測試集上達(dá)到了98.9%的分類準(zhǔn)確率。通過將人臉圖像屬于高質(zhì)量一類的概率作為其質(zhì)量評(píng)價(jià),建立了人臉質(zhì)量打分機(jī)制。最后實(shí)驗(yàn)結(jié)果表明,模型對(duì)人臉圖像的模糊、光照、姿態(tài)和遮擋等因素造成的影響具有較強(qiáng)的判別能力,同時(shí)具有較高的運(yùn)算效率。下一步工作是不斷提高模型的準(zhǔn)確性和適應(yīng)性。
參考文獻(xiàn) (References)
[1] 徐曉艷.人臉識(shí)別技術(shù)綜述[J].電子測試,2015(5X):30-35.(XU X Y. Survey of face recognition technology [J]. Electronic Test, 2015(5X): 30-35.)
[2] DODGE S, KARAM L. Understanding how image quality affects deep neural networks [C]// Proceedings of the 2016 8th International Conference on Quality of Multimedia Experience. Piscataway, NJ: IEEE, 2016:11-16.
[3] KARAHAN S, YILDIRUM M K, KIRTAC K, et al. How image degradations affect deep CNN-based face recognition? [C]// Proceedings of the 2016 International Conference of the Biometrics Special Interest Group. Piscataway, NJ: IEEE, 2016: 22-29.
[4] ISO/IEC 19794-5, ANSI美國國家標(biāo)準(zhǔn):Information technology-biometric data interchange formats-Part 5: face image data [S]. New York: American National Standard Institute (ANSI), 2001.
ISO/IEC 19794-5. Information technology-biometric data interchange formats—Part 5: face image data [S]. New York: American National Standard Institute (ANSI), 2001.
[5] ICAO 9303. International civil aviation organization: machine readable travel documents [S]. Canada[S. l.]: International Civil Aviation Organization, 2006.
[6] BERRANI S A, GARCIA C. Enhancing face recognition from video sequences using robust statistics [C]// Proceedings of the 2005 IEEE Conference on Advanced Video and Signal based Surveillance. Washington, DC: IEEE Computer Society, 2005: 324-329.
[7] YANG Z, AI H, WU B, et al. Face pose estimation and its application in video shot selection [C]// ICPR '04: Proceedings of the 17th International Conference on Pattern Recognition. Washington, DC: IEEE Computer Society, 2004, 1: 322-325.
[8] GAO X, LI S Z, LIU R, et al. Standardization of face image sample quality [C]// Proceedings of the 2007 International Conference on Biometrics, LNCS 4642. Berlin: Springer, 2007: 242-251.
[9] SELLAHEWA H, JASSIM S A. Image-quality-based adaptive face recognition [J]. IEEE Transactions on Instrumentation and Measurement, 2010, 59(4): 805-813.
[10] WONG Y K, CHEN S K, MAU S, et al. Patch-based probabilistic image quality assessment for face selection and improved video-based face recognition [C]// Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Piscataway, NJ: IEEE, 2011: 74-81.
[11] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks [J]. Science, 2006, 313(5786): 504-507.
[12] YI D, LEI Z, LIAO S C, et al. Learning face representation from scratch [J]. Computer Science, 2014, 1(1): 1411-1438arXiv Preprint, 2014, 2014: arXiv.1411.7923.
[13] PHILLIPS P J, MOON H, RIZVI S A, et al. The FERET evaluation methodology for face-recognition algorithms [C]// Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR), Piscataway, NJ: IEEE, 1997, 22(10):137-143.
PHILLIPS P J, MOON H, RIZVI S A, et al. The FERET evaluation methodology for face-recognition algorithms [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(10): 1090-1104.
[14] ZHANG L, ZHANG L, LI L. Illumination quality assessment for face images: a benchmark and a convolutional neural networks based model [C]// Proceedings of the 2017 International Conference on Neural Information Processing, LNCS 10636. Berlin: Springer, 2017: 583-593.