龔亮
摘?要:隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,信息化與智能化的便捷生活成為了人們的日常,信息的安全性和私人性的重要性成為人們?nèi)找骊P(guān)注的重點(diǎn)。作為身份信息驗(yàn)證的日常使用方式之一,人臉識(shí)別技術(shù)的發(fā)展也是智能化進(jìn)步的成果之一。人臉是被是基于人的臉部特征信息進(jìn)行身份識(shí)別的一種生物識(shí)別技術(shù),得益于人工智能的迅猛發(fā)展,基于深度學(xué)習(xí)的人臉識(shí)別方法具有傳統(tǒng)方法沒有的優(yōu)點(diǎn),解決了身份認(rèn)證技術(shù)所面臨的大難題。在本文中,對(duì)基于深度學(xué)習(xí)的人臉識(shí)別的最新發(fā)展進(jìn)行了總結(jié),涵蓋了技術(shù)與場景。
關(guān)鍵詞:人臉識(shí)別;深度學(xué)習(xí);人工智能
一、人臉識(shí)別步驟概述
人臉識(shí)別是用攝像頭采集含有人臉的圖像或視頻流,并自動(dòng)在圖像中檢測和跟蹤人臉,進(jìn)而對(duì)檢測到的人臉進(jìn)行身份識(shí)別的一系列相關(guān)技術(shù)。完善的深度人臉識(shí)別系統(tǒng)首先通過人臉檢測器定位面部,然后通過面部校準(zhǔn)將人臉與標(biāo)準(zhǔn)化的規(guī)范坐標(biāo)對(duì)齊。在真正進(jìn)入到人臉識(shí)別功能之前,經(jīng)過防欺騙模塊來識(shí)別輸入的圖像數(shù)據(jù)是否是真實(shí)的活物或者是欺騙性的,這樣可以避免不同類型的攻擊。而識(shí)別模塊主要由面部處理、深度特征提取和面部匹配組成[1]。
其中,人臉識(shí)別的過程可以由如下式子來表示:
M[F(PiIi,F(xiàn)(PjIj]
這里,Ii和Ij分別代表兩張不同的人臉照片;P代表數(shù)據(jù)處理以處理個(gè)人臉部變化,例如姿勢,照明,表情,和遮擋;F表示特征提取,對(duì)人臉身份信息進(jìn)行編碼;M表示用于計(jì)算相似度得分的人臉匹配算法。
二、面部數(shù)據(jù)處理
面部數(shù)據(jù)處理是用于在訓(xùn)練和測試之前對(duì)數(shù)據(jù)進(jìn)行預(yù)處理使其降低識(shí)別的困難度。盡管基于深度學(xué)習(xí)的人臉識(shí)別方法由于其強(qiáng)大的表征性而被廣泛使用,但是Ghazi[2]等人證明了各種條件,如姿勢,照明,表情和遮擋等等因素仍然影響著深度人臉識(shí)別的性能表現(xiàn),在這種情況下,面部的預(yù)處理就十分有益了。人臉數(shù)據(jù)處理的方法可以分為“一對(duì)多增強(qiáng)”和“多對(duì)一歸一化”。
“一對(duì)多增強(qiáng)”是指從單個(gè)圖像生成多批次的圖像數(shù)據(jù)或者是多個(gè)不同姿態(tài)下的圖像,使深度神經(jīng)網(wǎng)絡(luò)能夠能加全面穩(wěn)定地學(xué)習(xí)到人臉在不同環(huán)境下的不變特性。收集大型的數(shù)據(jù)庫是非常耗時(shí)而且昂貴的?!耙粚?duì)多增強(qiáng)”的方法可以減輕數(shù)據(jù)收集的挑戰(zhàn),并且它們不僅可以用于增加訓(xùn)練數(shù)據(jù),還可以用于增加測試數(shù)據(jù)的體量。與“一對(duì)多增強(qiáng)”相比,“多對(duì)一歸一化”方法產(chǎn)生人臉正面圖像并減少測試數(shù)據(jù)的外觀變化,使面部易于對(duì)齊和比較。
三、深層特征提取
深度學(xué)習(xí)的網(wǎng)絡(luò)架構(gòu)可以分為主干網(wǎng)絡(luò)和多路網(wǎng)絡(luò)。隨著ImageNet競賽中所涌現(xiàn)出了大量高性能神經(jīng)網(wǎng)絡(luò),許多經(jīng)典的CNN架構(gòu)如AlexNet,VGGNet,ResNet等,被廣泛用作人臉識(shí)別中的基本模型[3]。當(dāng)然除了主流網(wǎng)絡(luò)之外,還有一些專門針對(duì)人臉是被所設(shè)計(jì)的用來提高功能性的網(wǎng)絡(luò)架構(gòu)。此外,往往在采用主干網(wǎng)絡(luò)作為基礎(chǔ)的同時(shí),通常還會(huì)訓(xùn)練具有多個(gè)輸入或多個(gè)任務(wù)的子網(wǎng)絡(luò)用來針對(duì)一種輸入或進(jìn)行一種特定類型的任務(wù)。
四、損失函數(shù)
損失函數(shù)是用來評(píng)估模型的預(yù)測值與真實(shí)值的不一致程度的非負(fù)值函數(shù)。當(dāng)損失函數(shù)越小時(shí),模型的魯棒性就越強(qiáng),通常使用L(Y,fx)來表示。模型的結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)包括了經(jīng)驗(yàn)風(fēng)險(xiǎn)項(xiàng)和正則項(xiàng),通??梢员硎境扇缦率阶樱?/p>
θ*=argminθ1N∑Ni=1Lyi,fxi;θ+λΦ(θ)
前面部分的均值函數(shù)用來表示的是經(jīng)驗(yàn)風(fēng)險(xiǎn)項(xiàng),其中Lyi,fxi;θ代表的是損失函數(shù),是經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù)的核心部分;后面部分表示的是正則化項(xiàng)或者懲罰項(xiàng),通常使用L1函數(shù)、L2函數(shù)等代表的正則函數(shù)。公式旨在找到一個(gè)能夠使目標(biāo)函數(shù)最小的值即使預(yù)測值與真實(shí)值的差異性最小。機(jī)器學(xué)習(xí)作為一種優(yōu)化方法,學(xué)習(xí)目標(biāo)就是找到優(yōu)化的目標(biāo)函數(shù)——損失函數(shù)和正則項(xiàng)的組合;有了目標(biāo)函數(shù)的“正確的打開方式”,才能通過合適的機(jī)器學(xué)習(xí)算法求解優(yōu)化。
五、基于深度學(xué)習(xí)的人臉比對(duì)
在利用海量數(shù)據(jù)和適當(dāng)?shù)膿p失函數(shù)訓(xùn)練深度網(wǎng)絡(luò)之后,每個(gè)測試圖像通過網(wǎng)絡(luò)以獲得深度特征表示。在提取到了深度特征之后,常常用余弦距離或者是L2距離來表示兩個(gè)特征之間的相似度,同時(shí)最鄰近單元和閾值比較也常被用于識(shí)別任務(wù)。除此之外,還引入了其他方法,例如度量學(xué)習(xí),基于稀疏表示的分類器等。
其中人臉比對(duì)可以分為面部驗(yàn)證和面部識(shí)別。面部驗(yàn)證旨在找到一種新的指標(biāo),使兩個(gè)類之間更加可分,同樣地也可以使用在基于深度特征提取的面部匹配;面部識(shí)別的思想是得到一張輸入人臉圖像與人臉數(shù)據(jù)庫中的多張人臉的相似度,進(jìn)而找到輸入人臉的身份信息,相當(dāng)于是一對(duì)多的人臉身份驗(yàn)證。
六、應(yīng)用場景
近些年來,為了建設(shè)平安城市,許多公共場所配置了許多智能化的監(jiān)控系統(tǒng),這些系統(tǒng)中的夠高速高清的抓拍行人圖像信息,并夠快速地得到其身份信息。在這些系統(tǒng)中,人臉識(shí)別就顯得尤為重要了,在機(jī)場、車站等人流重要出入口通道中都配備了人臉識(shí)別環(huán)節(jié),其通過圖像采集設(shè)備所捕捉的人臉圖像同數(shù)據(jù)庫中的人臉數(shù)據(jù)進(jìn)行匹配,得到人物最為相近的身份信息。人臉識(shí)別的市場場景范圍很廣,從私人信息驗(yàn)證設(shè)備到公共安全監(jiān)控設(shè)施。其應(yīng)用領(lǐng)域可以分為金融領(lǐng)域、安防領(lǐng)域、人社領(lǐng)域、刑偵領(lǐng)域。
七、存在的缺陷和發(fā)展趨勢
得助于大量的具有標(biāo)識(shí)的數(shù)據(jù),先進(jìn)的算法和不斷強(qiáng)大的GPU,基于深度學(xué)習(xí)的人臉識(shí)別在近距離正面人臉的面部驗(yàn)證、相似度面部識(shí)別和跨年齡識(shí)別等某些測試中已經(jīng)超越了人類的表現(xiàn),但是仍有許多問題待解決。對(duì)應(yīng)于大規(guī)模的數(shù)據(jù)集,通過一次性或者低次數(shù)人臉識(shí)別和多姿勢的大規(guī)模人臉識(shí)別將成為未來研究的焦點(diǎn);與人類本能相比,機(jī)器還需要更加高效地算法;如何了解到深度人臉識(shí)別當(dāng)中的深層意義或者說是打開深度神經(jīng)網(wǎng)絡(luò)這個(gè)黑匣子,具有十分重要的意義;提高系統(tǒng)的防御性是人臉識(shí)別系統(tǒng)仍需增進(jìn)的部分;如何構(gòu)建一個(gè)更加通用的系統(tǒng)或者是可以在很少修改后應(yīng)用于每個(gè)場景的系統(tǒng)可能是未來的研究發(fā)展方向。
參考文獻(xiàn):
[1]Wang?M,Deng?W.Deep?face?recognition:A?survey[J].arXiv?preprint?arXiv:1804.06655,2018.
[2]Ghazi?M?M,Ekenel?H?K.A?Comprehensive?Analysis?of?Deep?Learning?Based?Representation?for?Face?Recognition[J].2016.
[3]景晨凱,宋濤,莊雷,等.基于深度卷積神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別技術(shù)綜述[J].計(jì)算機(jī)應(yīng)用與軟件,2018(1):223-231.