趙 青,余元輝
(1.集美大學(xué)理學(xué)院,福建廈門(mén) 361021;2.集美大學(xué)計(jì)算機(jī)工程學(xué)院,福建廈門(mén) 361021)
隨著人工智能和生物特征識(shí)別技術(shù)的快速發(fā)展,人臉作為重要的生物特征,人臉識(shí)別技術(shù)在生物特征識(shí)別、計(jì)算機(jī)視覺(jué)、圖像處理領(lǐng)域獲得熱門(mén)關(guān)注和高速發(fā)展,在金融、安防、安檢、手機(jī)APP 等眾多領(lǐng)域的相關(guān)應(yīng)用也越來(lái)越廣泛。二維人臉識(shí)別技術(shù)已經(jīng)相當(dāng)成熟,但識(shí)別率仍受光照、姿態(tài)、表情等因素的影響,相對(duì)而言三維人臉數(shù)據(jù)受其影響較小,具有更好的魯棒性,同時(shí)包含的空間信息更加豐富,具有更高的防偽性,確保信息的安全性更高。因此,越來(lái)越多的學(xué)者將關(guān)注點(diǎn)轉(zhuǎn)向三維人臉識(shí)別技術(shù)的研究。
傳統(tǒng)的三維人臉識(shí)別技術(shù)主要是通過(guò)手工設(shè)計(jì)面部特征或?qū)⑷S人臉數(shù)據(jù)投影為二維人臉圖像提取圖像特征[1],進(jìn)行特征相似性度量實(shí)現(xiàn)識(shí)別。Drira 等[2]提出了一個(gè)幾何框架,從鼻尖點(diǎn)構(gòu)建徑向曲線表示面部特征,通過(guò)彈性黎曼度量標(biāo)準(zhǔn)測(cè)量面部形狀差異,該方法在GavabDB 數(shù)據(jù)庫(kù)的仰視數(shù)據(jù)集取得了100%的識(shí)別率,但針對(duì)頭部向左、右旋轉(zhuǎn)的數(shù)據(jù)集識(shí)別率僅有70.49%和86.89%;在此基礎(chǔ)上,Lei 等[3]在三維人臉模型的半剛性區(qū)域設(shè)計(jì)了角徑向特征(Angular Radial Signature,ARS),并通過(guò)核主成分分析(Kernel Principal Component Analysis,KPCA)方法將原始ARS 映射為更具區(qū)分度的特征,通過(guò)支持向量機(jī)(Support Vector Machine,SVM)實(shí)現(xiàn)人臉識(shí)別,該方法開(kāi)始進(jìn)行大姿態(tài)數(shù)據(jù)的識(shí)別。機(jī)器學(xué)習(xí)算法興起后,將人臉數(shù)據(jù)進(jìn)行標(biāo)簽化處理,人臉識(shí)別問(wèn)題轉(zhuǎn)換為監(jiān)督分類(lèi)任務(wù)。Xu等[4]針對(duì)表情和姿態(tài)數(shù)據(jù)集進(jìn)行人臉?lè)诸?lèi)識(shí)別,基于深度圖像和強(qiáng)度圖像提取Gabor 小波特征,并獲得深度、強(qiáng)度圖像的融合特征,使用AdaBoost級(jí)聯(lián)分類(lèi)器完成人臉?lè)诸?lèi)識(shí)別,在CASIA 數(shù)據(jù)庫(kù)上取得了91.2%的識(shí)別率,在小姿態(tài)(頭部偏轉(zhuǎn)±20°~±30°)和較大姿態(tài)(頭部偏轉(zhuǎn)±50°~±60°)數(shù)據(jù)集上分別實(shí)現(xiàn)了82.4%和61.5%的識(shí)別率。近年來(lái),眾多研究人員進(jìn)一步專(zhuān)注于利用深度學(xué)習(xí)框架自動(dòng)學(xué)習(xí)數(shù)據(jù)特征并實(shí)現(xiàn)人臉識(shí)別[5-7]。Gilani 等[8]提出了第一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)FR3DNet(Deep 3D Face Recognition Network)進(jìn)行三維人臉識(shí)別,基于gridfit算法生成三維人臉模型對(duì)應(yīng)的深度圖,以深度值、法向量的方向角、仰角三通道作為網(wǎng)絡(luò)輸入,在CASIA 數(shù)據(jù)集上的識(shí)別率較卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)算法提高5 個(gè)百分點(diǎn)以上。Mu 等[9]專(zhuān)注于低質(zhì)量三維人臉的識(shí)別研究,提出了聯(lián)合多尺度特征融合(MultiScale Feature Fusion,MSFF)模塊和空間注意力矢量化(Spatial Attention Vectorization,SAV)模塊的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)Led3D(Lightweight and efficient deep approach to recognizing low-quality 3D faces),以深度圖作為網(wǎng)絡(luò)輸入,采用二維人臉識(shí)別模式,在Bosphorus 數(shù)據(jù)庫(kù)上獲得91.27%的準(zhǔn)確度。
基于深度學(xué)習(xí)的三維點(diǎn)云分類(lèi)網(wǎng)絡(luò)于2017 年興起,Qi等[10]提出了PointNet 深度網(wǎng)絡(luò)用以實(shí)現(xiàn)三維點(diǎn)云數(shù)據(jù)的分類(lèi)和分割,解決了點(diǎn)云無(wú)序性的問(wèn)題,作為首個(gè)直接以三維點(diǎn)云作為輸入的輕量級(jí)網(wǎng)絡(luò),其分類(lèi)網(wǎng)絡(luò)提取點(diǎn)云數(shù)據(jù)的全局特征實(shí)現(xiàn)三維點(diǎn)云分類(lèi),但存在局部特征缺失的問(wèn)題;在此基礎(chǔ)上,Qi 等[11]針對(duì)PointNet 網(wǎng)絡(luò)進(jìn)行了改進(jìn),提出了PointNet++深度網(wǎng)絡(luò),在PointNet++分類(lèi)網(wǎng)絡(luò)結(jié)構(gòu)中,通過(guò)采樣、分組、PointNet三層結(jié)構(gòu)實(shí)現(xiàn)從局部特征到全局特征的提取,分類(lèi)精度大幅度提升。Li等[12]在2018年提出了PointCNN 網(wǎng)絡(luò),采用χ-卷積替換了PointNet 網(wǎng)絡(luò)中的微網(wǎng)絡(luò)T-Net,參數(shù)量極大減少,PointCNN 分類(lèi)網(wǎng)絡(luò)準(zhǔn)確度較PointNet 分類(lèi)網(wǎng)絡(luò)有較大提升。2019 年,Cai 等[13]在PointNet++網(wǎng) 絡(luò) 的 基 礎(chǔ) 上 結(jié) 合PointSIFT[14]網(wǎng)絡(luò)提出 了空間聚合網(wǎng)絡(luò)(Spatial Aggregation Net,SAN)方法,基于多方向卷積提取三維點(diǎn)云空間結(jié)構(gòu)特征,雖然點(diǎn)云分割取得最高精度,點(diǎn)云分類(lèi)結(jié)果卻略低于PointNet++分類(lèi)網(wǎng)絡(luò)。
PointNet 系列的分類(lèi)網(wǎng)絡(luò)主要應(yīng)用于物體或場(chǎng)景三維點(diǎn)云的分類(lèi),三維點(diǎn)云人臉模型不同于物體或場(chǎng)景點(diǎn)云,因此本文探索性地在PointNet 系列的分類(lèi)網(wǎng)絡(luò)上進(jìn)行三維人臉?lè)诸?lèi)識(shí)別,并針對(duì)三維人臉模型存在因表情變化產(chǎn)生塑性形變、因姿態(tài)變化導(dǎo)致部分?jǐn)?shù)據(jù)缺失的問(wèn)題,提出了一種分層特征化網(wǎng)絡(luò),即HFN(Hierarchical Feature Network)方法,也屬于輕量級(jí)網(wǎng)絡(luò)。單獨(dú)訓(xùn)練好PointNet++和SAN 的分類(lèi)網(wǎng)絡(luò),進(jìn)行特征提取的SA(Set Abstraction)模塊和DSA(Directional Spatial Aggregation)模塊均采用三層結(jié)構(gòu),將兩種不同的特征進(jìn)行等維度拼接,HFN 利用拼接特征進(jìn)行識(shí)別時(shí)網(wǎng)絡(luò)收斂更快,在CASIA數(shù)據(jù)集實(shí)現(xiàn)了96.34%的平均識(shí)別準(zhǔn)確度,高于已有分類(lèi)網(wǎng)絡(luò)的識(shí)別結(jié)果。
三維點(diǎn)云圖像在采集過(guò)程中,由于掃描設(shè)備或者外界環(huán)境等因素的影響,會(huì)出現(xiàn)數(shù)據(jù)缺損、離群點(diǎn)、數(shù)據(jù)冗余等問(wèn)題,對(duì)識(shí)別結(jié)果造成影響;同時(shí)CASIA 數(shù)據(jù)庫(kù)中三維人臉的數(shù)據(jù)類(lèi)型并不能直接作為分類(lèi)網(wǎng)絡(luò)的輸入,因此,需要進(jìn)行相關(guān)的數(shù)據(jù)預(yù)處理操作,獲取滿足要求的三維點(diǎn)云人臉數(shù)據(jù)。
CASIA三維人臉數(shù)據(jù)庫(kù)中人臉信息(圖1(a))是以塊方式存儲(chǔ)的,包含點(diǎn)的坐標(biāo)、顏色、法向量、坐標(biāo)索引四個(gè)部分。為了成功輸入分類(lèi)網(wǎng)絡(luò),將CASIA 數(shù)據(jù)庫(kù)中的WRL(3D virtual reality World object based on virtual Reality modeling Language)數(shù)據(jù)轉(zhuǎn)換為點(diǎn)云數(shù)據(jù),包含坐標(biāo)值[x,y,z]和顏色信息[r,g,b],并生成每個(gè)對(duì)象的對(duì)應(yīng)標(biāo)簽。利用統(tǒng)計(jì)學(xué)濾波器濾除原始點(diǎn)云數(shù)據(jù)的離群值,基于法向量結(jié)合周?chē)c(diǎn)云的拓?fù)浣Y(jié)構(gòu)建立同構(gòu)關(guān)系,構(gòu)建三角網(wǎng),進(jìn)而實(shí)現(xiàn)點(diǎn)云的孔洞填充。
CASIA 數(shù)據(jù)庫(kù)中人臉點(diǎn)云模型如圖1(a)所示,可以表示為Fi=[xn,yn,zn,rn,gn,bn],其中,i=1,2,…,M表示點(diǎn)云模型的數(shù)量,n=1,2,…,N表示單個(gè)人臉模型中點(diǎn)云的數(shù)量。針對(duì)歸一化后的三維人臉模型采用文獻(xiàn)[15]中方法確定鼻尖點(diǎn)坐標(biāo){F1nose′,F(xiàn)2nose′,…,F(xiàn)Mnose′}(不能確定側(cè)臉的鼻尖點(diǎn)坐標(biāo)),利用反歸一化方法[16]獲得原始人臉模型中的鼻尖點(diǎn)坐標(biāo){F1nose,F(xiàn)2nose,…,F(xiàn)Mnose}。為了去除肩膀、脖頸、耳朵等冗余區(qū)域,結(jié)合文獻(xiàn)[17]中方法裁剪出面部的有效區(qū)域(圖1(b)、(c))作為實(shí)驗(yàn)數(shù)據(jù)。
圖1 CASIA數(shù)據(jù)庫(kù)中的三維人臉數(shù)據(jù)Fig.1 3D face data in CASIA database
受PointNet++、SAN 分類(lèi)網(wǎng)絡(luò)的啟發(fā),為了在CASIA 數(shù)據(jù)集上取得更好的識(shí)別結(jié)果,使得分類(lèi)網(wǎng)絡(luò)具有更好的魯棒性,在滿足網(wǎng)絡(luò)輸入要求的情況下,提出了分層特征化網(wǎng)絡(luò)(HFN)。
整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)分為兩層,核心為SA 模塊和DSA 模塊,如圖2 所示。網(wǎng)絡(luò)輸入點(diǎn)數(shù)為N,坐標(biāo)維度為d,其他特征維度為C的點(diǎn)云,即點(diǎn)云大小為N×(d+C)。三個(gè)SA 模塊進(jìn)行層次化處理:第一個(gè)SA 模塊提取點(diǎn)云局部區(qū)域的特征,第二個(gè)SA模塊再一次提取點(diǎn)云局部區(qū)域的特征,最后一個(gè)SA模塊采樣操作后獲得Ns個(gè)局部區(qū)域質(zhì)心點(diǎn),根據(jù)需要獲取以坐標(biāo)為特征的點(diǎn)云全局特征,記為(Ns,C1d);與SA 模塊類(lèi)似,三個(gè)DSA模塊基于多方向卷積的操作更加豐富了點(diǎn)云在三維空間中的結(jié)構(gòu)特征,解決了點(diǎn)云密度不均的問(wèn)題,前一個(gè)DSA 模塊的輸出作為下一個(gè)DSA 模塊的輸入,故第三個(gè)DSA 模塊基于八鄰域搜索方法采樣Ns個(gè)點(diǎn),其特征記為(Ns,C2d);兩個(gè)模塊提取的點(diǎn)云特征拼接為(Ns,C1d+C2d),使得點(diǎn)云的特征較拼接之前的更加豐富,從而進(jìn)一步解決了人臉表情、姿態(tài)導(dǎo)致點(diǎn)云數(shù)據(jù)缺失的問(wèn)題。
SA 模塊 包含采樣層、分組層和PointNet 層。采樣層的目的是確定局部區(qū)域質(zhì)心點(diǎn),以歐氏距離d(?,?)為依據(jù),通過(guò)迭代最遠(yuǎn)點(diǎn)采樣算法(Farthest Point Strategy,F(xiàn)PS)[18]在人臉點(diǎn)云中{F|p1,p2,…,pN}采樣部分點(diǎn)云{Fs|ps1,ps2,…,psj},目的是在{F-Fs}找到psi滿足式(1):
最遠(yuǎn)點(diǎn)采樣算法選擇的點(diǎn)分布均勻,令滿足要求的{Fs|ps1,ps2,…,psj}作為質(zhì)心點(diǎn);分組層是為了確定質(zhì)心點(diǎn)的特定鄰域,以人臉點(diǎn)云N×d和質(zhì)心點(diǎn)云Ns×d為輸入,通過(guò)設(shè)置特定半徑和特定點(diǎn)數(shù)的球形搜索鄰域,確定各個(gè)鄰域的點(diǎn)數(shù)B;PointNet 層作為SA 模塊中的微網(wǎng)絡(luò),能夠?qū)⒎纸M層確定的鄰域點(diǎn)的特征提取出來(lái),提取多個(gè)局部區(qū)域特征并編碼成更高維的特征向量。
DSA模塊 包括采樣層、八鄰域搜索層和多方向卷積層。與SA 模塊類(lèi)似,DSA 模塊采用最遠(yuǎn)點(diǎn)采樣算法確定點(diǎn)云多個(gè)采樣點(diǎn)Ns,并基于八鄰域搜索方法獲得采樣點(diǎn)Ns的鄰域點(diǎn)B,運(yùn)用多方向卷積操作提取采樣點(diǎn)的空間結(jié)構(gòu)信息。多方向卷積包含從單個(gè)方向到兩個(gè)方向、兩個(gè)方向到四個(gè)方向、四個(gè)方向再到八個(gè)方向提取空間信息,最后經(jīng)過(guò)最大池化層后輸出點(diǎn)云局部特征的特征向量,該方法更加全面地提取了從點(diǎn)云局部結(jié)構(gòu)到全局結(jié)構(gòu)的空間結(jié)構(gòu)特征。
SA 模塊的點(diǎn)云全局特征和DSA 模塊的點(diǎn)云空間結(jié)構(gòu)特征進(jìn)行對(duì)應(yīng)拼接,經(jīng)過(guò)全連接層實(shí)現(xiàn)三維人臉數(shù)據(jù)分類(lèi)。
圖2 HFN結(jié)構(gòu)Fig.2 Architecture of HFN
損失函數(shù)用于衡量分類(lèi)網(wǎng)絡(luò)的分類(lèi)能力,表現(xiàn)預(yù)測(cè)類(lèi)別與實(shí)際類(lèi)別的差距程度,損失函數(shù)收斂時(shí),值越小表明分類(lèi)網(wǎng)絡(luò)的性能越好。為了衡量HFN 方法應(yīng)用于三維人臉識(shí)別的分類(lèi)性能,損失函數(shù)使用Softmax 的交叉熵函數(shù),記為L(zhǎng)oss:包含SA 模塊、DSA 模塊及HFN 方法的損失,并分配了相應(yīng)的超參數(shù):
其中:labTS和labS分別為首次訓(xùn)練SA 模塊所在網(wǎng)絡(luò)三維點(diǎn)云人臉數(shù)據(jù)標(biāo)簽的預(yù)測(cè)值和真實(shí)值,labTD和labD分別為首次訓(xùn)練DSA 模塊所在網(wǎng)絡(luò)三維點(diǎn)云人臉數(shù)據(jù)的預(yù)測(cè)標(biāo)簽值和真實(shí)標(biāo)簽值,labTH和labH分別為訓(xùn)練特征融合框架HFN 方法時(shí)三維點(diǎn)云人臉數(shù)據(jù)標(biāo)簽的預(yù)測(cè)值和真實(shí)值,α,β,γ為三部分損失函數(shù)對(duì)應(yīng)的超參數(shù)。
實(shí)驗(yàn)主要分為兩個(gè)部分:第一部分是在CASIA 數(shù)據(jù)集及相關(guān)的姿態(tài)數(shù)據(jù)集上進(jìn)行PointNet、PointNet++、PointCNN、SAN 分類(lèi)網(wǎng)絡(luò)和HFN 方法的訓(xùn)練和測(cè)試,并對(duì)識(shí)別結(jié)果進(jìn)行相應(yīng)分析;第二部分進(jìn)行了兩種輸入方式下多種分類(lèi)網(wǎng)絡(luò)的識(shí)別實(shí)驗(yàn),并進(jìn)行了分析。
CASIA 三維人臉數(shù)據(jù)庫(kù)(http://biometrics.idealtest.org)是中國(guó)科學(xué)院自動(dòng)化所采用Minolta Vivid910 三維數(shù)字掃描儀采集創(chuàng)建的,數(shù)據(jù)為WRL 三維圖像及對(duì)應(yīng)的BMP 二維圖像,共包含123 個(gè)對(duì)象,每個(gè)對(duì)象有37 或38 張圖像,圖像中包含姿態(tài)、光照、表情、遮擋多種變化。本文使用WRL 三維圖像轉(zhuǎn)換的三維點(diǎn)云人臉圖像作為CASIA 數(shù)據(jù)集,在整個(gè)數(shù)據(jù)集及三種姿態(tài)的子數(shù)據(jù)集上(圖3 所示)進(jìn)行三維人臉識(shí)別。數(shù)據(jù)庫(kù)中每個(gè)對(duì)象的數(shù)據(jù)以表1的規(guī)律分布。
圖3 CASIA數(shù)據(jù)庫(kù)的三維人臉姿態(tài)圖像Fig.3 3D face pose images of CASIA database
表1 CASIA數(shù)據(jù)庫(kù)的數(shù)據(jù)分布情況Tab.1 Data distribution of CASIA database
CASIA 數(shù)據(jù)集中包含123個(gè)對(duì)象,4 624張三維人臉圖像。本文在CASIA數(shù)據(jù)集上進(jìn)行人臉識(shí)別,作為平均識(shí)別率;同時(shí)將整個(gè)數(shù)據(jù)集按姿態(tài)劃分為Pose1 小姿態(tài)(頭部偏轉(zhuǎn)±20°~±30°)、Pose2 較大姿態(tài)(頭部偏轉(zhuǎn)±50°~±60°)、Pose3大姿態(tài)(頭部偏轉(zhuǎn)±80°~±90°)三個(gè)數(shù)據(jù)集。
CASIA 數(shù)據(jù)集:123 個(gè)對(duì)象,包含光照、表情、姿態(tài)變化每個(gè)對(duì)象的第1~26 張點(diǎn)云圖像作為訓(xùn)練集,第27~37 張點(diǎn)云圖像作為測(cè)試集。
Pose1 數(shù)據(jù)集:123 個(gè)對(duì)象,包含多種光照、表情因素,頭部偏轉(zhuǎn)角度為+20~30°、-20~-30°以及仰視角度為+20~30°、俯視角度為-20°~-30°的864張點(diǎn)云圖像數(shù)據(jù)集。
Pose2 數(shù)據(jù)集:123 個(gè)對(duì)象,包含多種光照、表情因素,頭部偏轉(zhuǎn)角度為+50°~60°、-50°~-60°的369 張點(diǎn)云圖像數(shù)據(jù)集。
Pose3 數(shù)據(jù)集:50 個(gè)對(duì)象,包含多種光照、表情因素,頭部偏轉(zhuǎn)角度為+80°~90°、-80°~-90°的160張點(diǎn)云圖像數(shù)據(jù)集。
實(shí)驗(yàn)部分在Ubuntu16.04 系統(tǒng)下,搭載Python3.6 環(huán)境,基 于TensorFlow1.8 框 架,CUDA9.0,NVIDIA GEFORCE 1080Ti 的GPU 進(jìn)行測(cè)試,對(duì)于CASIA 數(shù)據(jù)集中的點(diǎn)云圖像,在預(yù)處理后,每張圖像中點(diǎn)云數(shù)量約為5 000 左右,分類(lèi)網(wǎng)絡(luò)輸入點(diǎn)云的數(shù)量設(shè)置為1 024,初始學(xué)習(xí)率設(shè)置為0.001,在微調(diào)網(wǎng)絡(luò)時(shí)為0.000 1;batchsize 設(shè)置為16,decay_rate 設(shè)置為0.7,初始epoch 設(shè)置盡量偏大,在預(yù)測(cè)結(jié)果穩(wěn)定后進(jìn)行調(diào)整。損失函數(shù)的超參數(shù)設(shè)置包括α、β、γ,監(jiān)測(cè)訓(xùn)練過(guò)程中損失函數(shù)的收斂速度調(diào)整α、β、γ的值,通過(guò)實(shí)驗(yàn)取α=0.4,β=0.4,γ=0.2。
在CASIA 相關(guān)數(shù)據(jù)集上進(jìn)行了PointNet、PointNet++、PointCNN、SAN、HFN 等深度分類(lèi)網(wǎng)絡(luò)的三維人臉識(shí)別實(shí)驗(yàn)。從表2 中可以發(fā)現(xiàn):與文獻(xiàn)[4]中的主成分分析(Principal Component Analysis,PCA)以及文獻(xiàn)[19]中的多種傳統(tǒng)方法相比,深度分類(lèi)網(wǎng)絡(luò)PointNet 和PointCNN 方法識(shí)別率偏低,SAN方法由于從多個(gè)方向加強(qiáng)了對(duì)三維點(diǎn)云空間結(jié)構(gòu)特征的捕捉,使得人臉的空間特征更加豐富,網(wǎng)絡(luò)的識(shí)別率已有大幅度提升,接近傳統(tǒng)方法的識(shí)別率,PointNet++在PointNet 分類(lèi)網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上增加局部區(qū)域的特征提取后,其識(shí)別結(jié)果已經(jīng)高于文獻(xiàn)[19]方法3.94個(gè)百分點(diǎn),本文提出的HFN方法在CASIA 數(shù)據(jù)集上的識(shí)別率為95.51%,高于已有的多個(gè)深度網(wǎng)絡(luò)方法和傳統(tǒng)方法的識(shí)別率。
表2 不同方法在CASIA 數(shù)據(jù)集上的識(shí)別結(jié)果 單位:%Tab.2 Recognition results of different methods on CASIA dataset unit:%
表3 的識(shí)別結(jié)果表明,文獻(xiàn)[4]中頭部姿態(tài)對(duì)識(shí)別結(jié)果影響較大,在Pose1(頭部偏轉(zhuǎn)±20°~±30°)和Pose2(頭部偏轉(zhuǎn)±50°~±60°)數(shù)據(jù)集上,深度特征的識(shí)別率都高于強(qiáng)度特征的識(shí)別率,且Gabor 小波處理后的深度特征在Pose1 數(shù)據(jù)集上識(shí)別率最高,為82.4%,同時(shí)在Pose1 數(shù)據(jù)集上的識(shí)別率比Pose2 數(shù)據(jù)集最多高了34.5 個(gè)百分點(diǎn),識(shí)別率相差較大,對(duì)于Pose3(頭部偏轉(zhuǎn)±80°~±90°)并未進(jìn)行測(cè)試,由此可見(jiàn),手工設(shè)計(jì)三維人臉的幾何特征受姿態(tài)影響較大。相比之下,PointNet系列的深度學(xué)習(xí)方法是直接以三維點(diǎn)云作為輸入,進(jìn)而提取特征,受姿態(tài)變化的影響小,在Pose1、Pose2 的數(shù)據(jù)下識(shí)別率相差不大,PointNet++、SAN 分類(lèi)網(wǎng)絡(luò)的方法均取得了高于文獻(xiàn)[4]的識(shí)別結(jié)果。同時(shí),本文提出的HFN 方法在頭部偏轉(zhuǎn)±20°~±30°、±50°~±60°的數(shù)據(jù)集上取得了最高的識(shí)別率,分別為95.60%、96.48%。在Pose3 數(shù)據(jù)集中所有方法的識(shí)別率均偏低,其中,SAN 方法的識(shí)別率比PointNet++方法的高7.66個(gè)百分點(diǎn),本文提出的HFN 方法在Pose3 數(shù)據(jù)集上的識(shí)別率比SAN 方法的高4.5 個(gè)百分點(diǎn),但仍低于Pose1、Pose2 數(shù)據(jù)集上的識(shí)別率??梢?jiàn),由于頭部大角度偏轉(zhuǎn)造成的點(diǎn)云數(shù)據(jù)大量缺失導(dǎo)致人臉點(diǎn)云空間結(jié)構(gòu)的不完整仍會(huì)影響人臉識(shí)別結(jié)果。
表3 不同方法在CASIA數(shù)據(jù)庫(kù)的姿態(tài)數(shù)據(jù)集上的識(shí)別結(jié)果 單位:%Tab.3 Recognition results of different methods on pose datasets of CASIA database unit:%
原始點(diǎn)云可以清晰地看出三維人臉的空間結(jié)構(gòu),如圖4(a),但是原始點(diǎn)云的數(shù)量均不相同,而深度網(wǎng)絡(luò)的輸入是采用了特定點(diǎn)數(shù)的點(diǎn)云。因此,為了探究點(diǎn)云數(shù)量對(duì)識(shí)別率的影響,本文測(cè)試了兩種點(diǎn)云數(shù)量的輸入方式并應(yīng)用于PointNet系列的網(wǎng)絡(luò)進(jìn)行了分類(lèi)結(jié)果對(duì)比。一種是輸入點(diǎn)云數(shù)量為2 048,另一種是輸入點(diǎn)云數(shù)量為1 024,基于隨機(jī)下采樣算法將兩種輸入方式的點(diǎn)云進(jìn)行可視化,點(diǎn)云數(shù)據(jù)更加稀疏,但整體空間結(jié)構(gòu)仍保留,分別如圖4(b)和圖4(c)所示。
圖4 三維人臉點(diǎn)云隨機(jī)下采樣可視化結(jié)果Fig.4 Visualization results of random downsampling of 3D face point cloud
從表4的識(shí)別結(jié)果可以看出,對(duì)于PointNet++、SAN 方法,三維人臉點(diǎn)云采樣數(shù)量設(shè)置為1 024個(gè)點(diǎn)時(shí),在多個(gè)數(shù)據(jù)集上的識(shí)別率略高,而HFN 方法,點(diǎn)云采樣數(shù)量為2 048 時(shí),在各個(gè)數(shù)據(jù)集上的識(shí)別率均高于采樣點(diǎn)為1 024個(gè)點(diǎn)的識(shí)別率。
表4 不同方法采用兩種點(diǎn)云輸入方式的識(shí)別結(jié)果對(duì)比 單位:%Tab.4 Comparison of recognition results using two point cloud input methods in different methods unit:%
本文針對(duì)人臉表情、姿態(tài)同時(shí)存在時(shí),人臉?lè)莿傂詤^(qū)域存在形變且三維點(diǎn)云數(shù)據(jù)缺失的問(wèn)題,探究性地將CASIA 數(shù)據(jù)庫(kù)的相關(guān)點(diǎn)云數(shù)據(jù)集在多個(gè)分類(lèi)網(wǎng)絡(luò)中進(jìn)行了訓(xùn)練和測(cè)試,并提出了HFN 方法,HFN 中結(jié)合了SA 模塊和DSA 模塊中以不同方式獲取的兩種點(diǎn)云特征,加強(qiáng)了局部特征的優(yōu)勢(shì),并且克服了點(diǎn)云分布不均的影響。HFN方法不僅在整個(gè)數(shù)據(jù)庫(kù)上提高了平均識(shí)別率,在較小頭部姿態(tài)、較大頭部姿態(tài)以及極大頭部姿態(tài)數(shù)據(jù)集上都有良好的識(shí)別結(jié)果。在接下來(lái)的研究工作中,提升HFN 在大姿態(tài)數(shù)據(jù)集上的識(shí)別率仍需進(jìn)一步探索。