陳岸明 林群雄 劉偉強(qiáng)
摘 要:隨著計(jì)算機(jī)視覺(jué)技術(shù)應(yīng)用的發(fā)展和智能終端的普及,口罩遮擋人臉識(shí)別已成為人物身份信息識(shí)別的重要部分??谡值拇竺娣e遮擋對(duì)人臉特征的學(xué)習(xí)帶來(lái)極大挑戰(zhàn)。針對(duì)戴口罩人臉特征學(xué)習(xí)困難這一問(wèn)題,提出了一種基于對(duì)比學(xué)習(xí)的多特征融合口罩遮擋人臉識(shí)別算法,該算法改進(jìn)了傳統(tǒng)的基于三元組關(guān)系的人臉特征向量學(xué)習(xí)損失函數(shù),提出了基于多實(shí)例關(guān)系的損失函數(shù),充分挖掘戴口罩人臉和完整人臉多個(gè)正負(fù)樣本之間的同模態(tài)內(nèi)和跨模態(tài)間的關(guān)聯(lián)關(guān)系,學(xué)習(xí)人臉中具有高區(qū)分度的能力的特征,同時(shí)結(jié)合人臉眉眼等局部特征和輪廓等全局特征,學(xué)習(xí)口罩遮擋人臉的有效特征向量表示。在真實(shí)的戴口罩人臉數(shù)據(jù)集和生成的戴口罩人臉數(shù)據(jù)上與基準(zhǔn)算法進(jìn)行了比較,實(shí)驗(yàn)結(jié)果表明所提算法相比傳統(tǒng)的基于三元組損失函數(shù)和特征融合算法具有更高的識(shí)別準(zhǔn)確率。
關(guān)鍵詞:戴口罩人臉識(shí)別; 對(duì)比學(xué)習(xí); 特征融合; 口罩生成
中圖分類號(hào):TP391.1?? 文獻(xiàn)標(biāo)志碼:A?? 文章編號(hào):1001-3695(2024)01-044-0277-05
doi:10.19734/j.issn.1001-3695.2023.06.0266
Multi feature fusion for masked face recognition based on contrastive learning
Abstract:With the development of computer vision technology and the popularization of intelligent terminals, facial recognition under mask occlusion has become an important part of character identity information recognition. The large area occlusion of masks poses great challenges to the learning of facial features. To solve this problem, this paper proposed a multi feature fusion based masked face recognition algorithm based on contrastive learning. This algorithm improved the traditional face feature vector learning loss function based on the triple relationship. It proposed a loss function based on the multi-instance relationship, which fully excavated the intra-modal and inter- modal correlation between multiple positive and negative samples of the masked face and the full face. Then, the features with high discrimination ability were learnt from the face. Meanwhile, it combined the local features such as eyebrows and eyes, as well as global features such as contours, to learn the effective feature vector representation of the masked face. This paper compared it with the benchmark algorithm on real masked face datasets and generated masked face data. The experimental results show that the proposed algorithm has higher recognition accuracy than the traditional triple loss function and feature fusion model.
Key words:masked face recognition; contrastive learning; feature fusion; mask generation
0 引言
隨著計(jì)算機(jī)視覺(jué)技術(shù)和硬件設(shè)備的快速發(fā)展,人臉識(shí)別在許多行業(yè)和領(lǐng)域都已得到了廣泛的應(yīng)用,尤其是人臉識(shí)別作為一種重要的身份驗(yàn)證手段,在許多場(chǎng)景和應(yīng)用中都發(fā)揮了重大作用。傳統(tǒng)的人臉識(shí)別方法受環(huán)境與人為因素的影響,例如被遮擋、光照不強(qiáng)、姿態(tài)變化等,其識(shí)別性能有待提高,應(yīng)用效果也受到制約。因此,提高人臉識(shí)別方法在有遮擋物的情況下識(shí)別的準(zhǔn)確性,仍然是當(dāng)前人臉識(shí)別的研究重點(diǎn)。在許多需要進(jìn)行身份驗(yàn)證的場(chǎng)合,戴口罩人臉識(shí)別已經(jīng)成為一項(xiàng)基礎(chǔ)的驗(yàn)證手段,提高戴口罩人臉識(shí)別的性能也成為了當(dāng)前有遮擋人臉識(shí)別的一個(gè)研究重點(diǎn)。
在無(wú)遮擋物的情況下,當(dāng)前的人臉識(shí)別方法已經(jīng)達(dá)到了非常高的準(zhǔn)確率。例如ArcFace[1]、CosFace[2]等在 LFW[3]數(shù)據(jù)集上的準(zhǔn)確率已經(jīng)達(dá)到 99.5%以上。然而,針對(duì)有遮擋物,尤其是戴口罩的情景,人臉識(shí)別的準(zhǔn)確率還有較大的提升空間,相關(guān)的研究相對(duì)傳統(tǒng)人臉識(shí)別也較少。遮擋物對(duì)人臉識(shí)別算法帶來(lái)了極大的挑戰(zhàn),現(xiàn)有的有遮擋人臉識(shí)別算法主要面向臉部飾品、眼鏡等面積較小的遮擋物[4~6]??谡质且环N面積較大的遮擋物,戴上口罩后鼻梁以下大半個(gè)人臉的生物特征信息被遮擋。因此,傳統(tǒng)的有遮擋人臉識(shí)別算法用于戴口罩人臉識(shí)別時(shí),其效果會(huì)受到很大影響。戴口罩人臉識(shí)別算法需要根據(jù)人臉未遮擋局部特征和其他信息進(jìn)行身份驗(yàn)證。當(dāng)前,已經(jīng)產(chǎn)生了一些戴口罩人臉識(shí)別算法。這些方法主要分為三類:第一類方法主要研究新型的損失函數(shù)用于學(xué)習(xí)人臉表征向量[7~9],其主要思想是同一個(gè)人的人臉特征表示向量應(yīng)該盡量相似,而不同人之間的人臉特征表示向量應(yīng)該具有較大的差距;第二類方法從人臉圖像中定位口罩區(qū)域或者關(guān)聯(lián)的特征元素[10,11],然后將其從圖像中裁剪或者從特征域移除,目的在于消除口罩對(duì)人臉識(shí)別的影響;第三類方法試圖修復(fù)被口罩遮擋的人臉信息[12,13],這類方法主要利用對(duì)抗神經(jīng)網(wǎng)絡(luò)等模型,生成被遮擋部分的人臉特征,然后結(jié)合生成的特征和人臉局部特征識(shí)別人臉身份。
雖然這些方法已經(jīng)取得了一定的成功,但是還存在一些問(wèn)題。首先,當(dāng)前的損失函數(shù)主要考慮單個(gè)人臉圖像對(duì)之間的距離關(guān)系,忽略了同一類圖像之間的關(guān)系。例如對(duì)于同一個(gè)人來(lái)說(shuō),其戴口罩的圖像可以是多個(gè)角度、多種光線下的多張圖像,未戴口罩情況也是一樣。因此,不僅需要不同人之間的圖像特征向量具有較大的距離,還需要確保同一個(gè)人不同的戴口罩圖像特征向量之間的距離較小。同時(shí),通過(guò)學(xué)習(xí)同一人的不同圖像特征,可以挖掘出具有較大辨別能力的人臉特征。其次,基于口罩移除和人臉修復(fù)的方法很難學(xué)習(xí)出被遮擋部分的細(xì)節(jié)特征,從而導(dǎo)致人臉特征向量學(xué)習(xí)的效果不理想,進(jìn)而影響人臉身份識(shí)別的準(zhǔn)確率。在實(shí)際中,口罩的形狀多樣,不同人臉的局部特征有時(shí)還會(huì)非常相似,這些特點(diǎn)對(duì)人臉的修復(fù)提出了極大的挑戰(zhàn),進(jìn)而影響人臉識(shí)別的準(zhǔn)確率。
針對(duì)這些問(wèn)題,本文提出了一種基于對(duì)比學(xué)習(xí)的多特征融合戴口罩人臉識(shí)別方法(CLMF)。對(duì)比學(xué)習(xí)是一種自監(jiān)督學(xué)習(xí)方法[14],該方法能有效學(xué)習(xí)數(shù)據(jù)集中具有重要辨別能力的隱含特征,尤其是學(xué)習(xí)跨模態(tài)、跨領(lǐng)域數(shù)據(jù)中的一般特征。本文利用對(duì)比學(xué)習(xí)方法從每個(gè)人的不同戴口罩人臉圖像以及完整人臉圖像中學(xué)習(xí)出對(duì)人臉特征具有重要辨別能力的特征。多個(gè)實(shí)例對(duì)的學(xué)習(xí)克服了傳統(tǒng)的基于單個(gè)圖像對(duì)之間距離的向量學(xué)習(xí)方法的缺點(diǎn)。同時(shí),為了提高人臉的表征能力,本文方法結(jié)合眉眼等未遮擋局部特征和人臉輪廓等全局特征來(lái)識(shí)別人物身份。針對(duì)訓(xùn)練數(shù)據(jù)稀疏的問(wèn)題,利用基于對(duì)抗網(wǎng)絡(luò)的風(fēng)格遷移方法為人臉圖像生成戴口罩圖像,該方法可減少數(shù)據(jù)集人工標(biāo)注的代價(jià),提高訓(xùn)練數(shù)據(jù)的規(guī)模。實(shí)驗(yàn)結(jié)果表明,本文方法能有效提高戴口罩人臉識(shí)別的準(zhǔn)確率等指標(biāo)。
1 相關(guān)工作
目前已經(jīng)有許多關(guān)于遮擋人臉識(shí)別的研究[15,16],而口罩這種面積較大的遮擋物,對(duì)人臉識(shí)別提出了更大的挑戰(zhàn),且相關(guān)研究還相對(duì)較少,主要分為三類。第一類方法通過(guò)設(shè)計(jì)特殊的損失函數(shù)來(lái)學(xué)習(xí)具有高區(qū)分度的人臉特征,基于學(xué)習(xí)出的特征向量來(lái)判斷人臉身份。例如,ArcFace[1]是較早提出的基于深度學(xué)習(xí)的人臉識(shí)別方法,MTArcFace[7]通過(guò)結(jié)合ArcFace和口罩人臉?lè)诸悡p失函數(shù)實(shí)現(xiàn)了無(wú)遮擋與戴口罩兩種情景下的人臉識(shí)別。balanced curricular loss [8]損失函數(shù)用于在模型訓(xùn)練的過(guò)程中自動(dòng)發(fā)現(xiàn)困難樣本,以提高人臉特征的區(qū)分程度。self-restrained triplet[9]損失函數(shù)是在已有的人臉識(shí)別模型之上構(gòu)建的,目的是為戴口罩人臉學(xué)習(xí)一個(gè)與未戴口罩時(shí)相似的人臉表征向量。DCR[13]提出了一種域約束的排序算法,該算法把戴口罩人臉圖像和未戴口罩人臉圖像當(dāng)作兩個(gè)域,通過(guò)跨域排序來(lái)學(xué)習(xí)人臉特征向量表示。
第二類方法通過(guò)感知遮擋的圖像區(qū)域或特征來(lái)降低口罩對(duì)人臉識(shí)別的影響。例如,LPD[10]利用spatial Transformer network[17]定位人臉未遮擋區(qū)域,將其裁剪出來(lái)并投影至圖像原始大小,替代原圖像參與模型的訓(xùn)練。DFL [11]利用 滑動(dòng)窗口匹配的方法匹配未遮擋部分人臉與完整人臉的特征實(shí)現(xiàn)身份識(shí)別。PDSN[18]提出了一種掩碼學(xué)習(xí)策略,通過(guò)查找人臉遮擋部分在特征中的關(guān)聯(lián)元素并將其丟棄,以降低遮擋部分特征在人臉識(shí)別過(guò)程中的干擾。DGR[19]提出一個(gè)動(dòng)態(tài)圖方法,把人臉建模成圖結(jié)構(gòu),然后從圖中移除代表口罩信息的圖特征,進(jìn)而減少口罩對(duì)人臉識(shí)別的影響。
第三類方法嘗試修復(fù)被口罩遮擋的人臉部分。文獻(xiàn)[12]提出了基于半監(jiān)督學(xué)習(xí)的人臉遮擋修復(fù)方法。文獻(xiàn)[20]提出了一種基于對(duì)抗網(wǎng)絡(luò)模型的口罩恢復(fù)算法。GFC[21]使用深度生成模型恢復(fù)遮擋人臉, 分別使用全局和局部損失來(lái)約束生成結(jié)果的全局語(yǔ)義一致性和局部語(yǔ)義一致性。雖然這些方法取得了一定的效果,但是主要還是基于單個(gè)或者一對(duì)圖像的特征學(xué)習(xí),不能有效學(xué)習(xí)人臉圖像中具有高區(qū)分度的特征。
2 本文模型
本文基于對(duì)比學(xué)習(xí)方法來(lái)學(xué)習(xí)人臉中具有高區(qū)分能力的特征。人臉特征學(xué)習(xí)的主要目的是使得同一個(gè)人物目標(biāo)人臉圖像之間的特征表示向量相似,而不同人的人臉圖像特征表示向量之間具有較大的距離。目前,許多方法采用基于正負(fù)樣本的三元組損失函數(shù)[9,18]來(lái)學(xué)習(xí)人臉圖像特征向量。如圖1(a)所示,在三元組關(guān)系中,針對(duì)給定的錨樣本,從數(shù)據(jù)集中選取一個(gè)和它同標(biāo)簽的樣本作為正樣本,另選一個(gè)不同標(biāo)簽的樣本作為負(fù)樣本,特征學(xué)習(xí)的目的就是使得學(xué)習(xí)出的錨樣本向量和正樣本向量距離盡量小,而與負(fù)樣本向量的距離盡量大。這種學(xué)習(xí)方法僅考慮了單個(gè)樣本對(duì)的關(guān)系信息。在實(shí)際中,由于不同的拍攝角度和拍照光線,人臉的變化形式多樣,僅靠單個(gè)圖像對(duì)之間的關(guān)系,很難全面反映不同人物人臉圖像之間的關(guān)系。因此,基于三元組關(guān)系學(xué)習(xí)出的向量難以有效刻畫對(duì)象的本質(zhì)特征。本文的對(duì)比學(xué)習(xí)方法能夠同時(shí)從錨圖像的多個(gè)正樣本實(shí)例和負(fù)樣本實(shí)例中挖掘人臉內(nèi)在特征,提高了特征學(xué)習(xí)的能力。如圖1(b)所示,本文把戴口罩人臉圖像和完整人臉圖像當(dāng)做兩種模態(tài)的數(shù)據(jù),屬于同一個(gè)人的其他圖像當(dāng)做正樣本,而屬于其他人的人臉圖像當(dāng)做負(fù)樣本。對(duì)于給定的某個(gè)模態(tài)的錨樣本,從數(shù)據(jù)集中選取同模態(tài)的多個(gè)正樣本和負(fù)樣本,同時(shí)從另一個(gè)模態(tài)的數(shù)據(jù)中選取多個(gè)正樣本和負(fù)樣本。然后,挖掘同一模態(tài)內(nèi)的多個(gè)樣本實(shí)例之間的關(guān)系和跨模態(tài)樣本之間的關(guān)系,進(jìn)而基于這些關(guān)系提高人臉圖像特征向量的學(xué)習(xí)質(zhì)量。
本文提出的基于對(duì)比學(xué)習(xí)和多特征融合戴口罩人臉識(shí)別算法框架如圖2所示,其中MLP表示多層感知機(jī)、linear layer表示全連接層、masking image classifier表示戴口罩人臉圖像分類器、full image classifier表示完整人臉圖像分類器。該框架主要包括兩個(gè)重要的模塊。第一個(gè)模塊為人臉圖像編碼器,包括戴口罩人臉圖像編碼器和完整人臉圖像編碼器。戴口罩人臉圖像編碼器分別為眉眼區(qū)域局部圖像和戴口罩全局圖像學(xué)習(xí)兩個(gè)向量表示,然后融合這兩個(gè)向量得到戴口罩人臉圖像特征向量表示。完整人臉圖像編碼器可以采用當(dāng)前的人臉識(shí)別系統(tǒng)的編碼器,通過(guò)人臉特征提取網(wǎng)絡(luò)得到完整人臉圖像的初始特征向量表示。第二個(gè)模塊為基于對(duì)比學(xué)習(xí)的人臉圖像向量學(xué)習(xí)。該模塊將戴口罩人臉圖像和完整人臉圖像當(dāng)做兩種模態(tài)的數(shù)據(jù),同時(shí)學(xué)習(xí)同一人物多張戴口罩人臉圖像和不同人物完整人臉圖像的多實(shí)例關(guān)系,包括模態(tài)內(nèi)(intra-modality)和模態(tài)間(inter-modality)的關(guān)系,從而得到具有較強(qiáng)表示能力的戴口罩人臉圖像特征向量。最后,學(xué)習(xí)到的人臉圖像特征向量用于分類器學(xué)習(xí),以進(jìn)一步提高人臉圖像特征的人物辨別能力。
本文的主要符號(hào)定義如下:人臉圖像數(shù)據(jù)集為D=Xm∪Xf,其中Xm={xmi|i=1,…,|Xm|}表示戴口罩人臉數(shù)據(jù)部分、Xf={xmi|i=1,…,|xf|}表示完整人臉數(shù)據(jù)部分、上標(biāo)m和f分別是戴口罩和未戴口罩的標(biāo)簽;y∈{1,…,k}表示第i個(gè)人臉圖像的身份標(biāo)簽。
2.1 人臉圖像編碼器
如圖3所示,對(duì)于戴口罩的人臉圖像,本文分別為眉眼區(qū)域局部圖像和全局戴口罩圖像學(xué)習(xí)兩個(gè)向量表示,然后對(duì)兩種向量進(jìn)行融合,以形成表示戴口罩人臉圖像的整體向量。該整體向量既能反映人臉的局部特征,也能反映整體臉部信息,因此,能夠有效地識(shí)別戴口罩人臉身份。
首先采用Dlib(http://dlib.net/)工具檢測(cè)人臉圖像的68個(gè)landmarks,人工選擇鼻子上部的landmark作為監(jiān)督信息,為戴口罩人臉數(shù)據(jù)學(xué)習(xí)口罩位置檢測(cè)器,然后采用反向采樣的方法[10]提取戴口罩人臉的眉眼區(qū)域。之后,利用ResNet-50[22]的CNN骨干網(wǎng)絡(luò)學(xué)習(xí)眉眼區(qū)域圖像的特征向量aei。其次,對(duì)于戴口罩人臉,采用同樣的CNN骨干網(wǎng)絡(luò)提取其特征向量awi,兩個(gè)CNN骨干網(wǎng)絡(luò)共享參數(shù)以降低模型復(fù)雜度。得到眉眼區(qū)域圖像向量和戴口罩人臉圖像向量后,采用仿射變換(biaffine attention)對(duì)兩者進(jìn)行融合,得到戴口罩人臉圖像的特征表示zmi:
zmi=aeiTWawi(1)
對(duì)于完整人臉圖像,可以采用現(xiàn)有的人臉特征編碼器。與上述方法一樣,利用ResNet-50的CNN骨干網(wǎng)絡(luò)提取完整人臉圖像的特征向量zfi;然后,通過(guò)MLP和L2_Normarization將戴口罩人臉圖像特征向量和完整人臉圖像特征向量映射到同一空間中。
rmi=Norm(MLP(zmi))(2)
rfi=Norm(MLP(zfi))(3)
2.2 基于對(duì)比學(xué)習(xí)的人臉特征學(xué)習(xí)
如前所述,本文將戴口罩人臉圖像和完整人臉圖像當(dāng)做兩種模態(tài)的數(shù)據(jù),然后根據(jù)兩種模態(tài)數(shù)據(jù)的多個(gè)實(shí)例的模態(tài)內(nèi)(intra-modality)和模態(tài)間(inter-modality)關(guān)系來(lái)學(xué)習(xí)人臉圖像的特征向量。
1)模態(tài)內(nèi)關(guān)系學(xué)習(xí)
模態(tài)內(nèi)的關(guān)系主要是通過(guò)同種模態(tài)的多個(gè)實(shí)例來(lái)學(xué)習(xí)戴口罩人臉圖像和完整人臉圖像中能反映其本質(zhì)的特征,其主要思想是錨圖像應(yīng)和正樣本具有更相似的向量表示,而和負(fù)樣本之間的相似度應(yīng)盡量小。因此,可以利用同一人的不同角度、不同光線等多張圖像來(lái)學(xué)習(xí)人臉的基本特征。模態(tài)內(nèi)的損失函數(shù)Lintra包括戴口罩人臉圖像損失項(xiàng)LMintra和完整人臉圖像損失項(xiàng)LFintra。
Lintra=Lmintra+Lfintra(6)
因此,通過(guò)最小化Lintra可以使得模型從多個(gè)相關(guān)的和不相關(guān)的實(shí)例中學(xué)習(xí)模態(tài)內(nèi)人臉圖像的不變特性。
2)模態(tài)間關(guān)系學(xué)習(xí)
模態(tài)內(nèi)的關(guān)系學(xué)習(xí)只考慮了相同模態(tài)數(shù)據(jù)之間的關(guān)系,其目的是使同模態(tài)內(nèi)相似的人臉圖像具有相似的向量表示。然而,戴口罩人臉圖像識(shí)別的主要目的是驗(yàn)證人的身份,還需要同一個(gè)人的戴口罩人臉圖像和完整人臉圖像具有相似的向量表示。因此,需要通過(guò)跨模態(tài)樣本實(shí)例之間的關(guān)系來(lái)學(xué)習(xí)戴口罩人臉和完整人臉圖像之間共同的高區(qū)分度特征。本文在同一空間中為戴口罩人臉圖像和完整人臉圖像學(xué)習(xí)其特征,從而建立起這兩種圖像之間的關(guān)聯(lián)。同樣地,跨模態(tài)損失函數(shù)Linter包括戴口罩圖像到完整人臉圖像的關(guān)聯(lián)損失項(xiàng)Lminter和完整人臉圖像到戴口罩圖像的關(guān)聯(lián)損失Lfinter。
其中:M、υ和〈,〉和前述公式中的參數(shù)一樣。整體的跨模態(tài)學(xué)習(xí)損失函數(shù)如下:
Linter=Lminter+Lfinter(9)
通過(guò)最小化Linter可以學(xué)習(xí)戴口罩人臉圖像表示向量和完整人臉圖像表示向量之間內(nèi)在的一致特征,進(jìn)一步提高戴口罩人臉圖像表示向量表達(dá)人臉的性能。
3)特征學(xué)習(xí)函數(shù)
為了學(xué)習(xí)能夠反映人物身份的特征,本文基于前述多實(shí)例關(guān)系學(xué)習(xí)的圖像表示向量進(jìn)行人物標(biāo)簽分類學(xué)習(xí),分類器學(xué)習(xí)采用交叉熵?fù)p失函數(shù)。
這個(gè)分類損失函數(shù)的一個(gè)重要目的是使從戴口罩人臉圖像學(xué)習(xí)的向量和完整人臉圖像學(xué)習(xí)的向量能正確識(shí)別任務(wù)身份,且兩者的識(shí)別結(jié)果應(yīng)該一致。然后,完整的分類損失函數(shù)為
Lclass=Lmclass+Lfclass(12)
最終,整個(gè)圖像向量學(xué)習(xí)的損失函數(shù)包括了多實(shí)例模態(tài)內(nèi)關(guān)系和模態(tài)間關(guān)系學(xué)習(xí)損失以及分類損失。
Lclass=αLclass+(1-α)(Lintra+Linter)(13)
3 實(shí)驗(yàn)分析
3.1 數(shù)據(jù)集
本文采用現(xiàn)有常用的人臉識(shí)別數(shù)據(jù)集CASIA-WebFace[24]作為模型的訓(xùn)練,由于該數(shù)據(jù)集不包含戴口罩的人臉圖像,所以本文利用基于對(duì)抗網(wǎng)絡(luò)的圖像翻譯方法[25]為完整人臉圖像生成戴口罩人臉圖像,通過(guò)人工方法去掉生成的噪聲圖像。CASIA-WebFace中生成的戴口罩人臉圖像如圖4所示。這種生成方法不需要戴口罩人臉圖像和相應(yīng)完整人臉圖像的成對(duì)訓(xùn)練數(shù)據(jù),只需要戴口罩人臉和完整人臉兩個(gè)數(shù)據(jù)集就可以學(xué)習(xí)出戴口罩人臉圖像的生成模型。測(cè)試數(shù)據(jù)集包含IJB-C[26]和Masked WHN[23]兩個(gè)數(shù)據(jù)集。第一個(gè)數(shù)據(jù)集IJB-C也不包含戴口罩人臉,本文為其生成戴口罩人臉數(shù)據(jù);第二個(gè)數(shù)據(jù)集Masked WHN為真實(shí)的戴口罩人臉數(shù)據(jù)集,其中質(zhì)量不高的圖像被過(guò)濾掉。各數(shù)據(jù)集信息如表1所示。
3.2 測(cè)試方法
本文的對(duì)比方法包括以下幾種:
a)ArcFace[1],該方法為傳統(tǒng)的人臉識(shí)別方法,直接以 ResNet50 為主干特征提取網(wǎng)絡(luò)提取人臉圖像特征。
b)EUM[9],該方法基于三元組關(guān)系提出了一種新的損失計(jì)算函數(shù),為完整人臉圖像學(xué)習(xí)一個(gè)與同一個(gè)人戴口罩圖像向量相似的向量,該向量同時(shí)與其他人的戴口罩人臉圖像的向量具有更小的相似度。
c)LPD[10],該方法分別為戴口罩人臉圖像和眉眼區(qū)域部分圖像學(xué)習(xí)兩個(gè)向量,通過(guò)分類器學(xué)習(xí)兩個(gè)向量之間的關(guān)系,然后利用簡(jiǎn)單的線性方法直接合并兩個(gè)向量得到戴口罩人臉圖像的完整向量。
d)ViT[27],該方法直接基于ViT(vision Transformer)和數(shù)據(jù)增強(qiáng)實(shí)現(xiàn)戴口罩人臉圖像的分類。
測(cè)試方法包括兩種:
a)驗(yàn)證。給定一張戴口罩人臉圖像和一張完整人臉圖像,判斷兩張圖像是否表示同一人,該測(cè)試?yán)脺?zhǔn)確度accuracy指標(biāo)來(lái)評(píng)價(jià)。為實(shí)現(xiàn)該測(cè)試,對(duì)圖2中戴口罩人臉圖像分類器學(xué)習(xí)的向量和完整人臉圖像分類器學(xué)習(xí)的向量計(jì)算一個(gè)相似度值,如果相似度值大于設(shè)定的閾值,則認(rèn)為兩張圖像表示同一人。
b)識(shí)別。給定一張戴口罩人臉圖像,對(duì)候選數(shù)據(jù)集中完整人臉圖像按照相似度進(jìn)行降序排序,該測(cè)試?yán)门判蛟u(píng)價(jià)指標(biāo)rank-1、rank-5、rank-10和mAP來(lái)評(píng)價(jià)。為實(shí)現(xiàn)該測(cè)試,利用如圖2所示的模型對(duì)戴口罩人臉圖像和完整人臉圖像分別學(xué)習(xí)其向量表示。給定戴口罩人臉查詢圖像后,計(jì)算該圖像和數(shù)據(jù)集中的候選完整人臉圖像的相似度值,按照相似度值對(duì)完整人臉圖像進(jìn)行排序。
3.3 比較實(shí)驗(yàn)
各方法在IJB-C和Masked WHN數(shù)據(jù)集上的比較實(shí)驗(yàn)結(jié)果分別如表2和3所示。從表中數(shù)據(jù)可以得出以下結(jié)論。首先,ArcFace性能低于其他算法,表明傳統(tǒng)的人臉識(shí)別算法在戴口罩人臉識(shí)別中,識(shí)別性能在一定程度上受到遮擋物的影響。其次,EUM直接基于傳統(tǒng)的人臉識(shí)別網(wǎng)絡(luò)結(jié)構(gòu),再結(jié)合三元組關(guān)系損失函數(shù)學(xué)習(xí)戴口罩人臉圖像和完整人臉圖像的特征向量表示。該方法雖然提高了人臉圖像特征向量的表示能力,但是僅靠三元組無(wú)法有效學(xué)習(xí)人臉多個(gè)角度、多個(gè)實(shí)例之間的共現(xiàn)特征,造成特征向量對(duì)人臉的區(qū)分能力不高。LPD融合人臉圖像的多種特征進(jìn)行人臉識(shí)別,包括戴口罩人臉全局特征和完整人臉局部特征,然后基于分類損失函數(shù)來(lái)學(xué)習(xí)人臉圖像特征向量。ViT雖然利用預(yù)訓(xùn)練模型提高了圖像特征學(xué)習(xí)的性能,但是該方法直接基于預(yù)訓(xùn)練模型的輸出進(jìn)行圖像分類,對(duì)戴口罩人臉圖像的局部特征學(xué)習(xí)能力有限。CLMF融合了人臉的局部特征和全局特征,并且通過(guò)對(duì)比學(xué)習(xí)人臉圖像的多個(gè)實(shí)例來(lái)挖掘具有高區(qū)分度的特征,從而提高戴口罩人臉識(shí)別的性能。
3.4 消融實(shí)驗(yàn)
為了分析本文模型CLMF各模塊的有效性,設(shè)計(jì)了CLMF的變異模型。首先,將特征融合模塊從CLMF中移除以構(gòu)建一個(gè)新的模型CLMF-f,該模型以戴口罩人臉的全局特征代替原模型中的融合特征,主要用于測(cè)試特征融合對(duì)戴口罩人臉識(shí)別的貢獻(xiàn)。另一方面,為了測(cè)試對(duì)比學(xué)習(xí)模塊在CLMF中的作用,將對(duì)比學(xué)習(xí)模塊從CLMF中移除,形成另一個(gè)模型CLMF-c,該模型利用三元組損失函數(shù)[8]代替原有的多實(shí)例學(xué)習(xí)損失函數(shù)。同時(shí),為了驗(yàn)證多實(shí)例模態(tài)內(nèi)關(guān)系和模態(tài)間關(guān)系對(duì)于人臉特征學(xué)習(xí)的作用,分別設(shè)計(jì)了另外兩個(gè)模型CLMF-cintra和CLMF-cinter,用于移除模態(tài)內(nèi)損失函數(shù)Lintra和模態(tài)間損失函數(shù)Linter。
這些變異模型的實(shí)驗(yàn)結(jié)果如表4和5所示。從表中的數(shù)據(jù)可以看出,當(dāng)移除特征融合模塊和對(duì)比學(xué)習(xí)模塊后,CLMF的性能都存在不同程度的下降。而且,即使是基于戴口罩全局人臉特征進(jìn)行對(duì)比學(xué)習(xí),也比傳統(tǒng)的人臉識(shí)別模型具有更好的性能。同時(shí),多特征融合加上三元組損失函數(shù)也比單純的三元組損失函數(shù)模型具有更好的性能。因此,特征融合和多實(shí)例對(duì)比學(xué)習(xí)都對(duì)戴口罩人臉識(shí)別作出貢獻(xiàn)。從表中的數(shù)據(jù)還可以看出,加入同模態(tài)實(shí)例間關(guān)系學(xué)習(xí)和跨模態(tài)實(shí)例間關(guān)系學(xué)習(xí)也會(huì)提高模型的特征學(xué)習(xí)能力。這進(jìn)一步說(shuō)明,通過(guò)同一個(gè)對(duì)象的不同角度、不同模態(tài)的多個(gè)實(shí)例間內(nèi)在關(guān)系的學(xué)習(xí),可以挖掘出區(qū)分度較高的特征,從而提高戴口罩人臉識(shí)別的準(zhǔn)確性。
3.5 實(shí)驗(yàn)案例分析
為了進(jìn)一步說(shuō)明本文模型CLMF的性能,表6給出了兩個(gè)實(shí)驗(yàn)結(jié)果案例。表中第二行每個(gè)樣例左側(cè)標(biāo)識(shí)為“戴口罩人臉測(cè)試圖像”為查詢圖像,右側(cè)圖像表示數(shù)據(jù)集中戴口罩人臉測(cè)試圖像所對(duì)應(yīng)的人物ID圖像。系統(tǒng)針對(duì)提供的查詢圖像返回與之相似的完整人臉圖像,并按照相似度值進(jìn)行排序。表中下面的每一列表示模型返回的戴口罩人臉圖像最相似的5張完整人臉圖像。從表中兩個(gè)例子可以看出,本文模型能夠在返回列表的第一位就找到正確結(jié)果,而LDP則分別在第3位和第2位才返回正確結(jié)果。該案例說(shuō)明CLMF模型通過(guò)多實(shí)例關(guān)系信息的學(xué)習(xí),能提高戴口罩人臉圖像向量的表示能力,進(jìn)而能更有效地反映其與完整人臉圖像之間的相似度,提高了戴口罩人臉識(shí)別的準(zhǔn)確性。
4 結(jié)束語(yǔ)
針對(duì)口罩遮擋人臉圖像有效特征稀疏的問(wèn)題,本文提出了一個(gè)融合人臉眉眼等局部特征與全局特征的口罩遮擋人臉編碼學(xué)習(xí)器。針對(duì)單個(gè)實(shí)例圖像特征難以學(xué)習(xí)、不同人臉圖像之間關(guān)聯(lián)復(fù)雜的問(wèn)題,提出了基于對(duì)比學(xué)習(xí)的人臉特征向量學(xué)習(xí)方法,充分挖掘戴口罩人臉不同圖像以及完整人臉不同圖像之間的內(nèi)在關(guān)聯(lián)信息,從而更有效地學(xué)習(xí)人臉圖像的高區(qū)分度特征。針對(duì)口罩遮擋人臉圖像訓(xùn)練數(shù)據(jù)不足的問(wèn)題,構(gòu)建了基于圖像翻譯模型的口罩產(chǎn)生器,生成虛擬口罩遮擋人臉數(shù)據(jù)。在真實(shí)戴口罩人臉數(shù)據(jù)集和虛擬口罩遮擋數(shù)據(jù)集上,與傳統(tǒng)的人臉識(shí)別方法、基于三元組損失函數(shù)和特征融合的戴口罩人臉識(shí)別方法進(jìn)行了比較,實(shí)驗(yàn)結(jié)果表明,融合局部特征與人臉全局特征以及多實(shí)例間關(guān)系學(xué)習(xí)可以提高戴口罩人臉識(shí)別的性能。在后續(xù)研究中,可加入人臉視覺(jué)特征的預(yù)訓(xùn)練學(xué)習(xí)模型,充分利用人臉圖像數(shù)據(jù)提高人臉特征學(xué)習(xí)的性能。
參考文獻(xiàn):
[1]Deng Jiankang, Guo Jia, Yang Jing, et al. ArcFace: additive angular margin loss for deep face recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:4690-5274.
[2]Wang Hao, Wang Yitong, Zhou Zheng, et al. CosFace: large margin cosine loss for deep face recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:5265-5274.
[3]Huang G B, Mattar M, Berg T, et al. Labeled faces in the wild: a database for studying face recognition in unconstrained environments[C]//Proc of Workshop on Faces in ‘Real-Life Images: Detection, Alignment, and Recognition.Piscataway,NJ:IEEE Press,2008:1-8.
[4]Jia Hongjun, Martinez A M. Support vector machines in face recognition with occlusions[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2009:136-141.
[5]Wu C Y, Ding J J. Occluded face recognition using low-rank regression with generalized gradient direction[J].Pattern Recognition,2018,80: 256-268.
[6]朱孟剛,鄭廣海.遮擋人臉識(shí)別算法改進(jìn)方法綜述[J].計(jì)算機(jī)科學(xué)與應(yīng)用,2022,12(6):1569-1579.(Zhu Menggang, Zheng Guanghai. A survey of improved methods of occlusion face recognition algorithms[J].Computer Science and Application,2022,12(6):1569-1579).
[7]Montero D, Nieto M, Leskovsky P, et al. Boosting masked face re-cognition with multi-task ArcFace[EB/OL].(2021).https://arxiv.org/abs/2104.09874.
[8]Feng Tao, Xu Liangpeng, Yuan Hangjie, et al. Towards mask-robust face recognition[C]//Proc of IEEE Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:1492-1496.
[9]Boutros F, Damer N, Kirchbuchner F, et al. Self-restrained triplet loss for accurate masked face recognition[J].Pattern Recognition,2022,124:108473.
[10]Ding Feifei, Peng Peixi, Huang Yangru, et al. Masked face recognition with latent part detection[C]//Proc of the 28th ACM International Conference on Multimedia.New York:ACM Press,2020:2281-2289.
[11]He Lingxiao, Li Haiqing, Zhang Qi, et al. Dynamic feature learning for partial face recognition[C]//Proc of IEEE Conference on Compu-ter Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:7054-7063.
[12]Cai Jiancheng, Han Hu, Cui Jiyun, et al. Semi-supervised natural face deocclusion[J].IEEE Trans on Information Forensics and Security,2020,16:1044-1057.
[13]Geng Mengyue, Peng Peixi, Huang Yangru, et al. Masked face re-cognition with generative data augmentation and domain constrained ranking[C]//Proc of the 28th ACM International Conference on Multimedia.New York:ACM Press,2020:2246-2254.
[14]He Kaiming, Fan Haoqi, Wu Yuxin, et al. Momentum contrast for unsupervised visual representation learning[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:9726-9735.
[15]Damer N, Grebe J H, Chen Cong, et al. The effect of wearing a mask on face recognition performance: an exploratory study[C]//Proc of the 19th International Conference on Biometrics Special Interest Group.2020:1-10.
[16]王羿,姚克明,姜紹忠.基于口罩佩戴情況下的人臉識(shí)別方法[J].計(jì)算機(jī)科學(xué)與應(yīng)用,2022,12(3):739-745.(Wang Yi, Yao Keming, Jiang Shaozhong. Face recognition method under the condition of wearing a mask[J].Computer Science and Application,2022,12(3):739-745)
[17]Jaderberg M, Simonyan K, Zisserman A, et al. Spatial Transformer networks[C]//Advances in Neural Information Processing Systems.2015:2017-2025.
[18]Song Yi, Zhen Lei, Liao Shengcai, et al. Occlusion robust face re-cognition based on mask learning with pairwise differential siamese network[C]//Proc of IEEE Conference on Computer Vision.Pisca-taway,NJ:IEEE Press,2019:773-782.
[19]Ren Min, Wang Yunlong, Sun Zhennan, et al. Dynamic graph representation for occlusion handling in biometrics[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2020:11940-11947.
[20]Din N U, Javed K, Bae S, et al. A novel GAN-based network for unmasking of masked face[J].IEEE Access,2020,8:44276-44287.
[21]Li Yijun, Liu Sifei, Yang Jimei, et al. Generative face completion[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2017:3911-3919.
[22]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: transformers for image recognition at scale [EB/OL].(2020).https://arxiv.org/abs/2010.11929.
[23]Wang Zhongyuan, Wang Guangcheng, Huang Baojin, et al. Masked face recognition dataset and application[EB/OL].(2020).https://arxiv.org/abs/2003.09093.
[24]Dong Yi, Zhen Lei, Liao Shengcai, et al. Learning face representation from scratch[EB/OL].(2014).https://arxiv.org/abs/1411.7923.
[25]Zhu Junyan, Taesung P, Phillip I, et al. Unpaired image-to-image translation using cycle-consistent adversarial network[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:2223-2232.
[26]Bansal A, Nanduri A, Castillo C D, et al. UMDFaces: an annotated face dataset for training deep networks[EB/OL].(2016).https://arxiv.org/abs/1611.01484v2.
[27]Donato J H, Yudistira N, Sutrisno. Mask usage recognition using vision Transformer with transfer learning and data augmentation[EB/OL].(2022).https://arxiv.org/abs/2203.11542v1.