任家潤,沈文忠
上海電力大學(xué) 電子與信息工程學(xué)院,上海 201200
虹膜識別是一項基于虹膜紋理的唯一性來鑒別個人身份的生物特征識別技術(shù),由于該項技術(shù)的高可靠性、高精度及高穩(wěn)定性,近年來已經(jīng)得到了廣泛的應(yīng)用[1]。隨著虹膜識別應(yīng)用場景的多樣化,許多應(yīng)用需要在不同的光譜照明條件下,能夠可靠、準(zhǔn)確地實現(xiàn)跨光譜虹膜識別[2-3]。例如在VR(virtual reality)眼鏡的感觀控制中,為獲得更佳的使用體驗,需要將拍攝的可見光虹膜數(shù)據(jù)與近紅外虹膜數(shù)據(jù)結(jié)合起來,以獲得VR眼鏡的使用權(quán)限[4]。對近紅外和可見光虹膜圖像之間的魯棒匹配需求是一個迫切需要解決的問題。
與單波段近紅外光譜下虹膜匹配相比,在近紅外波段條件下采集的虹膜圖像與可見光波段下采集的虹膜圖像進(jìn)行匹配時,匹配精度出現(xiàn)顯著性地降低??绻庾V虹膜匹配已然成為一項比較艱巨的任務(wù),導(dǎo)致該任務(wù)艱巨的原因有以下三點:一是由于近紅外和可見光的光譜、照明等因素加強(qiáng)了虹膜圖像的外觀差異。雙光譜虹膜圖像數(shù)據(jù)集PolyU[5]的部分虹膜圖像如圖1所示,近紅外與可見光虹膜圖像之間的視覺差異明顯。
圖1 PolyU虹膜圖像數(shù)據(jù)集(部分)Fig.1 PolyU iris image datase(tpart)
對比圖1中的近紅外和可見光虹膜圖像,可見光波段下,眼周、鞏膜、眼瞼等特征信息清晰可見,但虹膜紋理特征在可見光條件下不易顯現(xiàn),在近紅外波段下獲取的虹膜圖像才可清晰展現(xiàn)虹膜的紋理信息。二是基于近紅外虹膜圖像數(shù)據(jù)集開發(fā)的算法并不包含可見光虹膜圖像的光譜信息,所以成熟的近紅外波段虹膜識別技術(shù)并不能兼顧處理好可見光虹膜圖像。三是成熟的近紅外條件下的虹膜識別技術(shù)受益于大規(guī)模的近紅外虹膜圖像數(shù)據(jù)集,但是目前具有對應(yīng)關(guān)系的雙光譜虹膜圖像數(shù)據(jù)集顯得極其匱乏,這對于學(xué)習(xí)同一對象虹膜圖像特征之間的相似性是一大阻礙。
為了解決跨光譜虹膜識別這一問題,研究人員主要在表示跨光譜虹膜紋理圖案的魯棒性提取方法上進(jìn)行了探索。在早期的跨光譜虹膜識別研究中,Zuo等人[6]設(shè)計了一種從可見光虹膜圖像合成或預(yù)測相應(yīng)的近紅外虹膜圖像的像素級映射框架,然后使映射生成的近紅外圖像與真實的近紅外圖像匹配,可達(dá)到較好的實驗效果。Oktiana等人[7]提供了基于可見光和近紅外成像系統(tǒng)的幾種特征描述符,其中局部二值模式LBP(local binary pattern)和二值化統(tǒng)計圖像特征BSIF(binary statistical image feature)描述符表現(xiàn)最佳,之后Oktiana等人[8]為消除光譜域間的照明差異,引入了基于圖像梯度方向的光度歸一化技術(shù)GRF(gradientfaces-based normalization technique),GRF與BSIF和LBP描述符的集成可以提高識別性能,當(dāng)GRF與BSIF描述符集成在一起時,實現(xiàn)了最佳的組合,EER達(dá)到了1.69%。Nalla和Kumar[9]為跨光譜虹膜識別的研究貢獻(xiàn)了一個公開的大型雙光譜虹膜數(shù)據(jù)集PolyU,其中包含同時在近紅外與可見光波段下采集的虹膜圖像,這一數(shù)據(jù)集的公開也為基于深度學(xué)習(xí)的方法解決跨光譜虹膜識別問題奠定了數(shù)據(jù)基礎(chǔ)。隨著深度學(xué)習(xí)的發(fā)展與應(yīng)用,研究人員將注意力集中在基于深度學(xué)習(xí)的方法上,力求利用深度卷積網(wǎng)絡(luò)排除光譜、照明差異,完成對跨光譜虹膜圖像從樣本空間到公共特征空間的映射,學(xué)習(xí)到能夠代表虹膜紋理在不同光譜域中不變的特征。Wang等人[10]發(fā)現(xiàn)基于卷積神經(jīng)網(wǎng)絡(luò)CNN(convolutional neural network)的特征信息通常比較稀疏,為此,他們結(jié)合監(jiān)督離散哈希編碼,壓縮虹膜模板大小,實現(xiàn)了較為出色的實驗結(jié)果。Wang等人[11]使用擴(kuò)張卷積的殘差網(wǎng)絡(luò)學(xué)習(xí)來優(yōu)化訓(xùn)練過程并從虹膜圖像中聚合上下文信息,實驗性能有一定的提升。Mostofa等人[12]提出了一種條件耦合生成對抗網(wǎng)絡(luò)CpGAN(conditional coupled generative adversarial network),該網(wǎng)絡(luò)框架由一對基于GAN的網(wǎng)絡(luò)組成,一個負(fù)責(zé)在可見光域中檢索圖像,另一個負(fù)責(zé)在近紅外域中檢索圖像,兩個網(wǎng)絡(luò)都試圖將數(shù)據(jù)映射到一個公共的嵌入子空間中,以確保來自同一對象的兩個虹膜模態(tài)的特征向量之間的最大成對相似性。Zanlorensi等人[13]的研究中采用手工分割虹膜的方法,通過選定虹膜外邊界周圍點以形成包含虹膜區(qū)域的矩形框,然后通過裁剪矩形框得到最貼合虹膜的區(qū)域,再進(jìn)行識別實驗,識別性能得到了顯著提升,他們得到的EER最佳為0.99%。
在深度學(xué)習(xí)算法中,得力于卷積神經(jīng)網(wǎng)絡(luò)能夠有效地提取每張虹膜圖像的特征,跨光譜虹膜識別的研究工作得到了初步的進(jìn)展。隨著注意力機(jī)制的提出與成功應(yīng)用,已經(jīng)有大量研究受到注意力機(jī)制的啟發(fā),進(jìn)行改進(jìn)并應(yīng)用到圖像識別領(lǐng)域,取得了一定的進(jìn)展。本文嘗試將空間注意力機(jī)制[14]思想引入跨光譜虹膜識別任務(wù)當(dāng)中,因為空間注意力機(jī)制有利于對空間位置信息的表達(dá),這對描述虹膜紋理是有利的。傳統(tǒng)空間注意力機(jī)制中采用全局最大池化與全局均值池化分別編碼最顯著的部分與全局的統(tǒng)計信息,對于描述跨光譜虹膜中復(fù)雜多樣,不同細(xì)度的虹膜紋理是否高效,這是一個值得注意的問題。此外,先前的跨光譜虹膜識別研究工作中少有利用樣本間的關(guān)系來提高識別準(zhǔn)確率,Guo等人[15]提出了一種外部注意力機(jī)制,考慮到了不同樣本之間潛在的聯(lián)系,這種聯(lián)系在跨光譜虹膜識別任務(wù)中是有意義的。
較大的光譜域變化引起同一對象虹膜紋理的類內(nèi)差異,加大了網(wǎng)絡(luò)辨識比較微弱的類間變化的難度,這是跨光譜虹膜識別任務(wù)的一個困難點。如何讓網(wǎng)絡(luò)在較大的類內(nèi)變化干擾下,清晰地劃分樣本的分類邊界,使得類內(nèi)樣本距離盡可能小,類間距離盡可能大,是解決跨光譜虹膜識別任務(wù)的一個重要挑戰(zhàn)。損失函數(shù)作為深度學(xué)習(xí)的重要組成部分,主導(dǎo)著網(wǎng)絡(luò)參數(shù)的優(yōu)化,先前的跨光譜虹膜識別研究工作中,在模型訓(xùn)練方面有采用Softmax Loss、Contrasive Loss和Triplet Loss作為損失函數(shù),其中Zanlorensi等人[13]采用Softmax Loss作為分類損失表現(xiàn)最佳。近年來出現(xiàn)的損失函數(shù)ArcFace(aditive angular margin)Loss[16]和CosFace(large margin cosine)Loss[17],是基于Softmax Loss從根本上的改進(jìn),在模型訓(xùn)練時,要求擴(kuò)大決策邊界之間的間隔,增強(qiáng)了Softmax Loss的判別能力,能夠較好地滿足增大類間距離、減小類內(nèi)距離的要求。然而值得注意的是,在整個模型訓(xùn)練期間,這種間隔的設(shè)定自始至終是一個固定間隔,對于所有樣本的分類邊界之間的間隔要求一致,由于不同對象的近紅外與可見光虹膜紋理差異表現(xiàn)不一,對于一些差異大的困難樣本,當(dāng)前設(shè)定間隔下的損失函數(shù),其優(yōu)化力度是否能夠滿足需求,如何及早避免困難樣本對于網(wǎng)絡(luò)優(yōu)化的持續(xù)影響是一個值得思考的問題。
本文針對上述的一些思考與需求,提出了一種雙重注意力機(jī)制下的跨光譜虹膜識別優(yōu)化算法,主要貢獻(xiàn)如下所示。
(1)SA-GeM(spatial attention-generalized-mean pooling):使用了含有廣義均值池化GeM pooling的空間注意力機(jī)制,使用廣義均值池化方法代替?zhèn)鹘y(tǒng)空間注意力機(jī)制中的全局均值池化與全局最大池化方法,可自適應(yīng)地調(diào)節(jié)對不同細(xì)度虹膜紋理區(qū)域的關(guān)注程度,獲得更為豐富的虹膜特征編碼。
(2)EA-Net(external attention net):將考慮到了不同樣本之間潛在聯(lián)系的外部注意力機(jī)制引入到跨光譜虹膜識別任務(wù)當(dāng)中,使得網(wǎng)絡(luò)學(xué)習(xí)到更本質(zhì)的虹膜紋理特征。
(3)ArcHard Loss(ArcFace loss with batch hard mining):在優(yōu)化過程中,針對ArcFace Loss,提出了一種新的監(jiān)督函數(shù)作為懲罰項,自適應(yīng)地增加對于困難樣本的優(yōu)化力度,快速完成對于困難樣本的優(yōu)化,本文將這種改進(jìn)后的ArcFace Loss稱為ArcHard Loss。
算法模型以孿生網(wǎng)絡(luò)[18]為基礎(chǔ)結(jié)構(gòu),主干網(wǎng)絡(luò)選擇深度殘差網(wǎng)絡(luò)ResNet18[19],并且使用其在ImageNet上預(yù)訓(xùn)練好的參數(shù),去掉特定的分類任務(wù)部分(全連接層),將最后一個殘差塊的步長設(shè)置為1,以避免特征圖的空間分辨率過小。同時加入BN(BatchNorm1d)層使得模型在訓(xùn)練中輸入滿足同一種分布,加速網(wǎng)絡(luò)模型收斂。為了處理兩種光譜虹膜圖像的不同特性,受Ye等人[20]的啟發(fā),主干網(wǎng)絡(luò)ResNet18的第一個卷積塊的網(wǎng)絡(luò)參數(shù)都不同,以獲得特定于每種光譜虹膜的低級特征。其他深度卷積塊的網(wǎng)絡(luò)參數(shù)為兩種光譜數(shù)據(jù)共享,使得同一類別的虹膜數(shù)據(jù)在被映射到特征空間后的差異不會太大。
本文提出的用于跨光譜虹膜識別算法的網(wǎng)絡(luò)結(jié)構(gòu)主要由三部分組成:主干網(wǎng)絡(luò)ResNet18、SA-GeM模塊、EA-Net模塊,整體算法模型結(jié)構(gòu)如圖2所示。
圖2 跨光譜虹膜識別算法模型結(jié)構(gòu)示意圖Fig.2 Structure diagram of cross spectral iris recognition algorithm model
傳統(tǒng)的空間注意力機(jī)制[14]基于通道維度上同時使用全局均值池化GAP(global average pooling)與全局最大池化GMP(global max pooling),分別關(guān)注了特征圖的全局特征和最突出特征。之后將這兩種池化方式的結(jié)果在通道維度上直接拼接,再將拼接后的矩陣先后經(jīng)過降維卷積、Sigmoid激活函數(shù),最終得到空間位置注意力權(quán)重。在這種得到空間位置注意力權(quán)重的方法中,GAP與GMP分別只關(guān)注了特征圖的全局整體特征與最突出特征,可能不足以處理高度復(fù)雜、多樣的虹膜紋理特征,為此本文引入了廣義均值池化方法GeM(generalized-mean)pooling[21]來響應(yīng)不同細(xì)度區(qū)域的特征。
每一張虹膜圖片經(jīng)過主干特征提取網(wǎng)絡(luò)ResNet18都可以獲得一組512張的特征圖F,每張?zhí)卣鲌D可表示為Fi。
若每一張?zhí)卣鲌DFi經(jīng)過全局均值池化GAP處理,結(jié)果fi可表示為:
若每一張?zhí)卣鲌DFi經(jīng)過全局最大池化GMP處理,結(jié)果fi可表示為:
若每一張?zhí)卣鲌DFi經(jīng)過廣義均值池化方法GeM pooling處理,結(jié)果fi可表示為:
式(3)中,當(dāng)參數(shù)p=1時,式(3)可等價于式(1)。當(dāng)p→∞時,式(3)又可等價于式(2)。
由此可見GeM pooling是一種更為靈活的池化方法,調(diào)節(jié)p值可實現(xiàn)對特征圖不同細(xì)度區(qū)域的關(guān)注程度,也即實現(xiàn)對局部特征的不同程度響應(yīng)。p值越大,對局部特征越靈敏、響應(yīng)程度越強(qiáng)烈,能夠更好地反映感受野中的突出特征;p值越小,對局部特征越不靈敏,但更加反映整體信息,魯棒性更強(qiáng)。
基于GeM pooling和傳統(tǒng)空間注意力的啟發(fā),本文的SA-GeM模塊示意圖如圖3所示。
圖3 SA-GeM模塊示意圖Fig.3 Schematic diagram of SA-GeM module
原始的空間注意力模塊中,通過均值池化與最大池化對特征圖在通道維度上進(jìn)行壓縮與合并,這種方式得到的空間信息只局限于最大池化與均值池化兩種空間背景描述,可能帶來一定程度的信息損失,為此引入GeM pooling,調(diào)節(jié)p值,使得該池化方式介于最大池化與均值池化之間,能夠自適應(yīng)地提高對虹膜紋理位置信息或抑制噪聲空間信息的響應(yīng)進(jìn)行編碼,在實現(xiàn)過程中,將參數(shù)p設(shè)置為可學(xué)習(xí)參數(shù),通過梯度下降法和反向傳播算法更新得到,與網(wǎng)絡(luò)的其他參數(shù)更新方式相同。
模塊的核心步驟是將GeM pooling替換原始的GAP與GMP,去除降維卷積Conv。具體操作過程可描述為將主干特征提取網(wǎng)絡(luò)輸出的特征F在通道維度上經(jīng)過GeM pooling,由于這里池化后的特征圖通道數(shù)為1,所以不再需要經(jīng)過降維卷積,可直接送入Sigmoid激活函數(shù)σ,生成空間注意力權(quán)重矩陣Wg,最后將原始特征F先后與權(quán)重矩陣Wg逐元素相乘再相加,即可得到最終生成的特征F′。SA-GeM模塊的操作也可表示為下式:
可見SA-GeM模塊操作方便,相比較于傳統(tǒng)的空間注意力模塊,其參數(shù)量更少。
EA-Net模塊示意圖[15]如圖4所示。
圖4 EA-Net模塊示意圖Fig.4 Schematic diagram of EA-Net module
EA-Net模塊[15]引入了外部記憶單元M∈?S×d(包含Mk和Mv),M為可學(xué)習(xí)參數(shù),隱式地學(xué)習(xí)了整個訓(xùn)練集的特征,考慮到了不同樣本之間潛在的聯(lián)系,這種聯(lián)系對于處理不同光譜域的虹膜樣本,刻畫所有樣本最本質(zhì)的特征是有意義的。
在實現(xiàn)過程中,待處理特征可表示為X∈?N×d(N表示像素數(shù),d表示特征維數(shù))。首先將輸入特征X轉(zhuǎn)換到一個新的特征空間,與自注意力機(jī)制[22]類似,通過自身線性變換Linear_Q(Conv 1×1)得到X′∈?N×d,目的在于增強(qiáng)特征的表達(dá)能力。然后計算外部記憶單元Mk對X′的注意力矩陣A∈?N×S(S屬于超參數(shù),本文采用文獻(xiàn)[15]的推薦值64),表達(dá)式如下:
其中,表示X′中的第i個像素和MTk中第j列記憶值之間的相似性。雙重規(guī)范化Norm的應(yīng)用可避免某一個特征向量過大而引起的注意力失效問題[15]。
最后,利用相似性特征矩陣A更新第二個外部記憶單元Mv,而不是第一個外部記憶單元Mk,這樣可提高網(wǎng)絡(luò)的容量,再與原始特征相加,可得到經(jīng)過EA-Net模塊處理的最終特征,表達(dá)式如下:
Softmax層的輸入為最后一個全連接層的輸出WTX+b,其中W,X和b分別為權(quán)重向量,特征向量和偏置值。Softmax Loss可表達(dá)為:
其中WTyixi+byi可表示預(yù)測類別為真實類別的輸出。
為便于分析,將偏置值b置零,將WTX的內(nèi)積換算成余弦形式,式(9)又可表示為:
式(10)中,xi∈?d表示第i個樣本經(jīng)過最后一個全連接層的輸入特征,d表示向量維度,Wj表示權(quán)重向量W∈?d×C的第j列,也可視為第j類樣本的類中心權(quán)重向量,C表示樣本類別數(shù)。
在分類時,對特征向量xi而言,希望‖ ‖Wyi·‖xi‖cos θyi相比‖Wj‖·‖xi‖cos θj(j≠yi)越大越好。也可理解為,樣本特征xi是否能夠正確分類取決于‖Wyi‖·‖xi‖cos θyi是 否 大 于‖Wj‖·‖xi‖cos θj,也 即‖Wyi‖·cos θyi是否大于‖ ‖Wj·cos θj,由此可見Softmax Loss的決策邊界取決于類中心權(quán)重向量以及夾角余弦值,可表示為:
對于跨光譜虹膜識別任務(wù),一般使用余弦相似度作為區(qū)分正負(fù)樣本對的判據(jù),只需考慮虹膜特征向量之間的余弦相似度,目標(biāo)任務(wù)是在特征空間中,保證正樣本對足夠聚集,負(fù)樣本對足夠分開。而Softmax Loss的這種決策邊界由于權(quán)重W的影響,雖然能夠使得樣本特征大致可分,但是并沒有考慮到對類內(nèi)和類間距離的約束,其決策邊界是模糊的。
ArcFace Loss在式(10)的基礎(chǔ)上,首先通過對權(quán)重向量W和特征向量X的L2范數(shù)歸一化,使分類器的決策邊界僅取決于特征和權(quán)重向量之間的角度,然后乘以一個縮放因子s。最后引入角度固定間隔m,通過特征與相應(yīng)類中心權(quán)重向量之間的夾角約束,來增強(qiáng)類內(nèi)的緊湊性和類間的分離度(參考文獻(xiàn)[16]的設(shè)置,s=30,m=0.5)。ArcFace Loss表達(dá)式如下:
可見,ArcFace Loss的決策邊界可表示為:
其決策邊界相比較于Softmax Loss的決策邊界更明顯。
在ArcFace Loss引導(dǎo)的優(yōu)化過程中,只是比較了樣本特征向量與對應(yīng)類中心權(quán)重向量的余弦距離,對于一些光譜差異大,噪聲因素干擾大的困難樣本,這種比較產(chǎn)生的損失對網(wǎng)絡(luò)的優(yōu)化力度可能不足以引導(dǎo)該類樣本正確分類,而僅增加角度固定間隔m又可能加大網(wǎng)絡(luò)的收斂難度。此外ArcFace Loss并沒有考慮到樣本與樣本之間的余弦距離,若將優(yōu)化過程中的每個樣本與其同類樣本和異類樣本之間的比較作為一種監(jiān)督損失,納入到ArcFace Loss產(chǎn)生的損失中,可針對性地懲罰網(wǎng)絡(luò),迫使網(wǎng)絡(luò)給予困難樣本更多的學(xué)習(xí)機(jī)會,動態(tài)增加網(wǎng)絡(luò)對于這些困難樣本的優(yōu)化力度,而不是簡單地增加固定間隔m對所有樣本都給予同樣的優(yōu)化,沒有進(jìn)行差異化對待。
為此本文在ArcFace Loss的基礎(chǔ)上引入了一個動態(tài)自適應(yīng)懲罰函數(shù),可以根據(jù)樣本優(yōu)化的程度,自適應(yīng)地加大對于某些困難樣本的懲罰力度,該優(yōu)化損失函數(shù)稱為ArcHard Loss,說明如下:
首先根據(jù)每批次輸入的樣本數(shù)量N及樣本類別信息構(gòu)造N階鄰接矩陣NG=()ni,j存儲樣本的類別關(guān)聯(lián)信息,若樣本i與樣本j類別相同,則對應(yīng)矩陣元素ni,j為1,否則為0。
然后計算每個樣本與其他樣本之間的余弦距離(余弦距離也稱為余弦相似度,通過測量特征向量間夾角的余弦值來度量它們之間的相似程度),這里仍然采用特征向量X的L2范數(shù)歸一化的方法,得到的樣本余弦距離矩陣可表示為D=( c os θ )i,j,根據(jù)NG存儲的樣本類別信息,又可將余弦距離矩陣分解為正樣本對余弦距離矩陣DA=( c os θ )a,p和負(fù)樣本對余弦距離矩陣DN=( c os θ )a,n(a,p表示正樣本對;a,n表示負(fù)樣本對)。
再分別從DA、DN中找出每個樣本對應(yīng)的類內(nèi)余弦距離與類間余弦距離。以第c類樣本特征xi為例,其類內(nèi)余弦距離可表示為DAi=( c os θ )i,p,類間余弦距離可表示為DNi=( c os θ )i,n。
在優(yōu)化過程中,采用Tridhard[23]的思想,計算出樣本特征xi的最小類內(nèi)余弦距離與最大類間余弦距離,希望類內(nèi)的最小余弦距離大于類間的最大余弦距離,可表達(dá)為:
一旦式(14)不成立,說明樣本xi可以視為當(dāng)前優(yōu)化階段的困難樣本,可構(gòu)造對應(yīng)的懲罰項hyi,懲罰項的表達(dá)式如下:
其中[]·+表示取最大值,γc稱為第c類的懲罰系數(shù),其數(shù)值可隨優(yōu)化過程動態(tài)改變。通過構(gòu)造懲罰項可加大對困難樣本的懲罰力度,使得網(wǎng)絡(luò)更加關(guān)注于對困難樣本的學(xué)習(xí)。
基于Large Margin Cosine Loss[17]通過控制余弦間隔的大小來優(yōu)化決策邊界和罰函數(shù)法[24]的思想,將式(15)以懲罰項的形式附加在原來的決策函數(shù)上,構(gòu)成一個新的決策函數(shù)。原來的決策函數(shù)基于ArcFace Loss,可表示為:
新的決策函數(shù),可表示為:
在實現(xiàn)過程中,需設(shè)定cos( )θyi+m-hyi的取值范圍為[-1,1],若超出該范圍下限-1,則不再懲罰,避免因添加懲罰項破壞決策函數(shù)的實際意義-余弦距離。
式(18)稱為越界量,表示當(dāng)前階段對樣本xi的優(yōu)化程度。對于一定的懲罰系數(shù)γc,越界量大于零,說明目前網(wǎng)絡(luò)不能對樣本xi正確分類,越界量越大,懲罰項hyi越大,新的決策函數(shù)cos( )θyi+m-hyi越小,對應(yīng)的損失越額外增大,從而強(qiáng)制網(wǎng)絡(luò)朝著式(14)約束條件重新得到滿足的優(yōu)化趨勢越強(qiáng);反之,越界量小于零,懲罰項hyi的數(shù)值為零,說明目前網(wǎng)絡(luò)對樣本xi能夠正確分類,所以不再懲罰。
優(yōu)化過程只有使得懲罰項hyi逐步趨于零,才能使得困難樣本逐步得到學(xué)習(xí),以被正確分類,這就迫使網(wǎng)絡(luò)額外增大對不滿足式(14)的困難樣本的優(yōu)化力度。
懲罰項hyi的數(shù)值還與懲罰系數(shù)γc有關(guān),對于一定的越界量,γc越大,懲罰項hyi的數(shù)值也越大。但是γc并不在優(yōu)化一開始就取很大的數(shù)值,以免造成損失函數(shù)收斂性變差。希望隨著優(yōu)化的進(jìn)行,γc逐漸增大,為此本文設(shè)計了動態(tài)調(diào)整的懲罰系數(shù)γc,其表達(dá)式如下:
其中ε為敏感系數(shù),控制了懲罰系數(shù)的大小,防止懲罰系數(shù)過大,引起懲罰項過大,造成網(wǎng)絡(luò)過度關(guān)注困難樣本,同時使損失函數(shù)發(fā)散,難以收斂。則體現(xiàn)了懲罰系數(shù)γc動態(tài)調(diào)整的特性。( tcTc)-1表示上一優(yōu)化周期(epoch)中,第c類樣本違反不等式(14)的次數(shù)tc在第c類樣本參與的總優(yōu)化次數(shù)Tc中所占的比例,反映了上一優(yōu)化階段對第c類樣本的優(yōu)化程度。一般來講,優(yōu)化早期( tcTc)越大,隨著優(yōu)化的進(jìn)行,( tcTc)越小,懲罰系數(shù)γc的變化規(guī)律與希望隨著優(yōu)化的進(jìn)行、γc逐漸增大的目標(biāo)一致。
將這種優(yōu)化損失函數(shù)稱為ArcHard Loss,總的損失函數(shù)表達(dá)式如下:
每一次網(wǎng)絡(luò)更新后,通過對不等式(14)約束是否滿足的檢驗,計算出該階段網(wǎng)絡(luò)對于樣本越界量變動的情況,構(gòu)造對應(yīng)懲罰項,然后據(jù)此修改決策函數(shù),以損失函數(shù)式(20)產(chǎn)生的損失優(yōu)化網(wǎng)絡(luò),接著便進(jìn)行下一輪的迭代。
本文使用PolyU雙光譜虹膜數(shù)據(jù)集[5]進(jìn)行實驗。PolyU雙光譜虹膜數(shù)據(jù)集包含在可見光和近紅外波段下同時獲得的209個人左右眼的虹膜圖像。每個人的左、右眼都同時包含可見光和近紅外光譜各15個圖像樣本,即該數(shù)據(jù)集中的圖像總數(shù)為12 540,分辨率大小為640×480。在本文實驗中,根據(jù)文獻(xiàn)[13]劃分訓(xùn)練集與測試集,選取每個類別的10張虹膜圖像作為訓(xùn)練集,余下5張圖像作為測試集。參與訓(xùn)練與測試的樣本數(shù)量等具體統(tǒng)計信息見表1。
表1 訓(xùn)練及測試樣本分布Table 1 Distribution of training and testing samples
為使實驗的虹膜圖像滿足提取虹膜特征的需求,需要對PolyU數(shù)據(jù)集中的原始虹膜圖像進(jìn)行預(yù)處理,分離出非虹膜區(qū)域。虹膜圖像預(yù)處理主要包括虹膜定位、分割,虹膜圖像歸一化,虹膜圖像增強(qiáng)等步驟。文中雙光譜虹膜圖像數(shù)據(jù)集預(yù)處理步驟如圖5所示。
圖5 虹膜圖像預(yù)處理步驟Fig.5 Iris image preprocessing steps
為避免自動分割算法錯誤分割,本文引用文獻(xiàn)[25]的人工標(biāo)注分割虹膜的方法,這種方法可以粗略定位虹膜區(qū)域,使用Imglab標(biāo)注工具對數(shù)據(jù)集進(jìn)行標(biāo)注,如圖6所示。
圖6 Imglab標(biāo)注工具界面Fig.6 Imglab annotation tool interface
如圖6所示,對每張虹膜圖片標(biāo)注22個點以定位虹膜區(qū)域,在上下眼瞼分別選定3個數(shù)據(jù)點(01~03、04~06),使用最小二乘法擬合二階多項式,即對上眼瞼擬合開口向下的拋物線,對下眼瞼擬合開口向上的拋物線。在每張圖片的虹膜外邊界和內(nèi)邊界分別選定8個數(shù)據(jù)點(07~14、15~22),使用最小二乘法分別擬合這8個散點構(gòu)成橢圓曲線,作為虹膜區(qū)域的內(nèi)外邊界。虹膜區(qū)域定位示意圖如圖7所示。
如圖7所示,橢圓曲線擬合虹膜的內(nèi)外邊界,可粗略定位出虹膜區(qū)域,但無法濾除上下眼瞼區(qū)域,因此擬合出的上下拋物線參數(shù)用來進(jìn)一步約束虹膜邊界。
圖7 虹膜區(qū)域定位示意圖Fig.7 Schematic diagram of iris region location
在定位虹膜內(nèi)外邊界后,根據(jù)擬合的拋物線與橢圓曲線設(shè)計虹膜分割掩模,提取出虹膜區(qū)域。然后引用Rubber-sheet模型[26]進(jìn)行虹膜圖像歸一化,將環(huán)狀虹膜圖像展開成一個固定大?。?12×64)的矩形虹膜圖像,目的在于減少因虹膜尺寸變化帶來的不利影響。得到歸一化虹膜圖片后,再采用自適應(yīng)對比度ACE(adaptive contrast enhancement)[27]圖像增強(qiáng)方法,以實現(xiàn)增強(qiáng)虹膜紋理結(jié)構(gòu)的清晰度。
實驗基于Windows10操作系統(tǒng),GPU型號為Nvidia GeForce RTX 2080 Ti,深度學(xué)習(xí)框架為Pytorch。初始學(xué)習(xí)率設(shè)置為0.01,采用余弦退火算法[28]調(diào)整學(xué)習(xí)率,每10個訓(xùn)練周期(epoch)作為一次學(xué)習(xí)調(diào)節(jié)周期,共訓(xùn)練60個epoch。優(yōu)化器設(shè)置為SGD隨機(jī)梯度下降算法,使用Nesterov動量,動量參數(shù)設(shè)置為0.9,權(quán)重衰減系數(shù)設(shè)置為5E-4。在網(wǎng)絡(luò)訓(xùn)練時,數(shù)據(jù)增強(qiáng)方式采用不擴(kuò)大原有數(shù)據(jù)集的在線增強(qiáng)[29]。在每批次數(shù)據(jù)(訓(xùn)練批次大小Batchsize設(shè)置為64)送入網(wǎng)絡(luò)之前,對這些圖像進(jìn)行隨機(jī)裁剪、填充操作,然后把該批次增強(qiáng)后的數(shù)據(jù)進(jìn)行歸一化處理再送入網(wǎng)絡(luò)中訓(xùn)練。
與其他算法做出同等的比較,采用等錯誤率EER(equal error rate)作為主要評價指標(biāo),EER越低,表示該方法的準(zhǔn)確度越高。
EER是通過動態(tài)調(diào)整決策閾值后得到的錯誤拒絕率FRR(false reject rate)和錯誤接受率FAR(false accept rate)相等時的值確定。如采用余弦距離計算測試樣本之間的相似度得分,由于相似度得分區(qū)間為-1~1,所以在該區(qū)間內(nèi)動態(tài)調(diào)整決策閾值,通過調(diào)整的閾值判斷匹配的樣本是否為同類樣本,將同一對象虹膜樣本誤識為不同對象的比率稱之為錯誤拒絕率FRR,將不同對象虹膜樣本誤識為同一對象的比率稱之為錯誤接受率FAR。
此外,本文還采用了分離度DI指標(biāo)[30],DI值越大,類內(nèi)樣本分布越緊湊,類間樣本分開越明顯,也即表示算法具有更好的識別效果。DI的計算公式如下:
其中μ1、μ2分別表示類內(nèi)、類間相似度分布均值,δ21、分別表示類內(nèi)、類間相似度分布方差。
實驗1消融實驗及敏感系數(shù)ε的選擇
在跨光譜虹膜識別算法的網(wǎng)絡(luò)結(jié)構(gòu)上去掉SA-GeM模塊,EA-Net模塊作為基線網(wǎng)絡(luò)Baseline,損失函數(shù)采用先前研究工作[13]中表現(xiàn)最好的Softmax Loss作為實驗的基準(zhǔn)損失函數(shù),在此基礎(chǔ)上進(jìn)行消融實驗,逐次去掉或添加算法網(wǎng)絡(luò)中的某些部分,來驗證這些部分是否起到有助于提升實驗性能的作用。對比結(jié)果見表2。
表2 消融實驗Table 2 Ablation Experiments
從表2可知,組別2采用了分類邊界清晰的ArcFace Loss,相比較于組別1采用的Softmax Loss,無論是EER,還是DI都有了明顯的改善,這是由于ArcFace Loss決策邊界相比較于Softmax Loss的決策邊界更明顯,ArcFace Loss以加性角間距的方式懲罰特征與相應(yīng)類中心權(quán)重向量之間的角度,主導(dǎo)的優(yōu)化過程因放大了特征與相應(yīng)類中心權(quán)重向量之間的間隔,而使得類內(nèi)特征更聚攏,客觀上也使得類間間距更大。
可見ArcFace Loss成為處理跨光譜虹膜識別任務(wù)較好的選擇,因此實驗組別3~6參照組別2進(jìn)行對比實驗。
實驗組別3采用了改進(jìn)的空間注意力機(jī)制SA-GeM模塊,相對未采用空間注意力機(jī)制的實驗組別2,EER有了一定程度的降低,識別效果更好。實驗組別3添加的SA-GeM模塊中的池化方法采用GeM pooling,當(dāng)p=1時,GeM pooling等價于全局均值池化GAP,當(dāng)p→∞時,GeM pooling等價于全局最大池化GMP,將該p參數(shù)設(shè)置為可學(xué)習(xí)參數(shù),不局限于GAP與GMP這兩種池化操作,使得空間注意力機(jī)制自適應(yīng)地關(guān)注到有助于提升識別率的虹膜紋理區(qū)域,這種方式更加靈活。
實驗組別4、5和6中,EA-Net模塊均指按照算法模型結(jié)構(gòu)示意圖2中所示位置設(shè)置3個EA-Net模塊。3個EA-Net模塊同時添加到網(wǎng)絡(luò)結(jié)構(gòu)中,對于虹膜特征的學(xué)習(xí)貢獻(xiàn)有所區(qū)別,起到功能互補(bǔ)作用。兩種光譜虹膜圖像經(jīng)過各自的EA-Net模塊處理,以分別存儲各自光譜域中虹膜樣本數(shù)據(jù)集的特有信息,有助于進(jìn)一步減少低級特征中的噪聲輸入共享深度網(wǎng)絡(luò)。通過共享網(wǎng)絡(luò)參數(shù)的學(xué)習(xí),在得到高級特征后再次添加一個共享參數(shù)的EA-Net模塊,強(qiáng)化同一類別的兩種光譜虹膜數(shù)據(jù)在被映射到特征空間后的聯(lián)系。
從實驗組別4的測試結(jié)果來看,采用的外部注意力機(jī)制EA-Net模塊,考慮了不同樣本之間潛在的聯(lián)系,這個考慮對于處理不同質(zhì)量的虹膜圖像是有意義的,某些虹膜圖像由于采集過程之中,光照變化導(dǎo)致反光呈現(xiàn)出的光斑,人體或眼睛移動引起的睫毛或眼瞼遮擋等主客觀因素使得虹膜紋理表現(xiàn)程度不一。EA-Net模塊中的兩個外部記憶單元隱式地學(xué)習(xí)了整個訓(xùn)練集的特征,這種學(xué)習(xí)記憶有助于刻畫所有樣本最本質(zhì)的虹膜紋理特征,緩解光斑、眼睫毛遮擋等噪聲的不利影響。如圖8所示,分別選取含有光斑和眼睫毛的虹膜圖片進(jìn)行可視化分析,使用類激活熱力圖Grad-CAM[31]對是否添加EA-Net模塊的不同網(wǎng)絡(luò)進(jìn)行可視化。其中圖8(a)為含有光斑的虹膜圖像,圖8(b)為含有眼睫毛的虹膜圖像,在各自虹膜圖像中均使用紅色矩形框標(biāo)注出光斑及眼睫毛區(qū)域。可視化結(jié)果如圖8(c)~(h)所示,對識別任務(wù)的貢獻(xiàn)度越大,該區(qū)域在熱力圖上的顏色越高亮。
圖8 EA-Net模塊的可視化對比結(jié)果Fig.8 Visual comparison results of EA-Net module
首先對比圖8(c)、(e),發(fā)現(xiàn)網(wǎng)絡(luò)在不添加EA-Net模塊的情況下,ArcFace Loss優(yōu)化下的網(wǎng)絡(luò)對于光斑所在區(qū)域及其附近位置較不敏感,更關(guān)注虹膜紋理區(qū)域,而Softmax Loss主導(dǎo)下的網(wǎng)絡(luò)多關(guān)注了含有光斑及其附近的區(qū)域,這種不可靠的關(guān)注增加了網(wǎng)絡(luò)易受光斑噪聲干擾導(dǎo)致識別率降低的風(fēng)險。同樣地,對比圖8(d)、(f),在圖8(f)熱力圖上的眼睫毛附近區(qū)域顏色相較于圖8(d)顏色更暗,說明該區(qū)域?qū)τ谧R別任務(wù)的貢獻(xiàn)度更低,不易受眼睫毛噪聲的干擾,增加了網(wǎng)絡(luò)的魯棒性。
再在ArcFace Loss優(yōu)化網(wǎng)絡(luò)的基礎(chǔ)上,對比圖8(e)、(g)與圖8(f)、(h)發(fā)現(xiàn)無論在含有光斑還是眼睫毛噪聲干擾的情況下,添加EA-Net模塊后的網(wǎng)絡(luò)都更加關(guān)注于虹膜紋理特征,虹膜紋理區(qū)域部分更加高亮,說明添加EA-Net模塊有助于強(qiáng)化網(wǎng)絡(luò)關(guān)注最本質(zhì)的虹膜紋理特征。
實驗組別5同時添加了SA-GeM模塊和EA-Net模塊,發(fā)現(xiàn)實驗結(jié)果仍有一定程度的提高,也驗證了將這兩個模塊結(jié)合起來的合理性。
本文提出的ArcHard Loss優(yōu)化算法中敏感系數(shù)需要根據(jù)不同的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)定,因為在相同的實驗條件下,不同的網(wǎng)絡(luò)結(jié)構(gòu)對于困難樣本的優(yōu)化力度各不相同。在實驗組別5的基礎(chǔ)上進(jìn)行敏感系數(shù)ε的選擇實驗,過大的敏感系數(shù)ε將會增加網(wǎng)絡(luò)收斂的難度,本文嘗試從0.1開始逐次增大敏感系數(shù)ε,同時對比實驗結(jié)果確定最優(yōu)敏感系數(shù)ε為0.2,不同敏感系數(shù)ε設(shè)定下的實驗結(jié)果見表3。
表3 敏感系數(shù)ε的選擇Table 3 Selection of sensitivity coefficient ε
從表3可得,敏感系數(shù)ε設(shè)定為0時,ArcHard Loss退化為ArcFace Loss,其實驗結(jié)果也對應(yīng)于表2中的實驗組別5。逐次增大敏感系數(shù)ε,當(dāng)敏感系數(shù)ε設(shè)定為0.1時,EER并未有所改善,說明當(dāng)前敏感系數(shù)ε下的ArcHard Loss對困難樣本的優(yōu)化力度仍然不夠,優(yōu)化力度仍等效于原始ArcFace Loss產(chǎn)生的效果。再次增加敏感系數(shù)ε,設(shè)定為0.2時,發(fā)現(xiàn)EER和DI都有了明顯的改善,這正是由于在優(yōu)化過程中,當(dāng)前敏感系數(shù)ε下的ArcHard Loss能夠使得網(wǎng)絡(luò)及時發(fā)現(xiàn)困難樣本,并且加大對于困難樣本的優(yōu)化力度,從而使得這些困難樣本能夠正確分類。隨后再次增加敏感系數(shù)ε至0.3、0.4,EER有所升高,當(dāng)敏感系數(shù)ε設(shè)定為0.4時,EER甚至高于ArcFace Loss主導(dǎo)的優(yōu)化結(jié)果0.29%,這正是因為過大的敏感系數(shù)ε將使得網(wǎng)絡(luò)對于困難樣本的過度關(guān)注,減少了網(wǎng)絡(luò)對于其他樣本的訓(xùn)練機(jī)會,從而造成實驗結(jié)果的下降。基于敏感系數(shù)ε的選擇實驗,確定了本文算法的最終實驗結(jié)果,即為表2中實驗組別6的實驗結(jié)果。為直觀顯示本文算法的優(yōu)越性,針對測試樣本,分別通過基準(zhǔn)算法(表2中實驗組別1)與本文算法(表2中實驗組別6)統(tǒng)計出類內(nèi),類間余弦距離(相似度分?jǐn)?shù))繪制出分布圖,如圖9所示。
圖9相似度分?jǐn)?shù)分布情況對比Fig.9 Comparison of similarity score distribution
圖9 中綠色部分為基準(zhǔn)算法余弦相似度分布,藍(lán)色部分為本文算法余弦相似度分布。由于采用余弦距離評估兩兩樣本特征向量的相似度,所以向量之間夾角越小,其對應(yīng)的余弦值越大,相似度越高,左半部分為類間相似度分布,右半部分為類內(nèi)相似度分布。從圖9中可以看出,本文算法相對于基準(zhǔn)算法的類內(nèi)相似度分布更加集中,并且相對基準(zhǔn)算法的相似度分?jǐn)?shù)主要集中在0.4~0.7之間,本文算法相似度分?jǐn)?shù)主要集中在0.6~0.9之間,更接近于理想情況下同類樣本余弦相似度為1.0的分布,降低了在匹配階段類內(nèi)與類間模板出現(xiàn)交集,導(dǎo)致類內(nèi)樣本被誤識為類間樣本的風(fēng)險。結(jié)合表2,本文算法的分離度DI=8.56遠(yuǎn)高于基準(zhǔn)算法的分離度DI=5.63,再次驗證了本文算法對于類內(nèi)、類間樣本具有更好的區(qū)分度,能更好地控制類內(nèi)樣本與類間樣本的分類邊界。
此外,通過ROC(receiver operator characteristic)曲線,可直觀地展示算法在不同錯誤接受率FAR(false accept rate)水平下,正確接受率TAR(true accept rate)的表現(xiàn)性能。當(dāng)FAR一定時,TAR越大,算法的準(zhǔn)確度越高?;鶞?zhǔn)算法與本文算法的ROC曲線如圖10所示。
圖10 ROC曲線對比圖Fig.10 ROC curve comparison
從圖10可明顯看出,當(dāng)FAR一定時,尤其是在FAR在區(qū)間[10-3,10-1]時,本文算法的TAR都要明顯高于基準(zhǔn)算法的TAR,這意味著本文算法有著更好的識別準(zhǔn)確率。
實驗2與其他主流算法實驗結(jié)果的對比
本文算法與近年來主流的跨光譜虹膜識別算法進(jìn)行了比較,比較結(jié)果見表4。
表4 跨光譜虹膜匹配測試結(jié)果Table 4 Test results of cross spectral iris matching
如表4所示,為便于比較分析,其他算法可分為傳統(tǒng)跨光譜虹膜識別算法GRF LBP[8]、GRF BSIF[8]、MRF[9]、IrisCode[10]和跨光譜虹膜識別神經(jīng)網(wǎng)絡(luò)算法CNNSDH[10]、文獻(xiàn)[11]算法、CpGAN[12]、文獻(xiàn)[13]算法。
在傳統(tǒng)跨光譜虹膜識別算法中,IrisCode[10]算法是基于手工設(shè)計的特征提取器提取特征,學(xué)習(xí)能力有限,泛化能力不強(qiáng),對于處理跨光譜虹膜識別任務(wù)的準(zhǔn)確率并不高,EER表現(xiàn)最差。MRF[9]算法使用馬爾可夫隨機(jī)場來合成虹膜圖像,以實現(xiàn)較為精確的跨光譜匹配,EER有了一定程度的降低。GRF LBP[8]算法與GRF BSIF[8]算法的EER表現(xiàn)較好,EER分別達(dá)到了4.2%和1.69%。一方面主要是由于該類算法引入了基于圖像梯度方向的光度歸一化技術(shù)來減輕光照影響,另一方面是因為該類算法僅選擇了PolyU數(shù)據(jù)集的部分[8]虹膜圖像,并不是基于整個數(shù)據(jù)集進(jìn)行實驗,實驗結(jié)果具有偶然性。如果將一些質(zhì)量較差的虹膜圖像參與算法測試,可能會引起識別效果的下降,這也是GRF LBP[8]與GRF BSIF[8]算法實驗結(jié)果的局限性。
在基于神經(jīng)網(wǎng)絡(luò)的跨光譜虹膜識別算法中,不同的算法采用了不同的特征提取方法,文獻(xiàn)[11]算法使用擴(kuò)張卷積的殘差網(wǎng)絡(luò)學(xué)習(xí),結(jié)合距離度量損失中的三元組損失來優(yōu)化訓(xùn)練過程,并沒有考慮到分類損失,其EER為17.03%并不理想。CNN-SDH算法[10]采用具有Softmax Loss的CNN作為特征提取器,然后將生成的特征向量散列成一個1 000位的二進(jìn)制向量,不僅有效地減小了匹配模板的大小,還使得EER達(dá)到了5.39%。CpGAN算法[12]采用了一種交叉光譜識別的條件耦合生成對抗網(wǎng)絡(luò)體系結(jié)構(gòu),通過將可見光和近紅外虹膜圖像投影到低維嵌入域來探索它們之間的隱藏關(guān)系,匹配結(jié)果表現(xiàn)優(yōu)異,EER達(dá)到了1.02%。文獻(xiàn)[13]算法的EER為0.99%,該算法取得較好識別效果的原因一方面是由于該算法在虹膜圖像預(yù)處理階段,沒有采用自動虹膜分割算法對虹膜圖像進(jìn)行分割,而是使用手動標(biāo)定出的虹膜區(qū)域進(jìn)行實驗,緩解了虹膜的錯誤分割對于模型學(xué)習(xí)及識別的不利影響,另一方面是因為該算法通過修改網(wǎng)絡(luò)的全連接層,將生成的特征向量維度設(shè)置為256,調(diào)整了特征的稀疏性,減少了特征表示的冗余信息。
另外,值得注意是在其他算法中,IrisCode[10]、MRF[9]、CNN-SDH[10]、文獻(xiàn)[11]采用的是自動虹膜分割算法,所以其剔除了一些圖像質(zhì)量差、分割錯誤率較高的虹膜圖像,僅選擇了PolyU數(shù)據(jù)集(共418類虹膜圖像)中的280類虹膜圖像(共計8 400張虹膜圖像)進(jìn)行實驗,類內(nèi)匹配次數(shù)為2 800次,類間匹配次數(shù)為1 953 000次,而CpGAN[12]、文獻(xiàn)[13]則是基于整個PolyU數(shù)據(jù)集進(jìn)行實驗。
與其他主流算法中傳統(tǒng)跨光譜虹膜識別算法表現(xiàn)最好的GRF BSIF[8]算法和跨光譜虹膜識別神經(jīng)網(wǎng)絡(luò)算法表現(xiàn)最好的文獻(xiàn)[13]算法進(jìn)行對比,本文算法采用了與文獻(xiàn)[13]相同的的訓(xùn)練測試協(xié)議,基于PolyU數(shù)據(jù)集的所有虹膜圖像進(jìn)行實驗,相比較于GRF BSIF[8]算法僅考慮了部分?jǐn)?shù)據(jù)集,本文算法的實驗結(jié)果更具有代表性。從對比結(jié)果可以看出,本文算法的EER比GRF BSIF[8]算法的EER降低了1.46個百分點,識別效果更好。與文獻(xiàn)[13]相比,EER降低了0.76個百分點,說明本文算法的準(zhǔn)確率更高,分離度DI提高了3.31,說明本文算法得到的類內(nèi)樣本分布更緊湊,類間樣本分開更明顯,類內(nèi)、類間樣本具有更好的區(qū)分度,能更好地控制類內(nèi)樣本與類間樣本的分類邊界,間接反映了本文算法EER降低的原因。整體識別效果的提升原因可以歸納為以下幾點:一是因為本文算法在虹膜圖像預(yù)處理階段同樣采用了手動分割虹膜區(qū)域的方法,以避免虹膜圖像的錯誤分割;二是在手動分割虹膜區(qū)域后,本文還進(jìn)一步進(jìn)行虹膜圖像歸一化處理,以減少因虹膜尺寸變化帶來的不利影響;三是本文還針對跨光譜虹膜識別任務(wù)設(shè)計了特殊的網(wǎng)絡(luò)結(jié)構(gòu),引入雙重注意力機(jī)制緩解噪聲樣本的不利影響和對于困難樣本的優(yōu)化算法使得網(wǎng)絡(luò)給予困難樣本更大的優(yōu)化力度,這也是取得本文實驗結(jié)果的一個關(guān)鍵原因。綜上所述,本文提出的方法可以更好地處理跨光譜虹膜識別任務(wù)。
本文針對跨光譜虹膜識別任務(wù)提出了一種雙重注意力機(jī)制下的跨光譜虹膜識別優(yōu)化算法。該算法在殘差特征提取網(wǎng)絡(luò)ResNet18的基礎(chǔ)上,改進(jìn)傳統(tǒng)空間注意機(jī)制,引入外部注意力機(jī)制,在ArcFace Loss基礎(chǔ)上添加困難樣本懲罰項,并通過實驗對其進(jìn)行了驗證,得到以下結(jié)論:
(1)結(jié)合廣義均值池化方法改進(jìn)的空間注意力機(jī)制SA-GeM,有利于提高模型的性能,實驗結(jié)果表明,融合了該空間注意機(jī)制的算法網(wǎng)絡(luò),識別精度有一定的提升。
(2)外部注意力模塊的融入,顯著提升了算法的特征提取能力和判別能力,可視化分析實驗表明,該模塊的應(yīng)用可使得算法網(wǎng)絡(luò)學(xué)習(xí)到更具有代表性的虹膜紋理特征,可以緩解光斑、眼睫毛等干擾,更加關(guān)注于最本質(zhì)的虹膜紋理特征,區(qū)分性更強(qiáng)。
(3)ArcHard Loss以優(yōu)化過程中樣本的類內(nèi)最小余弦距離是否小于類間最大余弦距離作為困難樣本的判斷依據(jù),若類內(nèi)最小余弦距離小于類間最大余弦距離則判斷為困難樣本,根據(jù)違反判斷依據(jù)的次數(shù)及越界量,逐步按照一定的動態(tài)倍數(shù)增加對于該類樣本的優(yōu)化力度,使得網(wǎng)絡(luò)能夠給予這類樣本更大的學(xué)習(xí)機(jī)會,實驗結(jié)果表明,這種優(yōu)化算法可顯著提高網(wǎng)絡(luò)的整體學(xué)習(xí)能力。
在跨光譜虹膜識別任務(wù)中融入注意力機(jī)制與分類損失函數(shù)優(yōu)化算法還處于探索階段,在未來的研究工作中將集中于注意力機(jī)制在網(wǎng)絡(luò)中嵌套方式的研究,以及優(yōu)化算法中自適應(yīng)調(diào)整懲罰困難樣本優(yōu)化策略的研究。