張宗華 王晟賢 高 楠 孟召宗
(河北工業(yè)大學(xué)機(jī)械工程學(xué)院 天津 300130)
在計(jì)算機(jī)網(wǎng)絡(luò)通信技術(shù)迅猛發(fā)展的背景下,如何高效、可靠地認(rèn)證用戶身份越來(lái)越受到社會(huì)的重視[1,2]?;诿艽a、口令的傳統(tǒng)身份認(rèn)證方法由于存在易丟失、易偽造等缺點(diǎn),已逐漸被生物識(shí)別技術(shù)[3–6]所代替。近年來(lái),掌紋作為一種紋理豐富、采集方式簡(jiǎn)單的生物特征受到了研究人員的廣泛關(guān)注,與其對(duì)應(yīng)的掌紋識(shí)別技術(shù)也在不斷發(fā)展和進(jìn)步[7]。
傳統(tǒng)的掌紋識(shí)別技術(shù)多是圍繞2維掌紋所展開(kāi),2維掌紋雖易于提取,卻也易被偽造,所以3維掌紋識(shí)別技術(shù)應(yīng)運(yùn)而生。2008年Li等人[8]設(shè)計(jì)了一種基于結(jié)構(gòu)光的設(shè)備來(lái)捕獲手掌的3維數(shù)據(jù),并進(jìn)一步建立了由8000個(gè)3維掌紋樣本組成的數(shù)據(jù)庫(kù)。在此基礎(chǔ)上,研究者進(jìn)行了一系列與3維掌紋識(shí)別相關(guān)的研究工作。Zhang等人[9]提出了一種3維掌紋識(shí)別方法,該方法首先基于曲率對(duì)3維掌紋數(shù)據(jù)進(jìn)行特征提取以獲得平均曲率圖像(Mean Curvature Image, MCI)、高斯曲率圖像(Gaussian Curvature Image, GCI)和曲面類型(Surface Type, ST),然后編碼為二進(jìn)制特征。Bai等人[10]提出了一種新穎的3維掌紋識(shí)別方法,該方法將分塊ST與主成分分析相結(jié)合以提升算法效率。然而,傳統(tǒng)的3維掌紋識(shí)別技術(shù)需要人工設(shè)計(jì)的特定濾波器以提取特征信息,這種做法更依賴設(shè)計(jì)者的先驗(yàn)知識(shí),使其精度易受外界環(huán)境(如光照、對(duì)比度等)和手掌姿態(tài)影響。并且傳統(tǒng)的3維掌紋識(shí)別技術(shù)并不能像深度學(xué)習(xí)一樣,可將特征提取和特征匹配融合至一步,增加了不同方法在優(yōu)化組合時(shí)的難度。
目前,人工智能作為計(jì)算機(jī)科學(xué)領(lǐng)域的前沿產(chǎn)物,其主要方面的深度學(xué)習(xí)在近幾年經(jīng)歷了飛速的發(fā)展,尤其是在樣本識(shí)別領(lǐng)域。與傳統(tǒng)的識(shí)別算法不同,深度學(xué)習(xí)的方法利用反復(fù)使用卷積運(yùn)算和池化運(yùn)算以獲得越來(lái)越復(fù)雜的特征圖,最后通過(guò)全連接層直接輸出結(jié)果,使得其相比于傳統(tǒng)的識(shí)別方法而言具有更高的識(shí)別精度和更快的識(shí)別速度。所以,如何將深度學(xué)習(xí)運(yùn)用到掌紋識(shí)別中也成為當(dāng)下學(xué)者重點(diǎn)研究的一個(gè)方面。但現(xiàn)階段,基于深度學(xué)習(xí)的掌紋識(shí)別技術(shù)大多是圍繞2維掌紋所展開(kāi)。楊冰等人[11]首次提出將深度學(xué)習(xí)應(yīng)用到3維掌紋識(shí)別中,文中采用的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)雖然保證了一定的識(shí)別精度,但掌紋識(shí)別時(shí)間會(huì)隨著網(wǎng)絡(luò)深度的提高而延緩,并且對(duì)于小樣本的3維掌紋數(shù)據(jù)集,網(wǎng)絡(luò)深度的提高也會(huì)加重“過(guò)擬合”問(wèn)題,影響網(wǎng)絡(luò)的泛化性能。所以本文針對(duì)此問(wèn)題,選取結(jié)構(gòu)上更為簡(jiǎn)單的CNN為原型,對(duì)其進(jìn)行一系列改進(jìn)再應(yīng)用至3維掌紋識(shí)別中,并在公開(kāi)數(shù)據(jù)集上驗(yàn)證所提方法的識(shí)別率和識(shí)別速度都有所改進(jìn)。
考慮到3維掌紋識(shí)別技術(shù)的快速、準(zhǔn)確識(shí)別要求,而傳統(tǒng)方法因?qū)⑻卣魈崛∨c分類識(shí)別分開(kāi)進(jìn)行,導(dǎo)致了不同方法優(yōu)化組合的難度增大,在一定程度上影響了識(shí)別時(shí)間和準(zhǔn)確率。所以,針對(duì)上述問(wèn)題,本文提出一種基于深度學(xué)習(xí)的3維掌紋識(shí)別方法。首先,利用2維灰度ST圖表征3維掌紋信息并劃分訓(xùn)練集和測(cè)試集;其次,將訓(xùn)練集圖像輸入改進(jìn)的CNN進(jìn)行訓(xùn)練和學(xué)習(xí),待訓(xùn)練完成后固定網(wǎng)絡(luò)參數(shù),并輸入測(cè)試集圖像進(jìn)行泛化性驗(yàn)證。本文將介紹3維掌紋的ST表示方法、CNN的具體改進(jìn)以及如何實(shí)現(xiàn)兩者的結(jié)合。
生物特征提取是3維掌紋識(shí)別的首要任務(wù),原始捕獲的3維掌紋數(shù)據(jù)包含大量的浮點(diǎn)數(shù),而想要完成3維掌紋識(shí)別,首要的工作就是進(jìn)行3維掌紋的特征表示。因ST的特征表示方法具有較為出色的區(qū)分性,故本文采用2維ST灰度圖像作為3維掌紋數(shù)據(jù)的特征。
2.2.1 LeNet5網(wǎng)絡(luò)
CNN是一個(gè)多層網(wǎng)絡(luò)模型,常包含卷積層、池化層和全連接層[13]。對(duì)于深度學(xué)習(xí)而言,網(wǎng)絡(luò)結(jié)構(gòu)越復(fù)雜其學(xué)習(xí)能力也就越強(qiáng)。但是帶來(lái)的問(wèn)題是,訓(xùn)練時(shí)需要更大的數(shù)據(jù)集。目前現(xiàn)存的掌紋公開(kāi)數(shù)據(jù)集的樣本數(shù)量相較于深度學(xué)習(xí)領(lǐng)域還是較少,如果采用復(fù)雜的CNN,反而會(huì)因過(guò)擬合問(wèn)題使得訓(xùn)練效果更差,并且網(wǎng)絡(luò)的加深也會(huì)延緩識(shí)別時(shí)間。所以針對(duì)此類問(wèn)題本文以結(jié)構(gòu)較為簡(jiǎn)單的LeNet5[14]作為參考網(wǎng)絡(luò)進(jìn)行了研究。LeNet5最早是由LeCun等人[14]提出的用于手寫體字符識(shí)別非常高效的CNN,學(xué)習(xí)參數(shù)約為6×104個(gè)。相較于參數(shù)量大的復(fù)雜網(wǎng)絡(luò)而言,該網(wǎng)絡(luò)更適用于小樣本數(shù)據(jù)集的學(xué)習(xí)。但由于原始的LeNet5提出時(shí)間較早,網(wǎng)絡(luò)還存在“梯度消失”、“過(guò)擬合”等問(wèn)題,所以本文針對(duì)此類問(wèn)題進(jìn)行改進(jìn)。圖1為網(wǎng)絡(luò)正體框架圖。
表1 由曲率得到的9類ST
2.2.2 網(wǎng)絡(luò)具體改進(jìn)步驟
基于LeNet5網(wǎng)絡(luò)的具體改進(jìn)方法如下:(1)針對(duì)網(wǎng)絡(luò)激活函數(shù)進(jìn)行改進(jìn),原始LeNet5網(wǎng)絡(luò)所用的S型函數(shù)Sigmoid和雙曲正切函數(shù)Tanh會(huì)出現(xiàn)“梯度消失”的現(xiàn)象,即網(wǎng)絡(luò)反向傳播時(shí)會(huì)出現(xiàn)靠近輸出層的隱藏層權(quán)重更新緩慢或更新停滯,從而無(wú)法完成深層網(wǎng)絡(luò)的訓(xùn)練。而常見(jiàn)的線性整流函數(shù)(Rectified Linear Unit, ReLU)數(shù)學(xué)定義如式(4)
其中,PReLU將通過(guò)增加可學(xué)習(xí)的參數(shù)ai, 使得網(wǎng)絡(luò)自適應(yīng)當(dāng)輸入小于0時(shí)的輸出,以此來(lái)提高激活函數(shù)ReLU的性能。(2)在卷積層和全連接層后添加批量歸一化(Batch Normalization, BN)操作。該操作最早由Ioffe等人[16]提出,并證明了該方法在改善“過(guò)擬合”問(wèn)題上具有出色的表現(xiàn)。BN操作通過(guò)對(duì)輸入網(wǎng)絡(luò)層的數(shù)據(jù)進(jìn)行歸一化處理(歸一化至:均值0、方差1),解決數(shù)據(jù)在網(wǎng)絡(luò)層傳播時(shí)發(fā)生的“內(nèi)協(xié)變量漂移”的問(wèn)題,從而改善“過(guò)擬合”現(xiàn)象,并提高網(wǎng)絡(luò)的收斂速度。(3)利用常應(yīng)用于多分類問(wèn)題的Softmax分類器代替原網(wǎng)絡(luò)最后的輸出層,通過(guò)輸出每個(gè)類別的概率值,來(lái)確定網(wǎng)絡(luò)對(duì)輸入進(jìn)行的類別預(yù)測(cè)。本文針對(duì)LeNet5網(wǎng)絡(luò)激活函數(shù)發(fā)生“梯度消失”、訓(xùn)練后網(wǎng)絡(luò)發(fā)生“過(guò)擬合”和網(wǎng)絡(luò)輸出層無(wú)法直接輸出樣本所屬類別的問(wèn)題,利用已在不同模型下證明了測(cè)試效果的方法對(duì)網(wǎng)絡(luò)進(jìn)行3處改進(jìn)。由于針對(duì)的問(wèn)題不同,所以網(wǎng)絡(luò)的3處改進(jìn)之間并不會(huì)相互影響,如圖1所示。
圖1 網(wǎng)絡(luò)整體框架圖
相比于平均曲率圖像(Mean Curvature Image,MCI)、高斯曲率圖像(Gaussian Curvature Image,GCI)、形狀指數(shù)(Shape Index, SI)等3維掌紋特征表示方法,一方面,ST結(jié)合了MCI和GCI優(yōu)點(diǎn),具有高度可區(qū)分性,且掌紋是種非剛性物體,在數(shù)據(jù)采集過(guò)程中往往容易發(fā)生微小的形變,ST的方法具有更高的魯棒性。另一方面,在特征提取上,傳統(tǒng)的基于人工設(shè)計(jì)的特征提取算法對(duì)于不同的掌紋信息(如紋理、方向、細(xì)紋、頻率),需要利用不同的濾波器進(jìn)行采集,這就導(dǎo)致了此類“特定”的濾波器并不能充分地提取到掌紋圖像的全部信息。而深度學(xué)習(xí)的優(yōu)勢(shì)在于,CNN可通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方式自動(dòng)地提取特征信息。在此過(guò)程中,只需設(shè)計(jì)網(wǎng)絡(luò)模型的結(jié)構(gòu)而不用考慮具體的濾波器模板,網(wǎng)絡(luò)會(huì)根據(jù)數(shù)據(jù)集的特點(diǎn)自行學(xué)習(xí)更為復(fù)雜的濾波器以便提取不同的掌紋特征信息。所以結(jié)合兩者的特點(diǎn)和優(yōu)勢(shì),提出將兩者相融合以提高掌紋識(shí)別的效果。
現(xiàn)存公開(kāi)的3維掌紋數(shù)據(jù)集以點(diǎn)云的形式存儲(chǔ)著掌紋的深度數(shù)據(jù)。傳統(tǒng)的3維掌紋識(shí)別步驟,首先將3維掌紋數(shù)據(jù)進(jìn)行基于曲率的2維圖像化表示;其次利用人工設(shè)計(jì)的濾波器對(duì)掌紋圖像進(jìn)行特征提??;最后利用分類器對(duì)特征進(jìn)行分類與識(shí)別。目前雖然存在著可直接處理3維點(diǎn)云的深度學(xué)習(xí)網(wǎng)絡(luò),但是該網(wǎng)絡(luò)大多適用于形狀規(guī)則物體的分類與識(shí)別,顯然并不適用于細(xì)節(jié)特征更為豐富的掌紋數(shù)據(jù)。并且因點(diǎn)云的無(wú)序性,深度學(xué)習(xí)網(wǎng)絡(luò)會(huì)在處理3維點(diǎn)云時(shí)進(jìn)行“對(duì)齊”操作,這樣的做法增加了計(jì)算復(fù)雜度、提高了識(shí)別時(shí)間,也不符合3維掌紋識(shí)別的快速性要求。所以本文保留傳統(tǒng)方法中利用基于曲率的2維圖像表征3維掌紋數(shù)據(jù)的步驟,利用曲面類型對(duì)3維掌紋數(shù)據(jù)集進(jìn)行2維特征表示。再將2維的ST灰度圖像輸入網(wǎng)絡(luò)進(jìn)行訓(xùn)練與測(cè)試,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)代替?zhèn)鹘y(tǒng)方法中的濾波器和分類器,以達(dá)到3維掌紋快速識(shí)別的要求。本文所提方法流程圖如圖2所示,首先對(duì)3維掌紋數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試集的劃分;其次將劃分好的數(shù)據(jù)集進(jìn)行掌紋局部ST特征表示;然后將訓(xùn)練集ST圖像輸入LeNet5網(wǎng)絡(luò)進(jìn)行訓(xùn)練學(xué)習(xí),并將訓(xùn)練完成后的網(wǎng)絡(luò)模型參數(shù)固定;最后將測(cè)試集ST圖像輸入網(wǎng)絡(luò),驗(yàn)證網(wǎng)絡(luò)的泛化能力,以完成3維掌紋識(shí)別。
圖2 所提方法流程圖
與驗(yàn)證不同的是,識(shí)別是一對(duì)多的匹配問(wèn)題,最終決定用于測(cè)試的3維掌紋所屬類別。本文在公開(kāi)數(shù)據(jù)集上進(jìn)行了3個(gè)對(duì)比實(shí)驗(yàn),并通過(guò)測(cè)試集的識(shí)別率和識(shí)別時(shí)間以分別驗(yàn)證ST特征表示方法、所改進(jìn)網(wǎng)絡(luò)和兩者相結(jié)合后的有效性,本文的實(shí)驗(yàn)硬件環(huán)境為 CPU:Intel Core i5-9400F CPU @ 2.90 GHz;GPU:NVIDIA GeForce RTX 2060;內(nèi)存:16 GB RAM;深度學(xué)習(xí)框架:Tensorflow。
本文在實(shí)驗(yàn)中所使用的公開(kāi)數(shù)據(jù)集為香港理工大學(xué)3維掌紋數(shù)據(jù)集[17],該數(shù)據(jù)集包含了400個(gè)不同手掌中收集的8000個(gè)樣本。每只手掌每次采集10個(gè)樣本,采集了兩次,共20個(gè)樣本,此20個(gè)樣本可視為同一類別,兩次采集的時(shí)間間隔為30 d。
本文識(shí)別實(shí)驗(yàn)設(shè)計(jì)如下:首先劃分訓(xùn)練集與測(cè)試集,將掌紋庫(kù)中第1次采集的圖像用作訓(xùn)練樣本,第2次采集的圖像用作測(cè)試樣本。這樣訓(xùn)練集和測(cè)試集均包含400個(gè)掌紋類別,每個(gè)類別包含10個(gè)圖像,共4000幅圖像。最后通過(guò)統(tǒng)計(jì)不同方法的rank-1識(shí)別率來(lái)衡量方法的性能。為證明本文所提方法的有效性,首先,在使用相同的深度學(xué)習(xí)網(wǎng)絡(luò)時(shí)對(duì)不同的掌紋特征表示方法進(jìn)行對(duì)比試驗(yàn);其次,在使用相同的掌紋特征表示方法時(shí)對(duì)不同的深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行對(duì)比實(shí)驗(yàn),并針對(duì)測(cè)試樣本識(shí)別時(shí)間進(jìn)行了比較。卷積神經(jīng)網(wǎng)絡(luò)中超參數(shù)的選擇會(huì)很大程度上影響網(wǎng)絡(luò)的性能,通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)如果將網(wǎng)絡(luò)的學(xué)習(xí)率設(shè)置為0.001,批次大小設(shè)置為100,迭代次數(shù)設(shè)置為1500步時(shí),最終的測(cè)試集在識(shí)別率和訓(xùn)練時(shí)間上都會(huì)達(dá)到一個(gè)理想的表現(xiàn)。如圖3(a)為3維掌紋ST的訓(xùn)練集與測(cè)試集準(zhǔn)確率的比較,可以發(fā)現(xiàn),訓(xùn)練集會(huì)很快地達(dá)到100%的準(zhǔn)確率,而測(cè)試集最終會(huì)達(dá)到99.43%的準(zhǔn)確率,展現(xiàn)出了一個(gè)較為理想的泛化能力。圖3(b)為訓(xùn)練集的損失。
圖3 3維掌紋ST的深度學(xué)習(xí)結(jié)果
3.2.1 掌紋特征表示方法有效性實(shí)驗(yàn)
為了驗(yàn)證所提網(wǎng)絡(luò)的有效性,本文使用改進(jìn)后的LeNet5網(wǎng)絡(luò)對(duì)掌紋識(shí)別進(jìn)行實(shí)驗(yàn)。在提取3維掌紋的ST后,分別提取3維掌紋的MCI, GCI和緊湊型表面類型特征(Compact Surface Type, CST),并與2維掌紋圖像進(jìn)行了對(duì)比。通過(guò)識(shí)別率來(lái)評(píng)價(jià)2維掌紋與3維掌紋識(shí)別的優(yōu)劣以及不同3維掌紋特征表示方法對(duì)最終識(shí)別效果的影響。表2為2維掌紋及3維掌紋不同特征表示方法的對(duì)比實(shí)驗(yàn)結(jié)果。
通過(guò)表2的實(shí)驗(yàn)結(jié)果得出如下結(jié)論。首先,在所提網(wǎng)絡(luò)下,無(wú)論哪種3維掌紋的特征表示方法,其識(shí)別率都是要優(yōu)于2維掌紋圖像,即與2維掌紋相比3維掌紋特征具有更好的可區(qū)分性。其次,在常見(jiàn)的一些3維掌紋特征表示方法中,當(dāng)利用ST圖像作為3維掌紋的特征表示時(shí),其識(shí)別效果最佳,即ST圖像可以更好地刻畫(huà)3維掌紋的結(jié)構(gòu)特征。究其原因,ST結(jié)合高斯曲率和平均曲率對(duì)3維掌紋特征進(jìn)行編碼,其圖像具有高度可區(qū)分性,很好地保留了掌紋曲面的3維細(xì)節(jié)特征,不易受到手掌所處空間位置影響。最后,由于網(wǎng)絡(luò)相同,不同的3維掌紋特征表示方法在識(shí)別時(shí)間上并未有太大的差別。
表2 2維掌紋及3維掌紋不同特征表示方法的對(duì)比實(shí)驗(yàn)結(jié)果
3.2.2 深度學(xué)習(xí)網(wǎng)絡(luò)有效性實(shí)驗(yàn)
為了驗(yàn)證所提網(wǎng)絡(luò)的有效性,本文使用不同的卷積神經(jīng)網(wǎng)絡(luò)對(duì)相同的3維掌紋特征表示方法(ST)進(jìn)行實(shí)驗(yàn)。所對(duì)比的網(wǎng)絡(luò)有未改進(jìn)的LeNet5及文獻(xiàn)[11]中所使用的AlexNet。其中,AlexNet是2012年Image Net競(jìng)賽冠軍,其網(wǎng)絡(luò)結(jié)構(gòu)被廣泛地應(yīng)用在了不同領(lǐng)域。將不同網(wǎng)絡(luò)下測(cè)試樣本的識(shí)別率、訓(xùn)練樣本的訓(xùn)練時(shí)間及測(cè)試樣本的識(shí)別時(shí)間作為判斷網(wǎng)絡(luò)性能優(yōu)劣的評(píng)判標(biāo)準(zhǔn)。
表3可以得出如下結(jié)論。首先,在測(cè)試集的識(shí)別率上,未改進(jìn)的LeNet5識(shí)別效果并不理想。而改進(jìn)后的LeNet5+ST方法要優(yōu)于文獻(xiàn)[11]中提出的AlexNet+ST的方法。其次,在訓(xùn)練集的訓(xùn)練時(shí)間上,LeNet5相較于AlexNet要耗時(shí)更少。究其原因,LeNet5的網(wǎng)絡(luò)參數(shù)要明顯少于AlexNet,網(wǎng)絡(luò)結(jié)構(gòu)更為簡(jiǎn)潔。改進(jìn)的LeNet5僅用時(shí)28 ms就可在4000個(gè)測(cè)試樣本中完成快速身份認(rèn)證,在識(shí)別時(shí)間上其表現(xiàn)也要優(yōu)于未改進(jìn)的LeNet5和AlexNet。最后,在文獻(xiàn)[11]中的深度學(xué)習(xí)方法因可直接輸出3維掌紋對(duì)于各種類別的概率,使得其與傳統(tǒng)方法相比,在識(shí)別時(shí)間上有著明顯的優(yōu)勢(shì)。而這也進(jìn)一步證明了本文所提方法的優(yōu)越性。
表3 不同網(wǎng)絡(luò)的對(duì)比實(shí)驗(yàn)結(jié)果
3.2.3 不同3維掌紋識(shí)別方法對(duì)比實(shí)驗(yàn)
為驗(yàn)證使用ST特征表示與深度學(xué)習(xí)融合的識(shí)別方法的優(yōu)勢(shì),將其與幾種傳統(tǒng)的3維掌紋識(shí)別方法進(jìn)行了比較,結(jié)果如表4所示。結(jié)果表明,與傳統(tǒng)3維掌紋識(shí)別方法相比(以分塊ST+PCA的方法為例進(jìn)行對(duì)比),本文所提的3維掌紋識(shí)別方法在相同的4000個(gè)測(cè)試樣本下減少了7個(gè)錯(cuò)誤分類的樣本,從而提高了識(shí)別精度。
表4 不同方法的對(duì)比實(shí)驗(yàn)
本文提出一種基于ST特征表示與深度學(xué)習(xí)相融合的3維掌紋識(shí)別方法。通過(guò)訓(xùn)練后的網(wǎng)絡(luò)直接提取掌紋圖像特征并同時(shí)完成分類,克服了傳統(tǒng)方法上特征提取與分類識(shí)別分開(kāi)進(jìn)行時(shí)難以優(yōu)化組合的問(wèn)題,并縮短了識(shí)別時(shí)間。實(shí)驗(yàn)結(jié)果表明,本文提出的3維掌紋識(shí)別方法具有較高的識(shí)別率,相比于傳統(tǒng)方法具有較大提高,并且可在28 ms內(nèi)完成單個(gè)樣本的快速識(shí)別,滿足了準(zhǔn)確實(shí)時(shí)識(shí)別的需求。未來(lái),將對(duì)基于深度學(xué)習(xí)的3維掌紋識(shí)別技術(shù)進(jìn)行更深入的分析,嘗試將遷移學(xué)習(xí)、元學(xué)習(xí)等深度學(xué)習(xí)處理小樣本數(shù)據(jù)集時(shí)的新方法與3維掌紋識(shí)別相結(jié)合,并針對(duì)不同網(wǎng)絡(luò)進(jìn)行測(cè)試、改進(jìn),以達(dá)到一個(gè)更好的效果。