• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于自注意力深度哈希的海量指紋索引方法

      2022-09-21 05:38:14吳元春
      關(guān)鍵詞:二進(jìn)制哈希編碼器

      吳元春,趙 彤

      1.中國(guó)科學(xué)院大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,北京100049

      2.中國(guó)科學(xué)院大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,北京100049

      3.中國(guó)科學(xué)院大數(shù)據(jù)挖掘和知識(shí)管理重點(diǎn)實(shí)驗(yàn)室,北京100190

      在生物特征識(shí)別領(lǐng)域,指紋作為最具獨(dú)特性與持久性的特征之一,被廣泛應(yīng)用于身份認(rèn)證[1]。隨著越來(lái)越多的用戶注冊(cè)到指紋識(shí)別系統(tǒng),指紋庫(kù)的規(guī)模也呈現(xiàn)出爆炸式增長(zhǎng)。在這種基數(shù)巨大的指紋庫(kù)中,較短的響應(yīng)時(shí)間內(nèi)完成檢索任務(wù)成為一個(gè)極具挑戰(zhàn)性的任務(wù)。

      目前針對(duì)大規(guī)模指紋庫(kù)中的指紋檢索,主流做法分為兩階段:粗篩選階段與精匹配階段。第一階段快速粗篩,縮小檢索范圍得到小候選集,第二階段在候選集上選取某種精確度更高的方法進(jìn)行精細(xì)匹配得到檢索結(jié)果。完成第一步通常需要選擇合適的預(yù)選技術(shù)。預(yù)選技術(shù)主要可以分為兩類:獨(dú)有分類(exclusive classification)和索引[2]。指紋的獨(dú)有分類包括五大類[3-4]:左旋、右旋、斗、拱、支拱,但是根據(jù)統(tǒng)計(jì)93.4%的指紋屬于左旋、右旋、斗這三類[5]。過(guò)少的類別以及類別上極度不均勻分布導(dǎo)致這類方法很難有效縮減檢索范圍,而基于指紋索引的方法能有效解決這個(gè)問(wèn)題?;谒饕姆椒ㄊ褂锰卣飨蛄慷请x散類別來(lái)代表一枚指紋。目前基于索引的方法包括:基于紋理、基于細(xì)節(jié)點(diǎn)、基于MCC、基于深度學(xué)習(xí)的方法。盡管這些方法利用到不同層次的指紋特征,但是它們的共同點(diǎn)是獲取實(shí)數(shù)值的指紋特征向量,這也帶來(lái)了如下問(wèn)題:

      (1)在大規(guī)模的指紋庫(kù)中,實(shí)數(shù)值特征向量在存儲(chǔ)與運(yùn)算上都會(huì)耗費(fèi)巨大資源。通過(guò)這種方式完成檢索任務(wù)無(wú)法實(shí)時(shí)響應(yīng),需要漫長(zhǎng)的等待。

      (2)這些方法很容易受指紋質(zhì)量的影響,例如噪聲、失真、手指狀況以及指紋采集設(shè)備等。當(dāng)指紋質(zhì)量較低的時(shí)候得到的特征向量不可靠,會(huì)嚴(yán)重影響檢索系統(tǒng)的準(zhǔn)確率。

      目前基于深度哈希的方法能有效解決這些問(wèn)題。深度哈希的主要思想是借助深度神經(jīng)網(wǎng)絡(luò)模型將數(shù)據(jù)從原始空間映射到漢明空間得到二進(jìn)制表示,同時(shí)保留原始空間的語(yǔ)義相似性。得益于二進(jìn)制編碼按位存儲(chǔ)與異或運(yùn)算的特性,這類方法具有運(yùn)算高效與存儲(chǔ)低耗的巨大優(yōu)勢(shì)。以64 位編碼為例,假設(shè)對(duì)指紋圖像分別生成64 維二進(jìn)制特征向量與64 維實(shí)數(shù)值特征向量,計(jì)算兩張指紋圖像的相似度時(shí),64維二進(jìn)制特征按位存儲(chǔ)僅僅需要16 Byte的臨時(shí)存儲(chǔ)空間,并僅需1次異或運(yùn)算得到漢明距離,而64維實(shí)數(shù)值特征則需要512 Byte的臨時(shí)存儲(chǔ)空間,并進(jìn)行128次加法運(yùn)算與64次乘法運(yùn)算得到歐式距離。因此二進(jìn)制編碼在運(yùn)算速度與存儲(chǔ)效率上都遠(yuǎn)優(yōu)于實(shí)數(shù)值編碼,當(dāng)執(zhí)行大規(guī)模的檢索任務(wù)時(shí),能大幅度減少檢索粗篩階段所需時(shí)間,提高響應(yīng)實(shí)時(shí)性。

      但是指紋圖像是一類特殊的圖像,它具有高度的自相似性,即不同指紋之間差異細(xì)微,只能通過(guò)細(xì)節(jié)特征來(lái)區(qū)分,而現(xiàn)有的深度哈希相關(guān)研究大多基于自然圖像,直接遷移應(yīng)用到指紋檢索領(lǐng)域效果往往不盡人意。為了能有效學(xué)習(xí)這種細(xì)微特征,本文借助了自注意力模型。自注意力模型最初被廣泛應(yīng)用于自然語(yǔ)言處理(NLP)領(lǐng)域,其中以Transformer[6]結(jié)構(gòu)最為出名。Transformer 結(jié)構(gòu)利用了自注意力機(jī)制,取代了傳統(tǒng)的CNN與RNN網(wǎng)絡(luò)結(jié)構(gòu)并取得了SOTA結(jié)果。近幾年來(lái),計(jì)算機(jī)視覺(jué)相關(guān)領(lǐng)域研究逐漸開(kāi)始把目光投向Transformer并將其改善應(yīng)用于CV 領(lǐng)域[7-9],受文獻(xiàn)[9]的啟發(fā),將Transformer 結(jié)構(gòu)嫁接到深度哈希模型中取代傳統(tǒng)卷積模塊,得到一種自注意力深度哈希模型,并命名為FHANet。

      FHANet主要由三個(gè)模塊構(gòu)成,自動(dòng)對(duì)齊模塊、預(yù)處理模塊、自注意力哈希模塊。

      在指紋圖像匹配過(guò)程中,對(duì)齊是至關(guān)重要的一個(gè)環(huán)節(jié)。傳統(tǒng)的指紋匹配系統(tǒng)中大多是基于參考點(diǎn)(例如core 點(diǎn))完成對(duì)齊,這類方法往往速度較慢且對(duì)指紋質(zhì)量有著較高要求,而FHANet中的自動(dòng)對(duì)齊模塊借鑒了文獻(xiàn)[10]中提出的空間變換網(wǎng)絡(luò)結(jié)構(gòu),依靠卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)一個(gè)仿射變換矩陣來(lái)完成同類指紋的對(duì)準(zhǔn)達(dá)到自動(dòng)對(duì)齊的效果,較之傳統(tǒng)方法,其優(yōu)勢(shì)在于能輕易利用GPU 進(jìn)行加速,在實(shí)際工業(yè)生產(chǎn)應(yīng)用中意義重大。此外,本文設(shè)計(jì)了一個(gè)STN-AE的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)輔助訓(xùn)練自動(dòng)對(duì)齊模塊?,F(xiàn)有的一些研究如文獻(xiàn)[11]也利用到空間變換網(wǎng)絡(luò)完成指紋對(duì)齊,但該研究中將對(duì)齊模塊集成到端到端的卷積神經(jīng)網(wǎng)絡(luò)中,依賴下游學(xué)習(xí)任務(wù)更新空間變換網(wǎng)絡(luò),這樣不僅引入了額外的超參數(shù),增加了原有任務(wù)的訓(xùn)練難度,而且沒(méi)有明確空間變換網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo),大大降低了對(duì)齊任務(wù)的可解釋性。STN-AE的結(jié)構(gòu)是由一個(gè)空間變換網(wǎng)絡(luò)(STN)后接一個(gè)淺層卷積自編碼器(AE)組成,由淺層自編碼器作為空間變換網(wǎng)絡(luò)的下游網(wǎng)絡(luò),然后對(duì)同類指紋的隱藏層特征向量余弦距離及自編碼器的重構(gòu)誤差加以約束達(dá)到對(duì)齊效果。通常來(lái)說(shuō),卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)越深,所抽象出來(lái)的特征越高級(jí)。深層卷積神經(jīng)網(wǎng)絡(luò)往往提取出全局的高層特征,而淺層的卷積神經(jīng)網(wǎng)絡(luò)更多地提取局部的低層特征,如圖像紋理、姿態(tài)等相關(guān)特征。所以在本研究中,使用淺層卷積自編碼器使得編碼器所提取的隱向量包含更多姿態(tài)紋理信息,從而在訓(xùn)練過(guò)程中,約束同類指紋隱藏層特征向量余弦距離小間接地限制了同類指紋姿態(tài)相近,即使得空間變換網(wǎng)絡(luò)具備了對(duì)齊指紋的能力。STN-AE網(wǎng)絡(luò)整體參數(shù)少、輕量級(jí)、易于訓(xùn)練,優(yōu)化目標(biāo)與對(duì)齊任務(wù)關(guān)聯(lián)更加緊密,使得空間變換網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)的可解釋性更強(qiáng)。

      指紋預(yù)處理模塊利用了現(xiàn)有的領(lǐng)域知識(shí),將對(duì)齊后的指紋圖像處理得到二值骨架圖作為后續(xù)模塊的輸入,此過(guò)程中消除了背景噪聲與按壓力度等干擾因素的影響,大大降低了后續(xù)自注意力哈希模塊的訓(xùn)練難度,提高了編碼質(zhì)量。

      自注意力哈希模塊則是利用Transformer 結(jié)構(gòu),對(duì)指紋二值骨架圖進(jìn)行特征提取,然后對(duì)特征向量進(jìn)行哈希映射,得到二進(jìn)制編碼。傳統(tǒng)的卷積結(jié)構(gòu)具有平移不變性與局部敏感性,但缺少對(duì)于圖像的宏觀感知,它擅長(zhǎng)提取局部特征而無(wú)法提取全局?jǐn)?shù)據(jù)之間的長(zhǎng)距離特征。通常為了使卷積神經(jīng)網(wǎng)絡(luò)提取跟蹤長(zhǎng)距離相關(guān)特征,模型需要加大卷積核尺寸同時(shí)加深網(wǎng)絡(luò)層數(shù)來(lái)增大感受野。但是這樣往往會(huì)讓模型復(fù)雜度急劇上升,給模型的訓(xùn)練與使用帶來(lái)諸多負(fù)面影響。本文使用Transformer結(jié)構(gòu),將原始圖像進(jìn)行均勻分塊并進(jìn)行展開(kāi)和線性轉(zhuǎn)換得到序列數(shù)據(jù)作為輸入。Transformer 結(jié)構(gòu)中將輸入序列中的每個(gè)特征項(xiàng)都映射到三個(gè)空間:查詢(query)空間、鍵(key)空間、值(value)空間。通過(guò)計(jì)算每一特征項(xiàng)的query向量與其他所有項(xiàng)的key向量之間的內(nèi)積得到一個(gè)權(quán)重向量來(lái)度量特征項(xiàng)之間的關(guān)聯(lián)度,然后將權(quán)重向量與所有value向量相乘并加和得到對(duì)應(yīng)位置的新輸出。在這個(gè)過(guò)程中,每個(gè)輸入特征項(xiàng)的對(duì)應(yīng)輸出中既包含自身信息,也包含其他所有特征項(xiàng)的信息,即包含了全局信息。具體到本文中所用的指紋數(shù)據(jù)來(lái)說(shuō),每個(gè)輸入的指紋圖像子塊通過(guò)Transformer 結(jié)構(gòu)處理,既提取到了自身的局部信息(如細(xì)節(jié)點(diǎn)信息),又包含了一部分全局信息(如方向場(chǎng)信息),這樣得到的信息更加全面,最終提取到的特征也更具區(qū)分力。

      簡(jiǎn)而言之,本文的貢獻(xiàn)可以總結(jié)為如下幾點(diǎn):

      (1)首次將深度哈希模型應(yīng)用到指紋檢索領(lǐng)域,并引入自注意力機(jī)制中的Transformer結(jié)構(gòu)替代傳統(tǒng)的卷積結(jié)構(gòu),設(shè)計(jì)了更契合指紋圖像的深度哈希網(wǎng)絡(luò),從而得到更高效的二進(jìn)制編碼,大大提升了海量指紋庫(kù)中的檢索效率。

      (2)設(shè)計(jì)了STN-AE 網(wǎng)絡(luò),借助淺層自編碼器來(lái)輔助訓(xùn)練得到指紋自動(dòng)對(duì)齊網(wǎng)絡(luò),克服了端到端集成訓(xùn)練中空間變換網(wǎng)絡(luò)難以調(diào)參優(yōu)化的問(wèn)題,同時(shí)也消除了對(duì)齊過(guò)程中對(duì)于參考點(diǎn)的依賴,在工業(yè)生產(chǎn)中更容易進(jìn)行并行加速,更加貼近大規(guī)模指紋檢索場(chǎng)景需求。

      (3)首次提出使用指紋二值骨架圖代替指紋原圖用于神經(jīng)網(wǎng)絡(luò)特征提取,消除了指紋背景噪聲及采集過(guò)程的不確定因素帶來(lái)的干擾,大大降低了自注意力深度哈希網(wǎng)絡(luò)的特征提取難度,加速了訓(xùn)練收斂過(guò)程。

      1 自注意力深度哈希模型

      首先簡(jiǎn)單地對(duì)FHANet 的結(jié)構(gòu)與原理進(jìn)行概述;然后介紹自動(dòng)對(duì)齊模塊的機(jī)理與實(shí)現(xiàn)細(xì)節(jié);接著分析預(yù)處理模塊的作用與可行性;最后詳細(xì)介紹自注意力哈希模塊的結(jié)構(gòu)與優(yōu)化目標(biāo)。

      1.1 模型概述

      圖1 描述了FHANet 的基本框架。在本研究中,使用了一個(gè)100 000 規(guī)模的指紋數(shù)據(jù)庫(kù)來(lái)進(jìn)行模型訓(xùn)練,其中采集自同一枚手指的重復(fù)按壓指紋屬于同一類,整個(gè)指紋庫(kù)采集自20 000 枚手指,每枚手指5 枚重復(fù)按壓。FHANet 的主要任務(wù)是學(xué)習(xí)指紋圖像的二進(jìn)制編碼,確保同類指紋漢明距離足夠小,異類指紋漢明距離足夠大。

      圖1 FHANet流程圖Fig.1 Flow diagram of FHANet

      FHANet主要由三個(gè)模塊組成:自動(dòng)對(duì)齊模塊、預(yù)處理模塊、自注意力深度哈希模塊。模型的輸入為320×320的指紋灰度圖像If。If首先被傳入自動(dòng)對(duì)齊模塊,進(jìn)行姿態(tài)上的調(diào)整。經(jīng)過(guò)此模塊以后,同類指紋被調(diào)整到相近的姿態(tài)達(dá)到對(duì)齊的效果。然后對(duì)齊后的指紋被傳入預(yù)處理模塊得到二值骨架圖。最后二值骨架圖傳入自注意力哈希模塊得到二進(jìn)制編碼用于索引。接下來(lái)將詳細(xì)介紹各個(gè)模塊。

      1.2 自動(dòng)對(duì)齊模塊

      指紋對(duì)齊在幾乎所有現(xiàn)存的指紋識(shí)別系統(tǒng)中都是必不可少的,傳統(tǒng)的方法往往基于參考點(diǎn)(如core點(diǎn))完成對(duì)齊。盡管這類方法在實(shí)際應(yīng)用中表現(xiàn)優(yōu)異,但往往需要耗費(fèi)大量算力,不適用于大規(guī)模檢索場(chǎng)景。受到文獻(xiàn)[11]的啟發(fā),采用自動(dòng)對(duì)齊模塊來(lái)解決這個(gè)問(wèn)題。FHANet中的自動(dòng)對(duì)齊模塊本質(zhì)上是一個(gè)預(yù)先訓(xùn)練好的STN(空間變換網(wǎng)絡(luò))。STN 由兩部分組成:localization network 和gird sampler。圖像輸入到STN 中,由localization network 估計(jì)出一個(gè)仿射變換矩陣Aθ,然后由grid sampler完成逐點(diǎn)位置變換:

      (1)STN 隨下游任務(wù)(如分類任務(wù))進(jìn)行迭代更新,并沒(méi)有自己獨(dú)立的目標(biāo)函數(shù),其優(yōu)化目標(biāo)的可解釋性與優(yōu)化方向的可控性都大大降低。

      (2)STN 集成到端到端的網(wǎng)絡(luò)中,將引入額外超參數(shù),大大增加訓(xùn)練難度。

      因此,在本研究中,提出了一種全新的名為STN-AE的結(jié)構(gòu)來(lái)訓(xùn)練STN。在此結(jié)構(gòu)中,由淺層自編碼器來(lái)輔助STN的訓(xùn)練。STN-AE中,淺層自編碼器由一個(gè)三層的卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成,之所以選取淺層卷積自編碼器是因?yàn)檫@樣的結(jié)構(gòu)能提取到對(duì)指紋像素位置及姿態(tài)更敏感的低層特征,從而得到富含指紋紋理及姿態(tài)信息的隱向量,同時(shí)這種簡(jiǎn)單結(jié)構(gòu)也更加易于訓(xùn)練。STN-AE的結(jié)構(gòu)如圖2所示。

      圖2 STN-AE流程圖Fig.2 Flow diagram of STN-AE

      在該目標(biāo)函數(shù)中,有兩個(gè)約束:

      (1)同類指紋隱向量的余弦距離要足夠小。

      (2)自編碼器的重建誤差要足夠小。

      其中,第一個(gè)約束得到滿足則會(huì)間接約束自編碼器輸入指紋圖像具有相近的姿態(tài),即讓STN具備對(duì)齊指紋的能力。第二個(gè)約束則是確保足夠多的原始圖像信息被編碼到隱向量中,避免自編碼器學(xué)習(xí)到平凡解。只有在這個(gè)前提得到滿足的條件下,第一個(gè)約束才是有效的。

      在訓(xùn)練階段,參考了文獻(xiàn)[11]的做法,將STN 估計(jì)的仿射變換矩陣平移和旋轉(zhuǎn)參數(shù)的上界設(shè)為±100像素和±45°,這些限制是基于用戶手指放置在指紋采集器上時(shí)旋轉(zhuǎn)或平移的最大范圍的實(shí)際領(lǐng)域知識(shí)。除此之外,還在這些約束條件下進(jìn)行了隨機(jī)旋轉(zhuǎn)和平移來(lái)擴(kuò)充訓(xùn)練數(shù)據(jù)。表1 顯示了STN-AE 的具體結(jié)構(gòu)組成,圖3 顯示了對(duì)齊模塊之前和之后的圖像。

      圖3 指紋對(duì)齊前后對(duì)比Fig.3 Comparison of unaligned fingerprint images with aligned ones

      表1 STN-AE架構(gòu)Table 1 STN-AE architecture

      1.3 預(yù)處理模塊

      大部分現(xiàn)有的基于深度學(xué)習(xí)的模型多是使用端到端的網(wǎng)絡(luò)架構(gòu),即純粹利用神經(jīng)網(wǎng)絡(luò)完成特征提取。但是對(duì)指紋圖像來(lái)說(shuō),領(lǐng)域知識(shí)在許多應(yīng)用場(chǎng)景中都是至關(guān)重要的。

      在本文中,提出依據(jù)現(xiàn)有領(lǐng)域知識(shí)來(lái)對(duì)指紋進(jìn)行預(yù)處理后再送入網(wǎng)絡(luò)中進(jìn)行特征提取。整個(gè)預(yù)處理過(guò)程包括二值化與細(xì)化。圖4 中展示了幾個(gè)預(yù)處理效果的示例。通過(guò)完成這種轉(zhuǎn)換,許多干擾因素,如背景噪聲、指紋采集設(shè)備差異等都將被消除。盡管這樣會(huì)導(dǎo)致部分的信息丟失,但大多傳統(tǒng)的指紋識(shí)別算法[1]都是在二值骨架圖的基礎(chǔ)上進(jìn)行細(xì)節(jié)點(diǎn)提取完成匹配,因此二值骨架圖中保留的信息完全足夠區(qū)分不同指紋。在本文的實(shí)驗(yàn)中,預(yù)處理模塊降低了自注意力哈希模塊的學(xué)習(xí)難度,實(shí)際訓(xùn)練過(guò)程中缺乏預(yù)處理模塊甚至導(dǎo)致自注意力哈希模型無(wú)法收斂。

      圖4 指紋原圖與骨架圖對(duì)比Fig.4 Comparison of row fingerprint images with binary skeleton images

      1.4 自注意力哈希模塊

      1.4.1 模型原理及優(yōu)化目標(biāo)

      自注意力哈希模塊是FHANet 的核心模塊。具體結(jié)構(gòu)組成如表2 所列出。假設(shè)I表示圖像的原始特征空間,K表示二進(jìn)制編碼的長(zhǎng)度,自注意力哈希模塊本質(zhì)是學(xué)習(xí)一個(gè)映射:F:I→{0,1}K,同時(shí)又要保留原始空間的相似性,即原始空間距離小的圖像,映射到漢明空間后,漢明距離也要小,反之亦然。整個(gè)模塊由特征提取與哈希映射兩個(gè)子模塊構(gòu)成。其中特征提取模塊的結(jié)構(gòu)如圖5所示。

      表2 自注意力哈希模塊架構(gòu)Table 2 Self-attention hash module architecture

      圖5 特征提取子模塊流程圖Fig.5 Flow diagram of feature extraction submodule

      標(biāo)準(zhǔn)Transformer的輸入為1維序列數(shù)據(jù),為了將輸入圖像轉(zhuǎn)換為對(duì)應(yīng)格式,自注意力哈希模塊首先將輸入的指紋骨架圖S∈RH×W×1分割為固定大小的圖像塊并展開(kāi)得到一維向量序列Sp∈,其中H與W為輸入圖像分辨率(本文H與W均為320),P為圖像塊分辨率(本文P為80),N為圖像塊個(gè)數(shù)(本文N為16)。然后將Sp進(jìn)行線性映射并在頭部連接一個(gè)可學(xué)習(xí)的“class”嵌入向量Xclass∈RD得到塊嵌入向量序列Ex∈然后加上對(duì)應(yīng)的位置嵌入向量Epos∈得到M層Transformer編碼器的最底層輸入Z0:

      在多層Transformer編碼器中,其第i層中的多頭自注意力模塊輸出為:

      第i層中多層感知機(jī)輸出為:

      其中,MSA表示多頭自注意力(multi-head self-attention)模塊,MLP 表示多層感知機(jī)(multi-layer perceptron)模塊,LN表示Layernorm。

      Xclass向量在Transformer編碼器最后一層對(duì)應(yīng)輸出為,用于生成特征向量y:

      哈希映射模塊本質(zhì)結(jié)構(gòu)為一個(gè)兩層的線性映射外接一個(gè)符號(hào)函數(shù)。特征向量y通過(guò)哈希模塊得到二進(jìn)制編碼b∈{-1,1}K:

      其中,H(? )表示哈希映射模塊中的多層線性映射,sgn(?)代表符號(hào)函數(shù)。為了方便數(shù)學(xué)運(yùn)算,在訓(xùn)練階段使用-1 代替編碼中的0。

      從上式中可知,二進(jìn)制編碼的漢明距離與內(nèi)積成反比,因此可以用內(nèi)積來(lái)量化二進(jìn)制編碼相似度。在本文中,參考了文獻(xiàn)[12],成對(duì)相似性標(biāo)簽Sij的似然概率有如下定義:

      其中zi∈RK作為bi的連續(xù)松弛,1 ∈{ 1}K為全1 向量,Θij=之所以進(jìn)行連續(xù)松弛是因?yàn)橹苯觾?yōu)化離散的二進(jìn)制編碼是一個(gè)NP-hard 問(wèn)題[13],因此在訓(xùn)練階段對(duì)編碼進(jìn)行連續(xù)松弛,在測(cè)試階段使用符號(hào)函數(shù)得到二進(jìn)制離散編碼。在該優(yōu)化目標(biāo)中,L1項(xiàng)本質(zhì)上是一個(gè)最大后驗(yàn)估計(jì)(MAP),具體推導(dǎo)過(guò)程可參考文獻(xiàn)[14]。其主要目的是在得到編碼B的條件下,最大化相似度信息S的概率從而使得編碼成對(duì)相似性被最大化保留。這樣得到的編碼充分學(xué)習(xí)到類別監(jiān)督信息,具有高度區(qū)分性。L2項(xiàng)表示量化誤差,該項(xiàng)是為了約束二進(jìn)制編碼b與其連續(xù)松弛z之間距離盡可能小,使訓(xùn)練過(guò)程模型輸出盡可能貼近真實(shí)二進(jìn)制編碼,增強(qiáng)模型泛化能力。

      1.4.2 超參數(shù)設(shè)置

      量化罰項(xiàng)超參數(shù)λ作為損失函數(shù)中最大后驗(yàn)估計(jì)誤差與二值碼量化誤差之間的平衡因子,其選擇至關(guān)重要。λ取值過(guò)小,則L1項(xiàng)處于主導(dǎo)地位,導(dǎo)致量化誤差過(guò)大,實(shí)數(shù)編碼二值化后泛化能力差;λ取值過(guò)大,則L2項(xiàng)處于主導(dǎo)地位,導(dǎo)致編碼不能充分學(xué)習(xí)到類別相似度信息,編碼缺乏區(qū)分力。本文中通過(guò)交叉驗(yàn)證加網(wǎng)格搜索的方式來(lái)進(jìn)行量化罰項(xiàng)超參數(shù)的選擇,整個(gè)搜索過(guò)程由粗粒度搜索與細(xì)粒度搜索兩個(gè)階段組成。首先在10-5到102之間進(jìn)行粗粒度網(wǎng)格搜索,從10-5開(kāi)始,逐次乘10,每次在訓(xùn)練數(shù)據(jù)上進(jìn)行10-folds 交叉驗(yàn)證,在此輪搜索過(guò)程中得到一個(gè)λ的最優(yōu)取值,本文得到結(jié)果為0.01。然后在首輪最優(yōu)取值附近取一個(gè)區(qū)間,進(jìn)行細(xì)粒度網(wǎng)格搜索,本文中取區(qū)間[]0.005,0.015,每次遞增0.001 并進(jìn)行10-folds 交叉驗(yàn)證,最終得到最優(yōu)取值為0.01。因此經(jīng)過(guò)兩輪網(wǎng)格搜索與交叉驗(yàn)證,最終確定了量化罰項(xiàng)超參數(shù)λ取值為0.01。

      1.4.3 復(fù)雜度分析

      在自注意力深度哈希模塊中,主要計(jì)算復(fù)雜度集中在Transformer中的多頭自注意力子模塊上。假設(shè)對(duì)指紋圖像分塊數(shù)為N,Transformer 編碼器輸出特征維度為d,Transformer 編碼器的層數(shù)為L(zhǎng)。每層中計(jì)算query空間與key空間的相似度得到權(quán)重矩陣,本質(zhì)上即N×d的矩陣與d×N的矩陣相乘,得到N×N的矩陣W1,時(shí)間復(fù)雜度為O(N2d)。然后對(duì)W1每行做softmax,復(fù)雜度為O(N2),得到歸一化權(quán)重矩陣W2。最后依據(jù)得到的權(quán)重矩陣W2在value空間計(jì)算加權(quán)和,本質(zhì)上為N×N的矩陣與N×d的矩陣相乘,時(shí)間復(fù)雜度為O(N2d)。故綜上所述每層Transformer的時(shí)間復(fù)雜度為O(N2d),對(duì)于L層Transformer,其時(shí)間復(fù)雜度為O(LN2d)。故自注意力深度哈希模塊的計(jì)算復(fù)雜度為O(LN2d)。

      2 實(shí)驗(yàn)

      將通過(guò)實(shí)驗(yàn)來(lái)評(píng)估本文的模型性能,并與其他現(xiàn)有方法進(jìn)行比較。下面詳細(xì)介紹實(shí)驗(yàn)過(guò)程和結(jié)果。

      2.1 數(shù)據(jù)集

      在FVC2000[15]、FVC2002[16]、FVC2004[17]、NIST DB4[18]、NIST DB14[19]等公開(kāi)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。數(shù)據(jù)集的詳細(xì)信息如表3所示,其中包括尺寸、重復(fù)采集數(shù)、個(gè)體數(shù)等。此外,訓(xùn)練過(guò)程中使用一個(gè)10萬(wàn)規(guī)模的320×320的指紋數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練,該數(shù)據(jù)集采集自20 000枚不同手指。

      表3 公開(kāi)數(shù)據(jù)集詳細(xì)信息Table 3 Detailed information of pubic datasets

      2.2 評(píng)估尺度

      在本文實(shí)驗(yàn)中,使用了穿透率(penetration rate,PR)與錯(cuò)誤率(error rate,ER)兩種指標(biāo)來(lái)評(píng)估指紋索引算法的表現(xiàn)。假設(shè)N、X、T、ni分別代表識(shí)別過(guò)程中進(jìn)行的查詢次數(shù)、指紋庫(kù)中圖像的總數(shù)、正確識(shí)別的查詢樣本的數(shù)量,以及第i次查詢。則以上兩種指標(biāo)有如下定義:

      穿透率與錯(cuò)誤率分別代表著指紋索引的效率與準(zhǔn)確率。通常來(lái)說(shuō),一個(gè)優(yōu)秀的指紋檢索系統(tǒng)需要同時(shí)保證較低的穿透率與錯(cuò)誤率,但通常這兩個(gè)指標(biāo)是此消彼長(zhǎng)的關(guān)系。因此在本文中,采用“穿透率-錯(cuò)誤率”(PR-ER)曲線來(lái)評(píng)估本文的模型。此外,為了比較FHANet與實(shí)際商用軟件的速度差異,平均檢索時(shí)間也被用來(lái)評(píng)估模型的效率。

      2.3 指紋索引實(shí)驗(yàn)

      在本節(jié),評(píng)估了FHANet 在公開(kāi)數(shù)據(jù)集上進(jìn)行索引任務(wù)的表現(xiàn),并與現(xiàn)有的基于二進(jìn)制編碼的索引方法進(jìn)行了對(duì)比,包括MCC-LSH[20]、PMCC-MIH[21]、CBMCCMIH[22]。實(shí)驗(yàn)中分別實(shí)現(xiàn)了32 bit、64 bit 以及128 bit 版本的FHANet并與384 bit的MCC-LSH、64 bit CBMCCMIH、128 bit CBMCC-MIH 進(jìn)行了對(duì)比。公共數(shù)據(jù)集上的圖像將進(jìn)行一些合適的裁剪與放縮來(lái)滿足FHANet的輸入尺寸要求。詳細(xì)的實(shí)驗(yàn)結(jié)果如下文所示。

      圖6~9展示了在FVC2000、FVC2002、FVC2004、NIST DB4和NIST DB14上的PR-ER曲線。在FVC系列的數(shù)據(jù)集上,選擇第一張指紋作為查詢指紋,剩下七張指紋作為目標(biāo)指紋。類似地,在NIST系列的數(shù)據(jù)集上,選取第一張指紋作為查詢指紋,剩余的一張作為目標(biāo)指紋。通過(guò)觀察這些PR-ER 曲線可以發(fā)現(xiàn),F(xiàn)HANet(128)的PR-ER曲線在所有對(duì)比實(shí)驗(yàn)中都處于最低位置,即效率與準(zhǔn)確率都超過(guò)其他模型,相反FHANet(32)在所有 實(shí)驗(yàn)中都基本得到最差的表現(xiàn)。當(dāng)編碼長(zhǎng)度從32位增加到64 位的時(shí)候,F(xiàn)HANet 的表現(xiàn)得到大幅度提升,當(dāng)編碼長(zhǎng)度64 位增加到128 位的時(shí)候,F(xiàn)HANet 的性能依然提升,但提升幅度大大降低。根據(jù)這些結(jié)果可以得出結(jié)論:在選取合適的編碼長(zhǎng)度的前提下,F(xiàn)HANet有能力遠(yuǎn)超過(guò)現(xiàn)有的基于二進(jìn)制編碼的索引方法,這證明了自注意力深度哈希模型的有效性與可行性。另一方面,編碼越長(zhǎng)通常包含的信息也越多,但實(shí)驗(yàn)結(jié)果顯示編碼長(zhǎng)度與索引表現(xiàn)并非線性相關(guān)的。推測(cè)當(dāng)編碼長(zhǎng)度達(dá)到某個(gè)閾值,即編碼能包含足夠的指紋關(guān)鍵信息時(shí),繼續(xù)增加編碼長(zhǎng)度會(huì)導(dǎo)致編碼中會(huì)包含大量冗余信息,對(duì)模型的性能提升十分微弱。這也指導(dǎo)在實(shí)際應(yīng)用哈希模型中并非盲目選擇長(zhǎng)編碼提高性能,選擇合適編碼長(zhǎng)度才能發(fā)揮模型最優(yōu)性能。

      圖6 FVC2000上各算法索引表現(xiàn)對(duì)比Fig.6 Indexing performance of different algorithms on FVC2000

      圖7 FVC2002上各算法索引表現(xiàn)對(duì)比Fig.7 Indexing performance of different algorithms on FVC2002

      為了說(shuō)明Transformer 結(jié)構(gòu)相對(duì)于傳統(tǒng)卷積結(jié)構(gòu)的優(yōu)勢(shì),本文中設(shè)計(jì)了對(duì)比實(shí)驗(yàn),分別使用本文中的6 層Transformer 編碼器網(wǎng)絡(luò)與Inception-v4[23]網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練并對(duì)比索引性能。其中Inception-v4 網(wǎng)絡(luò)曾在ImageNet 競(jìng)賽上取得了3.08%的top5錯(cuò)誤率,其基礎(chǔ)網(wǎng)絡(luò)組件Inception模塊基于多尺度卷積結(jié)構(gòu)。因此用這種結(jié)構(gòu)與本文Transformer編碼器結(jié)構(gòu)進(jìn)行對(duì)比更能說(shuō)明在指紋數(shù)據(jù)上Transformer結(jié)構(gòu)相對(duì)于傳統(tǒng)卷積結(jié)構(gòu)的優(yōu)勢(shì)。本文在兩個(gè)最大的公開(kāi)指紋數(shù)據(jù)集NIST DB4 與NIST DB14 對(duì)兩種模型分別進(jìn)行了64 bit 與128 bit 編碼進(jìn)行了索引實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖10 所示。由結(jié)果可知,在同樣編碼長(zhǎng)度的情況下,F(xiàn)HANet的PR-ER曲線總遠(yuǎn)低于Inception-v4,這說(shuō)明了針對(duì)指紋數(shù)據(jù),F(xiàn)HANet中的Transformer結(jié)構(gòu)比傳統(tǒng)卷積結(jié)構(gòu)更勝一籌。

      此外,為了展示FHANet 在時(shí)間與存儲(chǔ)效率上的優(yōu)勢(shì),在NIST DB14上進(jìn)行了檢索時(shí)間測(cè)試。NIST DB14是規(guī)模最大的公開(kāi)指紋庫(kù)。在這個(gè)實(shí)驗(yàn)中,實(shí)現(xiàn)了FHANet的128 bit版本并選取了東方金指公司提供的商用指紋軟件作為對(duì)比,這套商用系統(tǒng)已經(jīng)被廣泛應(yīng)用在公安部指紋系統(tǒng)中,因此其性能是成熟可靠且具備行業(yè)競(jìng)爭(zhēng)力的?;贔HANet的檢索實(shí)驗(yàn)中,在粗篩階段使用了FHANet生成的二進(jìn)制編碼,然后在精匹配階段使用了金指公司的指紋軟件,對(duì)比實(shí)驗(yàn)中完全使用金指公司指紋軟件,這樣以有無(wú)FHANet參與作為唯一變量來(lái)探究FHANet對(duì)檢索效率的影響。為了保證公平性,所有實(shí)驗(yàn)都在同一臺(tái)配備了Intel Core i7-9700K CPU@ 3.60 GHz 的機(jī)器上進(jìn)行且不加額外的優(yōu)化策略(例如多線程、并行計(jì)算)。在測(cè)試中首先選取第一枚指紋作為查詢,第二枚指紋作為目標(biāo),然后反過(guò)來(lái)重復(fù)此過(guò)程,計(jì)算平均檢索時(shí)間與平均臨時(shí)存儲(chǔ)消耗。表4展示了實(shí)驗(yàn)結(jié)果,可以看出FHANet模型生成的二進(jìn)制編碼能大幅提升檢索速度,其平均檢索時(shí)間遠(yuǎn)低于東方金指公司所提供的商業(yè)軟件,并消耗更少的存儲(chǔ)空間,在大規(guī)模指紋檢索應(yīng)用中前景遼闊。

      圖8 FVC2004上各算法索引表現(xiàn)對(duì)比Fig.8 Indexing performance of different algorithms on FVC2004

      圖9 NIST上各算法索引表現(xiàn)對(duì)比Fig.9 Indexing performance of different algorithms on NIST

      表4 FHANet與商用軟件檢索對(duì)比結(jié)果Table 4 Retrieval comparison results of FHANet and commercial software

      圖10 NIST上FHANet與Inception-v4索引表現(xiàn)對(duì)比Fig.10 Indexing performance of FHANet and Inception-v4 on NIST

      3 結(jié)論

      在本文中,提出了一種全新的指紋索引方法FHANet,它能夠生成具備高度區(qū)分力的二進(jìn)制指紋編碼來(lái)進(jìn)行索引。整個(gè)模型包括三個(gè)部分:自動(dòng)對(duì)齊模塊、預(yù)處理模塊和自注意力哈希模塊。首先,介紹了對(duì)齊模塊的機(jī)理,并介紹了如何利用所提出的STN-AE網(wǎng)絡(luò)對(duì)其進(jìn)行訓(xùn)練。然后,分析了預(yù)處理模塊的優(yōu)點(diǎn)及其可行性。最后,介紹了自注意力哈希的結(jié)構(gòu)以及其學(xué)習(xí)二進(jìn)制編碼的機(jī)理,并與之前的幾種基于二進(jìn)制編碼的方法進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)中以穿透率、錯(cuò)誤率和平均搜索時(shí)間等指標(biāo)來(lái)評(píng)價(jià)本文的方法,大量的實(shí)驗(yàn)表明本文所提出的方法在指紋索引方面具有良好的性能,在大規(guī)模指紋檢索場(chǎng)景具備廣闊的應(yīng)用前景。

      猜你喜歡
      二進(jìn)制哈希編碼器
      用二進(jìn)制解一道高中數(shù)學(xué)聯(lián)賽數(shù)論題
      有趣的進(jìn)度
      二進(jìn)制在競(jìng)賽題中的應(yīng)用
      基于FPGA的同步機(jī)軸角編碼器
      基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
      基于OpenCV與均值哈希算法的人臉相似識(shí)別系統(tǒng)
      JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
      電子器件(2015年5期)2015-12-29 08:42:24
      基于維度分解的哈希多維快速流分類算法
      多總線式光電編碼器的設(shè)計(jì)與應(yīng)用
      基于同態(tài)哈希函數(shù)的云數(shù)據(jù)完整性驗(yàn)證算法
      淮滨县| 阜城县| 孟州市| 库尔勒市| 汉中市| 新民市| 松江区| 潮安县| 翼城县| 河间市| 宁化县| 黎川县| 海门市| 瓦房店市| 门源| 通山县| 栾城县| 商南县| 宜黄县| 东兴市| 奈曼旗| 乐昌市| 永安市| 仙游县| 定西市| 西昌市| 宁安市| 内乡县| 甘德县| 新宁县| 兴义市| 五河县| 林周县| 宾川县| 枣强县| 双江| 临武县| 安乡县| 伊春市| 博乐市| 霍林郭勒市|