大數(shù)據(jù)環(huán)境下利用新型FTS的并行細(xì)節(jié)點(diǎn)指紋匹配通用分解方法

2019-05-23 11:35:06李慶年胡玉平

重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)) 2019年4期

李慶年，胡玉平

(1.南寧學(xué)院信息工程學(xué)院，南寧 530200; 2.廣東財(cái)經(jīng)大學(xué) 信息學(xué)院，廣州 510320)

指紋識(shí)別是近二十年來的研究熱點(diǎn)[1]，隨著硬件技術(shù)的快速發(fā)展，使用識(shí)別技術(shù)的機(jī)構(gòu)和公司與日俱增。指紋呈現(xiàn)出多種特征，根據(jù)這些特征可以更好地實(shí)現(xiàn)精準(zhǔn)識(shí)別。在這些特征中，細(xì)節(jié)點(diǎn)是應(yīng)用最廣泛的特征之一。識(shí)別算法通常從指紋細(xì)節(jié)點(diǎn)中提取一組結(jié)構(gòu)進(jìn)行計(jì)算[2]，在模板指紋數(shù)據(jù)庫(kù)中尋找給定的輸入指紋。驗(yàn)證旨在評(píng)估2幅圖像是否對(duì)應(yīng)同一指紋。與許多其他圖像匹配出現(xiàn)的問題一樣，由于空間中存在圖像變形、信息缺失等因素，因而驗(yàn)證具有很高的復(fù)雜性[3]。此外，由于涉及特征之間的多種比較，識(shí)別技術(shù)實(shí)質(zhì)上比驗(yàn)證更加復(fù)雜。為了克服識(shí)別中存在的困難，學(xué)者們提出了分類和索引等技術(shù)[4-5]。

當(dāng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)量較大時(shí)，指紋識(shí)別問題的復(fù)雜性變得更高，尤其是識(shí)別時(shí)間，其與匹配數(shù)呈線性增長(zhǎng)關(guān)系[6]。龐大的指紋數(shù)據(jù)庫(kù)對(duì)指紋識(shí)別構(gòu)成了挑戰(zhàn)。在過去幾年，科研人員提出了幾種使用大規(guī)模高性能計(jì)算體系結(jié)構(gòu)來處理大數(shù)據(jù)問題的框架，這些框架中最流行的是Apache Hadoop[7]和Apache Spark[8]。Apache Hadoop是MapReduce范例的一種開放源碼，它將數(shù)據(jù)構(gòu)造成一組key和value的組合對(duì)，將這些組合對(duì)分為2個(gè)階段進(jìn)行處理：Map階段和reduce階段。在Map階段，每個(gè)映射操作接收一個(gè)單線對(duì)，并輸出一組它所產(chǎn)生的線對(duì)。將所有映射階段的中間線對(duì)進(jìn)行洗牌和排序，以便每個(gè)reduce操作都接收相同key。reduce操作的結(jié)果也可表示為一組關(guān)鍵value對(duì)，這些關(guān)鍵value對(duì)存儲(chǔ)在HDFS中。Apache Spark同樣將HDFS用作底層文件系統(tǒng)，但會(huì)將數(shù)據(jù)分組為彈性分布式數(shù)據(jù)集(RDD)。Spark將這些RDD盡可能多地保存在內(nèi)存中，以減少I/O磁盤容量。Spark提供了一組轉(zhuǎn)換(將一種RDD轉(zhuǎn)換為另一種RDD)和操作(將RDD轉(zhuǎn)換為某種結(jié)果)，這些轉(zhuǎn)換和操作可以隨意組合，以創(chuàng)建不同的工作流程。負(fù)載平衡戰(zhàn)略[9]、虹膜識(shí)別的并行化[10]等方案都是利用這些框架來解決生物特征識(shí)別的問題。

基于上述分析，本文在大數(shù)據(jù)框架中處理并行指紋識(shí)別問題時(shí)，提出了一種基于新型指紋拓?fù)浣Y(jié)構(gòu)(fingerprint topology structure,FTS)的指紋匹配分解方法。主要?jiǎng)?chuàng)新點(diǎn)如下：

1) 提出了一種基于細(xì)節(jié)點(diǎn)的置信度指紋匹配算法，有助于全局范圍的指紋信息提取，從而確保局部相似細(xì)節(jié)點(diǎn)的有效匹配。

2) 提出的分解方法在指紋匹配過程中考慮了更好的并行性，允許丟棄局部結(jié)構(gòu)中檢測(cè)到的非匹配的子集，從而可有效使用和輸入局部結(jié)構(gòu)的模板信息，增加了識(shí)別輸入指紋的靈活性。

3) 將提出的分解方法在Apache Hadoop和Apache Spark框架上實(shí)現(xiàn)，通過與現(xiàn)有的MPI系統(tǒng)上的實(shí)驗(yàn)結(jié)果進(jìn)行比較，驗(yàn)證了該方法的可靠性。將分解方法應(yīng)用于2種不同的匹配算法(Jiang算法[11]和細(xì)節(jié)點(diǎn)圓柱代碼(MCC算法)[12])中，通過實(shí)驗(yàn)驗(yàn)證了所提出分解方法的通用性。

1 基于細(xì)節(jié)點(diǎn)特征的指紋匹配

1) 全局匹配方法。尋找2個(gè)細(xì)節(jié)點(diǎn)集的最佳對(duì)準(zhǔn)，使用指紋的全部信息實(shí)現(xiàn)匹配，該方法雖然提供了較高的清晰度，但是對(duì)指紋采集的失真較為敏感。

2) 局部匹配方法。從細(xì)節(jié)點(diǎn)集中提取局部結(jié)構(gòu)，并對(duì)這些局部結(jié)構(gòu)進(jìn)行比較，以確定它們的相似性。該方法通常不受平移和旋轉(zhuǎn)的影響，因此對(duì)失真不太敏感。

(1)

識(shí)別問題即在包含n個(gè)指紋T={T1,…,Tn}的模板數(shù)據(jù)庫(kù)中查找輸入指紋Ij。大多數(shù)識(shí)別系統(tǒng)通過將Ij與每個(gè)模板指紋Ti進(jìn)行比較來完成n個(gè)驗(yàn)證，并返回產(chǎn)生最大分?jǐn)?shù)的標(biāo)識(shí)：

(2)

這種識(shí)別系統(tǒng)的識(shí)別時(shí)間關(guān)于n呈線性增加。因此，當(dāng)n很大時(shí)，識(shí)別時(shí)間往往過長(zhǎng)。

2 提出的指紋匹配通用分解方法

本文提出了一種適用于基于細(xì)節(jié)點(diǎn)的指紋匹配算法的通用分解方法。它將匹配過程分解為較小的步驟，這些步驟以并行和靈活的方式計(jì)算，從而及早發(fā)現(xiàn)不匹配指紋并加快處理速度。

2.1 新型指紋拓?fù)浣Y(jié)構(gòu)

在傳統(tǒng)的指紋拓?fù)浣Y(jié)構(gòu)中，通常只提取某一種特征。文獻(xiàn)[15]利用提取出的紋線特征，通過對(duì)比紋線達(dá)到指紋匹配的目的。文獻(xiàn)[16]利用中心點(diǎn)附近的方向場(chǎng)實(shí)現(xiàn)指紋匹配，該算法提取的是鄰域特征。本文中把細(xì)節(jié)點(diǎn)特征、脊線特征以及鄰域特征三者結(jié)合起來，實(shí)現(xiàn)了一種新型指紋拓?fù)浣Y(jié)構(gòu)。

在指紋的特征識(shí)別中，叉點(diǎn)包含的信息量更大，且不易受到外部條件的干擾?；诖?，本文將脊線跟蹤應(yīng)用到叉點(diǎn)的3個(gè)分支中，如圖1所示。o點(diǎn)表示叉點(diǎn)，a、b、c點(diǎn)表示脊線點(diǎn)，順著3個(gè)分支可到達(dá)a、b、c三點(diǎn)。令叉點(diǎn)和3個(gè)脊線點(diǎn)的方向角差分別為α、β、γ，叉點(diǎn)和3個(gè)脊線點(diǎn)間的長(zhǎng)度分別為oa、ob、oc，并將它們存入到特征向量中。用(x,y)表示叉點(diǎn)的坐標(biāo)，在特征點(diǎn)的類型中，用E表示端點(diǎn)，用F表示叉點(diǎn)，則叉點(diǎn)的特征向量可以表示為{(x,y),F,(α,oa),(β,ob),(γ,oc)}。

圖1 叉點(diǎn)拓?fù)浣Y(jié)構(gòu)

由于端點(diǎn)僅存在于一條脊線上，它所包含的脊線特征以及鄰域特征較少，所以使用k近鄰算法來提取端點(diǎn)附近的有用特征。在圖2中，根據(jù)k近鄰算法尋找離叉點(diǎn)o距離短、并且處在環(huán)形區(qū)域中的3個(gè)脊線點(diǎn)，這3個(gè)脊線點(diǎn)就可以作為鄰域特征點(diǎn)。接著，利用脊線追蹤的方式尋找到最終的脊線點(diǎn)a、b、c。整個(gè)過程中，組成環(huán)形區(qū)域的2個(gè)圓的半徑分別為R1和R2，端點(diǎn)和3個(gè)脊線點(diǎn)的方向角差分別為α、β、γ，端點(diǎn)和3個(gè)脊線點(diǎn)間的長(zhǎng)度分別為oa、ob、oc，并將它們存入到特征向量中。用(x,y)表示端點(diǎn)的坐標(biāo)。在特征點(diǎn)的類型中，用E表示端點(diǎn)，用F表示叉點(diǎn)，則端點(diǎn)的特征向量可以表示為{(x,y),E,(α,oa),(β,ob),(γ,oc)}。

圖2 端點(diǎn)拓?fù)浣Y(jié)構(gòu)

2.2 提出的基于置信度的匹配算法

假設(shè)p和p′分別是2個(gè)細(xì)節(jié)點(diǎn)的不同集合，且它們各包含Np和Np′個(gè)細(xì)節(jié)點(diǎn)，則可以得到Np和Np′個(gè)細(xì)節(jié)點(diǎn)的拓?fù)浣Y(jié)構(gòu)以及1個(gè)相似度矩陣SLS，該矩陣的元素個(gè)數(shù)為Np×Np′。令M={ii′}為p和p′之間的最優(yōu)匹配，則該最優(yōu)匹配可表示為一個(gè)尋找最優(yōu)的問題：

(3)

用以下二值優(yōu)化問題的解代替該問題的解：

m0=arg max(msT),m∈{ 0,1}NpNp′

s.t. |1pm*|≤|1p| and |m*1p′|≤|1p′|

(4)

式中：M表示匹配關(guān)系；m表示M相對(duì)應(yīng)的1×NpNp′的行向量；s表示SLS相對(duì)應(yīng)的1×NpNp′的行向量；m0表示最優(yōu)解，它是一個(gè)二值向量。m可以表示成一個(gè)矩陣形式m*，m*的大小為Np×Np′，m*(i,i,)=1即表示細(xì)節(jié)點(diǎn)i和i′相互匹配，而m*(i,i,)=0則表示這2個(gè)細(xì)節(jié)點(diǎn)不匹配；向量1p表示一個(gè)值全為1的、大小為1×Np的行向量，向量1p′則表示一個(gè)值全為1的，大小為1×Np的列向量。在約束條件中，p和p′集合中的細(xì)節(jié)點(diǎn)互相匹配，|1p|表示1p的l1范數(shù)。

在傳統(tǒng)的指紋識(shí)別方法中，細(xì)節(jié)點(diǎn)的局部相似度能在局部區(qū)域內(nèi)衡量相似程度，而在全局范圍上，局部相似的細(xì)節(jié)點(diǎn)很有可能不能相互匹配。因此，本文提出了置信度的概念，它描述了一組細(xì)節(jié)點(diǎn)對(duì)在該全局范圍內(nèi)與候選點(diǎn)之間的匹配可能性。對(duì)于p和p′兩個(gè)細(xì)節(jié)點(diǎn)的集合來說，置信度矩陣CGC包含Np×Np′個(gè)元素，關(guān)聯(lián)矩陣用TM來表示，其中TM(i,i′)=CGC(i,i′)×SSL(i,i′)，則匹配問題可以轉(zhuǎn)化為

(5)

可以使用下列二值優(yōu)化問題的解代替該問題的解：

(6)

其中：t表示與矩陣TM相對(duì)應(yīng)的行向量，其大小為1×NpNp′；M表示匹配關(guān)系；m表示M相對(duì)應(yīng)的1×NpNp′的行向量；m0表示最優(yōu)解，它是一個(gè)二值向量。指示向量m可以表示成一個(gè)矩陣形式m*，m*的大小為Np×Np′。m*(i,i,)=1表示細(xì)節(jié)點(diǎn)i和i′相互匹配，而m*(i,i,)=0則表示這2個(gè)細(xì)節(jié)點(diǎn)不匹配。向量1p表示一個(gè)值全為1的、大小為1×Np的行向量，向量1p′表示一個(gè)值全為1的、大小為1×Np的列向量。在約束條件中，p和p′集合中的細(xì)節(jié)點(diǎn)互相匹配，|1p|表示1p的l1范數(shù)。

2.3 匹分解法

(7)

基于部分分?jǐn)?shù)的概念，定義了2個(gè)聚合這些分?jǐn)?shù)的函數(shù)，用來以并行且靈活的方式計(jì)算最終匹配分?jǐn)?shù)qij。

1) 函數(shù)Qp將1組kp部分分?jǐn)?shù)與單個(gè)新的部分分?jǐn)?shù)聚合，如方程式(8)所示。需要注意的是，kp為正在聚合的部分分?jǐn)?shù)的數(shù)量，它與2個(gè)指紋中任何一個(gè)局部結(jié)構(gòu)的數(shù)量均無關(guān)。因此，函數(shù)Qp的輸出是由2個(gè)指紋中得到的局部結(jié)構(gòu)的kp子集中計(jì)算出來的部分分?jǐn)?shù)。

(8)

2) 在單局部分?jǐn)?shù)上應(yīng)用方程式(9)中定義的函數(shù)Qf，單局部分?jǐn)?shù)包含所有Ti和Ij局部結(jié)構(gòu)之間的相似性聚合信息，并計(jì)算出最終匹配分?jǐn)?shù)qij。

(9)

當(dāng)保持函數(shù)Qf固定時(shí)，這2個(gè)函數(shù)允許以非常靈活的方式聚合部分分?jǐn)?shù)，從而使匹配算法具有細(xì)粒度并行化以形成最終匹配分?jǐn)?shù)。

3 匹配方法的并行化

3.1 將匹配方法嵌入到MapReduce

上文定義的分解法可以表示為MapReduce范式中的問題。假設(shè)模板數(shù)據(jù)庫(kù)由所有nT模板指紋的局部結(jié)構(gòu)組成。本文提取將要識(shí)別的nI輸入指紋的局部結(jié)構(gòu)(通常nI?nT)，假設(shè)在MapReduce匹配過程啟動(dòng)之前，先將這些本地結(jié)構(gòu)存儲(chǔ)在分布式文件系統(tǒng)中。

映射 (k1,v1)→ 列表 ({k2,v2},?j∈{1,…,ni})

(10)

映射為每個(gè)輸入生成nI個(gè)輸出記錄，因此將2個(gè)指紋的標(biāo)識(shí)符作為key，將所產(chǎn)生的部分分?jǐn)?shù)發(fā)送到reduce函數(shù)。每個(gè)reduce函數(shù)合并給定的模板對(duì)以及輸入指紋以生成最終匹配分?jǐn)?shù)，如方程(11)所示。將這些分?jǐn)?shù)寫入分布式文件系統(tǒng)。

(11)

此外，在中間組合階段聚合部分分?jǐn)?shù)集，從而最小化mapper和reducer之間的網(wǎng)絡(luò)和磁盤流量。在MapReduce中，組合器可以在記錄上應(yīng)用多次或一次不用，這意味著它必須是可結(jié)合的、可交換的?；诩系亩x，提出的分解自然地符合這些要求：

(12)

圖3(a)給出了本文方法在MapReduce中的流程。圖3(b) 給出了每個(gè)映射的工作流程，其中局部匹配在映射中執(zhí)行。

圖3 MapReduce框架中執(zhí)行過程的流程

3.2 將匹配方法嵌入到Spark

提出的分解方法不僅適用于MapReduce，還可用于Apache Spark中設(shè)計(jì)高效識(shí)別框架，如算法1所述。

算法1 對(duì)Spark分解的適應(yīng)性的偽代碼輸入RDD廣播輸入的RDD模板RDD模板RDD.GroupByKey()當(dāng)lTIK∈TemplateRDD時(shí),執(zhí)行當(dāng)lTj∈InputRDD時(shí),執(zhí)行 ps=p({lTik},LIj) psRDD.insert({i, j},ps) 結(jié)束結(jié)束FinalpsRDD=psRDD.reduceByKey(Qp)ScoresRDD=FinalpsRDD.mapValues(Qf)

4 2種經(jīng)典的匹配算法

4.1 細(xì)節(jié)點(diǎn)圓柱碼匹配算法

細(xì)節(jié)點(diǎn)圓柱碼(minutia cylinder-code，MCC)[12]匹配算法使用有圓柱狀支撐的局部結(jié)構(gòu)。圓柱體包含關(guān)于細(xì)節(jié)鄰域的信息，將圓柱體編碼成一個(gè)大小為NsNsNd的實(shí)數(shù)向量。局部匹配由計(jì)算每對(duì)圓柱(1個(gè)Ti和1個(gè)Ij)之間的相似性組成，從而獲得矩陣Γ，其中γ是相似函數(shù)：

(13)

Cappelli等提出了4種計(jì)算全局分?jǐn)?shù)的合并技術(shù)，本文主要研究局部松弛相似度排序(LSSR)。

(14)

(15)

通過平均具有np個(gè)最高效率的松弛相似性計(jì)算全局分?jǐn)?shù)。

4.2 Jiang匹配算法

Jiang匹配算法[11]使用基于每個(gè)細(xì)節(jié)點(diǎn)的Nn個(gè)最近領(lǐng)域的局部結(jié)構(gòu)，每個(gè)局部結(jié)構(gòu)均可描述為實(shí)數(shù)向量，所有局部結(jié)構(gòu)對(duì)之間的相似性矩陣都遵循方程(13)的形式。全局匹配包括對(duì)局部結(jié)構(gòu)的最佳匹配對(duì)進(jìn)行整理，并根據(jù)這種配對(duì)對(duì)齊所有其他細(xì)節(jié)點(diǎn)。從每一個(gè)細(xì)節(jié)點(diǎn)中得到一個(gè)旋轉(zhuǎn)平移不變向量Fgk。然后，對(duì)每一對(duì)對(duì)齊的細(xì)節(jié)點(diǎn)計(jì)算匹配確定性級(jí)別ml(r,s)：

(16)

最終匹配分?jǐn)?shù)計(jì)算如下：

(17)

5 實(shí)驗(yàn)和分析

通過實(shí)驗(yàn)驗(yàn)證提出的匹配算法和分解方法性能，并將Jiang匹配算法、MCC匹配算法應(yīng)用于提出的分解框架中進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)中，提出的基于置信度的匹配算法分別在Apache Hadoop和Apache Spark中實(shí)現(xiàn)，Jiang匹配算法、MCC匹配算法在MPI中的實(shí)現(xiàn)結(jié)果均參考文獻(xiàn)[16]的實(shí)驗(yàn)結(jié)果。

5.1 測(cè)試結(jié)果

通過SFinGe軟件[17]生成了具有400 000個(gè)模板指紋的數(shù)據(jù)庫(kù)。通過采用模板指紋的5 000個(gè)附加印模，以及數(shù)據(jù)庫(kù)中不匹配的額外5 000個(gè)指紋，建立了10 000個(gè)輸入指紋集。圖4為部分指紋圖像示例。SFinGe數(shù)據(jù)庫(kù)的統(tǒng)計(jì)數(shù)據(jù)如表2所示。

圖4 SFinGe數(shù)據(jù)庫(kù)部分指紋圖像示例

參數(shù)模板輸入模板指紋數(shù)(nT和nI)400 00010 000局部結(jié)構(gòu)平均數(shù)(m)55.4750.14字節(jié)數(shù)Jiang3.27E+092.42E+07MCC6.38E+107.9E+08

盡管在3種比較框架(MPI、Hadoop和Spark)中使用了相同的算法，但由于浮點(diǎn)運(yùn)算誤差，所得結(jié)果的精度各不同。對(duì)于3種比較框架，表3給出了獲得SFinGe數(shù)據(jù)庫(kù)的TPR(真陽性率)。從表3可以看出，3種框架下的值非常相似，只有略微的差異。Jiang匹配算法和MCC匹配算法在MPI框架下的實(shí)驗(yàn)數(shù)據(jù)參考文獻(xiàn)[16]的實(shí)驗(yàn)結(jié)果，通過對(duì)比可以看出，提出的分解框架具有良好的可靠性。

表4所示為3種框架下3種匹配算法的平均識(shí)別時(shí)間。從表4可以看出，相比其他2種匹配算法，本文的基于置信度的匹配算法在這幾種框架中的識(shí)別時(shí)間方面有很大的優(yōu)勢(shì)?？傮w而言，幾種匹配算法嵌入提出的分解框架后，均獲得了較好的識(shí)別性能。提出的分解方法能以靈活的方式識(shí)別輸入指紋，從而有效地使用輸入局部結(jié)構(gòu)的模板信息。安全丟棄部分分?jǐn)?shù)增強(qiáng)了匹配過程的可靠性，由于允許對(duì)非匹配指紋或非相似指紋部件進(jìn)行早期檢測(cè)，從而減少了計(jì)算量。

表3 獲得SFinGe數(shù)據(jù)庫(kù)的TPR(FPR為0%)

表4 SFinGe數(shù)據(jù)庫(kù)上的平均識(shí)別時(shí)間 s

表5所示為3種匹配算法嵌入提出的分解框架后在Hadoop中實(shí)施時(shí)的統(tǒng)計(jì)數(shù)據(jù)。從表5可以看出，組合階段得到了較好的優(yōu)化，這是因?yàn)閭鬟f給reducer的部分分?jǐn)?shù)非常低，從而導(dǎo)致在洗牌階段需要較少的網(wǎng)絡(luò)流量。大部分計(jì)算時(shí)間用在映射階段，該階段計(jì)算所有局部相似點(diǎn)。

表5 使用Hadoop執(zhí)行的統(tǒng)計(jì)數(shù)據(jù)

表6所示為Spark中每步的平均時(shí)間。需要注意的是，各階段是同時(shí)執(zhí)行的，因此總的時(shí)間遠(yuǎn)低于各個(gè)階段的時(shí)間總和。首先，在整個(gè)計(jì)算節(jié)點(diǎn)上實(shí)施數(shù)據(jù)庫(kù)加載，這樣就可以在考慮加載數(shù)據(jù)大小的情況下，從分布式文件系統(tǒng)中快速完成加載。對(duì)于每個(gè)指紋，輸入指紋的傳播要花費(fèi)更多的時(shí)間。計(jì)算匹配結(jié)果和將結(jié)果寫入HDFS消耗了大量時(shí)間，且它們所消耗的時(shí)間基本相同。

表6 Spark中每步的平均時(shí)間 s

綜合表3～6的測(cè)試結(jié)果顯示，3種匹配算法的識(shí)別性能均良好，各個(gè)步驟的統(tǒng)計(jì)數(shù)據(jù)和所用時(shí)間均在可接受范圍內(nèi)。由此可見，提出的分解方法具有良好的可靠性。

5.2 提出的分解框架的通用性分析

本文中所提出分解方法的關(guān)鍵是考慮可擴(kuò)展識(shí)別系統(tǒng)，使用SFinGe數(shù)據(jù)庫(kù)中多個(gè)尺度的子集，利用Hadoop和Spark評(píng)估可擴(kuò)展性。在每種情況下，將輸入指紋的數(shù)目設(shè)置為模板數(shù)的10%，其中一半是冒充身份，最大數(shù)量可達(dá)10 000。因此，最大的數(shù)據(jù)庫(kù)計(jì)算為4×109個(gè)匹配。

圖5所示為Hadoop、Spark框架下3種匹配算法的吞吐量與模板指紋數(shù)量之間的關(guān)系。從圖5可以看出，雖然Spark的吞吐量高于Hadoop，但當(dāng)模板數(shù)量增加時(shí)，這2個(gè)框架呈現(xiàn)出了相同的特性：對(duì)于大型數(shù)據(jù)庫(kù)，隨著計(jì)算時(shí)間與通信時(shí)間呈比例增加，吞吐量也不斷增加。通過分析在大數(shù)據(jù)框架中的測(cè)試結(jié)果可知，提出的分解框架可以較好地適用于3種不同的匹配算法，提出的分解方法具有良好的通用性。

圖5 2種大數(shù)據(jù)框架下3種匹配算法的吞吐量

6 結(jié)束語

本文中提出了一種面向細(xì)節(jié)點(diǎn)指紋匹配的通用分解方法，并將其在Apache Hadoop和Apache Spark 2種大數(shù)據(jù)計(jì)算框架中進(jìn)行實(shí)現(xiàn)，驗(yàn)證了該方法的可靠性。將所提出分解方法應(yīng)用于3種匹配算法進(jìn)行實(shí)驗(yàn)，驗(yàn)證了分解方法的通用性。綜合可知，先提取出細(xì)節(jié)點(diǎn)特征，然后將匹配分?jǐn)?shù)的計(jì)算分解為較低級(jí)別的步驟有助于提高匹配過程的靈活性。

在下一步研究中，考慮將提出的分解框架部署于其他的大數(shù)據(jù)或并行計(jì)算環(huán)境實(shí)現(xiàn)，例如MPI。此外，還可將分解方法應(yīng)用于其他的指紋匹配算法，進(jìn)一步提升該方法的可靠性和通用性。