劉廣東,邱曉暉
(南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)
指靜脈識(shí)別是近年來興起的活體生物特征識(shí)別技術(shù),其原理是基于人類手指中流動(dòng)的血液可以吸收720~1 000 nm范圍內(nèi)的紅外線,從而得到指靜脈的清晰圖像。相較于傳統(tǒng)的生物識(shí)別方法,其自身存在獨(dú)特的優(yōu)點(diǎn):特異性與唯一性。每個(gè)人的指靜脈圖像不同,同一人不同手指的靜脈圖像也不同,健康成年人的靜脈形狀不再發(fā)生變化;活體特征-指靜脈存在于身體內(nèi)部,被復(fù)制或者盜用的機(jī)會(huì)很小,受生理和環(huán)境因素的影響小,克服了皮膚表面異常、皮膚干燥、油污、灰塵等的影響,為指靜脈識(shí)別提供了理論依據(jù)。據(jù)公安部某研究所的專家團(tuán)隊(duì)論證得出結(jié)論:指靜脈生物特征技術(shù)是目前最為安全、可靠的一種生物識(shí)別技術(shù)。
近年來,研究者主要對指靜脈圖像的采集[1-3]與特征提取進(jìn)行了研究。其中特征提取的研究最早主要集中于靜脈網(wǎng)絡(luò)的分割算法提取出靜脈骨架并采用模板匹配的方法進(jìn)行識(shí)別[4],模板匹配利用圖像的整體信息但是計(jì)算量較大,宋顯華引入Hu不變矩法取得了很好的效果[5]?;陟o脈網(wǎng)絡(luò)的分布結(jié)構(gòu)提取端點(diǎn)與分叉點(diǎn)[6]同樣受到了研究者的青睞,這類方法利用了靜脈網(wǎng)絡(luò)的局部信息。多尺度幾何特征[7]和二值特征[8]能夠提取豐富的局部紋理信息,適用于指靜脈等紋理描述的生物特征識(shí)別。使用空間投影變換等機(jī)器學(xué)習(xí)方法[9-12]獲取的指靜脈特征,通過訓(xùn)練獲得降維后的具有較高描述能力的特征符合圖像處理與模式識(shí)別技術(shù)的潮流,具有自身獨(dú)特優(yōu)勢。但是針對深度學(xué)習(xí)進(jìn)行指靜脈識(shí)別卻鮮有人提出,這是因?yàn)樯疃染W(wǎng)絡(luò)模型的訓(xùn)練需要大量的樣本,而目前指靜脈的權(quán)威數(shù)據(jù)庫難以達(dá)到需求。最近,深度森林模型的提取為解決這一問題提供了有效的解決途徑。深度森林的提出為解決小樣本的數(shù)據(jù)模型提供了可靠的途徑并且有效減少了訓(xùn)練時(shí)間,同時(shí)文中提出了多模式LBP特征與深度網(wǎng)絡(luò)相結(jié)合的方式,并通過實(shí)驗(yàn)進(jìn)行驗(yàn)證。
指靜脈識(shí)別系統(tǒng)主要包括:指靜脈圖像采集、指靜脈圖像預(yù)處理、指靜脈圖像特征提取、指靜脈圖像識(shí)別[13]。圖像采集設(shè)備在整個(gè)圖像識(shí)別系統(tǒng)中占有重要的地位,采集到的指靜脈圖像的質(zhì)量直接影響整個(gè)識(shí)別系統(tǒng)的安全性、可接受性和正確性。指靜脈圖像的采集主要依據(jù)紅外成像理論,紅外波長在720~1 000 nm的近紅外LED光源照射到指靜脈表面時(shí),紅外光線很容易透射過骨骼和肌肉組織,而手指血管中血紅蛋白可以充分吸收該波段的近紅外光線。在手指的另一側(cè)CMOS攝像頭可以拍攝到手指靜脈圖像。在圖像的預(yù)處理階段,主要是得到清晰有效的指靜脈區(qū)域,這部分包含的步驟主要是感興趣區(qū)域(ROI)的提取、尺寸歸一化、灰度歸一化,經(jīng)過上述處理后就可以得到大小統(tǒng)一且含有充分特征信息的指靜脈特征。文中特征提取部分采用多模式的LBP特征,包含基本的LBP特征、統(tǒng)一模式分塊直方圖特征,同時(shí)結(jié)合深度森林進(jìn)行指靜脈的識(shí)別。
LBP(local binary pattern,局部二值模式)是一種能夠有效地描述圖像局部紋理特征的算子。LBP特征具有很強(qiáng)的分類能力、較高的計(jì)算效率并且對于單調(diào)的灰度變化具有不變性,這些特點(diǎn)使得它在很多圖像分類問題中得到了應(yīng)用并且不斷被改進(jìn)[14]。
整個(gè)LBP的編碼過程如圖1左所示。
圖1 多模式LBP算子
用公式概括為:
其中,(xc,yc)為所選鄰域中心像素點(diǎn)的坐標(biāo);(xi,yi)為鄰域像素點(diǎn)坐標(biāo);gi為中心像素的灰度值;gc為鄰域像素的灰度值。
應(yīng)用LBP算子的過程類似于濾波過程中的模板操作。逐行掃描圖像,對圖像中的每一個(gè)像素點(diǎn),以該點(diǎn)的灰度作為閾值,對其周圍的3*3模板進(jìn)行二值化,按照一定的順序?qū)⒍祷慕Y(jié)果組成一個(gè)8位二進(jìn)制數(shù),以此二進(jìn)制數(shù)的值(0~255)作為該點(diǎn)的響應(yīng)。在整個(gè)逐行掃描結(jié)束后會(huì)得到一個(gè)LBP響應(yīng)圖像,圖1中LBP響應(yīng)圖像的二進(jìn)制編碼為01100111,對應(yīng)的十進(jìn)制編碼為103。
統(tǒng)一模式LBP:
對于一個(gè)局部二進(jìn)制模式,在將其二進(jìn)制位串視為循環(huán)的情況下,如果其中包含的從0到1或者從1到0的轉(zhuǎn)變不多于兩個(gè),則稱這個(gè)局部二進(jìn)制模式為統(tǒng)一化模式。統(tǒng)一化LBP模式能夠很好地解決基本LBP算子中那些受噪聲影響的轉(zhuǎn)變。對于采樣點(diǎn)數(shù)為P的原始LBP產(chǎn)生的二進(jìn)制模式為2P種,而等價(jià)模式只有P(P-1)+3種,當(dāng)P=8時(shí),統(tǒng)一模式LBP的二進(jìn)制模式僅有59種,見圖1右。
在整個(gè)逐行掃描結(jié)束后會(huì)得到一個(gè)LBP響應(yīng)圖像,這個(gè)響應(yīng)圖像的直方圖稱為LBP統(tǒng)計(jì)直方圖或LBP直方圖,它常常作為后續(xù)識(shí)別工作的特征,因此也被稱為LBP特征。由于LBP直方圖大多是針對圖像中的各個(gè)分區(qū)分別計(jì)算的,對于一個(gè)普通大小的分塊區(qū)域,標(biāo)準(zhǔn)的LBP算子得到的二進(jìn)制模式數(shù)目較多,而實(shí)際的位于該區(qū)域中的像素?cái)?shù)目卻相對較少,這將會(huì)得到一個(gè)過于稀疏的直方圖,從而使直方圖失去統(tǒng)計(jì)意義。因此應(yīng)該設(shè)法減少一些冗余的LBP模式,同時(shí)又保留足夠的具有重要描繪能力的模式。統(tǒng)一化模式的提出解決了上述問題,在隨后的LBP直方圖的計(jì)算過程中,只為統(tǒng)一化模式分配單獨(dú)的直方圖收集箱,而所有非統(tǒng)一化模式都被放入一個(gè)公用收集箱,這就使LBP的特征數(shù)目大大減少。一般來說,保留的統(tǒng)一化模式往往是反映重要信息的那些模式,而非統(tǒng)一化模式中過多的轉(zhuǎn)變往往是由噪聲引起的,不具有良好的統(tǒng)計(jì)意義[15]。
近年來,深度學(xué)習(xí)網(wǎng)絡(luò)在許多領(lǐng)域取得了巨大的成功,尤其是在計(jì)算機(jī)視覺和語音識(shí)別方面。盡管深度神經(jīng)網(wǎng)絡(luò)優(yōu)勢突出,但是仍然存在明顯的缺點(diǎn)。首先,深度神經(jīng)網(wǎng)絡(luò)需要大量的樣本進(jìn)行訓(xùn)練,這樣就無法在小樣本訓(xùn)練集上直接使用。同時(shí),盡管在大樣本數(shù)據(jù)集上,許多實(shí)際任務(wù)由于缺少標(biāo)記樣本(由于樣本標(biāo)記需要耗費(fèi)大量的資源),使得深度學(xué)習(xí)網(wǎng)絡(luò)在這些任務(wù)上的表現(xiàn)也不是很好。其次,深度學(xué)習(xí)網(wǎng)絡(luò)是非常復(fù)雜的模型,訓(xùn)練處理的過程需要具有強(qiáng)大計(jì)算能力的設(shè)備,除了大公司以外,個(gè)人很難真正進(jìn)入這一領(lǐng)域。更為重要的是,深度神經(jīng)網(wǎng)絡(luò)具有非常多的超參數(shù),學(xué)習(xí)表現(xiàn)嚴(yán)重依賴對這些參數(shù)的調(diào)節(jié)。舉例來說,即使一些作者使用卷積神經(jīng)網(wǎng)絡(luò),他們也是根據(jù)不同的任務(wù)使用不同的學(xué)習(xí)模型,比如卷積層結(jié)構(gòu)。這使得深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練非常棘手,而且深層神經(jīng)網(wǎng)絡(luò)的理論非常困難,因?yàn)榫哂袔缀鯚o限構(gòu)型組合的干擾因素太多。
研究者們普遍認(rèn)識(shí)到,表征學(xué)習(xí)能力對于深度神經(jīng)網(wǎng)絡(luò)至關(guān)重要。值得注意的是,為了利用大量的訓(xùn)練數(shù)據(jù),深度學(xué)習(xí)網(wǎng)絡(luò)需要很大的容納能力;這也是深度神經(jīng)網(wǎng)絡(luò)非常復(fù)雜的原因。gcForest是一種新的決策樹集合方法,該方法生成了一個(gè)深層森林集合,具有級聯(lián)結(jié)構(gòu),可以使gcForest進(jìn)行表征學(xué)習(xí)。當(dāng)輸入具有高維度時(shí),可以通過多粒度掃描進(jìn)一步增強(qiáng)其表征學(xué)習(xí)能力,使gcForest具有上下文或結(jié)構(gòu)感知能力。此外,gcForest可以自適應(yīng)地確定級聯(lián)層數(shù),自動(dòng)設(shè)置模型復(fù)雜性,使gcForest即使在小規(guī)模數(shù)據(jù)上也能執(zhí)行良好,用戶可以根據(jù)可用的計(jì)算資源來控制訓(xùn)練成本。gcForest具有比深層神經(jīng)網(wǎng)絡(luò)少得多的超參數(shù);更為重要的是,它的性能對于超參數(shù)設(shè)置具有健壯性,因此在大多數(shù)情況下,即使是來自不同域的不同數(shù)據(jù),也可以通過使用默認(rèn)設(shè)置獲得出色的性能。這不僅使gcForest的訓(xùn)練方便,而且使gcForest的訓(xùn)練時(shí)間成本小于深層神經(jīng)網(wǎng)絡(luò)。
gcForest采用級聯(lián)結(jié)構(gòu),其中級聯(lián)接收由其前一級別森林處理的特征信息,并將處理結(jié)果輸出到下一級。每層包含兩個(gè)隨機(jī)森林和兩個(gè)完全隨機(jī)森林,這是基于多樣性的考慮,每個(gè)層級都是集合的集合。每個(gè)隨機(jī)森林包含500棵樹,完全隨機(jī)森林是由1 000棵決策樹組成,每棵樹隨機(jī)選取一個(gè)特征作為分裂樹的分裂節(jié)點(diǎn),然后一直生長,直到每個(gè)葉節(jié)點(diǎn)細(xì)分到只有1個(gè)類別或者不多于10個(gè)樣本。類似的,普通隨機(jī)森林由1 000棵決策樹構(gòu)成,每棵樹通過隨機(jī)選取sqrt(d)(d表示輸入特征維度,即特征數(shù))個(gè)候選特征,然后通過gini分?jǐn)?shù)篩選分裂節(jié)點(diǎn)。所以兩種森林的主要區(qū)別在于候選特征空間,完全隨機(jī)森林是在完整的特征空間中隨機(jī)選取特征來分裂,而普通隨機(jī)森林是在一個(gè)隨機(jī)特征子空間內(nèi)通過gini系數(shù)來選取分裂節(jié)點(diǎn)。注意,每個(gè)森林里的樹木數(shù)量是一個(gè)超參數(shù)。
圖2 類矢量產(chǎn)生的說明
圖2是每層森林中特征類矢量的產(chǎn)生過程:給定一個(gè)實(shí)例,每個(gè)森林將計(jì)算相關(guān)實(shí)例落葉的葉節(jié)點(diǎn)上不同類別的訓(xùn)練實(shí)例的百分比,然后對同一森林中的所有樹進(jìn)行平均,從而產(chǎn)生類分布的估計(jì),其中虛線部分顯示實(shí)例遍歷到葉節(jié)點(diǎn)的路徑。
為了方便起見,假設(shè)輸入的樣本包含三個(gè)類,估計(jì)的類分布形成一個(gè)類向量,然后將其與原始特征向量連接以輸入到下一級級聯(lián)。例如,假設(shè)有三個(gè)類,那么四個(gè)森林中的每一個(gè)將產(chǎn)生三維類向量;因此,下一級級聯(lián)將獲得12(3×4)增強(qiáng)特征。
為了降低過度擬合的風(fēng)險(xiǎn),每個(gè)森林產(chǎn)生的類矢量是通過k-折交叉驗(yàn)證產(chǎn)生的。每個(gè)實(shí)例將被用作k-1次的訓(xùn)練數(shù)據(jù),產(chǎn)生k-1個(gè)類向量,然后對其進(jìn)行平均以產(chǎn)生最終類矢量作為下一級級聯(lián)的增強(qiáng)特征。獲得增強(qiáng)特征后,將對驗(yàn)證集進(jìn)行整體級聯(lián)性能評估,如果沒有顯著的識(shí)別率增長,訓(xùn)練程序?qū)⒔K止;因此,gcForest能自動(dòng)確定級聯(lián)電平的數(shù)量。與模型復(fù)雜度固定的大多數(shù)深度神經(jīng)網(wǎng)絡(luò)相反,gcForest通過適當(dāng)?shù)亟K止訓(xùn)練來自適應(yīng)地決定其模型的復(fù)雜性。這使其能適用于不同規(guī)模的訓(xùn)練數(shù)據(jù),不限于大規(guī)模訓(xùn)練數(shù)據(jù)。
實(shí)驗(yàn)的數(shù)據(jù)集來自Sains Malymia大學(xué)的指靜脈數(shù)據(jù)集FV_USM,該數(shù)據(jù)庫共由兩部分組成,每一部分均包含2 952個(gè)樣本。這些樣本來自123個(gè)不同性別、不同年齡階段的志愿者,每個(gè)人分別采集雙手的食指和中指的圖片各6張,經(jīng)過預(yù)處理后得到統(tǒng)一的像素為100*300的樣本。
另一個(gè)數(shù)據(jù)庫是由自己制作的采集設(shè)備采集得到,實(shí)驗(yàn)樣本來自35位不同年齡段的人,按照正規(guī)的預(yù)處理流程制作標(biāo)準(zhǔn)的樣本。每個(gè)樣本的像素為280*120,但是制作好的樣本仍有微小的位移偏差,更符合實(shí)際情況,以驗(yàn)證算法的魯棒性。
實(shí)驗(yàn)中分別將gcForest算法與其他典型的機(jī)器學(xué)習(xí)算法進(jìn)行對比,結(jié)果見表1和表2。其中,用于訓(xùn)練的樣本數(shù)量分別選擇3個(gè)樣本和4個(gè)樣本。decisiontree分類器[16]的最大深度設(shè)置為10,節(jié)點(diǎn)數(shù)目為100。支持向量機(jī)分類器[17]使用臺(tái)灣大學(xué)林智實(shí)驗(yàn)室開發(fā)的LibSVM。FV_USM數(shù)據(jù)庫中C設(shè)置為0.031 25,g設(shè)置為0.000 488 281 24;自制數(shù)據(jù)庫上C設(shè)置為0.125,g設(shè)置為0.000 122 007 031 25。logistic regression分類器[18]設(shè)置為C=1.0,懲罰因子設(shè)置為l2范式。random forest分類器[19]最大深度設(shè)置為10,包含1 000棵樹。KNN分類器[20]中K的值設(shè)置為3。gcForest分類器中每層包含4個(gè)森林,其中兩個(gè)森林為完全隨機(jī)森林,兩個(gè)為隨機(jī)森林,每個(gè)森林包含500棵樹,增益準(zhǔn)則選擇最小“gini”值,gcForest自動(dòng)設(shè)置訓(xùn)練級數(shù),當(dāng)識(shí)別率不再有明顯增長時(shí)停止訓(xùn)練過程。
表1 不同算法在FV_USM上的識(shí)別率對比 %
表2 不同算法在自制數(shù)據(jù)庫上的識(shí)別率對比 %
從表1與表2可以看出,gcForest相比于其他算法取得了較高的識(shí)別率。
提出的基于LBP特征的深度森林框架如圖3所示。
圖3 基于LBP特征的深度森林框架
將LBP基本響應(yīng)圖像,分塊LBP統(tǒng)一模式的直方圖特征分別輸入到深度森林中,最終的實(shí)驗(yàn)結(jié)果見表3。
表3 不同LBP特征與深度森林結(jié)合 取得的識(shí)別率 %
從表3可以看出,相較于LBP響應(yīng)圖像,LBP直方圖能夠取得更好的識(shí)別效果。在兩個(gè)實(shí)驗(yàn)數(shù)據(jù)庫上,基于統(tǒng)一模式LBP分塊直方圖特征比使用LBP響應(yīng)圖像在識(shí)別效果上的提升更加顯著,在FV_USM數(shù)據(jù)庫上識(shí)別率提高了6.78%,在自制數(shù)據(jù)庫上識(shí)別率提高了4.07%。
提出了基于深度森林的指靜脈識(shí)別方法,并與經(jīng)典的機(jī)器學(xué)習(xí)識(shí)別器在性能上進(jìn)行比較,結(jié)果表明基于深度學(xué)習(xí)模型改進(jìn)的深度森林識(shí)別器比其他的分類器具有更好的表現(xiàn),與深度神經(jīng)網(wǎng)絡(luò)相比更適用于小規(guī)模數(shù)據(jù)集,具有更少的調(diào)節(jié)參數(shù),同時(shí)能夠自適應(yīng)地優(yōu)化選取網(wǎng)絡(luò)層數(shù)。同時(shí),將基本LBP響應(yīng)圖像、統(tǒng)一模式LBP分塊直方圖特征與深度森林結(jié)合的方法在提取豐富的指靜脈紋理特征的基礎(chǔ)上結(jié)合深度學(xué)習(xí)的模型,進(jìn)一步提高了深度森林的識(shí)別效果。相較于深度網(wǎng)絡(luò)等深度學(xué)習(xí)模型探索了基于深度學(xué)習(xí)模型用于圖像識(shí)別的新領(lǐng)域,實(shí)驗(yàn)表明深度森林能夠在指靜脈圖像識(shí)別等圖像識(shí)別領(lǐng)域取得理想的效果。