唐 俊 樊旭晨 張 艷 魯璽龍 王 年
(1安徽大學電子信息工程學院, 合肥 230601)(2公安部物證鑒定中心, 北京 100038)
足跡識別是指根據足跡圖像獲取與身份相關的信息,相比于指紋痕跡,足跡更難去掩蓋,因此,足跡識別在監(jiān)管、安全和刑事偵查等領域具有重要的現實意義.已有足跡識別算法可分為2類:第1類是手動提取特征并建立特征與目標信息之間的函數,如文獻[1]提出一種基于腳長、腳寬特征回歸身高的算法,文獻[2]提出一種基于腳掌半徑預測年齡的算法;第2類是自動提取特征并建立特征與目標信息之間的函數,如文獻[3]提出一種基于足底壓力圖像結合卷積神經網絡(CNN)的身份識別算法,文獻[4]提出一種基于足底光學圖像預測身高的算法,文獻[5]提出一種使用支持向量機(SVM)的身份識別算法.上述算法均是建立在赤足足底圖像基礎上,而真實的犯罪現場提取的主要為鞋印圖像,由于鞋印種類的多樣性以及鞋底磨損度的差異性,無法直接對鞋印圖像進行特征提取.針對該問題,本文提出一種將鞋印圖像反演成赤足圖像的算法,該算法能夠對赤足足跡樣本量進行擴充,并且間接地解決了鞋印圖像特征提取困難的問題.
反演算法實質上是一個圖到圖的轉換問題,該問題的解決方法可分為2種.第1種是基于生成對抗網絡(GAN)[6-8],通過生成器與判別器的對抗訓練,獲得一個可以完成圖像到圖像轉換任務的編解碼結構.如文獻[9]提出使用UNet[10]作為生成器并采用像素級別判別器的結構(Pix2pixGAN),該結構主要適用于圖像分割、邊緣檢測等任務.文獻[11]提出一種環(huán)形GAN(CycleGAN),將源域中的圖像先轉換到目標域再重構到源域,訓練過程不需要匹配圖片對,適用于圖像風格遷移任務(季節(jié)、色彩轉換).在文獻[11]的基礎上,文獻[12]提出一種雙向的環(huán)形結構(DiscoGAN),在重構源域圖像的同時,對目標域圖像也進行了重構.第2種是不采用對抗訓練模式的編解碼結構,如文獻[13]提出一種自適應實例規(guī)范化算法(AdaIN),假設目標域與源域圖像之間存在潛在的共享空間,通過編碼器將源域圖像編碼到潛在空間中,利用自適應的規(guī)范化算法將源域的特征分布進行歸一化之后再映射到目標域,相比于GAN的訓練更加靈活,適用于風格遷移任務.
上述結構使用的數據集源域與目標域之間的差異較小,整體結構相同,如純色馬與斑馬、真實場景與油畫之間的轉換.而鞋印與腳印之間,無論是從外部結構還是內部紋理差異都較大,因此現有結構不適合足跡圖像反演實驗.針對該問題,本文提出一種對稱的多分支生成對抗網絡,該結構將輸入的鞋印圖像分成2個部分進行重構,并同時使用全局與局部判別器訓練,能夠使網絡結合鞋印的全局與局部信息,生成與真實腳印更加相近的圖像.
由于足跡數據集的匱乏,本文構建了一個足底壓力圖像數據集S2FD,該數據集包含695張足底壓力圖像以及與其對應的695張布鞋鞋底壓力圖像.本文在S2FD數據集上進行了鞋印反演赤足的實驗,并使用SSIM、MAE以及檢索準確率Rank1作為評價指標,實驗結果表明,相比于現有圖像到圖像的轉換算法,SMbGAN更適合本文任務.
S2FD數據集的采集設備是由杭州創(chuàng)恒電子技術開發(fā)有限公司提供的足底壓力成趟采集儀.采集儀總長度為990 cm,由33塊壓力板組成,每塊壓力板寬30 cm,長50 cm,每平方厘米包含25個壓力傳感器.
本文所提出的數據集總共有1 390張足跡壓力圖像,包含695張布鞋鞋底壓力圖像以及對應的695張赤足足底壓力圖像.數據來自于64名在校大學生,采集前均對其年齡、身高以及體重等信息進行了記錄.S2FD同樣適用于基于足跡圖像的身份檢索、年齡預測等任務,是目前足跡領域首個足底與鞋底混合的壓力數據集.
在數據采集的過程中,由于電流干擾以及被采集者個人行走步態(tài)差異,采集的圖像會出現噪聲以及足跡區(qū)域傾斜等問題.為了避免上述問題影響最終反演實驗的結果,本文對采集的原始圖像進行了去噪、中心化以及旋轉操作,具體步驟如下.
采集設備運行過程中,傳感器連接處產生電流干擾,在圖像的背景區(qū)域會出現條狀噪聲,由于該噪聲的產生與采集設備連接處的硬件相關,其形狀大小受限于連接處的硬件大小.傳統(tǒng)的濾波去噪算法不能有效去除條狀噪聲,本文設計了一種滑動窗口去噪算法,去噪過程如圖1所示,其中圖1(a)為包含噪聲的原始圖像.首先,為了確定足跡區(qū)域上、下、左、右最外緣的4個關鍵點(見圖1(b)中點A、B、C、D),設置一個大小為4×4像素單元的方形掃描窗口,從圖像的四周向內部滑動,當窗口中存在背景像素值(灰度值為0)時,則繼續(xù)滑動(見圖1(d),圖1(d)為圖1(a)方框內條狀噪聲的放大圖像),反之則停止滑動,取此時滑動窗口外側中點為外緣關鍵點(見圖1(e)中點D).為了避免關鍵點在足跡區(qū)域內部,本文對關鍵點進行了放縮,保證該點與足跡區(qū)域不重合(見圖1(f));其次,根據4個關鍵點構建足跡的等效矩形,如圖1(b)所示;最后,將等效矩形外部的像素值設置為0,保留矩形內部的像素值.最終去噪效果如圖1(c)所示,從圖中可以看出,噪聲被有效去除.
(a) 去噪前
(d) 掃描噪聲區(qū)域
采集過程中,由于被采集者之間行走姿態(tài)的差異,足跡區(qū)域的位置分布不均勻.為了避免該問題影響反演實驗結果,本文利用去噪過程中使用的等效矩形框,將矩形框的中心點平移到圖像的中心點.中心化結果如圖2所示.
(a) 中心化前
(b) 中心化后
中心化操作消除了行走過程中足跡位置分布的差異,但是并未消除步角的差異.為了統(tǒng)一數據集中足跡的偏向角,本文參考了文獻[4]中的旋轉算法,以前掌中心點與后跟中心連線與水平方向夾角為旋轉角、前掌中心點為旋轉點進行旋轉,旋轉過程如圖3所示,從圖中可以看出,旋轉后的足跡區(qū)域呈水平狀.
(a) 旋轉前
(b) 旋轉后
GAN因采用博弈學習的方式[6],被廣泛地用于圖到圖的轉換任務,如Pix2pixGAN能夠完成原圖與分割圖之間的轉化;CycleGAN能夠完成顏色以及畫風的轉化.但是上述結構中使用的圖像對實質上是同類物體(原圖轉分割圖、純色馬轉斑馬),這類圖像對域間距較小,而鞋印與赤足不屬于一類物體,域間距較大,使用現有結構無法滿足該任務的要求.本文提出一種對稱式多分支生成對抗網絡(SMbGAN),網絡結構如圖4所示,首先將足跡區(qū)域分成前掌與后掌2個區(qū)域,分別對前、后掌區(qū)進行重構;其次對重構出的2張區(qū)域圖像使用局部判別器進行區(qū)域判定;最后將2張局部的圖像進行合成,使用全局判別器進行全局判定.該結構將足跡圖像分成2部分進行重構,并且聯(lián)合全局與局部判別器進行判定,能夠更有效地發(fā)掘鞋印足跡與赤足足跡之間壓力分布以及形狀的對應關系,適合本文的反演任務.
圖4 SMbGAN結構圖
SMbGAN的生成器是一個圖像的編解碼模塊,編碼器將源域圖像編碼到低維度的特征空間,而解碼器將低緯度的特征解碼到目標域空間.隨著層數的加深,常規(guī)的編解碼結構會逐漸丟失淺層特征信息.SMbGAN的生成器采用特征金字塔(FPN)[14]結構,該結構將編碼器與解碼器不同尺度下的特征進行融合,避免深層特征中丟失了淺層信息,提升網絡對圖像內部細節(jié)的關注度.SMbGAN中包含了2個共享參數的FPN生成器,生成器的編碼部分由多個下采樣模塊組成,每個下采樣模塊包含一個卷積層、一個批歸一化(BN)層以及一個LReLU激活層組成;解碼部分由多個上采樣模塊組成,每個上采樣模塊包含一個反卷積層、一個BN層以及一個ReLU激活層組成.將鞋印的上下部分輸入到生成器中,得到對應位置的赤足足跡,再將赤足足跡的2部分進行拼接得到最終的目標域圖像.
假定由生成器生成的目標域圖像為偽圖,偽圖對應的真實目標域圖像稱為真圖.判別器是一個鑒別目標域圖像真?zhèn)蔚慕Y構,包含1個編碼器以及1個二分類的全連接層,編碼器由多個下采樣模塊組成.當輸入判別器的圖像為真圖時,判別器輸出1;反之,則為0.在判別器中,使用全連接層的二分類器是將編碼器的輸出特征圖展開成1維特征,再逐漸降維成2類,該過程會丟失部分特征,影響判別器的性能.本文去除了傳統(tǒng)判別器中的全連接層,將編碼器的輸出經過2D Sigmoid激活后作為分類的輸出,實現對輸出特征圖逐像素點的分類,提升結構對細節(jié)的關注度.另外,為了保證目標域與源域圖像對之間的匹配性,本文參考文獻[9]中方法,將源域圖像與目標域圖像拼接后作為判別器的輸入,定義源域圖像與真圖為正樣本對,作為判別器的正向輸入,源域圖像與偽圖為負樣本對,作為判別器的負向輸入.SMbGAN共包含2個局部判別器以及1個全局判別器.
SMbGAN的損失函數由生成器損失與判別器損失組成.生成器損失LG包含對抗損失LG,g以及L1損失LG,L1.其中對抗損失公式如下:
LG,g=LG,gu+LG,gd+LG,ga
(1)
(2)
(3)
(4)
LG,L1通過計算生成器生成的目標域圖像與真實的目標域圖像之間的平均絕對誤差,衡量生成圖像與真實圖像之間的距離,通過優(yōu)化該損失能夠保證生成圖像的質量,公式如下:
(5)
為了確保反演結果的有效性,最終的生成器損失為對抗損失與L1損失的加權和,即
LG=w1LG,g+w2LG,L1
(6)
式中,w1、w2為權值,本文實驗中設置w1=1,w2=190.對L1損失使用較大的權重,可使網絡在訓練過程中更加關注生成圖像的質量,保證反演結果的有效性.
判別器損失LD包含局部判別器損失LD,u、LD,d以及全局判別器損失LD,a,公式如下:
(7)
(8)
(9)
LD=LD,u+LD,d+LD,a
(10)
SMbGAN采用判別器與生成器交替的訓練方式[6]如圖5所示.首先,固定生成器參數,訓練判別器如圖5(a)所示,將正樣本對以及負樣本對分別作為正樣本與負樣本,輸入判別器,計算判別器損失,使用Adam優(yōu)化器更新判別器參數;其次,固定判別器參數,如圖5(b)所示,將生成器輸出與源域圖像組成的負樣本對作為正樣本,輸入判別器,根據判別器輸出以及生成器輸出計算生成器的對抗損失以及 L1損失,使用Adam優(yōu)化器更新生成器參數;最后,重復上述步驟,訓練至指定輪數時結束,保存訓練過程中測試集誤差最小的模型.
(a) 訓練判別器
(b) 訓練生成器
本文所涉及到的有關深度學習的實驗均在顯卡型號為GeForce RTX 2080Ti,CPU型號為Intel Core i7-9700K的PC機上進行.使用Adam優(yōu)化器,訓練總輪數為200,每輪訓練包含1張源域圖像以及對應的1張目標域圖像.
本文使用結構相似性(SSIM)[15]、MAE以及檢索準確率(Rank1)作為評價指標.其中,SSIM通過圖像之間的亮度、對比度以及結構作為衡量標準,從全局的角度計算圖像之間的差異;MAE通過逐點計算圖像對間每一位置的像素差,累加后求平均,獲取圖像對之間的精確誤差,從局部細節(jié)計算圖像之間的差異;為了驗證反演結果的有效性,本文將反演出的赤足圖像在赤足庫中進行身份檢索,使用檢索的Rank1對生成圖像的特征進行評價.
為了對比不同結構在足跡反演實驗中的效果,本文使用Pix2pixGAN、CycleGAN、AdaIN以及SMbGAN進行了相同的反演實驗,實驗數據均為經過相同預處理的足底壓力圖像,反演實驗結果如表1所示.由于SSIM是全局的相似性比較,而足底壓力圖像背景均為黑色,整體色調相近,因此SSIM的基準線較高,數值比較接近.MAE為逐像素點的比較,反映圖像的細節(jié)信息,CycleGAN與AdaIN主要適用于風格轉換任務,輸入數據不一一匹配,隨機從目標域與源域抽取圖像進行訓練,對細節(jié)的關注度較低,故MAE值較大;而Pix2pixGAN與SMbGAN使用了匹配輸入的方式,MAE值相對較小,并且SMbGAN采用全局與局部相結合的判別器結構,提升了對細節(jié)的關注程度,MAE值最低.SMbGAN的Rank1遠大于其他3種結構,證明了反演結果的特征相似性高于其他結構.根據該對比實驗結果可以看出,相比于其他3種結構,SMbGAN在足跡反演實驗中性能最優(yōu),真實赤足圖像與生成赤足圖像的SSIM值為0.988,MAE值為4.324,Rank1值為0.462.另外,本文統(tǒng)計了表1中4種結構的訓練時間,由于AdaIN為編解碼結構,未采用GAN的訓練模式,因此訓練過程消耗的時間最少;CycleGAN為環(huán)形的生成對抗網絡結構,訓練過程資源消耗大,訓練時間最長;SMbGAN含有2條支路,訓練時間接近于Pix2pixGAN的2倍.
表1 不同結構反演實驗結果
圖6展示了Pix2pixGAN、CycleGAN、AdaIN以及SMbGAN四種結構的部分反演結果.從圖中可以看出,本文結構反演出的赤足圖像在外部形狀以及內部壓力分布方面均接近于真實標簽圖像.CycleGAN與AdaIN由于訓練的數據不是一一匹配的,網絡無法準確提取鞋印與赤足之間的關系,其中CycleGAN生成的赤足圖像外部輪廓基本相同并且部分圖像變形,而AdaIN由于測試過程中需要提供目標域的一個模板,因此生成的圖像與模板圖像基本一致;Pix2pixGAN只包含一個生成器與一個判別器,圖像細節(jié)關注度低,生成圖像的多樣性低,出現不同輸入樣本產生高相似度輸出的問題.從圖6可以得出,相比于其他結構,本文提出的反演結構能夠有效提取鞋底壓力圖像與足底壓力圖像之間的關系,生成的足底壓力圖像無論從外部輪廓還是內部壓力分布都最接近于真實圖像,與表1中實驗結果相符.
(a) 輸入圖像
(b) 標簽圖像
(c) SMbGAN輸出圖像
(d) CycleGAN輸出圖像
(e) Pix2pixGAN輸出圖像
(f) AdaIN輸出圖像
4.4.1 預處理有效性
為了驗證預處理算法的有效性,本文使用SMbGAN對經過不同預處理的數據進行了反演實驗,實驗結果如表2所示.從表2可以看出,經過預處理的數據,實驗結果的SSIM值總體呈上升趨勢(SSIM值基準線較高,會出現部分抖動現象),且去噪步驟對SSIM值的提升最大,證明本文去噪算法的有效性.MAE與Rank1為細節(jié)相似性的度量,經過不同預處理后的結果均呈下降趨勢,由于中心化與旋轉操作實質上是在數據集中將鞋印圖像與赤足圖像進行了對齊,因此經過中心化與旋轉步驟的圖像MAE值下降幅度最大,且Rank1值提升最明顯,證明了旋轉與中心化算法的有效性.
表2 經過不同預處理的數據反演實驗結果
4.4.2 結構有效性
為了驗證SMbGAN的結構有效性,本文分別對不同結構的SMbGAN進行了相同的反演實驗,包括不同的生成器參數設定以及判別器數目,實驗結果如表3所示.從表3可以看出,SMbGAN的生成器共享參數時的實驗結果優(yōu)于不共享參數時的實驗結果,并且生成器共享參數能夠降低網絡的參數量,減少訓練過程中內存的占用率.對于僅使用全局判別器的網絡全局關注度高,SSIM值相對較高,而僅使用局部判別器的網絡對細節(jié)關注度較高,MAE值相對較低,聯(lián)合使用全局與局部判別器的結構能夠關注全局與細節(jié)信息,因此實驗結果明顯優(yōu)于其他結構.該消融實驗結果表明,本文提出的SMbGAN結構適用于足跡圖像的反演任務.
表3 不同結構的SMbGAN反演實驗結果
本文3.2節(jié)中生成器的損失函數包含2個權重參數w1與w2.為了驗證不同的參數對訓練結果的影響,本文將w1與w2按照不同比例進行了反演實驗,繪制了w1與w2的相關系數ε與SSIM、MAE的關系曲線圖,如圖7(a)所示.圖中,ε>0時表示w1與w2的比值,ε<0時表示w2與w1比值的相反數.由于MAE與SSIM值的尺度以及大小意義不統(tǒng)一,因此繪制出的曲線間隔大并且SSIM起伏不明顯.為了解決該問題,本文將SSIM值放縮到與MAE值近似的尺度下,并做了鏡像操作來保證MAE值與SSIM值均越小反演實驗效果越好,放縮后的曲線如圖7(b)所示,reSSIM表示放縮后的SSIM值.從圖中可以看出,隨著ε的改變,reSSIM值基本穩(wěn)定,而MAE值在ε<0時出現最小值.實驗結果表明,訓練過程中加大L1損失的權重能夠提升生成圖像的質量,與3.2節(jié)描述一致.
(a) ε-SSIM,MAE曲線圖
(b) ε-reSSIM,MAE曲線圖
(c) ε-reSSIMAE曲線圖
為了更精確地獲得相關系數ε取何值時實驗結果最優(yōu),本文繪制了ε-reSSIMAE曲線,如圖7(c)所示,reSSIMAE表示reSSIM與MAE的疊加值.當w2/w1=190時,reSSIM與MAE之和取最小值.根據該實驗結果,本文設置SMbGAN訓練過程中w1=1,w2=190.
優(yōu)化器是深度學習模型訓練過程中更新權重的工具,正確的優(yōu)化方式能夠加速網絡收斂,提高訓練效率.為了確定不同的優(yōu)化方式對SMbGAN訓練過程的影響,本文使用隨機梯度下降(SGD)、均方根比例(RMSProp)以及自適應矩估計(Adam)三種常見的優(yōu)化器在SMbGAN上進行了對比實驗,繪制了訓練過程中訓練輪數與判別器損失以及訓練輪數與L1損失曲線圖,如圖8所示.由于SGD采用固定學習率,優(yōu)化速率緩慢,因此使用SGD優(yōu)化器的判別器損失以及L1損失下降緩慢并且最終優(yōu)化效果差.RMSProp使用了自適應學習率,優(yōu)化效果要優(yōu)于SGD,但是優(yōu)化過程中會出現不穩(wěn)定現象,如圖8(b)所示,使用RMSProp的曲線在訓練輪數接近125時出現了突刺.Adam為目前最常用的深度學習優(yōu)化器,結合了RMSProp的自適應學習率并且將更新的步長限定在一定范圍內,提高了穩(wěn)定性.通過該對比實驗,SMbGAN選擇使用Adam作為優(yōu)化器.
(a) 判別器損失
(b) L1損失
被采集者在行走的過程中,由于個體行為習慣的差異以及采集時的心理因素,極少部分被采集者穿鞋與赤足圖像的壓力分布不一致,如圖9所示.圖9(a)中鞋印圖像與真實赤足圖像壓力分布一致,即真實赤足圖像的前掌部分以及足跟部分的壓力分布與鞋印圖像的對應區(qū)域壓力分布一致,圖9(b)中真實赤足圖像的前掌部分壓力分布與鞋印圖像的對應區(qū)域壓力分布不一致(真實赤足圖像的前掌壓力分布位于右側,鞋印位于左側),而經過SMbGAN輸出的赤足圖像的前掌壓力分布與鞋印圖像相同,均位于左側,說明本文提出的結構能夠有效關注鞋底壓力分布的規(guī)律,對標簽與輸入圖像的壓力分布差異進行修補.
(a) 鞋印圖像與真實赤足圖像壓力分布一致
(b) 鞋印圖像與真實赤足圖像壓力分布不一致
1) 為了解決在足跡識別領域鞋印圖像識別困難的問題,提出了一種對稱式多分支生成對抗網絡,實驗證明相比于其他結構,該結構反演出的足底壓力圖像與真實圖像在外形以及壓力分布方面相似度最高,真實赤足圖像與生成赤足圖像的SSIM值為0.988,MAE值為4.324,Rank1值為0.462.該算法為辦案人員提供了一種識別手段,將繁瑣的鞋印識別簡化成赤足足跡識別,通過赤足圖像能夠更快速地分析出目標人員的性別、身高以及年齡等身份信息,提高了辦案效率.
2) 本文構建了首個足底壓力數據集S2FD,該數據集包含695張足底壓力圖像以及與其對應的695張布鞋鞋底壓力圖像.S2FD為足跡領域的研究提供了數據支撐,旨在建立一個同人臉識別以及指紋識別類似的大規(guī)模數據庫,打開足跡識別的大門.