劉 偉,姜樂(lè)怡,朱婷鴿,李 源,李大湘,劉 穎
(1.西安郵電大學(xué) 計(jì)算機(jī)學(xué)院, 陜西 西安 710121;2.痕跡檢驗(yàn)鑒定技術(shù)公安部重點(diǎn)實(shí)驗(yàn)室,遼寧 沈陽(yáng) 110854;3.西安郵電大學(xué) 電子信息現(xiàn)場(chǎng)勘驗(yàn)應(yīng)用技術(shù)公安部重點(diǎn)實(shí)驗(yàn)室, 陜西 西安 710121;4.西安郵電大學(xué) 通信與信息工程學(xué)院, 陜西 西安 710121)
鞋印是案發(fā)現(xiàn)場(chǎng)中常見(jiàn)的一種物證痕跡,也是案件偵破中的重要線索[1-3]。統(tǒng)計(jì)數(shù)據(jù)表明,超過(guò)30%的盜竊案件現(xiàn)場(chǎng)都會(huì)發(fā)現(xiàn)有價(jià)值的鞋印痕跡[2]。刑事偵查中查詢(xún)比對(duì)現(xiàn)場(chǎng)鞋印圖像是串并案分析以及為訴訟提供物證的重要技術(shù)支撐[4-6]。隨著信息技術(shù)快速發(fā)展和廣泛應(yīng)用,刑偵部門(mén)亟需面向大規(guī)模鞋印圖像精確和高效的自動(dòng)檢索系統(tǒng)。
鞋印圖像的復(fù)雜性主要表現(xiàn)在3個(gè)方面:一是案發(fā)現(xiàn)場(chǎng)鞋印圖像可能呈現(xiàn)在各種各樣的物理表面上;二是案發(fā)現(xiàn)場(chǎng)鞋印圖像往往是不完整的,且包含大量噪聲數(shù)據(jù);三是鞋型生產(chǎn)廠家及型號(hào)眾多,鞋印花紋類(lèi)別數(shù)目較多、差異大。因此,鞋印圖像檢索是一個(gè)極具專(zhuān)業(yè)性的重要問(wèn)題。
圖像檢索研究歷經(jīng)了基于文本的圖像檢索(Text-Based Image Retrieval,TBIR)和基于內(nèi)容的圖像檢索(Content-Based Image Retrieval,CBIR)兩個(gè)階段。TBIR采用文本信息編碼圖像像素內(nèi)容并進(jìn)行文本匹配[7-8]。這種方法需要手工編碼,無(wú)法實(shí)現(xiàn)圖像自動(dòng)分析與檢索。CBIR基于圖像像素內(nèi)容,采用特征提取和機(jī)器學(xué)習(xí)技術(shù),建立圖像底層像素內(nèi)容和圖像高層語(yǔ)義之間的聯(lián)系,從而實(shí)現(xiàn)圖像的自動(dòng)分析與檢索[7-9]。圖像檢索理論和方法在國(guó)內(nèi)外已有較多研究進(jìn)展,而鞋印圖像屬于刑偵現(xiàn)勘圖像,數(shù)據(jù)來(lái)源相對(duì)較特殊,研究相對(duì)較少[9]。本文擬從TBIR、底層視覺(jué)特征提取、高層語(yǔ)義學(xué)習(xí)、鞋印圖像數(shù)據(jù)庫(kù)、檢索結(jié)果評(píng)價(jià)以及公安行業(yè)應(yīng)用場(chǎng)景等方面對(duì)鞋印圖像檢索的研究現(xiàn)狀進(jìn)行綜述,結(jié)合公安刑偵領(lǐng)域的實(shí)際需求,探討鞋印圖像檢索技術(shù)的未來(lái)研究趨勢(shì)。
早期對(duì)鞋印圖像檢索的研究,是利用TBIR方法。這種方法先采用文本編碼對(duì)鞋印圖像中的鞋掌區(qū)和鞋弓區(qū)等各個(gè)區(qū)域的花紋特征進(jìn)行描述,然后將圖像檢索轉(zhuǎn)換為文本檢索,使用成熟的關(guān)系數(shù)據(jù)庫(kù)技術(shù)對(duì)文本進(jìn)行查詢(xún)以匹配鞋印圖像。顯然,這種方式需要手工編碼,不能實(shí)現(xiàn)自動(dòng)檢索,編碼主觀性對(duì)檢索結(jié)果也有影響。此外,案發(fā)現(xiàn)場(chǎng)采集的鞋印圖像往往是不完整的,且包含大量噪聲數(shù)據(jù),這會(huì)導(dǎo)致編碼失效。國(guó)外對(duì)TBIR方法研究比較早,如Sawyer等[10]使用文本編碼檢索鞋印圖像;文獻(xiàn)[2]研究如何使用文本編碼檢索盜竊案嫌疑人的鞋印圖像;文獻(xiàn)[11]用文本編碼可以檢出案件現(xiàn)場(chǎng)鞋印的品牌和型號(hào),并設(shè)計(jì)了相應(yīng)的軟件原型系統(tǒng)。國(guó)內(nèi)也有類(lèi)似研究,如文獻(xiàn)[12-13]討論了計(jì)算機(jī)技術(shù)在鞋印數(shù)據(jù)庫(kù)管理方面的可行性,提出采用文本編碼解決鞋印圖像檢索問(wèn)題。
CBIR是目前鞋印圖像檢索的主流方法之一,其通過(guò)某種算法提取數(shù)據(jù)庫(kù)圖像的紋理和形狀等低層特征,形成一個(gè)特征庫(kù),然后計(jì)算查詢(xún)圖像的特征并采用特征度量或機(jī)器學(xué)習(xí)方法與特征庫(kù)進(jìn)行匹配以尋找相似圖像[7-9]。鞋印圖像檢索的CBIR方法框架示意圖如圖1所示。
圖1 鞋印圖像檢索的CBIR方法框架
CBIR中的關(guān)鍵技術(shù)包括底層視覺(jué)特征提取和高層語(yǔ)義學(xué)習(xí),而前者又分為全局特征和局部特征。
利用全局特征算法處理整幅圖像,可以得到表示圖像像素內(nèi)容的特征。Zhang等[14]使用Canny算子檢測(cè)鞋印圖像邊緣信息,并構(gòu)建了72柄的邊緣方位直方圖特征用于檢索。Bouridane等[15]提出了一種基于分形迭代的鞋印圖像特征提取與匹配方法,其對(duì)于圖像旋轉(zhuǎn)或平移具有一定的魯棒性。AlGarni等[16]使用Hu不變矩形狀特征用于鞋印圖像檢索。Patil等[17]通過(guò)Gabor全局特征和Radon變換,提出了一種旋轉(zhuǎn)和亮度不變的鞋印圖像匹配方法。Tang等[18]利用屬性關(guān)系圖(Attributed Relational Graph,ARG)描述鞋印圖像中直線和圓等基本幾何形狀之間的相互位置關(guān)系,提出基于泥土搬運(yùn)工算法(Earth Mover’s Distance,EMD)的鞋印圖像距離(Footwear Print Distance,F(xiàn)PD)算法進(jìn)行圖像匹配。Kortylewski等[19]和Speir等[20]均采用了傅里葉變換特征的方法用于鞋印圖像檢索。Wang等[21]研究了具有全局不變性的小波-傅里葉變換特征在鞋印圖像檢索中的應(yīng)用。Cui等[22]提出神經(jīng)編碼(Neural Code,NC)特征提取算法,分別計(jì)算腳掌和腳跟部分的NC特征并用于檢索。柯少卿[23]提出一種針對(duì)鞋印圖像的分塊分類(lèi)算法,采用灰度共生矩陣,以及在小波分解基礎(chǔ)上構(gòu)造的相鄰尺度共生矩陣的Haralick統(tǒng)計(jì)量作為紋理特征,使用聚類(lèi)分析完成鞋印圖像分類(lèi)。牛瑞娟[24]采用基于二維屬性直方圖的最大類(lèi)間方差法對(duì)足跡圖像進(jìn)行分割并計(jì)算分割后圖像面積、長(zhǎng)寬比和緊實(shí)度等特征用于分類(lèi)。劉家浩[25]提出基于Log-Gabor濾波器簇的紋理特征以及基于傅氏變換自配準(zhǔn)性的投影傅氏幅度譜紋理特征用于鞋印圖像檢索。閔曉豐[26]利用圖像頻譜直方圖尋找鞋印圖像的特征線和特征圓以實(shí)現(xiàn)鞋底花紋分類(lèi)。
上述研究表明,基于頻域分析的全局特征,如小波、Gabor和傅里葉變換特征等更能表達(dá)鞋印圖像內(nèi)容的特征。但是,對(duì)取自案發(fā)現(xiàn)場(chǎng)的鞋印圖像而言,其不完整且包含噪聲,限制了全局特征的作用。
為了處理案發(fā)現(xiàn)場(chǎng)鞋印圖像不完整且包含噪聲的問(wèn)題,將尺度不變特征變換算子[27](Scale-Invariant Feature Transform,SIFT)等多種局部特征用于鞋印圖像檢索已取得了較好結(jié)果。局部特征算法先對(duì)圖像進(jìn)行分析,得到圖像中包含豐富紋理或形狀信息位置的一系列“興趣點(diǎn)”,如目標(biāo)輪廓,然后提取這些興趣點(diǎn)周?chē)木植啃畔⒉⑵湔闲纬商卣鳌>植刻卣髅枋隽藞D像中的不變屬性,可以有效處理鞋印圖像不完整、旋轉(zhuǎn)和含噪聲等問(wèn)題。圖2(a)和圖2(b)分別為完整鞋印和案發(fā)現(xiàn)場(chǎng)不完整鞋印SIFT特征提取示意圖。從圖2可以看出,SIFT特征集中在邊緣及紋理信息豐富的區(qū)域,有效地描述了鞋印圖像內(nèi)容。
圖2 鞋印圖像SIFT特征提取
針對(duì)案發(fā)現(xiàn)場(chǎng)采集的鞋印圖像殘缺不全及含有噪聲的特點(diǎn),Wei等[28]采用SIFT算子用于鞋印圖像識(shí)別與檢索。Luostarinen等[29]使用3個(gè)鞋印圖像數(shù)據(jù)庫(kù),評(píng)估了幾種鞋印圖像識(shí)別算法的性能,得出局部特征性能較好。Su等[30]提出的MHL(Modified Harris-Laplace)和增強(qiáng)SIFT兩種描述圖像局部特征的算子,檢索性能優(yōu)于功率譜及邊緣方向直方圖等全局特征。Pavlou等人[31]采用最大極值穩(wěn)定區(qū)域(Maximally Stable Extremal Regions,MSER)方法檢測(cè)特征點(diǎn),計(jì)算其SIFT特征,同樣使用了局部特征用于鞋印圖像檢索。針對(duì)旋轉(zhuǎn)的部分鞋印圖像檢索問(wèn)題,Nibouche等人[32]提出利用SIFT特征描述圖像內(nèi)容,通過(guò)隨機(jī)抽樣一致(Random Sample Consensus,RANSAC)算法進(jìn)行匹配,該方法在部分鞋印圖像檢索中取得了較好的結(jié)果。Richetelli等人[33]對(duì)比了傅里葉-梅林、相位關(guān)聯(lián)以及SIFT特征加RANSAC算法匹配等方法用于鞋印圖像分類(lèi)的性能。Gwo等[34]提出關(guān)鍵點(diǎn)配準(zhǔn)方法用于鞋印圖像匹配。該方法首先將鞋印圖像二值化,然后檢測(cè)其中的輪廓點(diǎn),選擇穩(wěn)定的輪廓點(diǎn)并使用曲線擬合方法生成鞋印左右兩側(cè)的邊界線,關(guān)鍵點(diǎn)定義為左右兩側(cè)邊界線上的凹點(diǎn)。最后,將鞋印圖像分區(qū)為圓形區(qū)域并計(jì)算這些區(qū)域的Zernike矩特征,將其用于圖像匹配。上述研究表明,局部特征在鞋印圖像檢索中的魯棒性?xún)?yōu)于全局特征。
由圖1可知,得到鞋印圖像特征后,采用度量函數(shù)或機(jī)器學(xué)習(xí)方法可尋找相似圖像。早期的CBIR研究中,多采用距離函數(shù)如歐式距離計(jì)算查詢(xún)圖像特征與數(shù)據(jù)庫(kù)圖像特征之間的距離以得到匹配圖像[16,28]。然而,“語(yǔ)義溝”[7-8]的存在,導(dǎo)致這種匹配方式的精度并不高。
為了改善此問(wèn)題,機(jī)器學(xué)習(xí)方法被用于鞋印圖像語(yǔ)義學(xué)習(xí)以提高檢索精度。Geradts等[35]較早將機(jī)器學(xué)習(xí)方法用于鞋印圖像分類(lèi)與檢索。通過(guò)分割鞋印圖像的輪廓,計(jì)算其傅里葉變換特征,并使用3層神經(jīng)網(wǎng)絡(luò)對(duì)鞋的型號(hào)進(jìn)行自動(dòng)分類(lèi)。Chazal等[36]利用傅里葉功率譜密度(Power Spectral Density,PSD)函數(shù)校正輸入的傾斜鞋印圖像,并將校正后的圖像通過(guò)相關(guān)度計(jì)算確定他們之間的相似性以實(shí)現(xiàn)匹配。Alizadeh等[37]將稀疏表示方法引入鞋印圖像檢索與分類(lèi)。Wang等[38]研究了流形排序方法在鞋印圖像檢索中的應(yīng)用,并在包含10 096幅案發(fā)現(xiàn)場(chǎng)圖像數(shù)據(jù)庫(kù)上取得了較好的檢索效果。Wu等[38]提出了一種融合樣本鄰居信息的相似性度量方法,采用混合特征在文獻(xiàn)[39]中的數(shù)據(jù)庫(kù)進(jìn)行鞋印圖像檢索;王行行[40]提出了針對(duì)鞋底花紋圖像的語(yǔ)義表達(dá)框架、圖像整體性語(yǔ)義提取算法和局部性語(yǔ)義表達(dá)算法。舒瑩瑩[41]研究了基于聚類(lèi)的鞋印圖像檢索算法。深度學(xué)習(xí)相對(duì)于傳統(tǒng)的單隱層淺層學(xué)習(xí),可進(jìn)行多隱含層人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),將高維數(shù)據(jù)轉(zhuǎn)換為低維編碼,能更準(zhǔn)確地描述數(shù)據(jù),已在自然圖像分類(lèi)與檢索中取得了巨大進(jìn)展[42-43],因此,很多研究將其用于鞋印圖像檢索。Kong等[44]使用預(yù)訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Nets,CNN)提取鞋印圖像特征并提出多通道歸一化交叉關(guān)聯(lián)(Multi-Channel Normalized Cross-Correlation,MCNCC)方法用于相似性度量。Zhang等[45]先在ImageNet圖像庫(kù)上訓(xùn)練計(jì)算機(jī)視覺(jué)組(Visual Geometry Group,VGG)16網(wǎng)絡(luò),然后采用圖像變換擴(kuò)展數(shù)據(jù)庫(kù)容量,改善了深度學(xué)習(xí)需要大樣本數(shù)據(jù)進(jìn)行訓(xùn)練的問(wèn)題,提高了檢索精度。Cui等[46]使用可去噪的深度信念網(wǎng)絡(luò)(Deep Belief Network,DBN)提取案發(fā)現(xiàn)場(chǎng)鞋印圖像的局部特征并采用空間金字塔匹配(Spatial Pyramid Matching,SPM)算法進(jìn)行檢索,在包含34 768幅圖像數(shù)據(jù)庫(kù)上的檢索精度和檢索速度上優(yōu)于其他方法。Ma等[47]提出多部件加權(quán)卷積神經(jīng)網(wǎng)絡(luò)(Multi-Part weighted Convolutional Neural Network,MP-CNN)用于鞋印圖像檢索。該方法首先將鞋印圖像沿垂直方向分為兩個(gè)部件并使用系數(shù)共享的網(wǎng)絡(luò)分別提取這兩個(gè)部件的特征,然后計(jì)算各部分特征的權(quán)重矩陣并采用三元特征損失函數(shù)度量圖像相似性。張弛[48]將卷積神經(jīng)網(wǎng)絡(luò)用于鞋印圖像分類(lèi),研究了如何在小樣本數(shù)據(jù)上訓(xùn)練分類(lèi)模型,并在訓(xùn)練數(shù)據(jù)擴(kuò)展、參數(shù)初始化和模型精簡(jiǎn)等3個(gè)方面進(jìn)行研究。上述研究表明,深度學(xué)習(xí)方法在鞋印圖像檢索中也取得了一定的成功。深度模型提取的特征具有和局部特征類(lèi)似的優(yōu)點(diǎn),即具有一定的魯棒性。同時(shí),深度方法避免了圖像分割且不需要設(shè)計(jì)特征提取算法。
鞋印圖像檢索研究的數(shù)據(jù)來(lái)源主要包括采集自案發(fā)現(xiàn)場(chǎng)的鞋印圖像、使用足跡采集儀等設(shè)備采集的數(shù)據(jù),以及鞋型生產(chǎn)廠家提供的數(shù)據(jù),如圖3所示。目前,鞋印檢索公開(kāi)的數(shù)據(jù)庫(kù)較少,主要有公安部重點(diǎn)實(shí)驗(yàn)室所建成的鞋印圖像數(shù)據(jù)庫(kù)[9],包含了555張案發(fā)現(xiàn)場(chǎng)鞋印圖像和1 925張自行采集及合成的鞋印圖像;Richetelli等人構(gòu)建的混合數(shù)據(jù)庫(kù)[33],包含了100張高質(zhì)量鞋印圖像及172張作案現(xiàn)場(chǎng)圖像,其中32張基于血跡和灰塵等不同媒介類(lèi)型;FID-300鞋印圖像數(shù)據(jù)庫(kù)[49],包含了1 175張圖像。
圖3 鞋印圖像采集
鞋印圖像檢索結(jié)果評(píng)價(jià)方法主要包括查準(zhǔn)率和查全率、歸一化折損累積增益(Normalized Discounted Cumulative Gain,NDCG)、累積匹配特性曲線和AMS(Average Match Score)等4個(gè)指標(biāo)。查準(zhǔn)率是指系統(tǒng)返回的相似圖像數(shù)占全部返回圖像數(shù)的比例,查全率是指系統(tǒng)返回的相似圖像數(shù)占全部相似圖像數(shù)的比例,此外,查全率-查準(zhǔn)率曲線也經(jīng)常使用,即以查全率為橫坐標(biāo),查準(zhǔn)率為縱坐標(biāo)所繪制的曲線。NDCG反映了一組查詢(xún)圖像檢索性能的平均情況,對(duì)每一項(xiàng)的相關(guān)評(píng)分值除以排序值對(duì)應(yīng)的遞增的對(duì)數(shù)值,即折損值,再進(jìn)行累加,并將結(jié)果進(jìn)行歸一化。累積匹配特性曲線適用于查詢(xún)圖像在參考數(shù)據(jù)庫(kù)中只有一個(gè)相關(guān)記錄的情況,主要通過(guò)描述前n%的累積匹配分?jǐn)?shù)(Cumlative Match Score,CMS)得到,繪制曲線時(shí),橫坐標(biāo)是排好序的圖像數(shù)據(jù)集的前n%,縱坐標(biāo)是累積匹配分?jǐn)?shù)。AMS是在正確匹配目標(biāo)圖像之前需要進(jìn)行比較的數(shù)據(jù)庫(kù)類(lèi)別的平均百分比。
鞋印圖像檢索研究來(lái)源于公安刑偵領(lǐng)域的應(yīng)用需求。如馬李芬[5]對(duì)入室作案現(xiàn)場(chǎng)殘缺鞋印形成的原因進(jìn)行了詳細(xì)分析。孟小平等[4]提出了一種對(duì)同一個(gè)人穿不同鞋形成的足跡技術(shù)檢驗(yàn)方法。通過(guò)對(duì)現(xiàn)場(chǎng)鞋印進(jìn)行分析,可以反映出穿鞋人的行走習(xí)慣特性和腳型輪廓。高毅[52]提出一種利用不同種類(lèi)鞋印長(zhǎng)度推斷身高差值的方法?;诓杉恼P凶叽┬瑯颖九c赤足樣本圖像,分析其差值數(shù)據(jù),歸納總結(jié)出常見(jiàn)鞋種的差值系數(shù)從而推斷身高范圍。王彪等[6]分析了對(duì)不同花紋鞋印的同一認(rèn)定方法,指出起落腳方向、壓痕的凹凸形態(tài)和蹬痕方向等特點(diǎn)表現(xiàn)出來(lái)的形狀、長(zhǎng)寬及深淺(濃淡)等可作為同一認(rèn)定的細(xì)節(jié)特征。
“電子信息現(xiàn)場(chǎng)勘驗(yàn)應(yīng)用技術(shù)公安部重點(diǎn)實(shí)驗(yàn)室”團(tuán)隊(duì)在鞋印圖像檢索研究方面也取得了一定的進(jìn)展[51-54]。文獻(xiàn)[52]使用多示例學(xué)習(xí)(Multi-Instance Learning,MIL)模型進(jìn)行鞋印圖像檢索以提高檢索精度。文獻(xiàn)[51,53-54]研究了大規(guī)模鞋印數(shù)據(jù)庫(kù)中的檢索實(shí)時(shí)性問(wèn)題。文獻(xiàn)[51]和文獻(xiàn)[53]分別使用局部敏感哈希(Locality Sensitive Hashing,LSH)索引和反向索引以實(shí)現(xiàn)鞋印圖像的快速檢索。文獻(xiàn)[54]針對(duì)公安部門(mén)鞋印圖像數(shù)量不斷增加的應(yīng)用需求,提出一種基于詞匯樹(shù)的檢索方法以實(shí)現(xiàn)數(shù)據(jù)庫(kù)容量動(dòng)態(tài)變化時(shí)的可伸縮檢索。
結(jié)合圖像檢索技術(shù)的發(fā)展以及公安刑偵領(lǐng)域的實(shí)際應(yīng)用需求,指出以下3點(diǎn)未來(lái)研究趨勢(shì)。
1)結(jié)合刑偵領(lǐng)域?qū)<医?jīng)驗(yàn)設(shè)計(jì)鞋印圖像檢索系統(tǒng)。根據(jù)刑偵領(lǐng)域?qū)<业慕?jīng)驗(yàn),了解鞋印圖像檢索的實(shí)際需求,將其轉(zhuǎn)化為計(jì)算機(jī)算法。只有這樣才能真正將計(jì)算機(jī)技術(shù)應(yīng)用到刑偵領(lǐng)域中,設(shè)計(jì)出可應(yīng)用于刑偵實(shí)踐的智能鞋印圖像檢索系統(tǒng)。
2)建立大規(guī)模鞋印圖像數(shù)據(jù)庫(kù)。在已有研究中,使用的鞋印數(shù)據(jù)庫(kù)和公安實(shí)戰(zhàn)要求有較大差距,不少研究工作僅使用數(shù)百幅鞋印圖像進(jìn)行實(shí)驗(yàn)。此外,目前公開(kāi)的鞋印圖像數(shù)據(jù)庫(kù)較少,不利于同行之間的交流以及研究成果的評(píng)測(cè)。構(gòu)建數(shù)十萬(wàn)甚至百萬(wàn)級(jí)規(guī)模的鞋印圖像數(shù)據(jù)庫(kù),是鞋印圖像檢索研究的未來(lái)重要工作。
3)基于深度學(xué)習(xí)的檢索算法設(shè)計(jì)。深度學(xué)習(xí)模型具有自動(dòng)挖掘圖像底層特征并避免繁難圖像分割的優(yōu)點(diǎn),其在鞋印圖像檢索中的有效性也得到了證明[44-48],未來(lái)可繼續(xù)研究深度學(xué)習(xí)模型在鞋印圖像檢索中的應(yīng)用。
圖像檢索技術(shù)現(xiàn)已相當(dāng)成熟,但由于鞋印圖像的復(fù)雜性,鞋印圖像檢索仍然是一個(gè)極具挑戰(zhàn)性的研究問(wèn)題。通過(guò)總結(jié)鞋印圖像檢索技術(shù)的研究現(xiàn)狀,為鞋印圖像檢索在公安刑偵領(lǐng)域內(nèi)的應(yīng)用指出了未來(lái)研究趨勢(shì)。