陳 壯, 賈成賀, 姜 紅
(1.甘肅政法大學(xué)司法警察學(xué)院(公安分院), 甘肅蘭州 730070;2.新疆維吾爾自治區(qū)公安廳科技信息化總隊,新疆維吾爾自治區(qū)烏魯木齊 830000;3.中國人民公安大學(xué)偵查學(xué)院, 北京 100038)
便利貼是一類常見書寫紙張,主要成分是纖維素。 在日常辦公及家庭生活中,便利貼使用比較廣泛,在各類犯罪現(xiàn)場,常常能夠提取到這類物證。 便利貼物證除了可能攜帶文字信息,還含有成分、廠家、產(chǎn)地等潛在信息,建立對此類物證準確無損的檢驗分析及識別分類的方法具有一定實際意義。
法庭科學(xué)領(lǐng)域中,紙張物證的檢驗方法主要有顯微共聚焦激光拉曼光譜、X 射線熒光光譜等方法[1-2]。 其中,顯微共聚焦激光拉曼光譜法是當分子受到激發(fā)光的照射后,分子與入射光子碰撞發(fā)生能級躍遷,進而產(chǎn)生的一種非彈性散射光譜[3]。 在檢驗紙張物證時,與其他技術(shù)相比,顯微共聚焦激光拉曼光譜法具有無需制樣[4]、檢測速度快、準確度高等優(yōu)勢,能夠克服紙張熒光干擾,并且在對紙張物證較小損傷的情況下,獲得更高的檢測限度,從而獲取紙張物證的化學(xué)成分等信息。 不同紙張物證成分不同,拉曼光譜具有一定的差異性,這是檢驗分析及識別分類紙張物證的基礎(chǔ)。
研究以36 個產(chǎn)自于北京市、上海市、浙江省等地區(qū)的不同廠家生產(chǎn)的便利貼樣品為研究對象,利用顯微共聚焦激光拉曼光譜法對其進行檢驗,利用主成分分析和K-means 算法構(gòu)建便利貼樣品分類模型,剔除冗雜拉曼光譜數(shù)據(jù),提取關(guān)鍵特征,確定最佳分類,并利用判別分析驗證分類模型的適用性和準確性,為基層民警開展偵查工作提供新方法。
產(chǎn)自于北京市、上海市、天津市、浙江省、廣東省、江蘇省等地區(qū)不同廠家生產(chǎn)的便利貼樣品共計36 個。 部分樣品信息見表1。
表1 部分樣品信息
所用實驗儀器為顯微共聚焦激光拉曼光譜儀,采用波段785 nm 激光作為激發(fā)光源,測量波段范圍100 cm-1~1 400 cm-1,儀器相關(guān)信息及實驗條件見表2。 該儀器利用激光作為激發(fā)光源,提高了樣品測定結(jié)果的準確度,且測定樣品前無需提前制樣,具有操作便捷、結(jié)果準確等優(yōu)勢[5-6]。
表2 儀器信息及實驗條件
首先,在上述實驗條件下,采集36 個樣品的拉曼光譜數(shù)據(jù),進行基線修正、光譜曲線平滑等預(yù)處理,保證光譜數(shù)據(jù)更加嚴謹;將數(shù)據(jù)標準化處理,以消除不同光譜數(shù)據(jù)量綱間的差異對分類模型的影響[7];其次,依據(jù)標準化后的拉曼光譜數(shù)據(jù),利用主成分分析和K-means 算法建立便利貼樣品分類模型,并依據(jù)聚類系數(shù)確定最佳分類;最后,利用判別分析驗證樣品分類模型的有效性和適用性。 以上過程由Origin、PYTHON、SPSS 軟件實現(xiàn)。
1.4.1 主成分分析
利用主成分分析算法對采集到的拉曼光譜數(shù)據(jù)提取主成分,降低光譜數(shù)據(jù)集的維數(shù),將多個數(shù)據(jù)變量轉(zhuǎn)化為少數(shù)幾個方差貢獻最大的特征,保留數(shù)據(jù)主要信息,最大限度減少損失,以最少綜合指標描述樣品拉曼光譜數(shù)據(jù)集,降低后續(xù)數(shù)據(jù)處理計算量[8]。
主成分分析主要流程及原理如下[9]。
(1)構(gòu)造樣品拉曼光譜數(shù)據(jù)矩陣X
(4)計算相關(guān)系數(shù)矩陣C,求解特征值λi(i=1,2,3…m)及對應(yīng)的特征向量U=(U1i,U2i,U3i,…Umi)T,具體公式為:
式中,各特征值大小關(guān)系為:λ1>λ2>λ3,…λm。
(5)構(gòu)造樣品拉曼光譜數(shù)據(jù)第k個主成分并求解第k個主成分的方差貢獻率Rk(k=1,2,3…,m),具體公式為:
在實際應(yīng)用中,通常提取累積方差貢獻率85%以上的主成分或者提取特征值大于等于1 的主成分。
1.4.2 K-means 聚類及聚類系數(shù)
K-means 是無監(jiān)督聚類方法,需要預(yù)先設(shè)定聚類類別數(shù)K。 評價聚類效果的方法主要有聚類系數(shù)、輪廓系數(shù)等方法。 其中,聚類系數(shù)反映了聚類樣品間結(jié)集成團的程度。 本文利用聚類系數(shù)評價K-means聚類性能,確定最佳聚類類別數(shù)K值。 利用K-means 聚類達到最佳聚類類別時,反映到聚類系數(shù)與聚類類別數(shù)K值之間的關(guān)系為:最佳聚類類別數(shù)K值前后,聚類系數(shù)變化趨勢大,且變化趨勢逐漸趨于緩和,即出現(xiàn)“拐點”[11]。
36 個便利貼樣品拉曼光譜經(jīng)基線校正、曲線平滑得到的光譜圖如圖1 所示。 便利貼作為紙張的一種,基本成分是植物纖維素,同時也添加有碳酸鈣、高嶺土等填料,用以提升紙張各項性能,不同廠家生產(chǎn)的便利貼所添加的填料成分和含量不同,在拉曼光譜中特征峰的峰位、峰強及峰的面積表現(xiàn)有一定區(qū)別,這是便利貼樣品科學(xué)準確分類的基礎(chǔ)[12]。本工作利用主成分分析法和K-means 聚類將36 個樣品進行科學(xué)準確的分類。
圖1 36 個樣品拉曼光譜
將36 個樣品的拉曼光譜數(shù)據(jù)進行標準化處理,消除不同量綱光譜數(shù)據(jù)對后續(xù)樣品分類模型效能的影響。 利用主成分分析法對36 個便利貼樣品的拉曼光譜數(shù)據(jù)降維并提取特征值大于等于1 的主成分。 經(jīng)計算,提取出PC1、PC2 和PC3 共計3 個主成分(見表3),3 個主成分特征值和方差貢獻率不同,包含原始光譜數(shù)據(jù)信息百分比不同。 由表3 可知,PC1、PC2 和PC3 這3 個主成分特征值均大于1,累計貢獻率為99.918%,這表明PC1、PC2 和PC3 這3個主成分包含了36 個便利貼樣品原始拉曼光譜數(shù)據(jù)絕大部分信息。
表3 主成分方差貢獻率
36 個樣品拉曼光譜數(shù)據(jù)標準化處理后,經(jīng)主成分分析算法計算并降維得到PC1、PC2 和PC3 共計3 個主成分,將這3 個主成分作為K-means 聚類的初始數(shù)據(jù)集。 利用K-means 聚類算法對36 個便利貼樣品進行聚類分析。 K-means 聚類作為無監(jiān)督學(xué)習算法,需要預(yù)先指定聚類類別數(shù)K值,考慮到公安機關(guān)辦案的實際情況,確定的便利貼樣品分類數(shù)目對于縮小偵查范圍具有重要意義,因此,本研究K值選取范圍設(shè)定為1 ~36。 為確定最佳聚類數(shù)K值,描述聚類樣品間結(jié)集成團的程度,計算不同聚類類別數(shù)K值對應(yīng)的聚類系數(shù),繪制K值與聚類系數(shù)關(guān)系圖(見圖2)。
圖2 K 值與聚類系數(shù)關(guān)系圖
由圖2 可知,隨著聚類類別數(shù)K值的增大,聚類系數(shù)逐漸減小,不同K值所對應(yīng)的聚類系數(shù)變化趨勢不同,當聚類類別數(shù)K值為6 時,K值與聚類系數(shù)曲線出現(xiàn)“拐點”,“拐點”前后聚類系數(shù)變化趨勢顯著不同,當K值大于6 時,聚類系數(shù)變化逐漸趨于緩和,因此確定36 個便利貼樣品利用K-means 聚類聚為6 類時為最佳聚類類別,36 個便利貼樣品K-means聚類結(jié)果見表4。 為了使K-means 聚類結(jié)果更加清晰的可視化,將6 種不同類別的便利貼樣品投影至以主成分PC1 和主成分PC2 為坐標軸構(gòu)成的主成分得分圖(見圖3)中。 由圖3 可以看出,36 個便利貼樣品被聚為6 類時,每個類別樣品界限清晰,相似度越高的樣品在圖中的位置越接近,類別內(nèi)樣品差異較小,類別間樣品差異較大,這驗證了K-means 聚類結(jié)果的準確性和科學(xué)性。 由K-means聚類結(jié)果可知, 32#、36#(產(chǎn)地為上海市)兩個樣品被聚為一類。 2#、34#(產(chǎn)地為江蘇省)兩個樣品被聚為一類,產(chǎn)地為浙江省的樣品大部分都被聚為一類,同一產(chǎn)地的樣品聚合性比較好,這對于公安機關(guān)來講,在面對現(xiàn)場便利貼物證時,利用顯微共聚焦激光拉曼光譜法結(jié)合主成分分析及K-means 聚類一定程度上可以幫助公安機關(guān)做出產(chǎn)地、廠家等信息的傾向性認定,從而縮小偵查范圍,提升破案效率。
圖3 36 個樣品主成分得分圖
表4 K-means 聚類結(jié)果
在知曉樣品分類標簽的前提下,將已知的樣品數(shù)據(jù)與實際類別作為訓(xùn)練樣本,可以利用判別分析建立若干判別函數(shù),計算樣品數(shù)據(jù)相關(guān)指標,判別樣品歸屬類別[13-14]。 在進行判別分析前,需要已知樣品的實際分類標簽,因此,判別分析是一種有監(jiān)督的機器學(xué)習算法,可以判別樣品分類是否正確。
研究利用2.1 中36 個便利貼樣品拉曼光譜數(shù)據(jù)經(jīng)主成分分析得到的3 個主成分PC1、PC2,以PC3 和K-means 聚類結(jié)果作為判別分析建模初始數(shù)據(jù)集,依據(jù)判別分析原理,計算標準化典則判別函數(shù)系數(shù)(見表5),建立了3 個判別函數(shù)f(PC1 ~PC3)1、f(PC1 ~PC3)2和f(PC1 ~PC3)3。
表5 判別函數(shù)系數(shù)
3 個判別函數(shù)如下:
計算3 個判別函數(shù)f(PC1 ~PC3)1、f(PC1 ~PC3)2和f(PC1 ~PC3)3的方差貢獻率,見表6,判別函數(shù)f(PC1 ~PC3)1、f(PC1 ~PC3)2和f(PC1 ~PC3)3的方差貢獻率分別為76.5%、13.1%和10.4%,累計貢獻率為100%,表明這3 個函數(shù)可解釋便利貼樣品拉曼光譜數(shù)據(jù)3 個主成分PC1、PC2和PC3 所有信息,3 個判別函數(shù)可以用于判別36 個便利貼樣品的類別。 基于K-means 聚類結(jié)果,對36個便利貼樣品分類進行判別分析,結(jié)果見表7。 由表7 可知,36 個便利貼樣品原始分類正確率為100%,錯誤率為0。 交叉驗證分類正確率為97.22%,僅第6 類的21#便利貼樣品分類錯誤。 這表明本工作所建立的基于主成分分析和K-means 的便利貼樣品分類模型適用性和準確性較好。
表6 判別函數(shù)方差貢獻率
表7 判別分析結(jié)果
顯微共聚焦激光拉曼光譜法作為一種光學(xué)檢驗方法,可以快速準確采集便利貼樣品拉曼光譜數(shù)據(jù)。依據(jù)主成分分析和K-means 聚類實現(xiàn)便利貼樣品拉曼光譜降維,提取了3 個特征值大于等于1 且累計貢獻率85%以上的主要成分并建立了便利貼樣品分類模型。 利用K值與聚類系數(shù)之間的關(guān)系確定36 個便利貼樣品最佳聚類數(shù)為6 類。 為了檢驗分類模型的效能,本文利用判別分析建立了3 個判別函數(shù),并對K-means 聚類結(jié)果進行判別。 結(jié)果表明,36 個便利貼樣品聚為6 類時,原始分類正確率和交叉驗證分類正確率分別為100%和97.22%,判別結(jié)果說明基于主成分分析和K-means 聚類便利貼樣品顯微共聚焦激光拉曼光譜分類模型有效且適用。
研究中存在實驗所用便利貼樣品量較少、缺少對便利貼樣品拉曼光譜的定性與定量分析、便利貼樣品分類不細化、缺乏實際案例應(yīng)用等問題,這些問題需要在今后深入研究。