衛(wèi)辰潔,王繼芬*,張 波,董 澤,管建皓
(1.中國人民公安大學(xué) 偵查學(xué)院,北京 102600;2.伊犁州伊寧市公安局,新疆 伊寧 835000;3.中國 人民公安大學(xué) 治安學(xué)院,北京 102600;4.中國人民公安大學(xué) 犯罪學(xué)學(xué)院,北京 102600)
礦物油的檢驗與鑒定是法庭科學(xué)領(lǐng)域的重要工作之一。其中,重質(zhì)礦物油是一種由石油分餾且沸點較高的礦物油,在日常生活中被作為工業(yè)原料廣泛應(yīng)用于機械潤滑、汽車修理、交通運輸?shù)阮I(lǐng)域。它的成分復(fù)雜、種類繁多,不同品牌和類別的重質(zhì)礦物油在組成成分和加工工藝上存在很多差異[1-2]。在縱火、焚尸、兇殺、交通肇事等案件現(xiàn)場中,經(jīng)常會提取到相關(guān)的物證。通過對現(xiàn)場提取的重質(zhì)礦物油物證和犯罪嫌疑人處提取的重質(zhì)礦物油物證進行比對檢驗,可為確定犯罪嫌疑人提供線索和依據(jù)。
光譜組合技術(shù)在分析測試領(lǐng)域具有良好的應(yīng)用前景。通過光譜組合技術(shù)將多種光譜數(shù)據(jù)矩陣進行結(jié)合,可以避免單一光譜和數(shù)據(jù)矩陣信息不夠豐富的缺點,綜合多種數(shù)據(jù)所包含的信息進行分析,從而獲得更全面有效的光譜和數(shù)據(jù)信息。利用不同數(shù)據(jù)的冗余特征與互補特征重新進行信息的組合,克服了單獨一種光譜或一種數(shù)據(jù)存在的弊端,實現(xiàn)了光譜特征或?qū)?yīng)數(shù)據(jù)特征的優(yōu)勢互補,可達到優(yōu)化實驗數(shù)據(jù)的目的。目前,針對光譜數(shù)據(jù)組合的研究較少,在法庭科學(xué)領(lǐng)域更是少之又少。胡翼然等[3]利用光譜數(shù)據(jù)組合的策略對絨柄牛肝菌的產(chǎn)地進行探究,通過結(jié)合隨機森林算法對多種特征值進行提取,比較其對算法分類準確率的影響,實現(xiàn)了對絨柄牛肝菌產(chǎn)地的快速、準確和廉價的鑒別。傅里葉變換拉曼光譜分析法結(jié)合近紅外激光拉曼技術(shù)和傅里葉變換技術(shù),具有不損壞樣品、掃描速度快、靈敏度高、操作簡單、樣品用量少等特點,在化工材料[4-5]、食品安全[6]、環(huán)境污染[7-8]、藥品原輔料[9]等檢測領(lǐng)域得到應(yīng)用。在法庭科學(xué)領(lǐng)域,傅里葉變換拉曼光譜分析技術(shù)應(yīng)用相對較少,主要用于幾種常見物證的檢驗[10-11]。
基于快速、無損、準確檢驗物證的目的,本文利用傅里葉變換拉曼光譜技術(shù)采集了重質(zhì)礦物油樣本的原始光譜、一階導(dǎo)數(shù)譜和二階導(dǎo)數(shù)譜數(shù)據(jù),通過構(gòu)建分類模型的方法對單獨的光譜數(shù)據(jù)和組合后的光譜數(shù)據(jù)的分類效果進行比較,以期達到對重質(zhì)礦物油樣本的準確鑒別和區(qū)分,為光譜組合技術(shù)在法庭科學(xué)及其他分析測試領(lǐng)域的應(yīng)用提供一定的借鑒。
表1 80個樣本的基本信息Table 1 The details of 80 samples
在山東、北京、河南等地區(qū)的機械加工廠和車輛維修廠收集到80種不同型號、不同廠家的重質(zhì)礦物油樣本,主要包括汽機油、柴機油、潤滑脂、齒輪油、液壓油5種類別和多種品牌(如表1所示)。
樣本預(yù)處理:對收集到的80種不同重質(zhì)礦物油樣本進行編號。
光譜參數(shù):采用傅里葉變換紅外-拉曼光譜儀進行光譜采集(具體信息如表2所示)。掃描次數(shù)為64次,光譜分辨率為8.000 cm-1,測量范圍為3 600~400 cm-1。以汽機油為例,圖1A展示了一種典型汽機油的光譜圖。
多階求導(dǎo):利用光譜數(shù)據(jù)處理軟件OMNIC 8.2對采集的光譜數(shù)據(jù)進行多階求導(dǎo)。由于光譜數(shù)據(jù)受噪聲影響較小,采用不過濾的方式,選擇最簡單的“First difference derivative”進行求導(dǎo)。分別對原始光譜數(shù)據(jù)進行一階導(dǎo)數(shù)和二階導(dǎo)數(shù)處理,保留光譜原始數(shù)據(jù)、一階導(dǎo)數(shù)數(shù)據(jù)和二階導(dǎo)數(shù)數(shù)據(jù)矩陣。圖1B和圖1C分別展示了該種典型汽機油的一階導(dǎo)數(shù)與二階導(dǎo)數(shù)的光譜圖。
實驗環(huán)境:具備暗室條件,不受陽光直射;無強振動源,無電磁干擾。
表2 儀器的基本信息Table 2 The details of instrument
圖1 典型汽機油的拉曼光譜圖(A)、一階導(dǎo)數(shù)拉曼光譜圖(B)及二階導(dǎo)數(shù)拉曼光譜圖(C)
Fig.1 Raman spectra(A),Raman spectra of the first derivative(B) and Raman spectra of the second derivative(C) of typical turbine oil
徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)模型(Radial basis function neural network,RBF)[12]屬于神經(jīng)網(wǎng)絡(luò)模型中的一種。作為一種局部逼近網(wǎng)絡(luò),它具有訓(xùn)練簡潔、訓(xùn)練速度快、可以很快逼近任意非線性函數(shù)的特點。RBF包含3層結(jié)構(gòu),即輸入層、隱藏層和輸出層。輸入層僅負責輸入數(shù)據(jù);隱藏層作用函數(shù)為徑向基函數(shù),對輸入數(shù)據(jù)每層的網(wǎng)絡(luò)可能只有一個神經(jīng)元被激活,所以屬于局部逼近;輸出層的每個神經(jīng)元屬于線性求和單元,輸出的是隱藏層各單元輸出的加權(quán)和。RBF的基本思想是通過映射將低維度線性不可分的原始數(shù)據(jù)投至高維空間,從而使數(shù)據(jù)線性可分。
K最近鄰算法(K nearest neighbor algorithm,KNN)作為一種常見分類和回歸模型,具有理論成熟、準確度高、可用于非線性分類等特點。其具體過程為,通過計算每個樣本點的距離,對所有距離進行排序,選取前K個距離最小的樣本,根據(jù)所選取的樣本標簽進行投票,從而確定樣本的歸類。其中,K值的選擇尤為重要,K值較大時能夠減小噪聲影響,但會導(dǎo)致類別界線變模糊;K值較小時“學(xué)習(xí)”的近似誤差會減小,但容易導(dǎo)致過度擬合。實際應(yīng)用中,一般選用交叉驗證等啟發(fā)式技術(shù)來選取最優(yōu)的K值。
實驗采用Statistical Product and Service Solutions-20數(shù)據(jù)處理軟件對保留的多階導(dǎo)數(shù)光譜數(shù)據(jù)構(gòu)建分類模型。
為了消除數(shù)據(jù)之間的量綱關(guān)系,方便函數(shù)模型的比較,首先對原始光譜、一階導(dǎo)數(shù)譜和二階導(dǎo)數(shù)譜數(shù)據(jù)進行標準化處理,并將標準化值作為分類的變量。實驗以重質(zhì)礦物油樣本的5種類別為依據(jù),即汽機油、柴機油、潤滑脂、齒輪油、液壓油。將80個重質(zhì)礦物油樣本分為訓(xùn)練樣本和測試樣本,比例分別為70%和30%,即56個訓(xùn)練樣本和24個測試樣本。運用RBF模型分別對單獨的原始光譜、一階導(dǎo)數(shù)譜、二階導(dǎo)數(shù)譜數(shù)據(jù)以及組合的原始光譜+一階導(dǎo)數(shù)譜、原始光譜+二階導(dǎo)數(shù)譜、一階導(dǎo)數(shù)譜+二階導(dǎo)數(shù)譜數(shù)據(jù)進行分析,得到樣本的分類結(jié)果(見表3)。
表3 分類結(jié)果摘要Table 3 Summary of classification results
圖2 原始變量的重要性Fig.2 Importance of original variable
由表3可以看出,將原始光譜與導(dǎo)數(shù)光譜組合之后,模型訓(xùn)練集和測試集的分類準確率均有明顯提升,但總體分類準確率均較低,實驗結(jié)果不太理想。以原始光譜數(shù)據(jù)為例,圖2展示了對原始光譜構(gòu)建的RBF模型中各變量的正態(tài)化重要性程度。一般認為,正態(tài)化重要性大于60%為比較重要,在40%~60%之間其次,小于40%則重要性程度不明顯。從圖中可以看出,原始光譜數(shù)據(jù)中存在一半以上的變量對構(gòu)建分類模型重要性程度較低。分析認為,大量的原有光譜數(shù)據(jù)之間存在較強的線性相關(guān)性且冗余信息較多,從而影響了模型分類的準確率。
主成分分析(PCA)作為一種數(shù)據(jù)降維的方法,可以有效地處理變量之間的多重共線性問題。尤其是面對大量數(shù)據(jù)時,PCA可以提取原始數(shù)據(jù)的主要成分,用盡可能少的新變量來概括原有變量的特征[13-15]。基于此,實驗通過Statistical Product and Service Solutions-20數(shù)據(jù)處理軟件采用PCA對原始光譜數(shù)據(jù)和導(dǎo)數(shù)光譜數(shù)據(jù)進行降維,提取數(shù)據(jù)的主要特征后再次進行分類。
表4為原始光譜數(shù)據(jù)的PCA結(jié)果。從表中可以看出,每個新變量對原始數(shù)據(jù)的解釋方差不同。在實際應(yīng)用中,需選取解釋原始數(shù)據(jù)方差比例高的變量作為主成分。通常有兩個判斷標準,特征根大于1且滿足累計方差貢獻率大于85%[16]。因此,選取前10個成分作為主成分,累計方差貢獻率為98.647%,即前10個成分解釋了98.647%的總方差,可以涵蓋原始數(shù)據(jù)98.647%的信息。同樣條件下,對一階導(dǎo)數(shù)譜、二階導(dǎo)數(shù)譜數(shù)據(jù)以及組合的原始光譜+一階導(dǎo)數(shù)譜、原始光譜+二階導(dǎo)數(shù)譜、一階導(dǎo)數(shù)譜+二階導(dǎo)數(shù)譜數(shù)據(jù)提取主成分,分別提取了前39個主成分,累計方差貢獻率均達到100%,主成分提取結(jié)果理想。
表4 主成分分析結(jié)果摘要Table 4 Summary of principal component analysis results
分別對提取主成分后的原始光譜、一階導(dǎo)數(shù)譜、二階導(dǎo)數(shù)譜數(shù)據(jù)以及組合的原始光譜+一階導(dǎo)數(shù)譜、原始光譜+二階導(dǎo)數(shù)譜、一階導(dǎo)數(shù)譜+二階導(dǎo)數(shù)譜數(shù)據(jù)構(gòu)建RBF模型,得到了分類結(jié)果(見表3)。
圖3 主成分變量的重要性Fig.3 Importance of principal component variables
由表3可知,通過PCA方法降維后,RBF模型的準確率明顯提高。圖3展示了對原始光譜數(shù)據(jù)進行PCA方法降維后提取的主成分在RBF分類模型中的正態(tài)化重要性。從圖中可以看出,在此次模型預(yù)測中,PCA提取的10個主成分對模型的重要性均在40%以上,即10個主成分均對模型的分類比較重要。與原有變量相比(見圖2),主成分在模型分類中的重要性更為明顯。分析認為,PCA降維后的數(shù)據(jù)消除了原有數(shù)據(jù)的線性相關(guān)性和冗余信息,使得提取的主成分不僅可以代表原有數(shù)據(jù),而且更適用于模型分類。在對組合的原始光譜+一階導(dǎo)數(shù)譜、原始光譜+二階導(dǎo)數(shù)譜、一階導(dǎo)數(shù)譜+二階導(dǎo)數(shù)譜數(shù)據(jù)進行分類中,訓(xùn)練集的分類準確率分別達到97.0%、96.7%、100%,測試集的分類準確率分別達到85.7%、90.0%、100%,遠高于單獨的原始光譜、一階導(dǎo)數(shù)譜和二階導(dǎo)數(shù)譜數(shù)據(jù)的分類效果,且分類結(jié)果理想。其中,基于一階導(dǎo)數(shù)譜+二階導(dǎo)數(shù)譜數(shù)據(jù)的PCA+RBF模型的分類準確率最高,對重質(zhì)礦物油樣本的5種類別均實現(xiàn)準確分類,分類準確率達到100%。分析認為,原始光譜與導(dǎo)數(shù)光譜組合后,數(shù)據(jù)信息結(jié)合了兩者各自的優(yōu)勢,盡可能多地反映了重質(zhì)礦物油樣本不同類別之間的差異,達到了優(yōu)勢互補的目的。
圖4 K值選擇的錯誤率Fig.4 The error rate of K value selection
在KNN分類中,運用訓(xùn)練樣本即為測試樣本的方法進行交互驗證[17],并采用交叉驗證方法選擇最優(yōu)的K值。以原始光譜PCA提取主成分后的數(shù)據(jù)為例,圖4展示了交叉驗證中K值選擇的錯誤率。從圖中可以看出,K值在1~6時,選擇錯誤率在0.4以下浮動,且在K值為5時錯誤率最低,為0.275 8;當K值大于6時,錯誤率明顯提升,均在0.4以上。因此,在該數(shù)據(jù)下構(gòu)建KNN分類模型時,選擇K=5作為最優(yōu)K值。同樣條件下,交叉驗證分別選擇K為3、1、22、5、3作為一階導(dǎo)數(shù)譜、二階導(dǎo)數(shù)譜數(shù)據(jù)以及組合的原始光譜+一階導(dǎo)數(shù)譜、原始光譜+二階導(dǎo)數(shù)譜、一階導(dǎo)數(shù)譜+二階導(dǎo)數(shù)譜PCA提取主成分后數(shù)據(jù)的最優(yōu)K值;并分別選擇K為1、4、2、2、4、3作為原始光譜、一階導(dǎo)數(shù)譜、二階導(dǎo)數(shù)譜數(shù)據(jù)以及組合的原始光譜+一階導(dǎo)數(shù)譜、原始光譜+二階導(dǎo)數(shù)譜、一階導(dǎo)數(shù)譜+二階導(dǎo)數(shù)譜的原有數(shù)據(jù)的最優(yōu)K值。
基于交叉驗證選取的K值,對原始光譜、一階導(dǎo)數(shù)譜、二階導(dǎo)數(shù)譜數(shù)據(jù)以及組合的原始光譜+一階導(dǎo)數(shù)譜、原始光譜+二階導(dǎo)數(shù)譜、一階導(dǎo)數(shù)譜+二階導(dǎo)數(shù)譜的原有數(shù)據(jù)構(gòu)建KNN分類模型,并對PCA降維后的數(shù)據(jù)進行KNN分類(見表3)。
從表3可以看出,KNN模型對重質(zhì)礦物油樣本的分類結(jié)果并不理想,無論是PCA降維之后,還是原始光譜與導(dǎo)數(shù)光譜組合之后,分類準確率均較低。分析認為,KNN分類模型受到樣本不均勻的影響。由于80個實驗樣本包括了40個汽機油類型、22個柴機油類型、8個潤滑脂類型、6個齒輪油類型和4個液壓油類型,其最大樣本數(shù)和最小樣本數(shù)的相差較大,使得KNN模型分類時更多的將預(yù)測樣本側(cè)重于樣本數(shù)多的汽機油類型,從而導(dǎo)致不能準確分類,影響了總體分類的準確率。
通過對組合的光譜數(shù)據(jù)建立不同的分類模型,發(fā)現(xiàn)基于一階導(dǎo)數(shù)譜+二階導(dǎo)數(shù)譜數(shù)據(jù)的PCA+RBF模型分類效果最好。因此,實驗采用最優(yōu)模型對同種類別下不同品牌的重質(zhì)礦物油樣本進行分類(見表5)。
表5 PCA+RBF分類結(jié)果摘要Table 5 Summary of PCA+RBF classification results
由表5可以看出,基于一階導(dǎo)數(shù)譜+二階導(dǎo)數(shù)譜數(shù)據(jù)的PCA+RBF模型對于汽機油類別下的品牌,測試集樣本均實現(xiàn)了準確分類,分類準確率為100%;對于訓(xùn)練集樣本,富田和帝倫堡兩種品牌實現(xiàn)了準確區(qū)分,分類準確率均為100%,而殼牌、美孚和德弗特3種品牌的訓(xùn)練集樣本存在誤判,分類準確率分別為90.0%、94.4%和85.7%,從而使得訓(xùn)練集樣本的總體分類準確率為92.5%,即40個汽機油樣本中存在3個樣本的品牌類型被錯誤判斷。分析認為,在模型的訓(xùn)練中受到樣本數(shù)較少的影響,發(fā)生了一定概率的誤判。對于柴機油、潤滑脂、齒輪油、液壓油4種類別下的不同品牌,該模型均實現(xiàn)了準確分類,訓(xùn)練集和測試集樣本的分類準確率均為100%,實驗結(jié)果理想。這表明,基于一階導(dǎo)數(shù)譜+二階導(dǎo)數(shù)譜數(shù)據(jù)的PCA+RBF模型可實現(xiàn)對不同類別和不同品牌重質(zhì)礦物油樣本的準確區(qū)分,且滿足快速、準確、無損的要求。
本文利用傅里葉變換拉曼光譜技術(shù)結(jié)合化學(xué)計量學(xué)構(gòu)建分類模型,對單獨的光譜數(shù)據(jù)和組合后的光譜數(shù)據(jù)分類效果進行比較。結(jié)果表明,基于組合后的一階導(dǎo)數(shù)譜+二階導(dǎo)數(shù)譜數(shù)據(jù)構(gòu)建的PCA+RBF分類模型的分類準確率更高。在對不同類別的重質(zhì)礦物油樣本進行分類時,訓(xùn)練集樣本和測試集樣本的分類準確率均達100%;在對同種類別下不同品牌的重質(zhì)礦物油樣本分類時,訓(xùn)練集樣本誤判3個,總體分類準確率達到92.5%,測試集樣本的分類準確率均達100%,實驗結(jié)果最理想。本文提出的光譜數(shù)據(jù)組合的方法與單獨的光譜數(shù)據(jù)相比,包含了更充分的樣本信息,分類準確率更高,且滿足法庭科學(xué)領(lǐng)域?qū)ξ镒C快速、準確、無損的鑒定需求。在下一步的實驗中,將對更多種類和品牌的重質(zhì)礦物油進行研究,進一步探討光譜組合技術(shù)在鑒定重質(zhì)礦物油物證中的優(yōu)勢,以期實現(xiàn)對法庭科學(xué)領(lǐng)域重質(zhì)礦物油物證的準確鑒別和區(qū)分,為光譜組合技術(shù)在法庭科學(xué)及其他分析測試領(lǐng)域的應(yīng)用提供一定借鑒。