侯賽文,李春宇,孔維剛,劉金坤,屈音璇
(1.中國人民公安大學(xué) 偵查學(xué)院,北京 100038;2.鄭州市公安局刑事科學(xué)技術(shù)研究所,河南 鄭州 450000)
肥皂是脂肪酸金屬鹽的總稱[1],是生活中常見的洗滌用品,肥皂中會(huì)添加發(fā)泡劑、抗氧化劑等,用以改善去污性能[2]。拉曼光譜儀測量時(shí)所需樣品含量少,不破壞樣品,且檢驗(yàn)速度快[3],幫助現(xiàn)場勘查人員進(jìn)行肥皂微量物證檢驗(yàn)。
為了研究快速分類肥皂品類的方法,本文引入機(jī)器學(xué)習(xí)方法進(jìn)行肥皂類別的分類[4]。通過系統(tǒng)聚類的方法對于不同品類的肥皂進(jìn)行分類,得到5類肥皂,對比三種監(jiān)督學(xué)習(xí)的方法的識(shí)別準(zhǔn)確率,為識(shí)別不同種類肥皂找到可行性方法。
不同廠家、不同品牌的肥皂56個(gè)樣本,按照功能,分為洗滌皂、沐浴皂、藥皂、多功能皂。
InVia Raman Microscop激光拉曼光譜儀[5],有5X、20X、50X、100X 四個(gè)顯微鏡鏡頭,波段激光器具有532,633,785 nm三個(gè)激發(fā)波段,光譜掃描的范圍100~3 200 cm-1,最低波數(shù)為10 cm-1,分辨率為1 cm-1。
使用鑷子從肥皂樣品取一些碎屑,放到干凈載玻片上,啟動(dòng)激光拉曼光譜儀。為了減小儀器和環(huán)境因素的誤差,對肥皂樣品通過調(diào)整位置,在50X倍率、10%的功率、785 nm波段的條件下,對不同位置測量3次,進(jìn)行光譜數(shù)據(jù)收集。
在實(shí)驗(yàn)過程中,由于儀器自身噪聲帶來的影響,以及宇宙射線的影響,肥皂樣品的自身特性,以及實(shí)驗(yàn)過程中環(huán)境溫度、壓力的影響,對于得到的拉曼光譜圖像(圖1)需要進(jìn)行拉曼光譜預(yù)處理,消除誤差,得到合理譜圖。本文采用拉曼光譜基線校正、歸一化處理、高斯濾波的方法,進(jìn)行原始拉曼光譜圖的處理[6-7],得到正常的拉曼譜圖(圖2)。
圖1 原始譜圖
圖2 預(yù)處理譜圖
采用系統(tǒng)聚類的方法對預(yù)處理的光譜數(shù)據(jù)進(jìn)行處理。選擇z得分的方法進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理,聚類方法采用組間聯(lián)接法,數(shù)據(jù)類型區(qū)間選擇的是平方歐式距離[8-13],得到圖3的聚類樹狀譜系圖。
圖3 聚類譜系圖
通過考察譜系圖的距離和細(xì)密程度,得到在距離為1的時(shí)候分類為23類,類別最多,而由于類別過多,分類效果不是很好[14]。在距離為10~25之間的時(shí)候,可以分為2類,類別過少,對于研究肥皂分類的實(shí)際應(yīng)用情況意義不大。在距離為5時(shí),可以分為5類,較為適宜。系統(tǒng)聚類結(jié)果見表1。
表1 系統(tǒng)聚類結(jié)果
選擇距離為5,進(jìn)行類別分類,作出標(biāo)簽類別見圖4。
由圖4a得到5種類別的香皂的特征峰。56號(hào)在241,530 cm-1;44號(hào)在380,959 cm-1;39號(hào)在542,1 702 cm-1;20號(hào)在150,707 cm-1;11號(hào)在 1 416,1 591 cm-1。由于香皂成分比較復(fù)雜,不同配方中的香皂因添加的物質(zhì)不同,影響肥皂中的硬脂酸鈉的峰位置,特征峰發(fā)生偏移,可以分析出所屬不同類別的肥皂。通過觀察56種肥皂的種類和功能后,在1類肥皂中,以洗衣皂為主,在2類肥皂中,以沐浴皂為主,在3類肥皂中以藥皂為主,4類肥皂為妙晨牌洗衣皂和上海潤膚皂,在5類肥皂中以內(nèi)衣皂為主。圖4b、c、d為3種不同類別的肥皂的特征峰比對,可知不同種類間特征峰差異較大,可以歸為不同類;同種類間特征峰和峰型一致,可以歸為一類。
圖4 香皂拉曼特征峰比對
當(dāng)對肥皂進(jìn)行類別分類后,但系統(tǒng)聚類不能對于歸類樣本進(jìn)行識(shí)別,選用三種機(jī)器學(xué)習(xí)方法對于不同類別的肥皂進(jìn)行識(shí)別[15-18]。
2.2.1 樸素貝葉斯分析 樸素貝葉斯將預(yù)測給定的未知類別的數(shù)據(jù)樣本X歸為具有最大后驗(yàn)概率的類,將X分類到Ci類,此時(shí),P(Ci|X)>P(Cj|X)1≤j≤m,j≠i; 其中P(Ci|X)最大的類為最大后驗(yàn)假定,為了把樣本X分類,通過Ci相應(yīng)的P(X|Ci)P(Ci)進(jìn)行估算,P(X|Ci)P(Ci)>P(X|Cj)P(Cj)1≤j≤m,j≠i。而影響樸素貝葉斯的算法的準(zhǔn)確度與選擇的核相關(guān)[15],通過選擇三角、埃帕內(nèi)奇尼科夫、盒、高斯的核,探究對于樣本識(shí)別率的影響,結(jié)果見圖5。
圖5 不同核樸素貝葉斯識(shí)別率
由圖5可知,核采用高斯的樸素貝葉斯的識(shí)別率最高,為92.9%,核采用盒的識(shí)別率最低,為50%。通過考察樸素貝葉斯的核采用高斯的混淆圖,認(rèn)識(shí)樸素貝葉斯算法對于識(shí)別肥皂識(shí)別率的影響,結(jié)果見圖6。
圖6 高斯樸素貝葉斯混淆矩陣
由表2可知,樣品識(shí)別錯(cuò)誤的個(gè)數(shù)相同時(shí)對于不同類別的影響不一樣,類別中樣本越多,識(shí)別預(yù)測錯(cuò)誤影響率越低;同時(shí)核樸素貝葉斯對于標(biāo)簽為3的類別率效果最好。
表2 不同標(biāo)簽識(shí)別率
2.2.2 支持向量機(jī)(SVM)分析 對于SVM的分類效果好壞與選擇SVM的核函數(shù)具有很密切的聯(lián)系[16],本文選擇多項(xiàng)式核函數(shù)作為SVM分類核函數(shù),可以有效分類不同標(biāo)簽的肥皂。SVM多項(xiàng)式核函數(shù)為:κ(x,xi)=((x·xi)+1)d,其中,d為階數(shù),階數(shù)不同時(shí)對分類的識(shí)別率有影響。本文通過d=1,2,3時(shí)得到了對于肥皂分類的影響(表3),d=1時(shí),SVM核也被稱為線性SVM核。
表3 不同分類識(shí)別率
由表3可知,核函數(shù)為多項(xiàng)式時(shí),多項(xiàng)式的階數(shù)不同時(shí),SVM對于標(biāo)簽為1的肥皂的識(shí)別率為100%,而對于標(biāo)簽為5的肥皂識(shí)別錯(cuò)誤率和準(zhǔn)確度相同,其中對于標(biāo)簽為2的肥皂類別的識(shí)別出錯(cuò)的個(gè)數(shù)最多,分別為3、4、3。
由圖7可知,d=3時(shí),準(zhǔn)確率最高,為91.1%;d=2的準(zhǔn)確率最低,為87.5%,不同階數(shù)的準(zhǔn)確率不同,與階數(shù)大小沒有聯(lián)系。通過綜合分析,d=3時(shí),SVM的識(shí)別率效果最好。
圖7 不同階數(shù)SVM識(shí)別率
2.2.3 K最近鄰(KNN) 影響KNN算法對于模識(shí)別的因素一般有K值的大小、分類器中距離度量的影響以及實(shí)驗(yàn)數(shù)據(jù)結(jié)構(gòu)的特異性[17]。其中K值大小的影響比較顯著。當(dāng)K值較小時(shí),分類的結(jié)果比較復(fù)雜,容易出現(xiàn)過度擬合的后果;當(dāng)K值過大時(shí),使得分類簡單,出現(xiàn)錯(cuò)誤的識(shí)別概率較大。不同K值對于肥皂識(shí)別效果的影響見圖8。
圖8 不同K值KNN識(shí)別率
由圖8可知,隨著K值的增大,識(shí)別的準(zhǔn)確度逐漸下降,其中,在K>9以后,識(shí)別的準(zhǔn)確度有明顯的下降趨勢,到K≥18以后有變緩和的趨勢。本文通過選用K=1時(shí),距離度量為Euclidean,距離權(quán)重為等距離,分析其對于肥皂樣品的識(shí)別影響,結(jié)果見圖9和表4。
圖9 K=1,KNN混淆矩陣
表4 K=1,不同分類識(shí)別率
由表4可知,K=1的KNN算法在識(shí)別分類肥皂中,總共有兩個(gè)樣本識(shí)別錯(cuò)誤,2號(hào)標(biāo)簽里的11個(gè)樣本中有一個(gè)識(shí)別成1號(hào)標(biāo)簽;4號(hào)標(biāo)簽的2個(gè)樣本中有一個(gè)識(shí)別為3號(hào)標(biāo)簽。此時(shí),KNN算法的識(shí)別率為96.4%。
通過本次實(shí)驗(yàn),得到的機(jī)器學(xué)習(xí)算法對于肥皂識(shí)別的方法,比傳統(tǒng)的案件過程中對于肥皂的識(shí)別通過人工篩查和液相色譜的分析的方法簡單和省時(shí),為案件偵查提供了新的物證檢驗(yàn)的方法[19]。但是本文中存在數(shù)據(jù)量少以及準(zhǔn)確度的問題,可以通過更多樣本數(shù)據(jù)的收集,進(jìn)行數(shù)據(jù)庫的建立,建立更加自動(dòng)化的識(shí)別的模型,和便攜式拉曼光譜聯(lián)用[20-21],達(dá)到幫助案件現(xiàn)場物證快速檢測和民警處理違禁物品檢查的目標(biāo)。
通過拉曼光譜譜圖并結(jié)合系統(tǒng)聚類、樸素貝葉斯、SVM、KNN的方法,對于肥皂樣本的識(shí)別建立了分析方法,首先通過系統(tǒng)聚類對于不同品牌和不同功能的肥皂數(shù)據(jù)進(jìn)行分類,得到5類肥皂的類別,再通過調(diào)整樸素貝葉斯、SVM、KNN的算法,通過調(diào)整參數(shù),分別找到各個(gè)算法下對于肥皂類別的分類準(zhǔn)確度的最優(yōu)的方法,再通過不同算法間的最優(yōu)模型準(zhǔn)確度的比較,得到了K=1時(shí),KNN的模型對于肥皂的識(shí)別效果最好,識(shí)別率達(dá)到96.4%。