李昂澤,王憲雙,徐向君,何雅格,郭 帥,柳宇飛,郭 偉,劉瑞斌*
(1.北京理工大學(xué) 物理學(xué)院,北京 100081;2.寶瑞激光科技(常州)有限公司,江蘇 常州 213000)
我國有近3.15 億煙民,香煙的市場巨大,如何提高煙草品質(zhì)控制是各大煙草公司關(guān)注的問題。特別是對一些名貴香煙,市場中充斥著大量的假煙,因缺少快速簡便的鑒定方法,不法商家以次充好,欺騙消費(fèi)者的行為層出不窮。因此有必要研究出一種快速、精確、可靠的香煙種類識別方法。
國內(nèi)外研究人員對煙草的品質(zhì)鑒定及管控已展開較多研究,在煙草品質(zhì)評價(jià)和分級上也取得較大的進(jìn)展。如南華大學(xué)的鄧晨曦[1]等人通過分析煙草化學(xué)成分,利用螢火蟲群優(yōu)化模糊聚類的煙草品質(zhì)集成分類方法,使煙草品質(zhì)分類精度上有了較大的提高,并且隨著煙草樣本數(shù)量的增加,分類精度也相應(yīng)得到提升;北京工業(yè)大學(xué)的張媛媛[2]等人使用顏色向量表示不同品牌的香煙圖像,提取網(wǎng)格圖像的顏色空間中的色調(diào)直方圖標(biāo)準(zhǔn)差作為特征值,構(gòu)成顏色特征向量,再通過歐氏距離來劃分最優(yōu)的網(wǎng)格數(shù)量,組成香煙圖像特征向量集合,基于樸素貝葉斯分類器與高斯混合模型分類器進(jìn)行分類,分類的準(zhǔn)確率分別為69%和91%;沈陽農(nóng)業(yè)大學(xué)的吳瓊[3]等人利用高光譜成像技術(shù),采集了7種香煙的光譜圖像,通過對香煙煙絲進(jìn)行對比分析,很直觀地辨別了7種香煙的煙絲色澤和分布信息狀況的變化,進(jìn)而發(fā)現(xiàn)這7種香煙煙絲的差異。
以上研究表明香煙的識別具有一定可行性。激光誘導(dǎo)擊穿光譜(Laser-Induced Break down Spectroscopy,LIBS)與分類算法相結(jié)合的方法也是一種靈敏準(zhǔn)確的分析方法。目前,鮮有人使用該方法進(jìn)行香煙的分類。
LIBS由于具有檢測速度快、無需樣品處理、對樣品損傷小等特點(diǎn),近年來已經(jīng)越來越多地應(yīng)用到水體污染[4-6]、土壤分析[7]、工業(yè)評估[8]、食品安全[9-10]、環(huán)境檢測[11]、考古學(xué)[12]、醫(yī)藥分析[13]等物質(zhì)檢測領(lǐng)域。目前利用LIBS檢測技術(shù)快速評價(jià)產(chǎn)品質(zhì)量和快速分類待測樣品已經(jīng)成為LIBS領(lǐng)域?qū)嶋H應(yīng)用的熱點(diǎn)。
本文相較于其他分類工作擁有以下幾個(gè)創(chuàng)新點(diǎn):煙草的快速實(shí)時(shí)分類,特別是對原始煙葉的快速檢測是優(yōu)化煙絲質(zhì)量的重要手段,但一直沒有適當(dāng)?shù)母邷?zhǔn)確度的方法,本文嘗試采用LIBS結(jié)合SVM的方法,對煙草樣品的分類效果證實(shí)了LIBS在未來煙草市場應(yīng)用的可行性;光譜數(shù)據(jù)處理方面,對特征峰峰位的漂移進(jìn)行了修正;基于LIBS光譜,對市面上九種香煙按照產(chǎn)地、品牌、焦油含量以及尼古丁含量的不同分別建立分類模型,并獲得了準(zhǔn)確率較高的判別模型,對香煙的快速識別和準(zhǔn)確分類提供了一個(gè)較好的方法。
圖1 樣品圖 Fig.1 Sample pictures
本實(shí)驗(yàn)所用香煙有Esse、紅梅(HM)、大前門(DQM)、金滿堂(JMT)、云煙(YY)、中南海(ZNH)、黃鶴樓(HHL)、芙蓉王(FRW)、中華(ZH)等9種市場上典型的香煙,其產(chǎn)地、價(jià)位、品質(zhì)等方面各不相同。每個(gè)品牌的香煙選取兩支香煙,將其煙絲取出并用粉碎機(jī)粉碎15 s,將粉末狀煙絲的顆粒直徑控制在200 μm左右。然后用壓餅機(jī)(壓強(qiáng)為15 MPa,作用時(shí)間2 min)將樣品壓成半徑為10 mm,厚度為2 mm的餅狀,如圖1所示。9種香煙的理化值參數(shù)如表1所示。
表1 9種香煙的理化參數(shù)
圖2 實(shí)驗(yàn)裝置 (M:反射鏡) Fig.2 Experimental set-up(M:mirror)
實(shí)驗(yàn)裝置如圖2所示,激光器為主動調(diào)Q的Nd∶YAG(QUANTEL,France)固體激光器,波長為1 064 nm,頻率為1 Hz,脈寬為7 ns,激光出射能量為30 mJ(最大能量輸出100 mJ);光譜儀為三通道光纖光譜儀(Avantes),光譜分辨率為0.1 nm,實(shí)驗(yàn)過程中積分時(shí)間為1.05 ms;DG535數(shù)字延遲脈沖發(fā)生器為激光器和光譜儀提供精準(zhǔn)的外觸發(fā)信號,3個(gè)通道的光譜采集延遲分別為768.8、769.7和769.66 μs。圖2中激光經(jīng)過反射鏡(M)反射調(diào)整光路后,經(jīng)直徑為25.4 mm、焦距為60 mm的透鏡聚焦到樣品表面,收集裝置與激光聚焦方向成45°進(jìn)行光信號收集,并將收集到的光耦合至光纖,再傳輸至三通道光纖光譜儀完成光譜的分光與光電轉(zhuǎn)換[14]。實(shí)驗(yàn)前,先用能量計(jì)監(jiān)測激光脈沖能量波動,直至激光能量波動穩(wěn)定在5%以內(nèi)。每種樣品的光譜采集都在同樣的試驗(yàn)條件下,分別進(jìn)行320次脈沖打樣作為待處理的數(shù)據(jù)。
香煙樣品的等離子體譜圖信息如圖3所示,根據(jù)美國國家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)的標(biāo)準(zhǔn)原子光譜數(shù)據(jù)庫,對其元素組成進(jìn)行了鑒定和標(biāo)記。根據(jù)光譜圖可知香煙中主要包含的元素有C、H、Na、Mg、Al、K、Ca等元素。
圖3 等離子體發(fā)射光譜圖 Fig.3 Plasma emission spectra
對采集到的LIBS光譜進(jìn)行處理,建模的具體步驟如下:光譜數(shù)據(jù)預(yù)處理、主成分分析(PCA)、訓(xùn)練集和測試集比例選取、使用訓(xùn)練集訓(xùn)練SVM分類器、SVM分類器對測試集測試分類。
對于光譜數(shù)據(jù)進(jìn)行預(yù)處理,首先刪除一些無效數(shù)據(jù),本文將波動較大,相對標(biāo)準(zhǔn)偏差(RSD)大于60%的數(shù)據(jù)視為無效。光譜波動較大除了激光能量抖動外還可能是由于聚焦位置的改變和基體效應(yīng)的影響;接著對光譜數(shù)據(jù)進(jìn)行重組,每4個(gè)光譜數(shù)據(jù)取平均作為一組光譜數(shù)據(jù),進(jìn)一步減少測量的不確定性。重組后,對每個(gè)樣品的80組數(shù)據(jù),進(jìn)行去背景處理,消除光譜背景常用插值法和窗口平移平滑方法[15]。但是插值法去除背景得到的光譜存在光譜信息丟失,如特征峰的相對強(qiáng)度改變、峰的半高寬信息丟失、峰與峰之間的差異性消失、個(gè)別帶狀分子峰丟失等。因此使用了窗口平滑去背景得到了去背景之后的光譜圖[14,16]。其主要過程如下:
(1)將光譜強(qiáng)度視為N個(gè)數(shù)據(jù)點(diǎn)群,即所有的光譜強(qiáng)度是在CCD像素點(diǎn)上光強(qiáng)度的表現(xiàn);
(2)分割數(shù)據(jù)點(diǎn)群。將N個(gè)數(shù)據(jù)點(diǎn)群分為n個(gè)小點(diǎn)群,即平滑窗口寬度為n,其中
log2n=c(c∈N+) ,
(1)
(3)尋找極值點(diǎn),找出i組數(shù)據(jù)中每組中的最小值Li,滿足:
(2)
(4)去除背景,將hi組中n個(gè)數(shù)據(jù)點(diǎn)減去極小值Li作為最終光譜強(qiáng)度;
(5)鏈接窗口,把得到的i組消除背景的數(shù)據(jù)點(diǎn)按照(2)的逆向操作鏈接為新的光譜。
(3)
尋峰處理是將非峰值強(qiáng)度置為零,提高了信號的對比度,峰位漂移的情況在線譜中更容易辨別。由于光譜儀的儀器誤差,測量的光譜中,特征峰位有時(shí)會有一個(gè)像素點(diǎn)的漂移。對比某一列(p列)光譜與其后一列(p+1列)光譜的特征峰的個(gè)數(shù),將峰位出現(xiàn)次數(shù)較多的那一列作為正常峰位,與其相鄰的峰位較少的一列被認(rèn)為是峰位漂移的結(jié)果。此時(shí),需要將漂移的峰位移至正常峰位,得到峰位漂移修正光譜[16]。最后對預(yù)處理之后的數(shù)據(jù)進(jìn)行光譜數(shù)據(jù)的歸一化,把數(shù)據(jù)處理成[-1,1]之間,歸一化的公式為:
(4)
其中,y為某一幅光譜各個(gè)波長處的強(qiáng)度值,min(y)為光譜中強(qiáng)度最小的值,max(y)為光譜中強(qiáng)度最大的值。
圖4為原始光譜與預(yù)處理光譜的對比圖。
圖4 香煙LIBS光譜 Fig.4 Laser-induced breakdown spectra of cigarettes
預(yù)處理后每個(gè)樣本共計(jì)80組光譜數(shù)據(jù),每組數(shù)據(jù)包含6 144個(gè)光強(qiáng),最終得到一個(gè)720×6 144的矩陣Z,對矩陣Z進(jìn)行PCA分析。PCA分析的步驟如下[17]:
(1)對樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。原始數(shù)據(jù)標(biāo)準(zhǔn)化采用p維隨機(jī)變量,選取n個(gè)樣品,構(gòu)造樣本陣,對樣本陣進(jìn)行如下標(biāo)準(zhǔn)變換:
(5)
(2)計(jì)算相關(guān)系數(shù)矩陣R
(6)
(3)求出協(xié)方差矩陣的特征值和特征向量
AR=λR,
(7)
其中,λ稱為R的特征值,非零向量R稱為A對應(yīng)于特征值λ的特征向量;
(4)根據(jù)主成分貢獻(xiàn)率選擇主成分;
(5)計(jì)算主成分得分。
圖5 每個(gè)主成分得分和主成分累積得分 Fig.5 Each principal component score and principal component cumulative score
通過對香煙LIBS光譜進(jìn)行PCA分析,得到每個(gè)主成分的貢獻(xiàn)率和累積貢獻(xiàn)率,如圖5所示。
由圖可知,香煙的前十個(gè)主成分貢獻(xiàn)之和達(dá)到了99.04%,表明使用前10個(gè)主成分足以涵蓋這種香煙光譜的大部分信息。利用全譜進(jìn)行SVM分類模型訓(xùn)練,每個(gè)光譜所選取的特征點(diǎn)都在十維特征空間中分布。圖6(彩圖見期刊電子版)給出了前3個(gè)主成分組成的三維得分圖,每個(gè)散點(diǎn)代表一個(gè)樣本,顯示出較好的聚類效果,可以看出,同種香煙的特征點(diǎn)出現(xiàn)明顯聚集,可以互相區(qū)分。
圖6 9種香煙前3個(gè)主成分的散點(diǎn)分布圖 Fig.6 Scatter diagram of the first three principal components for 9 types of cigarettes
支持向量機(jī)是統(tǒng)計(jì)學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上發(fā)展起來的一種分類識別方法[18]。選擇支持向量機(jī)進(jìn)行特征分類的優(yōu)勢在于可以將多維的特征輸入映射到高維的核空間,從而使原本不可分的數(shù)據(jù)獲得新的特征,更利于精確分類[19]。對香煙的全部特征峰進(jìn)行PCA降維之后,提取前10個(gè)主成分構(gòu)建特征空間。作為一種典型的機(jī)器學(xué)習(xí)算法,在特征空間中需要選取訓(xùn)練集和測試集,通過訓(xùn)練集進(jìn)行建模,再對測試集進(jìn)行預(yù)測。本次識別借助MATLAB中的SVM工具箱中的Linear Kernel核函數(shù)進(jìn)行識別分類,懲罰系數(shù)C和核函數(shù)參數(shù)值分別設(shè)置為5和1。
首先選擇了4種訓(xùn)練集和測試集的比例關(guān)系,分別為:55∶25、58∶22、62∶18、65∶15,其測試集的準(zhǔn)確率分別是:96.9%、97.47%、96.30%、94.81%,可以看出隨著訓(xùn)練集和測試集比例關(guān)系的增加,訓(xùn)練集和測試集的準(zhǔn)確率都呈現(xiàn)先增加后減少的趨勢。因此在10個(gè)主成分的條件下選擇58∶22的比例關(guān)系來進(jìn)行訓(xùn)練和測試??偟臉颖玖繛?0個(gè),因此訓(xùn)練集和測試集分別為58個(gè)和22個(gè)。隨機(jī)抽取58個(gè)樣本作為訓(xùn)練集,剩余的22個(gè)樣本作為測試集,測試結(jié)果如表2所示。得到訓(xùn)練集分類準(zhǔn)確度平均值為96.70%,測試集的準(zhǔn)確度平均值為97.47%。預(yù)測結(jié)果表明,模型已經(jīng)基本可以將9種不同香煙進(jìn)行成功分類。
表2 測試集準(zhǔn)確率
基于上述的研究,本文還依據(jù)香煙的尼古丁含量、產(chǎn)地、焦油含量進(jìn)行分類,這3個(gè)參數(shù)均是參照香煙包裝上的參數(shù),分類均取得了很好的結(jié)果,模型預(yù)測的平均準(zhǔn)確率分別是94.72%、95.31%、99.58%。
本文通過采集9種煙草在190~720nm波長范圍的LIBS光譜,對窗口平移平滑去背景、峰位漂移修正和歸一化預(yù)處理后的光譜數(shù)據(jù)進(jìn)行主成分分析,提取前10個(gè)主成分,并運(yùn)用SVM方法將煙草按照品牌、焦油含量、尼古丁含量和產(chǎn)地等指標(biāo)分別建立分類模型,模型的平均準(zhǔn)確率分別為97.47%、99.58%、94.72%、95.31%。結(jié)果表明利用LIBS光譜對煙草進(jìn)行快速分類是一種可行的分類技術(shù),為香煙普查和香煙的防偽提供了一種快速而有效的檢測手段。