李 穎,張亞朝,李耀翔
(東北林業(yè)大學(xué)工程技術(shù)學(xué)院,哈爾濱150040)
現(xiàn)代近紅外光譜(Near Infrared Spectroscopy,NIR)分析技術(shù)是近年來分析化學(xué)領(lǐng)域中迅猛發(fā)展的一門高新分析技術(shù),在分析化學(xué)領(lǐng)域被譽(yù)為分析“巨人”[1]。
近紅外區(qū)域按ASTM(American Society for Testing and Materials美國材料與試驗(yàn)協(xié)會(huì))定義是指波長在780~2526nm范圍內(nèi)的電磁波,是人們最早發(fā)現(xiàn)的非可見光區(qū)域。由于物質(zhì)在該譜區(qū)的倍頻和合頻吸收信號(hào)弱,譜帶重疊,解析復(fù)雜,受當(dāng)時(shí)的技術(shù)水平限制,近紅外光譜“沉睡”了近一個(gè)半世紀(jì)[2-3]。20世紀(jì)80年代后期,隨著計(jì)算機(jī)技術(shù)的迅速發(fā)展,帶動(dòng)了分析儀器的數(shù)字化和化學(xué)計(jì)量學(xué)的發(fā)展,通過化學(xué)計(jì)量學(xué)方法在解決光譜信息提取和背景干擾方面取得的良好效果,加之近紅外光譜在測樣技術(shù)上所獨(dú)有的特點(diǎn),使人們重新認(rèn)識(shí)了近紅外光譜的價(jià)值,并已廣泛應(yīng)用于農(nóng)林、食品、石油、紡織和煙草等領(lǐng)域[5]。
現(xiàn)有的木材密度近紅外預(yù)測方法中,對(duì)近紅外光譜數(shù)據(jù)通常采用各種多元校正技術(shù)進(jìn)行定量分析,應(yīng)用較多的有多元線性回歸、主成分回歸(Principal Component Regression,PCR)和偏最小二乘法(Partial Least Square,PLS)等方法[6-7]。
支持向量機(jī)(Support Vector Machine,SVM)方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息,在模型的復(fù)雜性(即對(duì)特定訓(xùn)練樣本的學(xué)習(xí)精度)和學(xué)習(xí)能力(即無錯(cuò)誤地識(shí)別任意樣本的能力)之間尋求最佳方案,以期獲得最好的推廣能力[8]。SVM在建模過程中,對(duì)近紅外光譜的預(yù)處理要求不是很嚴(yán)格,主要是將光譜信息提取,以文本格式導(dǎo)出,而且對(duì)于參數(shù)的選擇,可以通過編寫程序進(jìn)行參數(shù)尋優(yōu)的方法獲得最適合的參數(shù)[9]。這就大大減少了光譜信息的丟失,提高了參數(shù)的準(zhǔn)確性,最終使模型具有更好的泛化性。
支持向量機(jī)的基本原理是通過某種事先選擇的非線性映射將輸入向量映射到一個(gè)高位特征空間,在這個(gè)特征空間中構(gòu)造最優(yōu)分類超平面。
如圖1所示,顯然圖中的數(shù)據(jù)集很容易被線性分類,但是圖b中的數(shù)據(jù)集就無法線性分類,此時(shí),可以將圖b中的數(shù)據(jù)集映射到一個(gè)二維空間(如圖c所示),這樣就很容易將其線性分類。以此類推,對(duì)于一個(gè)原始的輸入空間,找到一個(gè)合適的函數(shù)映射(X→Φ(X)),將其映射到高維特征空間,從而對(duì)數(shù)據(jù)集進(jìn)行線性分類(如圖d所示)。
圖1 支持向量機(jī)分類原理示意圖Fig.1 Schematic diagram of support vector machine classification
制備117個(gè)落葉松待測樣本,其中3/4作為訓(xùn)練樣本,1/4作為測試樣本。對(duì)樣本進(jìn)行密度實(shí)值的測量,然后用美國ASD公司生產(chǎn)的波長為350~2500nm的LabSpec近紅外光譜儀對(duì)樣本進(jìn)行相應(yīng)的光譜采集(如圖2所示)。對(duì)采集的光譜進(jìn)行平滑和一階導(dǎo)數(shù)預(yù)處理,以消除樣品表面不均勻和光譜平移及背景噪聲帶來的誤差(如圖3所示)。
圖2 近紅外原始光譜Fig.2 Raw NIRS
圖3 預(yù)處理后光譜Fig.3 NIRS After pretreatment
針對(duì)117個(gè)樣品,在350~2500nm全波段光譜中選擇11個(gè)比較顯著的振動(dòng)吸收峰,用于回歸建模。再用數(shù)據(jù)處理軟件,將光譜數(shù)據(jù)以文本格式導(dǎo)出。
用于SVM分析的軟件有很多,比如:BSVM、CSVM、GiniSVM、LS-SVM以及M-SVM等。本文采用的是LibSVM。
LibSVM是臺(tái)灣大學(xué)林智仁(Lin Chin-Jen)教授等開發(fā)的一個(gè)簡單、易于使用和快速有效的SVM模式識(shí)別與回歸的軟件包。提供了多種軟件的語言接口。本文中使用的是具有C++語言接口的在matlab環(huán)境下運(yùn)行的LibSVM-mat。
對(duì)于整體數(shù)據(jù),將樣本的密度實(shí)值作為Y,對(duì)應(yīng)的所選取的11個(gè)吸收峰的吸收率作為X,采用CV(Cross Validation)統(tǒng)計(jì)分析方法中的Hold-Out Method,即將117個(gè)樣本隨機(jī)分為訓(xùn)練集(約為總樣本數(shù)的3/4)和測試集(約為總樣本數(shù)的1/4),這就避免了在劃分訓(xùn)練集和測試集時(shí),人為因素對(duì)訓(xùn)練以及測試準(zhǔn)確率的影響,從而使訓(xùn)練和測試結(jié)果更客觀。
劃分好訓(xùn)練集和測試集后,要對(duì)數(shù)據(jù)進(jìn)行歸一化。歸一化的具體作用是歸納統(tǒng)一樣本的統(tǒng)計(jì)分布性,可以使后面數(shù)據(jù)的處理更加方便,其次是保證程序運(yùn)行時(shí)收斂加快。
一般默認(rèn)使用RBF函數(shù)作為核函數(shù),在選定核函數(shù)后,要對(duì)相應(yīng)的參數(shù)進(jìn)行調(diào)節(jié),即所謂的參數(shù)尋優(yōu)。所涉及到的參數(shù)主要有參數(shù)c(懲罰參數(shù),與e-SVR的設(shè)置有關(guān))和參數(shù)g(針對(duì)RBF核數(shù)中g(shù)amma的設(shè)置),如果手動(dòng)對(duì)這兩個(gè)參數(shù)進(jìn)行設(shè)置,工作量不但巨大,而且準(zhǔn)確率會(huì)很低,最終的回歸擬合結(jié)果也不會(huì)太理想。
圖4和圖5就是利用LibSVM工具箱在Matlab環(huán)境下參數(shù)尋優(yōu)的結(jié)果圖。
確定核函數(shù)及其相關(guān)參數(shù)后,便可以在matlab環(huán)境下對(duì)數(shù)據(jù)進(jìn)行支持向量機(jī)回歸擬合,回歸擬合結(jié)果如圖6所示。
其中圖6的上半部分和下半部分分別是訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的回歸擬合圖。
圖4 SVR參數(shù)選擇結(jié)果等高線圖Fig.4 Contour map for SVR parameter selection results
圖5 SVR參數(shù)選擇結(jié)果3D視圖(Best c=0.10882 g=1.7411 CVmse=0.0030764)Fig.5 3D view for SVR parameter selection results
圖6 支持向量機(jī)回歸擬合結(jié)果Fig.6 Results on Regression fitting by SVM
用落葉松的近紅外光譜數(shù)據(jù)建立的測定密度的模型,對(duì)訓(xùn)練集的回歸擬合結(jié)果,R2達(dá)到了0.85,均方差為6.46×10-4;對(duì)測試集的回歸擬合,R2為0.85,均方差為4.45×10-4,表1是對(duì)測試集的回歸擬合數(shù)據(jù),其中,相對(duì)誤差最大為4.8336%,最小為 -4.6564%,其絕對(duì)值均小于5%,預(yù)測結(jié)果較好。
表1 采用支持向量回歸建立模型對(duì)密度的預(yù)測結(jié)果Tab.1 Results on density prediction by support vector regression
在支持向量機(jī)的理論基礎(chǔ)上,對(duì)117個(gè)落葉松樣本進(jìn)行了近紅外光譜的采集,在matlab環(huán)境下,利用LibSVM工具箱,以徑向基函數(shù)為核函數(shù),采用非啟發(fā)式參數(shù)尋優(yōu)的方法進(jìn)行參數(shù)優(yōu)化,最終建立了木材密度預(yù)測模型。分析表明,該模型對(duì)訓(xùn)練集和測試集的回歸擬合,其決定系數(shù)都達(dá)到了0.85 以上。
結(jié)果表明,基于近紅外光譜的支持向量機(jī)回歸方法可以用于落葉松木材密度的預(yù)測。
[1]張小超,吳靜珠,徐 云.近代外光譜分析技術(shù)及其在現(xiàn)代農(nóng)業(yè)中的應(yīng)用[M].北京:電子工業(yè)出版社,2012.
[2] Nkansah K.Rapid characterization of biomass:The use of near infrared and fluorescence spectroscopy as process analytical technology(PAT)method[M].WEST VIRGINIA UNIVERSITY,2009.
[3] Chen H,Tan C,Wu T,et al.Discrimination between authentic and adulterated liquors by near-infrared spectroscopy and ensemble classification[J].Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2014(130):245-249.
[4] Barton I I.FE Theory and principles of near infrared spectroscopy[J].Spectroscopy Europe,2002(14):12-18.
[5]張 鵬,李耀翔.近紅外光譜分析技術(shù)在木材機(jī)械性能檢測中的研究進(jìn)展[J].森林工程,2014,30(3):68-70.
[6]郝斯琪,宋博騏,李 湃,等.基于近紅外光譜與 BP神經(jīng)網(wǎng)絡(luò)預(yù)測落葉松木屑的含水率[J].森林工程,2012,28(4):9-11.
[7] Kainerstorfer J M,Sassaroli A,Hallacoglu B,et al.Practical steps for applying a new dynamic model to near-infrared spectroscopy measurements of hemodynamic oscillations and transient changes:implications for cerebrovascular and functional brain studies[J].Academic radiology,2014,21(2):185-196.
[8]丁世飛,齊丙娟,譚紅艷.支持向量機(jī)理論與算法研究綜述[J].電子科技大學(xué)學(xué)報(bào),2011,40(1):2-10.
[9] Deng N,Tian Y,Zhang C.Support vector machines:optimization based theory,algorithms,and extensions[M].CRC Press,2012.