張怡卓 涂文俊 李超 潘屾
(東北林業(yè)大學(xué),哈爾濱,150040)
?
基于BiPLS-SPA優(yōu)選近紅外光譜的木材基本密度預(yù)測(cè)1)
——以柞木為例
張怡卓 涂文俊 李超 潘屾
(東北林業(yè)大學(xué),哈爾濱,150040)
以柞木為研究對(duì)象,以900~1 700 nm的近紅外光譜儀獲取木材表面近紅外光譜數(shù)據(jù),對(duì)89個(gè)柞木樣本進(jìn)行檢測(cè),其中58個(gè)組成校正集,31個(gè)為預(yù)測(cè)集。首先,采集樣本徑切面光譜數(shù)據(jù),并利用SG平滑對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理;然后,利用反向區(qū)間偏最小二乘(BiPLS)選出均方根誤差最小的波長(zhǎng)區(qū)間組合;再利用連續(xù)投影算法(SPA)進(jìn)一步選擇出波長(zhǎng)特征;最后,以優(yōu)選出的波長(zhǎng)特征作為輸入,建立偏最小二乘法回歸模型,確定出木材基本密度與近紅外光譜之間的聯(lián)系。BiPLS算法將光譜劃分區(qū)間劃分為10時(shí),均方根誤差最小,其最佳區(qū)間組合為[3 5 6 7 9],變量個(gè)數(shù)由全光譜117個(gè)降至59個(gè);應(yīng)用SPA算法二次降維,變量個(gè)數(shù)降至6個(gè),降低變量信息的冗余,減少了變量個(gè)數(shù),提高了建模的速度和效率。BiPLS-SPA模型較PLS、iPLS、BiPLS、SPA-PLS具有更高的相關(guān)系數(shù),更小的均方根誤差,柞木基本密度預(yù)測(cè)相關(guān)系數(shù)為0.925,預(yù)測(cè)均方根誤差為0.010 4,相對(duì)分析誤差為2.83。
木材;柞木;基本密度;近紅外;偏最小二乘法;連續(xù)投影算法
WithXylosmaracemosumas the research object, 900-1 700 nm near-infrared spectrometer was used to obtain wood surface spectral data. The 89X.racemosumsamples were detected, of which 58 composed the calibration set, and 31 were used for the prediction set. Firstly, the diameter section spectral data was acquired and preprocessed by SG smoothing method; Secondly, backward interval partial least squares (BiPLS) was implemented to divide the spectrum into several wavelength interval, and intervals with the smallest RMSE were selected as a data combination; thirdly, successive projections algorithm (SPA) was chosen to select the wavelength characteristics from the data combination; Then, using optimized characteristics as the input variable, partial least squares regression model can be established and finally the correlation between the near infrared spectrum and wood basic density was built. The RMSECV had minimum value when the spectrum was divided into 10 intervals, and the optimum interval combination was [3 5 6 7 9], and the number of variables dropped from 117 to 6. Consequently, the number of variables were reduced and the modeling speed was increased. BiPLS-SPA model has a higher correlation coefficient than the PLS, iPLS, BiPLS, SPA-PLS method. The prediction correlation coefficient ofX.racemosumbasic density is 0.925, with the RMSEP of 0.010 4, and the RPD of 2.83.
近紅外光譜分析具有無損、安全的特點(diǎn),國(guó)內(nèi)外學(xué)者已利用近紅外光譜分析技術(shù)開展了木材性質(zhì)的研究[1-5]。由于近紅外光譜區(qū)域存在與木材基本密度不相關(guān)或者相關(guān)性較小的特征,在建模過程中一定程度的引入了冗余信息,導(dǎo)致增加了偏最小二乘回歸過程的預(yù)測(cè)方差,降低了模型精度。因此,本文提出應(yīng)用反向區(qū)間偏最小二乘法(BiPLS)結(jié)合連續(xù)投影方法(SPA)的算法篩選特征光譜變量,在此基礎(chǔ)上應(yīng)用偏最小二乘回歸算法建模。實(shí)驗(yàn)以我國(guó)東北保護(hù)林中主要的次生林樹種柞木為研究對(duì)象,將所選擇特征波長(zhǎng)點(diǎn)對(duì)應(yīng)的數(shù)據(jù)作為建模變量,建立校正模型以驗(yàn)證模型精度。
1.1 試驗(yàn)材料
柞木(Xylosmaracemosum),大風(fēng)子科柞木屬常綠大灌木或小喬木。實(shí)驗(yàn)試材采自黑龍江省五常市林業(yè)局沖河林場(chǎng),北緯44°37′55″~44°47′52″,東經(jīng)127°35′55″~127°55′51″,平均海拔350 m。該地區(qū)屬溫帶大陸性季風(fēng)氣候,最高溫度35 ℃,最低零下34 ℃,年平均氣溫2.3 ℃,年降水量750 mm,土壤以暗棕壤為主,谷地草甸土和沼澤土僅少量分布。在柞木人工林內(nèi),取12株樣木,樹齡20 a,伐倒并標(biāo)記樹木生長(zhǎng)方向,在每株標(biāo)準(zhǔn)木的胸高(1.3 m)附近連續(xù)截取5 cm圓盤。帶回實(shí)驗(yàn)室將每個(gè)圓盤去皮后,按照GB1929—2009制取20 mm×20 mm×20 mm的密度試樣,并挑選出無缺陷、無明顯顏色差異試樣89個(gè)。
1.2 近紅外光譜儀與樣品光譜獲取
實(shí)驗(yàn)中選用INSION公司超緊湊型近紅外光纖光譜儀對(duì)木材樣本進(jìn)行光譜掃描,光譜波長(zhǎng)范圍900~1 700 nm,分辨率9 nm,使用兩分叉光纖探頭采集樣品表面的近紅外光譜。實(shí)驗(yàn)室溫度、濕度基本恒定,室內(nèi)溫度控制在20 ℃,平均相對(duì)濕度為50%。國(guó)內(nèi)外學(xué)者研究發(fā)現(xiàn)1 000~1 600 nm光譜承載木材重要信息,通過非全波光譜建模,能較好地預(yù)測(cè)木材密度、力學(xué)強(qiáng)度等[6-7]。本研究利用INSION公司開發(fā)的SPEC view 7.1軟件進(jìn)行數(shù)據(jù)采集。
光纖探頭固定在支架上,探頭對(duì)試樣垂直、非接觸測(cè)量,距離1 mm,光斑直徑5 mm,光譜獲取示意圖如圖1所示。每個(gè)切面均勻采集5個(gè)樣點(diǎn),每點(diǎn)掃描30次自動(dòng)平均為1個(gè)光譜,記錄保存。每個(gè)切面的多組光譜平均成1條光譜。由于木材的生長(zhǎng)特
性,導(dǎo)致了木材不同切面的近紅外吸收光譜吸收峰不同,但光譜趨勢(shì)相似(見圖2),考慮到生產(chǎn)實(shí)際測(cè)量,在此選擇徑切面光譜進(jìn)行分析。
圖1 木材試樣近紅外采集
圖2 木材3個(gè)切面近紅外光譜
1.3 柞木基本密度真值測(cè)量
柞木基本密度按照GB1933—2009《木材密度測(cè)定方法》進(jìn)行測(cè)定(見表1)。在89個(gè)試樣中,以2∶1分為校正集和預(yù)測(cè)集,以58個(gè)校正集樣品建立校正模型,剩余31個(gè)作為預(yù)測(cè)集對(duì)模型進(jìn)行驗(yàn)證,其中密度最大和最小樣品歸為校正集。由表1可見,密度值范圍0.694 2~0.837 5 g/cm3,預(yù)測(cè)集樣品密度信息被校正集樣品密度信息所覆蓋。
表1 樣品校正集和預(yù)測(cè)集基本密度的測(cè)定結(jié)果
1.4 光譜數(shù)據(jù)預(yù)處理方法
為了消除高頻噪聲、基線漂移、光散射等影響,將光譜數(shù)據(jù)轉(zhuǎn)換成吸收度值后,需要對(duì)光譜進(jìn)行預(yù)處理。由于Savitzky-Golay(SG)平滑處理能消除基線漂移和傾斜、抑制高頻噪聲[8-9],在此選擇SG平滑進(jìn)行預(yù)處理,其基礎(chǔ)思想如下:
設(shè)光譜信息x(n)中的1組數(shù)據(jù)為x(i),i的取值為2m+1個(gè)連續(xù)的整數(shù),x(i)組成一個(gè)“窗口”?,F(xiàn)構(gòu)造1個(gè)p次多項(xiàng)式對(duì)數(shù)據(jù)點(diǎn)進(jìn)行擬合,如公式(1):
(1)
數(shù)據(jù)擬合時(shí)存在誤差,總誤差平方和如公式(2):
(2)
為使濾波前后的波形不產(chǎn)生較大偏差,所以擬合誤差要足夠小。令E對(duì)各系數(shù)的導(dǎo)數(shù)為0,可得公式(3):
(3)
式中:r=0、1、…、p。只需給定擬合窗口系數(shù)m、多項(xiàng)式的階次和待擬合的數(shù)據(jù)x(i),就可以確定多項(xiàng)式y(tǒng),即平滑處理后的光譜信號(hào)。
1.5 BiPLS-SPA特征波長(zhǎng)選擇算法
連續(xù)投影算法(SPA),能利用向量的投影分析,尋找含有最低冗余信息的變量組,并使變量之間的共線性達(dá)到最小而同時(shí)減少建模所用變量的個(gè)數(shù),進(jìn)而提高建模的速度和效率[10-11]。然而,SPA在全波段尋找最低限度冗余信息的變量時(shí),計(jì)算量較大。在此提出,進(jìn)行SPA計(jì)算之前對(duì)全波段變量進(jìn)行篩選,通過選取波段,以減少SPA的計(jì)算量。
本文提出BiPLS-SPA算法是對(duì)SPA數(shù)據(jù)降維的改進(jìn)。此方法主要分4個(gè)步驟:①將全光譜波段等分成w個(gè)子區(qū)間,在每個(gè)區(qū)間分別建立偏最小二乘回歸模型;②計(jì)算各個(gè)子區(qū)間的均方根誤差,比較各局部模型的精度;③依次減少信息量最差或共線性變量最多的v個(gè)子區(qū)間,在剩余的m-v區(qū)間上建立PLS模型,當(dāng)均方根誤差最小所對(duì)應(yīng)的多個(gè)區(qū)間即為所優(yōu)化的組合區(qū)間;④在BiPLS選出的子區(qū)間基礎(chǔ)上,采用SPA進(jìn)行特征波長(zhǎng)的選取。
1.6 模型評(píng)價(jià)
采用偏最小二乘(PLS)建立柞木基本密度的最終模型,模型因子數(shù)由交叉驗(yàn)證法確定。校正模型評(píng)價(jià)參數(shù):決定系數(shù)(R2)、建模均方根誤差(RMSEC)、預(yù)測(cè)均方根誤差(RMSEP)和驗(yàn)證集標(biāo)準(zhǔn)偏差與預(yù)測(cè)標(biāo)準(zhǔn)偏差的比值相對(duì)分析誤差(RPD)。一個(gè)好的模型通常具有低建模均方根誤差和預(yù)測(cè)均方根誤差值,高R2和相對(duì)分析誤差值。當(dāng)相對(duì)分析誤差值屬于1.5~2.0之間表示所建模型有一定的預(yù)測(cè)能力,當(dāng)大于2.0小于等于2.5時(shí)表明粗略的定量預(yù)測(cè)是可行的,當(dāng)大于2.5小于等于3.0時(shí)表示所建模型有較好的預(yù)測(cè)精度。上述各種算法以及模型的建立與評(píng)價(jià)均采用Matlab R2012a軟件完成。
2.1 光譜預(yù)處理實(shí)驗(yàn)結(jié)果
采用不同光譜預(yù)處理方法對(duì)全波段光譜進(jìn)行預(yù)處理,并建立PLS模型。實(shí)驗(yàn)采用常用的SG平滑法、一階導(dǎo)數(shù)和二階導(dǎo)數(shù)對(duì)光譜信息進(jìn)行預(yù)處理,建立PLS模型。
在實(shí)驗(yàn)過程中發(fā)現(xiàn),SG平滑窗口選擇較小時(shí)噪聲濾除效果不明顯;窗口選擇過大會(huì)信號(hào)失真;當(dāng)平滑窗口大小為7時(shí)效果最好。由表2可見:采用SG平滑法的預(yù)測(cè)效果最好;一階導(dǎo)數(shù)雖然提高了校正集相關(guān)系數(shù),但預(yù)測(cè)精度卻下降;二階導(dǎo)數(shù)的預(yù)處理效果最差。因此,后續(xù)實(shí)驗(yàn)采用SG平滑算法完成預(yù)處理。
表2 不同預(yù)處理方法對(duì)建模結(jié)果的影響
2.2 反向區(qū)間偏最小二乘變量篩選結(jié)果
對(duì)柞木基本密度全光譜進(jìn)行BiPLS變量篩選,將906.9~1 863.9nm光譜區(qū)域117個(gè)波數(shù)點(diǎn),分為w個(gè)子區(qū)間,本文取w的范圍為5~15。當(dāng)w取不同值時(shí),采用BiPLS選擇的特征子區(qū)間(見表3)。由表3可見:當(dāng)光譜區(qū)間劃分為10時(shí),對(duì)應(yīng)的交叉驗(yàn)證均方根最小,此時(shí)確定柞木基本密度最佳組合區(qū)間為[3 5 6 7 9],共選出5個(gè)子區(qū)間。
表3 BiPLS子區(qū)間優(yōu)選結(jié)果
圖4為柞木基本密度BiPLS方法選擇的特征區(qū)間,圖中被填充的波段區(qū)間為被選中的區(qū)間,對(duì)應(yīng)的波段范圍1 103.7~1 194.1、1 301.1~1 391.8、1 400.1~1 490.9、1 499.2~1 590.2、1 689.6~1 772.6nm,共59個(gè)波長(zhǎng)變量。
2.3 SPA特征波長(zhǎng)選擇結(jié)果
實(shí)驗(yàn)在全光譜SPA波長(zhǎng)選擇和BiPLS選擇波段后的SPA波長(zhǎng)提取方面進(jìn)行比較分析。采用SPA對(duì)全波段光譜共117個(gè)變量進(jìn)行處理,圖4顯示了不同變量個(gè)數(shù)的均方根誤差變化。從中可以看到,變量個(gè)數(shù)從1個(gè)到4個(gè)時(shí)均方根誤差下降較快。當(dāng)變量個(gè)數(shù)為11時(shí),均方根誤差值最小,為0.012 5。將得到的11個(gè)變量作為輸入,建立PLS模型。
圖3 BiPLS算法選擇的區(qū)間組合
圖4 均方根誤差隨SPA選取變量個(gè)數(shù)的變化情況
利用BiPLS選擇的波長(zhǎng)區(qū)間1 103.7~1 194.1、1 301.1~1 590.2、1 689.6~1 772.6nm,在此范圍內(nèi)采用SPA進(jìn)行波長(zhǎng)選擇,特征波長(zhǎng)數(shù)為6,較SPA對(duì)
全光譜選擇的特征更少,同時(shí)可以表達(dá)光譜數(shù)據(jù)與柞木基本密度之間的關(guān)系。圖5為BiPLS-SPA選取變量過程。
2.4 模型結(jié)果分析與模型評(píng)價(jià)
用預(yù)測(cè)集樣本對(duì)校正模型進(jìn)行測(cè)試。分別采用預(yù)測(cè)集樣本的光譜信息對(duì)PLS、iPLS、biPLS、SPA-PLS、BiPLS-SPA-PLS模型進(jìn)行基本密度預(yù)測(cè)(見表4)。圖6為BiPLS-SPA波長(zhǎng)選擇方法的預(yù)測(cè)散點(diǎn)分布圖。實(shí)驗(yàn)結(jié)果表明:利用BiPLS-SPA優(yōu)選特征變量建模,柞木基本密度預(yù)測(cè)模型的相關(guān)系數(shù)為0.925、預(yù)測(cè)均方根誤差為0.0104、相對(duì)分析誤差為2.83,本文方法能較好預(yù)測(cè)柞木基本密度,BiPLS-SPA特征選擇建立模型的相關(guān)系數(shù)最高。
(a)均方根誤差隨選取變量個(gè)數(shù)的變化 (b)最終選取變量
圖5 BiPLS-SPA選取變量
(a)校正集 (b)預(yù)測(cè)集
圖6SPA-iPLS選擇7個(gè)波長(zhǎng)建立模型的預(yù)測(cè)散點(diǎn)分布
本文采用近紅外光譜分析技術(shù)預(yù)測(cè)柞木基本密度,應(yīng)用BiPLS定位出光譜的若干信息區(qū)間,考查不同區(qū)間分割數(shù)對(duì)BiPLS波長(zhǎng)選擇及對(duì)應(yīng)的模型預(yù)測(cè)性能的影響,然后采用SPA算法對(duì)BiPLS選取的變量進(jìn)行二次篩選。結(jié)果表明:當(dāng)區(qū)間分割數(shù)為10時(shí),BiPLS優(yōu)選變量建模結(jié)果最優(yōu),采用BiPLS-SPA選擇的變量數(shù)由原始光譜的117個(gè)減少到6個(gè),對(duì)應(yīng)模型的相關(guān)系數(shù)為0.925、預(yù)測(cè)均方根誤差為0.010 4,較PLS、iPLS、BiPLS、SPA-PLS模型更能準(zhǔn)確表示木材基本密度與近紅外光譜之間的關(guān)系。
[1]SANTOSAJA,ALVESAMM,SIMESRMS,etal.EstimationofwoodbasicdensityofAcaciamelanoxylon(R.Br.)bynearinfraredspectroscopy[J].JournalofNearInfraredSpectroscopy,2012,20(2):267-274.
[2]JONESPD,SCHIMLECKLR,PETERGF,etal.NondestructiveestimationofPinus taedaL.woodpropertiesforsamplesfromawiderangeofsitesinGeorgia[J].CanadianJournalofForestResearch,2005,35(1):85-92.
[3]ALVESA,SANTOSA,ROZENBERGP,etal.Acommonnearinfrared-basedpartialleastsquaresregressionmodelforthepredictionofwooddensityofPinus pinasterandLarix×eurolepis[J].WoodScienceandTechnology,2012,46(1):157-175.
[4] 江澤慧,黃安民,王斌.木材不同切面的近紅外光譜信息與密度快速預(yù)測(cè)[J].光譜學(xué)與光譜分析,2006,26(6):1034-1037.
[5] 李耀翔,張鴻富,張亞朝,等.基于近紅外技術(shù)的落葉松木材密度預(yù)測(cè)模型[J].東北林業(yè)大學(xué)學(xué)報(bào),2010,38(9):27-30.
[6] 楊忠,江澤慧,費(fèi)本華,等.近紅外光譜技術(shù)及其在木材科學(xué)中的應(yīng)用[J].林業(yè)科學(xué),2005,41(4):177-183.
[8]SAVITZKYA,GOLAYMJE.Smoothinganddifferentiationofdatabysimplifiedleastsquaresprocedures[J].AnalyticalChemistry,1964,36(8):1627-1639.
[9] 劉桂松,郭昊淞,潘濤,等.Vis-NIR光譜模式識(shí)別結(jié)合SG平滑用于轉(zhuǎn)基因甘蔗育種篩查[J].光譜學(xué)與光譜分析,2014,34(10):2701-2706.
[11]GALVORKH,JOMCU,F(xiàn)RAGOSOWD,etal.AvariableeliminationmethodtoimprovetheparsimonyofMLRmodelsusingthesuccessiveprojectionsalgorithm[J].ChemometricsandIntelligentLaboratorySystems,2008,92(1):83-91.
XylosmaracemosumBasic Density Prediction with BiPLS-SPA and Near Infrared Wavelength Optimization//
Zhang Yizhuo, Tu Wenjun, Li Chao, Pan Shen
(Northeast Forestry University, Harbin 150040, P. R. China)//Journal of Northeast Forestry University,2016,44(10):79-83.
Wood;Xylosmaracemosum; Basic Density; Near infrared; BiPLS; SPA
1)國(guó)家林業(yè)局“948”項(xiàng)目(2015-4-52)。
張怡卓,男,1978年12月生,東北林業(yè)大學(xué)機(jī)電工程學(xué)院,教授。E-mail:nefuzyz@163.com。
2016年5月12日。
S781.31;TP391.4
責(zé)任編輯:張 玉。