郝 勇,孫旭東,王 豪
(1.華東交通大學機電工程學院,江西 南昌 330013;2.寧波出入境檢驗檢疫局,浙江 寧波 315012)
可見/近紅外光譜(visible-near-infrared spectroscopy,VIS/NIRS)由于其分析效率高、速度快、成本低、非破壞性和易于在線分析等特點被廣泛應用于復雜樣品的定性和定量分析[1-4].然而,VIS/NIRS 不僅反映物質的化學組成和含量,同時也包含了由被測物的溫度、表面紋理、密度以及內部組分分布不均勻等因素引起的光譜響應.因此,在光譜分析中,有效信息的提取、分析模型的建立和簡化非常重要[5-6].
小波變換(wavelet transform,WT)具有“時頻優(yōu)勢”,可以同時反映光譜信號的時間(波長)和頻率信息,被廣泛用于光譜信號分析.離散小波變換可以將信號通過不同的小波濾波器卷積為不同的高頻和低頻組分,高頻組分對應為噪聲信息,低頻組分對應為背景信息.通過對高頻噪聲信息的濾除,可以實現(xiàn)有效信息的提取[7].
連續(xù)投影算法(successive projections algorithm,SPA)能夠有效地消除光譜中眾多變量間的共線性影響,使向量間的共線性達到最小,降低模型的復雜度,在光譜變量選取中得到廣泛應用.然而,對于樣本量較少的樣品集,利用該方法對其光譜進行變量選取時,由于建模樣品代表性不足,導致最終選擇的波長雖然消除了校正集樣品波長間的共線性,然而在外部驗證時,常會由于選擇的建模變量不合適而使得預測結果不理想[8-9].因此,本研究引入蒙特卡羅(monte carlo,MC)方法,對SPA進行改進(modified successive projections algorithm,MSPA),通過選取不同的校正樣本進行多次平行運算,對每次選取的變量求并集,并集包含的變量即為最終選擇的變量,從而解決小樣本數(shù)據(jù)集變量選擇的問題.
為了改善SPA方法在光譜特征變量提取中的有效性,充分簡化分析模型,分別以葡萄酒和蘋果樣品作為研究對象,采用MSPA對其原始的VIS/NIRS和WT光譜中的酒精度和可溶性固形物(soluble solids content,SSC)信息進行提取,并建立相應的PLS模型,以探討一種既可以提高光譜分析精度,又可以實現(xiàn)模型化簡的光譜計量方法.
收集來源于意大利、法國、澳大利亞、羅馬尼亞等國的103個葡萄酒樣品,包括紅葡萄酒、白葡萄酒、起泡葡萄酒等.根據(jù)GB/T 5009.4—2003標準對樣品的酒精度數(shù)據(jù)進行測定,樣品的酒精體積分數(shù)為11.30%~14.50%.
蘋果樣品來源于江西南昌某農貿市場,共采集120個冰糖心蘋果作為試驗樣品.樣品置于25℃,60%濕度的實驗室內,待樣品溫度達到室溫后,進行動態(tài)光譜的采集.采集光譜后,將樣品切塊分成3份,分別放入榨汁機榨汁過濾后,用折射式糖度計(PR-101α,日本)進行糖度的測量,3次測量值取平均作為 SSC的真實值,樣品的 SSC含量范圍為8.50% ~14.10%.
選用 KS(Kennard-Stone)[10]算法分別將2 組樣品按照2∶1的比例劃分為校正集和驗證集.2組樣品分析指標的統(tǒng)計信息如表1所示.
表1 2組樣品數(shù)據(jù)的統(tǒng)計信息
MPA傅里葉變換近紅外光譜儀(德國Bruker公司)用于啤酒樣品透射光譜的采集.以蒸餾水為參比,將葡萄酒液體樣品注入2 mm的圓柱形樣品管中,光譜采用64次掃描,分辨率為8 cm-1,光譜采集范圍為12000~4000 cm-1.每個樣品光譜測試2次,平均光譜作為最終建模光譜.
蘋果近紅外光譜在線檢測裝置如圖1所示.
圖1 蘋果近紅外光譜在線檢測裝置圖
輸送線的速度約為5個·秒-1(每秒過5個蘋果),由變頻器和異步電動機控制.鹵鎢燈發(fā)射的光經直徑為40 mm的圓柱套筒,以約50 mm的光斑照射至蘋果樣品表面.光纖探頭與垂直方向的角度約為30°,至輸送線的距離約為120 mm.由光電接近開關和PLC共同控制觸發(fā)電源開/閉,來觸發(fā)CCD微型光譜儀采集蘋果樣品的漫反射光譜.以聚四氟乙烯材質的白板(6.5 mm厚度)為標準參比,在采集蘋果樣品光譜前先采集參比和暗電流光譜;蘋果樣品在輸送線上隨機放置,每個蘋果樣品重復采集3次光譜,取平均光譜作為每個蘋果樣品的最終光譜;CCD微型光譜儀參數(shù)設置(蘋果樣品、參比和暗電流的積分時間均為30 ms)、光譜采集和存儲利用自行編寫軟件完成[11].
采用偏最小二乘回歸(PLS)建立光譜模型,模型的評價指標包括預測均方根誤差(root mean square error of prediction,RMSEP)、預測相關系數(shù)(correlation coefficient of prediction,Rv)和akaike信息標準(AIC).采用Matlab R2010a進行數(shù)據(jù)處理和模型構建.其中RMSEP值越小,Rv值越大,模型的預測能力越好,AIC[12]的定義為
AIC=nln RMSEP+2p,
式中:n是樣本數(shù);p為樣本的特征數(shù),即建模的變量數(shù).AIC值越小,表明模型越精簡.
在利用小波變換對光譜進行信息提取時,小波基的選取、分解尺度的選擇以及保留的建模小波系數(shù)的數(shù)目是3個重要參數(shù).根據(jù)文獻報道和前期計算[13-14],文中選擇的小波基為“symmlet”,分解尺度為6.
為了確定保留的最佳小波系數(shù)數(shù)目,分別保留不同數(shù)目的葡萄酒和蘋果小波變換光譜的小波系數(shù)進行建模,模型的RMSEP隨保留小波系數(shù)數(shù)目的變化如圖2所示.
圖2 2組數(shù)據(jù)模型的RMSEP隨保留的小波系數(shù)數(shù)目的變化
從圖中可知,對于葡萄酒樣品(圖2a),保留35個小波系數(shù)得到了最好的預測結果;對于蘋果樣品(圖2b),保留55個小波系數(shù)得到了最好的預測結果.
對于小樣本數(shù)據(jù),SPA常會選出具有局部最優(yōu)解的變量,無法代表樣本的真實特征,因此需要對該算法進行改進.隨機從校正樣本中選取1/2的樣品進行SPA運算,對多次平行運算的結果進行求并運算,并集即為選取的變量.模型的RMSEP隨平行運算次數(shù)的變化如圖3所示.
圖3 2組數(shù)據(jù)模型的預測均方根誤差隨平行運算次數(shù)的變化
從圖3中可知,對于葡萄酒和蘋果的原始光譜和小波變換光譜模型,其RMSEP值隨平行運算次數(shù)而變化,當平行運算達某一數(shù)值時,RMSEP不再隨平行運算次數(shù)的增加而變化.對于葡萄酒樣品,原始光譜模型的RMSEP值在運算次數(shù)達到25次時趨于穩(wěn)定,小波變換光譜模型的RMSEP值在運算次數(shù)達到20次時趨于穩(wěn)定;對于蘋果的原始和小波變換光譜模型,當運算次數(shù)達到20次以后,模型的RMSEP值都趨于穩(wěn)定.為了計算簡便,本研究的平行運算次數(shù)統(tǒng)一選用25.
為了對模型進行綜合評價,分別對葡萄酒和蘋果的原始和小波變換光譜采用MSPA方法進行變量篩選和建模分析.模型的RMSEP,Rv,AIC以及建模的變量數(shù)如表2所示.
表2 不同PLS模型的預測結果
對于酒精度模型,WT-MSPA-PLS方法得到了最小的RMSEP,AIC值由4085.60降低為-1.06,建模變量由2073減小為34;對于SSC模型,雖然WTMSPA-PLS方法的RMSEP比WT-PLS方法略有增大,然而模型的AIC值由1047.20降低為57.43,建模變量由535減小為41,模型得到了極大的簡化.
對于2組樣品,雖然WT-PLS方法和WT-MSPAPLS方法最終選擇的變量數(shù)較為接近,然而在WT-PLS方法中,需要建立一系列的PLS模型來考察模型的RMSEP隨保留小波系數(shù)的變化關系;而WT-MSPA-PLS方法則僅需對小波變換后的光譜采用MSPA方法進行特征選取,操作較為簡單.2組樣品的原始和小波變換光譜及其選擇的建模變量示意如圖4,5所示.
圖4 葡萄酒的原始和小波變換光譜及其選擇的建模變量示意圖
圖5 蘋果的原始和小波變換光譜及其選擇的建模變量示意圖
圖4,5中黑色粗橫線段表示建模所選變量.從圖中可以清楚地看到2組樣品光譜經WT-MSPAPLS方法都極大地壓縮了建模變量.
小波變換結合MSPA方法用于葡萄酒和蘋果光譜分析模型的優(yōu)化.試驗結果表明:原始光譜經小波變換后,可以實現(xiàn)信號和噪聲的分離,通過保留特定數(shù)目的小波系數(shù),實現(xiàn)光譜信息的提取和模型的簡化;采用MSPA方法可以進一步提取建模變量,實現(xiàn)模型的精簡;WT-MSPA-PLS有望成為一種既可以提高光譜模型的分析精度又可以降低模型復雜度的較好的組合方法.
References)
[1]劉 卉,郭文川,岳 絨.獼猴桃硬度近紅外漫反射光譜無損檢測[J].農業(yè)機械學報,2011,42(3):145-149.Liu Hui,Guo Wenchuan,Yue Rong.Non-destructive detection of kiwifruit firmness based on near-infrared diffused spectroscopy[J].Transactions of the Chinese Society for Agricultural Machinery,2011,42(3):145 - 149.(in Chinese)
[2]石吉勇,鄒小波,趙杰文,等.黃瓜葉片葉綠素含量近紅外光譜無損檢測[J].農業(yè)機械學報,2011,42(5):178-182.Shi Jiyong,Zou Xiaobo,Zhao Jiewen,et al.NIR spectra in non-invasive measurement of cucumber leaf chlorophylls content[J].Transactions of the Chinese Society for Agricultural Machinery,2011,42(5):178 - 182.(in Chinese)
[3]Gaydou V,Kister J,Dupuy N.Evaluation of multiblock NIR/MIR PLS predictive models to detect adulteration of diesel/biodiesel blends by vegetal oil[J].Chemometrics and Intelligent Laboratory Systems,2011,106(2):190 -197.
[4]Yan Hui,Han Bangxing,Wu Qiongying,et al.Rapid detection of Rosa laevigata polysaccharide content by nearinfrared spectroscopy[J].Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2011,79(1):179-184.
[5]Shen Fei,Ying Yibing,Li Bobin,et al.Prediction of sugars and acids in Chinese rice wine by mid-infrared spectroscopy[J].Food Research International,2011,44(5):1521-1527.
[6]Sinelli N,Casiraghi E,Barzaghi S,et al.Near infrared(NIR)spectroscopy as a tool for monitoring blueberry osmo-air dehydration process[J].Food Research International,2011,44(5):1427 -1433.
[7]Liu Zhichao,Cai Wensheng,Shao Xueguang.A weighted multiscale regression for multivariate calibration of near infrared spectra[J].Analyst,2009,134:261 -266.
[8]Mario Cesar Ugulino Araujo,Teresa Cristina Bezerra Saldanha,Roberto Kawakami Harrop Galvao,et al.The successive projections algorithm for variable selection for variable selection in spectroscopic multicomponent analysis[J].Chemometrics and Intelligent Laboratory Systems,2011,57(2):65 -73.
[9]Sofacles Figueredo Carreiro Soares,Roberto Kawakami Harrop Galvao,Mario Cesar Ugulino Araujo,et al.A modification of the successive projections algorithm for spectral variable selection in the presence of unknown interferents[J].Analytica Chimica Acta,2011,689(1):22-28.
[10]Roberto Kawakami Harrop Galvao,Mario Cesar Ugulino Araujo,Gledson Emidion Jose Coelho Pontes,et al.A method for calibration and validation subset partitioning[J].Talanta,2005,67(4):736 -740.
[11]孫旭東,郝 勇,高榮杰,等.臍橙糖度近紅外光譜在線檢測數(shù)學模型優(yōu)化研究[J].光譜學與光譜分析,2011,31(5):1230 -1235.Sun Xudong,Hao Yong,Gao Rongjie,et al.Research on optimization of model for detecting sugar content of navel orange by online near infrared spectroscopy[J].Spectroscopy and Spectral Analysis,2011,31(5):1230 - 1235.(in Chinese)
[12]Viscarra Rossel R A,Behrens T.Using data mining to model and interpret soil diffuse reflectance spectra[J].Geoderma,2010,158:46 -54.
[13]馬 毅,汪西原,雍 慧.小波變換去噪應用于鮮棗糖度近紅外光譜檢測的研究[J].計算機與應用化學,2011,28(3):303 -306.Ma Yi,Wang Xiyuan,Yong Hui.Study on fresh jujube sugar content using near infrared spectroscopy based on wavelet transform denoising[J].Computers and Applied Chemistry,2011,28(3):303 -306.(in Chinese)
[14]Wu Di,Chen Xiaojin,Shi Pinyan,et al.Determination of alpha-linolenic acid and linoleic acid in edible oils using near-infrared spectroscopy improved by wavelet transform and uninformative variable elimination[J].Analytica Chimica Acta,2009,634(2):166 -171.