張辭海,胡 蕓,劉 娜,彭黔榮*,邵學(xué)廣
1.貴州中煙工業(yè)有限責(zé)任公司技術(shù)中心,貴陽市小河經(jīng)濟技術(shù)開發(fā)區(qū)開發(fā)大道96號 550009
2.南開大學(xué)化學(xué)學(xué)院,天津市南開區(qū)衛(wèi)津路94號 300071
近年來,隨著近紅外光譜技術(shù)及化學(xué)計量學(xué)方法的不斷發(fā)展,近紅外光譜技術(shù)已在食品、石油、醫(yī)藥、化工和農(nóng)業(yè)等領(lǐng)域得到了廣泛應(yīng)用[1-6]。通常,近紅外技術(shù)的應(yīng)用是基于樣品光譜的統(tǒng)計分析模型進行的,建模階段的工作量最大,因此研究人員在建立一個良好的模型后,均希望該模型能夠長期使用并能有較寬廣的應(yīng)用范圍,以便減少模型維護的工作量[7-8]。目前,烤煙的近紅外定量模型主要是根據(jù)人為劃分的省際界限收集和篩選樣品后建立的,應(yīng)用模型時也僅限于收集樣品的行政區(qū)劃內(nèi)[9-10]。煙葉的品質(zhì)特性與生態(tài)環(huán)境、氣候因子密切相關(guān)[11-14],因此將烤煙模型劃分為不同的省際歸屬缺乏嚴(yán)謹(jǐn)?shù)目茖W(xué)依據(jù)。云南、貴州的大部地區(qū)及四川涼山地區(qū)同屬于西南云貴高原生態(tài)區(qū),煙葉的生長環(huán)境及氣候存在較高的相似性。因此,本研究中以貴州烤煙為代表建立煙堿的近紅外定量模型,通過主成分分析(Principal component analysis,PCA)、馬氏距離(Mahalanobis distance)及模型預(yù)測結(jié)果的相對誤差來探討貴州模型對同屬西南云貴高原生態(tài)區(qū)的云南昭通、云南楚雄、云南保山、四川德昌產(chǎn)區(qū)的烤煙樣品,以及與上述區(qū)域存在較大差異的河南寶豐、湖南郴州、廣東梅州、福建三明產(chǎn)區(qū)的烤煙樣品的適用性,并在此基礎(chǔ)上考察西南云貴高原生態(tài)地區(qū)烤煙樣品合并后建模的效果,旨在為建模所需樣品的代表性及模型預(yù)測應(yīng)用域研究提供參考。
2015—2016年從各地復(fù)烤廠收集的代表性復(fù)烤片煙樣品566個,包括貴州(全省)樣品325個、云南(昭通、楚雄、保山)樣品49個、四川(德昌)樣品50個、湖南(郴州)樣品70個、福建(三明)樣品18個、廣東(梅州)樣品24個、河南(寶豐)樣品30個。
AntarisⅡ近紅外光譜儀、TQ Analyst軟件(美國Thermo公司);FED-240型干燥箱(德國Binder公司);YC-400B-03型煙草粉碎機(成都英特瑞公司);AE100型電子天平(感量0.000 1 g,瑞士Mettler-Toledo公司);Futura型8通道連續(xù)流動化學(xué)分析儀(法國 Alliance公司);MATLAB 2012a軟件(美國MathWorks公司)。
1.2.1 樣品處理
對于所有煙樣,均按照煙草行業(yè)標(biāo)準(zhǔn)YC/T 31—1996《煙草及煙草制品 試樣的制備和水分測定 烘箱法》方法制成煙末,過425 μm(40目)篩后裝入密封袋備用。
1.2.2 煙堿含量測定
按照煙草行業(yè)標(biāo)準(zhǔn)YC/T 468—2013《煙草及煙草制品 總植物堿的測定 連續(xù)流動(硫氰酸鉀)法》方法測定樣品中的煙堿含量(質(zhì)量分?jǐn)?shù))。
1.2.3 近紅外光譜采集
將煙粉置于樣品杯中,用壓塊自然下落壓實,置于近紅外光譜儀上進行漫反射采集。樣品采集時入射光斑偏心,光譜掃描范圍為4 000~10 000 cm-1,分辨率為8 cm-1,掃描次數(shù)為64次。
1.2.4 模型樣品集劃分
貴州模型:隨機挑選305個貴州烤煙樣品作為校正集,其余20個貴州烤煙樣品作為驗證集。
合并模型:從云南和四川烤煙樣品中隨機挑選云南昭通、云南楚雄、云南保山、四川德昌的烤煙樣品各5個(共20個)作為驗證集,其余79個烤煙樣品及貴州模型的305個烤煙樣品作為合并模型的校正集。
1.2.5 近紅外光譜預(yù)處理與建模
采用偏小二乘法(PLS)方法,在TQ Analyst軟件中建立定量校正模型。選擇近紅外光譜區(qū)間為4 000~8 000 cm-1,對光譜圖進行均值中心化、多元散射校正、一階導(dǎo)數(shù)、Savitzky-Golay平滑預(yù)處理,通過與煙堿測定值的PLS回歸,并采用交互檢驗法預(yù)測殘差平方和(PRESS)確定最佳因子數(shù)。
1.2.6 數(shù)據(jù)處理
用MATLA 2012a軟件對數(shù)據(jù)進行PCA和馬氏距離分析。
1.2.7 評價參數(shù)設(shè)定
模型評價參數(shù):相關(guān)系數(shù)(correlation coefficient,r),包括校正相關(guān)系數(shù) rc,預(yù)測相關(guān)系數(shù)rp;校正均方根誤差(root mean square error of calibration,RMSEC)。模型預(yù)測性能評價參數(shù):外部驗證集預(yù)測均方根誤差(root mean square error of prediction,RMSEP)。較好的模型需要符合以下條件:較低的RMSEC和RMSEP值;RMSEC和RMSEP之間的差值較小;較高的r值(接近1)。
采用305個貴州烤煙樣品作為校正集進行建模,并以20個隨機挑選的貴州烤煙樣品作為獨立測試集對建立的模型進行預(yù)測驗證,結(jié)果如圖1所示??梢钥闯?,煙堿的校正模型的選擇因子數(shù)為8,RMSEC為0.079 9,rc為0.993 2。將獨立測試集樣品帶入校正模型后,RMSEP為0.084 6,rp為0.994 1。說明建立的貴州模型對貴州烤煙樣品具有較好的預(yù)測效果。
圖2是貴州樣品校正集和獨立測試集的第一與第二主成分分析關(guān)系圖??梢钥闯?,獨立測試集的樣品點散布在校正集樣品點之間,說明建立模型所用的樣品具有較強的貴州代表性。
采用不同的分析方法重點考察貴州模型對同屬西南高原生態(tài)區(qū)的云南(昭通、楚雄、保山)和四川(德昌)的烤煙樣品的適用性。
2.2.1 主成分分析
建立模型的樣品集的主成分空間大小可大體上反映模型預(yù)測樣品的適應(yīng)空間。圖3是不同產(chǎn)區(qū)的復(fù)烤片煙樣品的三維主成分得分圖(利用前三個主成分),從圖中可以明顯看出云南昭通、云南楚雄、云南保山、四川德昌(圖中所有的藍色樣品點)的樣品聚類在貴州樣品的空間范圍內(nèi);福建三明(左下角的橢圓區(qū)域)、河南寶豐(右邊的橢圓區(qū)域)的樣品聚類在貴州樣品分布的空間之外;湖南郴州的樣品聚類空間和貴州樣品空間有部分重合;廣東梅州的樣品大部分落在了貴州樣品的空間,少數(shù)在貴州樣品空間外(圖中右上角兩個黑色的三角Δ)。可見,貴州模型可用于預(yù)測云南昭通、楚雄、保山和四川德昌的烤煙樣品。
圖1 貴州烤煙煙堿含量的模型預(yù)測值與測定值的關(guān)系圖Fig.1 Relationship between model predicted values and measured values of nicotine content in flue?cured tobacco from Guizhou
圖2 貴州烤煙樣品PC1/PC2得分圖Fig.2 PC1/PC2 scores of flue?cured tobacco samples from Guizhou
圖3 不同產(chǎn)區(qū)烤煙樣品的3D主成分得分圖Fig.3 3D principal component scores of flue?cured tobacco samples from different growing areas
2.2.2 馬氏距離分析
主成分分析(PCA)是通過光譜主成分得分構(gòu)筑的主成分空間進行樣品的簇分布分析,該方法可將復(fù)雜的多維空間信息壓縮到低維空間進行分析,但其缺點是在圖形上最多只能畫出三維的得分空間圖。從圖3可以看出,利用前三個主成分得分畫出的3D圖只利用了91.95%的信息,部分有用信息仍未被利用。盡管主成分的空間圖能大致反映模型預(yù)測樣品的適應(yīng)空間,但不易確定具體判別的定量值。徐廣通等[15]提出,可將PCA與馬氏距離相結(jié)合解決校正模型的適用性判斷。因此,采用馬氏距離對樣品的適用性進行了進一步分析。首先用PCA對校正集樣品的原始光譜或預(yù)處理后的光譜進行處理,然后用各光譜得到的因子得分計算馬氏距離。該方法不僅利用了PCA對光譜降維處理信息丟失少的特點,也發(fā)揮了馬氏距離可對離群值有效識別的優(yōu)點。
利用PCA降維后得到的前8個主成分得分矩陣(此主成分?jǐn)?shù)與2.1節(jié)中建立的貴州烤煙煙堿近紅外定量模型的因子數(shù)一致)計算不同省份的烤煙樣品與校正集(貴州樣品)之間的馬氏距離,結(jié)果如圖4所示??梢钥闯?,貴州樣品(包含校正集和驗證集樣品)的馬氏距離在1.0~4.5之間,云南昭通、云南楚雄、云南保山、四川德昌的馬氏距離在1.5~4.0之間,均處于貴州樣品的馬氏距離范圍內(nèi)。河南寶豐、廣東梅州樣品的馬氏距離和貴州樣品的馬氏距離相差較大。福建三明多數(shù)樣品的馬氏距離超出了貴州樣品的馬氏距離,僅少數(shù)樣品在貴州樣品馬氏距離范圍的邊緣處。湖南郴州部分樣品的馬氏距離落在貴州樣品馬氏距離范圍內(nèi),但多數(shù)超出了貴州樣品馬氏距離的范圍。因此,從馬氏距離來看,云南昭通、云南楚雄、云南保山、四川德昌這4個產(chǎn)區(qū)的烤煙樣品可以用貴州模型預(yù)測煙堿含量。
2.2.3 預(yù)測結(jié)果相對誤差分析
將貴州的20個樣品、云南(昭通、楚雄、保山)的49個樣品、四川(德昌)的50個樣品、湖南(郴州)的70個樣品、福建(三明)的18個樣品、河南(寶豐)的30個樣品、廣東(梅州)的24個樣品帶入貴州模型驗證結(jié)果。預(yù)測結(jié)果的相對誤差分布如圖5所示,可以看出,云南和四川樣品的模型預(yù)測結(jié)果的相對誤差主要集中在-5%~5%之間,與貴州驗證集樣品的預(yù)測結(jié)果相對誤差分布相似。福建三明、河南寶豐以及廣東梅州樣品的預(yù)測結(jié)果相對誤差則較大;湖南郴州的部分樣品的預(yù)測結(jié)果相對誤差能落在-5%~5%之間,部分樣品則超過此范圍。從相對誤差的角度來看,貴州模型可以適用于云南昭通、楚雄、保山及四川德昌的樣品。
圖4 不同產(chǎn)區(qū)烤煙樣品的馬氏距離Fig.4 Mahalanobis distances of flue?cured tobacco samples from different growing areas
圖5 不同產(chǎn)區(qū)烤煙樣品的相對誤差Fig.5 Relative errors of flue?cured tobacco samples from different growing areas
通過馬氏距離的對比,發(fā)現(xiàn)云南昭通、楚雄、保山以及四川德昌的樣品的馬氏距離完全處于貴州樣品的馬氏距離范圍內(nèi)。因此,認(rèn)為這些產(chǎn)區(qū)的樣品能夠合并建模,以完善預(yù)測模型。將云南和四川的99個樣品隨機劃分為兩部分,一部分為79個樣品,將其與貴州模型的305個樣品混合,建立合并模型;另一部分為20個樣品(云南昭通、云南楚雄、云南保山、四川德昌各5個),將其作為驗證集。對比貴州模型和合并模型的參數(shù)(表1)可知,合并模型的RMSEC、rc、RMSEP、rp參數(shù)均優(yōu)于貴州模型,該模型對云南和四川以及貴州樣品的預(yù)測結(jié)果均有改善??梢姡鶕?jù)馬氏距離將貴州、云南(昭通、楚雄、保山)、四川(德昌)產(chǎn)區(qū)的樣品合并進行建模是可行的。
貴州模型和合并模型對云南和四川20個驗證集樣品的預(yù)測結(jié)果(表2)顯示,從相對誤差絕對值低于5%的比例來看,貴州模型是70%合格,合并模型是90%合格,說明合并模型的預(yù)測效果優(yōu)于貴州模型。本研究結(jié)果有助于改變?nèi)藗冮L期根據(jù)省際行政區(qū)劃建模的慣性思維,對模型建立時選取合適樣品和預(yù)測范圍等有重要參考意義。
表1 貴州模型和合并模型的參數(shù)Tab.1 Parameters of the Guizhou model and the merged model
表2 兩種模型的預(yù)測結(jié)果Tab.2 Prediction results of two models (%)
建立了以貴州烤煙樣品為代表的煙堿近紅外定量模型,通過主成分分析、馬氏距離的判斷以及模型預(yù)測結(jié)果的相對誤差分析,發(fā)現(xiàn)同屬西南云貴高原生態(tài)地區(qū)的云南昭通、云南楚雄、云南保山、四川德昌的烤煙樣品適用于貴州模型,相對誤差較小,主要集中在-5%~5%。福建三明、河南寶豐以及廣東梅州的烤煙樣品不適用于貴州模型。湖南郴州部分樣品的相對誤差較小,可以適用于貴州模型。在此基礎(chǔ)上,通過對比貴州模型和合并模型的建模效果發(fā)現(xiàn),合并模型的各項參數(shù)RMSEC(0.072 6<0.079 9)、rc(0.994 1>0.993 2)、RMSEP(0.076 0<0.109 0,0.079 9<0.084 6)、rp(0.991 1>0.979 3,0.995 2>0.994 1)均優(yōu)于貴州模型;從合并模型對20個驗證集樣品預(yù)測結(jié)果的相對誤差絕對值來看,合并模型的預(yù)測效果也優(yōu)于貴州模型。因此,將西南云貴高原生態(tài)地區(qū)的樣品合并建模是可行的。本研究結(jié)果有助于樹立以煙草生態(tài)區(qū)劃建模并以應(yīng)用效果進行研判的思維,可為提高烤煙煙堿近紅外定量模型的適用性提供參考。