王永波 李洪艷 張想芬 溫衛(wèi)華 楊瑞
關(guān)鍵詞:核桃產(chǎn)地;傅里葉變換紅外光譜;數(shù)據(jù)驅(qū)動型簇類獨(dú)立軟模式分類;二維相關(guān)光譜
中圖分類號:S664.1 文獻(xiàn)標(biāo)志碼:A 文章編號:1009-9980(2023)01-0155-14
核桃(Juglans regia L.)是世界四大堅果之一,我國是其原產(chǎn)地,也是主要種植區(qū)。廣泛分布于新疆、云南、山東等21個省區(qū)。核桃極具經(jīng)濟(jì)和保健價值?,F(xiàn)代醫(yī)學(xué)研究認(rèn)為,核桃仁中豐富的α-亞麻酸(ALA)、多酚、類黃酮、植物甾醇等抗氧化物質(zhì),具有很好的抗癌作用,并能有效對抗心血管疾病,對預(yù)防肥胖、糖尿病等也有很好的作用。不同產(chǎn)地和品種的核桃營養(yǎng)成分存在差異,隨著生活水平的提高,人們越來越重視具有地理標(biāo)志的優(yōu)質(zhì)核桃產(chǎn)品。因此對核桃產(chǎn)地溯源檢測有實際意義。我國多以未去殼核桃銷售,核桃殼(核桃內(nèi)果皮)是核桃加工和消費(fèi)的副產(chǎn)物,其含有豐富的木質(zhì)素、纖維素和半纖維素以及酚酸類、黃酮類、苷類等多種活性物質(zhì),常被用于食品加工、化工、醫(yī)學(xué)應(yīng)用等。核桃產(chǎn)地溯源研究材料大多是核桃仁,利用核桃殼進(jìn)行的產(chǎn)地判別尚未見報道。
目前常用的產(chǎn)地溯源分析技術(shù)主要有同位素溯源、礦質(zhì)元素指紋分析、電子鼻技術(shù)等,這些方法要求操作者有較豐富的專業(yè)知識,并且存在實驗過程復(fù)雜、成本高、污染環(huán)境等缺點(diǎn)。傅里葉變換紅外光譜(Fourier transform infrared spectroscopy,F(xiàn)TIR)分析方法所需樣品制備量少或無需樣品制備,不使用危險的溶劑或試劑,具有檢測步驟簡便快速、特征吸收峰更易鑒別、實驗重復(fù)性好等優(yōu)點(diǎn),已被廣泛地用于化工、中藥、食品等方面的定性和定量分析。由于核桃是高度復(fù)雜的多成分系統(tǒng),會導(dǎo)致紅外振動信號的整合和重疊,這使得其直接解釋困難。因此,筆者引入二維相關(guān)光譜(two-dimensional spectrosco-py,2DCoS)分析技術(shù)。與傳統(tǒng)的FTIR技術(shù)相比,2DCoS可以放大紅外光譜中微小的差異并揭示任何重疊的峰值來提高光譜分辨率。
化學(xué)計量學(xué)工具是提取紅外光譜有效信息的關(guān)鍵數(shù)學(xué)方法,該信息與地理特征結(jié)合可實現(xiàn)對樣本產(chǎn)地的快速鑒別。典型的化學(xué)計量學(xué)數(shù)據(jù)分析包括無監(jiān)督的主成分分析(principal component anal-ysis,PCA)、層次聚類分析(hierarchical cluster analy-SIS,HCA),以及有監(jiān)督的分類方法,如線性判別分析(linear discriminant analysis,LDA)、偏最小二乘判別分析(partial least squares-discriminant analysis,PLS-DA)、k最近鄰分類算法(k-nearest neighbors,k-NN)、支持向量機(jī)(support vector machines,SVM)等。簇類獨(dú)立軟模式分類(SIMCA)是廣泛用于化學(xué)計量學(xué)中的單分類器之一。它通過對每種類別進(jìn)行無監(jiān)督PCA建模分析,可以將樣本關(guān)聯(lián)到多個類或不關(guān)聯(lián)任何類。Dana等的研究表明,SIM-CA分類與機(jī)器學(xué)習(xí)(ML)的預(yù)測模型在拉曼光譜判別蜂蜜產(chǎn)地和品種結(jié)果存在相關(guān)性,且2種算法分類結(jié)果正確率基本相同。最近學(xué)者提出了基于SIMCA邊界構(gòu)建修改的數(shù)據(jù)驅(qū)動型簇類獨(dú)立軟模式分類(data driven soft independent modelling of class analogy,DD-SIMCA)。DD-SIMCA通過計算每個對象的得分距離和正交距離,從而建立2個公差閾值:給定顯著性水平的接受區(qū)域和異常值區(qū)域。DD-SIMCA常用于樣品的摻假檢測,鮮有用于樣本產(chǎn)地識別。
筆者旨在通過選擇正確的數(shù)據(jù)預(yù)處理和適當(dāng)?shù)腇TIR光譜數(shù)據(jù)分析方法,為開發(fā)一種自動量化和識別核桃產(chǎn)地的快速、簡便的方法提供依據(jù)。
1材料和方法
1.1樣品處理
樣品是從當(dāng)?shù)胤N植戶和經(jīng)認(rèn)證的銷售商處采購的當(dāng)年產(chǎn)核桃干果,其中3種分別為來自中國國家地理標(biāo)志產(chǎn)品保護(hù)產(chǎn)區(qū)的貴州赫章核桃、云南大理漾濞核桃和新疆阿克蘇核桃,另一種為產(chǎn)自于四川涼山的大涼山核桃。采集的樣品密封保存于室溫條件下待用,測試前剝離其核桃仁和核桃殼作為實驗材料,分別重復(fù)18~38個樣本。具體信息見表1。
為進(jìn)一步降低樣品中水分對實驗結(jié)果的影響,將核桃仁樣品去除種皮,用粉碎機(jī)粉碎后置于真空冷凍干燥機(jī),凍干36 h;將核桃殼樣品置于干燥箱,105℃條件下烘干4h后,用粉碎機(jī)粉碎并過200目篩。干燥后的樣品分別編號裝入密封袋,并置于真空干燥器中儲存?zhèn)溆谩?/p>
1.2主要儀器與試劑
傅里葉變換紅外光譜儀(Frontier,美國Perki-nElmer公司)、真空冷凍干燥機(jī)(LGJ-10C,北京四環(huán)公司)、壓片機(jī)(DF-4B,天津港東科技公司)配13 mm免脫模壓片模具、分析天平(BSA2202S,德國Sarto-rius公司)、瑪瑙研缽、KBr(光譜純,國藥集團(tuán))。
1.3 FTIR采集和光譜數(shù)據(jù)預(yù)處理
參考黃冬晨等的方法并做適當(dāng)改進(jìn),實驗前將光譜純KBr放入真空烘箱105℃條件下烘干12 h以除去水。按質(zhì)量比1:100稱取樣品與KBr,分多次等比例放入瑪瑙研缽中混合均勻后,放入模具壓成透明薄片。
傅里葉變換紅外光譜儀預(yù)熱30 min,設(shè)掃描范圍:4000~400 cm-1,掃描次數(shù):4次,分辨率:4 cm-1。保持樣品倉內(nèi)無樣品,扣除空氣中H2O和CO2的干擾,掃描獲取FTIR中紅外透射光譜數(shù)據(jù)(ASCII格式)。實驗全程環(huán)境濕度控制在45%以下,溫度為室溫條件。
光譜采集過程中,由于儀器、樣品和測量環(huán)境的變化,原始光譜中不可避免的存在噪聲、基線偏移、譜峰重疊等干擾,這就需要對圖譜數(shù)據(jù)進(jìn)行預(yù)處理。光譜數(shù)據(jù)的預(yù)處理:采用基線校正(baseline correct)減小樣品研磨不夠細(xì)和壓片不夠透明因素造成的紅外光散射影響。采用Savitsky-Golay(S.G.)5點(diǎn)平滑(smooth)處理降低光譜的噪聲。采用一階導(dǎo)數(shù)(first derivative,1stDer)提高原光譜中的吸收峰和肩峰的識別精度。標(biāo)準(zhǔn)正態(tài)變量變換(standard normal variate transformation, SNV)和多元散射校正(multiplicative scatter correction,MSC)被用來消除樣品顆粒分布不均和顆粒大小產(chǎn)生的、表面散射以及光程變化對光譜的影響。
1.4二維相關(guān)光譜(2DCoS)
2DCoS是樣品在系統(tǒng)外部擾動下獲得的一系列動態(tài)光譜和通過一種交叉相關(guān)數(shù)據(jù)分析所得到的光譜。2DCoS是通過將不同產(chǎn)地核桃仁樣品片放入帶有可編程加熱夾套控制器(GS20730型;Spe-cac,英國)的樣品支架中獲得的。溫度范圍為15~55℃,間隔為10℃,在加熱速度為2℃·min-1的情況下采集的動態(tài)吸光度譜。使用OriginPr02022(OriginLab,美國)插件(2D Correlation Spectrosco-py Analysis)對采集到的動態(tài)光譜的平均光譜進(jìn)行二維相關(guān)分析。
1.5化學(xué)計量學(xué)分析工具
化學(xué)計量學(xué)算法可被用于評估、區(qū)分和判別核桃的類別。核桃仁和核桃殼的FTIR數(shù)據(jù)被收集在數(shù)據(jù)矩陣x中,向量y表示核桃的產(chǎn)地類別。矩陣x(FTIR光譜)數(shù)據(jù)信息復(fù)雜且不含有產(chǎn)地等效信息,故需要通過不同的數(shù)據(jù)處理才能獲得正確結(jié)果。
主成分分析法(PCA)是一種無監(jiān)督學(xué)習(xí)算法,常用于數(shù)據(jù)的分類和降維。本工作中,PCA被應(yīng)用于評估根據(jù)不同產(chǎn)地核桃仁和核桃殼FTIR光譜數(shù)據(jù)的樣品聚類。此外,在建立分類模型前,可用PCA檢測可能的異常值。
偏最小二乘判別分析(PLS-DA)是一種廣泛應(yīng)用于光譜分析的統(tǒng)計方法。它是基于偏最小二乘回歸模型,對不同處理的樣本進(jìn)行訓(xùn)練,產(chǎn)生訓(xùn)練集,并檢驗訓(xùn)練集的可信度。建模過程中,各產(chǎn)地類別定義為數(shù)值型變量1、2、3、4,設(shè)置判別閾值為0.5。
支持向量機(jī)(SVM)是一種機(jī)器學(xué)習(xí)算法。它定義了一個決策邊界,該邊界通過最大化2類之間的距離來優(yōu)化劃分2類,用于解決模式識別和回歸問題。
簇類獨(dú)立軟模式分類(SIMCA)是基于主成分分析的一種模式識別方法。它利用先驗分類知識,對每一種類別建立1個PCA模型,通過F檢驗設(shè)定的分類置信區(qū)間,利用建立的模型判斷未知樣本的歸屬。
數(shù)據(jù)驅(qū)動型簇類獨(dú)立軟模式分類(DD-SIMCA)是對揭示極值和異常值等特殊類型的數(shù)據(jù)進(jìn)行校正分析,從而優(yōu)化目標(biāo)樣本可接受范圍的SIMCA決策閾值。DD-SIMCA主要算法步驟如下:
一個好的分類器,靈敏度和特異性應(yīng)接近100%。靈敏度可用于擬合(對被建模的訓(xùn)練集對象)和預(yù)測(未用于建模的驗證集對象)兩方面的模型評價。而特異性只用于預(yù)測評價。
在本工作中,光譜數(shù)據(jù)作圖采用OriginPro2022(OriginLab,美國)軟件。光譜數(shù)據(jù)預(yù)處理采用Spectrum 10 (FTIR儀器自配)軟件和The Unscram-bler X(CAMO,挪威)。另外The UnscramblerX和MATLAB 2020b (MathWorks,美國)用于光譜數(shù)據(jù)的建模分析。MATLAB的DD-SIMCA_GUI工具從https://github.com/yzontov/dd-simca獲得。
2結(jié)果和分析
2.1光譜數(shù)據(jù)預(yù)處理
分別采用原始數(shù)據(jù)(處理1)、基線校正+平滑(處理2)、1stDer(處理3)、S.G.平滑+SNV(處理4)和S.G.平滑+MSC(處理5)等預(yù)處理方法,以4類產(chǎn)地核桃仁樣本為研究對象,根據(jù)PCA和SIMCA結(jié)果評價各預(yù)處理方法的效果。各預(yù)處理在5%顯著水平的SIMCA分類結(jié)果見表2,其中處理5的靈敏度和特異性分別在67%~100%和86%~100%之間,明顯高于其他處理(1~4)靈敏度的43%~75%和特異性的21%~85%。4個產(chǎn)地中新疆的靈敏度和特異性均最高,說明與其他產(chǎn)地的樣本差異較大。對比不同預(yù)處理方法對PCA和SIMCA判別結(jié)果的影響,發(fā)現(xiàn)S.G.平滑+MSC方法可明顯提升模型的識別率。
2.2 FTIR光譜分析
2.2.1核桃仁FTIR光譜 將測定的4個產(chǎn)地核桃仁樣品的中紅外光譜數(shù)據(jù)分別計算平均光譜,經(jīng)基線校正+S.G.平滑處理后觀察平均光譜在全譜范圍內(nèi)的差異。如圖1所示,不同產(chǎn)地核桃的平均光譜在總體模式上呈現(xiàn)出相似的趨勢,但在指紋區(qū)的2個譜段(1750~1450 cm-1和1330~1100cm-1)存在較大差異,這與不同官能團(tuán)的振動模式有關(guān)。所得14個主要特征吸收峰及基團(tuán)歸屬如下:3412 cm-1為液態(tài)H2O伸縮或醇羥基O—H伸縮振動;2923 cm-1和2857 cm-1表現(xiàn)為脂肪族基團(tuán)CH3的反對稱和對稱伸縮振動;1745 cm-1為飽和脂肪酸酯中的C=O吸收峰;1649 cm-1為酰胺Ⅰ帶C=O伸縮振動峰,氨基酸NH3+振動峰,以及C—H鍵的伸縮振動;1539 cm-1附近為酰胺Ⅱ帶C—N、C=C、N=O的伸縮振動,以及N—H變形引起;1456 cm-1和1391cm-1可能為飽和C—H和氨基酸COO吸收峰,或酰胺Ⅲ譜帶;1238 cm-1、1163 cm-1、1100 cm-1處為C—O、C—N吸收峰以及脂肪族SO2吸收峰;716 cm-1和608 cm-1為S-O伸縮振動和酰胺O=C-N吸收峰。其中2923 cm-1、2857 cm-1、1745 cm-1、1649 cm、1456 cm-1、1163 cm-1和716 cm-1處為強(qiáng)吸收峰,這些譜帶的分配顯示出核桃仁中含有豐富的蛋白質(zhì)、酯類脂肪酸和碳水化合物等物質(zhì)。對比4個產(chǎn)地核桃仁的中紅外光譜,箭頭標(biāo)示位置的表征蛋白和脂類的2個吸收峰的吸收強(qiáng)度和相對強(qiáng)度存在明顯差異。進(jìn)一步通過變量投影重要性(variable importance in the projection VIP)算法對3100~700 cm-1波數(shù)范圍內(nèi)主要吸收峰進(jìn)行分析,篩選出統(tǒng)計學(xué)差異(VIP>1.0)的吸收峰為1649 cm-1和1539 cm-1。這表明不同產(chǎn)地核桃的蛋白質(zhì)和脂肪結(jié)構(gòu)組成及相對含量可能存在差異。
2.2.2核桃殼FTIR光譜 各產(chǎn)地核桃殼粉的FTIR透過率光譜如圖2所示,3400 cm-1附近的吸收峰為O—H的伸縮振動峰;2930 cm-1處的特征峰與CH2和CH3中存在的C-H拉伸振動有關(guān);1739 cm-1附近是纖維素中C=O伸縮振動峰;1610 cm-1和1517 cm-1處與木質(zhì)素芳香環(huán)的C-C拉伸有關(guān),這是木質(zhì)素最特征的紅外吸收帶;1444 cm-1附近的吸收峰或與CH3和CH2中C—H的彎曲振動有關(guān);酚類、醇類和醚類的C—O拉伸出現(xiàn)在1249 cm-1和1050 cm-1處。對比各產(chǎn)地核桃殼紅外光譜,貴州產(chǎn)地的1800~1300 cm-1范圍光譜特征與其他3地(云南、新疆、四川)區(qū)別明顯,表征為木質(zhì)素和纖維素的組成和結(jié)構(gòu)差異。
由圖1和圖2可知,4個產(chǎn)地的核桃仁和核桃殼的紅外光譜,雖然存在差異,但是整體上相似,直觀上并不能通過紅外光譜中特異的吸收峰等特征將其區(qū)分開來,需要進(jìn)行化學(xué)計量學(xué)或2DoS分析。訓(xùn)練和優(yōu)化模型,預(yù)測集用來預(yù)測模型的泛化能力(即預(yù)測性能)評價。利用The UnscramblerX軟件,通過偏最小二乘(PLSR)和支持向量機(jī)(SVM)方法,將產(chǎn)地信息與光譜信息分別進(jìn)行數(shù)學(xué)建模分析。
2.4.1偏最小二乘判別分析(PLS-DA)PLS-DA作為一種常用的有監(jiān)督的降維、判別分析方法,運(yùn)行中一個重要的參數(shù)選擇就是主成分?jǐn)?shù)。本研究采用完全交叉驗證的驗證策略,選擇最佳主成分?jǐn)?shù)為5。結(jié)果表明,核桃仁校正集決定系數(shù)R2=0.80、驗證集R2cv=0.78,校正均方根誤差RMSEC=0.52、交叉驗證均方根誤差RMSECV=0.63。校正集和驗證集的決定系數(shù)相差較小,說明基于PLSR建立的核桃仁
2.3主成分分析(PCA)
利用經(jīng)S.G.平滑+MSC預(yù)處理后核桃仁和核桃殼的全光譜數(shù)據(jù)進(jìn)行PCA分析,三維得分圖見圖3-a~b,可以看出,不同產(chǎn)地的樣本可明顯聚為4類。圖3-a中,前3個主成分PC1、PC2和PC3分別解釋了66.2%、20.8%和7.7%的方差,累計貢獻(xiàn)率為93.7%。云南產(chǎn)地核桃仁樣本聚集更為集中且與其他3地樣本的空間距離更遠(yuǎn),說明云南核桃的化學(xué)成分組成或含量與其他3地差異較大。新疆產(chǎn)地樣本內(nèi)部聚集相對分散,編號為xj16的觀測數(shù)據(jù)點(diǎn)處于95%置信區(qū)間外,判定其為異常值。由圖3-b可知,前3主成分累計方差貢獻(xiàn)率為91.6%,除貴州產(chǎn)地的核桃殼樣本單獨(dú)聚為一類外,其他3地樣本的置信橢圓彼此間有重疊,這與核桃仁的PCA表現(xiàn)存在差異。
2.4 PLS-DA和SVM建模及判別
將核桃仁(n=120)和核桃殼(n=80)樣本數(shù)據(jù)集分別按3:1隨機(jī)分為校正集和預(yù)測集。校正集用于產(chǎn)地預(yù)測模型沒有產(chǎn)生過擬合現(xiàn)象。同時較小的決定系數(shù)值,較大的均方根誤差值,表明所建立的預(yù)測模型的預(yù)測效果會差強(qiáng)人意。另外,核桃殼樣本校正集R2=0.97、驗證集R2cv=0.95,校正均方根誤差RMSEC=0.19、交叉驗證均方根誤差RMSECV=0.26。它們對未知樣本(預(yù)測集)的預(yù)測結(jié)果分別見圖4-a~b,核桃仁和核桃殼樣本預(yù)測集識別正確率分別為73%和100%。由此可見,通過核桃殼樣本的PLS-DA模型比核桃仁樣本建立的更穩(wěn)健。
2.4.2支持向量機(jī)(SVM) SVM是最流行的用于樣本通用分類和識別的機(jī)器學(xué)習(xí)模型之一。該模型對非線性樣本具有良好的分離效果。本實驗中選擇SVM類型:nu-SVC,Kemel類型:徑向基核函數(shù)(ra-dial basis function),Nu值:0.5,進(jìn)行SVM建模和判別分析。結(jié)果表明,SVM模型在核桃仁樣本校正集和驗證集的識別正確率分別為100%和96%,預(yù)測集的識別正確率97%。在核桃殼樣本校正集、驗證集和預(yù)測集識別正確率均為100%。
比較核桃仁和核桃殼樣本的PLS-DA和SVM判別結(jié)果,核桃殼樣本在2種分類器中得到更高的判別正確率,說明其或更適合作為實驗材料進(jìn)行核桃產(chǎn)地鑒別。SVM比PLS-DA對核桃仁樣本的判別精度提高較大。為探究核桃仁的分類潛力,對其做進(jìn)一步的分析。
2.5 SIMCA和DD-SIMCA判別分析
SIMCA和DD-SIMCA屬于單類分類器,該分類器用于將一個特定的目標(biāo)類別對象從所有其他對象類別中區(qū)分出來。按2:1將核桃仁樣本數(shù)據(jù)集隨機(jī)劃分為校正集(n= 80)和獨(dú)立的預(yù)測集(n=40)。為了防止過擬合,模型中最佳主成分?jǐn)?shù)分別采用杠桿率校正(leverage correction)和留一法交叉驗證(leave-one-out CV)確定。
2.5.1 SIMCA判別分析 選擇最佳主成分?jǐn)?shù)4(sc),6(gz),5(xj)和7(yn),利用校正集分別建立各產(chǎn)地的PCA模型,分類結(jié)果見圖5庫曼圖(Coomans plot)。該圖表示每個樣本到模型(sc vs xj)的馬氏距離,坐標(biāo)軸為樣品到模型的距離,坐標(biāo)是計算出來的距離值(樣品標(biāo)準(zhǔn)差)。采用軟分類標(biāo)準(zhǔn)的SIM-CA,允許將樣本同時分配到所調(diào)查類別中的任何一類。即當(dāng)1個樣本在2個類中的標(biāo)準(zhǔn)化距離都小于1時,它可以被分配到2個類中。這代表了重疊類模型的情況。此外,當(dāng)1個樣本的標(biāo)準(zhǔn)化距離在這個類中大于1,在另一個類中小于1時,它只能被分配到1個類。相應(yīng)地,當(dāng)1個樣本對2個類的標(biāo)準(zhǔn)化距離都大于1時,它就被分配到2個類中的任何一個,并被視為異常值。由圖5可知,各樣本基本都能按照各自的組別成功分類,只有樣本sc24被同時分配到四川(sc)和貴州(gz)產(chǎn)地。此外,樣本g28,xj16,xj14與所在樣本組的距離較大。在5%顯著性水平下,各產(chǎn)地的識別率分別是新疆(xj)93%、云南(yn)100%、四川(sc)87%和貴州(gz) 79%,4類產(chǎn)地總體樣本的測試集識別正確率為87%。
圖6為各產(chǎn)地樣本與四川樣本的相對類間距離。類間距描述了類之間的相似性或差異性.如果兩類模型間距離大于3,則它們被區(qū)分為不同模型,且距離越大,分類越準(zhǔn)確。核桃仁樣本的四川與貴州產(chǎn)地PCA模型間距離最小為38.38,而四川與新疆、云南產(chǎn)地模型的距離較遠(yuǎn),分別為747.43和696.78。說明SIMCA方法能夠成功進(jìn)行核桃產(chǎn)地分類,其中四川與貴州兩產(chǎn)地的核桃仁樣本光譜數(shù)據(jù)比較相似,而與云南和新疆兩產(chǎn)地的差異性較大。對比核桃殼樣本各類與四川產(chǎn)地的類間距離,最小為59.30,最大為905.70,驗證了核桃殼比核桃仁分類結(jié)果更準(zhǔn)確。這或許與所選擇不同產(chǎn)地品種間核桃殼差異更大有關(guān)。
2.5.2 DD-SIMCA判別分析 將隨機(jī)選取的校正集和預(yù)測集樣本按產(chǎn)地類別各分為4類,即校正集:貴州(gz;n=19)、四川(sc;n=20)、云南(yn;n=26)、新疆(xj;n=18)和預(yù)測集:g(n=8)、s(n=8)、v(n=12)、x(n=9)。在進(jìn)行類建模之前,分別對總樣本的校正集和預(yù)測集進(jìn)行異常值檢測。圖7-a為校正集的DD-SIMCA接受度圖(綠線內(nèi)),紅線為目標(biāo)組樣品的閾值線。兩線與坐標(biāo)軸組成的區(qū)域?qū)悠贩譃?類:規(guī)則數(shù)據(jù)(綠點(diǎn))、極值(黃點(diǎn))和異常值(紅點(diǎn))。由圖7-a可知,校正集中兩極值點(diǎn)為xj14和sc24。圖7-b中所有的校正集數(shù)據(jù)都在公差范圍內(nèi)(以垂直線表示)。表明基于DD-SIMCA模型的校正集不包含異常值,最終校正集和預(yù)測集中的xj14、xj16和sc24被判定為極值,這與SIMCA的檢測結(jié)果基本一致。
將各產(chǎn)地數(shù)據(jù)分別建立DD-SIMCA模型,設(shè)參數(shù)為:校正集數(shù)據(jù)采用中心化(Centering)預(yù)處理,主成分?jǐn)?shù)3,接受區(qū)域類型選擇卡方分布(chi-square),并使用經(jīng)典的估計方法(α=0.01;γ=0.01)。值得注意的是,建模過程中某些參數(shù)的設(shè)置(如主成分?jǐn)?shù)過高)會導(dǎo)致模型不穩(wěn)定,因此主成分?jǐn)?shù)是通過校正集對模型反復(fù)訓(xùn)練,選出預(yù)測結(jié)果最好時對應(yīng)的數(shù)據(jù)。
在驗證階段,使用新數(shù)據(jù)(校正集)對模型進(jìn)行評估。為了測試模型對目標(biāo)類或者含有外部樣本的新數(shù)據(jù)集的接受和拒絕能力,分別用預(yù)測集中非目標(biāo)類、目標(biāo)類和所有類數(shù)據(jù)進(jìn)行驗證,結(jié)果見圖7一C~e。圖7-c和d分別表明貴州產(chǎn)地模型特異性與四川產(chǎn)地的靈敏度均為100%,圖7-e和f表明云南和新疆產(chǎn)地模型對目標(biāo)類樣本和非目標(biāo)類樣本的特異性和靈敏度都達(dá)到100%。
2.6二維相關(guān)紅外光譜分析
比較4類產(chǎn)地核桃仁紅外光譜在1800~700 cm-1波數(shù)范圍內(nèi)的二維同步譜,結(jié)果如圖8所示。同步2DCoS圖是對角線對稱的,位于對角線上的相關(guān)峰被稱為自相關(guān)峰(總為正值),是由擾動引起的動態(tài)波動的自相關(guān)強(qiáng)度引起的。非對角線上的峰為交叉峰(正或負(fù)),是由分子間或分子內(nèi)相互作用產(chǎn)生的官能團(tuán)相對性變化的結(jié)果。
由圖8可知,各產(chǎn)地的二維同步譜圖存在明顯的差異,主要表現(xiàn)在1750~1710 cm-1的脂肪酸酯、1700~1520 cm-1蛋白質(zhì)、1200~1080 cm-1碳水化合物吸收譜帶的變化。例如,圖8-b和d中四川和云南產(chǎn)地樣本2DCoS圖譜在Φ(1745 1745)和中(16501650)處存在明顯的強(qiáng)自相關(guān)峰,而貴州的中(17451745)和新疆中(1650 1650)處均表現(xiàn)為弱自相關(guān)峰(圖8-a和c)。1200~1080 cm-1范圍自相關(guān)峰,表現(xiàn)為圖8(a,b)和(c,d)差異較大,后者的強(qiáng)度明顯更高。在中(1050 1050)處各產(chǎn)地均發(fā)生自相關(guān)峰,但在一維FIIR圖譜中并不容易分辨,或因其在一維圖譜中表現(xiàn)為重疊峰或肩峰,而1050 cm-1歸屬于脂肪族酸酐(酯)的C—O伸縮振動。另外,圖8(a-d)分別存在特異自相關(guān)峰,發(fā)生在Φ(1576 1576)、Φ(950950)、中(1720 1720)、Φ(886 886)處。
圖8-b中四川產(chǎn)地樣本的交叉峰(1655 1745)cm-1和(1540
1745) cm-1為負(fù)相關(guān)與其他產(chǎn)地存在明顯不同。它們是由羧酸(酯)C=O伸縮振動、酰胺Ⅰ的C-O伸縮振動和蛋白質(zhì)N-H變角振動產(chǎn)生的。綜合這些特征,可以發(fā)現(xiàn)各產(chǎn)地核桃仁樣品2DCoS圖譜存在明顯差異,其中四川與新疆產(chǎn)地差異最大,這與SIMCA的類間距表現(xiàn)結(jié)果一致。因此可以依據(jù)2DCoS圖譜進(jìn)行核桃產(chǎn)地分類識別。
3討論
試驗結(jié)果表明,利用核桃仁樣本可以實現(xiàn)基于紅外光譜核桃的區(qū)域識別,這與前人的研究結(jié)果一致。另外利用核桃殼樣本同樣取得了很好識別效果,這與Nogales-bueno等的利用近紅外光譜實現(xiàn)對帶殼核桃的品種識別的結(jié)果類似,證明核桃殼材料可用于紅外光譜的定性識別。值得強(qiáng)調(diào)的是,影響核桃品質(zhì)的因素包括不同產(chǎn)地的氣候環(huán)境、地理條件、物候期及栽培管理措施和品種之間的差異。為取得高的材料變異性,筆者實驗條件是嚴(yán)格選取4個不同物候期的核桃。實際工作中,可選取盡可能多的產(chǎn)地和主栽品種的核桃作為研究樣本,從而建立更穩(wěn)定、更準(zhǔn)確的核桃產(chǎn)地判別模型。
各分類器對核桃產(chǎn)地的判別效果:DD-SIM-CA>SVM>SIMCA>PLS-DA。分析PLS-DA對核桃殼數(shù)據(jù)表現(xiàn)良好而對核桃仁結(jié)果一般的情況,其原因或許是該分類器對類別數(shù)據(jù)不平衡或全光譜的冗余數(shù)據(jù)比較敏感。下一步可以優(yōu)化信息區(qū)間,利用PCA降維數(shù)據(jù)或特征波段選擇,進(jìn)一步發(fā)掘模型的精度和效率。Muller等使用siPLS算法將光譜分為20個區(qū)間和3個區(qū)間的組合,取得了明顯優(yōu)于使用所有變量的PLS最佳模型。本實驗中不同分類模型都檢測出極值或者異常值,它們會影響模型的預(yù)測精度和穩(wěn)健性,因此可以選擇剔除異常值的數(shù)據(jù)建模。
2DCoS的特點(diǎn)是能夠有效地突出光譜細(xì)微的差異而提高光譜分辨率,事實上它也會放大數(shù)據(jù)集的噪聲,而噪聲會產(chǎn)生多余的交叉峰而嚴(yán)重干擾異步譜分析。從光譜數(shù)據(jù)中去除非系統(tǒng)性噪聲是后續(xù)分析前的一個重要預(yù)處理步驟。2DCoS光譜會受到材料、擾動類型和環(huán)境條件等的影響。為了盡量減少高溫引起材料中蛋白質(zhì)等的結(jié)構(gòu)變化而影響光譜結(jié)果,本實驗中溫度梯度設(shè)置為15~55℃,連續(xù)動態(tài)光譜個數(shù)為5,或存在梯度設(shè)置不夠充分從而影響二維相關(guān)光譜的表征。后續(xù)研究中可選擇其他較穩(wěn)定的擾動類型,以及采用機(jī)器學(xué)習(xí)算法對二維相關(guān)光譜圖進(jìn)行分類分析,以獲得準(zhǔn)確性和可重復(fù)性更高的結(jié)果。
4結(jié)論
(1)采取S.G.平滑+MSC的光譜預(yù)處理方法,能夠顯著地提升模型的分類和判別正確率。
(2)核桃殼和核桃仁都可以用于核桃產(chǎn)地的鑒別?;诤颂覛颖镜腜LS-DA和SVM模型判別正確率達(dá)100%,好于基于核桃仁的識別結(jié)果。
(3)核桃仁樣本的FTIR光譜與DD-SIMCA結(jié)合,建立的鑒定模型能將目標(biāo)類和其他產(chǎn)地樣本分開,校正集和預(yù)測集的靈敏度和特異性均達(dá)到100%。
綜上,F(xiàn)TIR光譜結(jié)合SVM和DD-SIMCA化學(xué)計量學(xué)方法或2DCoS分析技術(shù)可以實現(xiàn)對核桃產(chǎn)地的高效識別。