江水泉 孫 通
(江蘇楷益智能科技有限公司,江蘇 無錫 214174)
可見/近紅外光譜技術(shù)是一種快速、無損、綠色的現(xiàn)代檢測技術(shù),其根據(jù)分析物的C—H、C—C及O—H等的合頻與倍頻吸收進(jìn)行定性及定量分析。目前,該光譜技術(shù)已應(yīng)用于玉米淀粉[1]、肉類脂肪[2]、魚肉新鮮度[3]、茶葉種類[4]、牛奶蛋白質(zhì)[5]、當(dāng)歸阿魏酸[6]及食用油摻假[7]等檢測。對于水果可溶性固形物SSC檢測,劉燕德等[8]利用近紅外漫反射光譜技術(shù)在線檢測臍橙SSC含量。偏最小二乘(PLS)模型的預(yù)測相關(guān)系數(shù)為0.90,預(yù)測均方根誤差(RMSEP)為0.61。韓東海等[9]建立了3種擺放方式的蘋果SSC在線預(yù)測模型。對于上置式檢測器而言,遮光處理和蘋果擺放方式最為重要;PLS模型的預(yù)測相關(guān)系數(shù)和RMSEP分別為0.87和0.67。郭成等[10]采用無信息變量消除(UVE)方法優(yōu)選無花果SSC的特征波長,并應(yīng)用PLS方法建立無花果SSC的在線預(yù)測模型,其預(yù)測相關(guān)系數(shù)為0.83~0.89,RMSEP為0.63~0.83°Brix。Tian等[11]采用光譜預(yù)處理和變量選擇方法對蘋果SSC在線預(yù)測模型進(jìn)行優(yōu)化。隨機(jī)森林方法篩選的特征波長建立的SSC預(yù)測模型最優(yōu),模型的預(yù)測相關(guān)系數(shù)和RMSEP分別為0.904 3和0.478 7。Xu等[12]研究比較了單點(diǎn)和雙點(diǎn)檢測對蘋果SSC在線檢測精度的影響。此外,還有其他學(xué)者[13-16]也對水果SSC進(jìn)行在線檢測研究。綜合分析上述文獻(xiàn)可知,不少學(xué)者采用變量選擇方法篩選水果SSC的特征變量來簡化和提高預(yù)測模型性能,但基本是采用單一的變量選擇方法。由于可見/近紅外光譜波長變量眾多,數(shù)量可達(dá)幾百甚至上千,含有較多冗余及干擾變量,采用單一方法進(jìn)行波長變量篩選易受冗余及干擾變量影響,從而影響SSC檢測精度和穩(wěn)定性。因此,有必要探索聯(lián)合兩種變量選擇方法篩選SSC特征變量的研究。
試驗(yàn)擬采用可見/近紅外光譜技術(shù)對臍橙SSC含量進(jìn)行在線檢測。利用遺傳算法(GA)和UVE方法對波長變量進(jìn)行預(yù)篩選,在此基礎(chǔ)上再采用競爭自適應(yīng)重加權(quán)采樣(CARS)及連續(xù)投影算法(SPA)進(jìn)一步篩選特征波長變量,并應(yīng)用PLS方法建立臍橙SSC的在線預(yù)測模型。
試驗(yàn)所用的臍橙樣本購買于當(dāng)?shù)厮l(fā)市場,臍橙質(zhì)量范圍為175~327 g,數(shù)量共計(jì)188個。為保證校正集樣本的合理性和代表性,按照臍橙樣本SSC測量值進(jìn)行排序,將最大及最小SSC測量值的臍橙樣本直接分配到校正集,而后按3∶1比例并結(jié)合排序?qū)⒛毘葮颖痉峙涞叫U皖A(yù)測集。經(jīng)分配后,校正集和預(yù)測集的臍橙樣本分別為141個和47個。
試驗(yàn)所用的在線光譜檢測系統(tǒng)如圖1所示,由光譜儀、光纖、光源、輸送系統(tǒng)及電腦等組成。光譜儀為USB4000微型光纖光譜儀(美國Oceanoptics公司),配置3 648像素CCD。光源為2盞150 W鹵鎢燈,功率共300 W。光源分布在臍橙赤道兩側(cè),光源—臍橙—光纖的角度為90°。臍橙傳輸速度為0.3 m/s。
圖1 可見/近紅外光譜在線檢測系統(tǒng)原理圖
樣本光譜采集前,先采集暗場和參比光譜。關(guān)閉光源,所采集的光譜即為暗場光譜;以聚四氟乙烯球(直徑80 mm)為參比,在圖1所示的在線檢測系統(tǒng)中獲得其參比光譜。對于臍橙樣本,按順序依次在線采集每個臍橙的可見/近紅外光譜。暗場、參比及臍橙樣本的積分時間均為60 ms,平均采集次數(shù)設(shè)為1,光譜平滑點(diǎn)數(shù)設(shè)為6。
將臍橙樣本去皮,采用榨汁機(jī)破碎臍橙果肉,并通過普通快速濾紙對臍橙果汁進(jìn)行過濾,然后將過濾后的果汁滴到PR-101α型數(shù)字折射儀(日本Atago公司)的測量窗口,進(jìn)行臍橙SSC真實(shí)含量的測定。
對臍橙樣本光譜,先采用無信息變量消除和遺傳算法分別對波長變量進(jìn)行預(yù)篩選,在此基礎(chǔ)上,再分別利用CARS和SPA方法進(jìn)一步篩選波長變量;對上述方法篩選的波長變量,應(yīng)用PLS方法分別建立臍橙SSC含量的在線預(yù)測模型,并比較模型性能的優(yōu)劣。
無信息變量消除方法的參數(shù)設(shè)置為隨機(jī)噪聲矩陣的變量數(shù)為1 385個,與建模的光譜波長變量數(shù)一致,提取的最大主成分?jǐn)?shù)為15。UVE算法的具體原理參見文獻(xiàn)[17]。對于遺傳算法,其種群大小及染色體長度分別為30和30,變異概率及交叉概率分別為1%和 50%,遺傳代數(shù)為100。GA算法的具體原理參見文獻(xiàn)[18]。在CARS分析中,采樣次數(shù)為50次,提取的最大主成分?jǐn)?shù)由蒙特卡羅交互驗(yàn)證確定。CARS算法的具體原理參見文獻(xiàn)[19]。在SPA分析中,最大及最小可選的波長變量數(shù)分別設(shè)為40和1。SPA算法的具體原理參見文獻(xiàn)[20]。UVE、GA、CARS及SPA方法均在Matlab 7.6.0軟件(美國The Math Works公司)里運(yùn)行完成,PLS方法則在Unscrambler X 10.1軟件(挪威CAMO公司)里運(yùn)行完成。
SSC預(yù)測模型的性能主要由相關(guān)系數(shù)(r)、校正均方根誤差(RMSEC)及RMSEP進(jìn)行評價。預(yù)測模型的相關(guān)系數(shù)越高,RMSEC及RMSEP越小,且兩者較為相近,則預(yù)測模型的性能越好。
由表1可知,所有樣本的SSC平均值、標(biāo)準(zhǔn)偏差及范圍分別為11.54%,1.19%,8.3%~14.9%。校正集和預(yù)測集樣本的SSC平均值分別為11.53%,11.56%,標(biāo)準(zhǔn)偏差分別為1.20%,1.17%。校正集樣本的SSC范圍涵蓋預(yù)測集樣本,表明校正集樣本具有一定的代表性,所建立的SSC預(yù)測模型能適用于預(yù)測集樣本。
表1 臍橙樣本可溶性固形物的主要統(tǒng)計(jì)結(jié)果
由圖2可知,所有臍橙樣本的光譜形狀均較為相似,表明光譜在線采集沒有出現(xiàn)異常。臍橙樣本光譜在700 nm及820 nm左右有較為明顯的波谷,而在725 nm及830 nm左右存在較為明顯的波峰,此部分區(qū)域含有較多有用的光譜信息。樣本光譜兩端波動大,光譜信噪比低。為了避免引入明顯的光譜噪聲和丟失有用的光譜信息,后續(xù)的光譜分析在650~950 nm波段范圍進(jìn)行,該波段范圍共有1 385個波長變量。
圖2 所有臍橙樣本的可見/近紅外光譜
2.3.1 UVE 采用UVE方法對650~950 nm波段范圍的光譜數(shù)據(jù)進(jìn)行波長變量篩選。圖3中,波長變量的穩(wěn)定值在兩水平虛線之外的將作為有用信息波長變量被保留,而在兩水平虛線之內(nèi)的將作為冗余或噪聲波長變量被去除。經(jīng)UVE變量篩選后,共有884個波長變量被去除,501個波長變量被保留。
2.3.2 GA 采用GA方法對650~950 nm波段范圍的光譜數(shù)據(jù)進(jìn)行波長變量篩選。圖4中,被選中頻率大于閾值的波長變量將作為有用信息波長變量被保留,而被選中頻率小于閾值的波長變量將作為冗余或噪聲波長變量被去除。經(jīng)GA方法篩選后,共有1 203個波長變量被去除,182個波長變量被保留。其中,在725~755 nm波段范圍有較多的波長變量被保留。
2.3.3 CARS 在UVE和GA變量預(yù)篩選的基礎(chǔ)上,采用CARS方法分別對上述結(jié)果進(jìn)行進(jìn)一步變量篩選。對于UVE篩選的501個波長變量,經(jīng)CARS方法篩選后,共有187個波長變量被保留。由圖5(a)可知,被選擇的波長變量主要集中在725~880 nm,其中725~800 nm波段范圍有61個,801~880 nm波段范圍有80個;而在650~724 nm波段范圍有21個,881~950 nm波段范圍有25個。對于GA篩選的182個波長變量,經(jīng)CARS方法篩選后,共有78個波長變量被保留。由圖5(b)可知,被選擇的波長變量主要分布在725~800 nm,而其他波段則較少。在650~724,725~800,801~880,881~950 nm波段范圍分別有7,50,16,5個。
豎虛線左側(cè)為真實(shí)的波長變量,右側(cè)為隨機(jī)噪聲變量;兩水平虛線為UVE穩(wěn)定性的閾值
圖3 臍橙SSC的UVE分析結(jié)果
Figure 3 Results of UVE analysis of SSC in navel oranges
水平橫線為波長變量篩選的閾值
圖5 被選擇波長變量的分布情況
2.3.4 SPA 在UVE和GA變量預(yù)篩選的基礎(chǔ)上,采用SPA方法分別對上述結(jié)果進(jìn)行進(jìn)一步變量篩選。由圖6可知,經(jīng)UVE-SPA方法后,共有8個波長變量被選擇,分別為660.98,703.05,736.24,766.10,874.61,884.31,914.24,935.02 nm;經(jīng)GA-SPA方法后,共有16個波長變量被選擇,分別為660.57,669.61,684.99,722.16,731.36,738.78,745.59,753.54,756.64,773.79,814.70,834.98,859.88,877.36,906.30,913.34 nm。
圖6 被選擇波長變量的分布情況
對于UVE-CARS、UVE-SPA、GA-CARS及GA-SPA方法篩選的波長變量,應(yīng)用PLS方法分別建立臍橙SSC的在線預(yù)測模型,并與直接采用CARS和SPA方法建立的預(yù)測模型及原始光譜建立的預(yù)測模型進(jìn)行比較。
由表2可知:
(1) GA-SPA-PLS模型的性能優(yōu)于UVE-SPA-PLS,GA-CARS-PLS模型的性能優(yōu)于UVE-CARS-PLS,表明GA方法優(yōu)于UVE方法,GA方法更適合于光譜波長變量的預(yù)篩選。此外,UVE-CARS-PLS模型性能優(yōu)于UVE-SPA-PLS,GA-CARS-PLS模型性能優(yōu)于GA-SPA-PLS,CARS-PLS模型性能優(yōu)于SPA-PLS,表明CARS方法篩選有用波長變量更為有效。
表2 不同變量選擇方法下臍橙可溶性固形物的PLS建模結(jié)果
(2) GA-CARS-PLS模型性能優(yōu)于CARS-PLS,GA-SPA-PLS模型性能優(yōu)于SPA-PLS,即以GA方法為變量預(yù)篩選的聯(lián)合變量選擇方法優(yōu)于對應(yīng)的單一變量選擇方法。由此可見,對于臍橙SSC,采用GA方法用于波長變量的預(yù)篩選非常必要。
此外,在所建立的預(yù)測模型中,GA-CARS-PLS模型的性能最優(yōu),與原始光譜建立的PLS模型相比,其校正集相關(guān)系數(shù)略有下降,但預(yù)測集相關(guān)系數(shù)由0.778上升為0.824,RMSEP由0.731%下降為0.670%,且建模所用的波長變量數(shù)由1 385個下降為78個,僅占原波長變量數(shù)的5.63%。表明GA-CARS聯(lián)合變量選擇方法能有效篩選波長變量,從而提高SSC預(yù)測模型的穩(wěn)定性和預(yù)測精度。
利用可見/近紅外光譜技術(shù)在線檢測臍橙可溶性固形物含量,采用UVE和GA方法對波長變量進(jìn)行預(yù)篩選,再利用CARS及SPA方法進(jìn)行波長變量篩選,并應(yīng)用PLS方法建立SSC預(yù)測模型。結(jié)果表明,對于臍橙SSC,變量預(yù)篩選方法GA優(yōu)于UVE,變量選擇方法CARS優(yōu)于SPA,以GA為變量預(yù)篩選的聯(lián)合變量選擇方法優(yōu)于對應(yīng)的單一變量選擇方法(CARS、SPA),GA-CARS聯(lián)合變量選擇方法所獲得的結(jié)果最優(yōu)。與原始光譜相比,GA-CARS-PLS模型的預(yù)測集相關(guān)系數(shù)由0.778上升為0.824,RMSEP由0.731%下降為0.670%,且建模所用的波長變量數(shù)由1 385個下降為78個,僅占原波長變量數(shù)的5.63%。由此可見,GA-CARS聯(lián)合變量選擇方法能有效篩選臍橙SSC的波長變量,提高SSC預(yù)測模型的穩(wěn)定性和預(yù)測精度。