蔡德玲,唐春華,梁玉英,曾川,彭碧寧
1(中華人民共和國拱北海關技術中心,廣東 珠海,519000)2(珠海城市職業(yè)技術學院,廣東 珠海,519090)
水果是一類重要的農(nóng)產(chǎn)品,是人類飲食結構的基本組成部分。2017年,我國水果總產(chǎn)量2.52億t,位居世界第一位[1-2]。果品產(chǎn)業(yè)已成為我國種植業(yè)中繼糧食、蔬菜之后的第三大產(chǎn)業(yè)。水果采后分級處理對提升水果的質量和商品競爭力非常關鍵。多年來,水果質量快速無損檢測技術一直備受關注[3-4]。水果質量包括外部質量(如大小、顏色、形狀和表皮缺陷)和內(nèi)部質量(如糖度、酸度、硬度)。隨著人們生活質量的提升,消費者越來越關注水果的內(nèi)部質量[5]。水果內(nèi)部質量的無損檢測為消費者提供口感更好的水果,從而提升行業(yè)競爭力和企業(yè)盈利能力[6]。
水果可溶性固形物含量(soluble solids content,SSC),俗稱糖度,是衡量水果內(nèi)部品質最重要的指標之一[7],該參數(shù)也決定著果實成熟度和收獲時間[8-9]。近20年來,大量的無損檢測技術如近紅外光譜[6]、電子鼻[10]、介電技術[11]、高光譜成像技術[12]等已經(jīng)用于鮮果內(nèi)部可溶性固形物含量的評估。在這些技術中,近紅外光譜技術具有快速、簡便、無損等特點,是目前應用最廣泛的鮮果內(nèi)部SSC檢測方法。然而,目前大部分研究在水果內(nèi)部SSC評估中沒有考慮水果表皮顏色的影響,但近年來的一些研究發(fā)現(xiàn),在水果內(nèi)部SSC預測時,水果表皮的顏色會對預測精度產(chǎn)生影響[13-14]。本研究將以小尺寸水果的典型代表草莓為研究對象,采用近紅外光譜技術,融合光譜信息和顏色參數(shù),構建多參數(shù)線性偏最小二乘模型和非線性最小二乘支持向量機模型對草莓內(nèi)部可溶性固形物含量進行比較評估,同時,采用蒙特卡羅無信息變量消除結合連續(xù)投影算法對模型進行了優(yōu)化,以降低模型的復雜程度和提升模型的穩(wěn)健性。
新鮮草莓于2019年3月采自廣東珠海當?shù)夭葺畧@。實驗中,剔除一些帶有表皮缺陷的草莓,最終選擇164個草莓作為研究樣本,這些樣本表皮顏色從紅綠到全紅均有分布。采集樣本數(shù)據(jù)之前,需將其置于室溫(20±1)℃中超過24 h以消除溫度對預測模型精度的影響[15]。數(shù)據(jù)采集后,所有樣本被劃分為校正集和預測集。具體方法為:164個樣本按照可溶性固形物含量值進行從小到大排序;每4個樣本中選取第2個樣本作為預測集樣本,這樣預測集中包含41個樣本用于校正模型的評估,剩余123個草莓作為校正集樣本用于校正模型的構建。在模型開發(fā)的過程中,所有模型校正集樣本和預測集樣本保持不變。
使用AntarisTMII 傅立葉變換近紅外光譜儀(Thermo Fisher Scientific Inc., Madison, WI, USA)采集草莓樣本近紅外漫反射光譜。每個樣本采集并獲取1條光譜曲線,波數(shù)范圍為12 000~3 800 cm-1,相鄰波數(shù)間隔為1.928 cm-1,因此,每條光譜曲線包含4 254個變量點。采集完光譜之后,采用Unscrambler V 9.7 software(CAMO PRECESS AS, Oslo, Norway)軟件將原始反射光譜轉換為吸收光譜用于隨后的建模分析。
考慮到SSC測量需要對樣本進行破壞檢測,因此,樣本在測量之前,首先采用彩色相機(型號:AD-080GE, JAI, Japan)采集每個樣本的RGB圖像以用于計算每個草莓的顏色參考值(圖像采集物距450 mm,相機曝光時間1 ms)。在圖像采集完之后,立即去除樣本果梗,果肉榨汁且搖晃均勻,使用數(shù)字顯示手持型折射計(Model: PR-101α, Atago Co, Ltd, Tokyo, Japan)測量果汁,3次測量并進行讀數(shù),3次讀數(shù)的均值即為該樣本最終SSC參考值。
每個草莓樣本顏色參考值的具體計算方法步驟:
(1)提取樣本RGB圖像各分量圖像;
(2)基于R分量圖像和圖像直方圖通過閾值分割(T1=160)獲取僅僅帶有果梗的二值化圖像B1;
(3)基于B分量圖像和圖像直方圖通過閾值分割(T2=165)獲取整個草莓樣本的二值化圖像B2;
(4)圖像B2-B1獲得二值化圖像B3,進一步對B3執(zhí)行形態(tài)學去噪處理,獲得最終的樣本果肉二值化圖像B4;
(5)采用B4對原始3個分量圖像做掩模運算獲得最終僅包含樣本果肉信息的去除背景的樣本圖像,并作為目標圖像;
(6)分別計算3幅目標圖像的強度均值(注:在此,圖像的強度為圖像灰度等級,級別為256級,灰度等級越高圖像越亮),該均值作為衡量樣本顏色信息的參考值(圖1)。閾值T1和T2是基于對所有校正集樣本分析所獲得。
圖1 樣本顏色參考值獲取流程
在原始全譜中,一些無信息的變量不包含與草莓可溶性固形物分析相關的信息,因此,消除這些變量可以提高模型的預測能力。無信息性變量消除(uninformative variable elimination,UVE)是一種非常有用的變量選擇方法,其目標是去除建模信息比噪聲少的變量[16]。在UVE算法中,通過留一交互驗證計算偏最小二乘(partial least squares, PLS)回歸系數(shù)矩陣b=[b1,…,bp],然后根據(jù)其穩(wěn)定性對每個變量的可靠性進行測量。變量j的穩(wěn)定性可按公式(1)計算:
Sj=mean(βj)/std(βj)
(1)
式中:mean(βj)和std(βj)分別代表變量j回歸系數(shù)的均值和標準差。絕對穩(wěn)定性越大,對應的變量越重要。在截止閾值之間的變量認為是無信息性的,并被剔除。為了確定無信息的變量,隨機變量需附加到數(shù)據(jù)集以確定截止閾值。在蒙特卡羅無信息性變量消除(Monto-Carlo UVE, MC-UVE)算法中,將蒙特卡羅策略引入UVE-PLS中,代替了傳統(tǒng)的留一交互策略。此外,變量直接由穩(wěn)定性來確定,這比UVE方法中在原始數(shù)據(jù)矩陣中加入隨機噪聲變量來估計截止閾值更方便。MC-UVE算法參考文獻[17]。
除了無信息變量外,原始光譜中還可能存在共線或冗余變量。連續(xù)投影算法(succesive projections algorithm, SPA)算法的目標是選取冗余最小的變量來解決共線性問題[18]。SPA是一種正向變量選擇算法,它從一個變量開始,然后在每次迭代中加入一個新的變量,直到達到指定數(shù)量的N個變量。通過SPA選擇有效變量,步驟如下:
(1)所選特征波數(shù)記為N,參考向量記為k(n-1),第1次計算時n=1;
(2)初始選擇波數(shù)為k(0),從校正集光譜Xcal(I行)樣品數(shù);J列(波數(shù)變量數(shù);N (3)剩余列向量記為S,S={j, 1≤j≤J,且j∈/{k(0)…k(n-1)}}; (5)若n (6)結果為所選變量Xs={k(n-1);n=1…N},是光譜的最小共線性子矩陣; (7)計算初始波數(shù)k(0)時,校正集子光譜Xcal(Xs)與校正集樣品SSC 值Ycal建立MLR 模型,計算該模型驗證集子光譜Xval(Xs)預測標準偏差(root mean square error of prediction, RMSEP); (8)重復上述(2)~(5)步驟,計算不同k(0)時模型RMSEP,最小RMSEP值對應k(0)的Xs最佳; (9)N=N+1,重復上述步驟,確定N=N+1 時最佳Xs; (10)不同N值對應最佳Xs建立模型的RMSEP 的最小值對應N值為最佳變量數(shù),對應Xs為所選特征波數(shù)變量。 本研究構建兩類模型即線性偏最小二乘模型和非線性最小二乘支持向量機模型(least squares-support vector machine,LS-SVM)用于草莓可溶性固形物含量預測。 偏最小二乘(PLS)是目前水果內(nèi)部可溶性固形物含量中廣泛使用的線性建模方法。建模時,PLS同時考慮了SSC值和輸入變量數(shù)據(jù),找出兩者之間的基本關系。本研究在模型的開發(fā)過程中,采用全交叉驗證法,通過交叉驗證的均方根誤差(root mean square error of calibration,RMSEC)來確定潛在變量LV的最優(yōu)數(shù)目,以避免模型過擬合問題。 支持向量機是一種典型的統(tǒng)計學習方法,它通過結構風險最小化原理來提高泛化能力,較好地解決了小樣本、非線性、高維數(shù)、局部極小等實際問題。最小二乘支持向量機(LS-SVM)是其改進版本,是一種先進的學習算法,LS-SVM能夠處理線性和非線性多變量問題,并以一種相對快速的方式解決這些關系[19]。LS-SVM算法參考文獻[20]。 所有模型的預測性能通過相關系數(shù)(R)、RMSEC、RMSEP進行評估。評估參數(shù)計算公式: (2) (3) 圖2表示草莓樣本原始光譜和通過多元散射校正預處理后的光譜。通過光譜預處理,原始光譜所存在的散射得到了有效的校正。從光譜圖中可以看到,所有樣本光譜曲線類似,不存在明顯的異常樣本,并且光譜波數(shù)較大時,光譜吸收強度更大,主要原因在于波數(shù)較大區(qū)域存在著明顯的H2O吸收(如位于波數(shù)6 944 cm-1和5 155 cm-1的吸收峰)[21]。另外,光譜曲線中也存在一些小的吸收峰如8 403 cm-1,這些吸收峰與C—H二級倍頻有關系。所有這些吸收特性均有助于草莓內(nèi)部SSC的預測。 a-草莓樣本原始光譜;b-草莓樣本預處理后光譜圖 草莓樣本不同數(shù)據(jù)集可溶性固形物含量和顏色參考值統(tǒng)計結果見表1。 從表1可看出,就SSC含量而言,校正集中樣本SSC值范圍為6.18~13.57 °Brix,預測集為6.50~13.10 °Brix,前者范圍包含后者。對于樣本顏色參考值,R、G和B分量圖像的強度值在校正集和預測集的范圍分別為173.64~217.12和174.25~215.96、72.67~90.21和74.59~88.11、77.32~95.66和78.56~93.21。對每個分量,校正集樣本強度值范圍涵蓋了預測集樣本強度值范圍。這些特征有助于構建一個相對穩(wěn)健的預測模型。 表1 草莓樣本不同數(shù)據(jù)集可溶性固形物含量和顏色參考值統(tǒng)計 使用MC-UVE和SPA聯(lián)立算法即MC-UVE-SPA從全光譜4 254個變量中選擇有效變量。在MC-UVE變量選擇過程中,利用校正集中樣本的光譜數(shù)據(jù)和SSC參考值作為輸入,通過研究不同PLS校準模型預測RMSEP的變化確定最優(yōu)變量數(shù)。以RMSEP最低對應的變量數(shù)作為最優(yōu)。變量選擇結果如圖3所示,由圖3-a可以看出,選取1 290個變量時所建模型最優(yōu)。這1 290個有效變量可通過評估圖3-b所示的變量穩(wěn)定性來確定。圖3-b中的2條水平線代表上下截止閾值。截止線以內(nèi)的變量被視為無信息變量。 a-SSC分析模型RMSEP曲線圖;b-變量穩(wěn)定性評估圖 使用MC-UVE選擇變量后,剔除了原始光譜數(shù)據(jù)中的無信息變量。然后在MC-UVE之后進行SPA變量選擇,通過消除冗余變量來提高預測性能。因此,使用1 290個變量作為SPA的輸入。在SPA變量選擇過程中,計算所有變量子集所建模型的RMSEP值,圖4-a中紅色實心方框代表最優(yōu)的變量數(shù),即27個變量被確認為有效變量。這27個變量對應1 290個變量的索引如圖4-b所示。從圖4-b中可以看出,變量數(shù)被極大地壓縮,且變量之間的共線性明顯消除。 a-RMSEP值變化曲線;b-變量索引圖 3組數(shù)據(jù)包括全光譜變量(4 254個)、有效光譜變量(27個)和融合變量(30個,即27個有效光譜變量+3個顏色參數(shù)),分別作為輸入構建PLS和LS-SVM模型用于草莓樣本可溶性固形物含量預測。PLS模型預測結果顯示見表2。從表2可看出,由于全變量參與建模,太多的變量引起了PLS模型過擬合,從而導致模型的預測性能大大降低(此現(xiàn)象也發(fā)生在表3中的全變量LS-SVM模型中),通過變量選擇,PLS模型的預測性能得到了明顯提升,RP由原來的0.752 3提高到0.947 0,RMSEP由原來的0.862 1降為0.381 1。然而,從表2中也可看出,顏色參數(shù)的加入,并沒有使MC-UVE-SPA-PLS模型的預測性能得到提高,這表明顏色參數(shù)與草莓可溶性固形物之間可能不存在線性關系。 表2 基于不同輸入構建的PLS模型對草莓SSC含量預測結果 在LS-SVM建模過程中,需要確定模型參數(shù)gamma和sig2,在此采用兩步網(wǎng)格搜索技術進行參數(shù)尋優(yōu)。作為示例,圖5顯示了 MC-UVE-SPA-PLS+顏色參數(shù)模型參數(shù)尋優(yōu)圖。網(wǎng)格點“●”和“×”分別代表第一步和第二步網(wǎng)格搜索的范圍和步長。曲線表示輪廓誤差。初始值的選擇對結果沒有影響,在這項研究中,gamma和sig2的初始值設置為0.01。對于3類不同的LS-SVM模型,gamma和sig2的值分別為(32, 2.5×104)、(31,7.0×103)和(2.8×103, 6.9×102)。 圖5 MC-UVE-SPA-PLS+顏色參數(shù)模型參數(shù)優(yōu)化 基于3類LS-SVM模型對草莓SSC進行預測,結果如表3所示。 表3 基于不同輸入構建的LS-SVM模型對草莓SSC含量預測結果 從表3中可以看出,類似PLS模型,通過變量選擇后,LS-SVM模型的性能有了明顯提升,表明變量選擇的重要性。與MC-UVE-SPA-PLS模型相比,MC-UVE-SPA-LS-SVM模型有著類似或者略低的預測精度。但當顏色參數(shù)和光譜同時作為輸入時,所構建的LS-SVM模型(MC-UVE-SPA-LS-SVM+顏色參數(shù))預測性能明顯好于MC-UVE-SPA-LS-SVM和MC-UVE-SPA-PLS模型,這表明草莓顏色和SSC之間存在著某種非線性關系,這種非線性關系有助于草莓SSC的準確評估。因此,通過比較發(fā)現(xiàn),融合光譜和顏色參數(shù)所構建的LS-SVM模型最優(yōu),基于該模型對所有樣本進行預測,圖6-a顯示了校正集樣本的預測散點圖,圖6-b預測集樣本的預測散點圖,從圖中可以看出,樣品分布在回歸曲線附近,且接近回歸曲線,說明MC-UVE-SPA-LS-SVM+顏色參數(shù)模型在草莓內(nèi)部可溶性固形物評估中具良好性能。 a-校正集樣本的預測散點圖;b-預測集樣本的預測散點圖 本文研究表明,多參數(shù)融合可能更有助于草莓內(nèi)部可溶性固形物含量SSC的預測,該研究結論與WANG等[13]和GUO等[14]在蘋果和西紅柿內(nèi)部SSC檢測評估中所獲得的結果類似。 本研究采用近紅外光譜技術結合顏色參數(shù)補償建模方法和變量選擇算法實現(xiàn)了草莓內(nèi)部可溶性固形物含量的準確預測。比較了不同輸入下所構建的PLS模型和LS-SVM模型的預測性能,一方面發(fā)現(xiàn)基于有效變量(僅為全光譜變量的0.63%)所構建的預測模型(MC-UVE-SPA-PLS和MC-UVE-SPA-LS-SVM)對草莓可溶性固形物評估性能明顯優(yōu)于全光譜變量模型(Full-spectrum-PLS和 Full-spectrum-LS-SVM),表明本研究所建議的MC-UVE-SPA聯(lián)合變量選擇算法的有效性;另一方面也發(fā)現(xiàn),融合光譜變量和顏色參數(shù)所構建的非線性LS-SVM模型預測性能優(yōu)于線性MC-UVE-SPA-PLS模型,表明草莓顏色與其SSC之間有著某種非線性的關系,并且這種非線性關系有助于提升草莓內(nèi)部SSC的預測精度。針對建模集和預測集草莓樣本,基于融合光譜變量和顏色參數(shù)的最優(yōu)模型MC-UVE-SPA-LS-SVM對SSC預測精度RC和RMSEC分別為0.984 8和0.181 4,RP和RMSEP分別為0.988 5和0.153 2。1.5 模型構建和評估
2 結果與討論
2.1 光譜分析
2.2 參考值統(tǒng)計結果
2.3 有效變量選擇結果
2.4 模型預測結果分析
3 結論