閆 潤(rùn) 邱白晶
(1.江蘇大學(xué)農(nóng)業(yè)工程研究院,江蘇 鎮(zhèn)江 212013;2.江蘇農(nóng)林職業(yè)技術(shù)學(xué)院,江蘇 句容 212400)
可溶性固形物(soluble solids content ,簡(jiǎn)稱SSC)是評(píng)價(jià)草莓內(nèi)部品質(zhì)的主要指標(biāo)之一,為滿足草莓采摘后鮮食或深加工的需要,迫切需要采取準(zhǔn)確、無損、快捷的草莓可溶性固形物檢測(cè)方法。近紅外光譜技術(shù)具有綠色無污染、成本低、分析簡(jiǎn)單、高效精確等優(yōu)點(diǎn),在水果內(nèi)部品質(zhì)檢測(cè)方面具有良好的應(yīng)用前景。但因數(shù)學(xué)模型的預(yù)測(cè)精度低,使草莓可溶性固形物近紅外光譜檢測(cè)技術(shù)的應(yīng)用受到了限制。
實(shí)驗(yàn)用草莓樣品采摘于鎮(zhèn)江市句容草莓種植園,優(yōu)選當(dāng)?shù)靥厣贩N紅頰草莓。實(shí)驗(yàn)當(dāng)天,依據(jù)草莓表面著紅率挑選半熟、八分熟、全熟三種成熟度的紅頰草莓131個(gè),逐一編號(hào)。采摘后用保溫箱包裝運(yùn)輸,送回實(shí)驗(yàn)室冷藏。近紅外光譜測(cè)量所用儀器為美國(guó)ASD(Analytical Spectral Device)公司生 產(chǎn)的Field Spec 3型便攜式光譜儀,光源為光譜儀配套的石英鹵素?zé)簦珳?200K。
采集光譜時(shí),調(diào)整石英鹵素?zé)艄庠磁c水平面呈45°角,用空調(diào)控制實(shí)驗(yàn)室內(nèi)溫度為20℃,相 對(duì)濕度為70%。將光譜分析儀探頭固定在三腳架上,設(shè)定光纖視場(chǎng)為25°,根據(jù)被測(cè)物直徑及視場(chǎng)角推算出探頭高度,調(diào)整傳感器探頭位于工作臺(tái)上方 5cm 左右處,垂直于被測(cè)物。測(cè)定過程中,將樣品間隔120°采集3次數(shù)據(jù),以3 次采集均值作為一個(gè)樣品的原始光譜數(shù)據(jù)。采集的光譜如圖1所示。
圖1 草莓原始光譜
每個(gè) 采集光譜后的草莓樣品沿赤道圓周處切取5克果肉用研缽搗碎并研磨成半黏稠狀,用紗布?jí)簽V,將草莓液汁倒入均衡燒杯中。檢測(cè)時(shí)用玻璃棒蘸取草莓汁液2~3滴于折光儀棱鏡平面的中央,迅速閉合棱鏡,靜置1分鐘,讀取測(cè)量值后以脫脂棉蘸酒精擦凈棱鏡,重復(fù)上述操作三次,取三次均值作為每個(gè)草莓樣品的可溶性固形物含量的實(shí)際值。用Kennard-Stone算法對(duì)樣品集進(jìn)行劃分,從131個(gè)草莓樣品中選取101個(gè)作為校正集,剩余的31個(gè)為預(yù)測(cè)集,實(shí)驗(yàn)測(cè)量的草莓樣品SSC實(shí)際值統(tǒng)計(jì)特性如表1所示。
表1 SSC的Kennard-Stone劃分統(tǒng)計(jì)
受到樣品的顆粒不均、儀器的隨機(jī)噪聲、基線漂移、光散射等因素影響,草莓原始光譜 中摻雜了噪聲信號(hào)。這些噪聲信號(hào)會(huì)對(duì)草莓樣品的光譜信息產(chǎn)生干擾,影響校正模型的預(yù)測(cè)精度,因此有必要對(duì)草莓原始光譜進(jìn)行預(yù)處理。
由于草莓近紅外光譜波長(zhǎng)范圍350~2500nm多達(dá)2151個(gè)變量,在全光譜內(nèi)直接進(jìn)行GA搜索,運(yùn)算速度過慢,不利于變量篩選。若將全光譜波段劃分為若干個(gè)子區(qū)間,先優(yōu)選出部分區(qū)間,再在選中區(qū)間里進(jìn)行GA搜索則能有效提高運(yùn)算速度。因此本研究擬采用一種改進(jìn)的遺傳算法,即向后閾值區(qū)間偏最小二乘法(Backward interbalPLS,簡(jiǎn)稱biPLS)與遺傳算法相結(jié)合的算法(簡(jiǎn)稱biPLS-GA)進(jìn)行草莓近紅外光譜信息的提取。
為了精確得到最佳預(yù)處理方案,在Unscrambler軟件中采用PLS回歸分析。在PLS模型中,設(shè)置主成分?jǐn)?shù)為10,按照Kennard-Stone法劃分131個(gè)樣品的校正集和預(yù)測(cè)集分別為101和30。對(duì)30個(gè)預(yù)測(cè)及樣品進(jìn)行PLS預(yù)測(cè),所得不同預(yù)處理方案下的預(yù)測(cè)集相關(guān)系數(shù)和均方根誤差如表2所示。
調(diào)整主成分?jǐn)?shù)進(jìn)行對(duì)比,確定主成分?jǐn)?shù)為10時(shí),各預(yù)處理方法的預(yù)測(cè)效果好,故統(tǒng)一采用主成分?jǐn)?shù)為10,在350~2500nm全波長(zhǎng)范圍內(nèi)應(yīng)用不同預(yù)處理方法建模,結(jié)果如表2所示。
表2 不同預(yù)處理方案的結(jié)果
從表中可以看出,在草莓的SSC含量檢測(cè)的近紅外光譜預(yù)處理方案中,SGF優(yōu)于MAF,1D優(yōu)于2D。
為快速分析提取結(jié)果,先將全光譜(共計(jì)2151個(gè)變量)劃分為10個(gè)子區(qū)間,每個(gè)區(qū)間的起止變量見表2。將SSC化學(xué)值以及分別用SGF、1D和SNV+SGF+1D三種方法預(yù)處理后的草莓吸光度光譜按照biPLS算法要求輸入matlab程序中,運(yùn)算得到10個(gè)區(qū)間的校正集的互驗(yàn)證均方根誤差(RMSECV)如表3所示。
表3 預(yù)處理方法對(duì)SSC的影響
7(1292~1506) 1641~1855 0.9069 0.8014 0.7857 6(1077~1291) 1426~1640 0.8940 0.7856 0.7665 5(862~1076) 1211~1425 0.8864 0.8050 0.7752 4(647~861) 996~1210 0.8836 0.7731 0.7559 3(432~646) 781~995 0.8754 0.7886 0.6989 2(217~431) 566~780 0.9188 0.7465 0.6933 1(1~216) 350~565 0.9962 0.7723 0.6703
經(jīng)過biPLS算法的光譜譜區(qū)篩選,共提取出2、3、4三個(gè)子區(qū)間,查看表3的區(qū)間變量編號(hào),總計(jì)645個(gè)變量入選,變量數(shù)目仍較多,需要進(jìn)一步篩選。下面將采用遺傳算法對(duì)提取出來的645個(gè)變量繼續(xù)篩選。
設(shè)定GA算法中的初始種群大小為30,染色體長(zhǎng)度為10,變異概率為0.01,交叉概率為0.5,遺傳迭代次數(shù)為100。迭代100次后,645個(gè)變量被選中的頻次圖。依據(jù)F準(zhǔn)則(P<0.1)設(shè)定的頻次閾值線,高于該頻次閾值的變量被算法建議選中。依據(jù)GA算法的F準(zhǔn)則頻次閾值篩選出的40個(gè)變量及其對(duì)應(yīng)的波長(zhǎng)如表4所示。
表4 GA篩選的SSC變量及其波長(zhǎng)
為了解決回歸擬合方面的問題,Vapnik等人在1992年在SVM分類的基礎(chǔ)上引入ε不敏感損失函數(shù),從而得到回歸支持向量機(jī)(Support Vector Machine for regression,簡(jiǎn)稱SVR)。SVR的基本思想是尋找一個(gè)最優(yōu)分類面使得所有訓(xùn)練樣本離該最優(yōu)分類面的誤差最小。
極限學(xué)習(xí)機(jī)(Extreme Learning Machine Artificial Neural Network,簡(jiǎn)稱ELM-ANN)算法不同于上述算法,屬于單隱含層前饋神經(jīng)網(wǎng)絡(luò)(Single-hidden layer feedforward Artificial Neural Network,簡(jiǎn)稱SLFN),因其具有訓(xùn)練速度快、泛化能力強(qiáng)、能獲取全局最優(yōu)解等特點(diǎn)近年來逐漸成為研究熱點(diǎn)。2005年Huang等人通過上述結(jié)構(gòu)的研究,得出結(jié)論:若給定任意Q個(gè)不同樣本,則對(duì)于任意的輸入層與隱含層間的連接權(quán)值和隱含層的閾值b,SLFN都 可以零誤差逼近訓(xùn)練樣本,即樣本的觀測(cè)值。
為了驗(yàn)證變量提取的準(zhǔn)確性,將由biPLS-GA算法提取的40個(gè)SSC的特征光譜作為ELM-ANN模型的輸入量,設(shè)置隱含層神經(jīng)元個(gè)數(shù)為30,隱含層傳遞函數(shù)為sig函數(shù),建立一個(gè)40—30—1的三層ELM-ANN模型,該模型對(duì)草莓預(yù)測(cè)集的30個(gè)樣品SSC的預(yù)測(cè)效果如圖2所示。預(yù)測(cè)集的相關(guān)系數(shù)2R為0.93713,均方根誤差mse為0.091839。
圖2 ELM-ANN預(yù)測(cè)SSC
將由biPLS-GA算法提取的40個(gè)SSC特征光譜作為SVR模型的輸入量。在SVM方法中,選擇不同的核函數(shù),可以生成不同的SVM。本研究采用徑向基(RBF)核函數(shù),利用MATLAB環(huán)境下的libsvm工具箱函數(shù)實(shí)現(xiàn)。在采用徑向基(RBF)核函數(shù)計(jì)算時(shí),主要涉及懲罰因子C和訓(xùn)練誤差ε(這里用方差g表示)的確定。針對(duì)草莓光譜數(shù)據(jù),利用交互驗(yàn)證二維網(wǎng)格搜索方法,尋找懲罰因子C和方差g的最優(yōu)參數(shù),具體計(jì)算實(shí)現(xiàn)時(shí),分別在[-10,10]的取值范圍內(nèi),設(shè)置步長(zhǎng)為0.5,尋找最優(yōu)參數(shù),再利用該參數(shù)訓(xùn)練SVR模型。該模型對(duì)草莓預(yù)測(cè)集的30個(gè)樣品SSC的預(yù)測(cè)效果如圖3所示。預(yù)測(cè)集的相關(guān)系數(shù)2R為0.95823,均方根誤差mse為0.06642。
圖3 SVR預(yù)測(cè)SSC
從表5中看出SVM模型對(duì)草莓SCC預(yù)測(cè)的相關(guān)系數(shù)R2分別達(dá)到了0.95823,為二者中最高;預(yù)測(cè)集均方根誤差RMSEP分別為0.06642,為二者中最低,說明SVM模型的建模效果優(yōu)于他三種ANN模型。因而可以得出結(jié)論,SVM算法建立的回歸模型具有較好的泛化能力,能有效地預(yù)測(cè)草莓SSC的含量。
表5 草莓SSC檢測(cè)的建模結(jié)果對(duì)比
通過獲得品種為紅頰草莓的全光譜并對(duì)全光譜進(jìn)行預(yù)處理,利用biPLS算法和GA方法提取了樣品的40個(gè)特征光譜,最后利用ELM-ANN和SVR建模方法對(duì)特征光譜進(jìn)行了建模驗(yàn)證其有效性。結(jié)果表明利用SVR所建立的驗(yàn)證模型中,預(yù)測(cè)集的相關(guān)系數(shù)達(dá)到0.95以上,達(dá)到了較高的精度。該模型在實(shí)際應(yīng)用中,可作為核心算法進(jìn)行該草莓品種的固態(tài)可溶物無損檢測(cè)。