郭陽,史勇,郭俊先,李雪蓮*,黃華
1(新疆農(nóng)業(yè)大學(xué) 機(jī)電工程學(xué)院,新疆 烏魯木齊,830052)2(新疆農(nóng)業(yè)大學(xué) 數(shù)理學(xué)院,新疆 烏魯木齊,830052)
哈密瓜是新疆的特色農(nóng)產(chǎn)品之一,其果肉鮮嫩,爽脆可口,深受廣大消費者青睞,其中,可溶性固形物含量與其口感有很大關(guān)系。哈密瓜在生長過程中受田間環(huán)境、植株生長形態(tài)、植株冠層營養(yǎng)等因素影響,造成可溶性糖積累分布不均勻、含量低??扇苄怨绦挝镏饕侵缚扇苄蕴穷?,其是衡量哈密瓜品質(zhì)好壞的重要指標(biāo),同時傳統(tǒng)的哈密瓜中可溶性固形物含量的檢測方法的準(zhǔn)確率高,但需破壞樣本。近年來,近紅外光譜檢測技術(shù)因具有快速、準(zhǔn)確及多組分同時檢測等特點,已被應(yīng)用于椰汁品質(zhì)[1]、雞蛋新鮮度[2]、肉類品質(zhì)[3-4]、石榴糖度[5]、梨的可溶性固形物[6-7]、液態(tài)奶三聚氰胺[8]等農(nóng)業(yè)生產(chǎn)檢測方面。哈密瓜可溶性固形物檢測方面,張德虎等[9]采用反向區(qū)間偏最小二乘算法(backward interval partial least squares,BiPLS)、間隔偏最小二乘算法(interval partial least squares,iPLS)、聯(lián)合區(qū)間偏最小二乘算法(synergic interval partial least squares,SiPLS)等光譜波長篩選方法提取哈密瓜糖度特征波長,其中最優(yōu)的為BiPLS,優(yōu)化后的預(yù)測模型校正集和預(yù)測集的均方根誤差(root mean squared error,RMSE)分別為0.996 1和1.18;GREENSILL等[10]利用4種光電二極管陣列近紅外光譜儀結(jié)合7種不同光譜預(yù)處理方法建立了甜瓜的可溶性固形物含量預(yù)測模型,其中基于改進(jìn)的小波變化的光譜預(yù)處理方法最優(yōu),其預(yù)測模型的預(yù)測集RMSE和標(biāo)準(zhǔn)偏差分別為1.26和0.87;GUTHRIE等[11]建立了移動窗口偏最小二乘甜瓜總糖含量的預(yù)測模型,其預(yù)測集RMSE和標(biāo)準(zhǔn)偏差分別為1.1和0.04;畢智健[12]比較了哈密瓜樣品中可見近紅外光譜數(shù)據(jù)的預(yù)處理方法的預(yù)測效果;馬本學(xué)等[13]利用高光譜成像技術(shù)比較了偏最小二乘算法(partial least squares,PLS)、逐步多元線性回歸和特征提取3種建模方法對帶皮和去皮哈密瓜糖度的檢測效果。孫靜濤等[14]對多元散射校正處理過的光譜結(jié)合競爭性自適應(yīng)重加權(quán)采樣算法(competitive adaptive reweighted sampling,CARS)、連續(xù)投影算法(successive projections algorithm,SPA)、CARS-SPA算法和支持向量機(jī)(support vector machine,SVM)對哈密瓜可溶性固形物進(jìn)行預(yù)測,最優(yōu)的預(yù)測模型為競爭性自適應(yīng)重加權(quán)采樣法+連續(xù)投影算法+支持向量機(jī)(CARS-SPA-SVM),其預(yù)測集RMSE和標(biāo)準(zhǔn)偏差分別為0.402 7和2.941。水果可溶性固形物無損檢測中,李雄等[15]利用變異系數(shù)法和偏最小二乘法建立了柚子糖度無損檢測的模型,其預(yù)測集均方根誤差(root mean square error of prediction,RMSEP)為0.55;DONG等[16]研究蘋果中可溶性固形物含量無損測定時,分別建立了偏最小二乘回歸、最小支持向量機(jī)(least-squares supports vector machine,LS-SVM)、極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)模型,最優(yōu)預(yù)測模型為LS-SVM模型,其模型預(yù)測集相關(guān)系數(shù)為0.878;李江波等[17]利用CARS、SPA、蒙特卡羅無信息變量消除算法篩選特征變量,然后分別建立PLS和多元線性回歸(multiple linear regression,MLR)的定量預(yù)測模型,對比分析發(fā)現(xiàn)MLR的預(yù)測精度優(yōu)于PLS,其R2、RMSEP、剩余預(yù)測殘差分別為0.909 7、0.348 4、3.327 8。
綜上,特征區(qū)間選擇和特征波長選擇在水果理化性質(zhì)無損測定中應(yīng)用非常廣泛,而目前對哈密瓜可溶性固形物建立的定量分析模型中數(shù)據(jù)降維的方法多是單一的特征波長區(qū)間選擇和特征波長提取方法,但模型的輸入變量的維度仍然較高,且模型的穩(wěn)定性也較低,然而有關(guān)特征波長區(qū)間選擇結(jié)合特征波長選擇對哈密瓜可溶性固形物定量分析模型進(jìn)行優(yōu)化的研究尚未見報道;同時哈密瓜成熟采收時,其是否可以采摘主要通過果皮表面顏色的變化以及哈密瓜可溶性固形物含量來進(jìn)行判斷,其中可溶性固形物含量與哈密瓜成熟度之間存在顯著相關(guān)(P<0.01),不同成熟度的哈密瓜之間的可溶性固形物含量相差巨大,因此可溶性固形物含量是判斷哈密瓜是否可以采摘的關(guān)鍵指標(biāo)[18]。故本研究擬采用BiPLS分別結(jié)合CARS、遺傳算法(genetic algorithm,GA)、SPA對光譜數(shù)據(jù)進(jìn)行數(shù)據(jù)降維,同時應(yīng)用非線性模型ELM以及PLS算法建立預(yù)測模型,并比較所有模型的優(yōu)劣,最終選取最優(yōu)的模型作為哈密瓜可溶性固形物含量的無損檢測模型,旨在為哈密瓜可溶性固形物含量的無損檢測技術(shù)的發(fā)展提供依據(jù)。
選取新疆哈密地區(qū)巴里坤縣三塘湖鎮(zhèn)中湖村為試驗地點,該地形呈西高東低之勢,氣候干燥酷熱多風(fēng),屬典型的大陸性氣候。年平均大風(fēng)日116.6 d,年日照時間3 373.4 h,有效積溫3 440 ℃,無霜期169 d。極端最高氣溫40.3 ℃、最低氣溫-28.5 ℃,年平均氣溫8 ℃。年平均降水量34.4 mm,蒸發(fā)量3 790 mm。試驗田位置為東經(jīng)1 200.144°,北緯3 020.626°。
甜瓜品種:金華蜜25號,俗稱“新86”,晚熟品種,生育期100 d,單瓜重3.5 kg左右。
待哈密瓜成熟后,從試驗田一次性隨機(jī)采摘144個無病蟲害和損傷的哈密瓜作為試驗樣本,標(biāo)記編號運回實驗室。將所有樣本在室溫下放置24 h后開始試驗,并盡可能地快速完成試驗。光譜數(shù)據(jù)的采集使用美國海洋光學(xué)公司的maya2000微型光纖光譜儀,光譜測定范圍為200~1 100 nm,光譜采樣間隔0.2 s。數(shù)據(jù)采集前,光譜設(shè)備預(yù)熱30 min,主要工作參數(shù)設(shè)置包括積分時間7 200 s,掃描次數(shù)10,平滑點數(shù)3。光譜采集位置選取每個樣本赤道中間部位,每隔120°采集1次,每個樣本采集3個光譜數(shù)據(jù),取平均值作為樣本的原始光譜數(shù)據(jù)。
可溶性固形物含量測定使用ATAGO PR-101型數(shù)字折光儀(日本愛拓),測量范圍為0~45 °Brix,測量精度為0.1 °Brix。切取光譜采集處對應(yīng)的內(nèi)緣果肉并榨汁,將汁液滴至折光儀的測量區(qū)域,重復(fù)測定讀數(shù)直至3次讀數(shù)穩(wěn)定,記錄為當(dāng)前樣本的可溶性固形物含量。
采集原始光譜數(shù)據(jù)過程中除了包含樣品本身的特征信息外,還摻雜一些影響模型準(zhǔn)確性的無用信息,同時獲取的光譜數(shù)據(jù)量大且復(fù)雜,如果將所有的數(shù)據(jù)都用于建模,這樣不僅費時費力還影響模型的穩(wěn)定性,并且大量的數(shù)據(jù)計算時會影響可溶性固形物含量的無損檢測效率,不利于后期在線檢測。因此有必要選取與可溶性固形物相關(guān)性較高的敏感波段,然后再提取關(guān)鍵的特征波長,簡化模型的復(fù)雜程度,提高模型的預(yù)測精度。
BiPLS是在iPLS的基礎(chǔ)上改進(jìn)的特征波長區(qū)間篩選算法,雖然與SiPLS相比,該算法的最終結(jié)果仍然是篩選相關(guān)性的幾個子區(qū)間聯(lián)合建模的方法,但BiPLS具有后向的只出不進(jìn)的特征波長區(qū)間篩選的優(yōu)勢,其每次將相關(guān)性最差的區(qū)間永遠(yuǎn)剔除出去,最后留下的子區(qū)間是與可溶性固形物相關(guān)性最高的光譜變量子區(qū)間。故本研究使用BiPLS將全波段的光譜分成不同的區(qū)間,然后選擇相關(guān)性最好的區(qū)間進(jìn)行特征波長篩選。對BiPLS算法選取的區(qū)間分別使用CARS、GA、SPA完成進(jìn)一步的特征波長的提取,實現(xiàn)數(shù)據(jù)降維的目的。
ELM相比于前饋神經(jīng)網(wǎng)絡(luò)等在運算過程中不需設(shè)定大量的參數(shù),且運算速度更快,只需按照實際情況選擇合適的激勵函數(shù),在算法運行過程中隨機(jī)產(chǎn)生網(wǎng)絡(luò)的輸入權(quán)值及隱含層單元偏置,且不需要調(diào)整,比較容易實現(xiàn)[19]。因此,ELM具有學(xué)習(xí)速度快,高強(qiáng)的泛化能力促使模型有唯一的最優(yōu)解等特點。PLS是一種基于因子分析的多變量校正方法,在分析過程中,自變量和因變量數(shù)據(jù)的分解同時進(jìn)行,并將因變量引入自變量數(shù)據(jù)分解過程中,使得自變量與分析組分相關(guān)[20]。并且該方法在定量分析中應(yīng)用非常廣泛。
預(yù)測模型的評價指標(biāo)為相關(guān)系數(shù)(R)和RMSE。其中校正集均方根誤差(root mean square error of calibration, RMSEC)、預(yù)測集均方根誤差為RMSEP;校正集相關(guān)系數(shù)為Rc、預(yù)測集相關(guān)系數(shù)為Rp,預(yù)測模型的相關(guān)系數(shù)越大表示相關(guān)性越高;預(yù)測模型的RMSEP越小,模型的預(yù)測效果越好。R和RMSE的計算方程如公式(1)和公式(2)所示:
(1)
(2)
以上光譜數(shù)據(jù)處理和定量預(yù)測模型的建立均使用Matlab2018b軟件完成(美國,MathWorks),采用Matlab2018b軟件繪圖。
考慮到光譜理化值共生距離法[21]算法能同時研究光譜特征與樣本理化性質(zhì)的能力,使用該劃分法按3∶1將原始數(shù)據(jù)劃分為樣本校正集和預(yù)測集,其測定結(jié)果見表1。
表1 哈密瓜的可溶性固形物質(zhì)量分?jǐn)?shù)Table 1 Mass fraction of soluble solids in Hami melon
由表1可知,哈密瓜可溶性固形物含量的最大值和最小值都被劃分到了校正集中,并且劃分到預(yù)測集的數(shù)據(jù)值均在校正集區(qū)間內(nèi),表明利用光譜理化值共生距離發(fā)劃分的樣本集的分布合理,所建的預(yù)測模型也能產(chǎn)生較好的結(jié)果。
BiPLS是以iPLS為基礎(chǔ),對光譜數(shù)據(jù)進(jìn)行特征波段選擇的方法,該方法是一種只進(jìn)不出的算法,其基本原理是將全光譜數(shù)據(jù)等均分成N個子區(qū)間,然后對全光譜數(shù)據(jù)建立PLS的回歸預(yù)測模型,以RMSE作為模型的評價,對各個子區(qū)間進(jìn)行剔除,每次剔除的子區(qū)間是RMSE值最小所對應(yīng)的子區(qū)間,最終對所有剔除出來的子區(qū)間聯(lián)合建模。如表2所示,是不同區(qū)間總數(shù)的劃分結(jié)果。
表2 不同區(qū)間總數(shù)的劃分結(jié)果Table 2 Results with different number of intervals
由表2可確定將全光譜數(shù)據(jù)等分成23個子區(qū)間,然后把這些子區(qū)間進(jìn)行聯(lián)合建模,當(dāng)篩選出6個子區(qū)間時,交叉驗證均方差(root mean square error of cross validation,RMSECV)的值最小為0.399 1,此時入選的光譜變量個數(shù)為432。
表3 子區(qū)間優(yōu)選結(jié)果Table3 Results of subinterval optimization
表3所示為23個子區(qū)間的建模結(jié)果,在剔除第15個區(qū)間并對其及后面的5個子區(qū)間進(jìn)行聯(lián)合建模時,所得到的RMSE的值最小為0.399 1。再對后續(xù)的子區(qū)間進(jìn)行剔除時,發(fā)現(xiàn)RMSE的值又在逐漸變大,這表示后面剔除的6個子區(qū)間包含著與可溶性固形物相關(guān)性較高的光譜數(shù)據(jù),即對建模有用的信息。此時所選的子區(qū)間分別為15、12、18、13、19、9等6個子區(qū)間,總共432個特征波長。如圖1所示。
圖1 BiPLS優(yōu)選子區(qū)間Fig.1 Sub-intervals selected by Bipls
圖2為CARS算法篩選特征波長變量過程。由圖2可知,特征波長變量篩選過程中,隨著迭代次數(shù)的增加,波長變量的總數(shù)減少,直至選取最優(yōu)迭代次數(shù)為止。迭代次數(shù)最優(yōu)時,RMSECV越小迭代次數(shù)越好,當(dāng)RMSECV為0.376 5時,對應(yīng)的最優(yōu)迭代次數(shù)為61。因此,確定從原始432個波長中篩選的特征波長變量為17個。
a-被選擇的波長數(shù)量;b-RMSECV;c-各變量系數(shù)值圖2 CARS篩選光譜變量過程Fig.2 CARS screening spectral variable process
研究中GA的控制參數(shù)設(shè)置為:初始種群數(shù)為144(樣本數(shù)為144個),變異概率0.01,遺傳迭代次數(shù)為100和變異概率0.5。圖3為GA所選光譜變量的頻率,一共篩選出19個特征光譜變量。
圖3 光譜變量頻率圖Fig.3 Spectral stability diagram
使用SPA算法對經(jīng)過BiPLS選擇的432個光譜變量進(jìn)行特征變量選擇,進(jìn)一步降低光譜數(shù)據(jù)的維度。設(shè)置SPA的變量選擇為1~20,變量的選擇過程如圖4所示,當(dāng)RMSE的最小值為0.336 5時,選擇的最優(yōu)變量數(shù)為12。
圖4 SPA優(yōu)選變量過程Fig.4 The SPA optimization variable process
特征區(qū)間選擇與特征波長相結(jié)合的數(shù)據(jù)降維方式結(jié)合ELM、PLS對哈密瓜可溶性固形物預(yù)測分析結(jié)果如表4、表5所示。由表4、表5可知,單一的特征區(qū)間降維下的建模效果均不理想,相關(guān)系數(shù)都在0.85~0.82,可能是BiPLS雖然在一定程度上減少了光譜變量,但模型的復(fù)雜度仍然較高,且高維度的光譜變量中仍然存在冗余的光譜變量;相比而言,特征區(qū)間選擇與特征波長相結(jié)合下的數(shù)據(jù)降維效果優(yōu)于BiPLS,且都大大減少了預(yù)測模型的輸入變量,從432分別減少到了12、19、17,這不僅降低了模型復(fù)雜程度還提高模型的計算速度和準(zhǔn)確性。最優(yōu)的預(yù)測模型為BiPLS+SPA+PLS,其校正集相關(guān)系數(shù)為0.923 4,預(yù)測集相關(guān)系數(shù)為0.878 8;表明該模型可以準(zhǔn)確、快速地預(yù)測哈密瓜中可溶性固形物含量。4種數(shù)據(jù)降維方法結(jié)合ELM的建模效果相比于PLS均不理想,可能是因為ELM屬于神經(jīng)網(wǎng)絡(luò)模型的一種,且神經(jīng)網(wǎng)絡(luò)都有收斂慢、預(yù)測能力差的缺點。同時,證明BiPLS結(jié)合SPA算法在定量預(yù)測建模中不僅可以對光譜變量中與理化性質(zhì)相關(guān)性高的變量進(jìn)行準(zhǔn)確提取,而且還能提高定量分析的預(yù)測精度。
表4 數(shù)據(jù)降維下結(jié)合ELM的建模預(yù)測效果Table 4 Forecasting effect of modeling based on dimension reduction and ELM
表5 數(shù)據(jù)降維下結(jié)合PLS的建模預(yù)測效果Table 5 Modeling and forecasting effect of PLS combined with data dimension reduction
通過對原始光譜進(jìn)行特征區(qū)間選擇,共選取了6個子區(qū)間,432個特征變量;在6個聯(lián)合子區(qū)間的基礎(chǔ)上再分別使用3種特征選擇方法(CARS、GA、SPA)對光譜數(shù)據(jù)作進(jìn)一步處理,最終選擇的特征波長個數(shù)分別為17、19、12,極大地減少了模型的輸入變量;基于處理后光譜數(shù)據(jù)分別結(jié)合ELM和PLS建立定量分析模型。結(jié)果表明,最優(yōu)的預(yù)測模型為BiPLS+SPA+PLS,模型的校正集和預(yù)測集相關(guān)系數(shù)分別為0.923 4,0.878 8,模型預(yù)測效果得到了提升;表明特征區(qū)間選擇和特征波長選擇可以從高維度冗余的光譜中篩選出12個相關(guān)性最高的光譜變量,這12個光譜變量基本都集中在12、13、15三個特征子區(qū)間內(nèi),其光譜反射率為78.7~90;同時光譜無損檢測的原理是利用有機(jī)物分子中含氫基團(tuán)的倍頻吸收強(qiáng)度對可溶性固形物進(jìn)行定量檢測,并且由圖1可以看出光譜反射圖像中出現(xiàn)的反射波峰在12和13特征子區(qū)間,說明該區(qū)間內(nèi)的變量存在C—H基團(tuán)的三級倍頻特征,從中篩選出的變量可以作為模型輸入變量對哈密瓜可溶性固形物進(jìn)行定量,故本研究使用SPA對聯(lián)合子區(qū)篩選出的12個特征波長可以很好地代表全波段的光譜變量,對哈密瓜的可溶性固形物進(jìn)行定量預(yù)測,同時篩選的變量只占全光譜數(shù)據(jù)的0.72%,這不僅降低了模型的復(fù)雜程度,還提高了模型的預(yù)測精度,實現(xiàn)哈密瓜內(nèi)部品質(zhì)的無損檢測。后續(xù)應(yīng)引入哈密瓜的圖像,考慮如何將圖像的顏色特征和紋理特征與光譜的特征波長進(jìn)行有效融合,結(jié)合兩者的優(yōu)點實現(xiàn)哈密瓜糖度的無損檢測,同時也為田間便攜式哈密瓜是否成熟判別設(shè)備的研制提供新思路。