馬本學(xué), 喻國(guó)威, 王文霞, 羅秀芝, 李玉潔, 李小占, 雷聲淵
1. 石河子大學(xué)機(jī)械電氣工程學(xué)院, 新疆 石河子 832003 2. 農(nóng)業(yè)部西北農(nóng)業(yè)裝備重點(diǎn)實(shí)驗(yàn)室, 新疆 石河子 832003
西甜瓜(西瓜和甜瓜)[1]味甘多汁, 營(yíng)養(yǎng)豐富, 深受廣大消費(fèi)者的青睞。 近年來(lái)雖然西甜瓜的產(chǎn)量和銷量大幅增加, 但是其內(nèi)部品質(zhì)參差不齊, 難以辨別, 主要原因在于傳統(tǒng)檢測(cè)方法檢測(cè)時(shí)間長(zhǎng), 成本高且為有損檢測(cè), 無(wú)法滿足現(xiàn)代生產(chǎn)的需要。 隨著光譜分析技術(shù)的快速發(fā)展, 近紅外光譜分析(near-infrared spectroscopy, NIRS)和高光譜成像(hyperspectral imaging, HSI)[2-3]以快速、 綠色、 無(wú)損等優(yōu)勢(shì)廣泛應(yīng)用于西甜瓜內(nèi)部品質(zhì)無(wú)損檢測(cè)中。 西甜瓜內(nèi)部品質(zhì)的評(píng)價(jià)指標(biāo)主要包括可溶性固形物含量(soluble solids content, SSC)、 總可溶性固形物(total soluble solids, TSS)、 堅(jiān)實(shí)度(firmness, FM)、 水分(moisture)、 總酸含量(total acid content, TAC)、 成熟度(maturity)等食用指標(biāo)和類胡蘿卜素(carotenoids)等營(yíng)養(yǎng)指標(biāo)[4]。
為跟蹤國(guó)內(nèi)外最新研究進(jìn)展, 綜述了近紅外光譜分析和高光譜成像在西甜瓜內(nèi)部品質(zhì)無(wú)損檢測(cè)中的應(yīng)用; 同時(shí), 簡(jiǎn)要介紹了近紅外光譜分析和高光譜成像的技術(shù)特點(diǎn)和系統(tǒng)組成, 并歸納了常用的光譜信息解析方法; 最后, 從技術(shù)難點(diǎn)和實(shí)際應(yīng)用兩方面綜合分析了光譜分析技術(shù)在西甜瓜內(nèi)部品質(zhì)無(wú)損檢測(cè)中的發(fā)展趨勢(shì)。
近紅外光(near-infrared, NIR)是人們最早發(fā)現(xiàn)的非可見光區(qū)域, 它的波長(zhǎng)范圍為780~2 526 nm, 波數(shù)范圍為12 500~4 000 cm-1。 近紅外光譜屬于分子振動(dòng)光譜, 利用分子含氫基團(tuán)(C—H, O—H 和N—H等)的倍頻與合頻的吸收特性來(lái)獲取復(fù)雜的光譜信息。 典型的近紅外光譜分析系統(tǒng)一般由光源、 光譜儀、 載物臺(tái)、 光纖、 計(jì)算機(jī)等部分組成, 如圖1所示。
高光譜成像技術(shù)興起于20世紀(jì)80年代末, 結(jié)合了光譜學(xué)和傳統(tǒng)成像或計(jì)算機(jī)視覺技術(shù), 可以有效地獲取樣品“圖譜合一”的三維數(shù)據(jù)信息, 包括二維的樣品空間圖像信息和一維的光譜信息[5-6]。 典型的高光譜成像系統(tǒng)一般由成像光譜儀、 CCD相機(jī)、 光源、 計(jì)算機(jī)、 傳輸機(jī)構(gòu)等部分組成, 如圖2所示[7]。
近紅外光譜分析技術(shù)和高光譜成像技術(shù)的區(qū)別與聯(lián)系[8-10], 如表1所示。
圖1 近紅外光譜分析系統(tǒng)示意圖
圖2 高光譜成像系統(tǒng)示意圖
表1 近紅外光譜分析和高光譜成像的區(qū)別和聯(lián)系
在光譜信息解析過程中, 因光譜系統(tǒng)采集的光譜信息會(huì)受到采集環(huán)境、 光學(xué)條件和儀器性能等因素的影響, 故原始光譜信息除含有被測(cè)樣品屬性的信息外, 還包含大量無(wú)關(guān)信息, 如噪聲、 背景干擾、 雜散光等。 為消除光譜冗余信息, 提高模型的預(yù)測(cè)精度, 對(duì)光譜信息進(jìn)行預(yù)處理并提取有效信息是模型建立前的重要環(huán)節(jié)。 一般的光譜信息解析步驟主要包括光譜信息的采集、 光譜信息的預(yù)處理、 變量的篩選、 預(yù)測(cè)模型的建立、 模型的評(píng)價(jià)等, 其流程圖如圖3所示[11]。
圖3 光譜信息解析流程圖
光譜信息解析首要環(huán)節(jié)就是對(duì)采集的光譜信息進(jìn)行預(yù)處理, 常用光譜信息預(yù)處理方法[12]主要有平滑(smoothing), 包括移動(dòng)平均法(moving average, MA)和卷積法(savitzky-golay, SG)等、 導(dǎo)數(shù)修正(derivative correction), 包括一階導(dǎo)數(shù)(first-order derivative, 1stD)和二階導(dǎo)數(shù)(second-order derivative, 2ndD)、 歸一化(normalization, NOR)、 標(biāo)準(zhǔn)正態(tài)變換(standard normal variable transformation, SNV)、 多元散射校正(multiplicative scattering correction, MSC)、 小波變換(wavelet transform, WT)等, 其作用效果如表2所示。
表2 光譜預(yù)處理方法及其作用效果
光譜信息中存在的大量冗余信息會(huì)降低預(yù)測(cè)模型的準(zhǔn)確性和穩(wěn)定性。 為提高模型運(yùn)算速度和精度, 進(jìn)行光譜信息變量篩選是十分必要的。 常用變量篩選方法[13]主要有變量區(qū)間選擇算法, 包括移動(dòng)窗口偏最小二乘法(moving windows partial least squares, MWPLS)和區(qū)間偏最小二乘法(interval partial least squares, iPLS)等、 無(wú)信息變量消除算法(uninformative variable elimination, UVE)、 遺傳算法(genetic algorithm, GA)、 連續(xù)投影算法(successive projections algorithm, SPA)和競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法(competitive adaptive reweighted sampling, CARS)等, 其特點(diǎn)如表3所示。
表3 變量篩選方法的特點(diǎn)
建立樣品待測(cè)指標(biāo)的數(shù)學(xué)模型是光譜信息解析過程中關(guān)鍵的一步, 不同的建模方法會(huì)直接影響模型的準(zhǔn)確性和穩(wěn)定性。 常用的建模方法[14]主要有多元線性回歸(multi linear regression, MLR)、 主成分回歸(principal component regression, PCR)、 偏最小二乘回歸(partial least squares regression, PLSR)、 支持向量機(jī)(support vector machine, SVM)、 最小二乘支持向量機(jī)(least square support vector machine, LS-SVM)等, 其特點(diǎn)如表4所示。
在樣品待測(cè)指標(biāo)的預(yù)測(cè)模型建立后, 需對(duì)模型進(jìn)行評(píng)價(jià), 常見的模型預(yù)測(cè)性能評(píng)價(jià)標(biāo)準(zhǔn)[15]主要有預(yù)測(cè)集相關(guān)系數(shù)(correlation coefficient of prediction set,RP)、 校正集相關(guān)系數(shù)(correlation coefficient of calibration set,RC)、 決定系數(shù)(coefficient of determination,R2)、 預(yù)測(cè)標(biāo)準(zhǔn)偏差(root mean square error of prediction, RMSEP)、 校正標(biāo)準(zhǔn)偏差(root mean square error of calibration, RMSEC)、 剩余預(yù)測(cè)偏差(residual predictive deviation, RPD)等。 質(zhì)量較高的模型具有較高的RP,RC,R2和RPD, 較低且較為接近的RMSEP和RMSEC[16]。
表4 建模方法的特點(diǎn)
通過對(duì)常用光譜信息解析方法的總結(jié)可以看出, 機(jī)器學(xué)習(xí)算法已逐漸應(yīng)用于光譜信息的變量篩選和模型建立, 雖然提高了模型精度, 但是模型的普適性和實(shí)用性仍不能滿足實(shí)際需要。 現(xiàn)階段, 深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的分支迅速崛起, 深度網(wǎng)絡(luò)的規(guī)模和精度也在不斷提高, 并且持續(xù)成功地應(yīng)用于各類實(shí)際問題。 為進(jìn)一步提高模型的精度和泛化能力, 使其能夠滿足現(xiàn)代生產(chǎn)的需要, 應(yīng)用深度學(xué)習(xí)算法進(jìn)行光譜信息解析將是今后發(fā)展的必然趨勢(shì)之一。
表5列舉了近紅外光譜分析在西甜瓜內(nèi)部品質(zhì)無(wú)損檢測(cè)中的應(yīng)用。
SSC含量作為西甜瓜內(nèi)部品質(zhì)的重要評(píng)價(jià)指標(biāo), 其定量分析一直是研究熱點(diǎn)。 介鄧飛等[18]以“麒麟”西瓜為樣品, 研究了不同變量篩選方法(等間隔平均光譜法、 等間隔抽取光譜法、 SPA)和不同建模方法(PLSR, MLR和PCR)對(duì)SSC含量預(yù)測(cè)模型精度的影響。 結(jié)果表明, 采用等間隔抽取光譜法結(jié)合SPA建立的PLSR模型精度較高(RP為0.828, RMSEC為0.589, RMSEP為0.611)。 西甜瓜的SSC含量在不同部位存在明顯差異, 檢測(cè)部位差異是影響西甜瓜SSC含量預(yù)測(cè)模型精度的重要因素。 為探究西甜瓜SSC含量的最佳檢測(cè)部位, 介鄧飛等[19]分別利用瓜梗、 赤道和瓜臍部位的近紅外漫透射光譜信息結(jié)合PLSR和LS-SVM建立了西瓜單一檢測(cè)部位的SSC含量預(yù)測(cè)模型。 結(jié)果表明, 瓜臍為最佳單一檢測(cè)部位(LS-SVM模型:RP為0.768, RMSEP為0.731、 PLSR模型:RP為0.823, RMSEP為0.652)。 Zhang等[26]以哈密瓜為研究對(duì)象, 選用不同變量篩選方法(CARS, UVE, CARS-SPA和UVE-SPA), 對(duì)比分析了線性PLS和非線性LS-SVM建模方法對(duì)基于單一檢測(cè)部位的哈密瓜SSC含量預(yù)測(cè)模型的影響。 結(jié)果表明, 無(wú)論是線性模型還是非線性模型, 基于赤道部位光譜信息建立的哈密瓜SSC含量預(yù)測(cè)模型性能最佳(UVE-SPA-PLS 模型:RP為0.914 3, RMSEP為0.835 9、 CARS-SPA-LSSVM模型:RP為0.913 4, RMSEP為0.895 8)。 由此可見, 不同品種西甜瓜的最佳檢測(cè)部位不同。 為減小檢測(cè)部位差異對(duì)西甜瓜SSC含量預(yù)測(cè)模型性能的影響, 錢曼等[22]利用“京秀”西瓜三個(gè)檢測(cè)部位的近紅外漫反射光譜信息結(jié)合CARS和PLS, 建立了西瓜SSC含量的混合(赤道-瓜臍-瓜梗)預(yù)測(cè)模型(RP為0.905, RMSEP為0.629), 其性能優(yōu)于單一(瓜臍)預(yù)測(cè)模型。 上述研究表明, 對(duì)于不同品種的西甜瓜選擇適宜的近紅外光譜檢測(cè)部位并結(jié)合變量篩選方法, 可以有效提高西甜瓜SSC含量預(yù)測(cè)模型的性能。
表5 近紅外光譜分析在西甜瓜內(nèi)部品質(zhì)無(wú)損檢測(cè)中的應(yīng)用
Note: “MC” is Monte Carlo; “FW” is fresh weight; “RMSECV” is root mean square error of cross validation; “SMLR” is stepwise multiple linear regression; “C-RPP” is corrected-ratio of peaks method; “CCR” is correct classification rate
研究開發(fā)西甜瓜內(nèi)部品質(zhì)快速無(wú)損檢測(cè)設(shè)備對(duì)西甜瓜的質(zhì)量管理和市場(chǎng)競(jìng)爭(zhēng)起著至關(guān)重要的作用, 國(guó)內(nèi)外應(yīng)用近紅外光譜分析已構(gòu)建多種西甜瓜內(nèi)部品質(zhì)快速無(wú)損在線檢測(cè)系統(tǒng)。 Jie等[20]采集697~920 nm范圍內(nèi)西瓜瓜臍部位的近紅外漫透射光譜信息, 利用基線偏移校正(baseline offset correction, BOC)進(jìn)行光譜預(yù)處理, 建立了MC-UVE-SMLR預(yù)測(cè)模型(RP為0.70, RMSEP為0.33), 構(gòu)建了西瓜SSC含量在線檢測(cè)系統(tǒng)。 Tamburini等[23]采集900~1 700 nm范圍內(nèi)的完整西瓜的近紅外漫反射光譜信息, 利用導(dǎo)數(shù)修正和SNV進(jìn)行光譜預(yù)處理, 建立了PLS模型, 構(gòu)建了西瓜內(nèi)部品質(zhì)在線檢測(cè)系統(tǒng), 可實(shí)現(xiàn)對(duì)番茄紅素(R2為0.877, RMSECV為15.68), β胡蘿卜素(R2為0.822, RMSECV為0.81)和TSS(R2為0.836, RMSECV為0.8)的檢測(cè)。 少數(shù)公司研發(fā)的西甜瓜內(nèi)部品質(zhì)在線檢測(cè)設(shè)備已達(dá)到工業(yè)化標(biāo)準(zhǔn), 如日本三井金屬礦業(yè)株式會(huì)社的西瓜糖度無(wú)損檢測(cè)生產(chǎn)線(效率為120 pcs·min-1, 誤差為±0.5 °Brix), 意大利薩克米公司研發(fā)的西甜瓜內(nèi)部品質(zhì)(糖度、 酸度、 成熟度和空心度)在線檢測(cè)系統(tǒng)(效率為300 pcs·min-1)等[27]。 上述系統(tǒng)及設(shè)備均為大型裝置, 不便于小型商戶和消費(fèi)者使用, 開發(fā)基于智能移動(dòng)終端的快速檢測(cè)系統(tǒng)是未來(lái)發(fā)展方向之一。
表6列舉了高光譜成像技術(shù)在西甜瓜內(nèi)部品質(zhì)無(wú)損檢測(cè)中的應(yīng)用。
近些年來(lái)利用高光譜成像技術(shù)對(duì)西甜瓜SSC、 FM的定量分析較多, 李鋒霞等[28]以哈密瓜為對(duì)象, 選取500~820 nm波段范圍內(nèi)的高光譜圖像信息, 分別研究了不同光譜預(yù)處理方法(1stD, 2ndD, MSC和SNV)和不同建模方法(PLS, SMLR和PCR)對(duì)哈密瓜SSC和FM預(yù)測(cè)模型的影響。 結(jié)果顯示, 1stD和SNV結(jié)合PLS建立的哈密瓜FM預(yù)測(cè)模型的預(yù)測(cè)效果最佳(RC為0.873,RP為0.646, RMSEC為4.18, RMSEP為6.4)。 高光譜成像所獲取的光譜信息冗余度較大, 與被測(cè)組分無(wú)關(guān)的信息會(huì)削弱模型的預(yù)測(cè)精度。 因此, 選擇包含相對(duì)較多有效信息的變量來(lái)建立預(yù)測(cè)模型是十分必要的。 Sun等[7]分別比較了基于不同變量篩選方法(SPA, CARS和GA)結(jié)合PLS建立的哈密瓜SSC, FM和TAC預(yù)測(cè)模型的精度。 結(jié)果表明, CARS-PLS模型實(shí)現(xiàn)了對(duì)哈密瓜SSC(RP為0.960 6, RMSEP為0.381 6, RDP為3.598)、 FM(RP為0.867 1, RMSEP為20.05, RPD為1.996)和TAC(RP為0.912 5, RMSEP為0.026 3, RPD為2.445)的準(zhǔn)確預(yù)測(cè)。 Sun等[30]利用PLSR, PCA, SVM和人工神經(jīng)網(wǎng)絡(luò)(artificial neural network, ANN)分別建立了甜瓜SSC和FM預(yù)測(cè)模型, 其中PLSR模型的預(yù)測(cè)性能最佳。 為進(jìn)一步提高模型精度, 采用加權(quán)回歸系數(shù)法篩選變量后結(jié)合PLSR重新建立了甜瓜SSC和FM預(yù)測(cè)模型。 結(jié)果表明, 經(jīng)變量篩選后建立的甜瓜SSC模型(R2為0.775 5, RMSEP為1.187 1)和FM模型(R2為0.355 5, RMSEP為525.293 2)的預(yù)測(cè)精度均得到了提高。
表6 高光譜成像在西甜瓜內(nèi)部品質(zhì)無(wú)損檢測(cè)中的應(yīng)用
上述研究均是對(duì)內(nèi)部品質(zhì)的單一指標(biāo)進(jìn)行檢測(cè), 忽略了各指標(biāo)間的相關(guān)性, 因此可能會(huì)對(duì)西甜瓜內(nèi)部品質(zhì)的綜合評(píng)判造成影響。 SSC和FM作為西甜瓜成熟度的關(guān)鍵表征因子, 孫靜濤等[29]分別采用MSC和SNV對(duì)光譜信息進(jìn)行預(yù)處理并選擇SPA, CARS和SPA-CARS對(duì)變量進(jìn)行篩選后, 對(duì)比分析了基于全光譜、 SSC或FM單一特征和基于PCA特征融合的哈密瓜成熟度SVM判別模型的準(zhǔn)確率。 結(jié)果顯示, 基于CARS-PCA-SVM特征融合和全光譜SNV-SVM的哈密瓜成熟度判別模型的準(zhǔn)確率較高, 其校正集和預(yù)測(cè)集的判別準(zhǔn)確率分別為95%和94%。
研究表明, 利用變量篩選方法可有效降低高光譜信息冗余度, 簡(jiǎn)化模型, 提高模型預(yù)測(cè)精度。 建立特征信息融合的成熟度判別模型為今后利用高光譜“圖譜合一”的特性綜合評(píng)判西甜瓜的內(nèi)部品質(zhì)提供了理論依據(jù)。
光譜分析作為一種現(xiàn)代無(wú)損檢測(cè)技術(shù), 與傳統(tǒng)檢測(cè)技術(shù)相比具有快速、 綠色、 無(wú)損等優(yōu)勢(shì), 在西甜瓜內(nèi)部品質(zhì)無(wú)損檢測(cè)中具有廣闊的應(yīng)用前景。
(1)光譜分析所獲取的信息量較大, 其中包含的許多與被測(cè)組分無(wú)關(guān)的冗余信息會(huì)增加光譜信息處理時(shí)間, 降低模型精度。 獲取光譜有效信息、 優(yōu)化預(yù)測(cè)模型一直是光譜分析技術(shù)未來(lái)發(fā)展的重要方向, 而機(jī)器學(xué)習(xí)則是實(shí)現(xiàn)模型優(yōu)化的重要手段。 深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的分支在挖掘龐大數(shù)據(jù)集的有效信息方面發(fā)展迅猛, 為解決光譜分析模型魯棒性和適應(yīng)性差等問題提供了新的思路和方法, 應(yīng)用深度模型預(yù)測(cè)西甜瓜的內(nèi)部品質(zhì)將是未來(lái)技術(shù)發(fā)展的必然趨勢(shì)。
(2)目前對(duì)于西甜瓜內(nèi)部品質(zhì)的無(wú)損檢測(cè)多是針對(duì)單一指標(biāo)(大多數(shù)為影響口感風(fēng)味的食用指標(biāo)的定量檢測(cè)), 針對(duì)綜合指標(biāo)(如成熟度)的研究較少。 研究西甜瓜內(nèi)部品質(zhì)評(píng)價(jià)指標(biāo)間的內(nèi)在聯(lián)系, 提取各指標(biāo)相對(duì)應(yīng)的變量建立多特征信息融合的西甜瓜內(nèi)部品質(zhì)綜合評(píng)價(jià)模型將是今后的研究重點(diǎn)之一。
(3)盡管國(guó)內(nèi)外部分學(xué)者都構(gòu)建了基于光譜分析的西甜瓜內(nèi)部品質(zhì)無(wú)損在線檢測(cè)系統(tǒng), 但目前大多停留在實(shí)驗(yàn)室階段, 應(yīng)用于商業(yè)化生產(chǎn)線較少且多為大型裝置, 不利于加工企業(yè)和消費(fèi)者使用。 隨著人工智能、 大數(shù)據(jù)、 移動(dòng)互聯(lián)網(wǎng)和云計(jì)算的不斷發(fā)展, 研究開發(fā)基于人工智能與移動(dòng)終端深度融合的西甜瓜內(nèi)部品質(zhì)快速無(wú)損檢測(cè)系統(tǒng)將成為新的研究方向之一。