補(bǔ)友華,姜鑫娜,田建平,胡新軍,黃浩平,高 劍,黃 丹,羅惠波
(四川輕化工大學(xué)機(jī)械工程學(xué)院1,宜賓 644000)四川輕化工大學(xué)生物工程學(xué)院2,宜賓 644000) (四川釀酒專用糧工程技術(shù)研究中心3,宜賓 644000)
高粱作為一種生禾本科植物,在發(fā)展中國家約有5億人將其作為主食[1]。高粱除了用來作為主食,由于高粱中淀粉含量高,大約占高粱的65%~70%,蛋白質(zhì)、單寧、脂肪等含量也適當(dāng),也常用于醬香型白酒的釀造[2]。高粱中的淀粉由直鏈淀粉和支鏈淀粉組成,它們是產(chǎn)生酒精的來源和發(fā)酵微生物的物質(zhì)[3]。對(duì)于不同品種的高粱,其直鏈淀粉和支鏈淀粉含量也不相同,酒廠常使用多種混合品種的高粱作為釀造原料。由于不同比例配比下高粱的直鏈淀粉和支鏈淀粉含量會(huì)影響白酒的品質(zhì)和風(fēng)味,因此檢測不同比例配比下高粱的直鏈淀粉和支鏈淀粉含量尤為重要。目前,高粱淀粉含量的檢測主要采用化學(xué)分析方法和無損檢測方法?;瘜W(xué)方法中常使用碘親和力滴定法和雙波長分光光度法對(duì)淀粉含量進(jìn)行測定,但是此類方法耗時(shí)長,且屬于破壞性檢測[4, 5];無損檢測中常用近紅外光譜技術(shù)對(duì)淀粉含量進(jìn)行非破壞性測定[6, 7],但只能實(shí)現(xiàn)單點(diǎn)檢測且檢測精度不高;因此需要一種快速無損方法獲取不同混合比例配比下高粱的淀粉含量。
高光譜成像技術(shù)作為一種新興檢測技術(shù),可以同時(shí)獲取待測樣本的圖像和光譜信息,可用來全面、客觀地分析樣品,這使得它在食品的安全檢測和控制方面比傳統(tǒng)光譜技術(shù)和圖像技術(shù)更具有優(yōu)勢(shì)[8]。該技術(shù)已被廣泛用于各種物質(zhì)含量檢測,如大曲的酸度、水分和還原糖含量[9-11],花生仁的脂肪含量[12],大米、水稻籽粒和馬鈴薯的淀粉含量[13-15]。用高光譜成像技術(shù)對(duì)淀粉含量和其他物質(zhì)含量檢測方面的研究均取得較好的結(jié)果,為使用高光譜技術(shù)檢測不同混合比例配比下高粱的淀粉含量提供了可行性。
本實(shí)驗(yàn)以不同混合比例配比下的高粱樣本作為研究對(duì)象,使用可見光高光譜成像系統(tǒng)采集高粱樣本的高光譜圖像,使用基于擴(kuò)展極大值變換改進(jìn)后的分水嶺算法對(duì)光譜圖像進(jìn)行了高粱籽粒分割,并提取了籽粒的光譜數(shù)據(jù);對(duì)不同預(yù)處理方法后的光譜數(shù)據(jù)分別建立了偏最小二乘法回歸(PLSR)模型,確定了最佳預(yù)處理;使用主成分分析(PCA)、PLSR算法提取了光譜特征;基于遺傳算法-BP神經(jīng)網(wǎng)絡(luò)(GA-BPNN)和粒子群算法-支持向量機(jī)回歸(PSO-SVR)分別建立了高粱淀粉含量的預(yù)測模型。
由于醬香型白酒主要以紅纓子糯高粱作為主要釀造原料[16],然后混合小比例的其他糯高粱品種,因此本研究選用貴州某高粱育種中心的紅纓子(HYZ)作為被混合的高粱品種,選擇四川、山東某高粱育種中心的美國高粱(MG)及鐵桿(TG)2個(gè)品種作為混合的高粱品種。將3個(gè)高粱品種進(jìn)行兩兩組合得到3組混合樣本(MG+HYZ、TG+HYZ、TG+MG)。每組混合樣本的總質(zhì)量為15 g,按照5種不同的混合比例(10%、16.67%、23.33%、33.33%、43.33%)配比的高粱進(jìn)行樣本制備,每個(gè)混合比例的樣本制作20個(gè)平行樣本,共制備300個(gè)樣本(3×5×20 = 300)作為淀粉含量預(yù)測模型的訓(xùn)練集和預(yù)測集。另外制備了10個(gè)樣本作為外部驗(yàn)證集用于驗(yàn)證最優(yōu)模型的穩(wěn)當(dāng)性和準(zhǔn)確性(MG+HYZ、TG+HYZ不同混合比例各1個(gè))。樣本制備完成后,所有高粱樣本在未采集數(shù)據(jù)前都進(jìn)行常溫密封保存。不同混合比例配比的高粱樣本具體信息如表1所示。
表1 不同混合比例配比的高粱樣本制備
高光譜成像的采集設(shè)備使用美國推掃式成像系統(tǒng),采集軟件為LUMO-scanner。該系統(tǒng)主要由Specim FX10系列高光譜相機(jī)、2組150 W的鹵素?zé)艄庠?、電控移?dòng)平及平臺(tái)支架組成。高粱質(zhì)量的測定設(shè)備使用OHAUS精密天平,量程為320 g,精度為0.001 g。高粱淀粉含量測定的主要儀器有BJ-800A多功能粉碎機(jī),BGZ-140電熱鼓風(fēng)干燥箱,TG-16高速離心機(jī),UV Professional分光光度計(jì),BSC-400恒溫恒濕箱等。
使用高光譜成像系統(tǒng)前,為了獲得穩(wěn)定的高粱樣本的高光譜圖像,需要在數(shù)據(jù)采集系統(tǒng)設(shè)置最佳采集參數(shù)。在使用高光譜相機(jī)采集數(shù)據(jù)時(shí),將采集參數(shù)白板標(biāo)定峰值調(diào)整為3 616,相機(jī)的曝光頻率和曝光時(shí)間分別設(shè)置為50 Hz和4.02 ms,移動(dòng)平臺(tái)掃描速度設(shè)置為16.57 mm/s。采集參數(shù)設(shè)置完成后,將高粱樣本平鋪在直徑為150 mm的培養(yǎng)皿中,然后放在電控移動(dòng)平臺(tái)進(jìn)行數(shù)據(jù)采集。
為了減少相機(jī)探測器的暗電流對(duì)樣本的整體影響,并消除環(huán)境光照不均勻?qū)Ω吡活w粒的影響,需要利用白色參考圖像和暗電流參考圖像對(duì)原始高光譜圖像進(jìn)行校正對(duì)原始高光譜圖像進(jìn)行圖像校正[17]。對(duì)高粱的原始光譜圖像用式(1)進(jìn)行校正。
(1)
式中:Ir為校正前的原始光譜圖像;Iw為白色參考圖像;Id為暗電流參考圖像;Ic為校正后的參考圖像。
高粱樣本的高光譜數(shù)據(jù)采集完成后,使用GB 7648—1987測定每個(gè)高粱樣本的直鏈、直鏈淀粉含量。其測定原理為淀粉遇碘生成淀粉-碘復(fù)合物,且直鏈淀粉遇碘生成深藍(lán)色復(fù)合物,支鏈淀粉遇碘生成棕紅色復(fù)合物。當(dāng)?shù)矸劭偭坎蛔儠r(shí),不同比例的直鏈、支鏈淀粉分散液在一定的波長與酸度條件下與碘作用生成由紫紅到深藍(lán)的一系列顏色,使用分光光度計(jì)可以測定分散液中的直鏈、支鏈淀粉的含量。
1.5.1 高光譜數(shù)據(jù)提取及處理
由于高粱樣本的高光譜圖像包含了無關(guān)的背景信息和高粱籽粒的信息,并且高粱籽粒之間存在粘結(jié)現(xiàn)象。為了剔除無關(guān)的背景信息和分割存在粘結(jié)現(xiàn)象的高粱籽粒,故對(duì)高粱樣本的圖像采用圖像處理技術(shù)中形態(tài)學(xué)方法和分水嶺算法[18],確定樣本中所有高粱籽粒的位置,然后精確提取高粱籽粒感興趣區(qū)域(ROI)內(nèi)的光譜數(shù)據(jù)。根據(jù)式(2)對(duì)每顆高粱籽粒ROI的光譜數(shù)據(jù)取平均值作為得到高粱籽粒的平均光譜數(shù)據(jù)[19]。
(2)
在提取了高粱樣本中每顆高粱籽粒的光譜數(shù)據(jù)后,將樣本中所有高粱籽粒的光譜數(shù)據(jù)取平均值作為每個(gè)高粱樣本的光譜數(shù)據(jù),用于后續(xù)數(shù)據(jù)分析。
1.5.2 光譜預(yù)處理及樣本劃分
為了消除高粱樣本顆粒在培養(yǎng)皿中分布不均勻,且高粱顆粒大小的不同而引起的散射對(duì)其光譜的影響,采用多元散射校正(MSC)對(duì)高粱顆粒的光譜數(shù)據(jù)進(jìn)行處理,從而獲得理想的光譜[20]。為了提高光譜的信噪比,減少隨機(jī)噪聲對(duì)光譜的影響,使用Savizky-Golay濾波器(SG)對(duì)高粱樣本的光譜進(jìn)行平滑處理[21]。也采用MSC與SG結(jié)合的方式光譜進(jìn)行預(yù)處理[22]。另外,本研究采用光譜-理化共生距離(SPXY)[23]對(duì)高粱樣本進(jìn)行樣本集劃分,將300個(gè)高粱樣本按照4∶1的比例劃分為校正集和預(yù)測集,用于后續(xù)淀粉含量的定量預(yù)測模型的訓(xùn)練和預(yù)測。
1.5.3 光譜特征提取方法
采用2種方法提取高粱光譜數(shù)據(jù)的特征。使用PCA算法分別計(jì)算高粱光譜數(shù)據(jù)的主成分,然后選擇累計(jì)貢獻(xiàn)率最大的幾組主成分對(duì)應(yīng)的得分矩陣作為光譜特征[24]。使用自變量(高粱樣本的光譜數(shù)據(jù))和因變量(高粱樣本的淀粉含量)建立PLSR模型[25],然后選擇PLSR模型累計(jì)貢獻(xiàn)率最大的前幾組潛在變量對(duì)應(yīng)的得分矩陣作為光譜特征,用于后續(xù)預(yù)測高粱淀粉含量模型的建立。
1.5.4 高粱淀粉預(yù)測模型建立
1.5.4.1 GA-BPNN預(yù)測模型
BPNN算法是一種經(jīng)典的多層前饋算法,可用于解決相對(duì)復(fù)雜的非線性問題,在光譜分析中得到了廣泛的應(yīng)用[26]。BPNN的網(wǎng)絡(luò)結(jié)構(gòu)由一個(gè)輸入層、多個(gè)隱藏層和一個(gè)輸出層組成。該算法的基本原理:在學(xué)習(xí)過程由輸入信號(hào)(光譜數(shù)據(jù))的正向傳播與誤差的反向傳播兩個(gè)過程組成。本研究將GA算法和BPNN神經(jīng)網(wǎng)絡(luò)結(jié)合起來,對(duì)神經(jīng)網(wǎng)絡(luò)的初始的權(quán)值和閾值進(jìn)行整體優(yōu)化[27]。其中種群規(guī)模設(shè)置為100,遺傳迭代次數(shù)為50,交叉概率為0.6,變異概率為0.05。
1.5.4.2 PSO-SVR預(yù)測模型
SVR以其優(yōu)異的泛化能力被廣泛用于解決光譜數(shù)據(jù)的分類與回歸問題[28]。SVR作為支持向量機(jī)里的一個(gè)分支,常用于回歸分析。SVR的基本原理是通過使用核函數(shù),將低維空間的非線性問題映射到高維空間,在高維空間中構(gòu)造線性決策函數(shù)來實(shí)現(xiàn)原空間中的非線性決策,從而實(shí)現(xiàn)線性回歸[29]。由于懲罰系數(shù)c和松弛系數(shù)g的取值直接決定了SVR模型的泛化能力,所以通過PSO算法對(duì)SVR模型的懲罰因子c和核函數(shù)參數(shù)g進(jìn)行參數(shù)尋優(yōu)[30]。
1.5.5 模型評(píng)估
本研究基于全波長和特征光譜分別建立了預(yù)測高粱的淀粉含量GA-BPNN和PSO SVR模型。通過校正決定系數(shù)(Rc2),校正均方根誤差(RMSEC),預(yù)測決定系數(shù)(Rp2),預(yù)測均方根誤差(RMSEP)來綜合評(píng)價(jià)模型的性能,選擇最優(yōu)的預(yù)測模型。通常RMSEC、RMSEP反映了模型的預(yù)測精度,其值越接近0說明模型精度越高;Rc2、Rp2反映了對(duì)數(shù)據(jù)變化的解釋程度,其值越接近1代表模型的解釋程度越高[31]。
將高粱樣本的光譜數(shù)據(jù)和對(duì)應(yīng)的直鏈、支鏈淀粉含量劃分為校正集、預(yù)測集。劃分樣本后的淀粉含量統(tǒng)計(jì)結(jié)果如表2所示,預(yù)測集的淀粉含量范圍(0.902 3~2.163 1 g)分布在校正集的淀粉含量范圍(0.906 4~2.213 2 g)之內(nèi),且校正集和測試集內(nèi)直鏈淀粉含量的均值、標(biāo)準(zhǔn)差基本一致,說明劃分的樣本分布均勻,劃分結(jié)果較為合理。
表2 高粱淀粉含量參考值統(tǒng)計(jì)
首先,對(duì)高粱樣本的RGB圖像進(jìn)行灰度變換,使得高粱籽粒的目標(biāo)區(qū)域和背景區(qū)域明顯分開;然后對(duì)灰度圖像進(jìn)行二值化,再對(duì)其二值圖像使用基于擴(kuò)展極大值變換改進(jìn)后的分水嶺圖像分割算法,找到高粱籽粒的分水嶺脊線;最后,將分水嶺脊線圖像反色,再與二值圖像進(jìn)行與運(yùn)算,得到分割后的高粱籽粒,高粱樣本圖像的關(guān)鍵處理過程如圖1所示。將分割后每個(gè)高粱籽粒作為ROI,提取每個(gè)高粱籽粒ROI的平均光譜數(shù)據(jù),再對(duì)每個(gè)高粱籽粒ROI的平均光譜數(shù)據(jù)取平均,得到高粱樣本的平均光譜數(shù)據(jù)。
圖1 高粱樣本的圖像處理過程
不同混合比例配比下的高粱樣本的可見光光譜如圖2所示。不同混合比例配比下高粱樣本的光譜曲線呈現(xiàn)相同的趨勢(shì)。光譜在500 nm附近有輕微的吸收峰,在其余的波段位置沒有明顯的吸收峰,但是反射率具有明顯的差異。
圖2 高粱光譜曲線
利用MSC、SG、MSC-SG預(yù)處理方法對(duì)不同混合比例配比下的高粱樣本的光譜數(shù)據(jù)進(jìn)行預(yù)處理,將預(yù)處理后的光譜數(shù)據(jù)結(jié)合PLSR建模預(yù)測高粱的淀粉含量,預(yù)測效果如表3所示。經(jīng)比較發(fā)現(xiàn)未使用預(yù)處理的光譜數(shù)據(jù)建立的預(yù)測直鏈淀粉含量的PLSR模型預(yù)測能力最好,RMSEP=0.045 1,Rp2=0.989 7;發(fā)現(xiàn)使用MSC-SG預(yù)處理后的光譜數(shù)據(jù)建立的預(yù)測支鏈淀粉含量的PLSR模型預(yù)測能力最好,RMSEP=0.206 7,Rp2=0.871 0,這可能是因?yàn)镸SC-SG可以降低高粱顆粒大小的不同而引起的散射對(duì)其光譜的影響,且減少光譜噪聲。因此后續(xù)研究選取未預(yù)處理和MSC-SG預(yù)處理后的光譜數(shù)據(jù)分別作為高粱直鏈淀粉和支鏈淀粉含量預(yù)測的光譜數(shù)據(jù)預(yù)處理手段。MSC-SG預(yù)處理后光譜曲線如圖2b所示。
表3 光譜數(shù)據(jù)預(yù)處理后的建模效果
2.5.1 PCA算法提取光譜特征
在可見光光譜范圍內(nèi),采集的光譜數(shù)據(jù)包含了448個(gè)波段,其存在大量的冗余和共線性信息的問題,使得模型的精度和運(yùn)算速度降低。為了消除光譜數(shù)據(jù)中的冗余和干擾變量,簡化模型,因此需要對(duì)光譜數(shù)據(jù)進(jìn)行降維。該研究使用PCA算法對(duì)光譜數(shù)據(jù)進(jìn)行主成分分析,光譜數(shù)據(jù)的前4個(gè)主成分的累計(jì)貢獻(xiàn)率達(dá)到99.87%(PC1:54.36%、PC2:42.09%、PC3:3%、PC4:0.42%)。因此提取了前4個(gè)主成分對(duì)應(yīng)的主成分得分矩陣(300×4)作為光譜特征用于后續(xù)多元模型的建立。
2.5.2 PLSR算法提取光譜特征
PSLR算法是一種基于特征變量的回歸方法,其實(shí)質(zhì)是按照協(xié)方差極大化準(zhǔn)則,在分解自變量數(shù)據(jù)矩陣X(高粱光譜數(shù)據(jù))的同時(shí),也在分解因變量數(shù)據(jù)(淀粉含量),并且建立相互對(duì)應(yīng)的潛在變量與因變量數(shù)據(jù)之間的回歸關(guān)系方程。如圖2所示,該研究初始選擇35個(gè)潛在變量數(shù)建立預(yù)測高粱淀粉的PLSR模型,然后通過十折交叉驗(yàn)證,根據(jù)最小的均方根誤差(RMSE)選擇最佳的潛在變量數(shù)。由圖3a可知,當(dāng)潛在變量數(shù)為7時(shí),預(yù)測直連淀粉含量的RMSE值達(dá)到最小為0.028 75,由圖3c可知,前7個(gè)潛在變量的累計(jì)貢獻(xiàn)率達(dá)到了97.63%,因此選擇前7個(gè)潛在變量對(duì)應(yīng)的得分矩陣(300×7)作為光譜特征用于后續(xù)建立直連淀粉含量的預(yù)測模型。同樣,對(duì)于支鏈淀粉的光譜特征提取,由圖3b可知,當(dāng)潛在變量數(shù)為5時(shí),預(yù)測支鏈淀粉含量的RMSE值達(dá)到最小為0.1779 8,由圖3d可知,前5個(gè)潛在變量的累計(jì)貢獻(xiàn)率達(dá)到了84.11%,因此選擇前5個(gè)潛在變量對(duì)應(yīng)的得分矩陣(300×5)作為光譜特征用于后續(xù)建立支鏈淀粉含量的預(yù)測模型。
圖3 PLSR模型的潛在變量
基于全波長的光譜數(shù)據(jù)、PCA和PLSR提取的光譜特征,利用未預(yù)處理和MSC-SG預(yù)處理后的光譜數(shù)據(jù)分別建立了GA-BPNN和PSO-SVR模型,預(yù)測不同混合比例配比下高粱的淀粉含量。對(duì)于GA-BPNN的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)設(shè)計(jì):確定trainlm為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練函數(shù),隱含層為1層帶有15個(gè)點(diǎn)神經(jīng)元,確定tansig為隱含層節(jié)點(diǎn)的傳遞函數(shù),purelin為輸出層節(jié)點(diǎn)傳遞函數(shù),網(wǎng)絡(luò)學(xué)習(xí)函數(shù)為BP學(xué)習(xí)規(guī)則learngdm,學(xué)習(xí)率為0.001,迭代次數(shù)為1 000,訓(xùn)練目標(biāo)為4.43e-7。對(duì)于PSO優(yōu)化SVR模型的參數(shù):粒子群的種群數(shù)N=20,粒子速度范圍[0.1,1.0],最大的迭代次數(shù)Gmax=200,學(xué)習(xí)因子C1和C2為1.5和1.7,建模結(jié)果如表4所示。
從表4中可見,對(duì)于高粱直鏈淀粉含量的預(yù)測結(jié)果,在GA-BPNN模型中使用PCA提取的光譜特征建立的模型效果最佳,其RMSEP,Rp2分別為0.014 6,0.992 2;在PSO-SVR模型中使用PLSR提取的光譜特征建立的模型效果最佳,其RMSEP,Rp2分別為0.044 7,0.991 0。以上2種模型效果相對(duì)于全波長建模的效果來說,在保證模型的預(yù)測精度的前提下不僅簡化了模型,也提高了模型的預(yù)測精度;GA-BPNN和PSO-SVR這2種模型之間,采用PCA提取的光譜特征建立的GA-BPNN模型效果最好。對(duì)于高粱支鏈淀粉含量的預(yù)測結(jié)果,同樣是采用PCA提取的光譜特征建立的GA-BPNN模型效果最好,其RMSEP,Rp2分別為0.151 9,0.933 6。這是因?yàn)镻CA算法對(duì)光譜數(shù)據(jù)進(jìn)行主成分分析,前4個(gè)主成分的累計(jì)貢獻(xiàn)率高達(dá)99%以上,因此提取前4個(gè)主成分對(duì)應(yīng)的得分矩陣作為光譜特征,能夠很好的解釋光譜數(shù)據(jù)的差異性,因此PCA提取的光譜特征建立模型效果最好;而PLSR算法的最佳潛在變量的累計(jì)貢獻(xiàn)率低于98%,導(dǎo)致PLSR提取的光譜特征建立模型效果略差。
圖4展示了基于PCA提取光譜特征建立的GA-BPNN的模型預(yù)測集和訓(xùn)練集的擬合結(jié)果。
表4 多元模型的效果
圖4 預(yù)測集和校正集的擬合效果
可以看出高粱直鏈淀粉含量的擬合效果較好,其淀粉含量的測量值和預(yù)測值均分布在紅色斜線附近,說明直鏈淀粉含量的預(yù)測誤差小。高粱支鏈淀粉含量的擬合效果略差,其淀粉含量的測量值和預(yù)測值均分布在紅色斜線的較遠(yuǎn)區(qū)域,這是因?yàn)橹ф湹矸酆吭?~10.5 g,支鏈淀粉的預(yù)測值與測量值的誤差略大。
為了進(jìn)一步驗(yàn)證最優(yōu)模型的準(zhǔn)確性和穩(wěn)定性,采用外部驗(yàn)證方式驗(yàn)證模型效果,將未參與建模10個(gè)外部驗(yàn)證集代入最優(yōu)模型進(jìn)行預(yù)測,同時(shí)與測量值進(jìn)行比較,對(duì)比結(jié)果見表5。
表5 淀粉測量值與預(yù)測值結(jié)果對(duì)比
本研究探討了可見光高光譜成像技術(shù)在不同混合比例配比下高粱的淀粉含量檢測中的應(yīng)用,結(jié)果表明可見光高光譜成像技術(shù)結(jié)合優(yōu)化算法能夠準(zhǔn)確地檢測不同混合比例配比下高粱的淀粉含量。利用原始和不同預(yù)處理方式(MSC、SG、MSC-SG)處理后的光譜數(shù)據(jù)建立PLSR模型預(yù)測高粱淀粉含量,發(fā)現(xiàn)MSC-SG建立的模型預(yù)測高粱支鏈淀粉含量的效果最好(Rp2=0.871 0,RMSEP=0.206 7)。利用PCA算法從高粱樣本的光譜數(shù)據(jù)提取了300×4的特征光譜矩陣;利用PLSR算法對(duì)于直鏈淀粉和支鏈淀粉分別提取了300×7和300×5的光譜特征矩陣。基于全波長的光譜數(shù)據(jù)、PCA和PLSR提取的光譜特征建立了GA-BPNN和PSO-SVR模型預(yù)測高粱樣本的淀粉含量,發(fā)現(xiàn)用PCA提取的光譜特征建立的GA-BPNN模型最優(yōu)(直鏈淀粉:Rp2=0.992 2、RMSEP=0.041 6;支鏈淀粉:Rp2=0.933 6、RMSEP=0.151 9),有效簡化了模型,提高了模型精度??傮w研究結(jié)果表明,可見光高光譜成像技術(shù)結(jié)合優(yōu)化算法能夠快速獲取高粱的淀粉含量,同時(shí)也可以為檢測其他谷類的淀粉含量提供一種新的方法。