周星宇, 姜洪喆, 蔣雪松, 沈 飛,何學明, 張 祎, 莫曉嵩
(南京林業(yè)大學機械電子工程學院1,南京 210037)(南京財經(jīng)大學食品科學與工程學院2,南京 210023)(江蘇省糧油質量監(jiān)測中心3, 南京 210031)
可見/近紅外光譜分析技術具有低成本、高效率、無損等優(yōu)點,作為一種快速分析技術之一,廣泛地應用于各個領域,本文利用可見/近紅外光譜分析技術對江蘇13市的小麥樣本進行小麥品質的動態(tài)檢測。
小麥作為三大谷物之一,在全世界各地廣泛種植,研磨而成的小麥粉可以制作成面包、饅頭等食物,對人類的生活有著重大的意義[1]。民以食為天,糧食的安全與每一個人都息息相關,隨著生活水平的提高,人們對于小麥品質的要求也越來越高,由于小麥的生產(chǎn)、加工、貯藏等原因,小麥品質容易劣變,如在貯藏期小麥水分先降低后升高,隨著貯藏時間增加變化趨于穩(wěn)定,不同的貯藏方式對濕面筋影響較大,如高溫貯藏會使得濕面筋含量下降等。國內外很多學者研究利用近紅外光譜分析技術研究了小麥的赤霉病、白粉病、嘔吐毒素等病變,還研究了小麥的蛋白質、水分、灰分、濕面筋、硬度指數(shù)等關鍵指標。所以一種快速、簡單的檢測技術就十分重要,本文探索了利用動態(tài)可見/近紅外技術實現(xiàn)對小麥品質的快速檢測[2]。
可見/近紅外光譜屬于吸收分子光譜,吸收帶主要是由低能電子躍遷、含氫原子團(N—H、O—H、C—H)的伸縮振動的倍頻及組合頻吸收產(chǎn)生[2-5]。原子團具有固定的震動頻率,當分子受到紅外線照射時,被激發(fā)產(chǎn)生共振[6-8]。分子振動的非諧振性使分子振動從基態(tài)向高能躍遷時產(chǎn)生可見/近紅外光譜,通過測量物質吸收可見/近紅外光能量大小,可以反應被測物質的特征[9,10]。
本研究利用動態(tài)光譜檢測技術建立動態(tài)小麥質量指標的預測模型,對于推動可見/近紅外光譜技術動態(tài)、在線檢測有著重要的意義。本文同時還創(chuàng)新性的建立小麥硬度指數(shù)的預測模型,小麥硬度作為重要的加工指標,在小麥碾磨成小麥粉過程中,是制粉工藝和其他參數(shù)的重要指標。
可見/近紅外光譜分析技術在獲得樣本信息時容易參雜噪聲,所以需要找到合適的預處理和建模方式。本文采用偏最小二乘回歸分析(PLSR)和BP神經(jīng)網(wǎng)絡(BP-ANN)兩種建模方法,研究在不同預處理方法下小麥各品質PLS建模結果,還研究了在相同預處理下不同訓練算法下建立的BP神經(jīng)網(wǎng)絡的模型。
本文采用的小麥樣品來自江蘇省南京、常州、無錫等13個市各縣、鄉(xiāng)、村共213份,為了保證樣本具有一定的代表性,該樣本的土壤環(huán)境包括沙土、黏土、淤土、半沙半淤、壤土等31種不同土壤環(huán)境,小麥品種有寧麥13、楊麥16、煙農(nóng)19、鎮(zhèn)麥12、蘇麥199等78種不同小麥品種。因此選取的213份樣本具有一定的代表性,可以用于研究。
本研究根據(jù)《GB 5009.3—2016 食品安全國家標準 食品中水分的測定》中直接干燥法測定小麥水分,根據(jù)《GB/T 21304—2007 小麥硬度測定法 硬度指數(shù)法》測定小麥硬度指數(shù),根據(jù)《GB/T 5506.1—2008 小麥和小麥粉 面筋含量》中手洗法測定濕面筋,根據(jù)《GB 5009.5—2016 食品國家安全標準 食品中蛋白質的測定》中的凱氏定氮法測定小麥蛋白質。
本研究采用可見/近紅外光譜動態(tài)采集平臺由三個部分組成:機械傳送單元、信息采集單元和信息處理單元。該平臺具有操作方便、速度易調節(jié)等優(yōu)點。
圖1 近紅外光譜動態(tài)采集平臺示意圖
本研究采用德國蔡司ZEISS MCS 600光纖光譜儀和OMK500-H/NIR型漫反射探頭,對213種來自江蘇13市的小麥樣本進行光譜采集,實驗前將小麥樣本平衡至室溫24 ℃,開啟光譜儀預熱30 min,設置積分時間為100 ms,平均采集次數(shù)3次,采集波段為600~1 600 nm,將小麥樣本置于樣本架上,樣本距離探頭約為3 cm,啟動傳送帶,設置傳送帶速度為0.1 m/s,采集小麥樣本的動態(tài)可見/近紅外漫反射光譜。
由于固體顆粒大小、表面散射和光程變化對可見/近紅外漫反射光譜的影響,需要對采集的光譜進行預處理,以提高光譜的與數(shù)據(jù)間的相關性,降低噪聲的影響,本文研究了在不進行任何預處理和3種不同預處理下對同一種品質建模結果的影響[11-15]。光譜的預處理方法:標準正態(tài)變化算法(SNV); Savitzky-Golay卷積平滑法(S-G平滑);多元散射矯正(MSC)。
本研究對不采用任何預處理和進行3種不同預處理方法分別進行建立偏最小二乘分析(PLS)模型,利用決定系數(shù)(R2)和均方根誤差(RMSE)評價指標衡量建立模型的預測性能[15-23]。
同時本研究為了研究深度學習建模方法在小麥品質上的預測與回歸能力,利用BP神經(jīng)網(wǎng)絡(BP-ANN)建立預測模型。本研究將小麥的光譜數(shù)據(jù)作為輸入層,則m為每個樣本的波點數(shù)256,n為1代表每個樣本的品質,根據(jù)經(jīng)驗公式選擇的隱藏層節(jié)點為25,其示意圖如下。把樣本的測試誤差的范數(shù)用來衡量網(wǎng)絡的優(yōu)劣,再通過誤差范數(shù)計算每一個個體的適應度值,使得誤差范數(shù)減小[24]。在BP神經(jīng)網(wǎng)絡前向傳播時,隱藏層有著激勵函數(shù)對輸入節(jié)點的數(shù)據(jù)進行處理,常用激勵函數(shù)有sigmoid函數(shù)、tanh函數(shù)等,由于sigmoid函數(shù)收斂速率快,本文選擇的激勵函數(shù)為sigmoid函數(shù)[25]。在BP神經(jīng)網(wǎng)絡反向傳播時,為達到均方根誤差最小,需要不斷對網(wǎng)絡中的權重和偏置進行調整[26,27]。同時研究了4種不同訓練算法對建模結果的影響,這4種算法分別為:梯度下降法(GD算法);賴文貝格-馬夸特算法(LM算法);貝葉斯正則化算法(BR算法);共軛梯度法(CG算法)。
圖2為213份樣本通過ZEISS MCS 600光纖光譜儀和OMK500-H/NIR型漫反射探頭采集到的光譜,區(qū)間為600~1 600nm,在可見/近紅外光譜區(qū)間中,發(fā)現(xiàn)由于每一個樣本自身所具有的特殊性,光譜曲線整體上看上去類似,但還是存在差異性[28-30]。由圖2可以看出在970、1 210 nm處有明顯的吸收峰。近紅外光譜區(qū)與有機分子中含氫基團(O—H、N—H、C—H)振動的合頻和各級倍頻的吸收區(qū)一致,通過掃描樣品的可見/近紅外光譜,可以得到樣品中有機分子含氫基團的特征信息[30-34]。在970 nm處為O—H基團的二級倍頻吸收,在1 210 nm處為C—H基團的二級倍頻吸收,這與小麥的品質有最直接的聯(lián)系[35]。
圖2 原始光譜圖
利用上述幾種預處理方法對光譜進行預處理,注意校正集與預測集需要以同一種預處理方法處理。為保證驗證不同預處理方法的可靠性,以比較出哪一種預處理方法更適用于本實驗。利用PLSR建立模型,以決定系數(shù)(R2)、均方根誤差(RMSE)和RPD值作為評價指標進行驗證。結果如下表,發(fā)現(xiàn)蛋白質在經(jīng)過MSC預處理后的模型最好,決定系數(shù)為0.863 5和0.827 5,RMSEC為0.511,RMSEP為0.574,MSC預處理可以有效消除散射水平不同帶來的光譜差異,從而增強光譜與數(shù)據(jù)間的相關性,該方法可以通過理想光譜修正光譜的幾線平移和偏移現(xiàn)象,在這種預處理下的建立的蛋白質模型較好。水分在不經(jīng)過任何預處理下建立的模型最好相關系數(shù)為0.908 9和0.878 5,RMSEC為0.291,RMSEP為0.379,預處理雖然可以減少噪聲,但也可能丟失一部分敏感信息,降低了其預測能力。
預處理為SNV時,可以有效的消除固體顆粒大小、表面散射和光程變化對漫反射光譜的影響。濕面筋模型在經(jīng)過SNV預處理后的建立的模型最好,相關系數(shù)為0.874 4和0.832 2,RMSEC為1.258,SEP為1.453,硬度指數(shù)經(jīng)過SNV預處理后的模型較好,相關系數(shù)為0.757 2和0.725 7,RMSEC為2.162,SEP為2.162。發(fā)現(xiàn)小麥的硬度指數(shù)預測模型低于其他模型,由于小麥的硬度指數(shù)與水分有著直接關系,本樣本水分含量范圍廣,建立預測模型難度較大。除了水分,其他小麥品質在經(jīng)過預處理后的模型建立效果良好。
表1 不同預處理方法小麥品質PLSR建模結果
由表2可以看出采用sigmoid函數(shù)為激勵函數(shù)時,再比較上述4種不同訓練算法時,發(fā)現(xiàn)利用GD算法和BR算法時,訓練時長較另外2種方法,訓練時間更長,利用BP-ANN建立模型,以校正集決定系數(shù)(R2)、交互驗證均方根誤差作為評價指標進行驗證。發(fā)現(xiàn)小麥的蛋白質、水分和硬度指數(shù)利用BR算法其模型更好其訓練集的Rc2分別達到0.875 7、0.955 1和0.723 7,預測集Rp2分別達到0.892 8、0.926 9和0.794 7,更適合回歸分析;濕面筋利用LM算法其模型更好,其訓練集的Rc2達到0.808 5,預測集Rp2達到0.743 6。由表2可知水分和濕面筋的預測集均方根誤差高于訓練集,可能產(chǎn)生的原因為訓練率太小,陷入局部最優(yōu),也可能學習率過大或者數(shù)據(jù)噪聲太大。同時發(fā)現(xiàn)蛋白質和硬度指數(shù)的預測集均方根誤差低于訓練集,產(chǎn)生的原因為數(shù)據(jù)集太小,數(shù)據(jù)集切分不均勻,也可能為模型正則化過多,訓練時dropout過多。
表2 不同訓練算法小麥品質BP-ANN模型結果
本研究采集不同產(chǎn)地和不同土壤環(huán)境下的動態(tài)小麥光譜信息進行分析,結合PLSR和BP-ANN建立預測模型。
利用動態(tài)可見/近紅外光譜分析技術,傳送帶在0.1m/s速度下獲得的動態(tài)光譜,發(fā)現(xiàn)可以實現(xiàn)在動態(tài)環(huán)境下對小麥品質的定量分析;利用PLS算法,對獲取的動態(tài)小麥光譜數(shù)據(jù)建立蛋白質、水分、濕面筋和硬度指數(shù)的預測模型,結果表明蛋白質在經(jīng)過MSC預處理后的模型最好,水分在不經(jīng)過任何預處理下建立的模型最好,濕面筋和硬度指數(shù)模型在經(jīng)過SNV預處理后建立的模型最好。利用BP-ANN算法,對獲取的動態(tài)小麥光譜數(shù)據(jù)建立蛋白質、水分、濕面筋和硬度指數(shù)的預測模型,比較4種不同的訓練算法對模型的影響,發(fā)現(xiàn)利用BR算法,可以建立良好的蛋白質、水分、硬度指數(shù)的模型,利用LM算法可以建立良好濕面筋的模型。通過研究發(fā)現(xiàn)基于深度學習的建模方法對于可見/近紅外光譜分析有著重要的意義。本研究發(fā)現(xiàn),利用動態(tài)光譜建立的PLS和BP-ANN模型可以快速、有效的得到小麥的主要品質參數(shù)。