劉海龍,倪 金,索麗敏
(黑龍江八一農(nóng)墾大學(xué),黑龍江大慶 163319)
枸杞是目前最具發(fā)展?jié)摿Φ乃幨硟捎妙惤?jīng)濟(jì)植物,因其含有豐富的營養(yǎng)價(jià)值和藥用價(jià)值而得到消費(fèi)者的普遍接受和信賴,在全國乃至全世界都享有極高的聲譽(yù)[1]。目前,我國枸杞主產(chǎn)區(qū)的絕大多數(shù)栽培品種均引自寧夏枸杞系列品種[2]。研究表明,不同品種或不同產(chǎn)地的枸杞子在多酚、糖類、維生素、氨基酸等化學(xué)成分含量等方面具有較大差異[3-6]。例如,祿璐等[7]研究發(fā)現(xiàn),46個(gè)枸杞原漿產(chǎn)品的主要成分與口感、風(fēng)味具有相關(guān)性;蔣蘭等[8]研究得出多種活性成分能明顯提升枸杞子品質(zhì),如枸杞多糖含量可作為枸杞果酒釀造工藝的衡量指標(biāo)[9],枸杞的營養(yǎng)成分是其藥用價(jià)值的評價(jià)指標(biāo)之一[10]。因此,對不同品種枸杞子進(jìn)行快速、準(zhǔn)確判別,有利于根據(jù)不同枸杞子品種的差異有針對性地開展枸杞資源的利用,提高資源利用率。目前有關(guān)枸杞子分類方面的研究較少。
近紅外光譜是一種介于可見光和中紅外間的電磁波,波長為780~2 526 nm,該區(qū)域的波長能夠記錄C-O、O-H和N-H等化學(xué)鍵振動的倍頻和合頻吸收信息,可以作為獲取信息有效載體對含氫基團(tuán)有機(jī)物的理化性質(zhì)進(jìn)行測量,且可實(shí)現(xiàn)對樣品快速、無損的檢測,現(xiàn)已廣泛運(yùn)用于各農(nóng)產(chǎn)品研究中[11-12]。但光譜數(shù)據(jù)中還包含噪聲、基線漂移采樣環(huán)境干擾等不穩(wěn)定因素,會導(dǎo)致建立模型的精度下降,因此還需要提前對光譜數(shù)據(jù)進(jìn)行預(yù)處理,提高光譜數(shù)據(jù)信噪比和分辨率,從而提高模型預(yù)測的準(zhǔn)確度。
Keras是一種主流的神經(jīng)網(wǎng)絡(luò)框架,其采用Python編寫,高度封裝,能夠在TensorFlow、CNTK或Theano之上運(yùn)行,用戶可以用最小的時(shí)間獲得最優(yōu)的實(shí)驗(yàn)結(jié)果,大大降低了神經(jīng)網(wǎng)絡(luò)的使用門檻,減少了構(gòu)建網(wǎng)絡(luò)所耗費(fèi)的時(shí)間與精力。目前,該神經(jīng)網(wǎng)絡(luò)框架在醫(yī)學(xué)、自動駕駛、人臉識別等眾多領(lǐng)域都有使用[13-15]。
用于實(shí)驗(yàn)的枸杞子為產(chǎn)地市購買,分別為中寧1號、中寧7號、小尖椒(中寧)、青海板型、青海條形,青海1號6個(gè)品種。將枸杞子樣品進(jìn)行除雜、干燥后,每個(gè)品種選取20粒作為一份樣品,得到青海1號104份、青海板型104份、青海條形106份、小尖椒(中寧)106份、中寧1號106份、中寧7號122,共計(jì)648份樣品。將樣本置于近紅外光譜實(shí)驗(yàn)室靜置24 h后進(jìn)行掃描。
采樣儀器為Bruker公司生產(chǎn)的TANGO近紅外光譜儀,測量波數(shù)為11 550~3 950 cm-1,測量樣本的吸光度。每個(gè)樣品單獨(dú)掃背景,后掃描32次選取平均光譜作為研究樣本。將樣品數(shù)據(jù)按照7∶3的比例隨機(jī)分為訓(xùn)練集和驗(yàn)證集,劃分后訓(xùn)練集和測試集樣本數(shù)據(jù)量分別為454個(gè)和194個(gè),結(jié)合Keras框架進(jìn)行枸杞子品種鑒別研究。
由于樣本在掃描過程中極易受到檢測環(huán)境、儀器、顆粒大小不均勻和自身因素的影響,使光譜數(shù)據(jù)質(zhì)量下降,產(chǎn)生基線漂移、噪聲、尺度差異等一系列問題,造成模型精度下降。因此對數(shù)據(jù)分別進(jìn)行多元散射校正(MSC)、標(biāo)準(zhǔn)正態(tài)變換(SNV)、移動平均平滑(MA)、標(biāo)準(zhǔn)化(SS)、Savitzky-Golay平滑濾波(SG)、最大最小歸一化(MMS)以及均值中心化(Zero-centered)預(yù)處理,提高信噪比和分辨率,讓模型更具有穩(wěn)健性。通過不同方法預(yù)處理后的光譜圖如圖1所示。
圖1 不同方法預(yù)處理后的光譜圖
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)的學(xué)習(xí)能力很強(qiáng),且對于許多非線性問題有極強(qiáng)的映射能力和容錯性[16]?;诜聪騻鞑ニ惴ǎ˙P)的神經(jīng)網(wǎng)絡(luò)作為ANN重要組成部分,在涉及多種非線性因素建模時(shí),相對于傳統(tǒng)的反應(yīng)機(jī)理建模顯示出巨大的優(yōu)勢[17]?;贙eras框架搭建模型1:輸入層—3個(gè)隱藏層(8)—輸出層(6)以及模型2:輸入層—3個(gè)隱藏層(16)—輸出層(6)的全連接反向傳播神經(jīng)網(wǎng)絡(luò)模型見圖2,使用Sgd隨機(jī)梯度下降法學(xué)習(xí)率為0.05,隱藏層均采用rule激活函數(shù)。面對多分類問題將輸出層激活函數(shù)設(shè)置為softmax,每批次輸入數(shù)據(jù)尺寸為100,損失函數(shù)為交叉熵(CrossEntropy Loss),設(shè)置訓(xùn)練迭代次數(shù)為10 000次。
圖2 神經(jīng)網(wǎng)絡(luò)模型
使用Python語言和Keras框架分別建立了模型1:3個(gè)隱藏層(8)—輸出層(6),以及模型2:3個(gè)隱藏層(16)—輸出層(6)的神經(jīng)網(wǎng)絡(luò)模型,將通過不同方法預(yù)處理后的數(shù)據(jù)輸入模型訓(xùn)練得到結(jié)果如圖3所示。
圖3 神經(jīng)網(wǎng)絡(luò)模型預(yù)測不同方法預(yù)處理后的枸杞數(shù)據(jù)
分析可知,通過標(biāo)準(zhǔn)化(SS)預(yù)處理后的數(shù)據(jù)在模型1中準(zhǔn)確率達(dá)到了100%,而在模型2中經(jīng)最大最小歸一化(MMS)和標(biāo)準(zhǔn)化(SS)方法預(yù)處理后的數(shù)據(jù)測試結(jié)果準(zhǔn)確度均能達(dá)到100%,證實(shí)了該方法的有效性。
通過對自采的6種不同枸杞子品種的光譜數(shù)據(jù)進(jìn)行7種不同方法預(yù)處理后分別輸入復(fù)雜度不同的兩個(gè)Keras搭建的神經(jīng)網(wǎng)絡(luò)模型,最終模型對枸杞品種的鑒別準(zhǔn)確度達(dá)到100%,能夠滿足枸杞品種鑒別的實(shí)際需求。通過SS和MMS兩種預(yù)處理方法均能增大不同品種之間光譜圖的差異,有效提高了近紅外光譜預(yù)測模型的準(zhǔn)確性和魯棒性,為快速無損檢測枸杞品種提供了一種新方法。