馬 淏,張 開,姬江濤*,金 鑫,趙凱旋
1. 河南科技大學(xué)農(nóng)業(yè)裝備工程學(xué)院,河南 洛陽 471003 2. 機械裝備先進制造河南省協(xié)同創(chuàng)新中心,河南 洛陽 471003
雙孢蘑菇富含蛋白質(zhì)、氨基酸、多糖以及多種礦物質(zhì)元素,備受廣大消費者喜愛[1-3]。雙孢蘑菇的新鮮度是大多數(shù)消費者購買時考慮的重要因素?,F(xiàn)有鑒別方式大多通過其外觀品質(zhì)特征對不同新鮮度的雙孢蘑菇進行區(qū)分,作為貯藏、銷售的依據(jù)。而低溫恒濕環(huán)境下保存的雙孢蘑菇在一定存儲天數(shù)內(nèi)其新鮮度很難通過其外部變化進行判斷,因此亟需一種雙孢蘑菇新鮮度量化檢測方法,對于其存儲與銷售具有重要指導(dǎo)意義。
近年來,基于光譜分析技術(shù)的雙孢蘑菇營養(yǎng)成分檢測、保鮮以及硬度分析得到了廣泛應(yīng)用,劉燕德等[4]使用拉曼光譜技術(shù)建立了不同成熟度的雙孢蘑菇硬度無損檢測模型,結(jié)果表明直徑為3~5 cm的樣本可預(yù)測性更佳,預(yù)測集精度達到89.6%。孟德梅等[5]開展了雙孢菇采后感官品質(zhì)變化因素分析與保鮮技術(shù)研究,對雙孢菇采后品質(zhì)變化因素進行了系統(tǒng)概述。劉燦等[6]使用原子發(fā)射光譜技術(shù)對不同成熟度的雙孢蘑菇主要營養(yǎng)元素與礦物質(zhì)進行了分析,發(fā)現(xiàn)直徑在3 cm以下的雙孢菇富含蛋白質(zhì)以及礦物質(zhì)元素,具有更高的營養(yǎng)價值。上述研究在鑒別雙孢蘑菇內(nèi)外部品質(zhì)方面取得了一定的研究成果,但對于存儲過程中雙孢蘑菇新鮮度的量化檢測研究仍有不足。
近紅外光譜技術(shù)(near infrared reflectance spectroscopy,NRS)具有分析速度快、效率高、測試重現(xiàn)性好、適用范圍廣、對樣品無損傷等優(yōu)點,該技術(shù)在農(nóng)產(chǎn)品及食品檢測中已得到廣泛應(yīng)用[7-8]。王文秀等[9]利用近紅外光譜技術(shù)對豬肉新鮮度進行檢測,分別使用模擬退火算法和粒子群優(yōu)化算法作嶺參數(shù)尋優(yōu),進行嶺回歸運算,相關(guān)系數(shù)分別為98.19%和97.81%。周嬌嬌等[10]使用近紅外光譜技術(shù)對團頭魴新鮮度進行新鮮度檢測,在使用競爭性自適應(yīng)重加權(quán)算法提取特征波長的基礎(chǔ)上采用多元線性回歸分類方法,識別精度最高達到93.88%。段宇飛等[11]基于近紅外光譜技術(shù),使用非線性降維局部線性嵌入算法對原始光譜降維,建立了LLE-SVM雞蛋新鮮度檢測模型,訓(xùn)練集檢測精度達到91.1%。以上研究表明近紅外光譜技術(shù)在農(nóng)產(chǎn)品新鮮度檢測方面具有重要研究價值。目前,關(guān)于近紅外光譜分析技術(shù)在雙孢蘑菇新鮮度量化檢測中的應(yīng)用尚未見報道。
本文提出一種基于近紅外光譜技術(shù)的雙孢蘑菇新鮮度量化檢測方法。以雙孢蘑菇貯藏天數(shù)作為其新鮮度量化評價指標,對預(yù)處理后的原始光譜分別使用主成分分析以及連續(xù)投影算法完成數(shù)據(jù)降維,基于極限學(xué)習(xí)機分類器結(jié)合不同優(yōu)化算法構(gòu)建預(yù)測模型,以期能在保證預(yù)測精度的同時有效提高檢測速度。
實驗選用當天采摘的新鮮A類雙孢菇,2020年7月購于洛陽市奧吉特食用菌工廠并采用分層、分塊包裝且恒溫箱內(nèi)低溫保存快速運至實驗室。選擇海洋光學(xué)4000+近紅外光纖光譜儀,有效光譜范圍為345.89~1 040.49 nm,光譜間隔為0.21 nm,共計3 648個波段。
篩選出200個菇蓋直徑4 cm且無表面應(yīng)力損傷、菇體開裂的樣本,在潔凈的工作臺處理后,將樣本分為1~5組,每組40個樣本。各組實驗樣本模擬超市保存條件,放置在0 ℃恒溫恒濕試驗箱中貯藏,每天依次從1~5組恒溫箱內(nèi)取出40個雙孢蘑菇樣本,使用近紅外光譜儀進行光譜數(shù)據(jù)采集,每次實驗前光譜儀預(yù)熱20 min,單個樣品數(shù)據(jù)采集時間歷時30 s,實驗歷時5 d。
在近紅外光譜信號采集過程中,受電源穩(wěn)定狀態(tài)、采集角度等因素影響,獲得的光譜數(shù)據(jù)存在不同程度的噪聲干擾。故選用SG平滑濾波與MSC校正的方式消除原始光譜噪聲、基線平移以及光散射的影響。此外,光譜數(shù)據(jù)在采集初始與結(jié)束階段,光譜波動較大,噪聲明顯,為避免這一影響,故選取399.81~999.81 nm作為數(shù)據(jù)處理范圍,原始光譜及校正后的光譜如圖1所示。
圖1 光譜預(yù)處理(a): 原始光譜; (b): 平滑+多元散射校正Fig.1 Spectral pretreating(a): Original spectra; (b): Smoothing+MSC
算法流程如圖2所示,首先使用連續(xù)投影算法對原光譜進行降維處理,優(yōu)選最優(yōu)光譜波段組合; 然后將降維后的優(yōu)選光譜組合輸入到不同分類模型中,進行分類預(yù)測。利用分類準確率作為模型的評價指標,其定義如式(1)所示。
圖2 算法流程圖Fig.2 Flowchart of data processing
(1)
式(1)中,X為測試集樣本數(shù)量,Xi為第i類識別分類正確的樣本數(shù)量。
1.3.1 數(shù)據(jù)降維算法
連續(xù)投影算法(SPA)是一種前向循環(huán)特征選擇方法[12],通過分析迭代向量的投影,使變量之間的共線性達到最小,最終優(yōu)選出最優(yōu)波長組合M及最佳波長變量數(shù)N。SPA具體計算步驟如下:
(1)迭代開始前,設(shè)定循環(huán)次數(shù)N,在全光譜Xm×p(m個樣本,每個樣本有p個波長數(shù)據(jù))下,任選一光譜波長不同樣本數(shù)據(jù)記為列向量xi,未選列向量記為集合
S{i, 1≤i≤p,i?{k(0),k(1), …,k(n-1)}}
(2)逐個計算Xi在剩余列向量上投影
(3)記錄、提取最大投影向量的光譜波長
q(n)=arg(max(‖Pxi‖)),i∈S
(4)令:Xi=Pxi,i∈S;
(5)令i=i+1,如果i (6)最后,提取出的特征波長變量集合為 M={Xq(i);i=1, 2, …,N-1} 連續(xù)投影算法在全波段下提取的特征波長,能夠最大限度消除原始光譜數(shù)據(jù)矩陣中的冗余信息,建模過程中,能夠顯著提高模型計算的準確率、運算速度以及模型的穩(wěn)定性。 1.3.2 分類器 極限學(xué)習(xí)機(ELM)算法最早由Huang等針對傳統(tǒng)神經(jīng)網(wǎng)絡(luò)容易陷入局部最優(yōu)解、參數(shù)設(shè)置多、訓(xùn)練時間長等固有缺點提出的一種單隱含層前饋神經(jīng)網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)算法[13]。ELM訓(xùn)練模型內(nèi)的輸入層與隱含層間的連接權(quán)值以及隱含層神經(jīng)元閾值是隨機生成的,其模型預(yù)測精度主要由隱含層節(jié)點個數(shù)決定,因此ELM具有極快的學(xué)習(xí)速度以及泛化性。但是在給定模型參數(shù)下,存在隨機數(shù)值為0的情況,導(dǎo)致隱含層的輸出矩陣不為滿秩,進而使部分隱含層神經(jīng)元節(jié)點失效,最終造成模型預(yù)測精度較低、穩(wěn)定性較差的后果。 粒子群優(yōu)化(PSO)是一種常用的尋優(yōu)算法,是通過控制種群規(guī)模、速度、以及運動方向計算得到局部最優(yōu)解,進而得到全局最優(yōu)解的過程。 海鷗優(yōu)化算法(SOA)是一種新穎的生物啟發(fā)式元啟發(fā)算法,其模仿自然界中海鷗的遷徙和攻擊行為,采用仿生智能算法進行參數(shù)尋優(yōu),目前已廣泛用于函數(shù)優(yōu)化、約束優(yōu)化等問題[14]。SOA有較好的尋優(yōu)能力,能夠為學(xué)習(xí)模型尋找最優(yōu)的初始值,從而得到最優(yōu)的ELM訓(xùn)練模型,SOA-ELM算法流程如圖3所示。 圖3 SOA優(yōu)化ELM算法流程圖Fig.3 The flowchart of the ELM algorithm optimized with SOA 為實現(xiàn)對雙孢蘑菇新鮮度快速精準的檢測,本研究分別采用主成分分析(PCA)和SPA特征波長選擇的方式對原始光譜數(shù)據(jù)進行降維處理,最后通過對比分析模型找出最優(yōu)的解決方案。 主成分分析是常用的一種數(shù)據(jù)壓縮特征提取方法,其優(yōu)勢在于簡化原始高維變量的同時能最大限度保留原始數(shù)據(jù)的信息。采用主成分分析法對雙孢蘑菇原始光譜數(shù)據(jù)進行降維分析,樣品在主成分空間的分布如圖4所示。 圖4 主成份分析結(jié)果Fig.4 Results of principal component analysis 從圖中可以看出前三個主成分的貢獻率分別為72.03%,15.33%和5.35%,累計貢獻率為92.89%,故可以認為三個主成分能夠較好的代表原始光譜數(shù)據(jù)信息。此外,由散點圖的分布可知,主成分分析法能有效區(qū)分樣本的新鮮度,其中,第1天與第5天的聚合效果最好,區(qū)分度最高,這與第1天與第5天的樣本差異性較大緊密相關(guān)。此外,由于樣本本身差異的不明顯及奇異值的存在導(dǎo)致第2天到第4天的樣本出現(xiàn)個別樣本重合,聚合效果相對較差,但主體部分仍有顯著的區(qū)分度。故通過主成分分析結(jié)果可以看出,所選擇樣品具有明確的可分性,且效果較好。 實驗所用儀器為高分辨率近紅外光譜分析儀,波長較多,共計3 416個波段,若將所有波段輸入分類模型,波長間冗余信息繁雜,不僅輸入量大,訓(xùn)練時間過長,而且精度較低。SPA算法是通過最小化變量間共線性來選擇最優(yōu)波長組合,若通過SPA特征提取的降維方式對原始光譜提取特征波長,則所提取的特征波長具有相互獨立、互不影響的特點且優(yōu)化波長組合能有效代表全光譜的數(shù)據(jù)特征。故選用SPA算法對原光譜進行降維處理,圖5是采用SPA算法對預(yù)處理光譜提取的特征波長組合。 圖5 優(yōu)選特征波長分布Fig.5 Preferred characteristic wavelength distribution 對所采集的200條光譜曲線,隨機選擇160個樣本為訓(xùn)練集,40個為測試集,以不同天數(shù)的雙孢蘑菇為輸出,根據(jù)測試集的內(nèi)部交叉驗證均方根誤差值作為篩選波長組合的選擇標準。從圖5可以看出,SPA算法提取最佳波長組合為: {556.87,445.51,481.15,885.10,802.25,720.90,861.34,909.79,905.58,924.44,873.17,879.06} nm,共計12個特征波長,RMSE為0.124 3,而近紅外光譜儀在光譜采集過程中具有連續(xù)性的特點,相鄰較近的波長具有一定的關(guān)聯(lián)關(guān)系,因此可以選擇相鄰間隔較小波長組內(nèi),重要性較高的波長,作為該波段范圍內(nèi)最終選定波長。因此,最終選擇特征波長為{556.87,445.51,481.15,885.10,802.25,720.90,861.34,909.79,924.44,873.17} nm,共計10個波段,其重要性依次遞減,特征數(shù)量占原始全光譜的0.32%。此外,通過觀察所選特征波長的分布可以看出,可見光波段范圍內(nèi)的特征波長數(shù)為3,近紅外短波波段內(nèi)的特征波長數(shù)為9,說明近紅外短波波段對雙孢菇新鮮度檢測貢獻值更大,并且特征波長選擇多集中在900 nm處,這是因為特征波長在910 nm處對C—H鍵延伸具有吸收特性,說明雙孢蘑菇貯藏過程中蛋白質(zhì)在分解消耗。 利用訓(xùn)練集160個樣本的光譜數(shù)據(jù)以及天數(shù)進行分類,使用SPA+SOA-ELM算法建立雙孢蘑菇新鮮度檢測的分類模型,以分類的準確度作為評價準則。分別與全光譜+ELM、PCA+ELM、SPA+ELM和SPA+PSO-ELM進行對比,考慮到ELM分類模型存在一定隨機性,取5次運行結(jié)果的平均值作為最終預(yù)測精度,得到的測試集分類結(jié)果對比如圖6—圖10所示。 圖6 全光譜+ELM檢測結(jié)果Fig.6 Full spectroscopy and ELM detection results 圖7 PCA+ELM檢測結(jié)果Fig.7 PCA+ELM detection results 圖8 SPA+ELM檢測結(jié)果Fig.8 SPA+-ELM test results 圖9 SPA+PSO-ELM檢測結(jié)果Fig.9 SPA+PSO-ELM test results 圖10 SPA+SOA-ELM檢測結(jié)果Fig.10 SPA+SOA-ELM test results 為了比較不同預(yù)處理方式與分類算法的優(yōu)劣,將模型參數(shù)設(shè)置和測試結(jié)果統(tǒng)計如表1所示。從表1可以看出,PCA+ELM模型測試集結(jié)果最佳,分類準確率為95%; 以SPA選擇特征為輸入的SOA+ELM、PSO+ELM與ELM分類模型識別準確率分別為94%,92.5%和88%; 而全光譜+ELM分類準確率最低為75%。由此可知,通過使用PCA提取主成份或SPA算法提取特征波長作為訓(xùn)練集輸入時,其測試集精度均遠高于全光譜訓(xùn)練模型,這是由于通過對樣品分類選取合適的特征,能有效降低樣本特征的維度和冗余性,增強了變量與因變量的關(guān)系。 表1 模型測試結(jié)果對比表Table 1 Comparison results of the classificationmodel testing 對于以SPA選擇特征為輸入的SOA+ELM、PSO+ELM、ELM算法來說,后兩者模型相較于前者模型分別提高了5.1%和6.8%的識別精度,體現(xiàn)了元啟發(fā)式算法具有較好的全局尋優(yōu)能力,能夠為ELM模型尋找較優(yōu)的初始值。此外,也可以看出,SOA優(yōu)化后的模型測試精度略高于PSO優(yōu)化模型,且PSO訓(xùn)練集準確度高于測試集精度,存在過擬合現(xiàn)象。由此可知,PSO算法尋優(yōu)過程依賴于參數(shù)設(shè)定,局部搜索能力較差、搜索精度不高,粒子在俯沖過程中可能錯失全局最優(yōu)解,而海鷗優(yōu)化算法在全局搜索過程中,是根據(jù)當前最佳位置計算新位置、方向,并且在搜索過程中不斷改變更新、尋找最佳位置和適應(yīng)度值,表明SOA算法較優(yōu)的魯棒性。 由上述分析可知,在所有模型中,以PCA+ELM模型結(jié)果最佳,這是由于PCA提取主成份是通過構(gòu)建全波段不同權(quán)重比例系數(shù)得出新特征的過程,能夠最大限度保證原始光譜信息,同時去除冗余信息,但是以全光譜作為輸入計算主成份過程計算量大、建模效率低,不利于便攜式光譜儀的發(fā)展,而SPA+SOA-ELM模型輸入僅為10個特征波長,建模速度快且精度較高,為研制新型便攜式的光譜儀提供了理論依據(jù)。 (1)分析特征波長分布,可見光波段內(nèi)的特征波長數(shù)為3,近紅外短波波段內(nèi)特征波長數(shù)為9,可知近紅外短波區(qū)域的特征波長數(shù)量多于可見光區(qū)域,表明該處特征波長對雙孢蘑菇新鮮度量化檢測的貢獻最大,也反映了雙孢蘑菇貯藏過程中蛋白質(zhì)成分變化較多。 (2)開展了基于近紅外光譜的雙孢蘑菇新鮮度量化檢測方法研究,提出以貯藏天數(shù)作為雙孢蘑菇新鮮度量化評判的綜合指標。基于SG+MSC方法對雙孢蘑菇原始光譜預(yù)處理的基礎(chǔ)上,分別使用PCA和SPA算法對原光譜數(shù)據(jù)進行降維處理,繼而通過比較全光譜+ELM、PCA+ELM、SPA+ELM、SPA+PSO-ELM和SPA+SOA-ELM模型可知,降維處理后的訓(xùn)練集和測試集精度均顯著高于全光譜。 (3)為了提高模型檢測速度,基于統(tǒng)計學(xué)方法,探索了可見-近紅外短波光譜預(yù)測雙孢菇新鮮度的有效方式,其中,SPA+SOA-ELM在全光譜3416個波長下提取了10個有效波長,進而基于SOA-ELM建立了雙孢菇新鮮度檢測模型,該模型訓(xùn)練集和測試集的正確率分別為93.25%和94%,該結(jié)果與采用主成分分析法基本保持一致,但極大的減少了計算量。故SPA+SOA-ELM成功用于雙孢蘑菇新鮮度的量化檢測,為進一步開發(fā)快速、便攜式及無損雙孢菇新鮮度量化檢測儀器提供了理論依據(jù)。2 結(jié)果與討論
2.1 主成分分析
2.2 SPA特征波長選擇
2.3 分析模型對比
3 結(jié) 論