馬羚凱,祝詩平,苗宇杰,魏 梟,李 松,蔣友列,卓佳鑫
西南大學工程技術學院,重慶 400716
當前全球有機食品行業(yè)飛速發(fā)展,消費者對有機食品的需求量與日俱增[1]。 考慮到食品質量安全等問題,人們更愿意去購買有機食品。 我國作為農業(yè)大國,有機農業(yè)雖處于規(guī)范快速發(fā)展階段[2],但隨著人們開始更加重視食品安全問題以及國家對于有機食品管理與認證相關政策出臺,中國有機食品消費量將會得到顯著提高。 有機食品種類繁多,包括有機蔬菜、有機雞蛋等。 其中有機雞蛋的生產對環(huán)境、飼料、蛋雞福利等提出了更高的要求[3-4],相比于普通飼料養(yǎng)殖生產的雞蛋,有機雞蛋由于生產條件嚴格苛刻價格也更高,部分不法商販以普通雞蛋冒充有機雞蛋以謀取暴利。 因此,迫切需要一種穩(wěn)定可靠的方法對市面上存在的有機雞蛋與普通雞蛋進行鑒別。 目前,市場上針對有機雞蛋與普通雞蛋的鑒別方法主要是通過感官觀察雞蛋的大小和顏色,或者通過破壞蛋殼后觀察雞蛋內部蛋殼和蛋清。 由于雞蛋蛋殼顏色受生產季節(jié)、飼料營養(yǎng)、動物疾病等多方面影響[5],所以通過雞蛋外觀進行鑒別準確率并不可靠。 有研究通過破壞性檢測的方法發(fā)現(xiàn),與普通雞蛋相比有機雞蛋在蛋黃比例、蛋黃色澤和哈氏單位上有更好的質量。 Giannenas, Borges等[6-7]研究指出有機雞蛋與普通雞蛋中一些宏觀或微量元素存在差異,并建立了鑒別模型。 Bologa等[8]對有機雞蛋和普通雞蛋的重金屬含量進行分析,得出結論有機雞蛋的重金屬含量低于普通雞蛋,同時蛋清中的重金屬含量也低于蛋黃。 Rogers等[9]指出通過穩(wěn)定同位素對有機雞蛋和普通雞蛋鑒別的有效性,并給出了荷蘭與新西蘭的有機雞蛋的穩(wěn)定氮同位素最小百分比標準以評估其真實性。 Ruth[10]等通過分析類胡蘿卜素對籠養(yǎng)雞蛋、散養(yǎng)雞蛋、有機蛋的識別正確率分別達到84%,100%和100%。 Ackermann等[11]指出飼料對雞蛋蛋黃脂肪含量影響較大,通過核磁共振光譜建立有機雞蛋和普通雞蛋鑒別模型,對有機雞蛋的正確鑒別率約93%。 Puertas等[12]提取了有機雞蛋和普通雞蛋的蛋黃脂質,通過對UV-VIS-NIR光譜數(shù)據(jù)進行QDA判別分析,鑒別的準確率達到100%。 上述研究均是通過破壞雞蛋樣本提取內部物質進行分析,對于如何無損鑒別有機雞蛋的相關研究較少。
高光譜成像作為一種無損鑒別技術已廣泛運用于地質礦產、水質監(jiān)測、農業(yè)研究、植被覆蓋等領域,其具有將樣本的光譜信息與空間信息相結合的優(yōu)點,在對農產品內部品質檢測等方面已經有許多的應用。 Mahesh等[13]對高光譜技術用于農產品分類和品質評估等方面的運用進行了評價,指出其存在的局限性。 Zhang[14]和潘慶磊[15]等運用高光譜技術對早期雞蛋新鮮度、內部氣泡、蛋黃形態(tài)等進行了無損檢測。 通過文獻分析可知,有機雞蛋在維生素、礦物質含量等內部成分上均有別于普通雞蛋,兩者在透射光譜值響應上會存在差別。 通過高光譜技術有可能實現(xiàn)有機雞蛋與普通雞蛋的無損鑒別,本研究通過高光譜成像技術建立有機雞蛋與普通雞蛋的無損鑒別模型。
有機雞蛋分別購于重慶市萬源禽蛋食品有限公司、池州市長山生態(tài)農業(yè)旅游開發(fā)有限公司、青陽縣森泉農業(yè)發(fā)展有限公司、蕪湖市菩提樹商貿有限公司、安徽省景湖農業(yè)股份有限公司各120枚,以上公司均持有有效期內的有機產品認證證書。 分別從本地各農貿市場、超市等五個不同攤位各購買120枚普通雞蛋,共購得有機雞蛋和普通雞蛋各600枚。 用清水擦洗雞蛋表面污漬并晾干后將雞蛋樣品放置于鹵素燈光源上觀察,剔除因運輸導致表面出現(xiàn)裂紋或表面具有頑固性殘留物質的雞蛋樣品,存放至生產日期后第五天進行高光譜數(shù)據(jù)采集。 最終從各個品牌或來源的雞蛋樣本中各隨機取出100枚完整雞蛋,共1 000枚雞蛋完成數(shù)據(jù)采集。
高光譜成像系統(tǒng)的實物圖與架構圖分別如圖1(a)和(b)所示。 主要硬件包括由高光譜相機(Raptor EM285CL)、光譜儀(Imspector V10E,測量波長范圍364~1 025 nm,光譜分辨率2.8 nm)、可變焦鏡頭、150 W鹵素可調燈光源、線性光導管、步進馬達移動平臺和計算機等,除計算機外整套裝置放置在黑箱內。 安裝在計算機上的主要軟件包括由五鈴光學提供的圖像采集軟件Spctral-image,圖像分析軟件HIS Analyzer。
圖1 實驗室高光譜系統(tǒng)(a): 系統(tǒng)實物圖;(b): 系統(tǒng)架構圖Fig.1 Hyperspectral system in laboratory(a): Physical image of system; (b): Architecture drawing of system
由于雞蛋具有良好的光透性,且為獲取雞蛋內部物質的光譜信息,試驗采用透射的架構對樣本進行成像。 為保證所采集的數(shù)據(jù)具有代表性,所有雞蛋樣品均在相同的條件下橫向放置進行成像。 經預試驗,最終確定高光譜成像系統(tǒng)相機曝光時間為48 ms,鏡頭到樣本的工作距離為0.34 m,移動平臺速度為1.12 mm·sec-1,所有雞蛋樣品采集正反不同兩面的數(shù)據(jù),共測得2 000個高光譜數(shù)據(jù)。 在圖像分析軟件HISAnalyzer中分別對每個雞蛋的高光譜圖像數(shù)據(jù)進行黑白板校正,校正公式如式(1)
(1)
式(1)中,R為校正后的透射率圖像,R0為原始高光譜圖像,RD為蓋上鏡頭得到的黑板圖像,RW為使光源完全不受遮擋進入鏡頭得到的白板圖像。 黑白校正用來消除相機暗電流的影響,同時將原始高光譜圖像的光譜值轉換為透射率。
使用ENVI 5.3軟件對采集到的雞蛋高光譜數(shù)據(jù)進行初步處理。 圖2(a)為采用雞蛋高光譜數(shù)據(jù)中651,550和449 nm三個波段合成的RGB真彩色圖像。 因為橫向放置的雞蛋蛋黃總是飄浮在蛋清上方且集中在雞蛋短軸與長軸的交點處,為了分別研究雞蛋蛋清區(qū)域與蛋黃區(qū)域的高光譜數(shù)據(jù)對雞蛋類別鑒別的影響,對圖像進行線性拉伸變換,如圖2(b)所示。 根據(jù)線性拉伸的圖像人工手動分別在沿雞蛋長軸方向上的蛋清和蛋黃區(qū)域內選取出28×28大小像素點的ROI (region of interest) 區(qū)域,如圖2(c)紅色方塊區(qū)域所示。 將選取出的ROI區(qū)域數(shù)據(jù)導入到MATLAB 2019b中進行均值化處理,得到所有雞蛋樣本蛋清與蛋黃的ROI區(qū)域兩組高光譜數(shù)據(jù)。
圖2 樣本高光譜成像圖(a): 原始高光譜圖像;(b): 線性拉伸后的圖像; (c): 選取的感興趣區(qū)域Fig.2 Hyperspectral image of sample(a): Raw hyperspectral image;(b): Linear stretched image; (c): The selected region of interest
1.5.1 偏最小二乘判別分析
偏最小二乘判別分析(partial least squares discriminant analysis, PLS-DA)是一種結合了化學計量學中最常用的多元線性回歸(multiple linear regression, MLR)與主成分分析(principal components analyse, PCA)用于定性分析的方法[16],有效地避免了光譜變量之間因為存在的多重共線性而導致求得的回歸系數(shù)不穩(wěn)定的問題。 通過對光譜自變量和因變量數(shù)據(jù)矩陣進行PCA變換,將原始光譜數(shù)據(jù)中大量信息集中在前幾個主成分中,并且各個主成分之間相互獨立,既解決了多重共線性問題又消除了原始數(shù)據(jù)中大量噪音信息。
1.5.2 支持向量機
支持向量機(support vector machine, SVM)是一種有監(jiān)督式的模式識別方法。 將原始光譜數(shù)據(jù)映射到一個高維特征空間,構建一個最佳分類超平面,使各類樣本的支持向量到此超平面的距離最大化。 SVM可以用于線性和非線性的多元分析問題,采用線性方程組代替二次規(guī)劃求解出支持向量。 通過選擇合適的核函數(shù),在實現(xiàn)非線性映射的同時保證建模的速度和效率[17],本試驗采用徑向基核函數(shù)(radial basis function, RBF)。
高光譜數(shù)據(jù)往往具有上百甚至上千個波長點,在提供關于樣品豐富信息的同時也給計算機存儲、傳輸和數(shù)據(jù)處理帶來了難題[18]。 從高光譜數(shù)據(jù)中提取出其光譜維信息來建模時,如果使用全波段光譜信息建立模型,會因為數(shù)據(jù)中存在的無信息變量而給模型帶來各種負面影響[19]。 通過降維算法從全波長范圍內挑選出對分類結果更有意義的波長變量,消除冗余波長,既能提升模型的預測準確率和建模計算效率,也可以減弱模型過擬合,提升模型的泛化能力。
1.6.1 連續(xù)投影算法
連續(xù)投影算法(successive projections algorithm, SPA)是用于多元校正分析中關于變量選擇的前向選擇算法,可以在向量空間中使用簡單的操作來最小化變量之間的共線性[20]。 從全波段的光譜數(shù)據(jù)中選擇出一個波段子集,不僅可以用來降低數(shù)據(jù)維度,有效縮短建模所需時間和復雜度,而且通過對波段數(shù)據(jù)的篩選,同時還可能去除大量噪聲波段和冗余信息,從而使模型鑒別準確率上升。
1.6.2 競爭性自適應重加權算法
競爭性自適應重加權算法(competitive adaptive reweighted sampling, CARS)已在多元校正模型中廣泛采用[22]。 CARS基于回歸系數(shù)的絕對值越大則變量越重要的原理,將蒙特卡羅采樣技術運用于樣本空間,建立大量子模型,保證了用于建模的隨機選取的樣本數(shù)量嚴格相同。 每次迭代中,通過指數(shù)遞減函數(shù)(exponentially decreasing function, EDF)和自適應重加權采樣(adaptive reweighted sampling, ARS)去除回歸系數(shù)均值較小的變量實現(xiàn)降維目的。
圖3(a)和(b)分別是樣本在蛋清與蛋黃的ROI的高光譜透射率曲線。 可以看到有機雞蛋和普通雞蛋有相似的曲線形狀,難以通過光譜曲線直接區(qū)分樣本。 圖3(c)和(d)分別是樣本的蛋清和蛋黃ROI區(qū)域像素點在364~1 025 nm波長范圍內的平均透射率光譜曲線。 可以看出,蛋黃區(qū)域的平均透射率值低于蛋清區(qū)域,且在多數(shù)波段處,有機雞蛋的平均透射率值低于普通雞蛋。 在蛋清區(qū)域的495~921 nm和蛋黃區(qū)域的510~939 nm波長范圍內樣本有透射光譜響應,在光譜曲線的兩端,兩種類別雞蛋的平均透射光譜響應值均較弱,因此認為在這些波長并不能對鑒別提供有用信息。 本試驗采用蛋清區(qū)域的495~921 nm和蛋黃區(qū)域的510~939 nm波長范圍數(shù)據(jù)作為原始數(shù)據(jù)分別進行建模分析。
從各個品牌雞蛋中隨機取50枚雞蛋的光譜數(shù)據(jù)和標簽數(shù)據(jù)作為訓練集,剩下50枚雞蛋相應的數(shù)據(jù)作為預測集,分別以雞蛋樣本蛋清與蛋黃ROI區(qū)域的平均原始高光譜數(shù)據(jù)作為模型輸入變量,根據(jù)模型輸出,當且僅當來自同一樣品雞蛋的數(shù)據(jù)具有相同輸出值時,才判定鑒定結果正確。 結果如表1所示。 在建立PLSDA模型之前對輸入光譜數(shù)據(jù)進行標準化處理,對蛋清區(qū)域數(shù)據(jù)的PLS-DA建模,模型訓練集的準確率為99.2%,在預測集的準確率為92.4%。 對蛋黃區(qū)域數(shù)據(jù)的PLS-DA建模,模型訓練集的準確率為98.4%,預測集的準確率為92.6%。 通過對輸入的光譜數(shù)據(jù)進行歸一化操作后建立SVM鑒別模型,采用RBF核函數(shù),SVM模型的懲罰系數(shù)c與gamma系數(shù)采用交叉驗證和網格搜索的方式進行優(yōu)化設置。 從表1可以看到,對蛋清區(qū)域數(shù)據(jù)的SVM建模,最優(yōu)懲罰系數(shù)c為212,gamma系數(shù)為2-3,模型在訓練集的準確率為100%,預測集的準確率為93.8%。 對蛋黃區(qū)域數(shù)據(jù)的SVM建模,最優(yōu)懲罰系數(shù)為222,gamma系數(shù)為2-12,模型訓練集的準確率為97.8%,預測集的準確率為93.6%。 可以看到PLS-DA與SVM模型在預測集的表現(xiàn)相近,后續(xù)試驗對蛋黃區(qū)域數(shù)據(jù)做進一步分析。
圖4(a)為樣本蛋黃數(shù)據(jù)通過50次蒙特卡羅采樣(monte carlo sampling, MC)依次降低光譜數(shù)據(jù)的波段數(shù)目曲線,圖4(b)顯示了隨著參與建模的波段數(shù)目減少,采用留一法(leave-one-out, LOO)PLS模型的交叉驗證誤差變化曲線。 可以看到隨著參與建模的波段數(shù)目減少,PLS模型的交叉驗證均方根誤差(root mean square error of crossvalidation, RMSECV) 在開始時有緩慢減小的趨勢,說明數(shù)據(jù)中存在大量冗余信息,剔除它們不僅沒有降低模型準確率,而且可以大量減少高光譜數(shù)據(jù)量。 當采樣次數(shù)從17次開始,以后每次采樣后建模,模型在訓練集的RMSECV逐步上升,說明攜帶有對模型預測準確率有用的信息的波段被剔除,降低了建模準確率。 此現(xiàn)象說明了對數(shù)據(jù)中存在大量冗余信息,可以對數(shù)據(jù)進行降維處理。
分別使用SPA和CARS對蛋黃區(qū)域數(shù)據(jù)進行降維,降維結果如圖5所示,在隨機選取的某個樣本光譜曲線上標記出了兩種降維算法計算后得到的波長。 其中SPA共選擇出23個波長,在圖中以方塊標記。 CARS共選擇出44個波長,在圖中以小叉標記。 使用降維后的數(shù)據(jù)建立鑒別模型,結果如表2所示。 可以看到,使用SPA選出的23個波長建立的SVM鑒別模型在預測集的準確率達到最高的94.2%。 使用CARS選出的44個波長建立的PLS-DA鑒別模型較使用原始數(shù)據(jù)建立的對應模型的準確率有所提高,但建立的SVM模型的鑒別準確率卻有所降低。 SPA不僅比CARS更有效地將樣本原始蛋黃區(qū)域數(shù)據(jù)降維到僅含23個波長點的信息,同時也使SVM模型的準確率稍有上升。 相較于用原始數(shù)據(jù)建模的結果,兩種降維方法對數(shù)據(jù)進行降維后再建模雖并沒有對模型的預測性能有很大的提升,但是對數(shù)據(jù)中存在的大量冗余信息進行了篩除,符合圖4(b)中曲線。
圖3 所有樣本在不同ROI中的光譜曲線與平均光譜曲線(a): 所有樣本的蛋清ROI的光譜曲線;(b): 所有樣本的蛋黃ROI的光譜曲線; (c): 所有樣本的蛋清ROI的平均光譜曲線;(d): 所有樣本的蛋黃ROI的平均光譜曲線Fig.3 The spectral curves and average spectral curves of all samples in different ROI(a): The spectral curves of all samples in albumen ROI;(b): The spectral curves of all samples in yolk ROI; (c): The average spectral curves of all samples in albumen ROI;(d): The average spectral curves of all samples in yolk ROI
表1 不同ROI區(qū)域的原始高光譜數(shù)據(jù)構建的模型的雞蛋類別的鑒別結果Table 1 The identification results of category of eggs using original hyperspectral data of different ROI
(1)通過采集五個品牌有機雞蛋和五種不同來源的普通雞蛋的高光譜透射數(shù)據(jù),提取雞蛋蛋清區(qū)域和蛋黃區(qū)域的光譜曲線,構建了基于高光譜技術的有機雞蛋和普通雞蛋的無損鑒別模型。 其中使用蛋黃區(qū)域510~939 nm的高光譜數(shù)據(jù)建立的PLS-DA和SVM模型的鑒別準確率均與使用蛋清區(qū)域495~921 nm的高光譜數(shù)據(jù)建立的模型的鑒別準確率相近,此后采用蛋黃區(qū)域數(shù)據(jù)進一步分析。 通過SPA和CARS
圖4 參與建模的波段數(shù)量對模型準確率的影響(a): 波段數(shù)目變化趨勢;(b): 模型RMSECV變化趨勢Fig.4 The effect of the number of bands used in modeling on model accuracy(a): The changing trend of number of bands;(b): The changing trend of RMSECV of model
圖5 分別通過SPA和CARS選取出的波段Fig.5 The selected bands through SPAand CARS respectively
對蛋黃區(qū)域數(shù)據(jù)降維后建模,其中SPA-SVM鑒別模型的鑒別準確率達到最高的94.2%。 結果表明使用高光譜技術對有機雞蛋和普通雞蛋的鑒別具有可行性,同時通過獲取特定的波長信息建模可以有效地節(jié)省數(shù)據(jù)存儲和處理時間。
(2)實驗使用的高光譜數(shù)據(jù)對有機雞蛋和普通雞蛋的鑒別雖有一定的效果,但是僅采用了五個品牌的有機雞蛋和五個不同地點購買的普通雞蛋,可能會導致模型僅對在試驗所用的幾個品牌的雞蛋有較好的鑒別擬合效果。 后期實驗擬增加雞蛋來源渠道,從國內外的有機廠商購入各種品牌的有機雞蛋或普通雞蛋,提升模型的泛化能力。
表2 降維后的蛋黃ROI區(qū)域數(shù)據(jù)構建的雞蛋樣本 類別模型的鑒別結果Table 2 The identification results of category of eggs usingdimension hyperspectral data in yolk ROI
(3)為探究蛋雞的飼養(yǎng)地域和品種對實驗結果的影響,試驗最開始采用了產于重慶市萬源禽蛋食品有限公司的有機雞蛋與普通雞蛋。 兩者均產自重慶市合川區(qū),產蛋蛋雞品種均為羅曼白雞。 通過PLS-DA多次對數(shù)據(jù)建模發(fā)現(xiàn)鑒別的平均準確率約為98%。 試驗結果說明同地域、同品種的蛋雞在不同飼養(yǎng)系統(tǒng)下產下的雞蛋其內部成分確實有差異。 后期在模型中加入其他地域、品種蛋雞產下的有機雞蛋與普通雞蛋后鑒別準確率雖有所下降,但依舊令人滿意。 由于基因上的不同,蛋雞的品種應是影響試驗鑒別目的可靠性的關鍵因素。 因此后續(xù)實驗擬加入多品種蛋雞產下的雞蛋,觀察模型鑒別效果、進而提升模型在不同地域、不同蛋雞品種、不同飼料等變量影響下的泛化能力。