,巧華,,*, ,, ,
(1.華中農(nóng)業(yè)大學(xué)工學(xué)院,湖北武漢 430070; 2.華中農(nóng)業(yè)大學(xué)國(guó)家蛋品加工技術(shù)研發(fā)分中心,湖北武漢 430070)
隨著我國(guó)雞蛋產(chǎn)業(yè)的快速發(fā)展,國(guó)家對(duì)盒包裝的雞蛋更加規(guī)范化,規(guī)定必須標(biāo)明生產(chǎn)地、生產(chǎn)日期等,市場(chǎng)中亂標(biāo)雞蛋產(chǎn)地的現(xiàn)象嚴(yán)重,不僅影響市場(chǎng)的健康發(fā)展,也侵犯了消費(fèi)者與生產(chǎn)者的權(quán)益,不利于中國(guó)名優(yōu)雞蛋原品種和品牌的保護(hù)。雞蛋品種及產(chǎn)地的檢測(cè)在加工、貯藏和銷售等方面都非常重要。為保證市場(chǎng)的公平,需要建立一種快速、精確的雞蛋產(chǎn)地溯源技術(shù)。
由于雞蛋成分復(fù)雜,其外觀和理化品質(zhì)比較接近,采用傳統(tǒng)的感官和經(jīng)驗(yàn)方法很難鑒別其產(chǎn)地??梢?jiàn)-近紅外光譜是指波長(zhǎng)的其中一部分是屬于可見(jiàn)光(400~760 nm)的波段范圍內(nèi),另一部分是屬于近紅外波段(780~2526 nm)的范圍內(nèi)??梢?jiàn)-近紅外光譜的吸收主要是由于含氫基團(tuán)振動(dòng)的倍頻和合頻吸收所造成的。光譜信息能間接的反映出農(nóng)產(chǎn)品本身的化學(xué)構(gòu)成信息,因此,將該技術(shù)應(yīng)用在農(nóng)產(chǎn)品內(nèi)部品質(zhì)、品種、缺陷等方面的定性和定量研究,有著廣泛的前景[1]??梢?jiàn)-近紅外光譜分析技術(shù)是一種快速簡(jiǎn)便無(wú)損的分析方法,且能夠用于在線檢測(cè)分級(jí),被廣泛應(yīng)用于食品、化工、醫(yī)藥等行業(yè)[2]。近年來(lái),國(guó)內(nèi)外學(xué)者利用光譜技術(shù)在農(nóng)副產(chǎn)品品質(zhì)的檢測(cè)上進(jìn)行了相關(guān)研究[3-7],在蛋品品質(zhì)檢測(cè)中,近紅外光譜技術(shù)也有應(yīng)用。段宇飛等對(duì)雞蛋新鮮度研究方面,利用近紅外光譜結(jié)合局部線性嵌入(LLE)、支持向量回歸進(jìn)行無(wú)損檢測(cè)[8];王巧華等利用近紅外光譜結(jié)合多模式共識(shí)法(CUVE)、偏最小二乘判別法(PLS-DA)對(duì)雞蛋新鮮度進(jìn)行在線檢測(cè)分級(jí)[9];祝志慧等利用光譜技術(shù)和多分類器融合對(duì)異物蛋無(wú)損鑒別[10];孫俊等利用介電特性對(duì)雞蛋品種及產(chǎn)地進(jìn)行無(wú)損鑒別,模型訓(xùn)練集正確率為95.83%,測(cè)試集正確率為95.83%[11]。戴祁等利用穩(wěn)定同位素對(duì)雞蛋鑒別及溯源進(jìn)行研究,通過(guò)測(cè)定各地自來(lái)水的δ18O值,可以得出雞蛋的產(chǎn)地[12]。
上述研究中大多是研究雞蛋內(nèi)部品質(zhì),對(duì)鑒別雞蛋產(chǎn)地溯源的研究較少且方法比較繁瑣。本研究利用自行搭建的可見(jiàn)-近紅外光譜檢測(cè)裝置,提取不同產(chǎn)地雞蛋的可見(jiàn)-近紅外透射光譜,運(yùn)用直接正交信號(hào)校正結(jié)合t分布式隨機(jī)鄰域嵌入(t-SNE)方法來(lái)提取光譜特征信息,再將光譜特征信息輸入隨機(jī)森林建立產(chǎn)地溯源模型,為進(jìn)一步研究與開(kāi)發(fā)雞蛋產(chǎn)地溯源便攜式儀器提供技術(shù)支持。
雞蛋 共4種,均取自于湖北武漢、孝感、恩施和黃石4個(gè)產(chǎn)地的外形、顏色相近雞蛋,雞種為羅曼粉,產(chǎn)蛋母雞覓食品種均為青草、蟲(chóng)子及谷粒等(自然放養(yǎng)),雞蛋日期相近(1~2 d),其中蛋重分布在45~65 g,蛋形指數(shù)分布在1.30~1.35。
USB2000+光纖光譜儀 美國(guó)海洋光學(xué)公司;L4探測(cè)器聚光透鏡 美國(guó)海洋光學(xué)公司;ILX511線陣CCD探測(cè)器 日本索尼公司;LS-3000高功率鹵素?zé)?廣州標(biāo)旗電子科技有限公司;EA-01雞蛋新鮮度測(cè)定儀 以色列ORKA公司;MNT150數(shù)顯卡尺 上海美耐特實(shí)業(yè)有限公司;JY103B電子天平 上海精平電子儀器有限公司。
1.2.1 雞蛋樣本的挑選 測(cè)試前,清除蛋殼表面污漬,使用雞蛋新鮮度測(cè)定儀抽樣檢測(cè),新鮮度均達(dá)AA級(jí)。隨機(jī)挑選4種雞蛋各60枚(共240個(gè)樣本)。然后將所有樣本按照每種雞蛋3∶1的比例選取訓(xùn)練集180個(gè)樣本,測(cè)試集60個(gè)樣本,并對(duì)所有的實(shí)驗(yàn)樣本進(jìn)行編號(hào)并稱重。
1.2.2 光譜采集裝置的搭建 采集裝置包括6大部分,如圖1所示。計(jì)算機(jī)中安裝了與USB2000+光纖光譜儀配套的Specsuite光譜采集軟件。探測(cè)儀為聚光透鏡與線陣CCD探測(cè)器的組合,透鏡被固定在探測(cè)器窗片上,將透過(guò)信號(hào)光聚焦到探測(cè)器上,提高了采集信號(hào)光的效率。光源有內(nèi)置風(fēng)扇,調(diào)節(jié)溫度,保證雞蛋采集后的新鮮度。
圖1 雞蛋光譜采集裝置Fig.1 Egg spectrum collection device注:1:計(jì)算機(jī);2:光纖光譜儀;3:光譜采集支架; 4:光纖探測(cè)儀;5:雞蛋;6:光源。
1.2.3 光譜采集 采集光譜前,將光譜儀開(kāi)機(jī)預(yù)熱30 min。每枚雞蛋樣本水平橫放在檢測(cè)臺(tái)上,探測(cè)儀對(duì)準(zhǔn)雞蛋長(zhǎng)軸中心位置,重復(fù)掃描5次,取5次平均后的光譜曲線。采集參數(shù)設(shè)置:積分時(shí)間60 ms,平均掃描次數(shù)5次,平滑寬度設(shè)置為3。
1.2.4 光譜數(shù)據(jù)預(yù)處理 在實(shí)驗(yàn)的過(guò)程中不可避免會(huì)伴有高頻隨機(jī)噪音、基線漂移等因素的影響,為了消除這些影響,需對(duì)原始光譜數(shù)據(jù)進(jìn)行預(yù)處理。利用中心化、歸一化、標(biāo)準(zhǔn)正態(tài)變量(SNV)、直接正交信號(hào)校正(DOSC)、Savitzky-Golay平滑濾波(SG)和多元散射校正(MSC)方法進(jìn)行光譜數(shù)據(jù)預(yù)處理,通過(guò)比較建模效果,確定最優(yōu)預(yù)處理方法。
1.2.5 建模算法原理 ELM算法由Huang等提出,它是一種新型單隱層前饋神經(jīng)網(wǎng)絡(luò),已經(jīng)證明了ELM具有與神經(jīng)網(wǎng)絡(luò)相同的全局逼近能力[13-14]。RF具有分析復(fù)雜相互作用分類特征的能力,并且具有較快的學(xué)習(xí)速度,近年來(lái)已經(jīng)被廣泛應(yīng)用于各種分類、預(yù)測(cè)、特征選擇以及異常點(diǎn)檢測(cè)問(wèn)題中[15-16]。ELM建模中武漢、孝感、恩施、黃石雞蛋的標(biāo)簽分別為[1 0 0 0]、[0 1 0 0]、[0 0 1 0]、[0 0 0 1];RF建模中武漢、孝感、恩施、黃石雞蛋的標(biāo)簽分別為1、2、3、4。
1.2.6 光譜降維方法原理 利用t分布式隨機(jī)鄰域嵌入(t-SNE)對(duì)光譜數(shù)據(jù)進(jìn)行降維。SNE即Stochastic Neighbor Embedding,是Hinton在2002年提出來(lái)的算法,在高維空間相似的數(shù)據(jù)點(diǎn),映射到低維空間距離也是相似的[17-18]。t是表示t分布,本文選用t分布的自由度為1。利用t-SNE將經(jīng)過(guò)預(yù)處理后的光譜數(shù)據(jù)分別降到2、3、4、5維,通過(guò)建模分析來(lái)確定最優(yōu)維數(shù)。
表1 不同產(chǎn)地雞蛋的基本參數(shù)分析Table 1 Analysis of the parameters of egg between different origin
注:同一行數(shù)據(jù)肩標(biāo)不同小寫(xiě)字母表示相互間差異顯著(p<0.05)。
利用Matlab2010b(Mathworks,美國(guó))軟件編寫(xiě)所有算法。Specsuite軟件(海洋光學(xué),美國(guó))用于光譜數(shù)據(jù)采集。
圖2為所有雞蛋樣本的原始吸光度光譜曲線,光譜采集范圍500~900 nm。
圖2 雞蛋吸收度光譜Fig.2 Original absorbance spectrum of eggs
光譜數(shù)據(jù)采集完后測(cè)量雞蛋的長(zhǎng)軸、短軸與蛋殼厚度。用精度0.01 mm的游標(biāo)卡尺測(cè)量蛋的長(zhǎng)軸、短軸和蛋殼厚度,結(jié)果見(jiàn)表1。
表1說(shuō)明4個(gè)產(chǎn)地雞蛋之間長(zhǎng)軸、短軸、蛋殼厚度沒(méi)有顯著性差異不能通過(guò)這些基本參數(shù)來(lái)判別產(chǎn)地,且這些參數(shù)對(duì)光譜數(shù)據(jù)的影響相差不大,光譜數(shù)據(jù)可以表征雞蛋內(nèi)部信息。
本文采用訓(xùn)練集十字交叉驗(yàn)證的準(zhǔn)確率(cross validation Accuracy,CVaccuracy)、訓(xùn)練集準(zhǔn)確率(Train Accuracy,TRA)、測(cè)試集準(zhǔn)確率(Test Accuracy,TEA)來(lái)評(píng)價(jià)模型的好壞。準(zhǔn)確率越高,說(shuō)明模型的精度越高。表2為全波段建模方法比較。由表2可知,RF方法訓(xùn)練集準(zhǔn)確率、測(cè)試集準(zhǔn)確率、交叉驗(yàn)證準(zhǔn)確率均高于ELM方法,RF建模方法效果優(yōu)于ELM建模方法,RF模型魯棒性好,可以完成隱含特征的選擇,并且提供一個(gè)很好的特征重要度的選擇指標(biāo)。
表2 建模方法比較Table 2 Comparison of modeling methods
表3為不同預(yù)處理的預(yù)測(cè)結(jié)果,可以得出,經(jīng)過(guò)不同預(yù)處理的光譜數(shù)據(jù)得出不同的預(yù)測(cè)效果,通過(guò)比較,利用直接正交信號(hào)校正(DOSC)建立的模型效果最好,預(yù)測(cè)集正確率為96.11%,測(cè)試集準(zhǔn)確率為95.00%,交叉驗(yàn)證準(zhǔn)確率為92.42%。直接正交信號(hào)校正能夠有效除高頻隨機(jī)噪音、基線漂移[19-20]。
表3 不同預(yù)處理的預(yù)測(cè)結(jié)果Table 3 Prediction results based on different pretreatment methods
圖3、圖4為t-SNE、PCA降維后的3維可視化效果。
圖3 t-SNE降維Fig.3 Dimension reduction of t-SNE
圖4 前3個(gè)成分對(duì)應(yīng)的累計(jì)貢獻(xiàn)率Fig.4 Cumulative contribution rate of the first there principal components
表4 降維處理的結(jié)果Table 4 Results based on dimension reduction
表5 t-SNE下不同維數(shù)的預(yù)測(cè)結(jié)果Table 5 The prediction results of different dimensions based on t-SNE
分別獲取降到3維的t-SNE、PCA數(shù)據(jù),利用RF進(jìn)行建模分析。其結(jié)果如表4所示。通過(guò)比較,利用t-SNE降維優(yōu)于PCA降維與未降維。通過(guò)t-SNE方法不僅較好地保留了有效信息,而且極大地剔除了無(wú)效信息,減少了數(shù)據(jù)維數(shù),進(jìn)一步優(yōu)化了模型。
表5顯示t-SNE下不同維數(shù)的預(yù)測(cè)結(jié)果,通過(guò)表5可以得出,降到2、3位的效果低于4、5維,且降到4維和5維效果一樣,在效果一樣的前提下,優(yōu)先選擇維數(shù)小,有利于簡(jiǎn)化模型。所以選用4維數(shù)據(jù)來(lái)進(jìn)行建模。
隨機(jī)森林的起始性能往往相對(duì)較差,隨著子決策樹(shù)數(shù)目的增加,隨機(jī)森林通常會(huì)收斂到更低的泛化誤差(generalization error)。在機(jī)器學(xué)習(xí)中泛化誤差是用來(lái)衡量一個(gè)學(xué)習(xí)機(jī)器推廣未知數(shù)據(jù)的能力,即根據(jù)從樣本數(shù)據(jù)中學(xué)習(xí)到的規(guī)則能夠應(yīng)用到新數(shù)據(jù)的能力。本文以利用袋外數(shù)據(jù)誤差(OOB error)估計(jì)作為泛化誤差[21]。袋外數(shù)據(jù)(OOB)誤差的計(jì)算方法如下:對(duì)于隨機(jī)森林,可以利用袋外數(shù)據(jù)進(jìn)行性能測(cè)試,假設(shè)袋外數(shù)據(jù)總數(shù)為Y,用這Y袋外數(shù)據(jù)輸入生成的隨機(jī)森林分類器,分類器會(huì)給出Y個(gè)數(shù)據(jù)相應(yīng)的分類,則用已知正確的分類與隨機(jī)森林分類的結(jié)果比對(duì),統(tǒng)計(jì)隨機(jī)森林分類器分類錯(cuò)誤的數(shù)量,設(shè)為X,則袋外數(shù)據(jù)誤差大小為X/Y。圖5為RF模型的袋外數(shù)據(jù)誤差率。
圖5 袋外數(shù)據(jù)誤差率Fig.5 Error rate of OOB
由圖5可知,當(dāng)模型生成63個(gè)子決策樹(shù)時(shí)達(dá)到穩(wěn)定狀態(tài),袋外數(shù)據(jù)誤差率接近于0.03,使得隨機(jī)森林不易過(guò)擬合。圖6為預(yù)測(cè)集分類結(jié)果,其中1~15為武漢產(chǎn)地雞蛋,16~30為孝感產(chǎn)地雞蛋,31~45為恩施產(chǎn)地雞蛋,46~60為黃石產(chǎn)地雞蛋。
圖6 預(yù)測(cè)集分類結(jié)果Fig.6 Results of predictive set classification
模型對(duì)于訓(xùn)練集和預(yù)測(cè)集樣本的鑒別結(jié)果:訓(xùn)練集和預(yù)測(cè)集正確率為100%、98.33%,交叉驗(yàn)證準(zhǔn)確率為93.50%,袋外數(shù)據(jù)誤差率為0.03,單個(gè)雞蛋測(cè)試運(yùn)行時(shí)間為30 ms。
本文提出了包括直接正交信號(hào)校正(DOSC)、t分布式隨機(jī)鄰域嵌入(t-SNE)結(jié)合隨機(jī)森林(RF)的方法對(duì)湖北4個(gè)地區(qū)雞蛋產(chǎn)地溯源。直接正交信號(hào)校正方法能夠消除可見(jiàn)-近紅外光譜中的高頻隨機(jī)噪音、基線漂移。運(yùn)用t分布式隨機(jī)鄰域嵌入將光譜數(shù)據(jù)降維,得到雞蛋光譜低維空間的特征信息,提取有效信息,剔除無(wú)效信息。利用RF算法建模,具有較低的袋外數(shù)據(jù)誤差率,可以避免模型過(guò)擬合,提高模型的魯棒性。
提出的基于可見(jiàn)-近紅外光譜技術(shù)的雞蛋產(chǎn)地溯源方法的驗(yàn)證精度高,訓(xùn)練集和預(yù)測(cè)集正確率為100%、98.33%,說(shuō)明利用該技術(shù)可用于雞蛋產(chǎn)地溯源,為下一步開(kāi)發(fā)便攜式光譜檢測(cè)設(shè)備提供技術(shù)支持。
[1]Blanco M,Villarrova I. NIR spectroscopy:a rapid-response analytical tool[J]. Trac Trends in Analytical Chemistry,2002,21(4):240-250.
[2]嚴(yán)衍祿,趙龍蓮,韓東海,等.近紅外光譜分析基礎(chǔ)與應(yīng)用[M].北京:中國(guó)輕工業(yè)出版社,2005:15.
[3]王徽蓉,陳新亮,李衛(wèi)軍,等. 玉米品種近紅外光譜的特征分析與鑒別方法[J].光光譜學(xué)與光譜分析,2010,30(12):3213-3216.
[4]何勇,李曉麗,邵詠妮. 基于主成分分析和神經(jīng)網(wǎng)絡(luò)的近紅外光譜蘋(píng)果品種鑒別方法研究[J].光譜學(xué)與光譜分析,2006,26(5):850-853.
[5]李曉麗,唐月明,何勇,等. 基于可見(jiàn)/近紅外光譜的水稻品種快速鑒別研究[J].光譜學(xué)與光譜分析,2008,28(3):578-581.
[6]徐文杰,劉茹,洪響聲,等. 基于近紅外光譜技術(shù)的淡水魚(yú)品種快速鑒別[J].農(nóng)業(yè)工程學(xué)報(bào),2014,30(1):253-261.
[7]郝勇,孫旭東,高榮杰,等.基于可見(jiàn)/近紅外光譜與SIMCA和PLS-DA的臍橙品種識(shí)別[J].農(nóng)業(yè)工程學(xué)報(bào),2010,26(12):373-377.
[8]段宇飛,王巧華,馬美湖,等. 基于LLE-SVR的雞蛋新鮮度可見(jiàn)-近紅外光譜無(wú)損檢測(cè)方法[J].光譜學(xué)與光譜分析,2016,36(4):981-985.
[9]王巧華,李小明,段宇飛. 基于CUVE-PLS-DA的雞蛋新鮮度在線檢測(cè)分級(jí)[J].食品科學(xué),2016,37(22):187-191.
[10]祝志慧,謝德君,李婉清,等. 基于光譜技術(shù)和多分類器融合的異物蛋檢測(cè)[J].農(nóng)業(yè)工程學(xué)報(bào),2015,31(2):312-318.
[11]孫俊,劉彬,毛罕平,等. 基于介電特性的雞蛋品種無(wú)損鑒別[J].食品科學(xué),2017,38(6):282-286.
[12]戴祁,肖冬光,鐘其頂.穩(wěn)定同位素在雞蛋簽別及溯源中的應(yīng)用研究[D].天津:天津科技大學(xué),2016.
[13]Guang-Bin Huang,Qin-Yu Zhu,Chee-Kheong Siew. Extreme learning machine:a new learning scheme of feed forward neural networks[J]. IEEE International Joint Conference on Neural Networks,2004,2:985-990.
[14]Breiman L. Random Forests[J]. Machine Learning,2001,45(1):5-32.
[15]Strobl Carolin,Boulesteix Anne-Laure,Kneib Thomas,et al. Conditional variable importance for random forests[J].BMC Bioinformatics,2008,9(1):1-11.
[16]Mohammed Khalilia,Sounak Chakraborty,Mihail Popescu.Predicting disease risks form highly imbalance data using random forest[J]. BMC Medical Informatics and Decision Making,2011,11(1):1-13.
[17]L J P van der Maaten. Accelerating t-SNE using tree-based algorithms[J].Journal of Machine Learning Research,2014,15:3221-3245.
[18]L J P van der Maaten,G E Hinton. visualizing high-dimensional data using t-SNE[J]. Journal of Machine Learning Research,2008,9(12):2579-2605.
[19]李玉軍,湯曉君,劉君華.直接正交信號(hào)校正算法在烷烴類多組分氣體定量分析中的應(yīng)用[J].光譜學(xué)與光譜分析,2012,32(4):1038-1042.
[20]胡國(guó)田,何東健,Kenneth A Sudduth.基于直接正交信號(hào)校正的土壤磷和鉀VNIR測(cè)定研究[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2015,46(7):139-145.
[21]David H Wolpert,William G Macready. An efficient method to estimate bagging’s generalization error[J]. Machine Learning,1997,5(1):1-16.