袁 瑩 王 偉 褚 璇 喜明杰
(中國農(nóng)業(yè)大學(xué)工學(xué)院,北京 100083)
玉米是重要的飼料來源。然而,我國每年因霉變造成的產(chǎn)后損失給玉米的生產(chǎn)造成了很大的影響。霉變不僅造成玉米產(chǎn)量減少,還導(dǎo)致玉米品質(zhì)下降,更嚴(yán)重的是,霉變玉米若進(jìn)入食物鏈會嚴(yán)重危害人、畜健康,因此對霉變玉米的及時檢出尤為重要。目前,霉變玉米可以通過酶聯(lián)免疫法[1]、液相色譜法[2]等方法進(jìn)行檢測,但這些方法普遍存在費(fèi)用高、需前處理、操作繁瑣、抽樣檢測等缺點(diǎn)[3],進(jìn)而無法進(jìn)行批量無損檢測。近些年來,近紅外光譜法已發(fā)展成為鑒別和分析有機(jī)物和部分無機(jī)物的有用方法,廣泛應(yīng)用于谷物品質(zhì)和營養(yǎng)的定性鑒定和定量分析中[4-9]。傅里葉變換近紅外光譜(Fourier transform near infrared spectroscopy,F(xiàn)T-NIR)技術(shù)具有掃描速度更快、信噪比和分辨率高以及能擴(kuò)展更多附件等特點(diǎn),已被廣泛應(yīng)用于諸多領(lǐng)域[10-13]。支持向量機(jī)(Support Vector Machine,SVM)由 Vapnik首先提出[14],可用于進(jìn)行模式分類和非線性回歸。它是一種新的模式識別方法,是結(jié)構(gòu)風(fēng)險最小化的近似實(shí)現(xiàn),在解決小樣本、非線性、高維數(shù)等模式識別問題中具有一定的優(yōu)勢[15]。本研究基于傅里葉變換近紅外光譜技術(shù)和支持向量機(jī)對玉米是否霉變進(jìn)行檢測。
試驗(yàn)所使用的儀器為德國布魯克公司(BRUKER,德國)的MPA型傅里葉變換近紅外光譜儀。測試模式選擇為積分球反射測量,掃描范圍為12 000~4 000 cm-1,分辨率為4 cm-1。樣品光譜數(shù)據(jù)通過光譜儀自帶的軟件OPUS進(jìn)行獲取,并基于LIBSVM工具箱利用Matlab2012b進(jìn)行光譜數(shù)據(jù)的處理及分析。
采用于2012年收獲的尺寸和外觀大致相同的自然感染霉菌的豫玉32玉米顆粒共150粒作為樣品進(jìn)行模型建立,另取2013年收獲的先玉335玉米顆粒共90粒作為獨(dú)立樣品集對所提出的方法和建立的模型進(jìn)行驗(yàn)證,所有樣品根據(jù)霉變的嚴(yán)重程度按以下標(biāo)準(zhǔn)進(jìn)行分組:
1)無癥狀(A組):沒有發(fā)現(xiàn)明顯的霉菌損害的玉米顆粒。
2)中度霉變(B組):霉變面積占玉米顆粒表面的20%~70%的玉米顆粒。
3)重度霉變(C組):霉變面積幾乎覆蓋整個玉米顆粒表面的玉米顆粒。
用于模型建立的樣品,每組分別選取50粒玉米顆粒并順序進(jìn)行編號,獨(dú)立樣品集每組選取30粒玉米顆粒并順序進(jìn)行編號。
對每粒玉米顆粒的胚芽面進(jìn)行光譜數(shù)據(jù)采集,最終得到的光譜為掃描64次得到的平均光譜,用于模型建立的每組樣品的平均光譜曲線如圖1所示。從圖1中可以看出,在波數(shù)為9 000 cm-1之后,無癥狀組顆粒的吸光度最高,中度霉變顆粒的吸光度居于其余2組之間,3組樣品的原始光譜在9 000 cm-1之后有明顯區(qū)分,光譜結(jié)果與本文1.2中分組一致。
圖1 樣品的平均光譜曲線
本研究基于LIBSVM工具箱利用Matlab2012b平臺進(jìn)行數(shù)據(jù)預(yù)處理的對比。取模型建立樣品中各組前30個樣品,共90個樣品數(shù)據(jù)作為訓(xùn)練集,取各組剩余20個樣品共60個樣品數(shù)據(jù)作為測試集,分別利用[0,1]歸一化,[-1,1]歸一化以及不處理 3種方法進(jìn)行預(yù)處理。
由于每個試驗(yàn)樣品都具有2 100個光譜數(shù)據(jù)點(diǎn),數(shù)據(jù)量大且存在多重共線性,會造成信息冗余,在模型建立時,會降低模型預(yù)測性能。為了減輕計算量,降低分析問題的難度,提高預(yù)測準(zhǔn)確度,本研究采用PCA[16]對原始光譜數(shù)據(jù)進(jìn)行降維處理。
分別利用[0,1]歸一化,[-1,1]歸一化以及不處理3種方法對模型建立樣品集的原始光譜數(shù)據(jù)進(jìn)行預(yù)處理,得到的數(shù)據(jù)作為SVM的輸入建立模型,進(jìn)行初步的預(yù)測,3種預(yù)處理對應(yīng)的訓(xùn)練集與測試集的預(yù)測準(zhǔn)確率如表1所示。
表1 3種預(yù)處理對應(yīng)預(yù)測正確率/%
表1可見,數(shù)據(jù)進(jìn)行[-1,1]和[0,1]歸一化后,雖訓(xùn)練集的預(yù)測準(zhǔn)確率都稍微高于原始數(shù)據(jù)的預(yù)測結(jié)果,但測試集的預(yù)測準(zhǔn)確率卻都遠(yuǎn)遠(yuǎn)低于原始數(shù)據(jù)的預(yù)測結(jié)果,所以總體來看,數(shù)據(jù)不進(jìn)行預(yù)處理時得到的預(yù)測結(jié)果較好。
采用PCA對原始光譜數(shù)據(jù)進(jìn)行降維處理,所得到的前10個主成分的累計貢獻(xiàn)率如表2所示。
表2 前10個主成分的累計貢獻(xiàn)率/%
然而,主成分的個數(shù)對模型的預(yù)測性能有一定的影響[4],主成分?jǐn)?shù)與預(yù)測誤判率的關(guān)系如圖2所示??梢钥闯觯S著主成分?jǐn)?shù)的增加,模型的預(yù)測誤判率降低。當(dāng)主成分?jǐn)?shù)為5時,訓(xùn)練集和測試集的誤判率最低,而之后隨著主成分?jǐn)?shù)的增加,模型的誤判率又略有增長而后保持不變。因前5個主成分的累計貢獻(xiàn)率為99.94%,已經(jīng)幾乎可以用于表征光譜的全部信息。所以,本研究選擇前5個主成分作為SVM的輸入進(jìn)行模型建立。
圖2 主成分?jǐn)?shù)與預(yù)測誤判率的關(guān)系
2.3.1 核函數(shù)的選擇
對于非線性可分?jǐn)?shù)據(jù),SVM建立分類模型首要解決核函數(shù)的選擇問題。常見的核函數(shù)有線性、多項(xiàng)式、RBF和Sigmoid核函數(shù)4種形式。為選擇合適的核函數(shù),分別利用4種核函數(shù)建立SVM模型,并對訓(xùn)練集和測試集樣品數(shù)據(jù)進(jìn)行預(yù)測,預(yù)測的結(jié)果如表3所示??梢钥闯?,利用RBF核函數(shù)建立的模型對訓(xùn)練集和測試集的預(yù)測準(zhǔn)確率都比較高,所以本研究采用RBF核函數(shù)進(jìn)行SVM模型建立。
表3 4種核函數(shù)對應(yīng)的預(yù)測準(zhǔn)確率/%
2.3.2 參數(shù)的確定
選擇RBF作為SVM核函數(shù),則最優(yōu)化問題的求解主要取決于懲罰參數(shù)C和核函數(shù)參數(shù)γ的選擇。
當(dāng)C取值很小時,訓(xùn)練和預(yù)測精度都很低,易出現(xiàn)欠學(xué)習(xí),而隨著C的增大,訓(xùn)練和預(yù)測精度也會隨之提高,但當(dāng)C超過一定值時會容易出現(xiàn)過學(xué)習(xí)現(xiàn)象,所以當(dāng)C達(dá)到一定數(shù)值時,就需要通過調(diào)整核參數(shù)γ得到SVM的最優(yōu)結(jié)果。
關(guān)于SVM參數(shù)的優(yōu)化,國際上并沒有統(tǒng)一的最佳方法,目前常用的方法有:試驗(yàn)法、網(wǎng)格劃分(grid search)尋優(yōu)法[17]、遺傳算法(genetic algorithm,GA)尋優(yōu)法[18]、粒子群優(yōu)化算法(particle swarm optimization,PSO)[19]等。試驗(yàn)法即讓 C、γ 在一定的范圍內(nèi)取值,利用選取的C、γ以及訓(xùn)練集數(shù)據(jù)建立模型,得到訓(xùn)練集驗(yàn)證分類準(zhǔn)確率,反復(fù)選取C、γ值,最終取使得訓(xùn)練集驗(yàn)證分類準(zhǔn)確率最高的那組C、γ作為最優(yōu)參數(shù)。這種方法在尋優(yōu)區(qū)間足夠大且步進(jìn)足夠小的情況下可以尋得最優(yōu)參數(shù),但如果尋優(yōu)區(qū)間過大,會比較費(fèi)時[20]。GA算法和PSO算法屬于啟發(fā)式算法,不必遍歷網(wǎng)格內(nèi)的所有參數(shù)點(diǎn),也能找到全局最優(yōu)解,但這2種算法較為復(fù)雜,且容易陷入局部最優(yōu)。所以本研究采用網(wǎng)格劃分尋優(yōu)法來尋找最佳的參數(shù)C、γ。將訓(xùn)練集樣品數(shù)據(jù)進(jìn)行PCA后得到的前5個主成分作為輸入利用網(wǎng)格劃分尋優(yōu)法得到的最優(yōu)參數(shù)為:C=32 768,γ =0.009 765 63。
利用模型建立樣品的原始數(shù)據(jù)分別取各組的前30個樣品,共90個樣品數(shù)據(jù)作為訓(xùn)練集,其余60個樣品數(shù)據(jù)作為測試集,進(jìn)行PCA后,提取前5個主成分作為輸入,利用RBF函數(shù)作為SVM的核函數(shù),在懲罰參數(shù)C=32 768,核函數(shù)參數(shù)γ=0.009 765 6的條件下,進(jìn)行SVM模型的建立。然后利用建立好的模型對訓(xùn)練集和測試集樣品數(shù)據(jù)進(jìn)行預(yù)測,預(yù)測結(jié)果如表4所示??梢钥闯?,測試集的60的樣品中,有5個樣品數(shù)據(jù)預(yù)測錯誤,且被錯判的均為中度霉變顆粒,其中1粒被錯判為無癥狀,4粒被錯判為重度霉變,由于在進(jìn)行樣品分組時,中度霉變依據(jù)的標(biāo)準(zhǔn)為霉變面積占玉米顆粒表面的20%~70%,然而在挑選時,可能會由于部分霉變無法肉眼識別,從而造成錯分。
為確定模型對于檢測其他品種樣品的可行性,以相同霉變分組標(biāo)準(zhǔn)挑選了另一品種的玉米顆粒組成獨(dú)立樣品集,利用同樣的方法進(jìn)行處理,并用所建立的模型進(jìn)行預(yù)測,預(yù)測結(jié)果如表5所示。可以看出,該模型對獨(dú)立樣品集的預(yù)測準(zhǔn)確率達(dá)到87.8%,證明該模型對于不同品種玉米用于檢測其霉變是可行的。
表4 訓(xùn)練集和驗(yàn)證集的判別結(jié)果及準(zhǔn)確率
表5 獨(dú)立樣品集的判別結(jié)果及準(zhǔn)確率
本研究對自然感染霉菌的同種玉米顆粒按照霉菌感染程度分成3組,獲取波數(shù)范圍為12 000~4 000 cm-1的FT-NIR的光譜信息,首先利用PCA對原始光譜數(shù)據(jù)進(jìn)行降維,通過分析試驗(yàn)結(jié)果,選取前5個主成分作為SVM輸入;然后選用RBF核函數(shù),并利用網(wǎng)格劃分尋優(yōu)法尋找最優(yōu)參數(shù)C、γ進(jìn)行模型建立;最終建立的模型對訓(xùn)練集及測試集樣品的預(yù)測準(zhǔn)確率分別為93.3%和91.7%,對獨(dú)立樣品集的預(yù)測準(zhǔn)確率為87.8%。表明利用傅里葉變換近紅外光譜技術(shù),結(jié)合主成分分析和支持向量機(jī)方法進(jìn)行霉變玉米的檢測是可行的。
[1]陳福生,羅信昌,周啟,等.酶聯(lián)免疫吸附法快速檢測儲存糧食中的污染曲霉[J].中國糧油學(xué)報,1999,14(1):51-54
[2]Jaimez J.Application of the assay of aflatoxins by liquid chromatograghy with fluorescence detection in food analysis[J].Journal of Chromatography A,2000(882):1-10
[3]周顯青,暴占彪,崔麗靜,等.霉變玉米電子鼻識別及其傳感器陣列優(yōu)化[J].河南工業(yè)大學(xué)學(xué)報,2011,32(4):16-20
[4]陳全勝,趙杰文,張海東.基于支持向量機(jī)的近紅外光譜鑒別茶葉的真?zhèn)危跩].光學(xué)學(xué)報,2006,26(6):933-937
[5]劉心如,張黎平,王建福,等.可見-近紅外漫反射光譜技術(shù)對羊毛和羊絨的鑒別研究[J].光譜學(xué)與光譜分析,2013,33(8):2092-2095
[6]Pettersson H,Aberg L.Near infrared spectroscopy for deter-mination of mycotoxins in cereals[J].Food Control,2003,14:229-232
[7]Wang D,Dowell F E,Ram M S,et al..Classification of fungal-damaged soybean seeds using near-infrared spectroscopy [J].International Journal of Food Properties,2004,7(1):75 -82
[8]Fernández- Ibanez V,Soldado A,Martínez- Fernández A,et al.Application of near infrared spectroscopy for rapid detection of aflatoxin B1 in maize and barley as analytical quality assessment[J].Food Chemistry,2009,113:629 -634
[9]Dowell F E,Ram M S,Seitz L M.Predicting scab,vomitoxin,and ergosterol in single wheat kernels using near-infrared spectroscopy[J].Cereal Chemistry,1999,76(4):573-576
[10]Gaspardo B,Zotto SD,Cividino SR,et al.A rapid method for detection of fumonisins B1 and B2 in corn meal using Fourier transform near infrared(FT-NIR)spectroscopy implemented with integrating sphere[J].Food Chemistry,2012,135:1608 -1612
[11]Tavakolian M SS,Silaghi F A,F(xiàn)abbri A,et al..Differentiation of post harvest date fruit varieties non-destructively using FT-NIR spectroscopy[J].International Journal of Food Science and Technology,2013,48(6):1282-1288
[12]王家俊.FT-NIR光譜分析技術(shù)測定煙草中總氮、總糖和煙堿[J].光譜實(shí)驗(yàn)室,2003,20(2):181-185
[13]程存歸,阮永明,李冰嵐.傅里葉變換紅外光譜法應(yīng)用于中藥砂仁真?zhèn)舞b別的研究[J].光譜學(xué)與光譜分析,24(11):1355-1358
[14]Vapnik V.Statistical Learning Theory[M].Wiley,New York,NY,1998
[15]李國正,王猛,曾華軍.支持向量機(jī)導(dǎo)論[M].北京:電子工業(yè)出版社,2004
[16]Juneja J.Common factors,principal components analysis,and the term structure of interest rates[J].International Review of Financial Analysis,2012,24:48-56
[17]Liu Xianglou,Jia Dongxu,Li Hui.Research on Kernel parameter optimization of support vector machine in speaker recognition [J].Science Technology and Engineering,2010,10(7):1669-1673
[18]Chen P W,Wang JY,Lee H.Model selection of SVMs using GA approach[C].Proc of 2004 IEEE Int Joint Conf on Neural Networks.Piscataway,USA,2004:2035-2040
[19]Eberhart R,Kenney J.A new optimizer using particle swarm theory[C].Proc of the sixth International Symposium on Micro Machine and Human Science.Piscataway,USA,1995:39-43
[20]王健峰,張磊,陳國興,等.基于改進(jìn)的網(wǎng)格搜索法的SVM 參數(shù)優(yōu)化[J].應(yīng)用科技,2012,39(3):28 -31.