惠光艷,孫來軍*,王佳楠,王樂凱,戴常軍
1. 黑龍江省電子工程高校重點(diǎn)實(shí)驗(yàn)室,黑龍江大學(xué),黑龍江 哈爾濱 150080
2. 農(nóng)業(yè)部谷物及制品質(zhì)量監(jiān)督檢驗(yàn)測試中心(哈爾濱),黑龍江 哈爾濱 150080
可見-近紅外光譜的小麥硬度預(yù)測模型預(yù)處理方法的研究
惠光艷1,孫來軍1*,王佳楠1,王樂凱2,戴常軍2
1. 黑龍江省電子工程高校重點(diǎn)實(shí)驗(yàn)室,黑龍江大學(xué),黑龍江 哈爾濱 150080
2. 農(nóng)業(yè)部谷物及制品質(zhì)量監(jiān)督檢驗(yàn)測試中心(哈爾濱),黑龍江 哈爾濱 150080
硬度是評價(jià)小麥品質(zhì)的一個(gè)重要質(zhì)量參數(shù),對小麥的分類、最終用途以及小麥籽粒組成的研究都非常重要。為實(shí)現(xiàn)小麥硬度的快速、準(zhǔn)確檢測,在詳細(xì)分析小麥籽粒成分對紅外光吸收特性的基礎(chǔ)上,研究建立徑向基函數(shù)(RBF)神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)對未知樣品硬度的準(zhǔn)確檢測,并著重分析了不同光譜信號預(yù)處理方法對模型預(yù)測精度的影響。從各小麥主產(chǎn)區(qū)收集111個(gè)小麥樣品,掃描樣品獲得可見-近紅外光譜,采用馬氏距離判斷并剔除異常光譜; 利用優(yōu)化后的SPXY劃分樣品集合,得到校正集84個(gè)樣品,預(yù)測集24個(gè)樣品; 利用連續(xù)投影算法(SPA)從262個(gè)光譜波點(diǎn)中提取47個(gè)特征光譜; 分別使用一階導(dǎo)數(shù)、二階導(dǎo)數(shù)和標(biāo)準(zhǔn)正態(tài)變量變換(SNV)及其不同組合對光譜進(jìn)行預(yù)處理,驗(yàn)證不同預(yù)處理方法之間的相互影響,尋找最優(yōu)的預(yù)處理方法組合。校正集預(yù)處理后的特征光譜數(shù)據(jù)作為RBF模型的輸入,采用硬度指數(shù)法測定的對應(yīng)樣品硬度作為輸出建立模型。預(yù)測結(jié)果顯示當(dāng)采用SNV和SPA處理光譜數(shù)據(jù)時(shí)模型的效果達(dá)到最優(yōu),評價(jià)指標(biāo)判別系數(shù)(R2)、預(yù)測標(biāo)準(zhǔn)差(SEP)和相對分析誤差(RPD)可分別達(dá)到0.90, 3.02和3.11,表明基于可見-近紅外光譜的RBF神經(jīng)網(wǎng)絡(luò)模型能夠準(zhǔn)確地預(yù)測小麥的硬度,與傳統(tǒng)檢測方法相比具有方便、快速、無損等優(yōu)點(diǎn),為小麥硬度的檢測提供一條更為便捷與實(shí)用的方法。
硬度; 小麥; 可見-近紅外光譜; 連續(xù)投影算法; 徑向基函數(shù)
小麥硬度是指破碎籽粒時(shí)所受到的阻力,由小麥胚乳細(xì)胞中蛋白質(zhì)基質(zhì)和淀粉之間的結(jié)合強(qiáng)度決定,受遺傳控制[1],是決定小麥最終用途的一個(gè)重要參數(shù),對小麥的研磨特性、面粉粒度以及淀粉顆粒度的完整性都有較大的影響[2]。上個(gè)世紀(jì)早期已經(jīng)開始出現(xiàn)對小麥硬度的理論研究,截至目前已有許多測定小麥硬度的方法,如角質(zhì)率法、壓力法、近紅外法和單顆粒硬度指數(shù)法[3]。其中角質(zhì)率法的測定采用目測,壓力法利用壓頭或刀頭壓碎或切割方法測定,這兩種方法操作復(fù)雜,工藝落后,人為因素影響較大,測量誤差大,不能滿足小麥的貿(mào)易和加工需求[4]。單顆粒硬度指數(shù)法(single kernel characterization system,SKCS)是從樣品中挑出一定個(gè)數(shù)(一般是300個(gè))的籽粒,測定每個(gè)籽粒的硬度,用所測籽粒硬度的平均值作為樣品的硬度。使用SKCS法測量硬度時(shí),由于不同品種小麥硬度差異較大,單個(gè)籽粒的硬度不能夠準(zhǔn)確地反映制粉行業(yè)所關(guān)心的小麥整體硬度情況。所以采用SKCS法測量時(shí),必須進(jìn)行大量的測定才能準(zhǔn)確反映樣品整體的硬度[5]。本研究中小麥樣品硬度物化測量采用的是我國在2007年建立的硬度指數(shù)法(hardness index,HI,GB/T 21304)。該方法采用在規(guī)定條件下粉碎小麥樣品時(shí)留在篩網(wǎng)上的樣品占測試樣品質(zhì)量的百分比作為硬度指標(biāo),是目前我國測量小麥硬度常用且較為準(zhǔn)確的方法之一,但是該方法檢測過程繁瑣,對測量條件要求苛刻[6]。
由以上的分析可知,角質(zhì)率法、壓力法、單顆粒度指數(shù)法和小麥硬度指數(shù)法等傳統(tǒng)方法測定小麥硬度時(shí),均存在過程繁瑣、費(fèi)工、費(fèi)時(shí)等缺點(diǎn),不能滿足實(shí)際快速、無損檢測的需求。近年來,隨著工業(yè)、農(nóng)業(yè)以及藥學(xué)等行業(yè)對更快速、經(jīng)濟(jì)以及無損檢測的追求,近紅外光譜(near infrared spectroscopy,NIRS)檢測技術(shù)受到越來越多的重視。應(yīng)用NIRS法測定小麥品質(zhì)參數(shù)及品質(zhì)分類的技術(shù)和方法已經(jīng)比較成熟,該方法也已被列入美國谷物化學(xué)家協(xié)會(American Association of Cereal Chemists,AACC)標(biāo)準(zhǔn),其中AACC 39-70A方法用于測定小麥硬度。Silvia Arazuri等[7]利用NIRS技術(shù)測量小麥籽粒的流變參數(shù),包括面團(tuán)的韌性、延展性、應(yīng)變性以及韌性和延展性比值(tenacity(P),extensibility(L),deformation energy(W)和P/T),均取得了比較好的預(yù)測效果; Mao等[8]利用NIR結(jié)合優(yōu)化后的RBF神經(jīng)網(wǎng)絡(luò)建立模型預(yù)測小麥的蛋白質(zhì)含量,預(yù)測相關(guān)系數(shù)達(dá)到0.975,能夠滿足準(zhǔn)確、快速檢測的需求; Lankapalli等[9]利用近紅外高光譜成像技術(shù)對小麥中的動物排泄物進(jìn)行分類,最優(yōu)模型精度達(dá)到100±0.1%。應(yīng)用NIRS法測定小麥硬度國內(nèi)外也已有報(bào)道[10-11]。AACC 39-70A方法中給出1 680和2 230 nm處的光譜反射量與小麥硬度有較好的相關(guān)性,但這種方法需對所用儀器和樣品粉碎物進(jìn)行標(biāo)準(zhǔn)化處理,否則測定誤差較大; 袁翠平等[12]采用SKCS法和NIRS法對54個(gè)小麥品種的硬度進(jìn)行測定,并對兩種方法進(jìn)行了分析比較,結(jié)果表明這兩種方法得到的籽粒硬度具有較高的相關(guān)性(r=0.872 7); Agu等[13]利用FOSS公司的1241型谷物分析儀分析小麥樣品,利用標(biāo)準(zhǔn)的FOSS UK網(wǎng)絡(luò)模型輸出小麥的品質(zhì)參數(shù),將蛋白質(zhì)結(jié)果除以5.7獲得的NIR氮含量結(jié)果與標(biāo)準(zhǔn)的凱氏方法的結(jié)果相關(guān)性達(dá)到96%,小麥的硬度和和總氮量之間的相關(guān)性R2達(dá)到0.556 5,間接說明谷物硬度和蛋白質(zhì)之間具有較大的相關(guān)性; Swanston等也得出蛋白質(zhì)含量對小麥硬度影響較大,二者相關(guān)性超過75%,同時(shí)還證明了SKCS和NIRS之間具有較好的吻合性。從上述分析可知利用NIRS技術(shù)檢測小麥硬度是可行的,但是由于現(xiàn)階段測量誤差大,不能被廣泛的應(yīng)用。如何利用NIRS技術(shù)準(zhǔn)確測定小麥硬度,近年來一直是關(guān)注的焦點(diǎn)。在前人研究基礎(chǔ)上,利用硬度指數(shù)法獲得小麥硬度物化數(shù)據(jù),利用不同的光譜優(yōu)化算法處理光譜數(shù)據(jù),建立基于可見-近紅外光譜的RBF神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)小麥硬度的精確預(yù)測,取得較好效果。同時(shí)還分析比較不同的光譜信號預(yù)處理算法及其組合對預(yù)測結(jié)果的影響,為利用近紅外檢測作物品質(zhì)時(shí)光譜信號的預(yù)處理提供有益參考。
1.1 樣品
111個(gè)樣品是由農(nóng)業(yè)部谷物及制品質(zhì)量監(jiān)督檢驗(yàn)測試中心(哈爾濱)從全國各地小麥主產(chǎn)區(qū)收集的2013年小麥,樣品中有春小麥和冬小麥,品種不一。為有效確保樣品間具有較大的差異性,同時(shí)使所建立模型具有較強(qiáng)的適用性,本研究并沒有對小麥樣品按照品種、產(chǎn)地及季節(jié)進(jìn)行嚴(yán)格的劃分。由于收集到的小麥樣品中可能會包含一些雜質(zhì),如麥殼、昆蟲糞便和土塊等,雜質(zhì)的存在會影響后續(xù)測量數(shù)據(jù)的準(zhǔn)確性。因此,在對樣品進(jìn)行光譜掃描和物化分析前,每個(gè)樣品都經(jīng)過人工篩理,去除雜質(zhì)、干癟和破損的籽粒,然后對樣品進(jìn)行統(tǒng)一編號留待備用。
1.2 光譜數(shù)據(jù)采集與物化指標(biāo)測定
采用FOSS公司的NIRS DS-2500光譜儀采集光譜數(shù)據(jù)。該儀器光譜范圍400~2 500 nm,采用前分光單色儀技術(shù),是目前市場上技術(shù)先進(jìn)、光譜范圍較寬、總體性能較為優(yōu)越的光譜儀器。在掃描樣品時(shí),首先將樣品放入一個(gè)直徑35 mm、深10 mm的圓形小槽中,掃描間隔設(shè)為8 nm,產(chǎn)生262個(gè)光譜點(diǎn),以采集到的反射系數(shù)(設(shè)為R)倒數(shù)的對數(shù)[log(1/R)]形式存儲數(shù)據(jù)。
經(jīng)光譜掃描后的小麥樣品嚴(yán)格按照國家標(biāo)準(zhǔn)GB/T 21304,采用硬度指數(shù)法測量其硬度。將樣品粉碎,測定留存在篩網(wǎng)上樣品的質(zhì)量,按照式(1)計(jì)算樣品硬度指數(shù)
(1)
式中,HI(%)為校正至水分12%、環(huán)境溫度25 ℃環(huán)境下的硬度指數(shù),m1(g)為粉碎后通過篩網(wǎng)的樣品質(zhì)量,w為樣品的水分含量,k1為水分校正系數(shù),k2為溫度校正系數(shù)。HI(%)越大,表明小麥硬度越高,反之表明小麥硬度越低。同時(shí)從式(1)可以看出,該測量方法綜合考慮到樣品水分和環(huán)境溫度對硬度值的影響,測量結(jié)果較準(zhǔn)確。
1.3 光譜信號預(yù)處理分析
通常情況下由于受到背景等環(huán)境因素的影響,采集到的光譜信號會存在各種失真及噪聲信息,對模型的預(yù)測效果造成影響,因此在建模之前需要對光譜信號進(jìn)行預(yù)處理。在常用光譜預(yù)處理方法中一階導(dǎo)數(shù)、二階導(dǎo)數(shù)可以校正系統(tǒng)背景中的基線漂移和光譜旋轉(zhuǎn),標(biāo)準(zhǔn)正態(tài)變量變換(standard normal variate,SNV)主要用于校正光譜的散射,同時(shí)由于SNV對每條光譜單獨(dú)進(jìn)行校正,校正能力較強(qiáng),特別是當(dāng)樣品組分變化較大時(shí)效果更佳。此外,原始光譜數(shù)據(jù)量大且包含噪聲或者一些不相關(guān)成分信息,如果直接采用其建立模型,不僅計(jì)算量大,水的強(qiáng)吸收波段和其他成分信息會對模型的精度造成影響。因此,在建立校正模型前,一般通過特征波段的選取,提取最有效的光譜信息,刪除不相關(guān)信息,可以提高模型的預(yù)測能力,簡少模型運(yùn)算量。每種預(yù)處理方法都有其特殊功能,但是并不是將這些預(yù)處理方法簡單的疊加在一起,就能取得預(yù)期的效果。因?yàn)樗惴ǖ墓δ芏际轻槍υ脊庾V而言,當(dāng)將多個(gè)算法疊加使用時(shí),僅第一個(gè)預(yù)處理方法處理的是原始光譜,其余算法都是在前處理的基礎(chǔ)上繼續(xù)對光譜進(jìn)行處理,受之前算法的影響,可能達(dá)不到預(yù)期的效果。因此當(dāng)需要使用多種預(yù)處理方法處理光譜數(shù)據(jù)時(shí),要考慮到算法之間的相互影響,嘗試多種算法組合,找出效果最佳的預(yù)處理途徑。
1.4 預(yù)測模型參數(shù)設(shè)置
RBF神經(jīng)網(wǎng)絡(luò)因其能夠逼近任意的非線性函數(shù)、可以處理系統(tǒng)內(nèi)難以解析的規(guī)律性、具有良好的泛化能力和快速的學(xué)習(xí)收斂速度等優(yōu)點(diǎn),在參數(shù)預(yù)測與品質(zhì)分類模型中多有使用。此外由于RBF神經(jīng)網(wǎng)絡(luò)具有唯一最佳逼近的特性,為著重比較分析不同光譜信號預(yù)處理方法對整體預(yù)測結(jié)果的影響,選取RBF神經(jīng)網(wǎng)絡(luò)建立預(yù)測模型。在MATLAB7.0中利用newrbe(P,T,SPREAD)函數(shù)創(chuàng)建一個(gè)精密徑向基網(wǎng)絡(luò),結(jié)構(gòu)如圖1所示,其中,P為輸入矩陣,T為期望輸出矩陣,SPREAD為徑向基函數(shù)的分布密度。網(wǎng)絡(luò)共3層,包括輸入層、單隱層和單節(jié)點(diǎn)輸出層。預(yù)處理后的光譜數(shù)據(jù)矩陣X作為輸入向量P,P的維數(shù)即為網(wǎng)絡(luò)輸入層節(jié)點(diǎn)數(shù),隱層的基函數(shù)采用高斯函數(shù),光譜所對應(yīng)的樣品硬度物化測量值作為模型的期望輸出,均方誤差默認(rèn)為0,經(jīng)多次測試,設(shè)定合適的SPREAD,選擇輸出效果最優(yōu)的模型。
圖1 RBF網(wǎng)絡(luò)結(jié)構(gòu)
研究采用判別系數(shù)(discriminant coefficient,R2)、預(yù)測標(biāo)準(zhǔn)差(standard error of prediction,SEP)、相對分析誤差(ratio of performance to standard deviate,RPD)作為模型的評價(jià)指標(biāo)。其中R2用以反映變量之間的相關(guān)性,SEP用以評價(jià)模型分析的精確度和準(zhǔn)確度,RPD用于評價(jià)模型的穩(wěn)健性和分辨能力。當(dāng)R2和RPD值越大,SEP值越小,所建模型的預(yù)測效果越好。
2.1 樣品集合的劃分
在所采集到的樣品中,異常樣品的存在是不可避免的,會嚴(yán)重影響校正模型的預(yù)測能力,因此建模之前必須將其從樣品集中剔除。采用馬氏距離(Mahalanobis distance)法從111個(gè)樣品中剔除三個(gè)異常樣品,然后用優(yōu)化后的X-Y共生矩陣法(set partitioning based on joint X-Y distance,SPXY)將剩余108個(gè)樣品劃分為校正集和預(yù)測集。SPXY在計(jì)算樣品間距離的同時(shí)將X變量和y變量考慮在內(nèi),分別計(jì)算各變量和變量之間的距離,如式(2)和式(3)
(2)
(3)
式(2)和式(3)中,p和q表示任意兩個(gè)樣品,N是總的樣品數(shù),l為光譜波點(diǎn),dx(p,q)表示兩條光譜的空間距離,dy(p,q)表示對應(yīng)硬度之間的距離。兩個(gè)樣品間的SPXY標(biāo)準(zhǔn)距離計(jì)算公式如式(4)所示
(4)
從式(4)可以看出SPXY能夠有效的覆蓋多維向量空間。但當(dāng)dy(p,q)值越大時(shí),dxy(p,q)值也越大,這將導(dǎo)致兩端的樣品更易被納入到校正集,進(jìn)而造成所選擇的樣品在硬度空間分布不均勻。為了消除該情況對預(yù)測結(jié)果的影響,借助濃度梯度法的思想對SPXY方法進(jìn)行優(yōu)化。優(yōu)化步驟如下。
第一步: 把空間距離最遠(yuǎn)的兩個(gè)樣品選入校正集中,然后再在剩余樣品中挑選校正集樣品。這樣可確??臻g距離最遠(yuǎn)的兩個(gè)樣品(dxy(p,q)最大)被選入校正集,即確保校正集的區(qū)域范圍覆蓋預(yù)測集的范圍。
第二步: 將剩余樣品硬度排序,分成一定個(gè)數(shù)區(qū)間。區(qū)間個(gè)數(shù)可根據(jù)樣品集的大小多次測試選取。
第三步: 在每個(gè)區(qū)間內(nèi)利用SPXY法選出具有代表性的樣品劃入校正集。
采用優(yōu)化后的SPXY算法對數(shù)據(jù)集進(jìn)行劃分,最終選擇84個(gè)樣品作為校正集,用于建立模型,剩余24個(gè)樣品組成預(yù)測集,用以檢驗(yàn)所建模型性能。劃分后的校正集與預(yù)測集分布如圖2所示。圖2中點(diǎn)代表校正集樣品,方框代表預(yù)測集樣品,橫、縱坐標(biāo)都是樣品的硬度指數(shù)。從圖中可以看出,校正集和預(yù)測集在硬度空間分布較為分散,解決了SPXY在性質(zhì)值空間分布不均勻的缺陷。此外集合的選擇考慮到光譜和硬度兩個(gè)綜合因素,所以選擇的校正集具有很強(qiáng)的代表性。
圖2 校正集和預(yù)測集樣品分布圖
2.2 光譜特征的提取
從樣品集中挑選出4個(gè)硬度相差較大的小麥樣品,硬度分別為38.0,48.1,58.1和68.0,所對應(yīng)的光譜圖如圖3所示。從圖3中可以看出,這4個(gè)樣品雖然硬度相差較大,但對應(yīng)光譜的表觀特征相差不大,光譜的波峰都在相同的位置。這說明與背景信息強(qiáng)度相比,樣品待測量特征信息強(qiáng)度在總信息中的權(quán)重不大,屬于弱信息。而這些與樣品信息缺乏相關(guān)性的背景信息卻會影響預(yù)測模型的性能。此外用于建模的校正集數(shù)據(jù)矩陣是84×262,數(shù)據(jù)量較大,如直接用其建立模型,會導(dǎo)致建模運(yùn)算量大,運(yùn)算時(shí)間長。因此如果能夠從原始光譜中提取與樣品信息相關(guān)的光譜特征用于建模,不僅能減少運(yùn)算量,還能降低無關(guān)信息對所建模型預(yù)測精度的影響。
連續(xù)投影算法(successive projections algorithm,SPA)作為一種新興的波長選取方法,利用向量的投影分析,選取含有最低冗余度和最小共線性的有效波長,能夠有效消除眾多波長變量之間的共線性影響,在多種樣品光譜波長選取中取得了很好的效果。嘗試選用SPA選取光譜特征,根據(jù)其原理選取的光譜特征分布如圖4所示,圖中橫坐標(biāo)為波點(diǎn),縱坐標(biāo)為吸光度,方框表示所選取波點(diǎn),這里共選取47個(gè)波點(diǎn)。從圖4中可以看出,所選取的波點(diǎn)大多集中在吸收峰的位置,而吸收峰的縱坐標(biāo)高度取決于樣品中相關(guān)吸光分子的數(shù)量,即樣品的濃度。Swanstonet[14]研究發(fā)現(xiàn)小麥蛋白質(zhì)的含量會影響硬度,它們之間有正相關(guān)的關(guān)系。蛋白質(zhì)的特征譜帶為973~1 020 nm附近的N—H伸縮振動的二級倍頻、1 500~1 530 nm附近的N—H伸縮振動一級倍頻以及2 050~2 060 nm附近的N—H伸縮振動的組合頻吸收。利用SPA所選擇的波點(diǎn)中包含992,1 032,1 496和2 040 nm波點(diǎn),與蛋白質(zhì)的特征波段吻合,這也進(jìn)一步驗(yàn)證了硬度和蛋白質(zhì)含量之間的相關(guān)性。此外,AACC中指定的1 680和2 230 nm波點(diǎn)也被選出作為特征波點(diǎn)。綜上分析可知SPA選取的特征波段能夠涵蓋樣品信息,后續(xù)將通過預(yù)測效果進(jìn)一步說明SPA的有效性。
圖3 4個(gè)小麥樣品近紅外光譜圖
圖4 連續(xù)投影算法選取的光譜點(diǎn)
2.3 預(yù)測結(jié)果分析
小麥樣品的狀態(tài)、光的散射、雜散光以及儀器響應(yīng)等都會對采集到的光譜造成影響,進(jìn)一步影響模型的預(yù)測效果。為保證所建預(yù)測模型的預(yù)測精度,在建模前有必要對原始光譜進(jìn)行預(yù)處理。常用的光譜預(yù)處理方法有平滑、導(dǎo)數(shù)、歸一化、多元散射校正(multiplicative scatter correction,MSC)等[15]。Nan Qu等[16]的研究中使用SNV,MSC和一階導(dǎo)數(shù)分別單獨(dú)對光譜作預(yù)處理,最終發(fā)現(xiàn)當(dāng)單獨(dú)使用SNV處理光譜時(shí)所建的模型效果最好; Sindhuja[17]利用可見光-近紅外光譜檢測柑橘園中黃龍病葉子,分別采用一階導(dǎo)數(shù)、二階導(dǎo)數(shù)以及兩者的結(jié)合處理光譜,結(jié)果發(fā)現(xiàn)當(dāng)采用二階導(dǎo)數(shù)時(shí)檢測效果最好。分析光譜預(yù)處理方法可以看出,導(dǎo)數(shù)和SNV是比較常用且效果較好的光譜預(yù)處理方法,但是已知的文獻(xiàn)資料并沒有對多種方法組合使用時(shí),各方法之間的相互影響和順序?qū)δP皖A(yù)測效果的影響進(jìn)行研究。
將常用的預(yù)處理方法一階導(dǎo)數(shù)、二階導(dǎo)數(shù)、SNV和SPA單獨(dú)以及組合使用處理校正集光譜數(shù)據(jù),并分別建立模型,分析模型的預(yù)測效果。這里應(yīng)注意的是,針對光譜數(shù)據(jù)的所有預(yù)處理應(yīng)該在分組之后進(jìn)行,而且應(yīng)分別對校正集和預(yù)測集進(jìn)行相同的預(yù)處理。因?yàn)樵趯?shí)際應(yīng)用中,所使用的模型應(yīng)該是事先建立好的,對未知樣品進(jìn)行預(yù)測時(shí),只要將需要預(yù)測的樣品與校正集作同樣的處理即可,而不能去改變模型。為了驗(yàn)證預(yù)處理方法的使用順序是否會對模型的預(yù)測結(jié)果造成影響,采用相同的算法而不同的順序處理光譜,預(yù)測結(jié)果如表1所示,表中1D表示一階導(dǎo)數(shù)。從表1中數(shù)據(jù)可看出,相同的預(yù)處理方法不同使用順序得到的結(jié)果不同,特別是第一組中SNV和SPA組合,當(dāng)使用SNV-SPA時(shí),R2為0.90,RPD達(dá)到3.11,而當(dāng)使用SPA-SNV時(shí),R2和RPD分別僅為0.78和2.12,預(yù)測結(jié)果相差較大。其他兩組的預(yù)測結(jié)果也反映出同樣的問題。從上述分析結(jié)果對比可以看出,在使用多種預(yù)處理方法時(shí),不同的使用順序?qū)︻A(yù)測結(jié)果產(chǎn)生不同的影響。
表1 不同預(yù)處理方法順序?qū)?yīng)的模型預(yù)測結(jié)果
為了驗(yàn)證不同數(shù)目的預(yù)處理方法疊加使用的預(yù)測效果,采用不同數(shù)目的預(yù)處理方法處理光譜數(shù)據(jù)并分別建立模型,模型的預(yù)測結(jié)果如表2所示,表中2D表示二階導(dǎo)數(shù)。從表2的三組預(yù)測結(jié)果可以得出結(jié)論: 并不是預(yù)處理方法使用的越多,模型預(yù)測效果越好。例如表2中用SNV-2D-SPA處理光譜數(shù)據(jù)所建立的模型還沒有使用原始光譜數(shù)據(jù)建立的模型預(yù)測效果好。
表2 多種預(yù)處理方法的預(yù)測結(jié)果
綜合分析表1和表2中的數(shù)據(jù),有兩組的R2值大于0.85,RPD最大值達(dá)到3.11,僅有一組的RPD值小于2,參數(shù)SEP最大值為5.00,最小值為3.02; 預(yù)測結(jié)果最好的預(yù)處理方法組合是SNV-SPA,R2和RPD分別達(dá)到0.9和3.11,SEP僅為3.02。根據(jù)Nicolai[18],當(dāng)RPD的值在2和2.5之間時(shí)可以進(jìn)行粗略的變量預(yù)測,當(dāng)RPD的值在2.5和3之間或者大于3的時(shí)候分別能夠?qū)崿F(xiàn)較好的預(yù)測和高精度的預(yù)測。由此可以得出所建RBF模型最終能夠?qū)崿F(xiàn)較高精度的小麥硬度預(yù)測。
采用RBF神經(jīng)網(wǎng)絡(luò)建立小麥硬度的預(yù)測模型,充分利用所提取有效波長的線性和隱含的非線性信息,設(shè)計(jì)合適的光譜數(shù)據(jù)預(yù)處理方法能有效提高模型的精確度,實(shí)現(xiàn)小麥硬度快速準(zhǔn)確的預(yù)測。以111個(gè)小麥樣品為研究對象,利用馬氏距離剔除了三個(gè)異常樣品,使用優(yōu)化后的SPXY劃分集合,然后使用SPA、一階導(dǎo)數(shù)、二階導(dǎo)數(shù)、SNV以及它們的組合對校正集和預(yù)測集進(jìn)行預(yù)處理,并分別建立不同的預(yù)測模型。測試結(jié)果表明當(dāng)采用SNV-SPA組合時(shí),模型預(yù)測結(jié)果最好,R2,RPD和SEP分別達(dá)到0.9,3.11和3.02,能夠?qū)崿F(xiàn)小麥硬度的高精度預(yù)測,可應(yīng)用于小麥育種的篩選,具有一定的實(shí)際意義。此外,通過分析不同預(yù)處理方法對預(yù)測結(jié)果的影響可得出: 當(dāng)采用相同預(yù)處理方法而使用順序不同時(shí),會獲得不同的預(yù)測效果,且并不是使用的預(yù)處理方法越多,模型的預(yù)測結(jié)果越好。所以研究者在對光譜數(shù)據(jù)進(jìn)行預(yù)處理時(shí),應(yīng)注意預(yù)處理方法的使用問題,尋找最恰當(dāng)?shù)姆椒ńM合對最終的結(jié)果具有較大的影響。
[1] Sebastian Gasparis, Waclaw Orczyk, Anna Nadolska-Orczyk. BMC Plant Biology, 2013, 13: 190.
[2] Morten Lillemo, Chen Feng, Xi Xianchun, et al. Journal of Cereal Science, 2006, 44(1): 86.
[3] ZHAO Ren-yong(趙仁勇). Flour Milling(面粉通訊), 2003, 04: 26.
[4] HU Xin-zhong, WEI Yi-min, ZHANG Guo-quan, et al(胡新中,魏益民,張國權(quán),等). Journal of Triticeae Crops(麥類作物學(xué)報(bào)), 2001, 21(4): 22.
[5] Grant M Campbell, Calum Sharp, Kevin Wall, et al. Journal of Cereal Science, 2012, 55(3):415.
[6] WU Cun-rong, TANG Huai-jian, WANG Yan-yan(吳存榮,唐懷建,王艷艷). Cereal & Feed Industry(制粉工業(yè)), 2011, (2): 12.
[7] Silvia Arazuri, Ignacio Arana J, Nerea Arias, et al. Journal of Food Engineering, 2011, 111(1): 115.
[8] Mao Xiaodong, Sun Laijun, Hui Guangyan, et al. Journal of Food and Drug Analysis, 2014, 22(2): 230.
[9] Lankapalli Ravikanth, Chandra B Singh, Digvir S Jayas, et al. Biosystems Engineering, 2015, 135: 73.
[10] Nikiforos Misailidis, Grant M Campbell. Journal of Cereal Science, 2013, 57(2): 222.
[11] Fox G P, Kelly A, N. Sweeney N, et al. Journal Institute of Brewing, 2011, 117: 582.
[12] YUAN Cui-ping, TIAN Ji-chun, WANG Yong-jun(袁翠平, 田紀(jì)春, 王永軍). Journal of Triticeae Crops(麥類作物學(xué)報(bào)), 2004, 02: 106.
[13] Agu R C, Swanston J S, Walker J W, et al. Journal of the Institute of Brewing, 2009, 115(3): 183.
[14] Swanston J S, Smith P L, Agu R C, et al. Field Crops Research, 2012, 127: 146.
[15] WANG Wei-ming, DONG Da-ming, ZHENG Wen-gang(王偉明, 董大明, 鄭文剛). Spectroscopy and Spectral Analysis(光譜學(xué)與光譜分析), 2013, 33(2): 359.
[16] Qu Nan, Mi Hong, Wang Bin, et al. Journal of the Taiwan Institute of Chemical Engineers, 2009, 40(2): 162.
[17] Sindhuja Sankaran, Ashish Mishra, Joe Mari Maja, et al. Computers and Electronics in Agriculture, 2011, 77(2): 127.
[18] Bart M Nicolai, Katrien Beullens, Els Bobelyn, et al. Postharvest Biology and Technology, 2007, 46(2): 99.
(Received Jun. 8, 2015; accepted Oct. 11, 2015)
*Corresponding author
Research on the Pre-Processing Methods of Wheat Hardness Prediction Model Based on Visible-Near Infrared Spectroscopy
HUI Guang-yan1, SUN Lai-jun1*, WANG Jia-nan1, WANG Le-kai2, DAI Chang-jun2
1. Key Laboratory of Electronics Engineering, College of Heilongjiang Province, Heilongjiang University, Harbin 150080, China
2. Cereal and Products Quality Supervisory Inspection and Test Center of Ministry of Agriculture, Harbin 150080, China
Grain hardness is an important quality parameter of wheat which has great influence on the classification, usage and composition research of wheat. To achieve rapid and accurate detection of wheat hardness, radial basis function (RBF) neural network model was built to predict the hardness of unknown samples on the basis of analyzing the absorptive characteristics of the composition of wheat grain in infrared, besides, the effects of different spectral pretreatment methods on the predictive accuracy of models were emphatically analyzed. 111 wheat samples were collected from major wheat-producing areas in China; then, spectral data were obtained by scanning samples. Mahalanobis distance method was used to identify and eliminated abnormal spectra. The optimized method of sample set partitioning based on joint X-Y distance (SPXY) was used to divide sample set with the number of calibration set samples being 84 and prediction set samples being 24. Successive projections algorithm (SPA) was employed to extract 47 spectral features from 262. SPA, first derivatives, second derivatives, standard normal variety (SNV) and their combinations were applied to preprocess spectral data, and the interplay of different prediction methods was analyzed to find the optimal prediction combination. Radial basis function (RBF) was built with preprocessed spectral data of calibration set being as inputs and the corresponding hardness data determined via hardness index (HI) method being as outputs. Results showed that the model got the best prediction accuracy when using the combination of SNV and SPA to preprocess spectral data, with the discriminant coefficient (R2), standard error of prediction (SEP) and ratio of performance to standard deviate (RPD) being 0.844, 3.983 and 2.529, respectively, which indicated that the RBF neural network model built based on visible-near infrared spectroscopy (Vis-NIR) could accurately predict wheat hardness, having the advantages of easy, fast and nondestructive compared with the traditional method. It provides a more convenient and practical method for estimating wheat hardness.
Hardness; Wheat; Visible-near infrared spectroscopy; Successive projections algorithm; Radial basis function
2015-06-08,
2015-10-11
哈爾濱市青年科技創(chuàng)新人才研究專項(xiàng)基金項(xiàng)目(2012RFQXN119)和國家現(xiàn)代農(nóng)業(yè)技術(shù)體系任務(wù)書項(xiàng)目(CARS-3-1-6)資助
惠光艷, 1992年生,黑龍江大學(xué)電子工程學(xué)院碩士研究生 e-mail: hgy4737@126.com *通訊聯(lián)系人 e-mail: slaijun@126.com
S512.1
A
10.3964/j.issn.1000-0593(2016)07-2111-06