(1.江蘇大學(xué)食品與生物工程學(xué)院,鎮(zhèn)江 212013;2. 無錫迅杰光遠科技有限公司,無錫 214028;3.江蘇大學(xué)機械工程學(xué)院,鎮(zhèn)江 212013)
大豆作為我國主要的經(jīng)濟農(nóng)作物,具有分布范圍廣,營養(yǎng)價值高,小規(guī)模種植為主的特點。其種植特點對大豆的現(xiàn)場收購造成一定的難度。目前市場上大豆收購價格的定價主要依據(jù)是大豆的粗蛋白含量,對于小型的大豆收購商及豆農(nóng),傳統(tǒng)的經(jīng)驗判斷缺乏公信力,很難讓別人信服;而凱氏定氮法等理化方法存在操作復(fù)雜,檢測所需時間長,以及存在人為因素干擾等問題[1]。
近紅外光譜法作為一種快速檢測方法,依據(jù)信息來自于含氫基團C-H、O-H、N-H基頻振動的倍頻和組合頻,具有采樣速度快、操作簡單的特點,已成為農(nóng)產(chǎn)品無損檢測的主要手段之一[2]?;贛EMS技術(shù)的便攜式近紅外光譜儀,具有體積小,抗震,準確性好的特點,近年來在現(xiàn)場分析檢測領(lǐng)域得到了廣泛的應(yīng)用[3]。但近紅外光譜譜峰寬且重疊嚴重,光譜的解釋性較差,需要借助化學(xué)計量學(xué)方法才能進行定量分析。偏最小二乘(Partial least squares, PLS)雖具有良好的抗干擾能力,可全光譜參與校正模型的建立[4],但光譜中的噪聲信號以及沉余信息很容易擴大其估計方差,降低校正模型的精度和穩(wěn)定性[5]。
特征波長優(yōu)選可以剔除噪聲過大的譜區(qū),減少波長變量,提高測量速度;通過剔除線性模型下相關(guān)性很小的變量,得到穩(wěn)健性好、預(yù)測能力強的校正模型[6]。目前,常用的波長選擇方法主要有相關(guān)系數(shù)法(Correlation Coefficients, CC)、無信息變量消除(Elimination of Uninformative Variables, UVE)、連續(xù)投影算法(Successive Projections Algorithm, SPA)、遺傳算法(Genetic Algorithms, GA)[7]、競爭性自適應(yīng)權(quán)重取樣法(Competitive Adaptive Reweighted Sampling, CARS)[8]和后向間隔偏最小二乘(Backwards interval PLS , BiPLS)方法[9]等。本文介紹了基于IAS-2000便攜式谷物分析儀的大豆籽粒漫反射近紅外光譜,利用競爭性自適應(yīng)權(quán)重取樣法(CARS)優(yōu)選出與粗蛋白含量相關(guān)的特征變量來建立PLS模型,并與其他光譜預(yù)處理方法的校正模型進行了比較。
近紅外光譜儀器:試驗采用IAS-2000型便攜式谷物分析儀,如圖1所示,儀器采用上照式漫反射檢測模式。該儀器是基于MEMS技術(shù)的可編程固定光柵近紅外光譜儀,核心部件為線性掃描的數(shù)字微鏡器件(Digital Micro-mirror Device, DMD),使用銦鎵砷(InGaAs)單點探測器,儀器的工作光譜范圍900 nm ~1700nm,原始采樣點 256個,經(jīng)插值處理,波長間隔為1nm ,共801個波長點,光譜分辨率 12.87nm,儀器的光路結(jié)構(gòu)如圖1(B)所示。
圖1 IAS-2000便攜式谷物分析儀(A).儀器外形;(B).儀器內(nèi)部的光路結(jié)構(gòu)
試驗所用的大豆樣品來自黑龍江地區(qū)總計239個獨立樣本。樣品的光譜掃描在25°C條件下進行。大豆粗蛋白的測定依據(jù)國標GB/T 5511—2018《谷物和豆類氮含量測定和粗蛋白質(zhì)含量計算凱氏法》,使用K1100Q半自動型凱氏定氮儀進行。
所有大豆樣品的近紅外原始光譜如圖2(A) 所示。
采用CARS、GA、CC、BiPLS作為波長優(yōu)選算法;數(shù)據(jù)預(yù)處理選用了標準正態(tài)變量變換(SNV);PCA結(jié)合馬氏距離異常樣本剔除;SPXY(Sample set Partitioning based on joint X-Y distance)及K-S法進行校正樣品劃分;偏最小二乘(PLS)進行定量校正模型的建立等。以上算法均在MATLAB 2016a環(huán)境下運行。樣品經(jīng)SNV處理后的光譜如圖2(B)所示。
圖2 大豆樣品經(jīng)SNV處理前后光譜(A). 239個大豆樣品近紅外光譜圖 ; (B) .樣品經(jīng)SNV處理后光譜
由于大豆的粒徑差異以及顆粒物的裝樣很難保證每次完全一致,在上照式漫反射近紅外光譜儀的光譜采樣過程中,光程和漫反射光會產(chǎn)生一定的變化,導(dǎo)致譜圖的重復(fù)性較差。為了獲取可靠、穩(wěn)定的模型,需要對原始光譜進行預(yù)處理過濾無用信息,降低模型的復(fù)雜度。標準正態(tài)變量變換(SNV)是基于統(tǒng)計學(xué)方法的用以修正因為散射導(dǎo)致的光譜線性變化,對于消除固體顆粒大小、表面散射以及光程變化對近紅外漫反射光譜的影響很有幫助,采用SNV處理后結(jié)果如圖2(B)。由于在預(yù)處理之后光譜兩端的噪聲比較大,因此在建模前去掉全光譜801個點兩端各50個光譜點,實際使用光譜范圍950 nm ~1650nm,其中每條光譜包含701個數(shù)據(jù)點。
在采用SNV方法對大豆近紅外光譜進行處理的基礎(chǔ)上,使用主成分分析(PCA)求得樣本光譜的得分矩陣,并依據(jù)得分矩陣來計算因子空間的馬氏距離,選取前面4個主成分的得分進行馬氏距離計算,設(shè)馬氏距離權(quán)重閾值e為1.5[10]。得到239個樣品的馬氏距離分布(見圖3)。
圖3 239個樣本的馬氏距離分布圖
從圖3可以清晰的看到,通過馬氏距離的計算可以發(fā)現(xiàn)存在幾個異常樣本,如29、26、114、219等,剔除異常值樣本可以提高校正模型的穩(wěn)定性和準確性[10]。
校正集和預(yù)測集樣本的選擇對模型的質(zhì)量有著重要的影響,對于校正集樣本的選擇,通常采用樣本均勻分布的方法,這樣可以保證樣本的代表性,本實驗的樣本選擇方法為SPXY (Sample set Partitioning based on joint X-Y distance)法,該方法是在K-S方法的基礎(chǔ)上提出的,在計算樣本之間的距離時同時兼顧了光譜及濃度為特征參數(shù)。
對除去異常值后保留的235個樣本利用SPXY法劃分,校正集與預(yù)測集樣品數(shù)的劃分比例為 3∶1,其劃分結(jié)果如表1所示,從中可以看出校正集樣品蛋白含量范圍33.84 %~46.32 %大于驗證集34.66%~41.26%,這樣的劃分是合理的[11]。
表1 SPXY法選取的大豆校正集與預(yù)測集樣品的劃分
競爭性自適應(yīng)重加權(quán)算法[8](CARS) 模仿的是進化論中的“適者生存”法則,通過定義波長貢獻度結(jié)合指數(shù)衰減函數(shù)(EDF)篩選出PLS模型中回歸系數(shù)絕對值較大的波長點,再通過N次蒙特卡洛采樣,每次在校正集中隨機挑選80%~90%的樣本建立PLS模型,采用自適應(yīng)重加權(quán)采樣(ARS)技術(shù)進一步篩選波長變量,最后通過交互檢驗(CV)選出模型交互驗證均方差(RMSECV)值最低的子集,即為最優(yōu)變量子集。為提高校正模型的預(yù)測精度,在樣品劃分的基礎(chǔ)上對波長采用CARS進行優(yōu)選。首先采用蒙特卡洛采樣500次,每次抽取80%的樣本作為校正集,建立PLS回歸模型,再利用指數(shù)衰減函數(shù)(EDF)去除波長權(quán)重對模型貢獻度小的波長點,最后以交互驗證均方根誤差(root mean square error of cross-validation, RMSECV)作為評價指標,選擇RMSECV值最小的變量子集,作為最優(yōu)變量集?;贑ARS的校正集175個樣品波長篩選過程如圖4所示,圖4(A)表示光譜數(shù)據(jù)變量個數(shù)與CARS運行次數(shù)的變化關(guān)系,隨著運行次數(shù)的增加變量數(shù)的變化由快到慢呈遞減的趨勢[12];圖4(B)為10折交互檢驗得到的RMSECV值隨著運行次數(shù)的變化關(guān)系,在前47次運行時,RMSECV值呈逐漸減小的過程,無關(guān)變量被剔除后模型預(yù)測均方根誤差減小,隨著運行次數(shù)逐漸增加,核心變量被剔除模型均方根誤差增大。圖4(C)中每條線表示1個變量回歸系數(shù)隨著運行次數(shù)的變化趨勢,一連串“*”表示的直線與回歸變量組相交的點即為殘差最低點。
圖4 大豆蛋白數(shù)據(jù)變量篩選圖(A).保留波長數(shù); (B).交互驗證標準差 ;(C).波長變量回歸系數(shù)
經(jīng)過CARS波長優(yōu)選,最終優(yōu)選的變量數(shù)為46個波長點,采用CARS優(yōu)選的變量建立的校正模型主成分因子數(shù)為9個,相較于全光譜模型的11個主成分,主成分因子數(shù)降低,說明CARS波長優(yōu)選起到了簡化模型的效果。校正模型對樣本預(yù)測值與實際理化值之間的散點圖如圖5所示。圖5 (A)為CARS算法優(yōu)選的波長點建立的校正模型,在校正集中相關(guān)系數(shù)()及交互驗證均方根誤差(RMSECV)分別為0.9693和0.3898;在預(yù)測集中相關(guān)系數(shù)(Rp)及模型預(yù)測均方根誤差(RMSEP)分別為0.9589和0.4015。圖5(B)為全光譜建立的校正模型,在校正集中相關(guān)系數(shù)(Rc)及交互驗證均方根誤差(RMSECV)分別為0.9543和0.4119;在預(yù)測集中相關(guān)系數(shù)(Rp)及模型預(yù)測均方根誤差(RMSEP)分別為0.9534和0.4388。通過與全光譜模型對比可以看出經(jīng)過CARS波長優(yōu)選,光譜變量總數(shù)由701減少到46個,在簡化了模型的同時提高了模型的精度。
圖5 校正模型預(yù)測值和實測值的散點圖(A) .CARS-PLS;(B).PLS
為了檢驗使用CARS-PLS建立的模型與使用全光譜PLS建立的模型穩(wěn)定性,隨機選擇了預(yù)測集樣本中5個蛋白含量分布較寬的大豆樣本,每個樣品1天測定10次,儀器參數(shù)不變,共進行3天。通過對比預(yù)測結(jié)果極差與均方根值,判斷模型的穩(wěn)定性。圖6(A)表示了使用CARS-PLS建立的模型的穩(wěn)定性數(shù)據(jù),其5個樣本平均極差及均方根值分別為0.86、0.2335;圖6(B)表示了使用全光譜PLS建立的模型的穩(wěn)定性數(shù)據(jù),5個大豆樣本3天測試平均極差及均方根值分別為1.12、0.3335。表明經(jīng)過CARS波長優(yōu)選,模型的穩(wěn)定性也得到了提升。CARS-PLS建立的模型在大豆粗蛋白模型與其他幾種方法(CARS-PLS、GA-PLS、相關(guān)系數(shù)法建立的模型以及波段優(yōu)選BiPLS)建立的模型相比較,結(jié)果如表2所示。從表中可以看出與GA、相關(guān)系數(shù)法及BiPLS模型相比,CARS-PLS模型的穩(wěn)定性及預(yù)測準確性最好。
圖6 模型預(yù)測結(jié)果長期穩(wěn)定性散點圖(A). CARS-PLS; (B). PLS
表2 不同PLS校正模型下的結(jié)果分析
由表2可以看出,全光譜PLS建模過程中由于光譜中包含了大量與蛋白含量無關(guān)的數(shù)據(jù)點,在一定程度上對校正模型的預(yù)測能力產(chǎn)生了影響;并且由于數(shù)據(jù)量非常大,建模及預(yù)測過程中耗時且對設(shè)備性能要求較高。GA-PLS及BiPLS都剔除了大量與大豆蛋白含量無關(guān)的數(shù)據(jù)點,但在模型準確性上前者要優(yōu)于后者。但是GA屬于全局尋優(yōu),隨機性較強,并且在樣本量過多時必需進行數(shù)據(jù)壓縮,否則,很容易出現(xiàn)過擬合現(xiàn)象,而變量壓縮的方法選取也會對結(jié)果造成較大影響,因此,在建模及預(yù)測過程中很難保證結(jié)果的一致性;BiPLS屬于波段優(yōu)選,共有245個波長點參與了校正模型的建立,雖優(yōu)于全光譜701個波長點,但數(shù)據(jù)量還是很龐大。
本研究采用競爭性自適應(yīng)權(quán)重取樣法(CARS)作為國產(chǎn)便攜式近紅外光譜儀在大豆粗蛋白含量測定過程中的波長優(yōu)選算法。在進行波長優(yōu)選過程中,針對大豆顆粒的裝樣及所采用的便攜式近紅外光譜儀特性,選擇了標準正態(tài)變量變換(SNV)作為光譜數(shù)據(jù)預(yù)處理方法,利用SPXY法作為校正集與預(yù)測集樣品劃分方法,用競爭性自適應(yīng)權(quán)重取樣法(CARS)對大豆近紅外光譜進行特征波長選取。再通過對比CARS、遺傳算法(GA)、相關(guān)系數(shù)法(CC)及后向間隔偏最小二乘(BiPLS)優(yōu)選的特征波長/波段使用PLS算法建立的校正模型。結(jié)果表明使用CARS-PLS建立的模型明顯優(yōu)于其他模型,不僅減少了建模所用的變量數(shù),而且校正模型的預(yù)測精度及穩(wěn)定性也得到了提高。