田 瓊,馬新華,袁俊杰,龍 陽(yáng),洪武興,盧韻宇
(湛江海關(guān)技術(shù)中心,廣東湛江 524022)
大豆,又稱黃豆、黃大豆,為一年生草本植物原產(chǎn)于中國(guó),在新石器時(shí)代已有栽培。大豆是一種重要的糧油兼農(nóng)產(chǎn)品,其植物蛋白質(zhì)含量為35%~45%,富含多種人體必備的氨基酸[1]。同時(shí),大豆油富含亞油酸,有降低血清膽固醇含量、預(yù)防心血管疾病的功效[2]。我國(guó)是世界上最大的大豆進(jìn)口國(guó),據(jù)海關(guān)統(tǒng)計(jì),2019年我國(guó)大豆進(jìn)口總量8551.1萬(wàn)噸,近年來(lái)我國(guó)進(jìn)口大豆總量和對(duì)外依存度一直維持高位,各來(lái)源國(guó)的大豆質(zhì)量參差不齊,其安全問(wèn)題越來(lái)越受到關(guān)注[3-6]。因此,研究快速、有效的進(jìn)口大豆產(chǎn)地識(shí)別方法對(duì)加強(qiáng)原產(chǎn)地管理和進(jìn)口大豆質(zhì)量安全監(jiān)管具有重要意義。
近紅外光譜(Near Infrared Spectrum)技術(shù)具有操作簡(jiǎn)單、快速、非破壞、無(wú)污染等特點(diǎn),被廣泛地應(yīng)用食品、農(nóng)產(chǎn)品的品質(zhì)分析[7-10]和產(chǎn)地識(shí)別[11-14]。趙海燕等[15]應(yīng)用近紅外光譜儀對(duì)中國(guó)小麥主產(chǎn)區(qū)河北省、河南省、山東省和陜西省共240份小麥籽粒樣品,采用偏最小二乘判別分析法建模型,總體準(zhǔn)確率達(dá)到80%以上。李勇等[16]利用近紅外分析儀對(duì)江蘇、遼寧、湖北、黑龍江4個(gè)省份的169個(gè)大米樣品進(jìn)行了檢測(cè),利用蒙特卡羅模擬方法(Monte Carlo method)判別4個(gè)省份的大米產(chǎn)地,預(yù)測(cè)準(zhǔn)確率達(dá)90%以上。
在大豆產(chǎn)地識(shí)別研究方面,研究人員主要基于大豆的有機(jī)組分[17-18]和礦物質(zhì)含量[19-20],對(duì)國(guó)內(nèi)不同產(chǎn)區(qū)大豆進(jìn)行產(chǎn)地鑒別。鹿保鑫等[21]測(cè)定了黑龍江嫩江及北安共168份大豆中的礦物元素含量及蛋白質(zhì)、脂肪、可溶性總糖和灰分含量;采用步進(jìn)式方法篩選出10種特征指標(biāo),建立判別模型對(duì)訓(xùn)練集大豆產(chǎn)地整體準(zhǔn)確率達(dá)95%以上;結(jié)果表明7種礦物元素(Mn、As、Sr、La、Nd、Tb、Hf)和3種有機(jī)成分(蛋白質(zhì)、脂肪、可溶性總)是用于大豆產(chǎn)地判別的主要特征指標(biāo),攜帶了充分的產(chǎn)地判別信息。目前,對(duì)于進(jìn)口大豆產(chǎn)地識(shí)別相關(guān)報(bào)道較少,主要有國(guó)內(nèi)的張勇等[22]采用氣相色譜-質(zhì)譜法(gas chromatography mass spectrometry)測(cè)定48份進(jìn)口大豆(美國(guó)15份、巴西15份、加拿大10份、阿根廷4份、烏拉圭4份)和48份國(guó)產(chǎn)大豆的脂肪酸組成,采取隨機(jī)森林方法建立了進(jìn)口大豆與國(guó)產(chǎn)大豆間的判別模型,交互檢驗(yàn)預(yù)測(cè)準(zhǔn)確率達(dá)95%以上,可有效區(qū)分進(jìn)口大豆與國(guó)產(chǎn)大豆;日本的Akiko Otaka等[23]采用能量色散X射線熒光光譜儀(Energy Dispersive X-Ray Fluorescence Spectrometer)測(cè)定46個(gè)大豆樣本(日本23個(gè),美國(guó)8個(gè),中國(guó)7個(gè),加拿大7個(gè),美國(guó)加拿大混合樣1個(gè))的8個(gè)元素(Mg、P、Cl、K、Mn、Cu、Br和Ba),采取主成分分析能夠區(qū)分日本和非日本的大豆樣本。這兩篇報(bào)道的研究?jī)?nèi)容僅局限于本國(guó)大豆與國(guó)外大豆兩者之間的識(shí)別,由于收集的不同國(guó)別大豆樣本量有限,均未進(jìn)一步對(duì)不同國(guó)別大豆進(jìn)行產(chǎn)地識(shí)別。
本研究基于主成分分析和人工神經(jīng)網(wǎng)絡(luò),采用近紅外光譜技術(shù)建立了進(jìn)口大豆的產(chǎn)地識(shí)別模型,收集166組2017~2019年間進(jìn)口大豆的近紅外光譜數(shù)據(jù),經(jīng)數(shù)據(jù)預(yù)處理后,采用主成分分析、人工神經(jīng)網(wǎng)絡(luò)等算法,建立進(jìn)口大豆(阿根廷、巴西、烏拉圭、美國(guó))產(chǎn)地識(shí)別模型,為加強(qiáng)進(jìn)口大豆質(zhì)量安全管理及海關(guān)原產(chǎn)地管理,提供有效技術(shù)支持。
試驗(yàn)樣品 采集166組大豆樣本,分別來(lái)自湛江、黃埔、張家港、泉州、深圳、南沙、汕頭、陽(yáng)江等口岸在2017~2019年入境的留存樣品,去除雜質(zhì)、破碎粒后,得到阿根廷14組、巴西90組、烏拉圭26組、美國(guó)36組,合計(jì)166組大豆試驗(yàn)樣本。
Infraxact近紅外分析儀(檢測(cè)器:硅570~1100 nm,銦鎵砷1100~1850 nm) 瑞典Foss公司。
1.2.1 紅外光譜測(cè)定 參考GB/T 24870-2010[24]測(cè)定大豆樣品的近紅外光譜。在室溫下,將約200 g的整粒大豆樣品,采用自然裝樣方式,掃描波長(zhǎng)范圍570~1848 nm,光譜采樣間隔(波段寬)2 nm,波數(shù)據(jù)采集頻率3 s/次,掃描20次取平均值。
1.2.2 光譜數(shù)據(jù)預(yù)處理 采用箱型圖校正法,剔除異常樣本。采用多元散射校正(multiplicative scatter correction,MSC)、標(biāo)準(zhǔn)正態(tài)變量(standard normal variate,SNV)、Savitzky-Golay(SG)平滑濾波及它們之間相互組合,進(jìn)行光譜數(shù)據(jù)預(yù)處理。
1.2.3 識(shí)別模型及評(píng)價(jià) 首先主成分分析法進(jìn)行數(shù)據(jù)降維,在此基礎(chǔ)上,采用常見(jiàn)三種模式識(shí)別算法,支持向量機(jī)(support vector machine, SVM),鄰近算法(K-nearest neighbor,KNN)與人工神經(jīng)網(wǎng)絡(luò)法(artificial neural network,ANN)分別建立識(shí)別模型。隨機(jī)選取70%的樣品為訓(xùn)練集,30%的樣品為測(cè)試集(ANN分別選取15%的樣品為驗(yàn)證集、測(cè)試集)。識(shí)別模型的效果評(píng)價(jià),以測(cè)試集準(zhǔn)確率為依據(jù)。
準(zhǔn)確率表示模型預(yù)測(cè)結(jié)果的準(zhǔn)確程度,準(zhǔn)確率用公式(1)表示:
使用MATLAB R2020a進(jìn)行箱型圖校正、MSC、SNV、SG平滑濾波、主成分分析,采用分類學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)模式識(shí)別工具箱建立產(chǎn)地識(shí)別模型。使用Office Excel 2016繪制圖形。
近紅外光譜是有機(jī)分子中與氫相連化學(xué)鍵振動(dòng)的合頻和倍頻吸收,如圖1所示:在920 nm處的吸收峰與脂肪族烴中C-H2振動(dòng)有關(guān);在1200 nm處的吸收峰與水分和脂肪中的C-H鍵、O-H鍵及C=O鍵的振動(dòng)有關(guān);在1464 nm處的吸收峰與蛋白質(zhì)中的N-H鍵伸縮振動(dòng)一級(jí)倍頻吸收有關(guān),1760 nm處的吸收峰與脂肪中的C-H鍵振動(dòng)有關(guān),1788 nm處的吸收峰與水分中的O-H鍵振動(dòng)倍頻吸收有關(guān)。結(jié)果表明,由于不同國(guó)別大豆的脂肪、蛋白質(zhì)、水分含量不同,造成近紅外光譜存在一定差異,但走勢(shì)大體一致,需要對(duì)光譜數(shù)據(jù)做進(jìn)一步處理。
圖1 大豆近紅外原始光譜圖Fig.1 Original NIR spectrum of soybeans
對(duì)166組大豆樣本近紅外原始譜圖,做箱型圖分析。如圖2所示,十字圖形數(shù)據(jù)為離群值(范圍±1.5倍四分位距以外的值),被視為異常值。刪除了光譜數(shù)據(jù)異常的12組樣本,其中阿根廷2組,巴西5組,烏拉圭5組,剔除完成后,得到最終使用的154組樣本近紅外光譜數(shù)據(jù)集,其中阿根廷12組、巴西85組、烏拉圭21組、美國(guó)36組。
圖2 近紅外原始光譜數(shù)據(jù)的箱型圖Fig.2 Box plot graph of the original NIR spectrum
為消除在采集光譜信息過(guò)程中基線漂移、樣本差異、環(huán)境光線等其他因素的干擾,對(duì)154組樣本近紅外光譜數(shù)據(jù)集,采用MSC、SNV、SG平滑濾波及它們之間相互組合等手段預(yù)處理光譜。以ANN建模,用總體測(cè)試集準(zhǔn)確率評(píng)價(jià)光譜預(yù)處理效果,如表1所示。
表1 不同預(yù)處理方法對(duì)建模的影響Table 1 Effects of different pretreatment methods on modeling
由表1可見(jiàn),選取采用SG平滑濾波法,選用平滑窗口為3,再進(jìn)行MSC預(yù)處理,得到預(yù)處理后的大豆近紅外光譜數(shù)據(jù)集,建模效果最好。結(jié)合圖3所示,光譜數(shù)據(jù)經(jīng)過(guò)預(yù)處理,能夠較好地消除高頻噪聲、基線漂移的影響。
圖3 SG、MS預(yù)處理后的大豆光譜Fig.3 NIR spectrum after SG and MSC pretreatment
主成分分析(Principal Component Analysis,PCA)是一種多元統(tǒng)計(jì)分析方法。通過(guò)正交變換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量,轉(zhuǎn)換后的這組變量叫主成分。主成分分析能夠有效地降維數(shù)據(jù),并消除眾多信息相互重疊的信息部分。實(shí)驗(yàn)采集的大豆樣品圖譜從570~1848 nm共有640數(shù)據(jù)點(diǎn),數(shù)據(jù)量大,冗余信息多。如表2所示,前10個(gè)主成分的累積方差貢獻(xiàn)率已達(dá)到99.966%,說(shuō)明前10個(gè)變量很好地表征了原始數(shù)據(jù)集的主要特征信息,進(jìn)而數(shù)據(jù)集從154×640減少到154×10(10個(gè)主成分)。
表2 主成分分析累積方差貢獻(xiàn)率Table 2 Cumulative variance contribution of principal component analysis
如圖4所示,在PC1和PC2的主成分得分圖中,巴西樣本主要分布在第1象限、第2象限和第4象限;美國(guó)樣本主要分布在第1象限、第2象限和第3象限;阿根廷樣本主要分布在第3象限和第4象限,烏拉圭樣本主要分布在第3象限和第4象限。四個(gè)國(guó)家的樣本分布過(guò)于分散,且重疊嚴(yán)重。在PC2和PC3的主成分得分圖中,阿根廷樣本分布在第三象限,與分布在第二象限和第四象限的烏拉圭樣本能夠明顯區(qū)分開(kāi)來(lái),但烏拉圭樣本與美國(guó)、巴西樣本都有重疊,且四個(gè)產(chǎn)地樣本都有一定程度的重疊,故在主成分分析的基礎(chǔ)上,需進(jìn)一步優(yōu)化算法,提高識(shí)別模型的準(zhǔn)確率。
圖4 PC1、PC2、PC3的主成分得分圖Fig.4 Principal component scores of PC1, PC2 and PC3
選取主成分分析得到前10個(gè)主成分(154×10維矩陣)為輸入向量;設(shè)置“1”代表阿根廷大豆樣本,“2”代表巴西大豆樣本,“3”代表烏拉圭大豆樣本,“4”代表美國(guó)大豆樣本,作為目標(biāo)向量,建立識(shí)別模型。訓(xùn)練集,測(cè)試集分別按照70%、30%的比例隨機(jī)選取,即從154個(gè)樣本中隨機(jī)抽取108個(gè)樣本為訓(xùn)練集,46個(gè)樣本為測(cè)試集。分別采用SVM、KNN、BP-ANN建立識(shí)別模型。
SVM是一種基于核的算法,其原理是把輸入數(shù)據(jù)映射到一個(gè)高階的向量空間,在這些高階向量空間里,有些分類能夠更容易的解決。采用SVM算法優(yōu)化參數(shù),設(shè)定核函數(shù)為線性,核尺度為自動(dòng),框約束級(jí)別為1,多類方法為一對(duì)一,建立識(shí)別模型。
KNN是一種基于實(shí)例的算法,其原理是選取一定量的樣本數(shù)據(jù),然后根據(jù)特征近似性把新數(shù)據(jù)與樣本數(shù)據(jù)進(jìn)行比較。通過(guò)這種方式來(lái)尋找最佳的匹配,進(jìn)而實(shí)現(xiàn)分類。采用KNN算法,優(yōu)化參數(shù),設(shè)定鄰點(diǎn)個(gè)數(shù)為1,距離度量為歐幾里得(Eulidean),距離權(quán)重為等距離,建設(shè)識(shí)別模型。
ANN是一種強(qiáng)有力的模仿人腦神經(jīng)細(xì)胞的結(jié)構(gòu)和功能的學(xué)習(xí)系統(tǒng),能夠?qū)崿F(xiàn)輸入與輸出之間的高度非線性映射。采用ANN算法,訓(xùn)練集、驗(yàn)證集、測(cè)試集分別按照70%、15%和15%的比例隨機(jī)選取,即從154個(gè)樣本中隨機(jī)抽取108個(gè)樣本為訓(xùn)練集,23個(gè)樣本為驗(yàn)證集,23個(gè)樣本為測(cè)試集。訓(xùn)練集用于網(wǎng)絡(luò)訓(xùn)練時(shí)權(quán)值的調(diào)整,驗(yàn)證集用于提前停止訓(xùn)練以避免過(guò)擬合,測(cè)試集用于網(wǎng)絡(luò)訓(xùn)練結(jié)束后,測(cè)試網(wǎng)絡(luò)訓(xùn)練效果時(shí)使用。為了提高預(yù)測(cè)準(zhǔn)確率與計(jì)算效率,優(yōu)化模型參數(shù),隱藏層節(jié)點(diǎn)數(shù)設(shè)定為10,學(xué)習(xí)速率為0.01,動(dòng)量因子設(shè)定為0.95時(shí),經(jīng)過(guò)23次迭代,建立識(shí)別模型。
三種算法的建模效果如表3所示,采用SVM建模,總體測(cè)試集準(zhǔn)確率89.13%,其中烏拉圭準(zhǔn)確率較低為66.67%;采用KNN建模,識(shí)別效果有所改善,總體測(cè)試集準(zhǔn)確率為91.30%,其中烏拉圭準(zhǔn)確率提高為70.00%;采用BP-ANN建模效果最好,總體測(cè)試集準(zhǔn)確率最高為95.65%,其中阿根廷、巴西、美國(guó)準(zhǔn)確率均為100%,烏拉圭準(zhǔn)確率為80%。
表3 不同算法建模的總體測(cè)試集準(zhǔn)確率Table 3 Accuracy of total test set by different algorithms modeling
采用ANN建立的模型具有良好的鑒別能力,能夠準(zhǔn)確識(shí)別大豆樣本的產(chǎn)地國(guó)別信息。如表4所示,全部數(shù)據(jù)集準(zhǔn)確率為98.70%,預(yù)測(cè)結(jié)果的錯(cuò)誤數(shù)為2,具體為1個(gè)“阿根廷”被誤判為“烏拉圭”,1個(gè)“美國(guó)”被誤判為“烏拉圭”,說(shuō)明所建立的ANN模型具有一定泛化能力。
表4 人工神經(jīng)網(wǎng)絡(luò)識(shí)別結(jié)果Table 4 Results of artificial neural network prediction
采用箱型圖校正法,剔除異常樣本,經(jīng)SG平滑濾波、MSC處理原始紅外光譜。采用主成分分析降維,將前10個(gè)主成分作為ANN模型輸入向量,在學(xué)習(xí)速率為0.01,動(dòng)量因子設(shè)定為0.95,輸出層節(jié)點(diǎn)為4,隱藏層節(jié)點(diǎn)為10時(shí),模型識(shí)別測(cè)試集準(zhǔn)確率為95.65%,全部數(shù)據(jù)集準(zhǔn)確率為98.70%,只有2個(gè)樣本判斷錯(cuò)誤。由此可見(jiàn),基于ANN模型的近紅外光譜檢測(cè)技術(shù)能夠快速、準(zhǔn)確地鑒別大豆產(chǎn)地,為加強(qiáng)進(jìn)口大豆質(zhì)量安全管理和原產(chǎn)地管理提供科學(xué)依據(jù)。