焦 俊,圣 陽(yáng),馬 鑫,李紹辰,滕 燕,李 春,蔣 玲
(南京林業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院,江蘇 南京210037)
核桃在我國(guó)栽培歷史悠久,分布廣泛,品種眾多,是世界著名的4大堅(jiān)果之一[1]。由于不同品種的核桃品質(zhì)存在差異,加工適應(yīng)性也有所不同,核桃品種鑒別在核桃生產(chǎn)加工中顯得尤為重要,急需一種普遍適用的低成本、環(huán)保、快速和準(zhǔn)確的核桃品種鑒別方法。
傳統(tǒng)的核桃品種鑒別有基于形態(tài)學(xué)、細(xì)胞學(xué)、孢粉學(xué)、同工酶和分子標(biāo)記等鑒定方法,這些方法受環(huán)境和實(shí)驗(yàn)條件影響較大,導(dǎo)致識(shí)別的準(zhǔn)確性也受到限制,且材料收集周期長(zhǎng),操作煩瑣[2-7]。紅外光譜技術(shù)因其具有檢測(cè)速度快、檢測(cè)過(guò)程簡(jiǎn)單、對(duì)樣品破壞性小的特點(diǎn),已被廣泛地應(yīng)用于農(nóng)產(chǎn)品的定性鑒別及定量檢測(cè)[8-9]。何勇等[10]選用中紅外光譜進(jìn)行分析,實(shí)現(xiàn)核桃品種及產(chǎn)地的判別,其中品種的識(shí)別率為83.3%。ZHU H等[11]將中紅外光譜技術(shù)與機(jī)器學(xué)習(xí)算法相結(jié)合對(duì)核桃進(jìn)行產(chǎn)地和品種的區(qū)分,經(jīng)特征波段選取后采用反向傳播神經(jīng)網(wǎng)絡(luò)模型將品種識(shí)別率提高到87.88%。馬文強(qiáng)等[12]和賈昌路等[13]分別對(duì)核桃的仁和殼進(jìn)行近紅外光譜掃描,通過(guò)所得光譜數(shù)據(jù)分析品種間差異,前者建立的支持向量機(jī)模型識(shí)別準(zhǔn)確率達(dá)96%。LUIGI A等[14]采用近紅外光譜技術(shù)結(jié)合偏最小二乘判別分析準(zhǔn)確地鑒別出意大利南部的索倫托地區(qū)出產(chǎn)的索倫托核桃,準(zhǔn)確率達(dá)98.3%??偟膩?lái)說(shuō),采用近紅外光譜數(shù)據(jù)的建模效果遠(yuǎn)遠(yuǎn)好于中紅外光譜數(shù)據(jù),說(shuō)明核桃在近紅外波段更能體現(xiàn)品種間差異,這是由于不同核桃品種的蛋白質(zhì)、糖分和影響口感的酚類(lèi)物質(zhì)等含量差異明顯。這些物質(zhì)分別對(duì)應(yīng)N-H、C-H和O-H官能團(tuán),而不同化學(xué)鍵在對(duì)應(yīng)的波段會(huì)被吸收,如C-H和O-H的合頻吸收分別出現(xiàn)在1 410~1 470和1 920~2 050 nm波段,N-H的合頻吸收出現(xiàn)在2 100 nm附近,均處于近紅外波段范圍內(nèi)。因此,相比中紅外波段,近紅外波段所含核桃的物質(zhì)信息更豐富。
處于遠(yuǎn)紅外波段的太赫茲波對(duì)生物分子間的作用力更敏感,很多生物大分子的振動(dòng)和轉(zhuǎn)動(dòng)能級(jí)都位于該波段,物質(zhì)的太赫茲光譜(發(fā)射、反射和透射光譜)包含豐富的物理和化學(xué)信息,可實(shí)現(xiàn)樣品的無(wú)損檢測(cè)[15]。前人均只采用單一光譜波段進(jìn)行研究,并通過(guò)對(duì)比多種分類(lèi)模型,往往僅有一種效果較好,即使通過(guò)尋優(yōu)算法調(diào)參,識(shí)別率也很難達(dá)到100%。本研究首次將遠(yuǎn)紅外光譜技術(shù)應(yīng)用于核桃品種的識(shí)別,通過(guò)提取核桃樣品的有效特征光譜信息,并將遠(yuǎn)紅外與近紅外光譜數(shù)據(jù)融合,實(shí)現(xiàn)光譜檢測(cè)技術(shù)與光譜數(shù)據(jù)的有機(jī)結(jié)合,期望提高核桃識(shí)別模型的準(zhǔn)確率及穩(wěn)健性。
選用7個(gè)核桃品種進(jìn)行光譜采集,分別為清香核桃、溫185核桃、香玲核桃、新新2號(hào)核桃、紙皮核桃、漾濞核桃和岱豐核桃。首先將核桃手工去殼取仁后,將其置于60 ℃的恒溫干燥箱中干燥2 h,防止樣本本身水分對(duì)試驗(yàn)結(jié)果造成干擾。再通過(guò)粉碎機(jī)對(duì)核桃仁樣品進(jìn)行粉碎,制成固體粉末。
采用紫外-可見(jiàn)-近紅外分光光度計(jì),型號(hào)為美國(guó)PE公司生產(chǎn)的Lambda 950,涵蓋波長(zhǎng)范圍為175~3 300 nm,光學(xué)系統(tǒng)采用涂覆SiO2的全息刻線(xiàn)光柵,其中近紅外為360條/nm,通過(guò)控制電腦設(shè)置掃描波長(zhǎng)為600~2 500 nm范圍。將粉碎樣品裝入直徑約3 cm的樣品池中并壓平,厚度均保證為5 mm,放入近紅外區(qū)域的檢測(cè)器進(jìn)行掃描,具體樣品數(shù)據(jù)及標(biāo)簽如表1所示。
表1 近紅外光譜采集的核桃樣本數(shù)據(jù)及標(biāo)簽
采用傅里葉變換紅外光譜儀(FTIR)測(cè)試核桃的遠(yuǎn)紅外光譜,通過(guò)該儀器獲得樣品在紅外頻段內(nèi)的光學(xué)參數(shù),該儀器型號(hào)為德國(guó)Bruker公司生產(chǎn)的Vertex80V,系統(tǒng)分辨率優(yōu)于13.5 GHz,信噪比高達(dá)50 000∶1,采用的分束器為25 μm Myalr膜,對(duì)應(yīng)的有效頻段為0.6~3.6 THz。
由于核桃屬于高脂肪類(lèi)堅(jiān)果,在壓片過(guò)程中容易出油而導(dǎo)致樣本受影響,且純樣本在遠(yuǎn)紅外波段的吸收較強(qiáng),在制備樣本時(shí),需要摻加聚乙烯稀釋。然后將樣本粉末研磨至混合均勻并倒入13 mm直徑的模具中進(jìn)行壓片,樣品厚度約為1 mm,測(cè)試時(shí)需要對(duì)樣品倉(cāng)抽真空。為選取最佳濃度樣本,制備了濃度為40%、35%、30%、25%、20%和15%的核桃樣本,分別進(jìn)行光譜掃描并對(duì)比所得光譜,得出20%濃度的圖譜噪聲最小且特性最佳,故試驗(yàn)選取樣本濃度為20%做標(biāo)準(zhǔn)制樣,樣品數(shù)據(jù)及標(biāo)簽如表2所示。
表2 遠(yuǎn)紅外光譜采集的核桃樣品數(shù)據(jù)及標(biāo)簽
1.4.1降維算法
主成分分析法(principal component analysis,PCA)是一種被廣泛應(yīng)用到光譜數(shù)據(jù)的定性分析方法[16]。PCA通過(guò)線(xiàn)性變換將原始光譜數(shù)據(jù)投射到一些新的主成分變量(principal components,PCs),每一個(gè)主成分都是由原始數(shù)據(jù)線(xiàn)性組合而成,只需要幾個(gè)方差最大的主成分即可反映數(shù)據(jù)信息,既能大大降低數(shù)據(jù)維度,同時(shí)也不會(huì)造成信息的大量丟失,但其往往適用于樣本數(shù)據(jù)量大于特征波數(shù)的情形。
無(wú)信息變量消除法(uninformative variables elimination,UVE)是基于偏最小二乘回歸系數(shù)建立的波長(zhǎng)選擇算法,用于消除不提供信息的變量[17]。UVE通過(guò)將回歸系數(shù)的平均值與其標(biāo)準(zhǔn)差的比值h作為衡量指標(biāo),并人為添加一個(gè)隨機(jī)矩陣作為噪聲矩陣,將噪聲矩陣的最大值h0作為閾值,變量的h值小于h0的變量將被剔除。然而,經(jīng)UVE降維后得到的特征波數(shù)依然較多,往往需要采用其他特征選取算法進(jìn)一步降維。
連續(xù)投影法(successive projections algorithm,SPA)是一種前向變量選擇算法[18]。通過(guò)在向量空間中使用投影操作,可以尋找到含有最低限度的冗余信息的變量組,進(jìn)而選擇光譜信息中最重要的波長(zhǎng)點(diǎn),能極大程度降低光譜數(shù)據(jù)維度。SPA選擇的波長(zhǎng)點(diǎn)之間具有最小的線(xiàn)性關(guān)系,非常適合具有高共線(xiàn)性的變量。
PCA具有既能保留原始數(shù)據(jù)的大量信息又能大大降低數(shù)據(jù)維度的特點(diǎn),往往是光譜分析中特征波數(shù)選取的首選方法,本文中遠(yuǎn)紅外光譜數(shù)據(jù)包含的波長(zhǎng)點(diǎn)少于樣本數(shù),而近紅外波段數(shù)據(jù)維度高達(dá)1 201維,遠(yuǎn)遠(yuǎn)大于樣本數(shù)量,故采用PCA對(duì)遠(yuǎn)紅外數(shù)據(jù)進(jìn)行降維,采用UVE和SPA對(duì)近紅外光譜數(shù)據(jù)進(jìn)行特征波數(shù)的選取。
1.4.2機(jī)器學(xué)習(xí)算法
隨機(jī)森林(random forests,RF)可以構(gòu)造不同相互獨(dú)立的決策樹(shù),是一種使用多種決策樹(shù)的綜合方法[19]。為了構(gòu)建隨機(jī)森林,對(duì)每個(gè)決策的樣本進(jìn)行隨機(jī)抽樣。決策樹(shù)節(jié)點(diǎn)的特征也從訓(xùn)練集的特征中隨機(jī)選擇,基于每個(gè)決策樹(shù)輸出分類(lèi)結(jié)果。
K近鄰(K-nearest neighbor,KNN)分類(lèi)算法是通過(guò)測(cè)量不同特征值之間的距離進(jìn)行分類(lèi),多采用歐氏距離來(lái)計(jì)算。KNN的優(yōu)點(diǎn)是依據(jù)K個(gè)對(duì)象中占優(yōu)的類(lèi)別進(jìn)行決策,而不是單一的對(duì)象類(lèi)別決策[20]。
支持向量機(jī)(support vector machine,SVM)本質(zhì)上是一個(gè)二分類(lèi)器,面對(duì)多分類(lèi)任務(wù),它也能通過(guò)訓(xùn)練多個(gè)二分類(lèi)器完成任務(wù)[21]。SVM是通過(guò)在多維空間中尋找一個(gè)超平面,使不同類(lèi)型的樣本在超平面上較好的區(qū)分開(kāi)來(lái)。到這個(gè)超平面的全部向量被稱(chēng)為支持向量,而支持向量機(jī)就是要找到這些支持向量的算法,需要調(diào)優(yōu)的參數(shù)有懲罰因子c和核函數(shù)參數(shù)g。
RF訓(xùn)練速度比較快,對(duì)高維度數(shù)據(jù)的判別能力強(qiáng),還可以判斷出特征的重要程度,且不容易過(guò)擬合,適用于小樣本數(shù)據(jù)集,但其對(duì)噪聲較為敏感,往往需要對(duì)光譜數(shù)據(jù)進(jìn)行去噪。KNN的思想簡(jiǎn)單,易于理解和實(shí)現(xiàn),是一種惰性分類(lèi)方法,計(jì)算量比較大,所以適用于降維后數(shù)據(jù)的建模,較為突出的優(yōu)點(diǎn)是對(duì)于像光譜數(shù)據(jù)這種交叉或重疊較多的樣本集更合適,且適合處理多分類(lèi)問(wèn)題。SVM模型有很高的分辨率和泛化能力,能很好地解決高維問(wèn)題,并且對(duì)小樣本的分類(lèi)問(wèn)題效果好,雖然其對(duì)非線(xiàn)性問(wèn)題沒(méi)有通用的解決方案,但可通過(guò)選擇核函數(shù)來(lái)處理,本文選用了徑向基和線(xiàn)性?xún)煞N核函數(shù)分別建立核桃品種鑒別模型??傊?,3種方法各有優(yōu)劣,分別應(yīng)用于核桃品種的鑒別,可很好地驗(yàn)證本文光譜融合數(shù)據(jù)的有效性。
將7種核桃仁壓片制樣后采用FTIR光譜儀進(jìn)行遠(yuǎn)紅外光譜掃描,所得吸收光譜如圖1所示。由于試驗(yàn)儀器、環(huán)境和操作等會(huì)引起系統(tǒng)誤差,原始光譜的首尾部分有明顯噪聲,故選取1.0~3.2 THz波段范圍的光譜進(jìn)行建模分析。
圖1 7種核桃樣品的遠(yuǎn)紅外吸收光譜Fig.1 Far-infrared absorption spectra of 7 kinds of walnut samples
7種核桃仁的近紅外反射光譜如圖2所示,由于系統(tǒng)誤差造成在全波段都存在些許噪聲,首尾的噪聲更為明顯,在光譜圖中存在較多毛刺,采用Savizky-Golay平滑法去噪,為清香核桃光譜圖去噪前后的效果對(duì)比如圖2a所示。最終選取1 000~2 200 nm波長(zhǎng)范圍進(jìn)行研究,7種核桃近紅外光譜如圖2b所示。
圖2 核桃樣品近紅外反射光譜圖Fig.2 Near-infrared reflectance spectrum of walnut samples
7種核桃仁樣品的遠(yuǎn)紅外吸收光譜變化趨勢(shì)相似,但吸收峰不明顯,這是因?yàn)楹颂冶旧沓煞謴?fù)雜且包含多種營(yíng)養(yǎng)成分,而不同營(yíng)養(yǎng)物質(zhì)對(duì)遠(yuǎn)紅外信號(hào)的吸收相互干擾產(chǎn)生了光譜疊加導(dǎo)致無(wú)明顯吸收峰。去除首尾噪聲明顯波段后的遠(yuǎn)紅外光譜數(shù)據(jù)維度仍高達(dá)153維,由于是同種物質(zhì),光譜數(shù)據(jù)之間有很大的相關(guān)性,是典型的多重共線(xiàn)性問(wèn)題,建模之前采用主成分分析對(duì)原始特征矩陣進(jìn)行降維。由圖3a可知,當(dāng)主成分?jǐn)?shù)超過(guò)10時(shí),其累計(jì)貢獻(xiàn)率可達(dá)99%以上,說(shuō)明此時(shí)主成分分析降維后的數(shù)據(jù)能夠較好地解釋原樣本數(shù)據(jù)的特征。因此,在本研究中選擇的主成分個(gè)數(shù)為10。
基于前3個(gè)主成分的得分如圖3b所示。不同品種間有部分重疊,且出現(xiàn)同一品種較為分散的現(xiàn)象,在此基礎(chǔ)上采用機(jī)器學(xué)習(xí)算法建立核桃品種識(shí)別模型。
圖3 遠(yuǎn)紅外光譜數(shù)據(jù)主成分分析結(jié)果Fig.3 Principal component analysis results of far infrared spectrum data
同時(shí),近紅外光譜數(shù)據(jù)維度高達(dá)1 201維,遠(yuǎn)多于樣本數(shù)量,不宜采用PCA方法降維,采用UVE-SPA對(duì)近紅外光譜數(shù)據(jù)進(jìn)行特征波數(shù)選取。先通過(guò)UVE算法削減不提供信息的變量后,還剩701個(gè)有效波長(zhǎng)點(diǎn)(如圖4a),仍然遠(yuǎn)多于樣本數(shù)量,若將該數(shù)據(jù)作為模型輸入,將導(dǎo)致模型復(fù)雜度較高可能會(huì)產(chǎn)生過(guò)擬合現(xiàn)象。于此,再應(yīng)用SPA算法選出光譜信息中最重要的8個(gè)特征波長(zhǎng)點(diǎn),如圖4b所示。
圖4 近紅外光譜數(shù)據(jù)特征波數(shù)提取結(jié)果Fig.4 Results of feature wavenumber extraction from NIR spectral data
分別利用PCA降維后的遠(yuǎn)紅外光譜數(shù)據(jù)和基于UVE-SPA特征波數(shù)提取后的近紅外光譜數(shù)據(jù)導(dǎo)入隨機(jī)森林、K近鄰和支持向量機(jī)分類(lèi)模型,訓(xùn)練集與預(yù)測(cè)集比例為7∶3,模型的預(yù)測(cè)能力和穩(wěn)定性由訓(xùn)練集準(zhǔn)確率和均方根誤差(RMSEC)、測(cè)試集準(zhǔn)確率和均方根誤差(RMSEP)進(jìn)行評(píng)價(jià),其判別結(jié)果如表3所示??梢?jiàn),基于近紅外光譜數(shù)據(jù)所建立的模型好于遠(yuǎn)紅外光譜數(shù)據(jù),在近紅外波段,基于RBF核函數(shù)的SVM分類(lèi)模型的識(shí)別率最高,且訓(xùn)練集和預(yù)測(cè)集分別為100%和98.41%,此結(jié)果與前人的研究相符,但本文將核桃品種數(shù)增加到7種,并采用UVE-SPA選取特征波數(shù),大大降低了模型復(fù)雜度。而遠(yuǎn)紅外波段KNN模型效果最佳,訓(xùn)練集和預(yù)測(cè)集準(zhǔn)確率分別達(dá)93.88%和84.13%。都表現(xiàn)為個(gè)別方法的效果較好,說(shuō)明不同波段光譜數(shù)據(jù)對(duì)于模型的適應(yīng)性存在差異,因此模型普適性還需進(jìn)一步驗(yàn)證。此外,市面上核桃品種繁雜,數(shù)據(jù)量龐大,顯然基于單一光譜數(shù)據(jù)建立的核桃品種鑒別模型還不夠穩(wěn)健。
表3 遠(yuǎn)紅外和近紅外光譜數(shù)據(jù)降維后模型分類(lèi)結(jié)果
數(shù)據(jù)融合分3個(gè)層次,分別為低級(jí)、中級(jí)和高級(jí)融合。低級(jí)融合即將各波段光譜的數(shù)據(jù)矩陣簡(jiǎn)單地按樣本順序拼接為一個(gè)矩陣。中級(jí)融合是分別從每個(gè)數(shù)據(jù)源中提取特征變量,然后將它們組合成一個(gè)矩陣。高級(jí)融合也稱(chēng)為決策級(jí)融合,是從每個(gè)數(shù)據(jù)源計(jì)算單獨(dú)的分類(lèi)或回歸模型,并將每個(gè)單獨(dú)模型的結(jié)果進(jìn)行組合以獲得最終決策。
低級(jí)融合后變量數(shù)將遠(yuǎn)大于樣本數(shù)量,模型復(fù)雜度較高,往往易造成過(guò)擬合,高級(jí)融合的復(fù)雜程度更高,雖模型效率較高,但對(duì)算法要求更嚴(yán)苛??紤]到中級(jí)光譜數(shù)據(jù)融合可將光譜數(shù)據(jù)中提取的有效特征信息進(jìn)行疊加整合,既能實(shí)現(xiàn)精簡(jiǎn)數(shù)據(jù),又能實(shí)現(xiàn)多波段光譜統(tǒng)一分析,達(dá)到提高分析準(zhǔn)確度的目的。故將UVE-SPA特征提取后的近紅外光譜數(shù)據(jù)和PCA降維后的遠(yuǎn)紅外光譜數(shù)據(jù)進(jìn)行中級(jí)數(shù)據(jù)融合,得到包含18個(gè)特征變量的數(shù)據(jù)矩陣,作為模型的輸入變量,按照訓(xùn)練集與測(cè)試集為7∶3的比例建立核桃品種鑒別模型,分類(lèi)結(jié)果如表4所示。
表4 數(shù)據(jù)融合后模型分類(lèi)結(jié)果
顯然,基于融合后的光譜數(shù)據(jù),隨機(jī)森林分類(lèi)器的識(shí)別準(zhǔn)確率仍然較低,但相較于融合前的遠(yuǎn)紅外和近紅外波段都有所提高,其預(yù)測(cè)集RMSEP也減小到0.776 6。而K近鄰模型和基于徑向基與線(xiàn)性核函數(shù)的SVM模型判別結(jié)果均達(dá)到100%,說(shuō)明遠(yuǎn)紅外光譜數(shù)據(jù)所包含的核桃各品種的差異信息能夠作為近紅外光譜信息的補(bǔ)充,本文所采用的降維算法結(jié)合數(shù)據(jù)融合方法能有效提取出核桃品種間的差異信息,提高了核桃品種鑒別模型的準(zhǔn)確率和穩(wěn)健性。
系統(tǒng)聚類(lèi)是一種無(wú)監(jiān)督的模式識(shí)別方法,常用于光譜的定性分析,依據(jù)樣品的光譜數(shù)據(jù)蘊(yùn)含的化學(xué)信息相似程度,將比較相似的樣品聚為一類(lèi)。其基本思想:先認(rèn)為每個(gè)樣本自成一類(lèi),然后計(jì)算類(lèi)與類(lèi)之間的距離,選擇距離最小的一對(duì)合并成一個(gè)新的類(lèi),重復(fù)計(jì)算距離直至所有樣本都聚為一類(lèi)為止,最后可選取合適的分類(lèi)閾值確定最終分類(lèi)結(jié)果。本文分別利用近紅外、遠(yuǎn)紅外和融合后的光譜進(jìn)行聚類(lèi)分析,以驗(yàn)證融合后數(shù)據(jù)更能體現(xiàn)核桃品種間差異。從樣本數(shù)據(jù)中每個(gè)品種隨機(jī)選取9個(gè)樣本進(jìn)行系統(tǒng)聚類(lèi)分析,結(jié)果如圖5所示,橫坐標(biāo)為樣品標(biāo)簽,縱坐標(biāo)為聚類(lèi)策略中常用的歐氏距離。
圖5 7種核桃樣品聚類(lèi)結(jié)果Fig.5 Clustering results of seven walnut samples
結(jié)果顯示,在近紅外波段,溫185和紙皮核桃被聚為一類(lèi);香玲和新新2號(hào)核桃聚類(lèi)結(jié)果出現(xiàn)交叉,且被分成3類(lèi),無(wú)法區(qū)分開(kāi)來(lái),表明兩者化學(xué)成分相似。在遠(yuǎn)紅外波段,多種品種聚類(lèi)混亂,如溫185、香玲及部分清香核桃被劃為一類(lèi);漾濞和部分岱豐核桃被劃為一類(lèi);新新2號(hào)核桃被分割成4類(lèi);新新2號(hào)和紙皮核桃也出現(xiàn)了交叉現(xiàn)象,說(shuō)明遠(yuǎn)紅外光譜數(shù)據(jù)分類(lèi)準(zhǔn)確度低,無(wú)法直接使用。而經(jīng)中級(jí)數(shù)據(jù)融合后,將近紅外無(wú)法區(qū)分的溫185和紙皮核桃、香玲和新新2號(hào)核桃區(qū)分開(kāi)來(lái),僅部分岱豐和清香核桃出現(xiàn)品種交叉,以及少量香玲核桃聚類(lèi)錯(cuò)誤。表明本文提出的光譜融合方法能有效提升核桃品種鑒別模型的準(zhǔn)確率和穩(wěn)健性。
通過(guò)將遠(yuǎn)紅外和近紅外光譜技術(shù)應(yīng)用于清香、溫185、香玲、新新2號(hào)、紙皮、漾濞和岱豐這7種核桃品種的鑒別,發(fā)現(xiàn)針對(duì)核桃品種鑒別,近紅外波段特征吸收峰較多,能較好地反映核桃蛋白質(zhì)、糖分和酚類(lèi)物質(zhì)的含量差異,而遠(yuǎn)紅外波段雖各品種有差異但沒(méi)有明顯的吸收峰,因其還包含分子間的振動(dòng)信息。利用遠(yuǎn)紅外光譜和近紅外光譜數(shù)據(jù)建立分類(lèi)模型,并分別采用PCA和UVE-SPA進(jìn)行特征波長(zhǎng)選擇,結(jié)果表明在遠(yuǎn)紅外波段KNN模型效果最好,而在近紅外波段SVM模型最優(yōu),識(shí)別率分別為84.13%和98.41%。誠(chéng)然,近紅外光譜用于核桃品種鑒別效果優(yōu)于遠(yuǎn)紅外光譜,然而僅僅采用近紅外光譜數(shù)據(jù)進(jìn)行建模的模型普適性還不能達(dá)到實(shí)際應(yīng)用的要求,將近紅外和遠(yuǎn)紅外數(shù)據(jù)進(jìn)行中級(jí)數(shù)據(jù)融合后,提取了更多的特征信息,發(fā)現(xiàn)除隨機(jī)森林以外其余3種方法的識(shí)別準(zhǔn)確率均為100%,同時(shí)也驗(yàn)證了中級(jí)融合后的聚類(lèi)結(jié)果可以將單一光譜無(wú)法區(qū)分的品種進(jìn)行區(qū)分,僅出現(xiàn)少量品種交叉現(xiàn)象。
進(jìn)行中級(jí)數(shù)據(jù)融合后所建立的模型更為穩(wěn)健,說(shuō)明融合后的數(shù)據(jù)更能反映核桃各品種間差異,大大提升了光譜技術(shù)應(yīng)用于核桃品種識(shí)別的準(zhǔn)確性和可靠性。為實(shí)現(xiàn)核桃品種的高效、無(wú)損、精確識(shí)別提供了新思路,也為其他鑒別體系的建立提供了借鑒和參考。