t-SNE降維的紅松籽新舊品性近紅外光譜鑒別

2020-09-05 03:45:26李鴻博蔣大鵬張冬妍張怡卓

光譜學與光譜分析 2020年9期

李鴻博，曹軍，蔣大鵬，張冬妍，張怡卓

東北林業(yè)大學機電工程工程學院，黑龍江哈爾濱 150040

引言

紅松籽(pinus koraiensis seeds)盛產于中國北方，它是國家二級保護植物紅松的果實，新鮮的紅松籽仁有很高的經濟和營養(yǎng)價值。因自然氧化等原因，陳舊紅松籽仁相比較于新鮮紅松籽仁營養(yǎng)流失十分嚴重。經過同樣加工流程后，從帶殼紅松籽外觀、質地和重量上很難判斷新舊差異。傳統(tǒng)的鑒別方法是將紅松籽去殼得到紅松籽仁并研成粉末，再運用索氏抽提法或者凱氏定氮法進行脂質和蛋白質性質及含量的檢測，從而進行新舊鑒別。此方法測量精確，但是檢測工序繁瑣、耗時長而且成本高，很難滿足大批量樣本檢測以及實際生產的需求。基于此原因，亟需一種快速、無損、準確的帶殼堅果成熟年份鑒別方法。

近紅外光譜技術(NIR)是一種快速、無損、穩(wěn)定性好的間接分析技術，已經廣泛應用于農業(yè)、食品、醫(yī)藥、材料、石油化工等眾多領域，并獲得了豐碩的成果[1]。近年來，近紅外光譜技術在食品科學研究中的應用也越來越廣泛，包括對食品營養(yǎng)物質種類的分析以及各營養(yǎng)物質含量的檢測，相似種類食品品種區(qū)分、生長環(huán)境影響、產地鑒別等。 Guo等在2016年通過比較近紅外短波與長波的建模效果，結合新型顏色補償法對蘋果可溶性固形物含量進行預測[2]。 Verónica Loewe等在2017年用近紅外光譜對智利人工林以及地中海地區(qū)不同產地松果作鑒別分析，運用偏最小二乘法建立的判別模型能夠快速區(qū)分不同地理來源的松籽樣品[3]。 Cortes等在2017年運用可見/近紅外光譜檢測判斷柿子的特殊澀味程度，比較了不同采樣點和不同模型的預測效果[4]。 Toktam Mohammadi-Moghaddam等在2018年運用可見/近紅外反射光譜結合PLSR建模分析預測烤開心果籽粒的水分含量和結構特征，并對織構特征進行準確預測[5]。于慧伶等在2018年運用SA-PBT-SVM的分類方法對實木表面缺陷進行近紅外光譜識別[6]。 Patrizia Firmani等在2019年運用近紅外光譜對產于大吉嶺的紅茶進行品種以及摻假情況的鑒別[7]。 Muhammad Arslan等在2019年運用近紅外光譜結合化學計量學算法，對中國棗的抗氧化活性進行了快速檢測[8]。

本文提出一種基于近紅外光譜技術的紅松籽新舊品性快速無損檢測鑒別方法。首先，使用標準正態(tài)變量變換、一階導數以及卷積平滑算法對采集的近紅外吸收光譜進行預處理；然后，利用t-分布隨機近鄰嵌入將光譜數據降維；最后，運用支持向量機建立紅松籽新舊品性鑒別的校正模型和預測模型。

1 實驗部分

1.1 材料

選用東北地區(qū)的紅松松籽作為試驗樣本，由分別成熟于2016年、 2017年秋季的陳舊松果和2018年秋季的新松果經機械和人工加工而成。經過機器篩選達到進一步精加工處理要求并達到儲藏標準。為保證新舊樣本在后期實驗中均占有一定比例，首先隨機挑選出無疵試樣各120個，并分別對其進行O-1—O-120和N-1—N-120編號。將制成的試樣放入獨立密封袋，并且置于恒溫恒濕環(huán)境內進行保存，為下一步進行近紅外光譜掃描做準備。

1.2 方法

1.2.1 樣本分類處理

光譜采集前，將標記好的所有新舊樣本打亂混合，從中隨機抽取120個樣本按照2∶1的比例分為校正集和驗證集，使用80個校正集樣本建立校正模型，使用剩余40個驗證集樣本對模型進行外部驗證。

1.2.2 光譜數據的采集

通過研究發(fā)現(xiàn)，波長在1 000～1 800 nm范圍內的光譜攜帶的信息能夠較好地反應本研究所需性質[1]。實驗選用的光譜采集儀器是由德國INSION公司研發(fā)生產的One-chip微型集成光纖光譜儀，光譜適用范圍900～1 800 nm，分辨率9 nm，熱波長穩(wěn)定性小于0.03 nm·K-1。采用兩分叉光纖探頭采集樣本的近紅外光譜，室內溫、濕度控制在20 ℃和50%。利用INSION公司開發(fā)的SPECview7.1軟件進行光譜數據采集和存儲，所得光譜數據以Excel的形式導出。開機后需要對光譜儀進行預熱，并利用聚四氟乙烯白板對光纖探頭進行校準，之后將光纖固定在支架上，光纖探頭伸入測量黑箱頂端的小孔內，使其與黑箱底部載物臺上固定的松籽樣本靠近，對樣本進行垂直、接觸并且無漏光測量，待光譜譜線穩(wěn)定后，對本采樣點掃描30次自動平均輸出1個光譜。實驗所需的近紅外光譜數據采集系統(tǒng)示意圖如圖1所示。

圖1 近紅外光譜數據采集系統(tǒng)示意圖

紅松籽的生長特性導致了紅松籽每個被采集面的近紅外吸收光譜吸收峰不同，在對比同一紅松籽樣本不同采樣位置的光譜曲線時發(fā)現(xiàn)：完整帶殼松籽和松籽殼的光譜曲線趨勢高度相似，去殼帶皮松仁和去殼去皮松仁的光譜曲線雖在近紅外吸收數值上有顯著差異，但是光譜圖像的趨勢相似，即在光譜采集范圍內，不同狀態(tài)的樣本光譜數據變化趨勢基本相似，如圖2所示。本研究采集樣本(完整松籽)的單側平面光譜，采集數據取平均值后用于分析和建模。

圖2 試樣不同狀態(tài)和不同采集位置的光譜對比

1.2.3 光譜預處理

對樣本進行光譜數據采集的過程中，由于抖動、光線散射等原因會產生光譜基線漂移、噪聲干擾等影響[9-10]。因此，需要先對原始光譜數據進行預處理。

標準正態(tài)變量變換(standard normalized variable， SNV)能夠消除表面散射、固體顆粒大小以及測量過程中光程變化對近紅外漫反射光譜的影響[8，11]。對需要進行SNV變換的光譜Xi, k按式(1)計算

(1)

式(1)中，Xi為第i樣本光譜的平均值，k=1, 2, …,m，m為波長點數；i=1, 2, …,n，其中n為校正集樣本數[8]。

為削弱由樣本間(特別是不同分組樣本之間)相互干擾導致的吸收光譜譜線重疊的現(xiàn)象，在SNV處理的基礎上求取一階導數，一階導數如式(2)所示[12]

(2)

式中，xt為波長t處的離散光譜，g為窗口寬度。

求導過程會引入噪聲，使信噪比降低。運用Savitzky-Golay(SG)卷積對光譜進行平滑，能夠有效去除光譜噪聲、提高信噪比。 SG卷積平滑算法如式(3)所示[4]

(3)

式(3)中，x是吸光度，i和j是波長點數范圍內的序號，k!是求導階數的階乘，ak是權重系數。

1.2.4 t-SNE降維及效果評價

近紅外光譜波長范圍較大，預處理未改變數據維度，在建立分類模型前需對輸入數據進行降維，降維后的數據要保存本質結構信息。傳統(tǒng)降維是對光譜信息進行特征提取，以剔除與所需性質無關的變量。本研究運用流行學習的方法進行降維，保留了樣本全部數據信息和數據間隱含信息。

常用的線性降維方法是主成分分析(principal component analysis， PCA)[4]，經過預處理之后的數據依然高度非線性，而非線性降維方法中t-SNE是目前公認效果最好的方法。

t-分布鄰域嵌入(t-distributed stochastic neighbor embedding， t-SNE)算法基于鄰域嵌入(stochastic neighbor embedding， SNE)算法改進而來，在SNE算法中，用條件概率pj|i表示高維空間的鄰近數據點xi與xj間的相似度(兩點鄰近的條件概率)，qj|i表示低維空間數據點yi與yj鄰近的條件概率分布，條件概率pj|i符合高斯概率分布，pj|i如式(4)所示[13]。

(4)

其中， ‖xi-xj‖2表示鄰近點xi和xj距離的平方；σi是以數據點xi為中心的高斯函數的方差。σ的值可由每個點的K近鄰值計算得到，K值取有效的最鄰近點數量。

若要得到低維空間的最佳模擬點，需將pj|i與qj|i的KL(kullback-leiber)距離之和最小化，可用代價函數C表示，如式(5)所示。

(5)

此處的P與Q分別為高維空間和低維空間中形成的條件概率分布，C值越小說明高維低維分布越一致，低維空間數據點yi由梯度下降法得出最小值，可用二維或三維坐標形式輸出。

t-SNE算法將高維空間數據點之間的條件概率改進為與低維空間模擬數據點的聯(lián)合概率[13]。同時通過在高維空間采用高斯概率分布，映射后低維空間采用自由度為1的t分布函數度量兩點之間的相似度。pij與qij分別表示高維空間數據點xi，xj與低維空間數據點yi和yj之間的聯(lián)合概率，如式(6)和式(7)所示。

(6)

(7)

qij可以用來表示嵌入空間上兩個點的相似度，目的是為小范圍成對的相似點能夠更精準地建模提供更大的空間，同時也很好地解決了擁擠問題。

此時新的代價函數C與聯(lián)合概率分布P與Q即高維與低維之間的KL距離等價，如式(8)所示。

(8)

t-SNE算法實現(xiàn)維數約減與數據可視化的原因是因其能夠從高維數據中恢復低維流形結構的特性，并得到與其相應的嵌入映射。

數據降維即聚類的性能度量非量化指標可以通過比較數據可視化結果的方式：參照標注屬同類的樣本點在低維空間中要求距離鄰近；反之，不同類的樣本點則要求盡量彼此遠離。

本研究涉及降維效果的量化指標有Silhouette Score(輪廓系數)、 Calinski-Harabasz和Mutual Information(互信息， MI)。 Silhouette Score的取值范圍是[-1， 1]，同類樣本相近、不同類樣本遠離時，輸出數值較高。 Calinski-Harabasz輸出數值越大則聚類效果越好，即類別內部數據的協(xié)方差越小、類別之間的協(xié)方差越大聚類效果越好。 MI取值范圍為[0， 1]，輸出值反映聚類結果與真實情況的相符程度，為正比例關系。

1.2.5 分類模型及性能評價

在完成對光譜數據的降維處理之后，建立紅松籽新舊品性鑒別的支持向量機(SVM)分類模型，核函數選擇RBF，C在10-2～103范圍內取13個值，γ在10-9～103范圍內取13個值，模型因子數由網格搜索算法K重交叉驗證確定，K取值為5，得到的校正模型用查準率(Precision)、查全率(Recall)與F1三項指標評價模型性能，三項指標在0～1范圍內取值越趨近于1說明模型的性能越好。最后，使用驗證集樣本對模型進行驗證。用分類準確率表示模型的預測能力強弱以及預測精度，平均耗時表示模型的分類速率。

上述光譜預處理、數據降維、降維數據可視化輸出、模型的建立與評價等均采用PyCharm 2017軟件完成。

2 結果與討論

2.1 近紅外光譜及預處理結果

圖3所示為120個實驗樣本的近紅外光譜，以及依次采用SNV、求取一階導數和SG卷積平滑算法預處理之后的光譜。比較原始光譜與預處理光譜，處理后的光譜輪廓更清晰，噪聲基本消除，吸收峰更明顯。

2.2 數據降維結果

2.2.1 降維數據可視化

將預處理之后的光譜，使用PCA將高維數據降至二維和三維的數據可視化輸出如圖4(a)和(c)所示。圖4(a)中，用PCA方法降至二維的數據點簇間僅有少量交叉，圖4(c)中，降至三維的數據點在三維空間中依然有少量交錯現(xiàn)象；圖4(b)中的兩簇數據點距離更遠，并且簇間沒有交叉，從數據可視化效果可以對比出t-SNE降至二維的降維效果更優(yōu)。這是因為t-SNE方法將低維空間中的高斯分布用t分布代替，t分布的長尾性質(中心部位偏低，尾部偏高偏長)使不同類數據點更明顯地分離。而t-SNE降至三維應用于本研究樣本數據，交叉重疊較多，降維效果不理想，如圖4(d)所示。

圖3 原始光譜曲線和預處理結果

2.2.2 降維效果評價

在上一節(jié)可視化數據比較結果的基礎上，對各種降維方案的降維效果進行準確衡量并比較，依據各量化指標的計算方法得出不同降維方案的降維效果評價指數。輸出各指數的數值以及對比結果如表1所示。

表1 PCA和t-SNE降維的評價指標比較

從表1可知，運用PCA降至二維和三維的效果幾乎沒有差異， t-SNE降至二維時輸出的各項指標均優(yōu)于其他方法。特別是Silhouette Score和Calinski Harabaz Score兩項指標，輸出值分別為0.820 0和2 972.012 7。運用t-SNE方法降至二維的方案明顯優(yōu)于其他方案，降維效果較好。

圖4 數據降維結果可視化

2.3 松籽新舊品性分類校正模型的建立

在完成光譜數據降維工作后，將降維后的數據作為模型建立的輸入數據，使用SVM建立紅松籽新舊品性鑒別的校正模型，其預測性能結果的比較如表2所示。

表2 不同建模方法結果比較

通過分析表2中的實驗結果可以得出，相較于原始光譜，經過三種方法預處理并且運用t-SNE降至二維后的光譜數據所建立的校正模型預測準確率最高，為98.75%。此時，校正模型的查準率為1，查全率與F1趨近于1，并且其輸出值分別為0.974 4和0.987 0，均優(yōu)于其他各方案，這也表明模型的預測性能得到了提升，即所建立模型的效果最佳。同時，經過降維后的光譜數據維數從117降為2，顯著降低了輸入數據維度，使得數據量減少、運算復雜度降低，最終縮短建模時間。

除此之外，比較運用PCA和t-SNE方法降至二維建模的可視化效果可以得出： t-SNE將輸入數據降至二維后， SVM模型分類效果更佳。建模效果對比如圖5所示。

圖5 二維輸入建模效果

2.4 模型預測結果

完成校正模型建立工作后，需使用驗證集樣本對校正模型的實際預測能力進行檢驗。分別采用三種方案建立紅松籽分類的近紅外光譜預測模型，對所有驗證集樣本進行分類預測，并對預測的準確率和平均消耗時間進行比較分析，結果如表3所示。

表3 預測模型結果比較

從表3可知，依據原始光譜建立的SVM分類模型的分類準確率較低，經過預處理的光譜數據對建模準確率的提升有一定效果，但是依然消耗較長時間。相較于其他兩種模型， SNV、一階導數與SG疊加的預處理方案結合t-SNE降維的SVM分類模型分類準確率最高且消耗時間顯著減小，預測結果與真實情況較一致，因此，該模型能夠準確、快捷地定性預測紅松籽的新舊品性。

3 結論

構建了近紅外光譜與東北紅松籽新舊品性的關系。利用SNV、一階導數以及SG卷積平滑算法對原始光譜進行預處理，光譜中的重疊、噪聲得到有效消除。預處理之后，運用t-SNE對高維光譜數據進行降維處理，此方法明顯優(yōu)于傳統(tǒng)線性降維PCA的降維效果，有效降低了數據的維度和建模的運算復雜度。使用t-SNE降維后的光譜特征信息建立的SVM紅松籽新舊品性分類模型，驗證集預測準確度高達97.5%，平均耗時僅有0.02s，表明該模型能夠實現(xiàn)對東北紅松籽新舊品性的無損鑒別檢測，并且識別速率較快，能夠滿足實際生產在線檢測的需求。