馬惠玲 王若琳 蔡 騁 王 棟
(1.西北農(nóng)林科技大學(xué)生命科學(xué)學(xué)院, 陜西楊凌 712100; 2.西北農(nóng)林科技大學(xué)信息工程學(xué)院, 陜西楊凌 712100)
基于高光譜成像的蘋果品種快速鑒別
馬惠玲1王若琳1蔡 騁2王 棟1
(1.西北農(nóng)林科技大學(xué)生命科學(xué)學(xué)院, 陜西楊凌 712100; 2.西北農(nóng)林科技大學(xué)信息工程學(xué)院, 陜西楊凌 712100)
以“喬納金”蘋果,“紅富士”蘋果和“秦冠”蘋果共90個(gè)試驗(yàn)樣本為試材分別采集865~1 711 nm的近紅外波段高光譜圖像,選取蘋果圖像感興趣區(qū)域(ROI),以分辨率2.8 nm提取其平均反射光譜數(shù)據(jù),分別利用K近鄰法(KNN)和徑向基核函數(shù)支持向量機(jī)(RBF-SVM)進(jìn)行品種判別,5折交叉檢驗(yàn)。結(jié)果表明,3種蘋果的近紅外高光譜圖像均在波長941~1 602 nm之間變得清晰,該區(qū)域200個(gè)波段下的平均反射光譜數(shù)據(jù)經(jīng)KNN法中的10種距離算法評判,當(dāng)K取值3和5時(shí),切比雪夫距離、歐幾里得距離和明可夫斯基距離3種距離算法的識(shí)別正確率均達(dá)到100%;SVM-RBF核函數(shù)模型中,γ取值為2-8~1的范圍內(nèi)識(shí)別正確率均在92%以上,當(dāng)γ取值2-5,C取值為16和32時(shí),識(shí)別正確率最高,為96.67%。故利用近紅外高光譜圖像技術(shù)結(jié)合KNN計(jì)算對蘋果品種進(jìn)行快速鑒別是優(yōu)異和可靠的方案。
蘋果; 品種鑒別; 高光譜成像; K近鄰法; 支持向量機(jī)
蘋果在世界果品市場上占據(jù)著重要地位,有些蘋果品種成熟期、外形、色澤、風(fēng)味差異較大,感觀易于辨別;有些則成熟期、大小、著色、口感均比較接近,非專業(yè)人員品評辨識(shí)準(zhǔn)確率不高,更難以在采后處理流水線上快速鑒別。不同品種的田間栽培條件、采后貯藏特性、價(jià)格均差別較大,急需一種簡便、無損的蘋果品種快速鑒別方法。
目前,國內(nèi)外學(xué)者在鑒別物質(zhì)品種的研究方面主要采用近紅外光譜技術(shù)(NIRS),根據(jù)全譜段或多波長下的光譜數(shù)據(jù)對待測物進(jìn)行定性或定量分析,從而反映待測物的類型或有機(jī)物的含量[1]。有學(xué)者利用近紅外光譜技術(shù)對葡萄[2]、梨[3]、蘋果[4]、草莓[5]、鮮棗[6]和楊梅[7]等水果品種進(jìn)行鑒別。此外,還有對水稻[8]、玉米[9-10]和小麥[11]等經(jīng)濟(jì)作物品種鑒別的研究報(bào)道。然而,近紅外光譜技術(shù)只提供對檢驗(yàn)客體某一較小區(qū)域的光譜信息,無法得到樣本的空間信息,因而存在檢測范圍小和信息獲取量少的弊端。
高光譜成像技術(shù)結(jié)合了傳統(tǒng)成像技術(shù)和現(xiàn)代光譜技術(shù),能夠在更大范圍內(nèi)同時(shí)獲取樣本的光譜信息和空間信息,對于生物材料的光譜學(xué)特征差別識(shí)別敏感度高,因此能全面地反映被測物的種類及品質(zhì)[12-13]。張初等[14]采用高光譜成像技術(shù)對西瓜種子品種進(jìn)行鑒別,發(fā)現(xiàn)經(jīng)過SG平滑算法對光譜進(jìn)行預(yù)處理后,基于特征波長選擇所建立的極限學(xué)習(xí)機(jī)(ELM)模型取得了最佳效果,建模集和預(yù)測集的識(shí)別準(zhǔn)確率均達(dá)到100%;WANG等[15]利用高光譜成像對稻米品種進(jìn)行鑒別,發(fā)現(xiàn)基于數(shù)據(jù)融合的逆反饋人工神經(jīng)網(wǎng)絡(luò)(BPNN)對稻米品種的識(shí)別率最高,為94.45%,優(yōu)于單獨(dú)基于光譜數(shù)據(jù)(89.91%)或圖像數(shù)據(jù)(88.09%)的結(jié)果。LIU等[16]利用高光譜成像對3個(gè)荔枝品種進(jìn)行分類,得出支持向量機(jī)(SVM)分類模型對校正集和預(yù)測集的識(shí)別率分別為100%和87.81%。孫俊等[17]利用高光譜成像技術(shù)對3個(gè)地區(qū)的紅豆樣本進(jìn)行分類,發(fā)現(xiàn)引入遺傳算法(GA)優(yōu)化的概率神經(jīng)網(wǎng)絡(luò)(PNN)模型識(shí)別效果最佳,識(shí)別正確率達(dá)到了97.5%。
本文采用上市期有交叉,并均著紅色的“喬納金”、“紅富士”和“秦冠”3個(gè)品種的蘋果為試材,逐一采用近紅外高光譜成像技術(shù)獲得各蘋果的光譜數(shù)據(jù),提取并分析各個(gè)蘋果感興趣區(qū)域(ROI)的光譜反射平均值,結(jié)合K近鄰算法和支持向量機(jī)的建模方法,實(shí)現(xiàn)對蘋果品種的分類鑒別,以期為近紅外高光譜成像技術(shù)鑒別蘋果品種的實(shí)際應(yīng)用提供參考。
1.1 試驗(yàn)材料、設(shè)備及軟件
1.1.1 試驗(yàn)材料
試驗(yàn)用蘋果分3個(gè)品種(圖1),分別于商品成熟期采收:“喬納金”蘋果于2015年9月20日采于陜西省白水縣西北農(nóng)林科技大學(xué)蘋果試驗(yàn)示范站果園;“紅富士”蘋果于2015年10月14日也采自該示范站果園;“秦冠”蘋果于2015年10月20日采于陜西省寶雞市扶風(fēng)縣段家灣鎮(zhèn)青龍村農(nóng)家果園。采收后各品種均選取大小相近、著色均勻、無機(jī)械損傷的果實(shí)30個(gè),當(dāng)天運(yùn)回西北農(nóng)林科技大學(xué)實(shí)驗(yàn)室,置于室溫(20℃)下24 h。逐一編號(hào),1~30號(hào)代表“喬納金”蘋果,種類代號(hào)為1;31~60代表“紅富士”蘋果,種類代號(hào)為2;61~90號(hào)代表“秦冠”蘋果,種類代號(hào)為3。此編號(hào)為后續(xù)劃分訓(xùn)練樣本和測試樣本做準(zhǔn)備。
圖1 蘋果樣本Fig.1 Apple samples
1.1.2 試驗(yàn)設(shè)備
高光譜圖像采集系統(tǒng)結(jié)構(gòu)如圖2所示。該系統(tǒng)由1臺(tái)ImSpector N17E型近紅外光譜儀(芬蘭Spectral Imaging Ltd.公司),1臺(tái)像素為320×256的XEVA2616型面陣CCD相機(jī)(比利時(shí)XenICs Ltd.公司),1套高穩(wěn)定性的鹵鎢燈白光光源,1臺(tái)高精度的電控平移臺(tái)裝置和計(jì)算機(jī)等組成。近紅外高光譜成像系統(tǒng)采集光譜范圍為865~1 711 nm,光譜分辨率2.8 nm,入射光狹縫寬度為30 μm。
圖2 高光譜圖像采集系統(tǒng)示意圖Fig.2 Schematic of hyperspectral imaging system1.計(jì)算機(jī) 2.CCD相機(jī) 3.光譜儀 4.鏡頭 5.光源 6.暗箱7.光源控制器 8.電動(dòng)機(jī) 9.電控移動(dòng)載物臺(tái)
1.1.3 軟件
高光譜圖像采集由Spectral SENS-V17E軟件(英國Gilden Photonics Ltd.公司)完成,后續(xù)的圖像數(shù)據(jù)處理采用ENVI 4.7軟件(美國Research System公司),光譜數(shù)據(jù)分析軟件為Matlab 7.4(美國MathWorks公司)。
1.2 試驗(yàn)方法
1.2.1 高光譜圖像的采集
在高光譜圖像數(shù)據(jù)采集前需要對鏡頭焦距進(jìn)行調(diào)整,保證平臺(tái)移動(dòng)速度、相機(jī)曝光時(shí)間和光源相互匹配以確保采集圖像清晰不失真[18]。經(jīng)過多次調(diào)整及參數(shù)優(yōu)化,最終確定高光譜攝像機(jī)的各參數(shù)為:平臺(tái)移動(dòng)速度20 mm/s,相機(jī)的曝光時(shí)間10 ms,物距200 mm,采集到的高光譜圖像塊尺寸為320×256×255(像素×波段數(shù),即每個(gè)樣品采集255個(gè)波段下像素為320×256的二維圖像)。采集光譜時(shí),每次將1個(gè)蘋果樣本放于載物臺(tái)上,保持果柄-花萼軸與載物臺(tái)垂直,使載物臺(tái)中心對準(zhǔn)相機(jī)。當(dāng)平臺(tái)移動(dòng)時(shí),近紅外高光譜儀從上往下掃描樣本,每次掃描得到1行圖像的光譜信息,平臺(tái)帶動(dòng)樣本運(yùn)動(dòng)的過程中,獲取其他位置直至整個(gè)樣本的光譜信息。為了消除果實(shí)果柄面和果頂面形狀差異對光譜采集的影響,對每個(gè)蘋果樣品均進(jìn)行2次光譜采集,第1次采集果柄面,第2次采集果頂面,將2次光譜反射平均值作為該樣品的光譜數(shù)據(jù)。以同樣的方法依次采集90個(gè)蘋果樣品的近紅外高光譜圖像。這樣,就得到了每個(gè)果實(shí)的物理和化學(xué)因素綜合影響下的高光譜譜圖(相當(dāng)于各品種的高光譜指紋圖譜)。
1.2.2 光譜校正
為了消除因蘋果形狀差異、光源強(qiáng)度在各波段下分布不均以及攝像頭中暗電流存在而產(chǎn)生的噪聲影響,需對獲得的高光譜圖像進(jìn)行黑白標(biāo)定[19]。首先對反射率為99%的標(biāo)準(zhǔn)白色校正板進(jìn)行圖像采集,得到全白的標(biāo)定圖像W,然后關(guān)閉光源擰上鏡頭蓋,采集全黑標(biāo)定圖像D。圖像校正公式為
(1)
式中R0——原始的高光譜圖像R——校正后的圖像
1.2.3 感興趣區(qū)域的選取
利用ENVI 4.7軟件,對圖像經(jīng)過濾波和形態(tài)學(xué)算法處理后,選取蘋果的果柄面和果頂面分別作為感興趣區(qū)域(Range of interest,ROI),如圖3所示,并求ROI的反射光譜曲線。將兩面的反射光譜曲線進(jìn)行數(shù)據(jù)收集并取反射光譜平均值作為數(shù)據(jù)集合。
圖3 蘋果果實(shí)ROI的選取Fig.3 ROI region selection of apple fruit
1.2.4 蘋果理化特征的測定
(1)果實(shí)硬度
采用GY-3型果蔬硬度計(jì)(意大利)。各果實(shí)沿赤道線選取2個(gè)等分點(diǎn),各點(diǎn)削去約1.5 cm2的果皮,勻速插入直徑0.8 cm的端頭至刻度線(1 cm),記錄最大穿透力,2個(gè)點(diǎn)的值取平均后記為每個(gè)果的硬度。
(2)可溶性固形物
采用WY032T型折光儀測量待測樣液的折光率,在折光儀上直接讀出可溶性固形物質(zhì)量分?jǐn)?shù)并重復(fù)3次。
(3)可滴定酸質(zhì)量分?jǐn)?shù)
稱取100 g果肉榨成蘋果汁并測量體積,每次取5 mL的蘋果汁,定容至100 mL容量瓶中,取25 mL濾液加入酚酞指示劑,用0.1 mol/L NaOH溶液滴定至溶液顏色呈淡紅色,且維持1 min不褪色,記錄消耗的NaOH溶液體積。可滴定酸質(zhì)量分?jǐn)?shù)計(jì)算公式為
式中N——NaOH溶液濃度,mol/LW——樣品鮮質(zhì)量,gV——樣品液制成總體積,mLV1——吸取樣品濾液體積,mLV2——滴定時(shí)消耗NaOH溶液用量,mLA——與1.00 mL NaOH標(biāo)準(zhǔn)溶液相當(dāng)?shù)脑嚇又黧w酸質(zhì)量,g
1.2.5 不同品種的區(qū)分方法
K近鄰(K-nearest neighbor,KNN)算法的基本思想很直觀,即對若干類樣本,按照高維空間的距離度量,搜索出最相似的K個(gè)近鄰,然后對近鄰樣本所屬的類別標(biāo)簽進(jìn)行分析,判斷待測樣本的類別[20]。由于不需要先驗(yàn)訓(xùn)練用于區(qū)分任意2個(gè)類別間的判別子分類器,并且支持增量學(xué)習(xí)等優(yōu)良特性,KNN算法具有很強(qiáng)的適應(yīng)性。在采樣數(shù)據(jù)較為充分的情況下,KNN算法能夠取得優(yōu)秀的分類性能,具體表現(xiàn)在分類結(jié)果取決于近鄰樣本的類別標(biāo)簽,因此不會(huì)受到少量噪聲的干擾,這大大提高了算法對噪聲的魯棒性和抗變換性。
在已知待測樣本K個(gè)近鄰的類別時(shí),待測樣本的類別有不同的判斷方法。最直觀的方法是找出這K個(gè)近鄰中出現(xiàn)次數(shù)最多的類別來作為待測樣本的類別。更完善的方法是將近鄰與待測樣本間的距離作為權(quán)重來計(jì)算這K個(gè)近鄰所屬類別的重要程度,加權(quán)統(tǒng)計(jì)得到最重要的類別來作為待測樣本的類別。
樣本在特征空間中的相似程度由距離度量的定義來決定,著重點(diǎn)在特征空間中距離時(shí),可以選用歐氏距離和城市街區(qū)距離等;著重于矢量的夾角時(shí),則選用余弦相似度量更為合理。對于蘋果光譜這樣內(nèi)部作用機(jī)理復(fù)雜的信號(hào)而言,難以先驗(yàn)地獲知哪一種距離度量更為合理,常見的做法是對于可能的距離度量方案通過實(shí)證進(jìn)行篩選,以獲取能夠與模型最吻合的距離度量。對于n維空間中的2個(gè)樣本X(X1,X2,…,Xn)和Y(Y1,Y2,…,Yn),本文采用Matlab函數(shù)中內(nèi)置的10種距離度量方法,其計(jì)算方法如下:
城市街區(qū)距離
(2)
切比雪夫距離
dChebychev(X,Y)=max|Xi-Yi|
(3)
相關(guān)距離
(4)
式中COV——協(xié)方差VAR——方差
余弦相似度
(5)
歐幾里得距離
(6)
漢明距離
(7)
式中,#代表將點(diǎn)轉(zhuǎn)換為二進(jìn)制數(shù)據(jù),下同。
Jaccard相似系數(shù)
(8)
明可夫斯基距離
(9)
由于式(9)代表對多個(gè)距離度量公式的概括,故p為某一個(gè)變量。
標(biāo)準(zhǔn)化歐氏距離
(10)
斯皮爾曼距離(Spearman distance)
dSpearman(X,Y)=1-
(11)
因?yàn)镵NN算法采用了待測樣本與其近鄰間的距離來衡量二者間的相似度,所以該算法對數(shù)據(jù)的數(shù)值范圍比較敏感,如果對特征值進(jìn)行距離計(jì)算,則取值范圍較大的特征值將對結(jié)果產(chǎn)生絕對的影響,而較小的特征值幾乎沒有作用,這是不合理的。因此需要先對樣本數(shù)據(jù)進(jìn)行歸一化后再進(jìn)行距離的計(jì)算和判斷。在實(shí)際應(yīng)用中,如果某種特征的確比其他特征對分類起到更重要作用,則可以根據(jù)實(shí)際情況增大其數(shù)值范圍。
雖然KNN算法不需要消耗時(shí)間來對訓(xùn)練樣本進(jìn)行訓(xùn)練,而是直接拿訓(xùn)練樣本來對測試樣本進(jìn)行類別判斷,但是該算法仍然需要花費(fèi)較長時(shí)間。因?yàn)樵撍惴ㄐ枰?jì)算每個(gè)待測樣本和全部訓(xùn)練樣本間的距離,這在樣本個(gè)數(shù)較多時(shí)或者樣本維度較高時(shí)是很耗時(shí)的工作。因此有必要再探討其他分類方法對蘋果品種識(shí)別的可行性。
1.2.6 基于徑向基核函數(shù)的支持向量機(jī)算法
支持向量機(jī)(Support vector machine,SVM)算法的基本思想是求出2個(gè)類別的決策面的表達(dá)式,進(jìn)而可以對2個(gè)類別進(jìn)行分類,多類別分類需要在二分類的基礎(chǔ)上采取一對一或者一對多策略進(jìn)行計(jì)算。
在分類過程中當(dāng)2個(gè)類別線性不可分時(shí),需要借助核函數(shù)將2個(gè)類別的數(shù)據(jù)映射到可分的高維空間中,再計(jì)算決策面的表達(dá)式。應(yīng)用較多的核函數(shù)有線性核、多項(xiàng)式核、徑向基核、Sigmoid核4種,而無論是低維、高維、小樣本、大樣本等情況徑向基核函數(shù)均適用,具有較寬的收斂域,是較為理想的分類依據(jù)函數(shù)[21]。本實(shí)驗(yàn)采取了C支持向量分類(C-support vector classification)的方法和徑向基核函數(shù) (Radial basis function,RBF)。利用 SVM 進(jìn)行模式分類時(shí)需要確定2個(gè)參數(shù):懲罰因子C和RBF核函數(shù)中的半徑參數(shù)γ,參數(shù)C理解為調(diào)節(jié)優(yōu)化方向中2個(gè)指標(biāo)(間隔、分類準(zhǔn)確度)偏好的權(quán)重。對于一個(gè)基于RBF的SVM, 其性能由參數(shù)(C,γ)決定, 選取不同的C和γ就會(huì)得到不同的SVM。其中C選擇的越大,表示對錯(cuò)誤率懲罰程度越大,C較小時(shí)推廣錯(cuò)誤率的估計(jì)值比較高,C較大時(shí)急劇降低, 即性能得到迅速的提高。通過對參數(shù)(C,γ)的變化, 可選取最優(yōu)參數(shù)組合來得到最優(yōu)值,即此時(shí)的錯(cuò)誤率最低[21]。所以本文中采用不同的C值和γ值進(jìn)行交叉驗(yàn)證來計(jì)算分類結(jié)果的正確率。
徑向基核函數(shù)公式為
K(X,Y)=φ(X)Tφ(Y)=e-γ‖X-Y‖2(γ>0)
(12)
式中,K表示特征空間距離,φ(X)表示通過將輸入空間內(nèi)線性不可分的數(shù)據(jù)映射到一個(gè)高維的特征空間內(nèi)使得數(shù)據(jù)在特征空間內(nèi)是可分的。其中,雖然每個(gè)樣本X被函數(shù)φ(X)映射到無限維空間,但核是很容易計(jì)算的,從而可以方便地計(jì)算決策面的表達(dá)式。
1.2.7 交叉驗(yàn)證
交叉驗(yàn)證是指在給定的建模樣本中,取大多數(shù)樣本進(jìn)行建模,留一小部分樣本對剛建立的模型進(jìn)行預(yù)測,并計(jì)算出這小部分樣本的預(yù)測誤差,記錄它們的平方和。一直重復(fù)進(jìn)行這個(gè)過程,直到所有的樣本都被預(yù)測了一次而且僅被預(yù)報(bào)一次。j折交叉驗(yàn)證是指在機(jī)器學(xué)習(xí)中,將數(shù)據(jù)集A分為訓(xùn)練集B和測試集C,在樣本量不充足的情況下,為了充分利用數(shù)據(jù)集對算法效果進(jìn)行測試,將數(shù)據(jù)集A隨機(jī)分為j個(gè)包,每次將其中1個(gè)包作為測試集,剩余j-1個(gè)包作為訓(xùn)練集進(jìn)行訓(xùn)練。這個(gè)方法能夠同時(shí)重復(fù)運(yùn)用同一批樣本進(jìn)行訓(xùn)練和驗(yàn)證,每次的結(jié)果驗(yàn)證一次,增加了驗(yàn)證的可信度,本文中采用了5折交叉檢驗(yàn)的方法對2種分類模型進(jìn)行預(yù)測。
2.1 光譜信息的提取與分析
根據(jù)蘋果果實(shí)和背景不同的光譜特征,選擇1 069 nm和1 446 nm的圖像進(jìn)行波段比處理,發(fā)現(xiàn)蘋果果實(shí)區(qū)域的波段比大于2,而背景噪聲的值小于1,故將閾值選為2,進(jìn)行降噪處理,然后將降噪后的二值圖像進(jìn)行濾波和形態(tài)學(xué)算法處理后作為掩膜來提取高光譜圖像中蘋果果實(shí)區(qū)域作為感興趣區(qū)域,然后計(jì)算出ROI的平均光譜。
由于高光譜曲線在865.11~941.46 nm以及1 602.15~1 711.71 nm范圍中有很大的噪聲,導(dǎo)致該部分高光譜圖像信息十分模糊,所以截取了3種蘋果的近紅外高光譜圖像在波長為941~1 602 nm之間共200個(gè)波段的數(shù)據(jù),即每個(gè)樣本的維度為200,即KNN算法中的各種距離公式中n=200,分別對應(yīng)200個(gè)波段取值。各品種隨機(jī)取10個(gè)果實(shí)為例,其200個(gè)波段內(nèi)部分波長下反射強(qiáng)度及其隨波長的變化趨勢如圖4所示。由圖4可見,各個(gè)品種在選定波長范圍內(nèi)各個(gè)波長下的反射強(qiáng)度非常一致,“喬納金”、“富士”、“秦冠”蘋果各30個(gè)果實(shí)的觀測值變異系數(shù)均低于5%,依次為3.2%、3.4%、4.9%。各波長下“喬納金”蘋果的取值與另外2種蘋果有明顯的分離;“富士”與“秦冠”蘋果的取值有所交叉,顯示了“富士”與“秦冠”蘋果果實(shí)在各波長下的反射強(qiáng)度取值的相似性和難以區(qū)分性。故還需要借助譜圖中數(shù)據(jù)信息,采用分類器計(jì)算后來確定二者區(qū)分的可能性。
圖4 3個(gè)品種蘋果感興趣區(qū)域的部分波長下反射強(qiáng)度Fig.4 Reflection intensity of three varieties of apples at part wavelengths in ROI region
2.2 建立KNN模型計(jì)算蘋果品種的識(shí)別正確率
KNN方法在類別決策時(shí),只與極少量的相鄰樣本有關(guān)。由于KNN方法主要靠周圍有限的鄰近樣本,而不是靠判別類域的方法來確定所屬類別,因此對于類域的交叉或重疊較多的待分樣本集來說,KNN方法較其他方法更為適合。
在KNN算法中利用不同的距離方法,在不同的K取值條件下,將各個(gè)品種的平均反射強(qiáng)度分為訓(xùn)練樣本和校正樣本并進(jìn)行計(jì)算,蘋果品種識(shí)別正確率如表1所示(K取值分別為1、3、5、7、9)。通過表1可知,K選取1、3、5時(shí),正確識(shí)別率普遍大于K取7、9的結(jié)果。這是因?yàn)楫?dāng)K值選取過大時(shí),在特征空間中覆蓋的局部區(qū)域過大,會(huì)降低分類器的擬合性能。對不同距離度量的實(shí)證中可以發(fā)現(xiàn),K取1、3、5時(shí),基于空間中點(diǎn)之間度量的5種距離(城市街區(qū)距離、切比雪夫距離、歐幾里得距離、明可夫斯基距離、標(biāo)準(zhǔn)歐氏距離),其識(shí)別正確率最高,均達(dá)到98%以上;基于余弦相似度、相關(guān)距離和斯皮爾曼距離的識(shí)別正確率其次,為92%~99%;基于集合運(yùn)算的漢明距離和Jaccard相似系數(shù)度量性能不佳,識(shí)別正確率均低于40%。說明基于點(diǎn)距離的度量方案可以更好地在光譜特征空間中表征數(shù)據(jù)樣本,刻畫出更為精確的蘋果類別邊界,這是因?yàn)樘O果果實(shí)的高光譜信號(hào)值域較大,因此以浮點(diǎn)數(shù)來呈現(xiàn)數(shù)值時(shí),僅當(dāng)2個(gè)浮點(diǎn)數(shù)完全一樣時(shí)才能夠在求交集時(shí)獲得非零值,出于測量誤差的緣故,微小的噪聲都會(huì)造成樣本相似度量的失效,因此基于集合運(yùn)算的漢明距離和Jaccard 相似系數(shù)不適用于蘋果品種KNN判別分類。選取K值為3和5時(shí),能夠在擬合和泛化性能間獲得較好的均衡, 距離度量選取切比雪夫距離、歐幾里得距離和明可夫斯基距離都達(dá)到了正確率100%的優(yōu)異分類性能。
KNN分類器在判別時(shí)采用近鄰樣本進(jìn)行分析,因此是原生的多類別分類器,在分析其性能時(shí),通常不再研討兩兩類別之間的區(qū)分和混疊性能,而是考量多類別總體分類性能。而且在參數(shù)尋優(yōu)后,獲得了100%的品種判別性能,表明品種之間均具有優(yōu)異的可分性。
表1 不同K取值與各種距離的識(shí)別正確率
2.3 建立支持向量機(jī)模型計(jì)算蘋果品種的識(shí)別正確率
支持向量機(jī)基于核函數(shù)機(jī)制,能夠?qū)⒎蔷€性的數(shù)據(jù)映射至高維線性可分的空間中,由于無法根據(jù)數(shù)據(jù)樣本先驗(yàn)獲得核函數(shù)的參數(shù),通常在訓(xùn)練支持向量機(jī)中對可能選取的參數(shù)空間進(jìn)行采樣,遍歷實(shí)證,選取最優(yōu)的參數(shù)組合。本試驗(yàn)中選取擬合性能優(yōu)越的徑向基核函數(shù),對懲罰因子C和徑向基半徑γ這2個(gè)參數(shù)進(jìn)行實(shí)證尋優(yōu),蘋果品種識(shí)別正確率如表2 所示。在γ取值為2-8~1的條件下,在交叉驗(yàn)證中均可以取得92%以上的正確率,而隨著γ取值的增加,擬合性能下降,在交叉驗(yàn)證中的識(shí)別正確率降低,故不必再增加γ取值來做驗(yàn)證。而其中當(dāng)γ取2-5,C取16和32時(shí),在交叉驗(yàn)證中的品種識(shí)別正確率最高,可以達(dá)到96.67%,表明該間隔取值適當(dāng)。
表2 SVM模型下不同C和γ值下的識(shí)別正確率
對于支持向量機(jī)分類器,訓(xùn)練時(shí)考量的是結(jié)構(gòu)代價(jià)函數(shù)和分類誤差代價(jià)函數(shù),因此未能對特定類別之間的區(qū)分性能進(jìn)行呈現(xiàn)和分析,而且由于支持向量機(jī)分類性能不及KNN分類器,對于實(shí)際系統(tǒng)中建議選用KNN分類器。既然高光譜判別蘋果品種類別實(shí)驗(yàn)方案的可行性得以肯定,此處不再對支持向量機(jī)中的特定類別間的分類性能進(jìn)行研討。
由于近紅外圖像是由測定目標(biāo)與背景間的紅外線強(qiáng)度差形成的,目標(biāo)的形狀和理化性質(zhì)均對圖像或反射光譜有影響。通過前人的研究,“喬納金”蘋果果形指數(shù)為0.83[22],“富士”蘋果為0.82[23],“秦冠”蘋果為0.84[24];3種蘋果果形指數(shù)均在0.83左右,表明它們的外觀差異并不明顯,不是造成三者間近紅外反射光譜差異的主要因素。3個(gè)品種的果實(shí)硬度(表3)從小到大雖然依次為“富士”蘋果、“喬納金”蘋果、“秦冠”蘋果,但是只有“秦冠”蘋果與前二者的差異顯著,與近紅外高光譜中“喬納金”蘋果的反射強(qiáng)度與另外2個(gè)品種明顯可分的差異性也不一致,因此,以硬度反映的果實(shí)質(zhì)地和密度特性也不是影響近紅外反射強(qiáng)度的唯一因素。
化合物分子中的含氫基團(tuán)(OH、NH、CH)在近紅外光譜區(qū)具有振動(dòng)合頻以及各級(jí)倍頻的吸收[25],故碳水化合物、酚類物質(zhì)對近紅外光有吸收。3個(gè)品種果實(shí)的可溶性固形物和可滴定酸均為“富士”蘋果顯著高于其他2個(gè)品種(表3),與3個(gè)品種果實(shí)的近紅外高光譜所表現(xiàn)的“富士”蘋果與“秦冠”蘋果交叉,“喬納金”蘋果明顯較低的規(guī)律也不一致。丁秀玲[26]研究了13個(gè)品種蘋果的理化特征。其中“喬納金”、“富士”、“秦冠”蘋果果實(shí)總酚含量(質(zhì)量比)依次為68.63、112.92、40.98 mg/(100 g),3個(gè)品種果實(shí)總酚含量與它在各波長的近紅外反射強(qiáng)度的順序也不同。由以上結(jié)果可以推測,本研究測定之外的化學(xué)組分也參與了近紅外吸收而導(dǎo)致了近紅外高光譜反射強(qiáng)度的品種間差異,利用反射強(qiáng)度差異建立的分類模型能夠?qū)Σ煌贩N成功識(shí)別所依據(jù)的是能夠綜合反映其理化特性的各品種近紅外高光譜圖,即分類數(shù)據(jù)來源充分體現(xiàn)了品種特異性,故該分類方法更加靈敏和實(shí)用。
表3 各品種果實(shí)理化品質(zhì)比較
注:觀測值為平均值±標(biāo)準(zhǔn)差,同列中不同字母表示差異顯著(p≤0.05)。
不同種類蘋果在高光譜信號(hào)特征空間中具有穩(wěn)定和緊湊的局部性,并呈現(xiàn)非線性的表征,因此基于已有數(shù)據(jù)樣本近鄰度量的KNN分類器能夠獲得優(yōu)異的分類性能,而且由于高光譜的數(shù)據(jù)描述為動(dòng)態(tài)區(qū)間較大的浮點(diǎn)數(shù),描述點(diǎn)之間關(guān)系的距離度量切比雪夫距離、歐幾里得距離和明可夫斯基距離取得了更好的性能,而描述集合關(guān)系的距離度量漢明距離和Jaccard相似系數(shù)則性能欠佳。支持向量機(jī)分類器的試驗(yàn)表明,參數(shù)尋優(yōu)后,分類正確率能夠達(dá)到96.67%,但是徑向基參數(shù)γ取值(2-4和2-5)相對較小,訓(xùn)練所獲得的模型可能存在過擬合的風(fēng)險(xiǎn),未來的研究還需要采集更充分的數(shù)據(jù)加以驗(yàn)證,這也表明不同品種的蘋果在高光譜數(shù)據(jù)的特征空間中,存在著復(fù)雜的非線性穿插,使用徑向基核函數(shù)映射后也無法完全實(shí)現(xiàn)線性可分,此時(shí)基于先驗(yàn)樣本分布的KNN分類器由于不依賴模型假設(shè),即使不同類別的蘋果在高光譜特征空間中呈現(xiàn)為復(fù)雜的非線性分布,依然獲得穩(wěn)健、優(yōu)越的分類性能。
本試驗(yàn)并沒有使用單純的化學(xué)計(jì)量算法進(jìn)行分類,而是使用了高光譜無損測定結(jié)合機(jī)器學(xué)習(xí)的方法,可以利用更少的數(shù)據(jù)量得到更加準(zhǔn)確的結(jié)果,使過程更加簡便,結(jié)果更加準(zhǔn)確。
以上結(jié)果表明生產(chǎn)上可以利用近紅外高光譜成像技術(shù)在865~1 711 nm波段下的吸收值結(jié)合KNN機(jī)器學(xué)習(xí)的方法來設(shè)計(jì)檢測機(jī)器來快速準(zhǔn)確地鑒別蘋果的品種,并有望建立用于蘋果品種鑒別的高光譜指紋圖譜。
采用近紅外高光譜成像技術(shù),通過一系列的圖像處理,得到3個(gè)品種蘋果果實(shí)在近紅外200個(gè)波段的平均反射光譜,然后通過Matlab軟件訓(xùn)練了KNN算法和SVM(徑向基核函數(shù))的2個(gè)分類器。其中當(dāng)K取值3和5時(shí),KNN分類器中切比雪夫距離、歐幾里得距離和明可夫斯基距離3種距離算法的識(shí)別正確率均達(dá)到100%的優(yōu)異性能,可以選定為最簡單和高效的分析方法。SVM-RBF核函數(shù)模型中當(dāng)徑向基參數(shù)γ取2-5,懲罰因子C取16和32時(shí),品種識(shí)別正確率雖然高達(dá)96.67%,可是其訓(xùn)練模型中存在過擬合風(fēng)險(xiǎn),需要進(jìn)一步論證。
1 閆潤, 王新忠, 邱白晶,等. 基于特征光譜的草莓品種快速鑒別[J/OL]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2013,44(9):182-186. http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?file_no=20130932&flag=1.DOI:10.6041/j.issn.1000-1298.2013.09.032. YAN Run, WANG Xinzhong, QIU Baijing,et al. Discrimination of strawberries varieties based on characteristic spectrum[J/OL]. Transactions of the Chinese Society for Agricultural Machinery,2013, 44(9):182-186.(in Chinese)
2 曹芳, 吳迪, 何勇,等. 基于可見-近紅外反射光譜技術(shù)的葡萄品種鑒別方法的研究[J]. 光學(xué)學(xué)報(bào), 2009, 29(2):537-540. CAO Fang,WU Di,HE Yong,et al. Variety discrimination of grapes based on visible-near reflection infrared spectroscopy[J]. Acta Optica Sinica,2009,29(2):537-540. (in Chinese)
3 李江波, 趙春江, 陳立平,等. 基于可見/近紅外光譜譜區(qū)有效波長的梨品種鑒別[J/OL]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2013, 44(3):153-157. http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?file_no=20130328&flag=1.DOI:10.6041/j.issn.1000-1298.2013.03.028. LI Jiangbo,ZHAO Chunjiang, CHEN Liping,et al. Variety identification of pears based on effective wavelengths in visible/near infrared region[J/OL]. Transactions of the Chinese Society for Agricultural Machinery,2013, 44(3):153-157.(in Chinese)
4 HE Y, LI X, SHAO Y. Quantitative analysis of the varieties of apple using near infrared spectroscopy by principal component analysis and BP model[C]∥AI 2005: Advances in Artificial Intelligence, 2005:1053-1056.
6 胡耀華, 劉聰, 何勇. 近紅外光譜鑒別鮮棗品種及裂果研究[J]. 光譜學(xué)與光譜分析, 2013,33(12):3231-3234. HU Yaohua, LIU Cong,HE Yong. Discrimination of the fresh jujube varieties and dehiscent fruit by NIR spectroscopy[J]. Spectroscopy and Spectral Analysis,2013,33(12):3231-3234. (in Chinese)
7 何勇, 李曉麗. 用近紅外光譜鑒別楊梅品種的研究[J]. 紅外與毫米波學(xué)報(bào), 2006, 25(3):192-194. HE Yong,LI Xiaoli. Didcriminating varieties of waxberry using near infrared spectra[J]. Journal of Infrared and Millimeter Waves, 2006, 25(3):192-194. (in Chinese)
8 李曉麗, 唐月明, 何勇,等. 基于可見/近紅外光譜的水稻品種快速鑒別研究[J]. 光譜學(xué)與光譜分析, 2008, 28(3):578-581. LI Xiaoli, TANG Yueming, HE Yong, et al. Discrimination of varieties of paddy based on Vis/NIR spectroscopy combined with chemometrics[J]. Spectroscopy and Spectral Analysis,2008, 28(3):578-581.(in Chinese)
9 鄔文錦, 王紅武, 陳紹江,等. 基于近紅外光譜的商品玉米品種快速鑒別方法[J]. 光譜學(xué)與光譜分析, 2010, 30(5):1248-1251. WU Wenjin, WANG Hongwu, CHEN Shaojiang, et al. Fast discrimination of commerical corn varieties based on near infrared spectra[J]. Spectroscopy and Spectral Analysis, 2010, 30(5):1248-1251.(in Chinese)
10 盧洋, 梁先揚(yáng), 李衛(wèi)軍,等. 基于近紅外光譜短波段的玉米品種鑒別研究[J]. 河南大學(xué)學(xué)報(bào):自然科學(xué)版, 2012, 42(3):239-243. LU Yang, LIANG Xianyang, LI Weijun, et al. Study on corn varieties discrimination based on short wave band of NIR spectra[J]. Journal of Henan University:Natural Science, 2012, 42(3):239-243.(in Chinese)
11 趙花榮, 王曉燕, 陳冠華,等. 利用傅里葉變換紅外光譜法鑒定小麥品種[J]. 光譜學(xué)與光譜分析, 2004, 24(11):1338-1341. ZHAO Huarong, WANG Xiaoyan, CHEN Guanhua, et al. Identification of wheat varieties by FTIR spectrum [J].Spectroscopy and Spectral Analysis, 2004, 24(11):1338-1341.(in Chinese)
12 周竹,李小昱,陶海龍,等. 基于高光譜成像技術(shù)的馬鈴薯外部缺陷檢測[J]. 農(nóng)業(yè)工程學(xué)報(bào),2012, 28(21):221-228. ZHOU Zhu, LI Xiaoyu,TAO Hailong, et al. Detection of potato external defects based on hyperspectral imaging technology[J].Transactions of the CSAE,2012, 28(21):221-228.(in Chinese)
13 HUANG M, WAN X M, ZHANG M,et al. Detection of insect-damaged vegetable soybeans using hyperspectral transmittance image[J]. Journal of Food Engineering, 2013, 116(1): 45-49.
14 張初, 劉飛, 孔汶汶,等. 利用近紅外高光譜圖像技術(shù)快速鑒別西瓜種子品種[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2013, 29(20):270-277. ZHANG Chu, LIU Fei, KONG Wenwen, et al. Fast identification of watermelon seed variety using near infrared hyperspectral imaging technology[J]. Transactions of the CSAE,2013, 29(20):270-277. (in Chinese)
15 WANG L, LIU D, PU H, et al. Use of hyperspectral imaging to discriminate the variety and quality of rice[J]. Food Analytical Methods, 2014, 8(2):515-523.
16 LIU D, WANG L, SUN D, et al. Lychee variety discrimination by hyperspectral imaging coupled with multivariate classification[J]. Food Analytical Methods, 2014, 7(9):1848-1857.
17 孫俊, 路心資, 張曉東,等. 基于高光譜圖像的紅豆品種GA-PNN神經(jīng)網(wǎng)絡(luò)鑒別[J/OL]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2016, 47(6):215-221.http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?file_no=20160628&flag=1.DOI:10.6041/j.issn.1000-1298.2016.06.028. SUN Jun, LU Xinzi, ZHANG Xiaodong, et al. Identification of red bean varity with probabilistic GA-PNN based on hyperspectral imaging[J/OL]. Transactions of the Chinese Society for Agricultural Machinery,2016, 47(6):215-221. (in Chinese)
18 王思玲, 蔡騁, 馬惠玲,等. 基于高光譜成像的蘋果水心病無損檢測[J]. 北方園藝, 2015(8):124-130.
19 鄒小波,陳正偉,石吉勇,等.基于近紅外高光譜圖像的黃瓜葉片色素含量快速檢測[J/OL].農(nóng)業(yè)機(jī)械學(xué)報(bào),2012,43(5):152-156. http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?file_no=20120526&flag=1.DOI:10.6041/j.issn.1000-1298.2012.05.026. ZOU Xiaobo,CHEN Zhengwei, SHI Jiyong, et al. Rapid detection of cucumber leaves pigments based on near infrared hyper-spectral image technology[J/OL]. Transactions of the Chinese Society for Agricultural Machinery,2012,43(5):152-156.(in Chinese)
20 CHANG C C, LIN C J. LIBSVM: a library for support vector machines[J]. ACM Transactions on Intelligent Systems & Technology, 2011,2(3): Article No.27.
21 林升梁, 劉志. 基于RBF核函數(shù)的支持向量機(jī)參數(shù)選擇[J]. 浙江工業(yè)大學(xué)學(xué)報(bào), 2007, 35(2):163-167. LIN Shengliang,LIU Zhi.Parameter selection in SVM with RBF kernel function[J]. Journal of Zhejiang University of Technology, 2007, 35(2):163-167.(in Chinese)
22 姜林. 蘋果新品種“紅喬納金”的引種觀察[J]. 落葉果樹, 1995(2): 31.
23 賈希友, 馬貴印, 王立剛,等. 高樁素可顯著提高紅富士蘋果的果形指數(shù)[J]. 山西果樹, 2000(1):7-9.
24 王田利, 李強(qiáng), 曹紅霞,等. 蘋果新品種——粉紅秦冠[J]. 山西果樹, 2010(2):44-45.
25 李慧,曾銘,要磊,等.近紅外光譜技術(shù)在食品檢測中的應(yīng)用研究進(jìn)展[J].食品工業(yè),2012(12):85-88.
26 丁秀玲. 不同品種蘋果理化特性研究及其在曲奇餅干中的應(yīng)用[D]. 楊凌:西北農(nóng)林科技大學(xué), 2011. DING Xiuling. Physicochemical properties of different cultivars of apples and the use in cookies[D]. Yangling:Northwest A&F University, 2011.(in Chinese)
Rapid Identification of Apple Varieties Based on Hyperspectral Imaging
MA Huiling1WANG Ruolin1CAI Cheng2WANG Dong1
(1.CollegeofLifeScience,NorthwestA&FUniversity,Yangling,Shaanxi712100,China2.CollegeofInformationEngineering,NorthwestA&FUniversity,Yangling,Shaanxi712100,China)
In order to achieve rapid non-destructive identification of apple varieties, the methodology of near-infrared hyperspectral imaging on identification of apple varieties was investigated. Near infrared hyperspectral images with wavelength from 865~1 711 nm of total 90 sample fruits were collected from three different varieties (“Jonagold”, “Fuji” and “Qinguan” apples), and hyperspectral image area of the apple was selected as a region of interest (ROI). Reflection intensity data of the average reflex spectrum were extracted with resolution rate of 2.8 nm, then they were calculated with K-nearest neighbor (KNN) and the support vector machine (SVM) methods, respectively, which were checked with 5-fold cross-validation method. The results showed that the hyperspectral images of three varieties of apples all became clear within wavelength of 941~1 602 nm. Among ten distance-types’ judgment of KNN with average reflection intensity at 200 wavelength-points, the identification accuracy of Chebychev, Euclidean and Minkowski reached the highest of 100% when the parameterKwas set at 3 or 5. While using the support vector machine-radial basis function (SVM-RBF) model, the accuracy rate reached above 92% when the value ofγfell within 2-8~1. The highest recognition rate of this model reached 96.67% whenγwas set at 2-5andCtook the value of 16 amd 32 at the same time. The results demonstrated that near-infrared hyperspectral imaging in combination with KNN was excellent and reliable for the rapid identification of apple varieties. This method could provide reference for identifying apple varieties in production.
apple; variety identification; hyperspectral image; K-nearest neighbor method; support vector machine
10.6041/j.issn.1000-1298.2017.04.040
2016-08-12
2016-09-21
陜西省農(nóng)業(yè)科技創(chuàng)新與攻關(guān)項(xiàng)目(2015NY023)和農(nóng)業(yè)部現(xiàn)代蘋果產(chǎn)業(yè)技術(shù)體系項(xiàng)目(CARS-28)
馬惠玲(1965—),女,教授,博士生導(dǎo)師,主要從事果實(shí)采后生理與技術(shù)研究,E-mail: ma_huiling65@hotmail.com
S661.1
A
1000-1298(2017)04-0305-08