吳 翔,張衛(wèi)正,陸江鋒,裘正軍,何 勇
浙江大學(xué)生物系統(tǒng)工程與食品科學(xué)學(xué)院,浙江 杭州 310058
基于高光譜技術(shù)的玉米種子可視化鑒別研究
吳 翔,張衛(wèi)正,陸江鋒,裘正軍*,何 勇
浙江大學(xué)生物系統(tǒng)工程與食品科學(xué)學(xué)院,浙江 杭州 310058
種子純度是衡量種子品質(zhì)的重要指標(biāo)。提出一種基于近紅外(874~1 734 nm)高光譜技術(shù)實(shí)現(xiàn)玉米種子可視化鑒別的方法。采集4個(gè)品種共384個(gè)玉米種子樣本的高光譜圖像數(shù)據(jù),隨機(jī)選擇288個(gè)樣本作為建模集,剩余96個(gè)樣本作為預(yù)測集。對玉米種子光譜曲線進(jìn)行分析后,通過連續(xù)投影算法(SPA)選取7個(gè)特征波段作為輸入,結(jié)合偏最小二乘法判別分析(PLS-DA)模型,對預(yù)測集進(jìn)行預(yù)測,獲得較好的分類效果,其中RC=0.917 7,RMSECV=0.444 2;RCV=0.911 5,RMSECV=0.459 9,建模集和預(yù)測集的總體鑒別率分別為78.5%和70.8%。通過圖像處理技術(shù)提取高光譜圖像中每個(gè)玉米顆粒的平均光譜數(shù)據(jù),輸入建立的SPA-PLS-DA模型,在計(jì)算生成的鑒別圖中以不同顏色標(biāo)識不同類別,實(shí)現(xiàn)了混雜玉米種子樣本的可視化鑒別。對3份不同組成的混雜種子樣本進(jìn)行鑒別,達(dá)到了較好的可視化效果。結(jié)果表明,通過可視化鑒別技術(shù),可以直觀方便地觀察混雜種子樣本中不同品種種子的分布和數(shù)量,為農(nóng)業(yè)生產(chǎn)中種子的純度鑒別和篩選提供了幫助。
高光譜成像; 玉米種子; 連續(xù)投影算法; 可視化
種子純度是衡量種子品質(zhì)的重要指標(biāo)。隨著雜交技術(shù)的廣泛應(yīng)用,農(nóng)作物種子的品種日益增多,品種類間相似性逐漸增大,感官鑒定不易區(qū)分。市場上摻雜造假,以次充好的事件屢有發(fā)生。不法商家將其他品種的種子或本品種不合格的種子混雜在合格種子中,造成農(nóng)作物的減產(chǎn),嚴(yán)重?fù)p害了種植者的利益。在農(nóng)作物種子檢驗(yàn)中,傳統(tǒng)檢測方法包括種子鑒定、幼苗鑒別、田間小區(qū)種植、蛋白質(zhì)電泳等。但這些方法存在著鑒定時(shí)間長、人員依賴性強(qiáng)、對種子具有破壞性等缺點(diǎn)。因此,需要研究一種快速方便的種子品種鑒別技術(shù)。
研究人員利用近紅外光譜對作物種子的發(fā)芽率[1],脂肪酸含量[2]和淀粉含量[3]等品質(zhì)進(jìn)行研究。但是傳統(tǒng)的光譜技術(shù)無法提供樣本圖像信息。高光譜圖像技術(shù)是近年來發(fā)展迅速的一種融合了光譜信息和圖像信息的無損檢測新技術(shù)。相比傳統(tǒng)化學(xué)檢測方法,高光譜圖像技術(shù)具有操作簡易、成本低廉、準(zhǔn)確度高的優(yōu)點(diǎn),因此被廣泛應(yīng)用于農(nóng)產(chǎn)品的品質(zhì)檢測[4-6],如利用近紅外高光譜成像技術(shù)獲取種子外部形態(tài)特征和內(nèi)部成分信息,對不同品種和品質(zhì)種子進(jìn)行分析; Rodriguez等利用近紅外高光譜圖像技術(shù)對4類不同葡萄種子進(jìn)行區(qū)分,并且建立成熟期的預(yù)測模型[7]; 張初等利用近紅外高光譜圖像技術(shù)結(jié)合極限學(xué)習(xí)機(jī)(ELM)建模方法快速鑒別西瓜種子品種[8]; Kong等利用近紅外高光譜技術(shù)區(qū)分四種雜交水稻品種[9]。但上述研究都未涉及對混雜種子樣本中摻雜種子的鑒別。在實(shí)際農(nóng)業(yè)生產(chǎn)中,需要檢查摻雜種子并予以剔除。因此如何定位發(fā)現(xiàn)成堆種子樣品中的摻雜種子變得十分重要。
結(jié)合近紅外高光譜成像技術(shù)提供的光譜信息和圖像信息,對不同種類玉米種子進(jìn)行可視化鑒別。通過提取高光譜圖像數(shù)據(jù)建立分類模型,并結(jié)合圖像處理技術(shù)生成偽彩色的鑒別圖,直觀地顯示混雜樣本中不同品種種子的位置和數(shù)量。研究包括: (1)通過SPA算法提取玉米種子近紅外光譜特征波段。(2)利用特征波段建立PLS-DA分類模型。(3)對混雜玉米種子樣本進(jìn)行可視化鑒別。
1.1 材料
玉米樣本購買于壽光大自然種業(yè)公司,品種有東方甜1號、綠色超人、鄭單958、品糯28共4類,每類各96顆。樣品均為正常品質(zhì),外觀沒有明顯的瑕疵。將384個(gè)實(shí)驗(yàn)樣本隨機(jī)分為建模集和預(yù)測集,建模集共288個(gè),每類各72個(gè),預(yù)測集共96個(gè),每類各24個(gè)。
1.2 高光譜圖像獲取
所采用的高光譜成像系統(tǒng)主要由相機(jī)、光譜儀、鏡頭、鹵素?zé)艄庠?、步進(jìn)電機(jī)控制的傳送帶、計(jì)算機(jī)、暗箱等組成。光譜儀的分辨率為5 nm,近紅外光譜范圍為874~1734 nm,高光譜圖像分辨率為320×256 像素。經(jīng)過反復(fù)實(shí)驗(yàn),物鏡的高度設(shè)置為19 cm,曝光時(shí)間為3 ms,平臺移動速度為14.5 mm·s-1。為了消除鏡頭中存在的暗電流以及光源的強(qiáng)度分布不均所產(chǎn)生的噪音[10],對采集到的高光譜圖像進(jìn)行一次黑白校正,公式如下
(1)
其中I0代表原始高光譜圖像,W為掃描標(biāo)準(zhǔn)白色校正板(反射率接近99.9%)得到的白色標(biāo)定圖。B為關(guān)閉光源(反射率接近0%)得到的黑色標(biāo)定圖像。在ENVI4.6軟件中對高光譜圖像進(jìn)行感興趣區(qū)域(ROI)提取,每個(gè)種子樣本中心提取一個(gè)矩形ROI, 求ROI內(nèi)所有像素點(diǎn)的平均光譜。將提取的光譜數(shù)據(jù)保存在一個(gè)384×256的矩陣中(384為樣本數(shù),256為波段數(shù))用于后續(xù)計(jì)算。
1.3 特征波段提取
全波段光譜數(shù)據(jù)之間存在大量的冗余和共線性信息特征,數(shù)據(jù)處理計(jì)算量大,不利于建立分類模型。選取特征波段是一種常見的減少高光譜數(shù)據(jù)冗余的方法。故采用連續(xù)投影算法(SPA)對高光譜數(shù)據(jù)進(jìn)行特征波長選擇。SPA 是一種特征變量前向選擇算法,在光譜特征波長選取中有廣泛的應(yīng)用[11]。設(shè)置SPA算法選擇特征波長數(shù)的范圍為5~30,提取的特征波段用于建立分類模型。選取的特征波段用于建立偏最小二乘法差別分析(PLA-DA)模型。本研究采用全交叉驗(yàn)證以避免過擬合問題,具體參考文獻(xiàn)[13]。
2.1 玉米種子光譜曲線分析
四種樣本玉米種子在光譜范圍為874~1 734 nm的近紅外波段,原始光譜圖如圖1所示。四種品種的玉米種子具有一致的光譜趨勢。在1 300 nm附近,反射率呈現(xiàn)急劇地下降,然后緩慢上升。在原始光譜的前后兩端有明顯的噪聲,因此采用1 000~1 600 nm共179個(gè)波段進(jìn)行后續(xù)數(shù)據(jù)分析。
2.2 主成分分析(PCA)
PCA結(jié)果如圖2所示。第一主成分PC1的貢獻(xiàn)率為87%,第二主成分貢獻(xiàn)率為11%,累計(jì)貢獻(xiàn)率為98%,可以解釋大部分變量。圖中四種樣品分布較密集,不易區(qū)分,需要建立數(shù)學(xué)模型進(jìn)行分類。
Fig.1 Reflectance spectra of corn seeds(874~1 734 nm)
Fig.2 Scores scatter plot of PC1 and PC2
2.3 SPA-PLS-DA建模
對全波段高光譜數(shù)據(jù)(1 000~1 600 nm) 利用SPA算法進(jìn)行特征波長選取,根據(jù)RMSE最小原則選取特征波長集合。RMSE結(jié)果如圖3所示,當(dāng)波長數(shù)量為7時(shí),曲線已經(jīng)趨于水平,此時(shí)RMSE=0.495 24接近最小值。最后選取7個(gè)特征波長,按貢獻(xiàn)率排序依次為: 1 164,1 237,1 392,1 314,1 213,1 072,1 291 nm。
Fig.3 RMSEV plot of EWs of full spectra data selected by SPA
將建模集的7個(gè)特征波長作為X變量,建模集的類別(以1代表東方甜1號,2代表綠色超人,3代表鄭單958,4代表品糯28)作為Y變量輸入PLS-DA模型。建立的SPA-PLS-DA模型的RC值0.917 7,RMSEC為0.444 2,RCV為0.911 5,RMSECV為0.459 9,輸出模型如下
Y=1.443 7-192.650 8×λ1 164+63.452×λ1 237-
15.724 8×λ1 392+301.433 6×λ1 314+
117.088 5×λ1 213+82.707 7×λ1 072-353.469 9×λ1 291
(2)
使用預(yù)測集驗(yàn)證建立的SPA-PLA-DA模型,將判斷閾值設(shè)為0.5,即如果輸出結(jié)果在(2.5,3.5 ]區(qū)間內(nèi),則判斷為類別3。結(jié)果如表1所示,建模集的總體鑒別率為78.5%,預(yù)測集為70.8%。預(yù)測集中,東方甜1號和鄭單958鑒別率較好為75%,品糯28結(jié)果較差為62.5%。在圖2中,品糯28集合分布也最為分散,與其他集合皆有重疊。表示在近紅外波段,品糯28的光譜特性與其他三類玉米種子較相近,不易區(qū)分。
Table 1 Discrimination results of SPA-PLS model
2.4 混雜種子樣本可視化鑒別
采集混雜玉米種子樣本的高光譜圖像,通過圖像處理技術(shù)提取高光譜圖像中每個(gè)玉米顆粒的平均光譜數(shù)據(jù),輸入建立的SPA-PLS-DA模型,預(yù)測結(jié)果以不同顏色標(biāo)識不同種子類別(以黑色為背景,白色為東方甜1號,紅色為綠色超人,綠色為鄭單958,黃色為品糯28),生成對應(yīng)的可視化鑒別圖。
對三份混雜種子樣本進(jìn)行可視化鑒別,結(jié)果如圖4所示。圖4中,第一列為組別號,第二列為樣本高光譜灰度圖像(1 164 nm), 第三列為對應(yīng)的鑒別圖。由于近紅外高光譜成像系統(tǒng)圖像分辨率較低和圖像分割算法效果影響,鑒別圖中樣本種子存在一定的變形,但大致維持原本的外形特征。(a)組和(b)組分別為東方甜1號-綠色超人和品糯28-鄭單958 的兩兩混合樣,用以顯示四種樣品各自的鑒別率。(a)組前四排為東方甜1號共32顆,后三排為綠色超人共24顆。(b)組前四排為品糯28共28顆,后三排為鄭單958共24顆。(a)組和(b)組中、東方甜 1號、綠色超人、鄭單958和品糯28的鑒別率依次為81.3%,75%,75%和64.3%. 其中,東方甜1號結(jié)果較好,而品糯28的識別率較低,一部分被模型誤判為鄭單958。(c)組為所有品種的混合樣,用以顯示綜合效果。(c)組從上到下依次為鄭單958、品糯28、東方甜1號
和綠色超人,每種各占2排共55顆,整體識別率為72.3%??梢暬Y(jié)果表明,通過鑒別圖可以較好地在混雜玉米種子樣本中定位識別不同品種種子。另外,圖中提供了每個(gè)種子樣本的外形特征,因此還可以提取同類種子的面積、周長、圓形度等參數(shù),用于種子形態(tài)學(xué)研究。
Fig.4 Visual identification map of 3 mixture samples of corn seeds
采用近紅外高光譜成像技術(shù)實(shí)現(xiàn)不同種類玉米種子可視化鑒別。以288個(gè)種子樣本作為建模集,96個(gè)樣本為預(yù)測集,使用SPA算法選取7個(gè)特征波段,建立SPA-PLS-DA分類模型,建模集和預(yù)測集的總體識別率分別為78.5%和70.8%。通過建立的SPA-PLS-DA模型結(jié)合圖像處理技術(shù),對3份不同組成的混雜種子樣本進(jìn)行可視化鑒別,獲得了較好的效果。結(jié)果表明,近紅外高光譜技術(shù)結(jié)合圖像處理技術(shù)可以實(shí)現(xiàn)玉米種子品種可視化鑒別,能為農(nóng)業(yè)生產(chǎn)中種子的純度鑒別和篩選提供幫助。在后續(xù)的研究中,會通過優(yōu)化建模方法和考慮更多的玉米品種,以獲得更穩(wěn)健的模型,達(dá)到更好的鑒別效果。
[1] DAI Zi-yun, LIANG Xiao-hong, ZHANG Li-juan, et al(戴子云, 梁小紅, 張利娟, 等). Spectroscopy and Spectral Analysis(光譜學(xué)與光譜分析), 2013, 33(10): 2642.
[2] Ribeiro L F, Peralta-Zamora P G, Maia B H L N S, et al. Food Research International, 2013, 51(2): 848.
[3] Hacisalihoglu G, Larbi B, Settles A M. Journal of Agricultural and Food Chemistry, 2010, 58(2): 702.
[4] Cozzolino D, Cynkar W, Shah N, et al. Food Analytical Methods, 2012, 5(3): 381.
[5] Suphamitmongkol W, Nie G L, Liu R, et al. Computers and Electronics in Agriculture, 2013, 91: 87.
[6] Rady A M, Guyer D E, Kirk W, et al. Journal of Food Engineering, 2014, 135: 11.
[7] Rodriguez-Pulido F J, Barbin D F, Sun D W, et al. Postharvest Biology and Technology, 2013, 76: 74.
[8] ZHANG Chu, LIU Fei, KONG Wen-wen, et al(張 初, 劉 飛, 孔汶汶, 等). Transactions of the Chinese Society of Agricultural Engineering(農(nóng)業(yè)工程學(xué)報(bào)), 2013, 29(20): 270.
[9] Kong W W, Zhang C, Liu F, et al. Sensors, 2013, 13(7): 8916.
[10] ElMasry G, Wang N, Vigneault C. Postharvest Biology and Technology, 2009, 52(1): 1.
[11] WU Di, NING Ji-feng, LIU Xu, et al(吳 迪, 寧紀(jì)鋒, 劉 旭, 等). Food Science(食品科學(xué)), 2014, 35(8): 57.
[12] Galvao R K H, Araujo M C U, Fragoso W D, et al. Chemometrics and Intelligent Laboratory Systems, 2008, 92(1): 83.
[13] Gaspardo B, Del Zotto S, Torelli E, et al. Food Chemistry, 2012, 135(3): 1608.
*Corresponding author
Study on Visual Identification of Corn Seeds Based on Hyperspectral Imaging Technology
WU Xiang, ZHANG Wei-zheng, LU Jiang-feng, QIU Zheng-jun*, HE Yong
College of Biosystems Engineering and Food Science,Zhejiang University,Hangzhou 310058, China
The seed purity is an important indicator of seed quality. The paper proposes a visual identification method of corn seed based on the near-infrared (874~1 734 nm) hyperspectral image technology. Hyperspectral image data of 4 cultivars of a total of 384 corn seed samples will be acquired. Then 288 of samples are to be selected randomly as the calibration set, and the remaining 96 samples will be used for the prediction set. After inspection of the near-infrared spectral curves, 7 effective wavelengths (EWs) are to be selected by successive projection algorithm (SPA). And then 7 EWs of the calibration set will be used as input to build a partial least squares (PLS) model. Good results are to be obtained withRC=0.917 7, RMSECV=0.444 2;RCV=0.911 5, RMSECV=0.459 9. And the total identification rate of the developed PLS model will be 78.5% for the calibration set and 70.8% for the prediction set. Finally, average spectral data of each corn seed in a hyperspectral image will be extracted by image process technology, and used as input of the developed SPA-PLS model. In the produced identification map, different colors are to be used to represent different predicted cultivars. 3 mixture samples of corn seeds will be identified, and help to achieve satisfied visual effects. The result indicates that, by means of the visual identification technology we could intuitively observe the distribution of corn seeds of different cultivars in mixture samples. The research provides help for the identification and screening of seeds in agricultural production.
Hyperspectral image; Corn seed; SPA; Visualization
Nov. 27, 2014; accepted Mar. 16, 2015)
2014-11-27,
2015-03-16
國家科技支撐計(jì)劃項(xiàng)目(2014BAD04B04)和浙江省教育廳科研項(xiàng)目(Y201328805)資助
吳 翔,1990年生,浙江大學(xué)生物系統(tǒng)工程與食品科學(xué)學(xué)院博士研究生 e-mail: wswuxiang@126.com *通訊聯(lián)系人 e-mail: zjqiu@zju.edu.cn
TP391.4
A
10.3964/j.issn.1000-0593(2016)02-0511-04