劉燕德,肖懷春,孫旭東,朱丹寧,韓如冰,葉靈玉,王均剛,馬奎榮
黃龍病是柑桔產(chǎn)業(yè)中一種毀滅性的病害。果樹(shù)一旦感染會(huì)迅速傳播,為盡早發(fā)現(xiàn)并移除染病果樹(shù),當(dāng)前該病檢測(cè)方法較為常用的有田間癥狀診斷和核酸分子檢測(cè)2種。前者是園藝師憑經(jīng)驗(yàn)判斷,準(zhǔn)確率不高。后者為試驗(yàn)人員在室內(nèi)進(jìn)行化學(xué)分析診斷,成本較高,周期也長(zhǎng)[1-2]。
隨著黃龍病危害越來(lái)越大,黃龍病檢測(cè)成為當(dāng)前一個(gè)熱點(diǎn)話(huà)題。相關(guān)研究表明用高光譜成像技術(shù)檢測(cè)黃龍病表現(xiàn)出一定的潛力[3]。梅慧蘭等在370~1 000 nm范圍內(nèi)獲取 5類(lèi)柑桔葉片的高光譜圖像,結(jié)合偏最小二乘判別分析構(gòu)建黃龍病的早期鑒別及病情分級(jí)模型,分類(lèi)準(zhǔn)確率達(dá) 96.4%[4-5]。鄧小玲等在高光譜技術(shù)基礎(chǔ)上采用最小噪聲變換算法對(duì)柑桔黃龍病進(jìn)行識(shí)別并分類(lèi),結(jié)果病情識(shí)別率達(dá) 90%以上,說(shuō)明該技術(shù)對(duì)黃龍病病情的診斷具有較高的可行性[6]。Sankaran等干燥粉碎柑桔葉片后,利用傅里葉近紅外光譜儀對(duì)葉片黃龍病進(jìn)行診斷,判別率達(dá)到了95%[7]。上述研究中普遍存在數(shù)據(jù)維度較高,變量數(shù)較多,建立的模型也復(fù)雜且數(shù)據(jù)降維方法單一。用多種變量篩選方法及其組合方法對(duì)數(shù)據(jù)降維,優(yōu)選變量使模型復(fù)雜度降低,提高預(yù)測(cè)精度。相比于主成分分析(principal component analysis,PCA)在數(shù)據(jù)降維上的簡(jiǎn)單易行,無(wú)信息變量消除算法(uninformative variable elimination,UVE)不僅可以剔除無(wú)關(guān)信息,還可以極小化變量之間的共線性影響[8]。遺傳算法(genetic algorithm,GA)可防止過(guò)擬合現(xiàn)象,增強(qiáng)模型穩(wěn)定性[9]。連續(xù)投影算法(successive projections algorithm,SPA)能消除冗余信息,保證更少變量數(shù)所包含的樣品信息最全。從而達(dá)到優(yōu)化模型的目的。
本研究運(yùn)用高光譜成像技術(shù)獲取輕度、中度、重度、缺鋅和正常 5類(lèi)柑桔葉片的圖像;分別采用 UVE、UVE-GA和UVE-SPA三種數(shù)據(jù)降維(或組合)方法對(duì)葉片高光譜中的特征變量進(jìn)行優(yōu)選;結(jié)合極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)與最小二乘支持向量機(jī)(least squares support vector machine,LS-SVM)2種定性判別方法構(gòu)建柑桔黃龍病判別模型,并對(duì)模型進(jìn)行驗(yàn)證優(yōu)選,以期為柑桔黃龍病的高光譜快速診斷提供一種參考方法。
根據(jù)當(dāng)?shù)剞r(nóng)業(yè)園藝師的指導(dǎo),于2016年10月在江西省萬(wàn)安縣某果園基地采摘柑桔葉片。該基地被隨機(jī)劃分為5塊小區(qū)域,每塊小區(qū)域中選3棵柑桔果樹(shù),兩兩間隔12 m,從樹(shù)的下方往上方采摘葉片,共采摘5類(lèi)樣品200片,其中40個(gè)輕度,42個(gè)中度、41個(gè)重度、40個(gè)缺鋅和37個(gè)正常(其中黃龍病葉片和缺鋅葉片表征相似,通過(guò)是否有“紅鼻子果”來(lái)區(qū)分)。將所有葉片進(jìn)行前期處理(清洗、晾干、壓平等)后放冰箱 4 ℃左右保存。
在實(shí)驗(yàn)室進(jìn)行高光譜圖像采集(溫度:22 ℃;濕度:60%),并按照國(guó)家標(biāo)準(zhǔn)規(guī)定的黃龍病檢測(cè)方法-聚合酶鏈?zhǔn)椒磻?yīng)(polymerase chain reaction,PCR)對(duì)每一片葉片進(jìn)行標(biāo)定。PCR測(cè)試引物分別根據(jù)Jagoueix等報(bào)道的O1O2和Hocquellet等報(bào)道的A2J5,由南京金斯瑞公司合成[10-11]。PCR測(cè)試結(jié)果如圖1所示。PCR主要是擴(kuò)增DNA至幾個(gè)數(shù)量級(jí)從而呈現(xiàn)亮帶,結(jié)果為陰性的是未染病樣品,陽(yáng)性的是染病樣品。由于缺鋅與黃龍病樣品表面癥狀相似,故采用PCR進(jìn)行測(cè)試,陽(yáng)性的為黃龍病樣品,對(duì)陰性泛黃的葉片采用原子吸收方法測(cè)定,均為缺鋅樣品。分析方法如文獻(xiàn)[12]所示。綜合 PCR結(jié)果和原子吸收方法,篩選輕度黃龍病、中度黃龍病、重度黃龍病、缺鋅和正常5類(lèi)樣品,其中篩選失敗樣品數(shù)量分別為4、7、5、4和1個(gè),并未計(jì)入采樣數(shù)量之中,故參與試驗(yàn)的每類(lèi)樣品數(shù)量為36個(gè)。
圖1 柑桔黃龍病葉片普通PCR測(cè)試結(jié)果Fig.1 Results of common PCR test for citrus Huanglongbing leaves
從圖1可知,用O1O2作引物進(jìn)行的PCR測(cè)試結(jié)果更清晰。正常、缺鋅、輕度黃龍病、中度黃龍病和重度黃龍病依次呈現(xiàn)出亮帶,且隨黃龍病輕重等級(jí),亮帶顏色越來(lái)越亮[13]。DNA標(biāo)記用途是DNA凝膠電泳時(shí)用來(lái)對(duì)比,以估算樣品DNA分子量,M.DNA分子量標(biāo)準(zhǔn)(300~800 bp)。缺鋅樣品 PCR測(cè)試出現(xiàn)的亮帶較黃龍病樣品PCR測(cè)試出現(xiàn)的亮帶暗淡,可能與葉片缺乏鋅元素有關(guān);而正常葉片PCR測(cè)試并未出現(xiàn)亮帶[14]。而選用缺鋅葉片是因其癥狀與患黃龍病葉片相似,具體結(jié)果如表1所示。
1.2.1 檢測(cè)裝置
自行搭建的高光譜成像系統(tǒng)包括光源、光譜采集暗箱、光譜成像儀、位移平臺(tái)和計(jì)算機(jī)等硬件。光源為 2盞功率20 W的鹵素?zé)簦∣SRAM,DECOSTAR51,MR16),通過(guò)穩(wěn)壓電源提供能量。光譜采集暗箱為 790 mm×790 mm×1 800 mm大小,用來(lái)消除外部環(huán)境中的光線。CCD攝像機(jī)(Hamamatsu C8484-05G)和光譜儀(ImSpector,V10E,芬蘭)組成的光譜系統(tǒng)用于獲取樣品高光譜圖像,通過(guò)USB數(shù)據(jù)線連接到計(jì)算機(jī)主板上的1 394圖像采集卡。位移平臺(tái)由步進(jìn)電機(jī)和載物臺(tái)組成,用來(lái)放置和移動(dòng)樣品。
表1 樣品種類(lèi)Table 1 Sample categories
圖2 高光譜成像系統(tǒng)Fig.2 Hyperspectral imaging system
1.2.2 圖像采集
為獲取最佳高光譜圖像,采集前對(duì)系統(tǒng)參數(shù)進(jìn)行設(shè)置,如曝光時(shí)間、移動(dòng)速度和光譜儀分辨率等。通過(guò)SpectraVIEW 軟件設(shè)置試驗(yàn)中參數(shù):相機(jī)曝光時(shí)間為20 ms,分辨率為1 344×1 024像素,位移平臺(tái)移動(dòng)速度為16 mm/s,光譜范圍是400~1 000 nm,光譜成像儀分辨率為2.8 nm。試驗(yàn)前系統(tǒng)預(yù)熱30 min左右,可以消除基線漂移的影響。將葉片平鋪在位移平臺(tái)上,通過(guò)SpectraVIEW 控制步進(jìn)電機(jī)帶動(dòng)位移平臺(tái)移動(dòng)進(jìn)行連續(xù)掃描,從每個(gè)樣品中獲取256張圖片,利用基于VC++6.0環(huán)境下的線圖合成軟件將 256張線圖合并轉(zhuǎn)化成高光譜三維圖像,進(jìn)一步用EVNI4.5軟件對(duì)圖像進(jìn)行分析和數(shù)據(jù)提取[15]。
為避免暗電流對(duì)葉片圖像的影響,將采集到的圖像進(jìn)行黑白標(biāo)定[16]。其步驟為與采集葉片圖像相同條件下蓋上鏡頭蓋掃描一段全黑圖像B,隨后取下鏡頭蓋掃描標(biāo)準(zhǔn)聚四氟乙烯材料制成的白板,得到全白的標(biāo)定圖像W。最后根據(jù)標(biāo)定公式(1)進(jìn)行標(biāo)定,將采集到的原始圖像Iλ轉(zhuǎn)變?yōu)橄鄬?duì)圖像Rλ。
式中Rλ為標(biāo)定后的圖像;RW為全白圖像;RB為全黑圖像;Iλ為原始圖像。運(yùn)用 SpectraVIEW軟件將所有圖像標(biāo)定完后進(jìn)行下一步分析。
將葉片高光譜圖像用 ENVI4.5軟件處理獲得的平均光譜數(shù)據(jù)維數(shù)較高,且含無(wú)關(guān)信息變量,為降低維度,首先用無(wú)信息變量消除法剔除無(wú)關(guān)信息,接著用遺傳算法和連續(xù)投影算法進(jìn)行變量篩選,最后結(jié)合 ELM 和LS-SVM建立判別模型,預(yù)測(cè)樣品對(duì)其進(jìn)行驗(yàn)證,若誤判率滿(mǎn)足條件則得到最佳模型,否則對(duì)降維參數(shù)進(jìn)行進(jìn)一步優(yōu)化分析,直到獲得最佳模型。具體流程如圖3所示。
圖3 柑桔葉片高光譜數(shù)據(jù)處理流程Fig.3 Hyperspectral data processing flow chart of citrus leaves
1.4.1 光譜數(shù)據(jù)降維算法
1)無(wú)信息變量消除算法
無(wú)信息變量消除算法(UVE)是一種針對(duì)偏最小二乘(partial least squares,PLS)回歸系數(shù)建立的變量選擇方法,其思想是根據(jù)向量所對(duì)應(yīng)回歸系數(shù)的穩(wěn)定性來(lái)選取變量,可有效地篩選有用波長(zhǎng)變量,剔除無(wú)貢獻(xiàn)和冗余變量。光譜矩陣x與類(lèi)別值Y之間的線性關(guān)系式如2所示。
式中x表示光譜矩陣,Y為類(lèi)別值,βi是系數(shù)矩陣,b是誤差向量。即把同維數(shù)的隨機(jī)變量(人工添加隨機(jī)噪聲)與光譜進(jìn)行拼接,通過(guò)交叉驗(yàn)證建立多個(gè)偏最小二乘回歸模型,得到對(duì)應(yīng)回歸系數(shù)矩陣 βi,計(jì)算 βi的平均值和標(biāo)準(zhǔn)偏差相除的商iC來(lái)評(píng)價(jià)其穩(wěn)定性。
式中βi表示系數(shù)矩陣βi的平均值,S(βi)表示對(duì)應(yīng)矩陣的標(biāo)準(zhǔn)偏差,把 Ci大于人工添加隨機(jī)噪聲的穩(wěn)定性 Cj對(duì)應(yīng)的列向量用于PLS回歸模型中[17-19],其中 Ci為光譜的穩(wěn)定性指標(biāo), Cj為噪聲的穩(wěn)定性指標(biāo)。
2)特征變量選擇算法
遺傳算法(GA)是一種基于生物遺傳和進(jìn)化機(jī)制且適合于復(fù)雜系統(tǒng)優(yōu)化的自適應(yīng)概率全局搜索算法,依據(jù)遺傳機(jī)制和自然選擇,在迭代同時(shí)將適應(yīng)度低的個(gè)體淘汰,保留優(yōu)良個(gè)體。主要用于選擇最優(yōu)模型的波長(zhǎng),將交互驗(yàn)證的均方根誤差作為適應(yīng)度函數(shù)。一般包括 6個(gè)步驟:個(gè)體編碼;初始化;適應(yīng)度的計(jì)算;選擇;交叉;變異。其中后 4步依次交替進(jìn)行,經(jīng)遺傳后產(chǎn)生新的種群,對(duì)其適應(yīng)度進(jìn)行評(píng)價(jià),直至達(dá)成終止的標(biāo)準(zhǔn)[20-21]。
連續(xù)投影算法(SPA)作為一種特征變量選擇方法,在重疊的光譜信息中提取有效信息,使光譜變量之間的共線性達(dá)到最小,冗余度最低。該算法在初始情形下選擇一個(gè)波長(zhǎng),前向循環(huán),計(jì)算未選擇波長(zhǎng)的投影向量,并挑選投影最大值對(duì)應(yīng)的波長(zhǎng),然后將投影向量與波長(zhǎng)進(jìn)行組合,直至循環(huán)結(jié)束。此方法有利于減少計(jì)算量、簡(jiǎn)化模型結(jié)構(gòu)、提高建模速度[22]。GA是解決最優(yōu)化問(wèn)題時(shí)選擇最佳變量,而SPA是選擇信息比重大的變量,二者在本文中為并列關(guān)系。
1.4.2 定性判別建模算法
極限學(xué)習(xí)機(jī)(ELM)是一種以單隱含層前饋神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的新型網(wǎng)絡(luò)學(xué)習(xí)算法,簡(jiǎn)單實(shí)用,解決了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練參數(shù)選取困難、易陷入局部最優(yōu)等缺點(diǎn),并以學(xué)習(xí)速度快、泛化能力強(qiáng)等著稱(chēng),在回歸預(yù)測(cè)、模式識(shí)別等領(lǐng)域得到了廣泛的應(yīng)用。最小二乘支持向量機(jī)變傳統(tǒng)不等式約束為等式約束,以平方誤差損失函數(shù)之和代替訓(xùn)練集的經(jīng)驗(yàn)損失。最小二乘支持向量機(jī)的訓(xùn)練過(guò)程中,在高維空間里通過(guò)一個(gè)最小二乘價(jià)值函數(shù)獲取一個(gè)線性方程組,從而將求解二次規(guī)劃問(wèn)題轉(zhuǎn)化為求解線性方程組[23]。兩種判別方法相比,ELM方法的模型優(yōu)化速度較快,而 LS-SVM方法模型分析精度較高,本研究期望通過(guò)計(jì)算分析探索一種快速而準(zhǔn)確的定性判別分析方法。
黃龍病葉片呈現(xiàn)的癥狀非常復(fù)雜,在不同生長(zhǎng)季節(jié)可表現(xiàn)不同的癥狀類(lèi)型。發(fā)病初期,頂部少數(shù)新梢葉片停止轉(zhuǎn)綠,表現(xiàn)為樹(shù)冠頂部枝梢黃化,即出現(xiàn)“黃梢”;顯現(xiàn)期,表現(xiàn)為由葉脈基部和側(cè)脈附近開(kāi)始黃化,逐漸擴(kuò)大形成黃、綠相間的不對(duì)稱(chēng)斑駁,形狀和大小不一;在染病后成熟期表現(xiàn)為果蒂部深紅色,俗稱(chēng)“紅鼻子果”。黃稍作為其特異性的典型癥狀,是識(shí)別黃龍病的主要依據(jù)。與其他原因造成的柑桔葉片癥狀極為類(lèi)似,且已感染此病但尚未表現(xiàn)明顯的柑桔葉片難以依據(jù)癥狀準(zhǔn)確診斷,故要與其他方法相結(jié)合。用ENVI4.5軟件獲取5類(lèi)葉片葉脈右側(cè)中間感興趣區(qū)域的平均光譜后續(xù)分析[24-25]。
5類(lèi)葉片(輕度、中度、重度黃龍病、缺鋅和正常)的代表性高光譜曲線如圖4所示,可以看出5種葉片的光譜曲線大致趨勢(shì)相似。550 nm處是葉綠素的強(qiáng)反射峰,黃龍病阻礙植物光合作用,導(dǎo)致該處葉片的反射峰高于正常葉片。700~1 000 nm為葉片的高反射率區(qū)域,由于葉片中的有機(jī)分子含有較多的氫基團(tuán),較明顯的反射峰位于原始高光譜720 nm處,反射峰主要由O-H鍵4級(jí)倍頻伸縮振動(dòng)導(dǎo)致。因黃龍病葉片中含水量偏低,造成反射率低于正常葉片,并隨著病情加重逐漸降低,重度黃龍病葉片的反射峰最低。缺鋅葉片在該處的反射峰可能是鋅營(yíng)養(yǎng)元素不足造成的,缺鋅葉片與黃龍病葉片光譜曲線存在重合之處可能是葉片所缺的元素與黃龍病阻礙光合作用導(dǎo)致葉片所丟失的元素相同[26-28]。
圖4 5類(lèi)柑桔葉片的代表性高光譜Fig.4 Representative hyperspectral of 5 kinds of citrus leaves
2.2.1 葉片高光譜數(shù)據(jù)無(wú)信息變量消除
用UVE對(duì)256個(gè)原始光譜變量剔除無(wú)用信息變量。在該過(guò)程中產(chǎn)生隨機(jī)變量個(gè)數(shù)設(shè)置為 200個(gè)。變量剔除結(jié)果如圖5所示,左、右側(cè)分別為256個(gè)原始變量和200個(gè)隨機(jī)變量的穩(wěn)定性分布曲線,兩條水平線為變量選擇閾值的上下限,處于這兩者之間的數(shù)值對(duì)應(yīng)的變量不用于建模,而兩者之外數(shù)值對(duì)應(yīng)的變量被保留。閾值選定標(biāo)準(zhǔn)為隨機(jī)變量穩(wěn)定性最大值的98%,經(jīng)UVE篩選后的變量數(shù)為105個(gè)。
圖5 UVE篩選結(jié)果Fig.5 The screening results by UVE
2.2.2 葉片高光譜數(shù)據(jù)特征變量篩選
經(jīng)UVE選擇后的105個(gè)變量采用GA篩選防止其過(guò)擬合現(xiàn)象發(fā)生。遺傳算法參數(shù)設(shè)定如下:初始種群規(guī)模為30,交叉概率為0.5,變異概率為0.01,遺傳迭代次數(shù)為100。以偏最小二乘的交互驗(yàn)證均方根誤差(root mean square error of cross validation,RMSECV)看作GA的適應(yīng)度函數(shù),優(yōu)選出相關(guān)性高的變量。圖 6為遺傳算法的優(yōu)化結(jié)果。迭代 100次期間方差趨于穩(wěn)定,對(duì)應(yīng)交互驗(yàn)證均方根誤差為最低時(shí)對(duì)應(yīng)的變量被選為最佳變量數(shù)。此時(shí)特征變量由105個(gè)降到36個(gè),從而嘗試進(jìn)一步優(yōu)化模型。
式中yi,actual為第i個(gè)樣品的設(shè)定值,yi,predicted為預(yù)測(cè)集交互驗(yàn)證過(guò)程中第i個(gè)樣品的預(yù)測(cè)值;n為預(yù)測(cè)集樣品數(shù)。
圖6 遺傳算法優(yōu)化過(guò)程Fig.6 Optimization process by genetic algorithm
經(jīng)UVE選擇105個(gè)變量的基礎(chǔ)上嘗試SPA變量篩選,得到共線性最小的19個(gè)有效波長(zhǎng)。運(yùn)行SPA算法程序時(shí)最大、最小變量數(shù)目分別設(shè)為 50、10。篩選結(jié)果為372.03,393.55,395.94,398.33,422.25,498.76,656.58,670.93,692.45,725.93,795.27,845.49,874.18,931.57,945.92,962.66,969.83,974.61,977 nm共19個(gè)有效波長(zhǎng),以此作為ELM和LS-SVM模型輸入變量。
樣品保存過(guò)程中有11個(gè)損壞,試驗(yàn)中予以剔除,包括5個(gè)輕度、2個(gè)中度、4個(gè)重度,將樣品劃分為輕度、中度、重度黃龍病、缺鋅、正常5類(lèi),后續(xù)將這5類(lèi)169個(gè)葉片按照3∶1的比例隨機(jī)劃分建模集和預(yù)測(cè)集,其中建模集有127個(gè)樣品(包括輕、中、重黃龍病分別25、21、26個(gè),缺鋅26個(gè),正常29個(gè)),剩余42個(gè)為預(yù)測(cè)集樣品。采用[2,4,6,8,10]作為判別模型的參考值,其中2、4、6分別表示輕度、中度和重度黃龍病葉片,8表示缺鋅葉片,10表示正常葉片。結(jié)合LS-SVM和ELM分別建立判別模型。兩類(lèi)樣品的中間值作為閾值對(duì)預(yù)測(cè)樣品進(jìn)行分類(lèi)。
2.3.1 ELM判別模型
極限學(xué)習(xí)機(jī)(ELM)是一種輸入權(quán)值隨機(jī)選擇和輸出權(quán)值估算分析的單一隱含層前饋網(wǎng)絡(luò),對(duì)輸出權(quán)值分析,得出全局最優(yōu)解,避免較多的收斂問(wèn)題[29]。
為防止 ELM網(wǎng)絡(luò)過(guò)擬合現(xiàn)象,在訓(xùn)練前結(jié)合 UVE剔除無(wú)關(guān)信息的光譜來(lái)確定ELM網(wǎng)絡(luò)隱含層神經(jīng)元的數(shù)目,權(quán)值變量j和隱含節(jié)點(diǎn)偏置d隨機(jī)確定,訓(xùn)練過(guò)程中未進(jìn)行調(diào)整。本文中初始化隱含層神經(jīng)元數(shù)目為 10,并以10作為間隔逐漸增加至80,用分類(lèi)正確率來(lái)確定最佳的隱含層神經(jīng)元數(shù)目。分別將sine,sigmoidal,Hardlim3個(gè)不同的函數(shù)作為ELM隱含層神經(jīng)元的激勵(lì)函數(shù)進(jìn)行訓(xùn)練,確定最佳激勵(lì)函數(shù)。圖7顯示了3種不同激勵(lì)函數(shù)下各隱含層神經(jīng)元數(shù)目對(duì)ELM性能的影響[30-32]??煽闯鲭S著神經(jīng)元數(shù)目的增加,分類(lèi)正確率都有增長(zhǎng)的趨勢(shì),當(dāng)數(shù)目為50時(shí),sigmoidal函數(shù)作為激勵(lì)函數(shù)的ELM網(wǎng)絡(luò)分類(lèi)正確率最高達(dá)到95%。故后續(xù)的ELM模型中用sigmoidal作為激勵(lì)函數(shù),且隱含層神經(jīng)元數(shù)設(shè)為50。
由于全譜輸入時(shí),變量共線性高且模型復(fù)雜。變量選擇可以減少共線性,減少模型復(fù)雜度,分別以全譜、多種變量方法篩選后的變量作輸入,建立 ELM 模型進(jìn)行對(duì)比。
圖7 三種激勵(lì)函數(shù)下ELM網(wǎng)絡(luò)分類(lèi)正確率與隱含層神經(jīng)元數(shù)目的關(guān)系Fig.7 Relationships between classifiction correct rate and number of hidden-layer neurons of extreme learning machine (ELM)on three incentive function
2.3.2 最小二乘支持向量機(jī)判別模型
最小二乘支持向量機(jī)(LS-SVM)是一種針對(duì)小樣本的統(tǒng)計(jì)學(xué)方法,常用的核函數(shù)有線性函數(shù)(Link_kernel)及徑向基函數(shù)(RBF_kernel)。經(jīng)不同組合變量選擇方法篩選后的最小二乘支持向量機(jī)模型判別結(jié)果,預(yù)測(cè)樣品用來(lái)評(píng)價(jià)其預(yù)測(cè)能力,并從 Link_kernel和 RBF_kernel兩個(gè)核函數(shù)出發(fā)考察LS-SVM模型的效果。Link核函數(shù)涉及的一個(gè)主要參數(shù)是γ,而RBF核函數(shù)涉及的兩個(gè)主要參數(shù)是 σ2和 γ,作為評(píng)判參數(shù)來(lái)考察樣品分類(lèi)的誤判率。γ和σ2一般采用兩步搜索法確定,第一步用較大步長(zhǎng)進(jìn)行查找,確定其界限,第二步在該界限內(nèi)用較小步長(zhǎng)進(jìn)行最佳參數(shù)尋找,從而得到所需參數(shù)。
用LS-SVM方法建立的判別模型與ELM模型進(jìn)行對(duì)比,建模集和預(yù)測(cè)集的劃分與前述一致,如表2所示。
從表2中可以看出,在隱含層神經(jīng)元數(shù)目都為50的條件下,4種 ELM 模型大致上都能判別黃龍病。經(jīng)UVE-SPA和UVE-GA組合篩選的ELM模型,雖誤判率最低都為4.76%,預(yù)測(cè)均方根誤差為0.190 5,但前者的預(yù)測(cè)相關(guān)系數(shù)高于后者為0.975 2。綜合預(yù)測(cè)相關(guān)系數(shù)、誤判率等幾項(xiàng)指標(biāo)看,均好于其余3種模型。故UVE-SPAELM模型更優(yōu)。
用Link_kernel函數(shù)作為核函數(shù)的LS-SVM模型明顯優(yōu)于 RBF_kernel為核函數(shù)的 LS-SVM 模型。其中UVE-GA與UVE-SPA篩選的變量作輸入時(shí)模型誤判率最低為0,而全譜作為輸入時(shí)誤判率最高,可能是全譜數(shù)據(jù)中含有無(wú)用信息和冗余信息變量導(dǎo)致。圖8為UVE-SPALS-SVM 和 UVE-SPA-ELM 判別模型預(yù)測(cè)結(jié)果,UVESPA-ELM 模型有 42個(gè)預(yù)測(cè)集樣品中有一個(gè)輕度黃龍病誤判為中度黃龍病,一個(gè)中度黃龍病誤判為輕度黃龍病,誤判率為4.76%。UVE-SPA-LS-SVM沒(méi)有一個(gè)樣品被誤判,誤判率為0,故效果最佳。最后用另外一批樣品包括輕度黃龍病、中度黃龍病、重度黃龍病、缺鋅和正常 5類(lèi),每類(lèi)各10個(gè)對(duì)判別模型驗(yàn)證試驗(yàn)并進(jìn)行PCR測(cè)試,其中有1輕度被誤判為中度、1個(gè)中度被誤判為重度,誤判率符合最佳模型要求。
表2 不同輸入變量下ELM和LS-SVM模型預(yù)測(cè)結(jié)果Table 2 Prediction results of ELM and LS-SVM model in different input variables
圖8 ELM與LS-SVM模型預(yù)測(cè)結(jié)果Fig.8 Prediction results of ELM and LS-SVM model
2.3.3 定性判別模型對(duì)比分析
利用UVE與GA,SPA組合方法對(duì)柑桔葉片高光譜進(jìn)行變量篩選,結(jié)合ELM和LS-SVM兩種方法分別建立判別模型,用42個(gè)預(yù)測(cè)集樣品來(lái)評(píng)價(jià)模型預(yù)測(cè)能力。
1)隱含層神經(jīng)元數(shù)目為50時(shí),采用UVE-SPA組合對(duì)光譜變量進(jìn)行篩選,優(yōu)化ELM模型輸入變量,判別效果更優(yōu),誤判率為4.76%。
2)線性函數(shù) Link_kernel作為核函數(shù),懲罰因子 γ最小為 1.07時(shí),利用 UVE-SPA組合篩選變量作為L(zhǎng)S-SVM輸入的模型預(yù)測(cè)能力最好,誤判率為0。
3)在輸入相同的條件下,UVE-SPA-LS-SVM模型的判別效果明顯優(yōu)于UVE-SPA-ELM模型,且誤判率更低,同時(shí)前者針對(duì)變量少的數(shù)據(jù),具有更強(qiáng)的泛化能力。
利用不同變量篩選方法組合,對(duì)柑桔葉片高光譜特征變量進(jìn)行選擇,結(jié)合ELM和LS-SVM建立判別模型,對(duì)柑桔黃龍病進(jìn)行分類(lèi),取得了較低的誤判率。特別是經(jīng)UVE-SPA變量篩選后建立的LS-SVM模型效果明顯優(yōu)于ELM模型,該模型的核函數(shù)為L(zhǎng)ink_kernel函數(shù),懲罰因子(γ)最小為1.07,輸入變量數(shù)19個(gè)雖不是最少,但誤判率最低為0。用全譜作輸入變量時(shí)LS-SVM模型復(fù)雜程度最高且預(yù)測(cè)能力最差,誤判率為最高11.9%,可能是包含無(wú)用信息和冗余信息變量造成的。研究表現(xiàn)針對(duì)高維數(shù)據(jù),特征變量篩選在模型優(yōu)化方面表現(xiàn)出一定的潛力,提高分類(lèi)精度同時(shí)優(yōu)化模型,顯示出UVE與SPA組合的變量篩選方法結(jié)合LS-SVM快速診斷柑桔黃龍病的可行性。
[1] 胡浩,殷幼平,張利平,等. 柑橘黃龍病的常規(guī)PCR及熒光定量PCR檢測(cè)[J]. 中國(guó)農(nóng)業(yè)科學(xué),2006,39(12):2491-2497.Hu Hao, Yin Youping, Zhang Liping, et al. Detection of citrus Huanglongbing by conventional and two fluorescence quantitative PCR assays[J]. Scientia Agricultura Sinica, 2006,39(12): 2491-2497. (in Chinese with English abstract)
[2] Hawkins S A, Park B, Poole G H, et al. Detection of citrus Huanglongbing by Fourier transform infrared-attenuated total reflection spectroscopy[J]. Applied Spectroscopy, 2010,64(1): 100-108.
[3] 梅慧蘭,鄧小玲,洪添勝,等. 柑橘黃龍病高光譜早期鑒別及病情分級(jí)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2014,30(9):140-148.Mei Huilan, Deng Xiaoling, Hong Tiansheng, et al. Early detection and grading of citrus huanglongbing using hyperspectral imaging technique[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2014, 30(9): 140-148. (in Chinese with English abstract)
[4] 梁爽,趙庚星,朱西存. 蘋(píng)果樹(shù)葉片葉綠素含量高光譜估測(cè)模型研究[J]. 光譜學(xué)與光譜分析,2012,32(5):1367-1370.Liang Shuang, Zhao Gengxing, Zhu Xicun. Hyperspectral estimation models of Chlorophyll content in apple lesves[J].Spectroscopy and Spectral, 2012, 32(5): 1367-1370. (in Chinese with English abstract)
[5] 岳學(xué)軍,全東平,洪添勝,等. 柑桔葉片葉綠素含量高光譜無(wú)損檢測(cè)模型[J]. 農(nóng)業(yè)工程學(xué)報(bào),2015,31(1):294-303.Yue Xuejun, Quan Dongping, Hong Tiansheng, et al.Non-destructive hyperspectral measurement model 0f chlorophyll content for citrus leaves [J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(1): 294-303. (in Chinese with English abstract)
[6] 鄧小玲,鄭建寶,梅慧蘭,等. 基于高光譜成像技術(shù)的柑橘黃龍病病情診斷及分類(lèi)[J]. 西北農(nóng)林科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,41(7):99-106.Deng Xiaoling, Zheng Jianbao, Mei Huilan, et al.Identification and classification of citrus Huanglongbing disease based on hyperspectraI imaging[J]. Journal of Northwest A&F University (Natural Science Edition) , 2013,41 (7): 99-106. (in Chinese with English abstract)
[7] Sankaran Sindhuja, Ehsani Reza. Visible-near infrared spectroscopy based citrus greening detection: Evaluation of spectral feature extraction techniques[J]. Crop Protection,2011, 30 (11): 1508-1513.
[8] 吳迪,吳洪喜,蔡景波,等. 基于無(wú)信息變量消除法和連續(xù)投影算法的可見(jiàn)-近紅外光譜技術(shù)白蝦種分類(lèi)方法研究[J]. 紅外與毫米波學(xué)報(bào),2009,28(6):423-427.Wu Di, Wu Hongxi, Cai Jingbo, et al. Classifying the speies of exopalaemon by using visible and near infrared spectra with uninformative variable elimination and successive projections algorithm[J]. Journal of Infrared and Millimeter Waves, 2009, 28(6): 423-427.(in Chinese with English abstract)
[9] Haiyan Cena, Lu Renfu, Zhu Qibing, et al. Nondestructive detection of chilling injury in cucumber fruit using hyperspectral imaging with feature selection and supervised classif i cation[J]. Postharvest Biology and Technology, 2015,111: 352-361.
[10] 李韜,柯沖. 應(yīng)用Nested PCR技術(shù)檢測(cè)柑桔木虱及其寄主九里香的柑桔黃龍病帶菌率[J]. 植物保護(hù)學(xué)報(bào),2002,29(1):31-35.Li Tao, Ke Chong. Detection of the bearing rate of Liberobacter asiaticum, in citrus psylla and its host plant Murraya panciculata by Nested PCR[J]. Acta Phytophylacica sinica, 2002, 29(1): 31-35. (in Chinese with English abstract)
[11] Hocquellet A, Toorawa P, Bove J M, et al. Detection and identification of the two Candidatus Liberobacter species associated with citrus huanglongbing by PCR amplification of ribosomal protein genes of the β operon[J]. Molecular and Cellular Probes, 1999, 13(5): 373-379.
[12] Ghaedi M Niknam, K Soylak M. Cloud Point Extraction and Flame Atomic Absorption Spectrometric Determination of Lead, Cadmium and Palladium in Some Food and Biological Samples[J]. Pakistan Journal of Analytical & Environmental Chemistry, 2011, 12(1/2): 488-496.
[13] 袁亦文,蔣自珍,王德善. 柑桔黃龍病病情分級(jí)標(biāo)準(zhǔn)探討[J]. 浙江農(nóng)業(yè)科學(xué),2010(1):121-123.Yuan Yiwen, Jiang Zizhen, Wang Deshan. Study on classification standard of Citrus Huanglongbing disease[J].Zhenjiang Nongye Kexue, 2010, (1): 121-123. (in Chinese with English abstract)
[14] 李修華,李民贊,Won Suk Lee,等. 柑桔黃龍病的可見(jiàn)-近紅外光譜特征[J]. 光譜學(xué)與光譜分析,2014,34(6):1553-1559.Li Xiuhua, Li Minzhan, Won Suk Lee, et al. Visible-NIR spectral feature of citrus greening disease[J]. Spectroscopy and Spectral Analysis, 2014, 34(6): 1553-1559. (in Chinese with English abstract)
[15] 李江波,饒秀勤,應(yīng)義斌,等. 基于高光譜成像技術(shù)檢測(cè)臍橙潰瘍[J]. 農(nóng)業(yè)工程學(xué)報(bào),2010,26(8):222-231.Li Jiangbo, Rao Xiuqin, Ying Yibin, et al. Detection of navel oranges canker based on hyperspectral imaging technology[J].Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2010, 26(8): 222-231. (in Chinese with English abstract)
[16] Govindarajan Konda Naganathan, Lauren M Grimes,Jeyamkondan Subbiah, et al. Visible/near-infrared hyperspectral imaging for beef tenderness prediction[J].Computers and Electronics in Agriculture, 2008, 64(2): 225-233.
[17] 孫通,吳宜青,劉秀紅,等. 激光誘導(dǎo)擊穿光譜聯(lián)合UVE變量?jī)?yōu)選檢測(cè)大豆油中的鉻含量[J]. 光譜學(xué)與光譜分析,2016,36(10):3341-3345.Sun Tong, Wu Yiqing, Liu Xiuhong, et al. Detection of chromium content in soybean oil by laser induced breakdown spectroscopy and UVE method[J]. Spectroscopy and Spectral Analysis, 2016, 36(10): 3341-3345. (in Chinese with English abstract)
[18] 李倩倩,田曠達(dá),李祖紅,等. 無(wú)信息變量消除法變量篩選優(yōu)化煙草中總氮和總糖的定量模型[J]. 分析化學(xué),2013,41(6):917-921.Li Qianqian, Tian Kuangda, Li Zuhong, et al. Model of total nitrogen and total sugar in tobacco optimizing after uninformative variable elimination[J]. Chinese Journal of Analytical Chemistry, 2013, 41(6): 917-921. (in Chinese with English abstract)
[19] 于雷,洪永勝,周勇,等. 高光譜估算土壤有機(jī)質(zhì)含量的波長(zhǎng)變量篩選方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2016,32(13):95-102.Yu Lei, Hong Yongsheng, Zhou Yong, et al. Wavelength variable selection methods for estimation of soil organic matter content using hyperspectral technique[J]. Transactions of the Chinese Society of Agricultural Engineering(Transactions of the CSAE), 2016, 32(13): 95-102. (in Chinese with English abstract)
[20] 簡(jiǎn)葳玙,徐祖華,祝鈴鈺,等. MC-UVE-GA-PLS算法用于精餾軟測(cè)量輔助變量選擇[J]. 計(jì)算機(jī)與應(yīng)用化學(xué),2015,32(11):1343-1346 Jian Weiyu, Xu Zuhua, Zhu Lingyu, et al. Secondary variable selection in distillation column soft sensor using MC-UVE-GA-PLS algorithm[J]. Computers and Applied Chemistry, 2015, 32(11): 1343-1346. (in Chinese with English abstract)
[21] Zheng Wenbin, Fu Xiaping, Ying Yibin. Spectroscopy-based food classification with extreme learning machine[J].Chemometrics and Intelligent Laboratory Systems, 2014, 139:42-47.
[22] 劉思伽,田有文,張芳,等. 采用二次連續(xù)投影法和 BP人工神經(jīng)網(wǎng)絡(luò)的寒富蘋(píng)果病害高光譜圖像無(wú)損檢測(cè)[J].食品科學(xué),2017,38(8):277-282.Liu Sijia, Tian Youwen, Zhang Fang, et al. Hyperspectral imaging for nondestructive detection of hanfu apple diseases using successive projections algorithm and BP neural network[J]. Food Science, 2017, 38(8): 277-282. (in Chinese with English abstract)
[23] 孫麗萍,張冬妍. 基于分層信息融合的木材干燥過(guò)程含水率在線檢測(cè)[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2013, 29(1): 257-263.Sun Liping, Zhang Dongyan. Online testing of lumber drying moisture based on layered information fusion[J]. Transactions of the Chinese Society of Agricultural Engineering(Transactions of the CSAE), 2013, 29(1): 257-263. (in Chinese with English abstract)
[24] 林孔湘. 柑桔黃龍病問(wèn)題的討論[J]. 柑桔科技通訊,1977,(z2):28-38.Lin Kongxiang. Discussion on the problem of citrus greening[J]. Citrus Technology Communication, 1977, (z2):28-38. (in Chinese with English abstract)
[25] 王愛(ài)民,鄧曉玲. 柑桔黃龍病診斷技術(shù)研究進(jìn)展[J]. 廣東農(nóng)業(yè)科學(xué),2008,10(6):101-103.Wang Aimin, Deng Xiaoling. The research on the diagnosis technology of Citrus Huanglongbing[J]. Guangdong Agricultural Sciences, 2008, 10(6): 101-103. (in Chinese with English abstract)
[26] Stewart I, Leonard C D. The cause of yellow tipping in citrus leaves[J]. Proceedings of the Florida State Horticultural Society, 1952, 65: 25-27.
[27] Stone M L, Solie J B, Raun W R, et al. Use of spectral radiance for correcting in-season fertilizer nitrogen deficiencies in winter wheat[J]. Transactions of the ASAE,1996, 39: 1623-1631.
[28] Sundaram J, Kandala C V, Butts C L. Application of near infrared spectroscopy to peanut grading and quality analysis:Overview[J]. Sensing & Instrumentation for Food Quality &Safety, 2009, 3(3): 156-164.
[29] Leardi R, González A L. Genetic algorithms applied to feature selection in PLS regression: How and when to use them[J]. Chemometrics and Intelligent Laboratory Systems,1998, 41(2): 195-207.
[30] 張海東,李貴榮,李若誠(chéng),等. 近紅外光譜結(jié)合極限學(xué)習(xí)機(jī)和GA-PLS算法檢測(cè)普洱茶茶多酚含量[J]. 激光與光電子學(xué)進(jìn)展,2013,50(4):180-186.Zhang Haidong, Li Guirong, Li Ruocheng, et al.Determination of tea polyphenols content in puerh tea using near-infrared spectroscopy combined with extreme learning machine and GA-PLS algorithm[J]. Laser & Optoelectronics Progress, 2013, 50(4): 180-186. (in Chinese with English abstract)
[31] 郭文川,王銘海,谷靜思,等. 近紅外光譜結(jié)合極限學(xué)習(xí)機(jī)識(shí)別貯藏期的損傷獼猴桃[J]. 光學(xué)精密工程,2013,21(10):2720-2727.Guo Wenchuan, Wang Minghai, Gu Jingsi, et al.Identification of bruised kiwifruits during storage by near infrared spectroscopy and extreme learing machine[J]. Optics and Precision Engineering, 2013, 21(10): 2720-2727. (in Chinese with English abstract)
[32] 孫俊,衛(wèi)愛(ài)國(guó),毛罕平,等. 基于高光譜圖像及 ELM 的生菜葉片氮素水平定性分析[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2014,45(7):272-277.Sun Jun, Wei Aiguo, Mao Hanping, et al. Discrimination of lettuce leaves’ nitrogen status based on Hyperspectral imaging technology and ELM[J]. Transactions of the Chinese Society for Agricultural Machinery, 2014, 45(7): 272-277..(in Chinese with English abstract)