龍怡霖 蔡 騁
(西北農(nóng)林科技大學(xué)信息工程學(xué)院 陜西 楊凌 712100)
?
基于隨機(jī)森林的缺損雜草種子識(shí)別
龍怡霖蔡騁*
(西北農(nóng)林科技大學(xué)信息工程學(xué)院陜西 楊凌 712100)
針對(duì)有缺損的雜草種子圖像,提出用于有缺損雜草種子圖像識(shí)別的分類模型,并討論不同類型的圖像特征對(duì)識(shí)別結(jié)果的影響。通過特征提取及使用核主成分分析法降維得到四種圖像特征,并將其組合,將不同類型的特征輸入至隨機(jī)森林分類器,得到不同類型特征下的識(shí)別結(jié)果。實(shí)驗(yàn)結(jié)果表明,隨機(jī)森林分類器對(duì)圖像中的連續(xù)噪聲具有良好的魯棒性;源自彩色圖像的特征和源自對(duì)應(yīng)灰度圖像的特征具有良好的判別能力互補(bǔ)性。
特征提取核主成分分析隨機(jī)森林
雜草種子分類與分析在增加農(nóng)作物產(chǎn)量與維持生態(tài)平衡方面有重要作用。全球范圍內(nèi)共有 8000 多種雜草,其中約有250多種能夠?qū)?jīng)濟(jì)農(nóng)作物產(chǎn)生危害[1]。同時(shí),外來雜草等生物物種的入侵不僅能夠?qū)r(nóng)作物產(chǎn)生危害,而且還會(huì)破壞生態(tài)平衡[2]。進(jìn)行有效雜草種子分類能夠?yàn)樵黾愚r(nóng)作物產(chǎn)量與維持生態(tài)平衡提供有效保證。
傳統(tǒng)的由專家參與的人工雜草種子鑒別具有成本高、速度慢且由于人參與在鑒別過程中而具有一定的主觀性,鑒別結(jié)果不穩(wěn)定[3]。從技術(shù)和經(jīng)濟(jì)效益的角度考慮,需要使用自動(dòng)、快速識(shí)別算法進(jìn)行雜草種子識(shí)別。同時(shí),在實(shí)際作物生長(zhǎng)環(huán)境中,由于潮濕和微生物感染等因素的存在,雜草種子表面可能會(huì)產(chǎn)生霉變或病斑;另一方面由于昆蟲啃食等因素,雜草種子可能會(huì)出現(xiàn)缺損,呈現(xiàn)出不完整的雜草種子。當(dāng)這類大面積的連續(xù)噪聲存在于雜草種子圖像中時(shí),合理處理這類噪聲從而正確識(shí)別雜草種子類別同樣具有重要意義?;谟?jì)算機(jī)視覺的方法是當(dāng)前常用的識(shí)別算法?;谟?jì)算機(jī)視覺的識(shí)別算法的流程主要有兩部分:圖像特征提取和分類器設(shè)計(jì)。通過提取圖像中種子的大小、形狀和紋理等特征,使用判別式分析、人工神經(jīng)網(wǎng)絡(luò)和貝葉斯等分類器進(jìn)行識(shí)別[3~5]。但是,這類特征和分類器忽略了圖片顏色數(shù)據(jù)的判別能力,同時(shí),用于實(shí)驗(yàn)的雜草種子數(shù)據(jù)集類別太少,實(shí)際推廣能力較差[6]。
近年來,新的識(shí)別算法將顏色和紋理特征應(yīng)用到雜草種子識(shí)別中來?;谥鞒煞址治龅姆椒?PCA,2DPCA,(2D)2PCA,彩色 PCA 等)表明,與傳統(tǒng)特征相比,使用顏色和紋理特征能夠得到更高的識(shí)別率[7]。局部線性嵌入LLE方法與主成分分析方法相比,性能更佳[8]?;趬嚎s感知的方法能夠處理有連續(xù)噪聲的雜草種子圖片,相對(duì)以上幾種識(shí)別算法,該方法魯棒性強(qiáng),具有實(shí)際意義[9]。但是其實(shí)驗(yàn)中的雜草種子類別總數(shù)仍然較少,性能受到限制。
為了提高對(duì)有缺損(即連續(xù)噪聲)的雜草種子圖像的識(shí)別率,將隨機(jī)森林RF算法應(yīng)用于有缺損的雜草種子識(shí)別作業(yè)中。通過對(duì)彩色雜草種子進(jìn)行不同的特征提取,獲取 4 種不同類型的特征,通過降維及特征組合,共得到15 種不同類型的特征,并將這15種特征分別用于識(shí)別作業(yè),討論不同類型特征的分類性能。同時(shí),作為對(duì)比,將經(jīng)典的支持向量機(jī)SVM算法用于有缺損雜草種子圖像的識(shí)別中。實(shí)驗(yàn)結(jié)果表明,與支持向量機(jī)分類器相比,隨機(jī)森林分類器對(duì)有缺損的雜草種子圖像識(shí)別率更高,對(duì)圖像中的連續(xù)噪聲具有更好的魯棒性,更具有實(shí)際應(yīng)用意義。
種子數(shù)據(jù)集來自阿根廷 Oliveros 國(guó)家種子分析實(shí)驗(yàn)室[6],共計(jì)211個(gè)類別,9189張彩色種子圖像,圖像大小為768×512像素,圖像的具體信息可由文獻(xiàn) [6] 得到,同時(shí)由文獻(xiàn) [6] 可知,原始種子數(shù)據(jù)集中種子圖像并沒有進(jìn)行幾何歸一化,即同類別種子的輪廓方向不一致,同時(shí)伴隨有不同角度的傾斜。這些可避免的噪聲會(huì)對(duì)種子圖像的識(shí)別產(chǎn)生顯著影響。同時(shí)原始雜草種子圖像分辨率較高,若直接在原始圖像上進(jìn)行識(shí)別作業(yè),則識(shí)別過程中的時(shí)空開銷會(huì)很大。為了消除這些可避免的影響,同時(shí)降低計(jì)算過程中的時(shí)空復(fù)雜度,需要對(duì)雜草種子圖像進(jìn)行幾何歸一化處理。步驟如下。
第一步,人工調(diào)整種子圖像的方向,使同類別種子的輪廓方向大致相同。
第二步,使用主成分分析PCA[10]方法根據(jù)彩色種子圖像對(duì)應(yīng)的二值圖像尋找種子圖像中的兩個(gè)主軸方向,并計(jì)算出主軸方向與豎直方向或水平方向的夾角。
第三步,根據(jù)主軸方向與豎直方向或水平方向的夾角旋轉(zhuǎn)種子圖像,使種子圖像中的長(zhǎng)主軸分位于豎直方向上。
第四步,根據(jù)旋轉(zhuǎn)后的彩色種子圖像對(duì)應(yīng)的二值圖像,檢測(cè)出包含種子區(qū)域的最小閉合矩形。
第五步,從旋轉(zhuǎn)后的彩色種子圖像中根據(jù)最小閉合矩形裁剪出種子圖像,并計(jì)算最小閉合矩形的寬高比,注意到原始種子圖像的寬高比為2∶3,根據(jù)最小閉合矩形的寬高比與原始種子圖像的寬高比,對(duì)裁剪出的種子圖像進(jìn)行邊緣拓展,補(bǔ)充純色背景,以使裁剪出的種子圖形寬高比亦為2∶3。
第六步,壓縮圖像。將寬高比為2∶3的裁剪出的彩色種子圖像壓縮為96×64像素大小。圖 1 給出了對(duì)一幅種子圖像進(jìn)行完整的幾何歸一化的處理步驟。
圖1 種子圖像的歸一化流程
為了模擬自然界中種子因蟲咬、霉變等因素而導(dǎo)致的病斑、缺損等,向種子圖像中加入不同缺損率連續(xù)的塊遮擋噪聲,得到有缺損的雜草種子圖像,缺損率為連續(xù)的塊遮擋噪聲與圖像中種子區(qū)域面積的比值,實(shí)驗(yàn)中缺損率分別取0(即無缺損)、0.05、0.1、0.15 和 0.2。圖 2 為5張不同缺損率下的雜草種子圖像。
圖2 同一顆雜草種子在不同缺損率下的圖像
針對(duì)有缺損的雜草種子識(shí)別作業(yè),分別提取不同抽象層面的雜草種子圖像特征,包括低層像素層面的 Rgb 像素值特征、梯度方向直方圖HOG特征,中層特征 sketch tokens (STs),以及高層概念層面的特征 Gist。
2.1Rgb 像素值特征提取
使用 R,G,B 三個(gè)通道的像素值作為圖像特征,使用原始圖像像素作為圖像的特征表示有以下優(yōu)點(diǎn):特征提取的計(jì)算耗時(shí)少,速度快;不會(huì)忽略任何有用的信息;同時(shí),該特征對(duì)任何應(yīng)用不敏感,具有普適性。
2.2HOG特征提取
方向梯度直方圖HOG特征于2005年提出,應(yīng)用于行人檢測(cè)[11]。由于HOG特征對(duì)圖像的微小幾何形變和局部對(duì)比度的變化具有魯棒性,HOG 特征被成功應(yīng)用于人臉識(shí)別[12]。HOG 特征為人臉識(shí)別提供了良好的分類性能,將 HOG 特征應(yīng)用于缺損雜草種子識(shí)別,以期能夠得到理想的分類性能。
2.3Gist 特征提取
Gist特征由Oliva等人于 2001 年提出,應(yīng)用于場(chǎng)景識(shí)別[13]。Gist 特征是一種全局特征,對(duì)目標(biāo)形狀的變化具有魯棒性,它基于全局語(yǔ)義表示計(jì)算模型得到,通過利用圖像內(nèi)容上下文,避免了對(duì)圖像進(jìn)行分割和處理。
由于雜草種子圖像中的“主成分”為單個(gè)雜草種子,背景為純色,不易受到其他因素的干擾,每一類種子的圖像可以認(rèn)為是同一種“場(chǎng)景”。通過使用 Gist 特征描述子,可以將雜草種子的分類問題轉(zhuǎn)化為場(chǎng)景識(shí)別問題。
2.4Sketch Tokens 特征提取
Sketch Tokens (STs) 特征于2013年提出,應(yīng)用于目標(biāo)檢測(cè)[14]。Sketch Tokens 是基于輪廓表示和有監(jiān)督學(xué)習(xí)得到的一種中層特征。中層特征是連接低層基于像素表示的信息和高層抽象概念之間的橋梁,同時(shí)是自頂向下處理和自底向上處理的基礎(chǔ)。
有監(jiān)督的中層信息為 Sketch Tokens 特征的提取提供了類別信息,這些中層類別信息通過從彩色圖像及其對(duì)應(yīng)的手繪二值輪廓圖像中學(xué)習(xí)得到。類別信息得到后,對(duì)一幅新圖像首先進(jìn)行分塊,然后使用隨機(jī)森林分類器,確定圖像塊的類別歸屬。分類得到的圖像塊類別,作為最終的輸出特征,稱為 Sketch Tokens。
2.5特征降維及組合
以上四種特征提取完成后,使用核主成分分析KPCA[15]方法進(jìn)行降維操作,將這四種特征降維至相同的維度(實(shí)驗(yàn)中為 512 維),得到 4 種用于識(shí)別作業(yè)的輸入特征。
KPCA 由主成分分析PCA進(jìn)行非線性擴(kuò)展得到,可以有效地處理數(shù)據(jù)的非線性特征[16]。通過 KPCA,可以將原始特征空間中線性不可分的數(shù)據(jù)投影到高維特征空間中再降維(或進(jìn)行重構(gòu)),從而達(dá)到在新的特征空間中線性可分的目的。
使用 KPCA 對(duì)四種特征降維之后,將這四種特征簡(jiǎn)單串聯(lián)進(jìn)行不同類型的組合,對(duì)組合后的特征進(jìn)行二范數(shù)歸一化,得到另外 11 種組合特征,這 11 種特征分別是GistHog、GistHogSTs、GistHogSTsRgb、GistHogRgb、GistSTs、GistSTsRgb、GistRgb、HogSTs、HogSTsRgb、HogRgb、STsRgb。對(duì)識(shí)別作業(yè),共得到 15 種輸入特征,分別討論這 15 種特征對(duì)識(shí)別結(jié)果的影響。
針對(duì)有缺損的雜草種子識(shí)別,設(shè)計(jì)隨機(jī)森林分類模型,并將支持向量機(jī)作為對(duì)比模型。
3.1隨機(jī)森林模型設(shè)計(jì)
隨機(jī)森林RF[17]是一種統(tǒng)計(jì)學(xué)習(xí)理論,應(yīng)用在分類、回歸、半監(jiān)督學(xué)習(xí)、密度估計(jì)、流形空間學(xué)習(xí)等領(lǐng)域。隨機(jī)森林是一系列決策樹的集合。對(duì)分類問題而言,隨機(jī)森林能夠自然地處理多類分類任務(wù)。每一棵決策樹通過隨機(jī)選擇特征子集和樣本子集訓(xùn)練得到,用于測(cè)試樣本的預(yù)測(cè)時(shí)得到對(duì)測(cè)試樣本的預(yù)測(cè)類別分布的概率模型。然后組合森林中所有決策樹對(duì)測(cè)試樣本預(yù)測(cè)類別分布的概率模型,使用投票策略選定測(cè)試樣本的輸出類別。
以下參數(shù)在隨機(jī)森林訓(xùn)練過程中起關(guān)鍵作用。
1) 每棵樹的最大深度D。最大深度D的取值首先影響隨機(jī)森林訓(xùn)練的時(shí)空性能,D取值較小時(shí),隨機(jī)森林的訓(xùn)練時(shí)間短、占用存儲(chǔ)空間小;D取值較大時(shí)則相反。同時(shí),D的取值能夠明顯地影響隨機(jī)森林的分類性能,D過小時(shí),易導(dǎo)致低度擬合,泛化性能不足,分類準(zhǔn)確率會(huì)降低;D過大時(shí),易導(dǎo)致過擬合,影響分類準(zhǔn)確率。
2) 森林的隨機(jī)度ρ及其類型。兩種常見的隨機(jī)度類型為:
(1) 裝袋。森林中每一棵樹使用從訓(xùn)練數(shù)據(jù)集中隨機(jī)抽樣的不同子集訓(xùn)練得到。此方法能夠有效避免過擬合現(xiàn)象從而提升隨機(jī)森林的泛化性能。但使用裝袋方法訓(xùn)練的隨機(jī)森林中的每棵決策樹沒有用到全部的訓(xùn)練數(shù)據(jù)集,這會(huì)忽略一些有用的信息,沒有高效地使用訓(xùn)練數(shù)據(jù)集。
(2) 隨機(jī)結(jié)點(diǎn)最優(yōu)化RNO。使用此方法訓(xùn)練的隨機(jī)森林在訓(xùn)練過程中每棵樹基于全部的訓(xùn)練數(shù)據(jù)集訓(xùn)練,避免了對(duì)訓(xùn)練樣本的抽樣操作。每個(gè)內(nèi)部結(jié)點(diǎn)隨機(jī)選擇ρ個(gè)特征和離散閾值對(duì)Γj={(i1,τ1),…,(i0,τρ)},其中j表示單棵決策樹中的第j個(gè)結(jié)點(diǎn)(內(nèi)部結(jié)點(diǎn)),特征il從全部的d維特征空間中一致抽樣得到,即(il≠im,?1≤l 3) 森林中樹的總數(shù),即森林的規(guī)模T。T越大,分類性能越好,T的選擇受限于計(jì)算機(jī)硬件資源,在計(jì)算機(jī)硬件資源允許的情況下,T的取值應(yīng)該盡可能大。 4) 分裂函數(shù)的選擇。分裂函數(shù)在訓(xùn)練和測(cè)試過程中起關(guān)鍵作用。分裂函數(shù)的參數(shù)定義為: θ=(φ,ψ,τ) (1) 其中φ=φ(v)為特征選擇函數(shù),從全部的特征向量v中選出當(dāng)前結(jié)點(diǎn)計(jì)算所使用特征;ψ定義了分裂數(shù)據(jù)所使用的幾何模型;τ包含了二值輸出的不等式測(cè)試中所使用的閾值。 5) 訓(xùn)練目標(biāo)函數(shù)的選擇。訓(xùn)練過程中目標(biāo)函數(shù)的選擇決定了當(dāng)前結(jié)點(diǎn)中數(shù)據(jù)樣本的劃分,每棵樹的預(yù)測(cè)與評(píng)估準(zhǔn)則由此確定,對(duì)森林的性能有著重要影響。將信息論和信息增益應(yīng)用于樹中分裂結(jié)點(diǎn)的目標(biāo)函數(shù),可得到以下常用的三種目標(biāo)函數(shù)。 使用信息增益作為目標(biāo)函數(shù),定義為: (2) 其中S為分裂結(jié)點(diǎn)的屬性數(shù)據(jù)集,將S分為左、右兩個(gè)子集,即SL和SR,H為信息熵,|·|表示數(shù)據(jù)集中的樣本總數(shù)。在離散概率分布下,H(S)定義為Shannon信息熵,即: H(S)=-∑c∈cp(c)log(p(c)) (3) 其中S為訓(xùn)練樣本集,c為類別標(biāo)簽,C為全部的類別標(biāo)簽集,p(c)表示集合S中的樣本屬于c類的概率。 使用信息增益率作為目標(biāo)函數(shù),定義為: (4) 其中S,H(S)定義與式 (2) 中定義相同,v為當(dāng)前分裂屬性的取值,V為當(dāng)前分裂屬性的所有可能取值的集合,p(v)表示集合S中的樣本的當(dāng)前分裂屬性取值為v的概率。 使用基尼指標(biāo)度量作為目標(biāo)函數(shù)?;嶂笜?biāo)度量數(shù)據(jù)劃分的不純凈度,定義為: (5) 其中S定義與式 (2) 中定義相同,G(S)定義為: G(S)=1-∑c∈C(p(c))2 (6) 其中c,C,p(c)的定義與式(3) 中定義相同?;嶂笜?biāo)目標(biāo)選擇函數(shù)選擇具有最大不純凈度的屬性作為分裂屬性。 6) 森林中每棵樹對(duì)測(cè)試樣本預(yù)測(cè)結(jié)果的組合。隨機(jī)森林作為多棵決策樹的集合,根據(jù)森林中所有決策樹的預(yù)測(cè)結(jié)果組合確定最終的輸出預(yù)測(cè)累唄,組合策略有兩種方式: 平均全部決策樹的預(yù)測(cè)結(jié)果,即: (7) 其中T為森林的規(guī)模,pt(c|v)表示第t棵樹對(duì)測(cè)試樣本v的后驗(yàn)概率。森林的最終預(yù)測(cè)結(jié)果為p(c|v)的最大取值所對(duì)應(yīng)的類別,即{c|max(pt(c|v)),?t∈(1,…,T)}。 將全部決策樹的預(yù)測(cè)結(jié)果相乘,即: (8) 其中劃分函數(shù)Z用以保證概率分布的歸一化,與式 (7) 類似,森林的最終預(yù)測(cè)結(jié)果為p(c|v)的最大取值所對(duì)應(yīng)的類別。 3.2支持向量機(jī)模型設(shè)計(jì) 支持向量機(jī)SVM[18]是統(tǒng)計(jì)學(xué)習(xí)理論的實(shí)現(xiàn)方法之一,其核心原理是基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化思想,通過核函數(shù)變換(特征變換)將輸入特征投影到高維特征空間,并在特征空間中尋找最優(yōu)分類超平面,以期獲得較好的分類結(jié)果。 實(shí)驗(yàn)中,將雜草種子數(shù)據(jù)集隨機(jī)分為訓(xùn)練集和測(cè)試集, 訓(xùn)練集和測(cè)試集中樣本比例為8∶2,并通過不同訓(xùn)練集和測(cè)試集劃分進(jìn)行十輪交叉驗(yàn)證。以下的實(shí)驗(yàn)數(shù)據(jù)為十輪交叉驗(yàn)證的均值。通過特征提取和降維及特征組合,得到15 種不同類型的特征,對(duì)每一種類型的特征分別訓(xùn)練隨機(jī)森林模型(RF) 和線性核函數(shù)支持向量機(jī)(LinearSVM)模型。 在隨機(jī)森林模型的構(gòu)建中,選擇基于坐標(biāo)對(duì)齊的分裂函數(shù),使用信息增益率作為目標(biāo)函數(shù),每棵樹最大深度為 17,森林規(guī)模為2000。表1為缺損率為0 (即無缺損) 情況下的識(shí)別率。 表1 缺損率為0下的識(shí)別率 表2缺損率為5%下的識(shí)別率。 表2 缺損率為5%下的識(shí)別率 表3為缺損率為 10% 下的識(shí)別率。 表3 缺損率為10%下的識(shí)別率 表4為缺損率為 15% 下的識(shí)別率。 表4 缺損率為15%下的識(shí)別率 表5為缺損率為 20% 下的識(shí)別率。 表5 缺損率為20%下的識(shí)別率 由表 1 至表 5 可以看出,在無缺損的情況下,隨機(jī)森林與支持向量機(jī)的分類性能相當(dāng);當(dāng)損毀率為 5% 時(shí),支持向量機(jī)的分類性能明顯下降,僅在一種特征 (STs) 下分類性能高于隨機(jī)森林;而當(dāng)損毀率達(dá)到 10% 及以上時(shí),支持向量機(jī)與隨機(jī)森林相比,不具有任何優(yōu)勢(shì)。說明隨機(jī)森林模型對(duì)雜草種子的缺損、霉變等連續(xù)噪聲有著良好的魯棒性,能夠有效處理此類噪聲,符合實(shí)際應(yīng)用情況。 另一方面,在不同類型的特征之間,一些組合特征(如 GistHog,GistHogRgb)與單種類型特征相比,具有較強(qiáng)的判別能力。而另外一些組合特征(如 HogSTs)相對(duì)于單種類型特征對(duì)分類性能的提升并不明顯。分析原因可以發(fā)現(xiàn),Hog 特征由灰度圖像中提取得到,Gist 特征和 Rgb 特征則由彩色圖像中提取得到,這三種自不同圖像的特征的組合能夠提供較好的判別性能,說明對(duì)雜草種子圖像分類作業(yè)而言這三種特征之間具有一定的互補(bǔ)性。當(dāng)損毀率達(dá)到 10% 及以上時(shí),在不同類型的特征下,隨機(jī)森林的分類準(zhǔn)確率均高于支持向量機(jī)的分類準(zhǔn)確率,說明隨機(jī)森林模型對(duì)雜草種子的缺損、霉變等連續(xù)噪聲有著更好的魯棒性,實(shí)用性更強(qiáng)。同時(shí),組合特征的分類性能與單種特征相比,對(duì)分類器性能具有兩方面的影響。 提出用于有缺損的雜草種子識(shí)別的隨機(jī)森林分類器模型。通過圖像特征提取和降維及特征組合,討論不同類型特征對(duì)分類器性能的影響。將支持向量機(jī)作為對(duì)比實(shí)驗(yàn)?zāi)P?,?shí)驗(yàn)結(jié)果表明,與支持向量機(jī)模型相比,隨機(jī)森林模型對(duì)雜草種子的缺損、霉變等連續(xù)噪聲有著更好的魯棒性,實(shí)用性更強(qiáng)。 在隨機(jī)森林參數(shù)的選擇中,目前僅考慮了使用坐標(biāo)對(duì)齊的分裂函數(shù)和使用信息增益率的目標(biāo)函數(shù),在將來的研究工作中,會(huì)討論其他類型的分裂函數(shù)和目標(biāo)函數(shù)對(duì)分類器性能的影響。 [1] 郭水良,李揚(yáng)漢.農(nóng)田雜草生態(tài)位研究的意義及方法探討 [J].生態(tài)學(xué)報(bào),1998,18(5): 496-503. [2] 郭瓊霞,黃可輝.危險(xiǎn)性病蟲害與雜草 [J].武夷科學(xué),2003,19(1): 179-189. [3] Granitto P M,Navone H D,Verdes P F,et al.Weed seeds identification by machine vision [J].Computers and Electronics in Agriculture,2002,33(2): 91-103. [4] Petersen P E H,Krutz G W.Automatic identification of weed seeds by color machine vision [J].Seed science technology,1992,20(2): 193-208. [5] Chtioui Y,Bertrand D,Dattée Y,et al.Identification of seeds by colour imaging: comparision of discriminant analysis and artificial neural network [J].Journal of the science of food and agriculture,1996,71(4): 433-441. [6] Granitto P M,Verdes P F,Ceccatto H A.Large-scale investigation of weed seed identification by machine vision [J].Computers and Electronics in Agriculture,2005,47(1): 15-24. [7] You M,Cai C.Weed Seeds Classification Based on PCA,2DPCA,Column-directional 2DPCA and (2D)2PCA[C] //IEEE International Asia Symposium on Intelligent Interaction and Affective Computing (ASIA).Wuhan,NSW: IEEE Press,2009: 187-190. [8] Zhao F,Cai C,Huang S,et al.Weed seeds recognition using Locally Linear Embedding[C] //IEEE International Conference on Test and Measurement (ICTM).Hong Kong,NSW: IEEE Press,2009: 59-62. [9] Zhang M,Cai C,Zhu J.Sparse representation for weed seeds classification[C] //IEEE International Conference on Green Circuits and Systems (ICGCS).Shanghai,NSW: IEEE Press,2010: 626-631. [10] Pearson K.On lines and planes of closest fit to systems of points in space [J].Philosophical Magazine,1901,2(6): 559-572. [11] Dalal N,Triggs B.Histograms of oriented gradients for human detection[C] //IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR).San Diego,CA,USA,NSW: IEEE Press,2005: 886-893. [12] Guo J,Chen W.Face recognition based on HOG multi-feature fusion and random forest [J].Computer science,2013,40(10): 279-282,317. [13] Oliva A,Torralba A.Modeling the shape of the scene: a holistic representation of the spatial envelope [J].International journal of computer vision,2001,42(3): 145-175. [14] Lim J J,Zitnick C L,Dollar P.Sketch Tokens: A Learned Mid-level Representation for Contour and Object Detection[C] //IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Portland,OR,NSW: IEEE Press,(2013): 3158-3165. [15] Scholkopf B,Smola A,Muller K.Nonlinear component analysis as a kernel eigenvalue Problem [J].Neural Computation,1998,10(6): 1299-1319. [16] 趙峰,張軍英.一種KPCA的快速算法 [J].控制與決策,2007,22(9): 1044-1048,1057. [17] Criminisi A,Shotton J.Decision Forests for Computer Vision and Medical Image Analysis[M].London,U.K.: Springer,2013: 10-23. [18] Burges C C.A Tutorial on Support Vector Machines for Pattern Recognition [J].Data Mining and Knowledge Discovery,1998,2(2): 121-167. RANDOM FOREST-BASED DAMAGED WEED SEEDS RECOGNITION Long YilinCai Cheng* (CollegeofInformationEngineering,NorthwestA&FUniversity,Yangling712100,Shaanxi,China) We proposed a classification model for recognising the image of damaged weed seeds targeted at such images,and discussed the effect of different kinds of image features on recognition result.By features extraction and the dimension reduction using kernel principal component analysis the model obtains four kinds of image features,and combines them as well,and inputs the features in different kinds to random forest classifier to obtain the recognition results under different feature conditions.Experimental results showed that the random forest classifier had ideal robustness to the successive noises in images; and the feature extracted from colour image and the feature extracted from corresponding greyscale image provided excellent complementarity in discriminative power. Feature extractionKernel principal component analysisRandom forest 2015-03-19。國(guó)家自然科學(xué)基金項(xiàng)目(61202188)。龍怡霖,碩士生,主研領(lǐng)域:機(jī)器視覺與模式識(shí)別。蔡騁,副教授。 TP391.4 A 10.3969/j.issn.1000-386x.2016.08.0424 實(shí)驗(yàn)結(jié)果與分析
5 結(jié) 語(yǔ)