耿 晗,蔡 騁,劉 斌
(西北農(nóng)林科技大學(xué) 信息工程學(xué)院,陜西 楊凌 712100)
我國(guó)是世界上最大的水果產(chǎn)出國(guó),種植面積和產(chǎn)量長(zhǎng)期穩(wěn)居世界第一,水果產(chǎn)業(yè)在國(guó)民經(jīng)濟(jì)發(fā)展中一直占有舉足輕重的地位。但是,在國(guó)際市場(chǎng)上我國(guó)水果出口量?jī)H占總產(chǎn)量的2%左右,遠(yuǎn)低于世界同期各國(guó)水果出口10%的平均水平[1],主要原因在于我國(guó)水果產(chǎn)業(yè)的粗放型經(jīng)營(yíng)模式,未能按照國(guó)際標(biāo)準(zhǔn)嚴(yán)格執(zhí)行對(duì)水果品質(zhì)的分級(jí)處理[2]。另一方面,隨著人們生活水平和質(zhì)量的大幅提升,對(duì)水平品質(zhì)的追求也越來(lái)越高,開始逐步關(guān)注水果的口感指標(biāo)。因此,如何快速無(wú)損檢測(cè)水果的糖度、硬度及含水率等內(nèi)部品質(zhì)對(duì)確定水果的營(yíng)養(yǎng)價(jià)值和分級(jí)銷售有重要意義。
水果無(wú)損檢測(cè)是基于在水果表面無(wú)任何損傷的情況下,對(duì)水果內(nèi)部的成分和結(jié)構(gòu)進(jìn)行分析的技術(shù)。國(guó)內(nèi)外相關(guān)研究人員利用水果的電學(xué)特性、聲學(xué)特性、光學(xué)特性、太赫茲及機(jī)器視覺等技術(shù)對(duì)水果品質(zhì)進(jìn)行無(wú)損檢測(cè)[3-6]。Reyer 等[7]基于計(jì)算機(jī)視覺檢測(cè)了杏和桃的撞傷問題,該方法對(duì)傷果的檢測(cè)準(zhǔn)確率為65%左右,但該方法屬于水果外部品質(zhì)測(cè)定的范疇。近年來(lái),水果內(nèi)部品質(zhì)檢測(cè)及分類的研究逐漸成為研究熱點(diǎn)。Sivakumar[8]對(duì)芒果的水分含量用高光譜成像技術(shù)進(jìn)行檢測(cè)與研究,結(jié)果表明采用人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)芒果的水分相關(guān)系數(shù)為0.81。Kandala 等[9]使用近紅外光譜法有效檢測(cè)到了花生中的水分含量,結(jié)果表明預(yù)測(cè)花生的水分含量相關(guān)系數(shù)為0.97。王等[10]利用聲波震動(dòng)測(cè)量方法對(duì)庫(kù)爾勒香梨的硬度進(jìn)行了無(wú)損檢測(cè),識(shí)別率達(dá)到了86.7%。蔡騁等[11]基于介電特征的無(wú)損檢測(cè)技術(shù)按照蘋果失重率分別為0%、5%、10%、15%,以及果心病變果將蘋果品質(zhì)分為5個(gè)品質(zhì)等級(jí),其檢測(cè)準(zhǔn)確率達(dá)到了98.3%。
但上述水果內(nèi)部品質(zhì)檢測(cè)方法多基于水果的單個(gè)參數(shù)進(jìn)行檢測(cè),難以準(zhǔn)確地對(duì)水果進(jìn)行有效分級(jí)。蔡騁等[11]雖然考慮了蘋果的108個(gè)介電特征對(duì)水果內(nèi)部品質(zhì)進(jìn)行分級(jí),但未考慮水果糖度、硬度及含水率等重要的理化指標(biāo),未能實(shí)現(xiàn)對(duì)蘋果口感的檢測(cè)與分級(jí)。在蘋果外觀與理化品質(zhì)對(duì)比中發(fā)現(xiàn)(見圖1):蘋果的外觀與理化指標(biāo)不一定成正比,外觀較好但蘋果的口感、理化品質(zhì)不一定優(yōu),因此需要采用無(wú)損檢測(cè)方法檢測(cè)影響蘋果口感的理化指標(biāo)并實(shí)行有效口感分級(jí)。
圖1 蘋果外觀
針對(duì)當(dāng)前研究中尚未實(shí)現(xiàn)對(duì)蘋果內(nèi)部口感品質(zhì)的有效分級(jí),本文主要對(duì)蘋果進(jìn)行研究,借鑒圖像標(biāo)注方法[12],提出一種基于隨機(jī)森林的蘋果內(nèi)部口感品質(zhì)多語(yǔ)義分類方法。該方法使用蘋果的介電參數(shù)作為指導(dǎo)生成隨機(jī)森林,用TF-IDF算法選取輸出類別,依據(jù)介電參數(shù)估計(jì)預(yù)測(cè)蘋果的理化指標(biāo)。實(shí)驗(yàn)結(jié)果表明:該方法分級(jí)后均方根誤差為0.51,可有效實(shí)現(xiàn)對(duì)蘋果內(nèi)部品質(zhì)的多語(yǔ)義分類,可為水果等農(nóng)產(chǎn)品的無(wú)損檢測(cè)及分級(jí)提供參考。
實(shí)驗(yàn)中用富士蘋果,蘋果成熟后(10月中下旬)采自西北農(nóng)林科技大學(xué)白水蘋果試驗(yàn)基地,采收后當(dāng)天運(yùn)回實(shí)驗(yàn)室,平衡24h后,選擇成熟度一致、色澤相近、大小均勻、無(wú)病蟲害及無(wú)機(jī)械損傷的果實(shí)500個(gè)。裸果于中室溫(20±2)℃條件下貯藏;逐果編號(hào)并測(cè)定其在158、251、398、15 800、25 100、39 800、1 580 000、2 510 000、3 980 000Hz等9個(gè)頻率點(diǎn)下的介電特征值。介電參數(shù)的測(cè)量采用如圖2所示的3532-50所示系統(tǒng),介電特征的測(cè)量方法與安等提出的方法[13]一致。在測(cè)量蘋果的介電特征值時(shí),沿著蘋果最大橫截面測(cè)量?jī)纱危缓髮纱螠y(cè)量數(shù)據(jù)取平均值作為該果實(shí)的介電特征數(shù)值。
1.計(jì)算機(jī) 2.LCR測(cè)試儀 3.測(cè)試探頭 4.平行電極板圖2 介電參數(shù)測(cè)試系統(tǒng)
實(shí)驗(yàn)中共選取12個(gè)介電參數(shù)(見表1),每種介電參數(shù)在9個(gè)頻率點(diǎn)(i=158~3 980 000Hz)范圍內(nèi)共測(cè)得12種介電特征,一共得到108種介電特征均值,并進(jìn)行編號(hào)。各介電特征均值如表2所示。
對(duì)采摘的500個(gè)蘋果,測(cè)量完介電特征數(shù)值后,立即開始測(cè)量理化特征值,實(shí)驗(yàn)過程中測(cè)量得到了8種常用品質(zhì)評(píng)估理化特征數(shù)值,如表3所示。
表1 12種介電特征
i代表頻率點(diǎn),頻率范圍為 158 ~3 980 000Hz,共測(cè)12種介電特征。
表2 各種介電特征均值
續(xù)表2
表3 8種理化特征
將每個(gè)蘋果的介電特征數(shù)值與理化特征數(shù)值對(duì)應(yīng),為了訓(xùn)練蘋果內(nèi)部品質(zhì)多語(yǔ)義分類模型,對(duì)比分級(jí)正確率,需知道500個(gè)樣本的理化特征各屬于哪種級(jí)別。由于果品行業(yè)對(duì)水果內(nèi)部品質(zhì)分級(jí)沒有統(tǒng)一的標(biāo)準(zhǔn),本實(shí)驗(yàn)將測(cè)得的蘋果理化特征值從小到大分為5個(gè)等級(jí),并將介電特征參數(shù)作為輸入,訓(xùn)練隨機(jī)森林。
隨機(jī)森林是一種集合學(xué)習(xí)方法,可用作分類、回歸、半監(jiān)督學(xué)習(xí)等領(lǐng)域[14],是一系列決策樹的集合。
對(duì)于分類問題,隨機(jī)森林能夠快速且準(zhǔn)確地處理多種分類任務(wù)。通過隨機(jī)選擇特征子集和樣本子集訓(xùn)練得到?jīng)Q策樹,隨機(jī)森林中為了選定測(cè)試樣本輸出類別,將所有決策樹對(duì)其預(yù)測(cè)類別分布采用投票策略選定,如圖3所示。
圖3 隨機(jī)森林運(yùn)行示意圖(圖中方塊表示標(biāo)簽信息量的傳遞)
1)劃分點(diǎn)選取。Ta表示在在樣本集上屬性為a的分裂值,即
(1)
其中,a表示樣本集上的連續(xù)屬性。a在樣本集上有n個(gè)不同的取值,將這些值從大到小排序,記為a1,a2,...,an?;趧澐贮c(diǎn)t∈T可將子集分為大于t和小于t的樣本,對(duì)連續(xù)屬性a考察n-1個(gè)劃分點(diǎn)候選集合。
2)訓(xùn)練目標(biāo)函數(shù)選取。隨機(jī)森林訓(xùn)練的關(guān)鍵是如何選擇最優(yōu)劃分屬性。一般而言,隨著劃分過程不斷進(jìn)行,希望每棵樹的分支節(jié)點(diǎn)所包含的樣本盡可能屬于同一類,即結(jié)點(diǎn)的“純度”越來(lái)越高。將信息論和信息增益應(yīng)用于樹中分裂結(jié)點(diǎn)的目標(biāo)函數(shù),能得到3種函數(shù),分別是信息增益、信息增益率、基尼系數(shù)。本實(shí)驗(yàn)中,將信息增益率作為目標(biāo)函數(shù),原因是使用信息增益率來(lái)選擇屬性能夠完成對(duì)連續(xù)屬性的離散化處理,能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理。I定義為信息增益率,即
(2)
其中,S為分裂結(jié)點(diǎn)的屬性數(shù)據(jù)集,將S分為左子集SL和右子集SR;H表示信息熵;|S|、|Si|分別表示樣本總數(shù)。H(S)定義為香農(nóng)信息熵,即
(3)
其中,c為類別標(biāo)簽;C為所有的類別標(biāo)簽集,p(c)為集合S中的樣本屬于c類的概率。信息增益率目標(biāo)函數(shù)選擇信息增益值最大的屬性作為分裂屬性。
隨機(jī)森林訓(xùn)練過程中起到關(guān)鍵作用的參數(shù)有:
1)樹的最大深度。樹的深度越小,計(jì)算量越小,速度越快;深度越大,計(jì)算量越大,速度越慢。過大或過小會(huì)影響分類的準(zhǔn)確性[14]。
2)森林中樹的總數(shù)。樹的總數(shù)越大,分類性能越好,樹總數(shù)的選擇取決于計(jì)算機(jī)的硬件資源。
在隨機(jī)森林訓(xùn)練后,使用投票策略選定測(cè)試樣本的輸出類別,然而在蘋果內(nèi)部口感品質(zhì)多語(yǔ)義分類研究中,分級(jí)標(biāo)簽為8個(gè),僅采用隨機(jī)森林模型無(wú)法統(tǒng)計(jì)輸出類別。因此,本研究中將測(cè)試樣本用理化指標(biāo)標(biāo)注標(biāo)簽,通過隨機(jī)森林中的每棵隨機(jī)樹,從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)按照分割函數(shù)不斷進(jìn)行深度優(yōu)先搜索完成。
TF-IDF(詞頻-逆文檔頻率)算法[15]是一種統(tǒng)計(jì)方法,用以評(píng)估一個(gè)字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度。其中,TF指的是某一個(gè)給定的標(biāo)簽在該樣本集出現(xiàn)的次數(shù),IDF是一個(gè)標(biāo)簽普遍重要性的度量。該算法具有快速選取輸出類別、算法復(fù)雜度低的優(yōu)勢(shì),在本研究中采用TF-IDF算法過濾掉普通標(biāo)簽,保留重要的有分類意義的標(biāo)簽。使用該算法進(jìn)行理化特征標(biāo)簽預(yù)測(cè)的主要思想是:如果某一理化特征標(biāo)簽在某個(gè)測(cè)試集中出現(xiàn)的頻率越高,在其他測(cè)試集中很少出現(xiàn),則該標(biāo)簽就能較好地對(duì)測(cè)試集進(jìn)行分類。用于預(yù)測(cè)測(cè)試集對(duì)應(yīng)的8個(gè)標(biāo)簽qj表示為
(4)
實(shí)驗(yàn)中,按照9:1隨機(jī)的將蘋果分為訓(xùn)練集和測(cè)試集,采用十輪交叉驗(yàn)證的方法取均值。
隨機(jī)森林模型的訓(xùn)練過程中,使用信息增益率作為目標(biāo)函數(shù)。實(shí)驗(yàn)中使用了平行的8個(gè)標(biāo)簽(見圖4),且標(biāo)簽是連續(xù)的,在分類預(yù)測(cè)中預(yù)測(cè)出的標(biāo)簽級(jí)別分布較為一致,采用的評(píng)價(jià)指標(biāo)為均方根誤差(RootMeanSquareError,RMSE),即
(5)
圖4 標(biāo)簽對(duì)應(yīng)分布圖
實(shí)驗(yàn)結(jié)果表明:將隨機(jī)森林應(yīng)用于蘋果內(nèi)部口感品質(zhì)多語(yǔ)義分類中可行。由圖4可看出:8個(gè)理化指標(biāo)的實(shí)際等級(jí)和預(yù)測(cè)等級(jí)分布較為一致,最多3個(gè)標(biāo)簽的實(shí)際等級(jí)和預(yù)測(cè)等級(jí)有差值,差值相差一級(jí)。
實(shí)驗(yàn)結(jié)果表明:將隨機(jī)森林應(yīng)用于蘋果內(nèi)部口感品質(zhì)多語(yǔ)義分類中可行。由圖4可看出:8個(gè)理化指標(biāo)的實(shí)際等級(jí)和預(yù)測(cè)等級(jí)分布較為一致,最多3個(gè)標(biāo)簽的實(shí)際等級(jí)和預(yù)測(cè)等級(jí)有差值,差值相差一級(jí)。
基于森林規(guī)模的RMSE和時(shí)間的關(guān)系如表3和圖5所示。由表3和圖5可以看出:隨機(jī)森林規(guī)模對(duì)實(shí)驗(yàn)結(jié)果有較大影響;森林規(guī)模影響分類的準(zhǔn)確性及訓(xùn)練時(shí)間,隨著森林規(guī)模的增加,RMSE值逐漸降低,準(zhǔn)確性逐漸提高;訓(xùn)練時(shí)間越長(zhǎng),森林規(guī)模越大,RMSE值變化越明顯。
表3 基于森林規(guī)模的RMSE和時(shí)間的關(guān)系
圖5 基于森林規(guī)模的RMSE和時(shí)間的關(guān)系
基于樹深度的RMSE和時(shí)間的關(guān)系如表4和圖6所示。由表4和圖6可看出:樹的深度也會(huì)影響分類的準(zhǔn)確率及訓(xùn)練時(shí)間,樹的深度過小時(shí),容易造成低度擬合,會(huì)降低分類準(zhǔn)確性;過大時(shí),容易造成過擬合,會(huì)降低分類準(zhǔn)確性。隨著樹的深度的增加,RMSE值逐漸降低; 但降到一定值后,又逐漸增加,而訓(xùn)練時(shí)間逐漸增長(zhǎng)。實(shí)驗(yàn)中選取森林的規(guī)模1 000,樹的深度為25時(shí),RMSE為0.51,分類準(zhǔn)確率較好。
表4 基于樹深度的RMSE和時(shí)間的關(guān)系
圖6 基于樹深度的RMSE和時(shí)間的關(guān)系
為對(duì)蘋果內(nèi)部口感品質(zhì)進(jìn)行有效的多語(yǔ)義分類,驗(yàn)證隨機(jī)森林的可行性,本研究測(cè)試了支持向量機(jī)分類模型(SVM)[16]。實(shí)驗(yàn)結(jié)果表明:SVM分類RMSE值為0.69,在隨機(jī)森林模型中使用信息增益率作為目標(biāo)函數(shù),每棵樹的最大深度為25,森林規(guī)模為1 000,RMSE值為0.51。因此,使用本文提出的隨機(jī)森林作為蘋果內(nèi)部口感品質(zhì)分類器效果更好。
在本實(shí)驗(yàn)中,使用隨機(jī)森林為基礎(chǔ)進(jìn)行蘋果內(nèi)部多品質(zhì)語(yǔ)義分類,使用介電特征參數(shù)指導(dǎo)隨機(jī)森林的生成,標(biāo)簽信息為理化特征,采用TF-IDF算法選取輸出類別。實(shí)驗(yàn)測(cè)試表明:基于隨機(jī)森林的蘋果內(nèi)部口感品質(zhì)進(jìn)行多標(biāo)簽分類的RMSE值為0.51,對(duì)比SVM,準(zhǔn)確率更高;隨機(jī)森林模型對(duì)蘋果內(nèi)部口感品質(zhì)多標(biāo)簽分類,相比以往蘋果整體等級(jí)分類,能夠較準(zhǔn)確地在無(wú)損情況下確定蘋果內(nèi)部口感品質(zhì)。