萬 廣,陳忠輝,方洪波,閆建偉,張文勇,謝本亮
(1 貴州大學 大數據與信息工程學院,貴州 貴陽 550025; 2 貴州大學 機械工程學院,貴州 貴陽 550025; 3 貴州大學 計算機科學與技術學院,貴州 貴陽 550025)
作為茶葉的原產地之一,中國有著歷史悠久的茶文化底蘊[1],茶鮮葉質量的優(yōu)劣基本決定著茶葉品質的高低。隨著勞動力的短缺以及勞動成本的提升,茶產業(yè)機械化、工業(yè)化進程的不斷推進,茶鮮葉的機械化采摘技術和裝備日趨成熟。但機采茶鮮葉混雜度高,包含有各種等級的茶葉,因此在制茶工藝中,分選成為了一道費工、費時且關鍵的工序。早期根據茶鮮葉的物理特性,研制出了滾篩、圓篩、風選等分選方法[2],雖然可以去除茶鮮葉中的雜物(如殘葉、葉梗等),但難以對茶鮮葉進行精確的等級劃分。
近年來,隨著機器視覺和機器學習技術的發(fā)展,茶葉的分類技術進入智能化時代。陳全勝等[3]利用顏色特征建立支持向量機(Support vector machines, SVM)分類模型,通過色澤來分辨茶葉品質的優(yōu)次,模型的平均識別率達到95%左右;吳正敏等[4]以大紅袍為例,通過提取夏秋季節(jié)茶葉各種形態(tài)特征參數,判斷特征權重進行特征選擇,并且設置不同的權重比來完成葉和梗的分離,最終識別準確率為93.8%;高震宇等[5]通過建立卷積神經網絡,通過局部連接和權值共享等方法提高了網絡的訓練性能,最終識別的準確率不低于90%。余洪[6]通過 RGB(Red, green, blue)和 HIS(Hue, instensity,saturation)顏色模型提取顏色特征,通過統(tǒng)計矩和灰度共生矩提取紋理特征,共提取到12個顏色特征和22個紋理特征,建立基于主成分分析、遺傳算法和BP神經網絡的茶葉品質分級模型,識別準確率達到92.5%。
本研究應用隨機森林分類模型,以3種不同品質的茶鮮葉圖像作為依據,分別提取茶鮮葉樣本圖像的顏色特征和邊緣特征,并且將2種特征同時輸入到分類模型中,以期實現對3種不同品質茶鮮葉的精確識別和分類。
試驗研究對象是綠茶中的都勻毛尖,于春季在貴州省黔西南州采摘,共采集到茶鮮葉樣本葉片906個,其中包括單芽299個、一芽一葉302個、一芽二葉305個。拍攝環(huán)境為實驗室,拍照設備為手機榮耀 20 (后置四攝 4800 萬+1600 萬+200 萬+200萬像素);為了突出茶鮮葉的顏色特征和邊緣特征,拍照背景選擇A4白紙以提高對比度;并用普通白熾燈照射,減弱周圍其他光源的影響;拍攝方式為垂直俯拍,并用支架固定手機拍攝位置,手機與樣本之間的距離為30 cm左右。采集的部分樣本圖像如圖1所示。
圖 1 不同等級茶鮮葉樣本圖像Fig. 1 Representative images of different grades of fresh tea leaves
圖像采集過程中避免不了外界因素的干擾,為了便于后續(xù)特征提取的方便,需要對獲得的圖像數據集進行預處理。其中包括區(qū)域裁剪、尺寸歸一化和噪聲去除[7]。具體操作流程如圖2所示。
圖 2 圖像預處理流程圖Fig. 2 Flow chart of image preprocessing
1.2.1 區(qū)域裁剪和尺寸歸一化 由于拍攝條件的限制,茶鮮葉在圖像中的顯示位置會有差異,RGB圖像也不能保持一致。因此需要對茶鮮葉的圖像進行區(qū)域裁剪。區(qū)域裁剪的目的是將研究以外的區(qū)域去除,保留圖像中心區(qū)域的茶鮮葉圖像作為感興趣區(qū)域 (Region of interest,ROI);對區(qū)域裁剪處理后的圖像進行尺寸歸一化,使各個指標處于同一個數量級,處理后的圖像分辨率為 2 56×256像素,如圖2b所示。
1.2.2 噪聲去除 圖像中存在的噪聲會對茶鮮葉葉片的特征提取產生不利的影響,因此需要消除圖像中的噪聲干擾。采用中值濾波算法對圖像進行預處理,在去除噪聲的同時保留完整的葉片信息,并且能夠很好地保護圖像的邊緣信息,使圖像中茶鮮葉的邊緣更加平滑,便于后續(xù)邊緣特征的提取。得到的濾波后圖像如圖2c所示。
1.3.1 顏色特征提取 顏色作為一種全局特征[8-10],是圖像中最簡單直接的一種特征,直方圖作為一種簡單有效的基于統(tǒng)計特性的特征描述,能描述圖像中顏色的全局分布。本文將RGB顏色空間和HSV(Hue,saturation,value)顏色空間[11]配合使用來區(qū)分不同等級的茶鮮葉顏色特征。HSV是根據顏色的直觀特性創(chuàng)建的一種顏色空間,更接近實際人類的視覺特征,手機拍攝獲得的圖像為RGB格式,需要轉化為HSV格式,RGB坐標系向HSV空間轉化的公式為:
式中:(R,G,B)min表示三者中的最小值;H代表色調,用角度度量,取值范圍為 [0°,360°],從紅色開始按逆時針方向計算,紅色為0°,綠色為120°,藍色為240°;S代表飽和度,表示顏色接近光譜色的程度;V代表明度,表示顏色明亮的程度,通常取值為0%(黑)~100%(白);R、G、B分別表示紅、綠、藍通道。
對經過中值濾波處理后的圖像進行顏色特征的提取,3種不同等級的茶鮮葉的RGB空間的直方圖和HSV空間的H、S、V通道的直方圖像素分布情況如圖3~圖6所示。
圖 3 3種等級茶鮮葉的顏色空間直方圖Fig. 3 Color space histogram of three grades of fresh tea leaves
圖 4 單芽茶鮮葉的H、S、V通道直方圖Fig. 4 H, S, V channel histogram of fresh tea leaf with single bud
圖 5 一芽一葉茶鮮葉的H、S、V通道直方圖Fig. 5 H, S, V channel histogram of fresh tea leaf with one bud and one leaf
圖 6 一芽二葉茶鮮葉的H、S、V通道直方圖Fig. 6 H, S, V channel histogram of fresh tea leaf with one bud and two leaves
對多個茶鮮葉的直方圖的像素進行統(tǒng)計得出,在RGB空間中單芽圖像的像素主要分布區(qū)間為[134,184],一芽一葉圖像的像素主要分布區(qū)間為[43,96]和[147,186],一芽二葉圖像的像素主要分布區(qū)間為[41,197]。在HSV空間中3種等級的茶鮮葉圖像H通道像素主要分布區(qū)間為[0,70],S通道像素主要分布區(qū)間為[0,200],V通道像素主要分布區(qū)間為[40,200]。為了加強不同等級茶鮮葉像素之間的差異,分別對H、S、V三通道像素進行非等間隔的量化,其中色調H空間分為8份,飽和度S和亮度V空間各劃分為3份,以提高分類器的構建效率和識別的準確率。
1.3.2 邊緣特征提取 圖像的邊緣特征主要針對物體的外邊界[12-14]。Canny算法是一種多級邊緣檢測算法,在實際操作中,Canny算法使用一個低閾值和一個高閾值來確定哪些點屬于輪廓,低閾值主要包括所有屬于明顯圖像輪廓的邊緣像素;高閾值是定義所有重要輪廓的邊緣,最后組合低閾值和高閾值兩幅邊緣圖生成最優(yōu)的輪廓圖。圖像的邊緣可以指向不同的方向,因此經典Canny算法用4個梯度算子來計算水平、垂直和對角線方向的梯度[15]。本文采用梯度算子中的Sobel算子計算水平和垂直方向的差分Gx和Gy,由這2個條件便可計算梯度模和方向,如式(4)、式(5)所示。
圖 7 邊緣特征圖像Fig. 7 Edge feature image
1.4.1 算法原理 隨機森林 (Random forest,RF)[16-19]屬于并行集成學習中Bagging(Bootstrap AGGregatING)算法的一種擴展變體,是在以決策樹為基學習器構建Bagging集成的基礎上,進一步在決策樹的訓練過程中引入隨機屬性選擇。它將多種弱分類器集成,形成新的分類器模型,決策樹決定了輸出分類,無需特征篩選也能得到較高的正確率,對特征具有較好的魯棒性。與傳統(tǒng)的分類器相比,隨機森林需要很少的參數調整,并且在準確率方面有很大的優(yōu)勢。隨機森林擁有其獨特的特點,能夠處理很高維度(特征較多)的數據,不需要降維,訓練速度較快,容易做成并行化方法,由于隨機性的引入,使得其很少出現過擬合的現象,隨機森林算法流程如圖8所示。
圖 8 隨機森林流程圖Fig. 8 Flow chart of random forest
1.4.2 隨機森林的訓練過程 隨機森林的模型訓練是通過隨機采樣(Bootstrap)方法隨機有放回地抽取k個樣本,并進行Ntree次采樣,生成Ntree個訓練集,分別訓練Ntree個決策樹模型的過程。對于單個決策樹模型,每次分裂時根據信息增益和信息熵選擇最好的特征進行分裂。對沒有抽中的樣本作為袋外數據 (Out of bag,OOB)。
針對分類問題,隨機森林的輸出采用多數投票法。利用隨機森林模型對測試集樣本進行分類判別,過程就是讓每棵決策樹進行投票抉擇,最終輸出最多的那個類別作為分類結果,輸出判別式如式(6)所示。
式中: a rgmax表示函數取得最大值時的參數值;H(x)表示隨機森林的最終分類結果;hi(x)表示單一決策樹模型分類結果;I()為示性函數(所謂示性函數是指一個函數使得當集合內有此數時值為1,當集合內無此數時值為0)[18];Y表示輸出變量(或稱目標變量)。
本試驗在Pycharm環(huán)境下進行操作,所用電腦操作系統(tǒng)為Win10(64位),運行內存4 G,處理器為酷睿i5-6200u,主頻2.30 GHz,進行圖像處理為OpenCV2庫。通過sklearn.ensemble調用Random-ForestClassifier分類模塊。隨機森林中決策樹的數目(Ntree)對最終分類結果有著及其重要的影響,Random-ForestClassifier模塊中通過n_estimators進行調節(jié)。
多次試驗證明,當Ntree取值較小時,隨機森林的分類誤差會較大,當Ntree的值逐漸增大時,隨機森林分類的精確度會有明顯的提升,但最終會趨于穩(wěn)定,甚至會有所下降。但當Ntree的數量越大時,占用的內存與訓練和預測的時間也會相應增加,且邊際效益是遞減的,所以要在可承受范圍內盡可能地選取合適的數量。
為了進一步選擇合適的決策樹數量,在固定其他參數不變、僅改變n_estimators參數的情況下,對茶鮮葉數據集進行多次分類試驗,觀察分類精確度隨著決策樹數目的變化。
圖9顯示了分類準確率隨著Ntree變化而變化的曲線??紤]到內存和訓練時間,本試驗的Ntree選擇為35。
圖 9 分類準確率隨決策樹數目(N tree)的變化Fig. 9 Classification accuracy varied with the number of decision trees (N tree)
試驗時針對上述構建好的隨機森林分類器模型,將預處理之后得到的906張圖像(單芽圖像299張,一芽一葉圖像302張,一芽二葉圖像305張)按照4∶1的比例劃分后進行試驗,其中訓練集724張,測試集182張。識別準確率(Accuracy)是分類器性能判斷的重要指標之一,另外,精確率(Precision)、召回率(Recall)以及綜合評價指標(F1-score)在最終分類階段也作為常用的指標。4種評價指標公式如式(7)~式(10)所示。
式中:TP(True positive)為真陽性,表示實際類別為正,算法輸出類別也為正;FP(False positive)為假陽性,表示實際類別為負,樣本輸出類別為正;TN(False negative)為假負性,表示實際類別為負,算法輸出類別也為負;FN(False negative)為假陰性,表示實際類別為正,算法輸出類別為負。
為了驗證本文方法的有效性,分別將2個單一特征和融合特征輸入到隨機森林分類模型中,根據式(7)~(10),得到準確率、精確率、召回率和綜合評價指標等結果數值,分別列于表1~表3。
表 1 顏色特征分類結果Table 1 Color feature classification results %
表 2 邊緣特征分類結果Table 2 Edge feature classification results%
表 3 融合特征分類結果Table 3 Fusion feature classification results %
由表1可知,顏色特征的識別準確率為92.31%,對單芽的分類結果最好,精確率、召回率和綜合評價指標都為96.23%,主要原因在于單芽的直方圖像素區(qū)間較小,比較集中;一芽一葉和一芽二葉的顏色特征綜合評價指標為90%左右,因為大多數一芽一葉的直方圖像素區(qū)間為2個,但2個區(qū)間的像素數量并不是絕對為0,所以一芽一葉和一芽二葉容易造成混淆。
由表2可知,邊緣特征的識別準確率為90.11%,比顏色特征低2.2個百分點,主要原因也在于一芽一葉和一芽二葉之間的混淆,例如:測試集混淆矩陣中,一芽一葉55張,有7張識別為一芽二葉;一芽二葉59張,有8張識別為一芽一葉。
由表3可知,顏色和邊緣特征融合識別的準確率為99.45%,比顏色特征和邊緣特征的識別準確率分別高7.14,9.34個百分點,該方法取2個特征識別時的交集,避免了單一特征識別時的局限性,提高了識別準確率,證明了該方法的可行性。
為了進一步說明本文方法的有效性,將本文方法同傳統(tǒng)的機器學習方法K最近鄰(K-nearest neighbor, KNN)[20]和SVM分類器[21-22]進行對照試驗。其中K最近鄰算法中K設置為3,SVM分類器中懲罰系數C設置為10,核函數系數gamma為0.0001,試驗結果如表 4 所示。
表 4 不同模型的平均分類結果Table 4 Average classification results of different models %
由表4可以看出,針對茶鮮葉等級的分類問題,隨機森林模型明顯優(yōu)于K最近鄰和SVM分類器,在準確率上分別高出15.38和5.49個百分點,精確率、召回率和綜合評價指標也有明顯的優(yōu)勢。以上結果表明,在茶鮮葉的分類中,隨機森林模型的分類性能最優(yōu),SVM次之,K最近鄰效果最差。作為機器學習中最常用的一種算法,SVM需要對參數進行不斷的優(yōu)化,以提高分類的準確率和防止過擬合問題的出現,相較于隨機森林模型需要耗費更多的時間和精力。作為最簡單的算法之一,K最近鄰算法原理簡單,容易理解,但需要對樣本的特征進行量化,才能獲得較好的分類結果。
本文以春季的都勻毛尖作為研究對象,利用隨機森林分類模型,提出了一種顏色特征和邊緣特征融合的方法,對3種不同等級的茶鮮葉進行識別和分類。根據準確率、精確率、召回率和綜合評價指標進行判定。首先對茶鮮葉圖像進行區(qū)域裁剪、尺寸歸一化和噪聲去除等預處理,提取RGB空間的彩色直方圖并轉移到HSV空間中,計算H、S、V三通道像素區(qū)間,獲得茶鮮葉圖像的顏色特征。利用Canny邊緣檢測算法提取圖像的邊緣特征,將2種特征融合作為茶鮮葉的識別特征。為了判斷本文方法的有效性,將單一特征和融合特征后的分類結果進行對照,并且將隨機森林模型同K最近鄰和SVM分類器進行對照試驗。試驗結果表明,特征融合隨機森林模型的分類準確率、精確率、召回率和綜合評價指標分別達99.45%、99.40%、99.44%和99.42%,明顯高于單一特征的分類結果,并且隨機森林模型的分類性能最優(yōu)。該方法也能快速應用到其他類型的茶鮮葉分選,為茶鮮葉分選的智能化進程提供了一定的依據。