李龍龍,何東健,王美麗
1.陜西工業(yè)職業(yè)技術學院 信息工程學院,陜西 咸陽 712000
2.西北農(nóng)林科技大學 機械與電子工程學院,陜西 楊凌 712100
3.西北農(nóng)林科技大學 信息工程學院,陜西 楊凌 712100
植物作為人類必需的一種獨一無二的營養(yǎng)、醫(yī)療和工業(yè)原料,在生態(tài)環(huán)境保護[1]、食品藥品開發(fā)[2]、日用品生產(chǎn)[3]等方面發(fā)揮著不可替代的作用,因此,研究植物分類對于人類經(jīng)濟社會發(fā)展是非常必要的。
作為現(xiàn)代農(nóng)業(yè)的重要組成部分,植物鑒別在植物分類學、精細農(nóng)業(yè)和園藝學、中醫(yī)藥研究等人們生產(chǎn)生活密切相關的各個領域具有重要的應用價值。葉片作為一種扁平的二維結構植物器官,葉片外形、葉緣和紋理等特征具有明顯的形態(tài)差異,是植物物種鑒別和形態(tài)區(qū)分的重要指標,而準確高效的圖像特征提取方法和分類識別算法是解決植物葉片分類問題的關鍵所在。近年來,有關植物葉片的特征選擇及分類識別算法無論從理論上還是應用研究方面都取得了一定的進展,隨著計算機傳感器技術、機器視覺及機器學習技術的飛速發(fā)展,使得通過圖像捕獲設備快速獲取植物生理特征并綜合利用圖像處理和模式識別算法進行植物快速分類成為可能。然而相關算法中對識別特征高度相似的葉片圖像研究不多,而隨著圖像獲取技術的不斷提升,捕獲的植物葉子圖像分辨率更高、維度更多,彩色葉片圖像的特征提取逐漸成為葉片圖像分類識別中的亟待解決的新難題。
在植物的外形特征中,葉片圖像的獲取不受時間、地點限制,且具有二維屬性,其顏色、形狀、紋理、葉緣、葉裂等特征都可以用來作為分類依據(jù)。但由于植物的數(shù)目眾多,葉片外形結構特征復雜多變,即使是同一種植物葉片圖像,在生長階段、生長位置、所處季節(jié)和受到光照等不同因素影響下,也會導致其分類特征的巨大差別,從而限制了現(xiàn)有葉片圖像特征提取算法與技術的分類識別率[4]。所以,如何有效獲取葉片圖像特征中具有不變性特點的識別特征是解決植物分類和識別技術難題的關鍵所在。
作為一種經(jīng)典的紋理特征提取算法,LBP算法通過度量和提取圖像局部的紋理信息,不經(jīng)過預處理操作就能達到較高的識別效果。但由于其存在特征提取時速度慢、難以有效獲取局部或者全局特征等問題,限制了算法的應用。一些研究人員提出了改進的LBP 算法。Tarkoglu等人[5]將LBP算法與SVM分類器結合,用于闊葉樹及禾本類雜草的圖像識別,極大地提高了分類識別率和分析效率;Lukic 等人[6]則采用LBP 和Hu 不變矩進行特征提取,同樣使用SVM 作為分類器進行植物分類識別;Le等人[7]在此基礎上,采用近鄰、半徑和不變旋轉值作為LBP 算法的參數(shù),將LBP 與SVM 算法結合起來獲取最佳識別性能;Muthevi等人[8]提出了Signed CLBP(Completed-LBP)、Magnitude CLBP 和Centered CLBP等3種LBP改進算法,并用于葉片識別;Salima等人[9]設計了一種藥用植物識別系統(tǒng),使用LBPV(Local Binary Pattern Variance)算法提取葉片的紋理特征,并綜合形狀和顏色特征,采用概率神經(jīng)網(wǎng)絡進行分類識別;Naresh等人[10]使用相鄰像素的符號表示來代替?zhèn)鹘y(tǒng)LBP算法中的閾值對其進行改造;Wang 等人[11]基于多尺度分解和局部二值描述符,提出一種DS-LBP算法進行葉片紋理和輪廓特征識別。
本文針對植物葉片圖像的復雜多樣性特征,提取了葉片基于區(qū)域的關鍵幾何特征和紋理特征,將LBP 算法改進為加權局部均值WRM-LBP(Weighted Region Mean-LBP)和加權全局均值WOM-LBP(Weighted Overall Mean-LBP)算法,并在此基礎上,提出了一種加權LBP(Weighted Combined Mean-LBP,WCM-LBP)算法,并應用于植物葉片圖像分類與識別過程中,算法的識別過程如圖1所示。
圖1 葉片圖像分類識別過程Fig.1 Recognition process of leaf images
LBP算法在識別對象的特征提取過程中應用廣泛,通過比較識別圖像中每個中心像素與其相鄰的像素,如果鄰域像素值比中心像素點大,則鄰域點編碼為1,反之,則為0,這樣從左上角開始,生成一組由0和1組成的編碼[12-15],一個像素的LBP編碼可以表示如下:
其中,D代表中心像素點到其相鄰像素點的距離,T為相鄰像素點的個數(shù),Mc指中心像素點,Mi則代表第i個相鄰像素點,而L為算法在相應領域點的LBP編碼,LBPT,D為該像素點的LBP值。如圖2為一個葉片圖像像素點的LBP值求解過程示例。
圖2 LBP算法求解過程舉例Fig.2 Example of LBP algorithm solving process
與LBP算法不同的是,WRM-LBP算法首先通過將圖像的局部均值與中心像素點進行比較選出最大值,然后通過將該值與中心像素點周圍3×3 范圍內(nèi)的加權像素值進行比較生成二進制編碼組。其中,局部均值RM的計算公式如下:
其中,Mi指第i個相鄰像素點,T為相鄰像素點的個數(shù),RWi表示第i個相鄰像素點的權值,在本文中,相鄰像素點的個數(shù)為8,因此,T=8。那么,WRM-LBP算法可以描述如下:
其中,Mc指中心像素點,通過K可以求出RM與Mc的比較后的最大值,最后通過與加權像素值RWiMi對比后生成WRM-LBP二進制編碼并生成該像素點的WRMLBP值,當RWiMi取值大于255時取255,圖3為圖2所示葉片圖像像素點的WRM-LBP值求解過程示例。
圖3 WRM-LBP算法求解過程舉例Fig.3 Example of WRM-LBP algorithm solving process
WOM-LBP 算法則通過將圖像的全局均值與中心像素點進行比較選出最小值,然后通過將該值與中心像素點周圍3×3 范圍內(nèi)的加權像素值進行比較生成二進制編碼組。其中,全局均值OM的計算公式如下:
式中,N代表包含對象像素點求解范圍在內(nèi)的一個T行D列的圖像矩陣,OWi表示第i個相鄰像素點的權值,同理,相鄰像素點的個數(shù)為8,因此,T=8。那么,WOM-LBP算法可以描述如下:
同理,通過K可以求出OM與Mc的比較后的最小值,最后通過與加權像素值OWiMi對比后生成WOM-LBP的二進制編碼并生成該像素點的WOM-LBP 值,當OWiMi取值大于255 時取255,求解過程與WRM-LBP算法類似。假設選取圖2 所示葉片圖像像素點所在范圍中6 行9 列的圖像矩陣,求得矩陣中所有像素點的和為3 510,則OM為65,則WOM-LBP值求解過程如圖4所示。
圖4 WOM-LBP算法求解過程舉例Fig.4 Example of WOM-LBP algorithm solving process
本文給出一種加權LBP算法WCM-LBP,該算法將WRM-LBP與WOM-LBP算法融合起來,通過獲取兩者運算結果的級聯(lián)矩陣[WRM-LBP WOM-LBP]求出識別對象的特征矩陣,如圖5 為葉片灰度圖像WCM-LBP算法的求解過程。
圖5 WCM-LBP算法求解過程舉例Fig.5 Example of WCM-LBP algorithm solving process
該算法除采用灰度圖像作為識別對象外,也可將彩色圖像的R、G通道圖像作為識別對象,算法步驟可描述如下所示。
(1)獲取識別對象:輸入圖像I,根據(jù)識別需要,獲取圖像I的灰度圖像、R通道圖像、G通道圖像、B通道圖像作為識別對象。
(2)將識別對象拆分為3×3的重疊區(qū)域塊。
(3)利用公式(5)求出各個重疊區(qū)域塊的加權局部均值WRM,其中,第i行第j列的加權局部均值表示為WRM(i,j)。
(4)利用公式(9)求出各個重疊區(qū)域塊的加權全局均值WOM,其中,第i行第j列的加權全局均值表示為WOM(i,j)。
(5)進而得到WRM-LBP 的直方圖WRM 及WOMLBP的直方圖WOM。
(6)最終識別對象特征直方圖FWCM=WRM⊕WOM。
本文采用特征加權的模糊半監(jiān)督聚類算法(SFFD)[16]作為分類器對WCM-LBP 算法獲得的特征矩陣進行聚類識別。該算法基于完全自適應距離函數(shù)、特征加權[17]和成對約束構建統(tǒng)一目標函數(shù),SFFD 算法旨在搜索成對約束下的最優(yōu)模型參數(shù)和最優(yōu)特征權重集合,其主要算法公式如下所示。
(1)聚類之間的距離公式:采用內(nèi)積范式Ai來檢測數(shù)據(jù)集中不同聚類的幾何形狀。
式中,ci為聚類均值,是實例i對于聚類j的隸屬度。
(2)特征權值vik可以表示如下:
其中,n為輸入數(shù)據(jù)集的特征數(shù),K為一個常量,帶有上標(t-1)的變量uij、vik、dijk分別對應其在第(t-1)次迭代中的值。
(3)引入成對約束并采用拉格朗日乘數(shù)法進行推導,可以得到算法的目標函數(shù):
其中,M為must-link約束集,ζ為cannot-link約束集。
為了驗證WCM-LBP算法的有效性,并檢測文中算法在實際應用中的識別效果,在采用國際公認的Flavia、Foliage、Swedish這3種葉片數(shù)據(jù)集的基礎上,同時采集了10 種樹木在不同時期的1 920 張葉片照片作為自測數(shù)據(jù)集,使用SFFD 算法作為分類器進行植物葉片分類實驗。相關葉片數(shù)據(jù)集詳情如表1所示,自測數(shù)據(jù)集如表2所示。
表1 實驗采用的數(shù)據(jù)集Table 1 Datasets for experiments
表2 自測數(shù)據(jù)集Table 2 Measured datasets
為了提高算法分析與驗證過程的可靠性,降低分類器對算法結果的不必要影響,采用MATLAB 實驗平臺進行實驗分析,并設定SFFD算法的加權指數(shù)m=2,分類矩陣的閾值ε=0.001,經(jīng)過50次以上重復實驗后,使用多次實驗結果的平均值作為算法性能評價依據(jù)。
3.2.1 聚類識別算法對比實驗
為了對本文提出的SFFD 分類器進行性能分析,本文采用模式識別領域中通用的標準數(shù)據(jù)集——UCI知識庫(http://archive.ics.uci.edu/ml/)中的Dermatology、Ecoli、Ionosphere、Scale、Sonar、Vowel、Waveform、Wine等8 種數(shù)據(jù)集,將SFFD 算法與FCM、AFCC、sSFCM 和SSKFCM等聚類算法進行分類準確率的比對,實驗過程中對每一個數(shù)據(jù)集的類隨機選擇40%的數(shù)據(jù)進行標記,每一種聚類算法運行50 次,在各種算法性能檢測的基礎上給出了所有算法的性能均值作為基準線,其余半監(jiān)督聚類算法作為參考算法進行對比,其中每個數(shù)據(jù)集下的最高準確率用加粗效果表示,實驗結果如表3所示。
由表3 結果可以看出,作為改進版的FCM 聚類算法,AFCC、sSFCM、SSKFCM 和SFFD 聚類算法在引入部分相關監(jiān)督信息的條件下,其聚類準確率得到了很大的提高。但不同算法的準確率略有差異,如作為一種引入先驗隸屬度來進行聚類指導的算法,sSFCM 算法使用來替代FCM聚類算法中的目標函數(shù),因此,在邊信息的指導下,該算法在各種數(shù)據(jù)集下的聚類準確率均優(yōu)于FCM算法。對于同樣采用成對約束作為邊信息的AFCC聚類算法而言,其類內(nèi)距離之和達到了最小值,卻忽略了不同識別特征的權值,所以,AFCC 在除Dermatology數(shù)據(jù)集外的其他數(shù)據(jù)集下,聚類準確率均不如SFFD,這是因為特征權值可以很容易地讓同一類別的實例靠近,不同類別的實例相互遠離。通過與其余算法的平均識別準確率比對可以發(fā)現(xiàn),SFFD 在8 個數(shù)據(jù)集上的性能均優(yōu)于其余算法的平均值,其中,在Ionosphere 數(shù)據(jù)集上達到最優(yōu),超出平均值12.18 個百分點,而在Dermatology 數(shù)據(jù)集上比平均值僅僅高出0.16 個百分點??傊?,SFFD算法在除Dermatology數(shù)據(jù)集外的幾乎所有數(shù)據(jù)集下均達到了聚類準確率的最高值,該算法在所有的UCI 數(shù)據(jù)集上的聚類準確率均高于相應數(shù)據(jù)集下的平均值約7.74 個百分點。因此,SFFD 聚類算法在區(qū)分數(shù)據(jù)實例類別方面的準確率性能更加接近預期。
表3 UCI數(shù)據(jù)集下不同算法的準確率Table 3 Accuracy for various algorithms on UCI datasets %
3.2.2 與LBP類算法的對比實驗
為了對本文算法進行更全面的評價研究,利用Flavia、Foliage、Swedish 及自測數(shù)據(jù)集等4 種葉片數(shù)據(jù)集,采用SFFD算法作為分類識別器,將文中WRM-LBP、WOM-LBP、WCM-LBP與傳統(tǒng)LBP算法、典型特征描述算法GLCM、HOG、Color Features和Shearlet Transform以及文獻[6]、文獻[8]、文獻[10]、文獻[11]所提算法進行分類準確率對比實驗,進行了50次重復實驗,實驗結果如表4所示。
表4 特征提取算法的準確率Table 4 Accuracy of feature extraction algorithms%
從表4 可以看出,文中的3 種算法與4 種圖像描述算法相比,WCM-LBP算法在Flavia、Foliage和自測數(shù)據(jù)集上均優(yōu)于其他6種圖像描述子,其分類識別率分別為97.94%、90.92%和81.71%,比同一種數(shù)據(jù)集下7 種算法分類識別率的平均值84.36%、74.47%和63.87%分別高出13.58個百分點、16.45個百分點和17.84個百分點,在Swedish 數(shù)據(jù)集上,WOM-LBP 的分類識別率達到了最高值98.46%。
此外,作為改進版的LBP 算法,WRM-LBP、WOMLBP、WCM-LBP、文獻[10]、文獻[11]算法的分類識別率均得到了很大的提高,但不同算法的準確率略有差異,如在局部和全局兩個層面權值信息的指導下,WCMLBP 算法在各個數(shù)據(jù)集上均優(yōu)于LBP,尤其在Flavia、Foliage 和自測數(shù)據(jù)集上的分類識別率均達到了相關算法的最高值97.94%、90.92%和81.71%,比LBP算法分別高出1.89 個百分點、6.06 個百分點和15.14 個百分點。而在Swedish 數(shù)據(jù)集中,由于全局特征更加明顯,因而,WOM-LBP算法的分類識別率高達98.46%。
從實驗結果可以看出,WCM-LBP 算法在除Swedish數(shù)據(jù)集外的所有數(shù)據(jù)集下均達到了分類識別率的最高值,該算法在所有的數(shù)據(jù)集上的分類識別率均高于相應數(shù)據(jù)集下的平均值約5.53 個百分點。因此,WCMLBP 算法描述的葉片特征在區(qū)分數(shù)據(jù)實例類別方面的準確率性能更加接近預期。
3.2.3 不同顏色通道下的算法對比實驗
大家知道,不同的顏色通道下,葉片圖像的特征會表現(xiàn)出差異化特征,從而影響分類器的分類識別率。為了全面評估WCM-LBP 算法在R、G、B 這3 種顏色通道下的特征描述能力,采用自測數(shù)據(jù)集中葉片圖像的灰度圖像及其對應的R、G、B 分量作為識別對象,分別對本文提出的WRM-LBP、WOM-LBP、WCM-LBP 算法進行分類性能評價實驗,部分葉片圖像的R、G、B分量如圖2所示,實驗結果表5所示。
表5 R、G、B分量下文中特征提取算法的準確率Table 5 Accuracy of feature extraction algorithms with R,G,B components %
由于自測數(shù)據(jù)集中葉片圖像主要為綠色葉片圖像,其G分量特征差異明顯。因而在表5中可以看出,3種算法在G分量下的分類識別率均達到最高值。其中,WRMLBP 算法在G 通道下的分類識別率比灰度圖像高出7.69 個百分點,WOM-LBP 算法在G 通道下的分類識別率比灰度圖像高出1.68 個百分點,WCM-LBP 算法在G通道下的分類識別率比灰度圖像高出1.91個百分點。
由圖6的分量圖像可知,待識別葉片圖像在G分量圖像下的特征最為明顯,灰度圖像次之,R 分量圖像其次,B 分量圖像的全局特征差異性較弱。因此,WCMLBP算法在灰度圖像、R分量和G分量圖像下的分類識別率分別比WRM-LBP 算法高出12.29 個百分點、11.73個百分點和6.51個百分點,比WOM-LBP算法高出7.14個百分點、4.25 個百分點和7.37 個百分點,而由于數(shù)據(jù)集B 分量圖像的局部特征加權效果更好,因此,WRMLBP算法的分類識別率最高,為63.30%。
圖6 部分葉片圖像的灰度及R、G、B分量Fig.6 Part of gray and R,G,B components for different leaf images
不同數(shù)據(jù)集的實驗結果表明:文中提出的WCMLBP算法兼顧了全局特征和局部特征的優(yōu)點,是一種葉片圖像特征提取過程中行之有效的特征描述算法。
本文將葉片圖像的全局特征和局部特征相結合,提出一種葉片圖像特征描述算法。該方法充分考慮了不同顏色通道對特征提取的影響,并基于SFFD 分類器對該算法在不同數(shù)據(jù)集下的分類識別率進行分析。4種不同數(shù)據(jù)集下的3組對比實驗結果表明,本文提出的方法是有效可行的;該方法在3種國際公認數(shù)據(jù)集下的分類識別率最高達到97.94%,自測數(shù)據(jù)集下的分類識別率也達到了81.71%,與其余5種LBP類算法和4種圖像描述算法相比,大大提高了分類識別率,具有良好的應用前景。