毛旭東
摘 要
葉片識(shí)別是最簡單和直接的植物識(shí)別方法,采用機(jī)器學(xué)習(xí)算法是解決葉片識(shí)別的重要途徑。為更有效的識(shí)別葉片,提出基于限制性玻爾茲曼機(jī)的葉片識(shí)別算法,并通過實(shí)驗(yàn)論證算法的可行性。
【關(guān)鍵詞】機(jī)器學(xué)習(xí) 葉片識(shí)別 限制性玻爾茲曼機(jī)
在植物的分類或者檢索研究中,通常都選取植物的局部形態(tài)特征,如植物中長出現(xiàn)的花、葉、枝條等植物器官。雖然這些植物特征都有各自的分類價(jià)值,但與植物其它器官相比,葉片顯然具有易于提取,容易轉(zhuǎn)化為計(jì)算處理圖像等優(yōu)勢(shì),所以常在植物識(shí)別中作為主要的參照器官,同時(shí)葉片的生長形狀和顏色特征又是研究植物異化的一個(gè)重要的指標(biāo),因此在傳統(tǒng)的植物葉片識(shí)別系統(tǒng)中,通常都將葉片識(shí)別作為最簡單和直接的植物識(shí)別方法。
近年來,越來越多的機(jī)器學(xué)習(xí)方法在現(xiàn)實(shí)中被廣泛的應(yīng)用,機(jī)器學(xué)習(xí)方法正在傳統(tǒng)行業(yè)中發(fā)揮著重要的作用,研究基于機(jī)器學(xué)習(xí)算法的葉片識(shí)別系統(tǒng)具有一定應(yīng)用價(jià)值。
1 玻爾茲曼機(jī)
玻爾茲曼機(jī)(Boltzmann machine, BM)作為Hopfield網(wǎng)絡(luò)的一種概率形式,具有良好的概率建模和計(jì)算能力。該模型最早脫胎于物理學(xué)中的能量模型,用于描述各種高階變量間的相互作用機(jī)制,這種模型的計(jì)算方法相對(duì)復(fù)雜,但其理論框架相對(duì)來說較為完善,在BM中每個(gè)神經(jīng)元以一定的概率處于0和1兩種狀態(tài)之下,BM的網(wǎng)絡(luò)拓?fù)淙鐖D1所示。
其中單個(gè)圓表示隱藏節(jié)點(diǎn),雙圓代表可見節(jié)點(diǎn),可見節(jié)點(diǎn)用于接收觀察向量,作為一種概率性的Hopefield網(wǎng)絡(luò),BM的能量函數(shù)定義如下:
(1)
其中,wij代表節(jié)點(diǎn)i和節(jié)點(diǎn)j的連接權(quán)重, si,si表示節(jié)點(diǎn)i和節(jié)點(diǎn)j狀態(tài),θi表示節(jié)點(diǎn)i的輸出閾值。在BM中每個(gè)節(jié)點(diǎn)都以一定的概率輸出為零,同時(shí)也以一定的概率輸出為一,概率的輸出計(jì)算如下:
(2)
(3)
當(dāng)上述概率大于閾值θi時(shí),當(dāng)前節(jié)點(diǎn)取值為1,否則取值為零。作為一種典型的反饋形神經(jīng)網(wǎng)絡(luò),該算法的學(xué)習(xí)過程相對(duì)比較困難,傳統(tǒng)而言,該模型采用采樣的方法估計(jì)模型的權(quán)重參數(shù),總所周知,采樣方法的缺陷在于難以估計(jì)采樣收斂時(shí)間,且采樣過程相對(duì)緩慢,因此這種模型雖然建模能力強(qiáng)大,但是其若將其應(yīng)用于DBN模型中,則模型的估計(jì)時(shí)間顯然過長。
2 限制性玻爾茲曼機(jī)
如上所述,玻爾茲曼機(jī)由于其內(nèi)部復(fù)雜的工作方式,權(quán)值的估算通常依賴采樣等方式進(jìn)行,這種方法耗時(shí)耗力,為進(jìn)一步簡化BM的拓?fù)浣Y(jié)構(gòu)使得網(wǎng)絡(luò)的計(jì)算快速有效,限制性玻爾茲曼機(jī)將BM的隱藏層節(jié)點(diǎn)間的相互連接取消,同時(shí)取消可見層間的相互連接,限制性玻爾茲曼機(jī)的拓?fù)浣Y(jié)構(gòu)如圖2所示。
相較于BM的結(jié)構(gòu),RBM結(jié)構(gòu)簡單,因此訓(xùn)練和學(xué)習(xí)的效率也更加有效。在標(biāo)準(zhǔn)的RBM網(wǎng)絡(luò)中,可見層用v表示,隱藏層用h表示,且其取值一般取0和1,對(duì)于給定了權(quán)值的RBM網(wǎng)絡(luò),隱藏層計(jì)算算法如下:
算法1:
(1)使用公式1和2計(jì)算每個(gè)隱藏層節(jié)點(diǎn)的輸出概率。
(2)隨機(jī)從均分布U(0,1)中抽取元素u,若該元素大于隱藏概率的輸出概率則隱藏層取0,否則隱藏層取1。
當(dāng)RBM中節(jié)點(diǎn)的取值是0和1的二值時(shí),RBM的能量函數(shù)定義如下:
(4)
其中wij表示節(jié)點(diǎn)i和節(jié)點(diǎn)j間的權(quán)值,bi表示隱藏層節(jié)點(diǎn)i的偏執(zhí),ai表示可見層節(jié)點(diǎn)j的偏執(zhí),無論是在RBM網(wǎng)絡(luò)還是在BM網(wǎng)絡(luò),都是一種特殊的概率圖網(wǎng)絡(luò),概率圖中將可見節(jié)點(diǎn)的邊緣概率最大化即是求解網(wǎng)絡(luò)參數(shù)的最簡單方式,可以證明最大化可視節(jié)點(diǎn)的邊緣概率等價(jià)于最小化網(wǎng)絡(luò)的能量函數(shù)。
下面考慮節(jié)點(diǎn)的輸入不是二值函數(shù)時(shí),網(wǎng)絡(luò)的能量函數(shù)定義,一般而言,為應(yīng)對(duì)這種情況,通常在獨(dú)立網(wǎng)絡(luò)單元中加入高斯噪聲,因此可以定義能量函數(shù)如下:
3 RBM參數(shù)學(xué)習(xí)
從上述的討論中可知,模型的訓(xùn)練可以通過最小化能量函數(shù)實(shí)現(xiàn),現(xiàn)假設(shè)訓(xùn)練樣本共有T個(gè),與前述神經(jīng)網(wǎng)絡(luò)中相類似,求能量函數(shù)的導(dǎo)數(shù),然后使用梯度下降方法得到網(wǎng)絡(luò)的最終權(quán)重。由文獻(xiàn)可得,與能量函數(shù)等同的似然函數(shù)的導(dǎo)數(shù)為:
上式中第一項(xiàng)表示求數(shù)據(jù)的期望,第二項(xiàng)表示求模型的期望,數(shù)據(jù)的期望相對(duì)來說求解較為容易,模型的求解設(shè)計(jì)到v,h的所有情況,計(jì)算量較大,為處理這類方法,在現(xiàn)代概率估計(jì)方法中通常使用GIBBS等采樣算法,這種方法基于馬爾科夫采樣原理,當(dāng)狀態(tài)沿著馬爾科夫鏈進(jìn)行轉(zhuǎn)移的時(shí)候,最后系統(tǒng)中的每個(gè)狀態(tài)出現(xiàn)的概率將處于一個(gè)穩(wěn)定的收斂狀態(tài),若此時(shí)再沿馬爾科夫鏈進(jìn)行轉(zhuǎn)移,系統(tǒng)中的每種狀態(tài)出現(xiàn)的概率將不會(huì)改變,這種收斂性與最初的初始狀態(tài)無關(guān),只與狀態(tài)的轉(zhuǎn)移概率有關(guān),GIBBS采樣是一種估算每一步轉(zhuǎn)移概率的方法,經(jīng)過該方法得到的轉(zhuǎn)移概率最終的收斂概率等于目標(biāo)概率,轉(zhuǎn)移的狀態(tài)被作為采樣本,這種方法推算簡單,收斂速度快,因此被廣泛的用于估算各種聯(lián)合分布、邊緣分布。
對(duì)于Gibbs 采樣,從條件概率采樣往往比從邊緣概率采樣容易。設(shè)需要抽樣的分布為p(X)=p(x1,x2,x3,...,xN),GIBBS采樣對(duì)此概率的采樣過程如下,給定X任意的初始值。
(1)從條件分布p(x1|xi-12,xi-13,...,xi-1N)中抽取樣本xi1;
(2)從條件分布p(x2|xi1,xi-13,...,xi-1N)中抽取樣本xi2;
(3)從條件分布p(x3|xi1,xi2,...,xi-1N)中抽取樣本xi3;
(4)從條件分布p(xN|xi1,xi3,...,xiN-1)中抽取樣本xiN。
在RBM中可以通過上述的采樣過程得到模型的聯(lián)合分布樣本從而估計(jì)模型的總體期望,這種方法存在的缺點(diǎn)是,當(dāng)使用梯度下降迭代求解模型參數(shù)時(shí),每一步的模型更新都需要進(jìn)行Gibbs采樣,這樣大大降低了模型訓(xùn)練的速度,這種不足在RBM應(yīng)用于高維數(shù)據(jù)時(shí)尤為明顯。針對(duì)這種不足Hinton等人提出一種對(duì)比離差算法(Contrastive Divergence,CD),該算法不同Gibbs采樣算法估計(jì)模型的聯(lián)合分布概率,CD算法可以快速求解模型本身的期望,在CD算法中,Hinton指出當(dāng)使用訓(xùn)練數(shù)據(jù)初始化可視層時(shí),k步的Gibbs采樣就可以使聯(lián)合概率得到很好的近似。
對(duì)比散度算法(CD)的目的在于使用簡單的采樣步驟代替GIBBS采樣中復(fù)雜的采樣過程,在該算法中模型梯度中的重構(gòu)期望被簡單的一步采樣代替,從而大大降低系統(tǒng)的采樣復(fù)雜度。對(duì)比散度的算法過程如下:
算法2: 對(duì)比散度算法
(1)對(duì)訓(xùn)練訓(xùn)練數(shù)據(jù)中的每一條記錄將其賦值給可視層,計(jì)算其輸出概率。
(2)從上述概率中抽樣隱藏層狀態(tài)h,然后通過該隱藏概率計(jì)算可視層輸出概率,同樣,從該概率中抽樣出一個(gè)可視層狀態(tài)。
(3)再次從上述抽取的可視狀態(tài)出發(fā)計(jì)算隱藏層輸出概率。最后得到參數(shù)的更新公式
。
4 基于深度網(wǎng)絡(luò)的葉片識(shí)別實(shí)驗(yàn)
為了研究深層網(wǎng)絡(luò)中,植物葉片的識(shí)別效果,這里采用中科院的ICL數(shù)據(jù)集,在本數(shù)據(jù)集中,共包含200多種葉片,每類葉片包括至少30片葉片樣本,為后續(xù)討論的方便,共設(shè)計(jì)了兩組數(shù)據(jù),一組是紋理特征不明顯的葉片樣本,這類葉片樣本的葉片表面光滑,不容易分辨,另一組則是紋理特征相對(duì)明顯,葉片相對(duì)容易分辨。
在訓(xùn)練時(shí)采用三層DBN模型,第一層隱層使用1000個(gè)隱藏節(jié)點(diǎn),第二層與第一層相同,第三層則使用2000個(gè)隱層節(jié)點(diǎn),訓(xùn)練前先對(duì)數(shù)據(jù)進(jìn)行歸一化,使其成為80*40的葉片圖像,同時(shí)為擴(kuò)大訓(xùn)練樣本數(shù)量,每類樣本進(jìn)行復(fù)制處理,樣本標(biāo)簽數(shù)量取十類和二十類兩類樣本數(shù)據(jù)庫,原始樣本中每類樣本數(shù)量為50,復(fù)制以后每類為150,每類中使用10片樣本用于分類測(cè)試,下面給出RBM迭代次數(shù)不同時(shí),各自的識(shí)別率,如表1所示。
進(jìn)一步使用紋理特征較明顯的樣本,圖3可以看出,相對(duì)圖4中的葉片樣本,本次實(shí)驗(yàn)使用的樣本在紋理方面相對(duì)更突出,該樣本同樣來源于ICL數(shù)據(jù)庫,與上述處理類似,首先將樣本進(jìn)行歸一化,然后觀察樣本識(shí)別率在RBM迭代次數(shù)變化時(shí)的平均識(shí)別率,如表2所示。
比較上述兩類實(shí)驗(yàn),可以發(fā)現(xiàn),當(dāng)實(shí)驗(yàn)樣本形狀等差異度更大時(shí),DBN的分類性能更好,這與我們的常識(shí)是相符合的,對(duì)于相似的葉片,若網(wǎng)絡(luò)只是使用單純的RBM網(wǎng)絡(luò)對(duì)葉片圖像進(jìn)行重建操作,則相類似的葉片在網(wǎng)絡(luò)中的重建特征應(yīng)該是類似的,此時(shí)若標(biāo)記樣本不足,則很難通過調(diào)整權(quán)值的方式使得網(wǎng)絡(luò)具有優(yōu)秀的分辨能力。同時(shí)從RBM的迭代次數(shù)可以發(fā)現(xiàn),隨著迭代次數(shù)的增多,葉片的識(shí)別精度隨之提高,上述的RBM推導(dǎo)中可以知道,RBM的訓(xùn)練會(huì)隨著迭代次數(shù)的增加愈加收斂于能量最低點(diǎn),從而得到最優(yōu)的重建性能。
參考文獻(xiàn)
[1]李超,李昂,朱耿良.基于限制性玻爾茲曼機(jī)的微博主題分類[J].電信網(wǎng)技術(shù),2014(07):008.
[2]秦勝君,盧志平.基于限制玻爾茲曼機(jī)的無極性標(biāo)注情感分類研究[J].科學(xué)技術(shù)與工程,2013(35):10703-10707.
[3]劉建偉,劉媛,羅雄麟.玻爾茲曼機(jī)研究進(jìn)展[J].計(jì)算機(jī)研究與發(fā)展,2014,51(01):1-16.
[4]Hinton G E.Training products of experts by minimizing contrastive divergence[J].Neural computation,2002,14(08):1771-1800.
[5]Itti L,Koch C,Niebur E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,1998(11):1254-1259.
[6]Liu T,Yuan Z,Sun J,et al.Learning to detect a salient object[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on, 2011,33(02):353-367.
[7]Zhai Y,Shah M.Visual attention detection in video sequences using spatiotemporal cues[C]//Proceedings of the 14th annual ACM international conference on Multimedia.ACM,2006:815-824.
[8]Cheng M,Mitra N J,Huang X,et al.Global contrast based salient region detection[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2015,37(03):569-582.