范海紅
(浙江郵電職業(yè)技術(shù)學(xué)院,浙江 紹興 312366)
作為世界茶葉大國(guó),茶葉的質(zhì)量是茶園經(jīng)濟(jì)效益的關(guān)鍵。茶葉嫩牙是衡量茶葉產(chǎn)量的重要因素。茶葉嫩牙發(fā)育和茶葉病害預(yù)防和治療之間有著十分密切的關(guān)系。國(guó)內(nèi)對(duì)于茶葉病害種類已經(jīng)記錄了30多種。該種類型的疾病最常見(jiàn)的包括如下四種,即炭疽病、白星病、茶芽疫病和茶環(huán)斑病。如何合理預(yù)防和控制茶葉病害是保證茶葉品質(zhì)的關(guān)鍵。在實(shí)際生產(chǎn)中,茶農(nóng)大多依靠自己的多年的茶樹(shù)種植經(jīng)驗(yàn),或者參考相關(guān)資料,利用網(wǎng)絡(luò)在線查詢和咨詢專家來(lái)識(shí)別茶樹(shù)病害,但這些這些方法存在許多問(wèn)題:鑒別能力、時(shí)效性等。首先,從發(fā)生茶樹(shù)病害到發(fā)現(xiàn)病害,再到對(duì)病害的診斷,最后對(duì)病害采取的防治措施的過(guò)程可能需要很長(zhǎng)時(shí)間,而這個(gè)期間內(nèi),茶葉的病害可能進(jìn)一步加劇。第二,茶葉種植往往是大面積種植。如果需要確定哪個(gè)地區(qū)發(fā)生了病蟲(chóng)害,而哪個(gè)地區(qū)沒(méi)有病害問(wèn)題,這個(gè)需要的勞動(dòng)力成本肯定不低。另外茶樹(shù)一般種植在高低起伏不平的山區(qū),同樣也會(huì)增加了人工識(shí)別的難度。最后,茶農(nóng)對(duì)疾病診斷的相關(guān)知識(shí)的缺乏,而僅憑主觀經(jīng)驗(yàn)容易出現(xiàn)診斷錯(cuò)誤??偨Y(jié)上述原因,因此傳統(tǒng)的種植方式顯然難以滿足現(xiàn)代農(nóng)業(yè)種植的要求。如何有效地識(shí)別和預(yù)防這些病害是茶葉界關(guān)注的焦點(diǎn)。通過(guò)對(duì)茶葉病害的識(shí)別和分類,能夠給茶園管理人員提供防治依據(jù),具有一定的現(xiàn)實(shí)意義。
神經(jīng)網(wǎng)絡(luò)是利用生物神經(jīng)網(wǎng)絡(luò)來(lái)近似解決問(wèn)題的方法,是將神經(jīng)元連接而成的具有自適應(yīng)的一種動(dòng)態(tài)網(wǎng)絡(luò)。Pitts等人首先提到了神經(jīng)網(wǎng)絡(luò)模型。利用這個(gè)模型給出了神經(jīng)元的數(shù)學(xué)形式和網(wǎng)絡(luò)結(jié)構(gòu),從而使神經(jīng)網(wǎng)絡(luò)的研究和探索得到了血多研究人員的重視。Rumelhart等人為了解決單層感知器存在的缺點(diǎn),提出了BP神經(jīng)網(wǎng)絡(luò)的概念,并且把BP神經(jīng)網(wǎng)絡(luò)算法運(yùn)用到了機(jī)器學(xué)習(xí)理論中去。但神經(jīng)網(wǎng)絡(luò)中里面所包含的參數(shù)比較多,訓(xùn)練的時(shí)間比較長(zhǎng),還存在過(guò)擬合等問(wèn)題,Hinton等人提出了深度學(xué)習(xí),利用多層神經(jīng)網(wǎng)絡(luò)具有更好的學(xué)習(xí)能力的特點(diǎn),無(wú)監(jiān)督訓(xùn)練的模式來(lái)克服深度神經(jīng)網(wǎng)絡(luò)的難度。卷積神經(jīng)網(wǎng)絡(luò)是目前比較常用的深度網(wǎng)絡(luò)模型。病蟲(chóng)害是影響茶葉質(zhì)量的主要原因之一,而目前主要預(yù)防方式是人工去主觀判斷,人工的主觀判斷不可避免的會(huì)帶來(lái)主觀性和模糊性的問(wèn)題,使病蟲(chóng)害無(wú)法被有效的識(shí)別,從而影響防治效果。所以,怎樣精準(zhǔn)快速的認(rèn)識(shí)病害已經(jīng)變成了一個(gè)不可忽視的研究課題。
最近一些年以來(lái),由于機(jī)器學(xué)習(xí)的發(fā)展,使用機(jī)器學(xué)習(xí)的理論來(lái)對(duì)該疾病進(jìn)行識(shí)別的研究已經(jīng)受到研究人員的關(guān)注。王佳平以白星病、葉斑病和葉枯病作為研究對(duì)象,運(yùn)用神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)原理和圖像特征提取等方法提出了基于圖像的茶葉病害分類方法。張帥堂利用茶葉病害的高光譜分析,提出了針對(duì)病害識(shí)別的支持向量機(jī)分類模型、隨機(jī)森林模型和BP神經(jīng)網(wǎng)絡(luò)模型。
神經(jīng)網(wǎng)絡(luò)其中包含三種,即輸入層、隱藏層以及輸出層。卷積網(wǎng)絡(luò)是具有卷積構(gòu)造特征的一種極為獨(dú)特的深度網(wǎng)絡(luò),不僅能夠降低深層網(wǎng)絡(luò)的存儲(chǔ)數(shù)目以及參數(shù)目,并且還能夠緩解過(guò)擬合情況。該種類型的網(wǎng)絡(luò)不僅具有輸入層以及輸出層,并且其隱藏層主要包括卷積層、池化層、全連接層三個(gè)類別。其中前兩種也能夠使用卷積層以及池化層交替等情況多層出現(xiàn)。
卷積層中核心部分為卷積核,通過(guò)卷積運(yùn)算對(duì)圖像數(shù)據(jù)的處理,從而可以提取輸入信號(hào)的深層次信息,增強(qiáng)原信號(hào)的特征信息,降低噪音數(shù)據(jù)。主要方式是利用對(duì)特征圖和卷積核進(jìn)行卷積運(yùn)算z=Wx+b,再利用激活函數(shù)x=f(z),得到特征圖。其中,x是第l-1層的輸出信息,W是從第l-1層到第l層的卷積核,b稱為偏移項(xiàng),f(?)是激活函數(shù)。池化層基本上使需要達(dá)到對(duì)信息的降維,用更顯著的表現(xiàn)形式來(lái)展現(xiàn)圖像。其任務(wù)主要想要減少冗余信息、增加模型的不變特征并且可以有效的預(yù)防過(guò)擬合的情況出現(xiàn)。比較常見(jiàn)的池化層運(yùn)算方式共有以下幾種類型,主要可包括平均值池化算法,最大值池化算法,組合池化算法以及隨機(jī)池化算法等。對(duì)于全連接層來(lái)說(shuō),對(duì)前面特征逐層提取之后,則可予以分類回歸操作。將二維特征圖轉(zhuǎn)化為一維數(shù)據(jù),并輸入到全連接網(wǎng)絡(luò)中。同時(shí)通過(guò)激活函數(shù)進(jìn)行輸出。通過(guò)情況下,主要選用ReLU函數(shù)進(jìn)行操作。基于softmax函數(shù)為依托,則可實(shí)現(xiàn)分類輸出處理。
工人在對(duì)茶葉葉部病害葉片進(jìn)行人工采摘時(shí),將采摘到的葉片通過(guò)人工依次拍照,主要提取包含6類常見(jiàn)的茶葉葉部病害葉片和損傷葉片的圖像。人工采集的圖像由于葉片存在差異,導(dǎo)致采集到的病害圖像的需要進(jìn)行裁剪處理,選取圖像清晰度比較高的茶葉病害圖像進(jìn)行切割,可以減少圖像中的干擾信息,同時(shí)能夠使得圖像目標(biāo)區(qū)域更加突出和明顯,有利于對(duì)圖片的特征提取。因此利用目前所有存在的比較完善的像處理技術(shù)來(lái)切割圖像,其流程如下圖。
圖像切割處理后,刪除拍攝質(zhì)量較差的圖像后,把其余所有圖像進(jìn)行統(tǒng)一尺寸,圖像歸一化為188x188,對(duì)圖像數(shù)據(jù)進(jìn)行命名,并作為一整個(gè)數(shù)據(jù)集從而得到茶葉葉部病害的部分圖像樣本。
卷積神經(jīng)網(wǎng)絡(luò)適用于大樣本數(shù)據(jù)。為了避免過(guò)度擬合,可以適當(dāng)增加訓(xùn)練數(shù)據(jù)集的數(shù)量。Goodflow等人經(jīng)過(guò)研究后,所得出的結(jié)論為生成對(duì)抗網(wǎng)絡(luò)GAN,基于此實(shí)現(xiàn)圖像的生成。主要可以分成兩個(gè)部分,包括生成器與判別器。在前者的作用下,則可對(duì)原始數(shù)據(jù)的分布狀態(tài)進(jìn)行獲取,并產(chǎn)生新的樣本信息。后者則可作為二分類器,對(duì)輸入樣本進(jìn)行有效區(qū)分。DCGAN是在生成對(duì)抗網(wǎng)絡(luò)模型的基礎(chǔ)上加入了卷積運(yùn)算過(guò)程,從而達(dá)到無(wú)監(jiān)督訓(xùn)練的目的,由于卷積神經(jīng)網(wǎng)絡(luò)模型具有強(qiáng)大的特征提取能力,從而可以達(dá)到DCGAN模型的學(xué)習(xí)能力。因此可以采用GAN來(lái)模擬單一背景下生成茶葉病害圖像,擴(kuò)展樣本數(shù)據(jù)集。
DCGAN網(wǎng)絡(luò)的池化層包含了判別網(wǎng)絡(luò)和生成網(wǎng)絡(luò),分別采用了步幅卷積和微步幅卷積。與生成對(duì)抗網(wǎng)絡(luò)所不同,此網(wǎng)絡(luò)是沒(méi)有完全連接層和池層,假設(shè)輸入維數(shù)為一百的均勻分布數(shù)據(jù),通過(guò)微步幅卷積運(yùn)算,將一百維的數(shù)據(jù)轉(zhuǎn)換為一個(gè)64位像素的圖像。
在操作過(guò)程中,所應(yīng)用的即為九層的卷積神經(jīng)網(wǎng)絡(luò)模型,主要由以下幾個(gè)部分組成,其中可包含池化層、卷積層、響應(yīng)規(guī)范層、全連接層以及輸出。在試驗(yàn)期間,為了避免發(fā)生過(guò)擬合的情況,在全連接層中引入dropout丟棄機(jī)制。對(duì)于卷積層來(lái)說(shuō),主要是由多個(gè)特征映射層共同構(gòu)成的,其中包含了較多的神經(jīng)元。通過(guò)卷積濾波器提取圖像的深層次特征數(shù)據(jù),并連接卷積核與前層的特征映射,從而增加節(jié)點(diǎn)矩陣的深度核增強(qiáng)信號(hào)的特征的輸入。由于先前對(duì)圖像尺寸歸一化為188×188,選用簡(jiǎn)單的卷積核,其大小規(guī)格為3×3。選擇數(shù)目為16的特征卷積核,所產(chǎn)生的特征圖共計(jì)為16個(gè)。
由于存在太多特征數(shù)據(jù),因而在擬合處理是,容易導(dǎo)致過(guò)擬合現(xiàn)象,可以利用池化操作來(lái)避免過(guò)擬合,我們利用最大池化算法對(duì)輸入特征映射的數(shù)據(jù)特征進(jìn)行聚合,計(jì)算圖像中某區(qū)域的特征的最大值,作為特征數(shù)據(jù)輸出。該層以2的步長(zhǎng)選擇最大池化算法處理數(shù)據(jù)。
為了保證模型具有良好的泛化效果,可將LRN層應(yīng)用到局部響應(yīng)規(guī)范化層中。LRN層是為了讓具有小反饋的神經(jīng)元暫時(shí)不被使用,從而獲得相對(duì)較大的響應(yīng)值因此通過(guò)創(chuàng)造競(jìng)爭(zhēng)環(huán)境來(lái)抑制某些神經(jīng)元,所以局部響應(yīng)規(guī)范化層用于水平抑制激活函數(shù)的輸出數(shù)據(jù)。此外,LRN和ReLU的結(jié)合可以擴(kuò)展ReLU激活函數(shù)的優(yōu)點(diǎn),并從許多卷積核的響應(yīng)中獲得較大的反饋。因此,利用局部響應(yīng)規(guī)范化層提高數(shù)據(jù)峰值,抑制環(huán)境因素,提升數(shù)據(jù)特征,提高效率。
該模型中有2個(gè)全連接層,連接所有特征得到輸出值,并輸入到softmax函數(shù)中。為了避免實(shí)驗(yàn)中的過(guò)擬合現(xiàn)象,則將一個(gè)丟棄層連接在全連接層后,修改損失函數(shù)和網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)權(quán)值衰減,從而優(yōu)化神經(jīng)網(wǎng)絡(luò)。
本文采用不同學(xué)習(xí)速率下的識(shí)別精度對(duì)比實(shí)驗(yàn)來(lái)模擬卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)茶葉病害圖像進(jìn)行識(shí)別和分類。通過(guò)對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分析后發(fā)現(xiàn),能夠?qū)崿F(xiàn)分類器訓(xùn)練與提取圖像特征的同時(shí)操作,促使識(shí)別精度得到了顯著提升。在操作期間,初始迭代次數(shù)為5萬(wàn),步長(zhǎng)則達(dá)到了100,所產(chǎn)生的學(xué)習(xí)率則可表示為千分之一。選擇不同的學(xué)習(xí)率進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表1。從表1中我們可以看出,當(dāng)?shù)綌?shù)為5萬(wàn),學(xué)習(xí)率為千分之一時(shí),
表1 不同學(xué)習(xí)速率下的實(shí)驗(yàn)精度(*表示采用丟棄機(jī)制)
通過(guò)進(jìn)行實(shí)驗(yàn)研究后,基于DCGAN網(wǎng)絡(luò)構(gòu)成相應(yīng)的茶葉病害圖像,經(jīng)過(guò)篩選與切割圖像之后,則可產(chǎn)生一定的圖像數(shù)據(jù)集。然后運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)模型識(shí)別分類茶葉病害圖像。通過(guò)隊(duì)學(xué)習(xí)速率、迭代步數(shù)的調(diào)整和Dropout機(jī)制的引入,最終達(dá)到了較高的識(shí)別精度,有助于茶葉病害的識(shí)別和分類。