黃勁潮
(龍巖學(xué)院 繼續(xù)教育學(xué)院,福建 龍巖 364000)
基于廣義回歸神經(jīng)網(wǎng)絡(luò)的薄荷屬植物的分類識(shí)別
黃勁潮
(龍巖學(xué)院 繼續(xù)教育學(xué)院,福建 龍巖 364000)
薄荷屬植物易雜交以致多型性現(xiàn)象嚴(yán)重,對(duì)于薄荷屬植物的分類主要采用分類檢索表法或數(shù)量分類法等,但這些方法花費(fèi)的時(shí)間與物力較大。選取了薄荷屬植物類別區(qū)分的一些強(qiáng)相關(guān)屬性作為訓(xùn)練組,構(gòu)建了廣義回歸神經(jīng)網(wǎng)絡(luò)來對(duì)薄荷屬植物進(jìn)行分類、識(shí)別,在保證準(zhǔn)確度的同時(shí)也兼顧了識(shí)別的速度。同時(shí),該模型也可用來識(shí)別薄荷屬植物的某種屬性是否與類別區(qū)分強(qiáng)相關(guān)。
GRNN;薄荷屬;分類;識(shí)別
薄荷屬植物在我國(guó)分布廣泛,由于其易雜交以致多型性現(xiàn)象嚴(yán)重。對(duì)于薄荷屬植物的分類和識(shí)別,不僅有助于了解薄荷屬植物的親緣關(guān)系,對(duì)于農(nóng)業(yè)生產(chǎn)和植物學(xué)來說也是必不可少的工作。目前對(duì)于各種不同的薄荷品種,主要使用分類檢索表法作為鑒定方法[1];房海靈提出一種可以利用數(shù)量分類學(xué)對(duì)薄荷屬植物分類進(jìn)行研究的方法[2]。但這些方法都存在花費(fèi)時(shí)間較多,需要投入大量的財(cái)力物力的缺點(diǎn)。
本文采用有導(dǎo)師學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中的廣義回歸神經(jīng)網(wǎng)絡(luò)(GRNN)來對(duì)薄荷屬植物進(jìn)行分類和識(shí)別。廣義回歸神經(jīng)網(wǎng)絡(luò)作為一種有導(dǎo)師學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),它具有非常好的學(xué)習(xí)能力。因此它被應(yīng)用于許多領(lǐng)域中,研究者多用它來解決擬合回歸問題,實(shí)際上它也可以用于模式識(shí)別、分類識(shí)別[3]。
1.1 廣義回歸神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
廣義回歸神經(jīng)網(wǎng)絡(luò)由Specht提出的,它是一種基于非線性回歸理論的前饋式神經(jīng)網(wǎng)絡(luò)模型。廣義回歸神經(jīng)網(wǎng)絡(luò)來源于RBF神經(jīng)網(wǎng)絡(luò),是它的一個(gè)分支[4]。
廣義回歸神經(jīng)網(wǎng)絡(luò)和一般的RBF神經(jīng)網(wǎng)絡(luò)一樣由輸入層、隱含層和輸出層組成,它的結(jié)構(gòu)如圖1所示。輸入層的工作是把樣本數(shù)據(jù)輸入到中間層隱含層,在輸入層不進(jìn)行運(yùn)算。在中間層擁有和訓(xùn)練集合樣本數(shù)一樣多的神經(jīng)元節(jié),它使用歐氏距離函數(shù)作為權(quán)值函數(shù)(記做||dist||),權(quán)值函數(shù)可以計(jì)算出輸入層權(quán)值IW1,1與神經(jīng)網(wǎng)絡(luò)輸入值之間的距離,其中,隱含層的閥值是b1。第二層采用徑向基函數(shù)(一般采用高斯函數(shù))作為傳遞函數(shù)。神經(jīng)網(wǎng)絡(luò)第三層是輸出層,它是線性的。輸出層采用規(guī)范化點(diǎn)積權(quán)函數(shù)(nprod)作為它的權(quán)函數(shù),并使用向量n2來計(jì)算網(wǎng)絡(luò),它使用向量al和權(quán)值矩陣LW2,1每行元素的點(diǎn)積再除以向量al的各元素之和得到的了元素,并將算出的向量n2輸出給線性傳遞函數(shù)
最終得到神經(jīng)網(wǎng)絡(luò)的輸出值[4]。
圖1 廣義回歸神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
1.2 廣義回歸神經(jīng)網(wǎng)絡(luò)算法結(jié)構(gòu)
廣義回歸神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法從結(jié)構(gòu)上看,與RBF神經(jīng)算法比較相似,主要區(qū)別在于第三層輸出層。下面給出廣義回歸神經(jīng)網(wǎng)絡(luò)算法與實(shí)現(xiàn)步驟。
1.2.1 確定第二層隱含層神經(jīng)元的徑向基函數(shù)中心
不失去一般性意義,假設(shè)使用的訓(xùn)練集樣本輸入矩陣I和輸出矩陣O如下
在式(1)中,iab代表著第b個(gè)訓(xùn)練樣本的第a個(gè)輸入變量;而oab代表了第b個(gè)訓(xùn)練樣本的第a個(gè)輸出變量;C代表輸入變量的維數(shù);D代表輸出變量的維數(shù);Q為訓(xùn)練集含有的樣本數(shù)量。
GRNN的第二層隱含層擁有和訓(xùn)練集合樣本數(shù)一樣多的神經(jīng)元節(jié),即如果有Q個(gè)隱含層神經(jīng)元,那么徑向基函數(shù)中心為
1.2.2 確定第二層隱含層的神經(jīng)元閾值
如果有Q個(gè)隱含層神經(jīng)元,那么相應(yīng)的神經(jīng)元閾值為
在式(3)中,
spread代表了徑向基函數(shù)的展開速度。
1.2.3 確定第二層與第三層之間權(quán)值
當(dāng)1、2步驟中的第二層中的神經(jīng)元的徑向基函數(shù)中心及神經(jīng)元閾值確定后,二層神經(jīng)元節(jié)的輸出輸出便如式(4):
其中,oi=[oa1,oa2,…,oaR]代表了第a個(gè)訓(xùn)練樣本矢量。
并記
廣義回歸神經(jīng)網(wǎng)絡(luò)中二層到與三層間的連接權(quán)重值w取為訓(xùn)練集的輸出矩陣,如式(5):
1.2.4 確定第三層輸出層神經(jīng)元節(jié)點(diǎn)輸出值
當(dāng)步驟3中的二層到三層的連接權(quán)值確定后,根據(jù)圖1結(jié)構(gòu)圖,就可以確定第三層神經(jīng)元節(jié)點(diǎn)的輸出值,如式(6):
1.3 廣義回歸神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)
廣義回歸神經(jīng)網(wǎng)絡(luò)比起傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò),具有如下優(yōu)點(diǎn):
神經(jīng)網(wǎng)絡(luò)不需要迭代,只要單向訓(xùn)練就可以。
隱含層擁有和訓(xùn)練集合樣本數(shù)一樣多的神經(jīng)元節(jié),意味著神經(jīng)元節(jié)數(shù)量由訓(xùn)練樣本集數(shù)量自行確定。
神經(jīng)網(wǎng)絡(luò)不同層間權(quán)重值由訓(xùn)練樣本集確定,不用像BP網(wǎng)絡(luò)那樣每次迭代后再修改權(quán)值。
第二層節(jié)點(diǎn)的激活函數(shù)一般使用高斯函數(shù),它對(duì)輸入層輸入信息有局部激活特效。他的特點(diǎn)是如果輸入相似于局部神經(jīng)元節(jié)的特征的輸入值吸引力特別強(qiáng)。
1.4 GRNN的MATLAB工具箱函數(shù)
函數(shù)newgrnn用于創(chuàng)建一個(gè)GRNN,其調(diào)用格式如下:
其中,P為網(wǎng)絡(luò)輸入向量;T為網(wǎng)絡(luò)目標(biāo)向量;spread代表了徑向基函數(shù)的展開速度(默認(rèn)為1.0);net為創(chuàng)建好的GRNN。
2.1 思路步驟
本文從下列兩個(gè)方面對(duì)薄荷屬的分類進(jìn)行研究:
(1)利用GRNN建立薄荷識(shí)別模型,并對(duì)模型的性能進(jìn)行評(píng)價(jià)。
(2)利用GRNN建立薄荷不同屬性及不同屬性組合與薄荷種類間的識(shí)別模型,并與(1)式中所建模型的進(jìn)行比較,可以識(shí)別薄荷屬植物的某種屬性是否與類別區(qū)分強(qiáng)相關(guān)。
實(shí)現(xiàn)GRNN的模型建立及性能評(píng)價(jià),大體上可以分為以下幾個(gè)步驟,如2所示。
圖2 GRNN建模步驟
2.2 生成訓(xùn)練集與測(cè)試集
薄荷屬?gòu)耐庥^上看,主要區(qū)別在于它的葉片。薄荷葉片的顏色、形狀會(huì)隨著不同的生長(zhǎng)期而有所不同,但在相同生長(zhǎng)期的同類別(紫莖、青莖)之間,差異不大[5]。最終我們挑選了種植較廣的三種薄荷作為訓(xùn)練樣本:日本薄荷Marvensis、椒樣薄荷M.piperita、留蘭香薄荷Mspicata;同時(shí)我們選擇樣本葉片外觀區(qū)別較為明顯的四種屬性:葉片形狀、葉片顏色、葉片長(zhǎng)度和葉片寬度作為輸入樣本屬性。
現(xiàn)采集到150組不同類型薄荷(三種薄荷各50組)葉片的4種屬性:形狀、顏色、長(zhǎng)度和寬度,樣本編號(hào)與4種屬性的關(guān)系如圖3所示(其中,樣本編號(hào)1-50為Marvensis,51-100為M.piperita,101-150為Mspicata)。根據(jù)圖1點(diǎn)的排列分布,可以直觀看出葉片形狀、長(zhǎng)度、寬度三圖中不同薄荷類型間有較好的線性關(guān)系,而葉片顏色不同薄荷類型間呈現(xiàn)出非線性的關(guān)系。
圖3 四種屬性與樣本編號(hào)
不失去一般性意義,這里采用隨機(jī)法產(chǎn)生訓(xùn)練集與測(cè)試集。如前文所述,iris-data.Mat數(shù)據(jù)文件中包含兩個(gè)變量:features和classes,分別對(duì)應(yīng)薄荷的屬性及類別。在各個(gè)類別的50個(gè)樣本中分別隨機(jī)選取40個(gè)樣本(三類共120個(gè))構(gòu)成訓(xùn)練集,剩余的10個(gè)樣本(三類共30個(gè))作為測(cè)試集。
2.3 建立模型
產(chǎn)生訓(xùn)練集及測(cè)試集后,利用MATLAB自帶的神經(jīng)網(wǎng)絡(luò)工具箱函數(shù)newgrnn,進(jìn)行GRNN創(chuàng)建及仿真測(cè)試。具體程序如下:
2.4 性能評(píng)價(jià)
模型建立及仿真測(cè)試后,通過計(jì)算測(cè)試集的預(yù)測(cè)正確率以及程序運(yùn)行時(shí)間,便可以對(duì)模型的性能進(jìn)行綜合評(píng)價(jià)。
其中result-grnn為30行10列的矩陣,對(duì)應(yīng)表1中的10個(gè)模型。
表1 十個(gè)模型的輸入變量
其中,“○”標(biāo)示對(duì)應(yīng)的輸入屬性參與模型的建立。
2.5 結(jié)果分析
由于訓(xùn)練集和測(cè)試集是隨機(jī)產(chǎn)生的,因此每次運(yùn)行時(shí)的結(jié)果亦會(huì)有所不同。圖4、圖5所示為某次程序運(yùn)行所得結(jié)果。從圖4可以發(fā)現(xiàn),GRNN模型30次預(yù)測(cè),27次命中,測(cè)試集預(yù)測(cè)正確率達(dá)90.0%,具有良好的泛化能力。從圖5看出,GRNN 10個(gè)模型的平運(yùn)行時(shí)間在50 ms左右,速度較快。
如表1所列,利用4個(gè)屬性(葉片形狀、葉片顏色、葉片長(zhǎng)度、葉片寬度)建立的模型編號(hào)分別為1、5、8、10。表2描述了與之對(duì)應(yīng)的GRNN模型的測(cè)試集正確率。
圖4 測(cè)試集預(yù)測(cè)結(jié)果
圖5 十個(gè)模型運(yùn)行時(shí)間
表2 四屬性分布建立的模型測(cè)試集正確率
由表2中可以看出,葉片顏色單獨(dú)建立的GRNN模型(模型編號(hào)為5)性能不佳,正確率只有36.7%;用葉片形狀、葉片寬度和葉片長(zhǎng)度單獨(dú)建立的GRNN型(模型編號(hào)分別為1、8和10)性能較好,正確率分別達(dá)90.0%、76.7%和93.3%。這表明葉片顏色與薄荷類別的相關(guān)性較小,而葉片形狀、葉片寬度和葉片長(zhǎng)度與薄荷類別的相關(guān)性較大,該結(jié)論與圖3中呈現(xiàn)的規(guī)律一致。
GRNN具有良好的泛化性能,其權(quán)值和閾值由訓(xùn)練樣本一步確定,無須迭代,計(jì)算量小。本文首先參考文獻(xiàn),選取了150組薄荷屬植物(3種不同的薄荷各50組)的4種屬性:葉片形狀、葉片顏色、葉片長(zhǎng)度和葉片寬度,作為構(gòu)建GRNN神經(jīng)網(wǎng)絡(luò)的訓(xùn)練與測(cè)試樣本,建立了基于GRNN的薄荷屬種類識(shí)別模型,進(jìn)一步對(duì)薄荷屬植物進(jìn)行分類;同時(shí)建立了各個(gè)屬性及屬性組合與薄荷屬類的識(shí)別模型,探求各個(gè)屬性及屬性組合與薄荷屬種類的相關(guān)程度。得到構(gòu)建后的GRNN模型與薄荷屬植物強(qiáng)相關(guān)屬性或?qū)傩越M合后,只需要對(duì)新的薄荷屬植物測(cè)量該強(qiáng)相關(guān)屬性組合值,就可以較為準(zhǔn)確的對(duì)新植物進(jìn)行識(shí)別。
應(yīng)當(dāng)看到,作為訓(xùn)練組所選取的薄荷的種類數(shù)量、樣本組數(shù)、強(qiáng)相關(guān)屬性越多,構(gòu)建出的GRNN模型預(yù)測(cè)的精度越高。同時(shí),該模型也可作為篩選薄荷屬植物強(qiáng)相關(guān)屬性的一種方法。
[1] 樂云辰.薄荷屬不同植物品種遺傳關(guān)系分析[D].上海:上海交通大學(xué),2008.
[2] 房海靈.薄荷屬植物的數(shù)量分類[J].安徽農(nóng)業(yè)科學(xué),2007,35 (26):8181-8183.
[3] 史峰,王輝,胡斐,郁磊.MATLAB智能算法30個(gè)案例分析[M].北京航空航天大學(xué)出版社,2011.
[4] 裴亞丹.基于多目視覺的適境計(jì)算理論研究.[D].北京:北京交通大學(xué),2012.
[5] 張永清,劉合剛.藥用植物栽培學(xué)[M].北京:中國(guó)中醫(yī)藥出版社, 2013:372-380.
(責(zé)任編輯、校對(duì):田敬軍)
Classification and Recognition of Mentha Based On the Generalized Regression Neural Network
HUANG Jin-Chao
(College of Continuing Education, Longyan University, Longyan 364000, China)
Mentha is easily to hybrid that polymorphism phenomenon is serious, therefore, the classification of Mentha mainly uses classification method or the number of classification and so on, but it spends a lot of time and effort of these methods. This paper selects some strong related attributes of plant category distinctions of Mentha as the training set, constructs the Generalized Regression Neural Network with mentors to classify and recognize Mentha, and ensures the accuracy and the recognition speed. At the same time, the model can also be used to tell whether some certain attribute of Mint is strongly related with classification recognition or not.
GRNN; Mentha; classification; recognition
TP301.6
A
1009-9115(2015)02-0045-04
10.3969/j.issn.1009-9115.2015.02.014
龍巖學(xué)院校立服務(wù)海西項(xiàng)目(lyxy2011057)
2014-07-17
黃勁潮(1980-),男,福建莆田人,碩士,講師,研究方向?yàn)閿?shù)據(jù)庫(kù)、算法、網(wǎng)絡(luò)安全。