謝福明 舒清態(tài) 字 李 吳 榮
( 西南林業(yè)大學(xué)林學(xué)院,云南 昆明 650224)
茶葉中的茶氨酸是茶葉和茶科植物特有的一種氨基酸,具有焦糖香和類似味精的鮮爽味,能消減咖啡堿和兒茶素引起的苦澀味,是茶葉的重要呈味物質(zhì),占茶葉游離氨基酸總量的50%以上[1-2]。氮素是合成蛋白質(zhì)和葉綠素的重要組成部分,并參與酶的合成,是對植物生長、產(chǎn)量和品質(zhì)影響較為顯著的營養(yǎng)元素之一,其含量高低對茶樹生長發(fā)育、礦質(zhì)元素吸收以及茶葉內(nèi)在化學(xué)成分的協(xié)調(diào)有重要影響[3]。通過對茶葉的光譜分析可以有效測定這些成分的含量[4]。遙感技術(shù)作為一種快速、宏觀的地表資源監(jiān)測技術(shù)手段,較之傳統(tǒng)的地面調(diào)查,具有客觀、無損以及實(shí)時(shí)獲取信息的優(yōu)勢。高光譜遙感技術(shù)的出現(xiàn)和發(fā)展,給植被參數(shù)的定量化反演帶來了新的機(jī)遇,高光譜遙感具有波段數(shù)量多,波段連線性好且分辨率較高等特性,能夠記錄作物葉片細(xì)微的生長變化,在目標(biāo)物的分類、甄別、相關(guān)特征信息提取等諸多方面有著巨大的優(yōu)勢,已被廣泛用于植被生化參數(shù)的提取、森林資源調(diào)查、農(nóng)業(yè)經(jīng)濟(jì)作物病蟲害監(jiān)測等方面[5]。高光譜數(shù)據(jù)中包含植被更豐富的光譜信息,這極大地提高了對植被物理參數(shù)如葉面積指數(shù)和生物量反演的精度,尤其是使原來難度較大的除色素如葉綠素外的其他植被生物化學(xué)參數(shù)的遙感反演成為可能[6]。Liang等[7]基于曲線擬合、人工神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林回歸模型,利用高光譜數(shù)據(jù)對作物的葉面積指數(shù)進(jìn)行估測,模型反演效果較好;Jacquemoud等[8]以干葉鮮葉作為研究對象通過收集光譜信息利用PROSPECT葉片光學(xué)模型估算了葉片的多種生化參數(shù);Kokaly等[9-10]利用光譜特征分析法來估測植被干葉片中氮、纖維素和木質(zhì)素的累積量,利用回歸分析方法選擇出吸收特征波段中心位置波長,并建立回歸方程估算其含量,結(jié)果表明該方法適于估算植被生化組分,同時(shí)可運(yùn)用于不同植被生化組分的估測;Luypaert等[11]基于偏最小二乘法,建立了綠茶兒茶素沒食子酸、總抗氧化能力及咖啡堿含量的近紅外光譜估測模型,該模型對咖啡堿含量的估測效果較好。然而基于高光譜技術(shù)的主要研究對象為小麥、水稻和玉米等常見作物的色素(如葉綠素)或物理參數(shù)(如葉面積指數(shù)),針對茶樹生化參數(shù)估測的研究較少。
云南普洱茶是指以符合普洱茶產(chǎn)地環(huán)境條件的云南大葉種曬青茶(Camellia sinensisvar.assamica)為原料,經(jīng)特殊固態(tài)發(fā)酵加工工藝生產(chǎn)而成的具有特定品質(zhì)特征的茶葉。本研究利用高光譜數(shù)據(jù),運(yùn)用統(tǒng)計(jì)法和遺傳算法優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)(GA_BPNN)模型研究云南西雙版納普洱茶葉片茶氨酸與氮素含量與高光譜數(shù)據(jù)的關(guān)系,并利用其相關(guān)性分別構(gòu)建茶氨酸含量與氮素含量的反演估測模型,以探索快速獲取茶葉生化參數(shù)含量的技術(shù),進(jìn)而預(yù)測其長勢、產(chǎn)量并鑒定茶葉品質(zhì),對未來深入研究普洱茶培育與精細(xì)經(jīng)營具有重要意義。
在云南省西雙版納傣族自治州勐臘縣勐侖鎮(zhèn)(地處東經(jīng) 101°18′13″,北緯 22°1′56″,海拔1200 m),選取長勢良好、無病蟲害具有代表性的普洱茶古茶樹作為研究對象對每株茶樹頂層、中層、下層葉片先進(jìn)行光譜測定后,分別采集每株茶樹頂層、中層、下層不同方位葉片帶回實(shí)驗(yàn)室作生化指標(biāo)測定分析。
1.2.1 光譜測定方法
采用田間葉片非離體狀態(tài)法對茶葉光譜數(shù)據(jù)進(jìn)行測定,所測葉片分別位于每株茶樹頂層、中層、中下層。選用10°光譜儀視場角,探頭垂直向下,與采集樣本的垂直距離約10~20 cm,每次采集數(shù)據(jù)前都要進(jìn)行1次標(biāo)準(zhǔn)的白板校正,并定時(shí)做系統(tǒng)優(yōu)化,每個(gè)樣本記錄10~15個(gè)光譜數(shù)據(jù),共計(jì)40個(gè)樣本。數(shù)據(jù)采集時(shí)間為2016年12月,氣壓879 hPa,天氣晴朗,風(fēng)速小。
高光譜采集儀為美國ASD Field Spec 3便攜式地物光譜儀,可獲取目標(biāo)地物在 350~2500 nm波長范圍內(nèi)的光譜數(shù)據(jù),其中350~1000 nm波段范圍內(nèi)光譜分辨率為3 nm,采樣間隔為1.4 nm;1500~2500 nm波段范圍內(nèi)光譜分辨率10 nm,采樣間隔為2 nm。
1.2.2 生化指標(biāo)測定方法
普洱茶葉片生化指標(biāo)含量的測定委托云南省分析檢測中心完成,檢測統(tǒng)計(jì)分析結(jié)果見表1。
表1 普洱茶葉片生化參數(shù)檢測結(jié)果統(tǒng)計(jì)Table 1 Detection results of biochemical parameters of Pu’er tea leaves
具體測定方法如下:
1)氮素含量測定:采用荷蘭Primacy SN杜馬斯定氮分析儀進(jìn)行氮含量的測定,其原理是使有機(jī)物在純氧環(huán)境下進(jìn)行高溫燃燒后通過氧化管和還原管使有機(jī)物中以不同形式存在的N定量的轉(zhuǎn)化為氮?dú)?,并將其分離出來,通過計(jì)算氮?dú)獾捏w積來推導(dǎo)有機(jī)物樣本中全氮的含量。
2)茶氨酸含量測定:依照國家標(biāo)準(zhǔn)(GB/T23193—2008)高效液相色譜法,在制備茶氨酸標(biāo)準(zhǔn)液后取10 μL凈化液進(jìn)行高效液相色譜分析,以絕對保留時(shí)間定性,用峰面積通過茶氨酸的標(biāo)準(zhǔn)曲線定量計(jì)算試樣中茶氨酸的含量。茶葉中茶氨酸含量的計(jì)算方法見式(1)[12]。
式中:X表示樣品中茶氨酸的含量(g/100 g),XC表示樣品濃度(mg/mL),V表示最終定容后樣品的體積(mL),m表示樣品的質(zhì)量(g)。
1.3.1 異常波段剔除
由于水汽吸收和系統(tǒng)誤差因素的影響,葉片波譜反射率在 1351~1400、1821~1950 nm 和2450~2500 nm波段范圍內(nèi)出現(xiàn)異常值,通過刪除這些波段的波譜反射率予以剔除。
1.3.2 均值化
植物體各種生化成分在葉片內(nèi)的分布是不均勻的,而且由于測量人員和環(huán)境的影響,同一葉片每次測量的光譜反射率數(shù)據(jù)都存在差異,故需要對每個(gè)葉片樣本所采集的光譜反射率數(shù)據(jù)進(jìn)行均值化處理,產(chǎn)生每一樣本的新波譜反射率數(shù)據(jù)。
1.3.3 平滑濾波
由地物光譜儀的光電探測系統(tǒng)采集到的光譜數(shù)字信號分為兩部分:探測器對地物響應(yīng)信號和系統(tǒng)噪聲。為消除噪聲在提取地物光譜信息時(shí)產(chǎn)生的干擾,本研究采用Savitaky-Golay(S-G)卷積平滑法對原始光譜中存在的許多“毛刺”噪聲進(jìn)行平滑處理,其參數(shù)設(shè)置為:多項(xiàng)式級數(shù)為2,窗口點(diǎn)數(shù)為25。平滑處理后效果見圖1。
圖1 預(yù)處理前后的普洱茶葉片光譜反射率Fig. 1 Spectral reflectance of Pu’er tea leaves before and after pretreatment
1.3.4 導(dǎo)數(shù)變換
在植被光譜分析中,導(dǎo)數(shù)變換可以消除不同程度的背景噪聲、提高不同吸收特征的對比度以及確定光譜彎曲點(diǎn)、最大值和最小值等光譜特征值[13],其計(jì)算方法見式(2)。此外,本研究還對光譜反射率進(jìn)行了對數(shù)運(yùn)算后的導(dǎo)數(shù)變換處理,以凸顯可見光區(qū)間內(nèi)的光譜差異,減小光照強(qiáng)度變化對反射率的影響,計(jì)算方法見式(3)。
式中:λi為波段i的波長;ρ(λi)為波段i的光譜反射率;Δλ為波長λi-1到波長λi的距離;
植物的光譜特性受到植物自身色素、水分、細(xì)胞結(jié)構(gòu)和植物干物質(zhì)的影響,隨著植物本身生理生化性質(zhì)的改變相對應(yīng)在可見光和近紅外區(qū)域特定范圍內(nèi)造成特定位置和面積大小的改變。本研究在這些變化區(qū)域內(nèi)提取基于位置、面積的光譜特征參數(shù)見表2。
表2 高光譜特征參數(shù)[1, 14]Table 2 Hyperspectral characteristic parameter
1974年,Werbos提出了BP(back-propagation)理論,為神經(jīng)網(wǎng)絡(luò)的發(fā)展奠定了基礎(chǔ);1986年,Rumellhart和McClelland提出了多層網(wǎng)絡(luò)學(xué)習(xí)的誤差反向傳播算法,即BP算法[15]。BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程可以描述如下[16]:工作信號從輸入層經(jīng)隱含單元,傳向輸出層,在輸出端產(chǎn)生輸出信號。在信號向前傳遞的過程中網(wǎng)絡(luò)的權(quán)值是固定不變的,每一層神經(jīng)元的狀態(tài)只影響下一層神經(jīng)元的狀態(tài)。如果在輸出層不能得到期望的輸出,則轉(zhuǎn)入誤差信號反向傳播,在誤差信號反向傳播的過程中,網(wǎng)絡(luò)的權(quán)值由誤差反饋進(jìn)行調(diào)節(jié),通過權(quán)值的不斷修正使網(wǎng)絡(luò)的實(shí)際輸出更接近期望輸出。雙隱含層的BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)見圖2,M為輸入層,I為第1隱含層,J為第2隱含層,P為輸出層。輸入層與第1隱含層間的突觸權(quán)值用wmi表示;第1隱含層與第2隱含層間的突觸用wij表示;第2隱含層與輸出層間的突觸權(quán)值用wjp表示。
傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的權(quán)值和閾值一般是通過隨機(jī)初始化為[-0.5, 0.5]區(qū)間的隨機(jī)數(shù),引入遺傳算法(GA)就是為了優(yōu)化出最佳的突觸權(quán)值和閾值。遺傳算法優(yōu)化權(quán)值或閾值(w)的過程如下:1)初始化:隨機(jī)生成大小為[初始化染色體群體個(gè)數(shù)npop,待優(yōu)化權(quán)值或閾值數(shù)nf]的數(shù)組作為初始化群體,運(yùn)用二進(jìn)制(0/1)對基因進(jìn)行編碼,并計(jì)算每一個(gè)染色體的適應(yīng)度(即預(yù)測誤差),用于對初始染色體及子代染色體選擇的評價(jià)指標(biāo);2)選擇:采用隨機(jī)遍歷采樣,根據(jù)自定義選擇概率ps將已有的優(yōu)良染色體復(fù)制后添入新染色體群體中,刪除劣質(zhì)染色體;3)交叉:利用交叉算子對染色體的基因編碼進(jìn)行重組,發(fā)生的概率為pc,通過交叉操作可以得到新一代染色體,子代的染色體組合了父輩的特性;4)變異:在染色體群體中隨機(jī)選擇一個(gè)個(gè)體,以pm概率隨機(jī)的改變其基因的編碼。本研究中遺傳算法調(diào)用Sheffield遺傳算法工具箱,其初始化參數(shù)分別設(shè)置為:初始化染色體群體個(gè)數(shù)npop:50,nf值取決于建模因子變量的個(gè)數(shù),遺傳迭代次數(shù)ngen:50,染色體選擇操作概率ps:0.95,染色體基因交叉操作概率pc:0.7,染色體變異操作概率Pm:0.01。
為準(zhǔn)確的估算出茶葉氮素和茶氨酸含量,在建立相關(guān)模型進(jìn)行預(yù)測的基礎(chǔ)上,還必須對各類模型進(jìn)行精度分析。本研究運(yùn)用國際上常用的2種評價(jià)指標(biāo)進(jìn)行檢驗(yàn):
1)決定系數(shù)(R2)。R2可表示實(shí)測值與預(yù)測值間的擬合程度,其取值范圍為0~1。決定系數(shù)越大,模型的精度就越高;反之,則模型的精度就越低。其計(jì)算方法見式(4)。
2)均方根誤差(RMSE)。RMSE的值相對越小,模型的精度就越高;反之,則模型精度就越低。其計(jì)算方法見式(5)。
不同生化參數(shù)與光譜變量間的相關(guān)性分析結(jié)果見圖3。
圖3 不同生化參數(shù)與光譜變量間的相關(guān)性Fig. 3 The correlation between content of theanine and spectral variables
2.1.1 氮素含量與光譜變量間的相關(guān)性
氮素含量與原始光譜反射率之間相關(guān)性弱,不存在0.05水平下顯著相關(guān)的波段。氮素含量與一階光譜反射率在可見光波段范圍內(nèi)(390~760 nm)存在近80個(gè)極顯著相關(guān)波段,在近紅外和遠(yuǎn)紅外波段范圍內(nèi)存在約11個(gè)極顯著相關(guān)波段,最大相關(guān)系數(shù)出現(xiàn)在波長為633 nm的位置上,相關(guān)系數(shù)為0.58(圖3a)。氮素含量與對數(shù)一階光譜反射率在可見光波段范圍內(nèi)存在76個(gè)極顯著相關(guān)波段,紅外波段存在4個(gè)極顯著相關(guān)的波段,最大相關(guān)系數(shù)也出現(xiàn)在波長為633 nm的位置上,相關(guān)系數(shù)為0.60(圖3c)。氮素含量與高光譜特征變量的相關(guān)性弱,只有1個(gè)極顯著相關(guān)的波段((ρg-ρr)/(ρg+ρr))和 2 個(gè)顯著相關(guān)的波段(Db和(SDr/SDb))(圖 3e)。
2.1.2 茶氨酸含量與光譜變量間的相關(guān)性
茶氨酸含量與原始反射率之間相關(guān)性較弱,不存在0.05水平下顯著相關(guān)的波段。茶氨酸含量與一階光譜反射率、對數(shù)一階光譜反射率在可見光波段范圍內(nèi)不存在顯著相關(guān)波段,在近紅外和遠(yuǎn)紅外波段范圍內(nèi)存在8個(gè)極顯著相關(guān)波段,最大相關(guān)系數(shù)出現(xiàn)在波長為997 nm的位置上,相關(guān)系數(shù)為0.57(圖3b和3d)。茶氨酸含量與高光譜特征變量存在3個(gè)顯著相關(guān)的變量,分別為和 (ρg-ρr)/(ρg+ρr)( 圖 3f)??傮w上,茶氨酸含量與各光譜變量之間的相關(guān)性較弱。
本研究中的BP神經(jīng)網(wǎng)絡(luò)及其優(yōu)化算法均在MATLAB R2015a軟件中編寫、運(yùn)行調(diào)試,主要函數(shù)有創(chuàng)建BP網(wǎng)絡(luò)函數(shù)newff()、訓(xùn)練網(wǎng)絡(luò)函數(shù)train()和仿真網(wǎng)絡(luò)函數(shù)sim(),網(wǎng)絡(luò)隱含層神經(jīng)元的傳遞函數(shù)采用S型正切函數(shù)tansing(),輸出層神經(jīng)遠(yuǎn)的傳遞函數(shù)采用S型對數(shù)函數(shù)logsig(),訓(xùn)練函數(shù)利用Levenberg-Marquardt算法對網(wǎng)絡(luò)進(jìn)行訓(xùn)練。將40個(gè)實(shí)測樣本數(shù)據(jù)按3∶1隨機(jī)分成兩部分:30個(gè)樣本用于訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)模型,10個(gè)樣本用于模型測試。模型特征變量的選擇上綜合了一階微分變量、對數(shù)一階微分變量和高光譜特征變量,從中篩選出了相關(guān)性相對較強(qiáng)的因子作為建模變量。在估測茶氨酸含量時(shí),選擇了相關(guān)性>0.4或<-0.4的變量作為建模因子,共計(jì)17個(gè);在估測氮素含量時(shí),選擇相關(guān)性>0.52或<-0.52的 變量作為建模因子,共計(jì)18個(gè),詳見表3。
表3 茶氨酸和氮素含量估測建模變量Table 3 The feature variables of estimation model for theanine and nitrogen content
采用GA_BPNN模型,以提高對普洱茶茶葉生化參數(shù)含量的估測精度是本研究的核心內(nèi)容之一。BP神經(jīng)網(wǎng)絡(luò)模型優(yōu)化前后估測精度對比見圖4。
圖4 BP神經(jīng)網(wǎng)絡(luò)模型優(yōu)化前后估測精度對比Fig. 4 Comparison of estimation accuracy before and after BP Neural Network Model optimization
由圖4可知,基于BP神經(jīng)網(wǎng)絡(luò)模型的氮素含量估測中,優(yōu)化前RMSE為0.61 g/kg,R2等于0.60,GA優(yōu)化后RMSE為0.36 g/kg,R2等于0.88?;贐P神經(jīng)網(wǎng)絡(luò)模型的茶氨酸含量估測中,優(yōu)化前RMSE為0.24 mg/g,R2等于0.51,GA優(yōu)化后RMSE為0.21 mg/g,R2等于0.73。遺傳算法優(yōu)化后的BP神經(jīng)網(wǎng)絡(luò)模型對普洱茶葉片生化指標(biāo)含量的估測精度得到了提高,茶氨酸含量和氮素含量的估測均方根誤差分別降低了13%和41%,R2的值均提高了0.2以上。
本次測定葉片樣本從采集地到實(shí)驗(yàn)室的運(yùn)輸過程中,雖然對其采用了1 ℃的低溫保鮮處理,但對葉片自生的呼吸作用抑制有限,使得葉片內(nèi)各種化學(xué)成分發(fā)生轉(zhuǎn)化以及有效成分的分解,造成了部分決定茶葉功效的成分含量的變動(dòng)。所以,尋求可行且效果優(yōu)良的茶鮮葉儲樣手段可以有效保存鮮葉內(nèi)的功效成分,對整個(gè)茶產(chǎn)業(yè)鏈與茶葉相關(guān)的科學(xué)研究有重要的意義。
高光譜數(shù)據(jù)所包含的信息量是巨大的,對高光譜數(shù)據(jù)的分析方法也多種多樣。如何從海量的混合信息中提取針對茶氨酸或氮素等特定影響因子敏感的光譜參數(shù),一直都是高光譜數(shù)據(jù)反演的重點(diǎn)難點(diǎn)。在高光譜數(shù)據(jù)的挖掘方面還有待深入和加強(qiáng),嘗試使用深度學(xué)習(xí)等機(jī)器學(xué)習(xí)方法對數(shù)據(jù)進(jìn)行建模分析。
本研究所采用的反演模型是基于統(tǒng)計(jì)的經(jīng)驗(yàn)?zāi)P头囱?,模型非常依賴于建模?shù)據(jù),對于不同地區(qū)、不同條件下獲取的數(shù)據(jù),需要重新擬合并對模型進(jìn)行調(diào)整才能使用。后續(xù)的研究中考慮結(jié)合輻射傳輸模型和二向反射等物理方法建立混合模型,以提高模型的適用性。
本研究利用ASD地物高光譜儀采集普洱茶茶樹葉片的高光譜特征,結(jié)合實(shí)驗(yàn)室測定的茶葉茶氨酸含量和氮素含量,對原始高光譜數(shù)據(jù)進(jìn)行一階導(dǎo)數(shù)變換、對數(shù)運(yùn)算后一階導(dǎo)數(shù)變換以及高光譜特征參數(shù)提取后分別與茶葉氮素含量和茶氨酸含量進(jìn)行了相關(guān)分析,建立了估測茶葉生化參數(shù)含量的優(yōu)化BP神經(jīng)網(wǎng)絡(luò)模型,并對模型精度進(jìn)行了檢驗(yàn),主要結(jié)論如下:
1)茶葉生化參數(shù)含量與高光譜原始反射率之間不存在顯著相關(guān)性;氮素含量與導(dǎo)數(shù)變換后的光譜反射率在可見光波段范圍內(nèi)有較強(qiáng)的相關(guān)性,在近紅外波段和遠(yuǎn)紅外波段范圍內(nèi)存在相關(guān)性的波段較少;茶氨酸含量在可見光波段范圍內(nèi)沒有與之顯著相關(guān)的波段,在近紅外與遠(yuǎn)紅外波段存在少數(shù);對于高光譜特征變量,與氮素含量存在顯著相關(guān)性的波段有 (ρg-ρr)/(ρg+ρr)、Db和(SDr/SDb),與茶氨酸含量存在顯著相關(guān)性的波段有λr、 (SDr-SDy)/(SDr+SDy)和 (ρg-ρr)/(ρg+ρr)。
2)基于遺傳算法優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)模型對普洱茶葉片生化參數(shù)的估測精度高于普通的BP神經(jīng)網(wǎng)絡(luò)模型:茶氨酸含量估測精度RMSE為0.21 mg/g,R2為0.73;氮素含量估測精度RMSE為0.36 g/kg,R2等于0.88。