黃 超,廖玉芳,蔣元華,彭嘉棟
(湖南省氣候中心,湖南 長(zhǎng)沙 410008)
油茶是我國(guó)特有的木本食用油料樹(shù)種,具有重要的經(jīng)濟(jì)效益[1]。湖南是全國(guó)第一油茶大省,其經(jīng)濟(jì)效益對(duì)湖南農(nóng)業(yè)經(jīng)濟(jì)發(fā)展具有重要現(xiàn)實(shí)意義。油茶同所有露天生產(chǎn)的農(nóng)作物相似,氣象因素與其生長(zhǎng)密切相關(guān)[2-4]。開(kāi)展基于氣象因子與油茶含油率的相關(guān)研究對(duì)進(jìn)一步提高油茶品質(zhì)有很大的實(shí)用價(jià)值。
隨著油茶種植技術(shù)發(fā)展,油茶種植的關(guān)注點(diǎn)已經(jīng)開(kāi)始從高產(chǎn)過(guò)渡到高品質(zhì)。油茶品質(zhì)主要由含油率、油茶籽脂肪酸組成以及加工技術(shù)等方面決定[5-8]。目前關(guān)于油茶含油率的研究多集中在品種選優(yōu)以及培育技術(shù)方面,氣象因子對(duì)油茶含油率影響的研究相對(duì)較少,而油茶生長(zhǎng)期的氣象條件與其含油率密切相關(guān)。余優(yōu)森等[9]認(rèn)為油茶含油率與果實(shí)膨大期和油脂轉(zhuǎn)化積累期的氣溫、降水和日照時(shí)數(shù)相關(guān)。黎章矩等[10]研究表明,8~9月積溫與茶籽出油率呈顯著負(fù)相關(guān)。此外,油茶籽存儲(chǔ)時(shí)的溫濕條件以及采后處理也對(duì)其脂肪含量有一定的影響[11-12]。盡管前人的研究取得了一定的進(jìn)展,但氣象因子對(duì)油茶含油率的影響還不十分明確,需要進(jìn)一步探索。
一般而言,在挑選重要影響因子時(shí)相關(guān)分析和逐步回歸分析是常用統(tǒng)計(jì)方法,但在使用過(guò)程中會(huì)存在一定缺點(diǎn),例如逐步回歸分析在挑選因子過(guò)程中很難選取到最優(yōu)的因子組合[13]。隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,新技術(shù)在一定程度上能夠避免這些缺陷[14];決策樹(shù)算法便是其中一種,該方法屬于非線性統(tǒng)計(jì)方法,它能從大量數(shù)據(jù)中識(shí)別有用的規(guī)律,能夠自動(dòng)挑選關(guān)鍵因子,客觀反映自變量與因變量間的相關(guān)關(guān)系;相比于其他數(shù)據(jù)挖掘算法,決策樹(shù)最大的優(yōu)勢(shì)在于其屬于白箱模型,計(jì)算過(guò)程可見(jiàn),結(jié)果易解釋[15-17]。
本研究以湖南省為例,采用決策樹(shù)算法中的分類與回歸樹(shù)算法(CART)對(duì)影響油茶種子含油率的關(guān)鍵氣象因子進(jìn)行分析,研究氣象因子與油茶品質(zhì)間的相關(guān)關(guān)系,為高品質(zhì)油茶培育作參考。
氣象數(shù)據(jù)來(lái)自湖南省97個(gè)地面氣象觀測(cè)站2009~2017年的觀測(cè)資料。
油茶種子含油率資料來(lái)自湖南省林業(yè)研究科學(xué)院2009~2017年湖南省23個(gè)縣市的41塊油茶樣地,共計(jì)121個(gè)樣本數(shù)據(jù)。油茶品種多為普通油茶、湘林1號(hào)、湘林110號(hào)、湘林210號(hào)等。樣本數(shù)據(jù)主要包含鮮果出鮮籽率、鮮籽個(gè)數(shù)、鮮果出干籽率、干籽含油率等要素。油茶種子含油率計(jì)算公式為:種子含油率(%)=鮮果出干籽率×干籽含油率×100%。
氣象因子集主要包含氣溫、降水、日照等類別共42個(gè)氣象因子(表1)。
表1 氣象因子集
根據(jù)油茶生長(zhǎng)特點(diǎn)以及之前的研究成果,將可能影響油茶種子含油率的時(shí)間段劃分為果實(shí)第一次膨大期、果實(shí)膨大高峰期、油脂轉(zhuǎn)化和積累高峰期、果實(shí)成熟期、采后處理期、當(dāng)年6個(gè)。在建模時(shí),首先將所有數(shù)據(jù)合并為一個(gè)數(shù)據(jù)集,然后對(duì)關(guān)鍵期不做區(qū)分,將果實(shí)第一次膨大期、果實(shí)膨大高峰期、油脂轉(zhuǎn)化和積累高峰期、果實(shí)成熟期及其關(guān)鍵期分別合并為一個(gè)數(shù)據(jù)集,最后將采后處理期、當(dāng)年單獨(dú)作為兩個(gè)數(shù)據(jù)集,一共構(gòu)成7個(gè)數(shù)據(jù)集(表2)。
以縣級(jí)區(qū)域?yàn)閱挝?,基于樣地?cái)?shù)據(jù)求各地區(qū)含油率的平均值,得到圖1。從圖1中可以看出,湘東地區(qū)的油茶含油率普遍高于湘西地帶,且高含油率的油茶主要分布在湘東北和湘東南區(qū)域。
圖2是2009~2017年油茶樣地種子含油率的箱式圖以及平均值折線圖。從圖2中可以看出,湖南油茶種子含油率平均值在6%左右,含油率較高的年份為2014、2015年,這兩年湖南省氣溫和降水均接近歷年平均值,影響油茶的氣象災(zāi)害較少,適宜油茶生長(zhǎng);而2011年和2013年湖南油茶含油率整體偏低,可能是由當(dāng)年油茶油脂轉(zhuǎn)化和積累高峰期(7至9月份)大范圍嚴(yán)重干旱造成的。
將氣象因子作為自變量,種子含油率作為因變量,采用CART算法進(jìn)行建模。為防止模型過(guò)擬合,以總樣本量的5%作為決策樹(shù)葉節(jié)點(diǎn)分裂終止條件,同時(shí)采用后剪枝策略并限定決策樹(shù)最大深度為5,當(dāng)決策樹(shù)停止分裂時(shí),將所有葉節(jié)點(diǎn)作為入選的氣象因子,最終得到?jīng)Q策樹(shù)(圖3)。
表2 湖南油茶物候期時(shí)間段及名稱
“+”表示該地區(qū)連續(xù)數(shù)據(jù)的平均值,“圈”表示該地區(qū)僅1年的數(shù)據(jù)。
圖2 湖南省2009~2017年油茶樣地種子含油率箱式圖和平均值折線
決策樹(shù)模型形式直觀,符合人們邏輯判斷的思維方式。從圖3可以發(fā)現(xiàn),根節(jié)點(diǎn)為油脂轉(zhuǎn)化和積累高峰期20 ℃以上活動(dòng)積溫,也就是說(shuō),該屬性對(duì)于油茶種子含油率的影響最為關(guān)鍵。在模型中,每從根節(jié)點(diǎn)(油脂轉(zhuǎn)化和積累高峰期20 ℃以上活動(dòng)積溫) 到一個(gè)葉節(jié)點(diǎn)都可以抽象為一條If…then 形式的決策規(guī)則,眾多規(guī)則形成決策規(guī)則集(表3)。
決策樹(shù)模型的整體平均相對(duì)誤差為18.2%,平均絕對(duì)偏差為0.905%,逐步回歸模型的平均相對(duì)誤差為22.1%,平均絕對(duì)偏差為1.127%,決策樹(shù)的模擬性能更好。圖4是模型的含油率擬合曲線,由于模型以分類樣本平均值作為結(jié)果輸出,因此模型對(duì)種子含油率趨勢(shì)模擬效果較好,但對(duì)偏離平均值距離較大的樣本模擬效果一般。
圖3 基于所有氣象指標(biāo)建模的油茶種子含油率擬合模型
從氣象因子與種子含油率的相關(guān)分析可以看出(表4),決策樹(shù)模型挑選的因子均與種子含油率有較高相關(guān)性。油脂轉(zhuǎn)化和積累高峰期20 ℃以上活動(dòng)積溫在決策樹(shù)模型中是最重要因子,其與含油率呈顯著正相關(guān),這是因?yàn)榛顒?dòng)積溫與脂肪酶活性相關(guān),能促進(jìn)油脂合成。果實(shí)膨大高峰期果實(shí)生長(zhǎng)需要大量的水分,在決策樹(shù)模型中1 mm以上降水日數(shù)和降水量是重要的決策因子,與含油率具有顯著正相關(guān)。油茶整個(gè)生長(zhǎng)期需要雨量充沛均勻,氣溫適宜,在模型中對(duì)應(yīng)因子為當(dāng)年平均最低氣溫和當(dāng)年25 mm以上降水日數(shù)。
表3 CART算法對(duì)影響湖南油菜種子含油率的氣象因子診斷規(guī)則集
圖4 基于所有氣象指標(biāo)的模型對(duì)油菜種子含油率的擬合曲線
表4 入選模型的氣象因子與種子含油率間相關(guān)系數(shù)
注:*表示通過(guò)置信度0.05水平的顯著性檢驗(yàn)。下同。
將果實(shí)第一次膨大期、果實(shí)膨大高峰期、油脂轉(zhuǎn)化和積累高峰期、果實(shí)成熟期的關(guān)鍵時(shí)間段和其對(duì)應(yīng)時(shí)間段的數(shù)據(jù)分別合并成一個(gè)數(shù)據(jù)集進(jìn)行建模,得到各個(gè)物候期時(shí)間段的擬合模型。從各個(gè)時(shí)間段模型的平均相對(duì)誤差和平均絕對(duì)誤差(圖5)來(lái)看,各時(shí)間段的模型對(duì)種子含油率模擬的平均絕對(duì)偏差在0.905%~1.241%,均小于種子含油率數(shù)據(jù)的標(biāo)準(zhǔn)差(1.8);平均相對(duì)誤差在22.9%~25.4%,比逐步回歸模型的平均絕對(duì)偏差(1.127%~1.337%)和平均相對(duì)誤差(25.3%~35.1%)效果更好。其中基于當(dāng)年數(shù)據(jù)建立的模型誤差最小,其次為果實(shí)膨大高峰期、果實(shí)第一次膨大期、油脂轉(zhuǎn)化和累積高峰期、果實(shí)成熟期、采后處理期。由此也可以看出,油茶結(jié)果當(dāng)年時(shí)段的氣象因子對(duì)油茶種子含油率均有影響,從油茶物候期來(lái)看,果實(shí)膨大高峰期的氣象條件對(duì)油茶種子含油率的擬合效果最好。
圖5 各時(shí)間段模型的平均相對(duì)誤差和平均絕對(duì)偏差
決策樹(shù)挑選因子所在位置決定了該因子的重要程度,從各個(gè)時(shí)間段模型挑選的氣象因子(表5)可以看出,果實(shí)第一次膨大期最重要的氣象因子是15 ℃以上活動(dòng)積溫,果實(shí)膨大高峰期、油脂轉(zhuǎn)化和積累高峰期、果實(shí)成熟期、采后處理期最重要的氣象因子分別為極端最高氣溫、20 ℃以上活動(dòng)積溫、最長(zhǎng)連續(xù)無(wú)降水日數(shù)和降水日數(shù),而油茶結(jié)果年全年時(shí)間段最重要的氣象因子是極端最高氣溫。
表5 各時(shí)間段模型挑選的氣象因子
本研究使用CART決策樹(shù)方法對(duì)油茶種子含油率與各個(gè)時(shí)間段的氣象因子進(jìn)行診斷分析,得出以下結(jié)果:
(1)基于所有時(shí)間段的氣象因子建立的決策樹(shù)模型擬合平均相對(duì)誤差為18.2%,模型將油脂轉(zhuǎn)化和積累高峰期20 ℃以上活動(dòng)積溫作為最重要的決策因子。
(2)對(duì)不同時(shí)間段氣象因子分別建模,平均相對(duì)誤差在22.9%~25.4%?;诋?dāng)年數(shù)據(jù)建立的模型誤差最小,其次為果實(shí)膨大高峰期、果實(shí)第一次膨大期、油脂轉(zhuǎn)化和累積高峰期、果實(shí)成熟期、采后處理期。因此,油茶結(jié)果當(dāng)年的氣象因子對(duì)油茶種子含油率均有影響,果實(shí)膨大高峰期的氣象條件能更好地反映油茶的種子含油率。
(3)對(duì)各個(gè)時(shí)間段分別建模得出,果實(shí)第一次膨大期最重要的氣象因子是15 ℃以上活動(dòng)積溫,果實(shí)膨大高峰期、油脂轉(zhuǎn)化和積累高峰期、果實(shí)成熟期、采后處理期最重要的氣象因子分別為極端最高氣溫、20 ℃以上活動(dòng)積溫、最長(zhǎng)連續(xù)無(wú)降水日數(shù)和降水日數(shù),而油茶結(jié)果年全年時(shí)間段最重要的氣象因子是極端最高氣溫。