張興偉, 陳超, 田姍, 付琳
(成都信息工程大學, 成都 610225)
物候現(xiàn)象是生物節(jié)律與環(huán)境條件的綜合反映。從氣象條件來說,它不僅反映了當天的天氣,而且反映了過去一段時間氣象條件的累積情況[1]。始花期預測正是基于這一理論而開展的研究。休眠是植物在生長過程中形成的一種對環(huán)境和季節(jié)性氣候變化的生物學適應[2],是植物發(fā)育中的周期性過程。休眠不僅可以使果樹度過寒冬,而且也是落葉果樹下一年正常開花結(jié)果必需經(jīng)歷的一個過程[3]。果樹生長過程中,當溫度降低時落葉果樹進入休眠期,冷量溫度逐漸累積,果樹自身通過一系列的生理變化應對溫度降低,當冷量積累到一定程度,滿足需冷量后開始升溫,隨即進入萌芽期開始累積熱量,此時果樹體內(nèi)通過一系列生理變化來促進芽的萌發(fā)和生長[4]。在蘋果豐產(chǎn)栽培中,為了達到蘋果高產(chǎn)、優(yōu)質(zhì)、穩(wěn)產(chǎn)、高效之目的,必需將蘋果營養(yǎng)生長規(guī)律與栽培管理密切結(jié)合起來。始花期的早晚是過去一段時間的氣象條件累積對果樹產(chǎn)生的影響。目前,關(guān)于蘋果始花期的預測從特征向量上來分,有單氣象因子與多氣象因子兩種。從算法模型上分,有統(tǒng)計學建模和線性回歸建模。蒲金涌等[5]和毛明策等[6]研究了氣溫對蘋果始花期的影響。李美榮等[7]在果樹物候模型理論的基礎上,應用統(tǒng)計學方法對不同月份氣溫進行分析建模。柏秦風等[8]從蘋果花期以前日平均溫度的不同攝氏度積溫及天數(shù)進行分析建模。張艷艷等[9]使用最小二乘回歸法進行多因子分析預測建模。藏曦[10]使用不同月份的不同氣象數(shù)據(jù)進行多因子逐步回歸預測建模。同時,通過對其他果樹的分析可以發(fā)現(xiàn)[11-13],多因子線性回歸建模為花期預測的主流預測方法。
多元線性回歸預測建模能夠很好的表征果樹生長過程受不同氣象因子的影響。但是目前的研究更多只是在算法層面,并沒有很好的表明影響蘋果始花期的主要影響時間段。根據(jù)山西省臨汾市氣象局發(fā)布的農(nóng)用氣象預報,研究分析休眠期內(nèi)三個時間段的生長特性對蘋果樹的影響:是否發(fā)生凍害(12月1日至次年3月1日)、能否正常越冬(11月1日至次年3月15日)和熱量和水分需求(3月1日至3月21日)。通過機器學習中的多元回歸方法和組合方法預測始花期,從而可以得到影響始花期的主要時間段及主要影響氣象因子,同時完成對始花期的提前、精準預測,以期幫助果農(nóng)提前做好農(nóng)事安排和病蟲害防治,為蘋果果園清園、病蟲害防治、田間管理和施肥提供建議,從而有助于增加果樹樹勢和抵抗力,使蘋果的經(jīng)濟效益最大化。
氣象資料包含吉縣1987—2017年溫度、降水量、濕度、地溫、日照時長等氣象因子,數(shù)據(jù)來源于山西省臨汾市吉縣氣象局。
2010—2017年蘋果物候期資料由山西省臨汾市吉縣氣象局提供,觀測品種為“紅富士”。
1.2.1時間間隔 以每年1月1日起至蘋果果樹開花始期為時間間隔,用于花期的預測。根據(jù)“中國物候觀測網(wǎng)”的觀測標準,植物始花期定義為觀測植株上開始出現(xiàn)第一個完全開放花朵的日期[14]。
1.2.2數(shù)據(jù)標準化和相關(guān)性分析 使用Z-score標準化方法,將不同量級的數(shù)據(jù)統(tǒng)一轉(zhuǎn)化為同一個量級,統(tǒng)一利用Z值進行衡量,以保證數(shù)據(jù)之間的可比性,消除由于不同量級數(shù)據(jù)所帶來的影響。
(1)
式中,x為觀測值,μ為總體平均值,σ為總體標準差。
使用皮爾遜相關(guān)系數(shù)(pearson correlation coefficient),用于度量兩個變量x和y之間的線性相關(guān)性。
(2)
式中,cov(x,y)為x和y的協(xié)方差,σx和σy分別為x和y的方差。
均方誤差(MSE)是指參數(shù)估計值與參數(shù)真值之差平方的期望值,它可以評價數(shù)據(jù)的變化程度,MSE值越小,預測模型描述數(shù)據(jù)具有更好的精確度。
(3)
均方根誤差(RMSE)是均方誤差的算術(shù)平方根,RMSE值越小,模型越好。
(4)
平均絕對誤差(MAE)是絕對誤差的平均值,能夠很好地反映預測值誤差的實際情況。MAE值越小,模型越精準。
(5)
式中,yi表示實際值,fi表示預測值。
決定系數(shù)(R2),又稱為判定系數(shù)或擬合優(yōu)度,它反映因變量的全部變異能通過回歸關(guān)系被自變量解釋的比例。表征了回歸方程在多大程度上解釋了因變量的變化,或者說方程對觀測值的擬合程度如何[15]。R2值越大越好,當預測模型不犯任何錯誤時值為1。
(6)
式中,SSR為回歸平方和,SST為總平方和。
MSE、MAE同樣也是線性回歸的損失函數(shù),損失函數(shù)的選取受到多方因素的制約和影響,常見的影響因子有異常值、時間復雜度、求導困難度、預測值置信度等[16]。在線性回歸的時候目的就是讓損失函數(shù)越小越好。
1.4.1相關(guān)性分析 在進行特征向量選擇時,盡可能剔除不相關(guān)或冗余的特征向量,從而減少特征向量個數(shù),提高模型精確度,減少模型運行時間。相關(guān)性分析可以幫助完成數(shù)據(jù)的篩選,達到降維的目的。使用pandas庫中的.corr函數(shù),分別對12月1日至次年3月1日(是否發(fā)生凍害)、11月1日至次年3月15日(能否正常越冬)和3月1日至3月21日(熱量和水分需求)三個時間段的數(shù)據(jù)進行相關(guān)性分析。同時,通過.nlargest函數(shù)設置參數(shù)k=4選擇出與時間間隔相關(guān)性最大的4個氣象數(shù)據(jù)因子(包含時間間隔),完成多元線性回歸模型中自變量的選擇。
1.4.2多元線性回歸 回歸模型應用訓練集數(shù)據(jù)進行參數(shù)估計,得到回歸模型。如果回歸分析中包含兩個或兩個以上的自變量,且因變量和自變量之間是線性關(guān)系,則稱為多元線性回歸。給定由d個屬性描述的示例x=(x1;x2;…;xd),其中,y=w1x1+w2x2+...+wdxd+b,一般用向量形式表示(式7)。
f(x)=wTx+b
(7)
式中,w=(w1;w2;...;wd)。
當權(quán)重w和截距b學習得到之后確定模型。選擇30%氣象因子作為特征向量進行預測,而剩余的70%為冗余向量。即選擇與時間間隔相關(guān)性最大的3個特征(不包含時間間隔)作為特征向量,分別對三個時間段進行多元線性預測建模。使用2017年數(shù)據(jù)為測試集,驗證模型準確性。剩余年份為訓練集,用于模型訓練。三個時間段所對應的預測模型選用的特征向量分別為:15 cm地溫、光照時長和10 cm地溫;15 cm地溫、10 cm地溫和5 cm地溫;最小濕度、平均相對濕度和降水量。
1.4.3組合方法 由于在是否發(fā)生凍害和能否正常越冬時間段內(nèi)的氣象因子與時間間隔的正相關(guān)性因子遠多于負相關(guān)因子,故對這兩時間段的預測結(jié)果使用“合奏”的方式,對預測結(jié)果進行算術(shù)平均,將算術(shù)平均后的結(jié)果進行取整。常用的方法有截取整數(shù)部分、向上取整、向下取整和四舍五入取整。通過實驗驗證發(fā)現(xiàn),通過向上取整后其結(jié)果更能擬合真實值結(jié)果。
最終結(jié)果=
(8)
使用Python 3.5編程語言,在Jupyter notebook中運行相應代碼。
數(shù)據(jù)處理庫numpy、pandas,數(shù)據(jù)可視化庫seaborn、matplotlib,日期時間處理庫datetime,機器學習庫sklearn和數(shù)學函數(shù)庫math。
根據(jù)臨汾市氣象局發(fā)布的農(nóng)用天氣預報可知,冬季當?shù)毓麡涮幱谛菝咂诘钠骄鶜鉁匾笤?10~7 ℃之間,當平均氣溫低于-15 ℃時易發(fā)生凍害。以每年12月1日至次年3月1日為是否發(fā)生凍害的時間段,分析1987—2017年的日平均氣溫(圖1)發(fā)現(xiàn),吉縣蘋果樹在該時段內(nèi)的氣溫在-4.52~-0.54 ℃之間,滿足吉縣蘋果樹休眠期的氣溫需求(-10~7 ℃),且日平均溫度的平均值為-2.65 ℃。這就說明對于吉縣當?shù)靥O果樹休眠期的氣溫需求可以放縮至-4.52~-0.54 ℃的范圍內(nèi)。
落葉果樹自然休眠所需的有效低溫時數(shù)稱為果樹的需冷量,又稱為低溫需求量或需冷積溫[17]。
以每年11月1日至次年3月15日為能否正常越冬時間段。分析1987至2017年日平均溫度≤7.2 ℃的天數(shù)和日最高溫度≤7.2 ℃的天數(shù),如圖1所示??梢园l(fā)現(xiàn),在該時期內(nèi)日平均氣溫符合≤7.2 ℃的天數(shù)占比在88%以上,而日最高溫度≤7.2 ℃的天數(shù)占比平均保持在55.62%。這就說明在該時間段內(nèi),日平均溫度<7.2 ℃占比高于88%時,吉縣蘋果樹能夠順利完成安全越冬。
圖1 前期氣溫分析Fig.1 Preliminary temperature analysis
需熱量是指從內(nèi)休眠結(jié)束至盛花所需的有效熱量累積,又稱熱量單位累積量或需熱積溫[18]。當需冷量滿足后,需熱量則在一定程度上影響著果樹花芽的正常萌發(fā)以及花期的早晚。引入降水量與濕度,用于分析水分對蘋果樹花期的影響。以每年3月上中旬(3月1日至3月21日)為熱量與水分需求時間段。對2010—2017年該時間段的降水量、日最高溫度、日最小濕度、光照時長和5 cm地溫與時間間隔進行分析,結(jié)果如圖2所示??梢钥闯?3月1日至21日部分氣象數(shù)據(jù)與時間間隔的比較所示,2012年與2011年相比,當降水量和日最小濕度升高,日最高溫度、光照時長和5 cm地溫降低時,時間間隔降低;2013年與2012年相比,當降水量和日最小濕度降低,日最高溫度、光照時長和5 cm地溫升高時,時間間隔降低。說明在該時間段內(nèi),蘋果樹對于水分的需求與對熱量的需求是相對反向的。同時也很好的說明了影響時間間隔的氣象因子是多個的、復雜的。與單因子預測建模相比,使用多因子的預測建模能夠更好的表征氣象因子對植物生長的影響。
圖2 3月1日至21日部分氣象數(shù)據(jù)與時間間隔比較Fig.2 Comparison of selected meteorological data with time intervals from 1st to 21st March
2.4.1相關(guān)性分析 所有特征對結(jié)果的貢獻不一樣的[19],使用相關(guān)性分析用于對數(shù)據(jù)進行降維和特征選擇。分別對是否發(fā)生凍害(12月1日至次年3月1日)、能否正常越冬(11月1日至次年3月15日)和熱量與水分需求(3月1日至3月21日)三個時間段內(nèi)標準化后的氣象數(shù)據(jù)(2010至2017年)與時間間隔進行相關(guān)性分析,結(jié)果如表1所示。
從表1 可以看出,在是否發(fā)生凍害時間段,溫度、降水量、地溫、濕度和光照時長與時間間隔都是正相關(guān)的,影響蘋果樹開花的主要因素是10、15 cm地溫和光照時長,其與時間間隔的相關(guān)性都大于等于0.5;在能否正常越冬時期,15 cm地溫是與時間間隔正相關(guān)性最大的因子,在該時期內(nèi)比起對溫度的關(guān)注更應該考慮地溫;在熱量與水分需求時期,只有濕度與蘋果樹開花量正相關(guān),且日最小濕度為主要影響因子,這說明在3月中上旬,水分對蘋果始花期的影響作用顯著。
表1 日氣象因子與時間間隔的相關(guān)性Table 1 Correlation between daily meteorological factors and time interval
2.4.2模型性能分析 通過對模型進行訓練得到權(quán)重W與截距b如表2所示。
表2 模型結(jié)果Table 2 Model results
從表3預測模型檢驗可以看出,是否發(fā)生凍害、能否正常越冬和熱量與水分需求三個時間段的決定系數(shù)分別為0.59、0.71和0.48,而通過組合方法的決定系數(shù)為0.78,這說明組合方法有近80%的對因變量的可解釋性,而能否正常越冬模型只有71%。當決定系數(shù)在0.7以上時,使用組合方法的均方誤差和平均絕對誤差值明顯低于能否正常越冬模型。均方根誤差(RMSE)實質(zhì)與均方誤差一樣,只是將誤差的結(jié)果和數(shù)據(jù)同級化。四個算法模型的誤差分別為2.11、1.78、2.37和1.54 d。
表3 模型性能指標Table 3 Test of predictive models
通過熱量與水分需求模型預測結(jié)果和是否發(fā)生凍害模型、能否正常越冬模型預測結(jié)果相比。是否發(fā)生凍害與能否正常越冬時間段的預測誤差相對較低,數(shù)據(jù)之間正相關(guān)的因子遠大于負相關(guān)因子,且決定系數(shù)都高于50%。這是因為在研究過程中三個時間段的時間跨度不同。其分析天數(shù)分別為21 d(熱量與水分需求時間段)、90~91 d(是否發(fā)生凍害時間段)和135~136 d(能否正常越冬時間段),這就造成不同時間段內(nèi)的氣象因子與時間間隔的相關(guān)性不同,以致于影響評價指標。通過研究分析可以得出,在進行花期預測過程中氣象因子的時間跨度選取不宜過小,且只有正相關(guān)因子才能提高預測的準確性。
從圖3可以看出,使用組合方法獲得的模型預測值與真實值在2011、2012、2013和2017年重合,在2010、2015、2016年保持1 d的誤差。是否發(fā)生凍害模型預測結(jié)果只有在2015年及以后誤差較小,而在2015年之前平均誤差2 d。能否正常越冬模型模型預測值與真實值的誤差1~3 d,沒有重合點,且大部分年份誤差為1 d。熱量與水分需求模型其預測值與真實值的平均誤差為2 d。綜上,結(jié)合衡量指標可以看出,能否正常越冬模型與組合方法模型是相對較好的兩個模型,而熱量與水分需求模型波動較大,不適合用于預測。
圖3 不同模型預測結(jié)果Fig.3 Different model prediction results
2.4.3花期預測結(jié)果 以2017年作為獨立樣本,將氣象因子帶入各預測模型中。對2017年蘋果始花期花期進行試報,結(jié)果如表4花期預測值所示。不同模型的誤差天數(shù)在1~2 d之間,花期預測模型擬合效果較好。
表4 花期預測值Table 4 Flowering forecast values
組合方法模型的決定系數(shù)高于能否正常越冬模型和是否發(fā)生凍害模型,但其在試報過程中誤差相同,這是因為得到的所有預測結(jié)果全部都是小數(shù)。而對于預測的結(jié)果,時間間隔要求是以天為單位的,這就需要對小數(shù)進行取整。在取整過程中對預測結(jié)果是采用向上取整、向下取整、四舍五入還是直接提取整數(shù),具體哪種取整方式提出了要求,在此過程中便會降低預測的準確性。
本研究劃分三個時間段,針對休眠期內(nèi)蘋果果樹的關(guān)鍵時間節(jié)點氣象因子對始花期的影響進行分析,分析天數(shù)分別為21 d(熱量與水分需求時間段)、90~91 d(是否發(fā)生凍害時間段)和135~136 d(能否正常越冬時間段)。由于分析天數(shù)的不同造成了不同時間段內(nèi)的氣象因子與時間間隔的相關(guān)性不同,影響了評價指標和模型準確性。對于三個不同時間段的分析可以看出,在預測過程中的分析天數(shù)不宜過短,這與丁錫強等[20]的研究結(jié)果相一致。對于分析天數(shù)的選取是否需要擴大,多久的分析天數(shù)才能更好的預測始花期這需要進一步的研究。
多元線性回歸中,權(quán)重w直觀表達了各屬性在預測中的重要性,因此線性模型有很好的可解釋性[21]。每個數(shù)據(jù)的價值不一樣,選擇十個氣象因子中的三個氣象因子作為特征向量參與建模,這是因為通過對是否發(fā)生凍害、能否正常越冬和熱量與水分需求的三個時間段的訓練集數(shù)據(jù)進行主成分分析后,發(fā)現(xiàn)三個特征向量分別可以表征88.65%、97.26%和91.60%的氣象因子信息,即30%的特征向量表征了88%以上的信息。
組合方法思想認為好的模型并不一定是從多種模型中選擇一個模型,而是可以把多個模型進行組合以得到更好的模型,包括“堆疊”和“合奏”兩種思想。“堆疊”就是用前一個預測方法得到的預測值,為后一個預測方法得到的預測誤差進行修正?!昂献唷本褪峭瑫r應用多個不同的預測方法得出多個預測值,并對這些預測值以某種方法進行平均,得到最終的預測值。采用的思想進行建模,是因為“合奏”的思想可以給出較高預測精確度的預測值,且模型簡單、泛化能力好。
預測模型以70%以上的擬合程度,實現(xiàn)在3月15日的精準預報。所用數(shù)據(jù)集中始花期最早出現(xiàn)日期為4月8日,以3月15日進行預測可以提前24 d完成預測。這與尹貞鈐等[22]的7~15 d提前預測相比,在保證預測準確性的前提下預測的提前量有了很大的提升。同時,由于預測的時間間隔是以天為單位的,在模型預測過程中不可避免使用到小數(shù)取整的過程這對預測的準確性提出了新的挑戰(zhàn)。