□王 煜 鐘彥琰 何露萍 毛小報
“食為政首,糧安天下”。2022年中央一號文件明確提出,“要牢牢守住保障國家糧食安全這條底線,全力抓好糧食生產(chǎn)和重要農(nóng)產(chǎn)品供給”。種植業(yè)作為保障糧食等重要農(nóng)產(chǎn)品有效供給的基礎產(chǎn)業(yè),其發(fā)展質量對于國家經(jīng)濟發(fā)展和社會穩(wěn)定具有重要戰(zhàn)略意義。浙江省為深入實施國家糧食安全戰(zhàn)略,落實藏糧于地、藏糧于枝戰(zhàn)略和重要農(nóng)產(chǎn)品保障戰(zhàn)略要求,在新冠肺炎疫情和國際產(chǎn)業(yè)鏈供應鏈不穩(wěn)定性和不確定性持續(xù)增加背景下,聚焦種植業(yè)供給能力和農(nóng)業(yè)生產(chǎn)經(jīng)營效益,對各類因素影響下的種植業(yè)產(chǎn)值進行預測,對于及時調(diào)整農(nóng)業(yè)生產(chǎn)政策、保障重要農(nóng)產(chǎn)品供給安全、推進農(nóng)民農(nóng)村共同富裕具有重要意義。
從現(xiàn)有農(nóng)業(yè)經(jīng)濟預測研究看,大多是基于產(chǎn)值自身歷史變動趨勢進行的單變量擬合(劉樹等,2005;陳顯周等,2011;鞠金艷和祝榮欣,2013;朱春江等,2013;王妍等,2015),少數(shù)多變量分析中主要考慮播種面積、產(chǎn)量、化肥投入等生產(chǎn)要素投入對產(chǎn)值的變動影 響(Gonzalez -Sanchez et al.,2014;張自敏等,2014),而缺乏對于市場環(huán)境和政策變動等外部因素作用效果的思考,這可能導致預測過程中忽略重要影響因素,造成預測結果的有偏差。此外,在預測方法上多因素分析中大多采用線性回歸或人工神經(jīng)網(wǎng)絡為代表的機器學習,擬合精度有限的同時也無法保證神經(jīng)網(wǎng)絡的誤差函數(shù)收斂到全局最優(yōu)解。因此,基于現(xiàn)有文獻不足,本文聚焦種植業(yè)生產(chǎn)過程中各方面因素的影響,利用適用于小樣本分析的支持向量機(SVM)算法對種植業(yè)產(chǎn)值進行預測,為政府實施糧食安全戰(zhàn)略、保障糧油等重要農(nóng)產(chǎn)品供給提供決策參考。
本文采用2002—2020 年時間序列數(shù)據(jù),對浙江省種植業(yè)產(chǎn)值進行預測分析,通過對各類潛在影響因素的篩選,探索關鍵影響因素對種植業(yè)產(chǎn)值的預測效果。其中,本文因變量為種植業(yè)產(chǎn)值,通過加總糧油、蔬菜、茶葉、水果以及其他經(jīng)濟作物產(chǎn)值得出,單位為億元,并進行了取對數(shù)處理。自變量如表1 所示,共選取資源環(huán)境約束、生產(chǎn)效率、政策扶持、農(nóng)業(yè)自然災害、市場環(huán)境五方面16 個指標。
表1 產(chǎn)值的影響因素
相關數(shù)據(jù)來源于 《浙江省統(tǒng)計年鑒》 《中國農(nóng)業(yè)年鑒》 《浙江省農(nóng)業(yè)農(nóng)村統(tǒng)計資料》 和 《中國農(nóng)業(yè)機械工業(yè)年鑒》 及筆者計算。
考慮到影響種植業(yè)及糧油產(chǎn)業(yè)產(chǎn)值的因素眾多而統(tǒng)計年份有限,為避免過擬合問題,基于潛在影響因素的預測分析首先需進行降維處理。本文選擇Adaptive LASSO算法,在最小二乘估計的殘差平方和函數(shù)基礎上,通過引入懲罰函數(shù)實現(xiàn)對關鍵變量的篩選。估計系數(shù)計算如下所示:
在此基礎上,使用專門研究小樣本的SVM 監(jiān)督學習算法,實現(xiàn)對時間序列的有效預測。
假定訓練集樣本為{(xi,di)}ni=1(xi為輸入向量,di為期望值,n 為樣本數(shù)量),SVM 基于以下函數(shù)實現(xiàn)對該函數(shù)的收斂:
其中φ(x)為高維特征空間,通過輸入空間x 非線性映射得到,模型構建如公式(4)所示:通過最小化風險函數(shù)R (c) 來對系數(shù)w和b 進行估計,即滿足樣本點j:
為得到w 和b 的一致性估計值,引入正松弛變量,將公式(4)轉化為公式(6),模型構建如下:
其中ηi,為對偶變量,滿足ηi,≥0。通過對拉格朗日函數(shù)求解得到最優(yōu)參數(shù)組合:
將公式(8)至公式(11)帶入公式(7)中得到其對偶最優(yōu)化問題,模型如下:
其中k(xi,xj)=〈φ(xj),(φ(xj)〉為核函數(shù),〈.,.〉為特征空間中的點積。
由于SVM 的構造依賴于核函數(shù)的選擇,通過核函數(shù)的選擇實現(xiàn)樣本從低維數(shù)據(jù)向高維數(shù)據(jù)的映射。目前應用較為廣泛的核函數(shù)主要有線性核函數(shù)、多項式核函數(shù)、徑向基核函數(shù)和Sigmoid 核函數(shù)四種。
表2 為Adaptive LASSO 的變量篩選結果。在系統(tǒng)識別出的最佳懲罰系數(shù)為0.0021 情況下,K折交叉驗證值的均方誤差為0.0009,篩選得出勞動生產(chǎn)率、財政涉農(nóng)支出比例、農(nóng)業(yè)從業(yè)人員數(shù)、農(nóng)業(yè)機械總動力、農(nóng)產(chǎn)品生產(chǎn)價格指數(shù)、播種面積和農(nóng)業(yè)生產(chǎn)資料價格7 個影響因素,且標準化系數(shù)結果表明,勞動生產(chǎn)率對種植業(yè)產(chǎn)值的影響最為關鍵。
表2 種植業(yè)產(chǎn)值的關鍵影響因素篩選結果
基于前文關鍵變量篩選,本文將2002—2015 年的14 個樣本作為訓練集,2016—2020 年的5 個樣本作為檢驗集。為提高SVM 模型的泛化能力,減少訓練所需時間并消除不同變量幅值變化影響,在模型訓練和預測前本文首先對各變量統(tǒng)一進行了歸一化處理。
考慮到核函數(shù)的選擇對于SVM 的回歸性能具有重要影響,為盡可能提高預測精度,本文分別對默認參數(shù)下的線性核函數(shù)、徑向基核函數(shù)、多項式核函數(shù)和Sigmoid核函數(shù),以及GridSearchCV 網(wǎng)格搜索自動調(diào)參下的核函數(shù)構建SVM 模型,估計結果如表3 所示??梢园l(fā)現(xiàn),調(diào)參后基于線性核函數(shù)的SVM 擬合效果總體最佳;相應檢驗集中產(chǎn)值預測值與真實值的趨勢基本一致,均方差較小,均方差誤差僅0.0007;訓練集及檢驗集擬合效果如圖1 所示。SVM 的估計可有效擬合種植業(yè)產(chǎn)值與其關鍵因素間的復雜作用關系,基于SVM 模型的種植業(yè)產(chǎn)值預測具有較好的預測性能。
圖1 SVM 訓練擬合結果
表3 擬合效果及均方差
為深入貫徹落實習近平總書記關于確保糧食安全的重要批示精神,本文聚焦種植業(yè)發(fā)展,基于2002—2020 年浙江省相關統(tǒng)計數(shù)據(jù),在Adaptive LASSO篩選出勞動生產(chǎn)率、財政涉農(nóng)支出比例、農(nóng)業(yè)從業(yè)人員數(shù)、農(nóng)業(yè)機械總動力、農(nóng)產(chǎn)品生產(chǎn)價格指數(shù)、播種面積和農(nóng)業(yè)生產(chǎn)資料價格7 個關鍵變量的基礎上,使用SVM 算法實現(xiàn)了對種植業(yè)的有效預測和預警。從預測結果看,基于Adaptive LASSO 和SVM 估計方法的產(chǎn)值預測能較好地與真實值擬合,該方法可有效應用于農(nóng)業(yè)生產(chǎn)效益預測預警。因此,針對各變量對種植業(yè)產(chǎn)值的有效預測結果,政府應加大財政支農(nóng)規(guī)模,優(yōu)化支農(nóng)支出結構;強化重要農(nóng)產(chǎn)品生產(chǎn)價格調(diào)控能力,穩(wěn)定農(nóng)產(chǎn)品市場價格;提升農(nóng)業(yè)機械覆蓋面,聚焦聚力機械強農(nóng)行動;深化農(nóng)業(yè)科技改革,推進農(nóng)業(yè)提質增效。