夏偉懷,劉嘉莉,馮芬玲
(中南大學 交通運輸工程學院,湖南 長沙 410075)
鐵路冷藏運輸需求預測對推進鐵路冷藏運輸?shù)陌l(fā)展具有關(guān)鍵作用,合理的鐵路冷藏運輸需求預測能夠明確鐵路冷藏運輸需求的發(fā)展趨勢,為鐵路冷藏運輸相關(guān)部門組織冷藏運輸提供支撐。常用的預測模型可分為以時間序列分析法為理論基礎(chǔ)的預測模型和以機器學習為理論基礎(chǔ)的預測模型2種[1]。LIU等[2]利用二次指數(shù)平滑法預測了京津冀地區(qū)生鮮農(nóng)產(chǎn)品的冷鏈物流需求量。王秀梅[3]提出了基于偏最小二乘法、ARIMA法和二次指數(shù)平滑法的權(quán)重分配組合法預測農(nóng)產(chǎn)品冷鏈物流需求趨勢。以時間序列分析法為理論基礎(chǔ)的預測模型簡單易行,短期預測精度較好,但預測模型僅關(guān)注內(nèi)生變量而不關(guān)注外生變量,對數(shù)據(jù)的轉(zhuǎn)折點缺乏鑒別能力,難以預測非穩(wěn)定數(shù)據(jù)。近年來,以機器學習為理論基礎(chǔ)的預測模型在各領(lǐng)域廣泛應(yīng)用。KHASANAH等[4]提出了基于SOM-SVR的兩階段預測模型預測生鮮食品的需求量,通過比較非聚類數(shù)據(jù)預測結(jié)果和基于SOM-SVR兩階段預測模型預測效果,得出聚類數(shù)據(jù)能夠提高預測模型的準確性和實用性。HASSAN等[5]將時間序列模型與機器學習算法結(jié)合,構(gòu)建了滾動學習框架以預測貨運量。陳琛等[6]基于頻繁港口和神經(jīng)網(wǎng)絡(luò)構(gòu)建了考慮時空因素的貨運量預測模型。DELLINO等[7]提出通過2種替代方法動態(tài)選擇最合適的生鮮食品預測模型。李萬等[8]通過改進粒子群算法優(yōu)化長短時記憶神經(jīng)網(wǎng)絡(luò)預測鐵路客運量。學者們從不同的角度闡明了以機器學習為理論基礎(chǔ)的預測模型的優(yōu)點。但鐵路冷藏運輸系統(tǒng)是一個非線性的復雜系統(tǒng),系統(tǒng)內(nèi)影響因素眾多且相互滲透,且鐵路冷藏運輸系統(tǒng)可用的歷史數(shù)據(jù)較少,增加了預測難度。目前研究冷藏運輸需求預測的文獻較少,常用模型中多元線性回歸預測模型通過構(gòu)建冷鏈運輸需求量與其他相關(guān)因素的數(shù)學回歸關(guān)系來預測冷鏈運輸需求量,但其輸入變量難以選擇,且在處理非線性問題上預測效果較差;神經(jīng)網(wǎng)絡(luò)預測模型本身存在網(wǎng)絡(luò)結(jié)構(gòu)難以確定、學習速度慢和易陷入局部最優(yōu)等問題[9];SVM在解決小樣本、非線性和高維模式識別問題等方面具有突出優(yōu)勢,但SVM的參數(shù)一直沒有很好的確定方法[10]。而隨機森林作為集成學習的代表之一,大量的理論和實證研究都證明了隨機森林具有很高的準確率,對異常值和噪聲具有很好的容忍度,且不易出現(xiàn)過擬合[11?13]?;诖?,本文利用Spearman相關(guān)分析結(jié)果進行特征篩選后,構(gòu)建基于隨機森林的鐵路冷藏運輸需求預測模型,以預測未來3個月的鐵路冷鏈貨運量。
隨機森林(random forest,RF)[14]是2001年由LEO BREIMAN將Bagging集成學習理論與隨機子空間方法相結(jié)合,提出的一種機器學習算法,它是Bagging的一個擴展變體。隨機森林在以決策樹為基學習器構(gòu)建Bagging集成基礎(chǔ)上,進一步在決策樹的訓練過程中引入了隨機屬性特征。隨機森林一般用于解決分類或回歸問題。本文的研究重點是利用隨機森林解決回歸問題,而隨機森林回歸的基本思想是:首先利用自主抽樣法從原始訓練集抽取k個樣本,且每個樣本的樣本容量均與原始訓練集相同;其次對k個樣本分別建立k個決策樹模型,得到k種回歸結(jié)果;最后通過取平均值組合k個決策樹結(jié)果[15]?;陔S機森林回歸的基本思想,構(gòu)建基于隨機森林的鐵路冷藏運輸需求預測模型的主要步驟為:
1)影響因素分析。依據(jù)國內(nèi)外現(xiàn)有研究情況,同時考慮到數(shù)據(jù)的可獲性,分析影響鐵路冷藏運輸需求的因素。
2)特征變量的選擇?;谟绊懸蛩胤治銮闆r,利用Spearman相關(guān)性分析確定模型輸入變量。
3)模型參數(shù)確定。決策樹模型的數(shù)量和節(jié)點最大特征數(shù)是隨機森林回歸預測模型最主要的2個參數(shù),本文利用網(wǎng)格搜索循環(huán)遍歷所有候選參數(shù),并以交叉驗證結(jié)果作為指標得到優(yōu)選參數(shù)。
4)模型訓練。對隨機森林回歸模型進行訓練,將優(yōu)選參數(shù)組合應(yīng)用至隨機森林回歸預測模型。
5)模型求解。將測試機數(shù)據(jù)輸入至決策樹,得到每棵決策樹的回歸結(jié)果,取平均值即為模型預測結(jié)果。
6)模型評價。本文選取平均絕對誤差(Mean Absolute Error,MAE),平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE),均方根誤差(Root Mean Square Error,RMSE)和擬合優(yōu)度R24個模型評價指標對模型預測效果進行評價。
式中:和yi分別為預測值和實際值;k為預測樣本數(shù);為yi的平均值。
依據(jù)以上步驟,得到基于隨機森林的鐵路冷藏運輸需求預測模型的流程如圖1所示。
圖1 隨機森林回歸預測模型流程圖Fig.1 Flow chart of random forest regression prediction model
基于已有文獻研究及對實踐中影響鐵路冷藏運輸需求變化的因素分析來整合查找影響因素,結(jié)合數(shù)據(jù)可獲取性原則,統(tǒng)計相關(guān)數(shù)據(jù)。本文涉及到的數(shù)據(jù)取自國家局、中國指數(shù)網(wǎng)以及中鐵特貨物流股份有限公司。
2.2.1 消費經(jīng)濟水平
消費經(jīng)濟水平方面主要從宏觀層面分析影響鐵路冷藏運輸需求的因素,其主要包含消費水平和經(jīng)濟發(fā)展水平2個方面。其中消費水平是指一定時期內(nèi)消費者用于滿足自身日常生活費用各項支出的總和。消費水平能夠體現(xiàn)人們的購買力情況。學者主要選用農(nóng)村居民消費水平、城鎮(zhèn)居民消費水平、價格指數(shù)等作為消費水平影響因素以預測冷鏈的需求量[16?17]。居民消費水平和價格指數(shù)從不同角度反映消費水平的變化,其中居民消費水平指標一般按年統(tǒng)計,可作為中長期預測指標,價格指數(shù)指標可按月、季、年統(tǒng)計,既可作為短期預測指標,也可作為中長期預測指標。本文旨在預測鐵路冷藏運輸?shù)脑滦枨罅?,選取食品類居民消費價格指數(shù)、食品類商品零售銷售價格指數(shù)作為衡量消費水平的主要指標。
經(jīng)濟發(fā)展水平是指一個國家經(jīng)濟發(fā)展的規(guī)模、速度和所達到的水準?,F(xiàn)有研究中學者大都選取GDP、第一產(chǎn)業(yè)增加值、第三產(chǎn)業(yè)增加值、產(chǎn)業(yè)結(jié)構(gòu)比例、社會消費品零售總額等指標衡量經(jīng)濟發(fā)展水平[16-18]。本文旨在分析鐵路冷藏運輸?shù)亩唐陬A測,而GDP和產(chǎn)業(yè)結(jié)構(gòu)等指標大都是按年統(tǒng)計,適用于中長期預測,因此本文主要選取社會消費品零售總額作為衡量經(jīng)濟發(fā)展水平的預測指標。
2.2.2 行業(yè)水平
鐵路冷藏運輸即通過鐵路實現(xiàn)冷藏運輸,因此它不僅受到物流行業(yè)發(fā)展的影響,也受到鐵路行業(yè)發(fā)展的影響?,F(xiàn)有研究中,學者主要從交通條件、載貨條件、固定資產(chǎn)投資等方面反映行業(yè)發(fā)展水平,其中交通條件通過路網(wǎng)條件體現(xiàn),常用指標有鐵路營業(yè)里程;載貨條件通過設(shè)施設(shè)備擁有量以及載貨量體現(xiàn),常用指標有鐵路機車產(chǎn)量、冷藏車保有量、冷庫容量、鐵路貨運量等;固定資產(chǎn)投資體現(xiàn)固定資產(chǎn)的再生產(chǎn)情況,體現(xiàn)一定時期內(nèi)在行業(yè)內(nèi)的投入規(guī)模,常用固定資產(chǎn)投資額指標[16?18]。本文旨在分析鐵路冷藏運輸需求量的短期發(fā)展趨勢,鐵路路網(wǎng)條件在短期內(nèi)較為穩(wěn)定,因此主要從載貨條件和固定資產(chǎn)投資情況分析行業(yè)水平,基于鐵路行業(yè)和冷鏈行業(yè)的特性,考慮數(shù)據(jù)可獲取性,選取鐵路機車產(chǎn)量、金屬集裝箱、鐵路貨運量、物流景氣指數(shù)和鐵路運輸業(yè)固定資產(chǎn)投資額作為衡量行業(yè)水平的主要指標。
2.2.3 供需水平
由經(jīng)濟學中供求理論可知,商品的供給和需求其實是由商品生產(chǎn)自身所決定。因此本文的供需水平主要從鐵路冷藏運輸對象的供需情況入手,由《中國冷鏈物流發(fā)展報告》(2019)可知,鐵路冷鏈運輸對象主要為水果、蔬菜、肉類、水產(chǎn)品、乳制品和冷凍產(chǎn)品六大類貨物,因此主要從六大類貨物的供需情況入手,梳理供需水平影響因素。選取鮮、冷藏肉產(chǎn)量、乳制品產(chǎn)量、飲料產(chǎn)量作為衡量供給量的主要指標,選取糧油、食品、飲料及煙酒類商品零售值作為衡量冷藏運輸?shù)男枨罅恐笜?,為了更加全面反映供需水平選取農(nóng)副產(chǎn)品類購進價格指數(shù)、食品工業(yè)生產(chǎn)者出產(chǎn)價格指數(shù)作為間接反映供需水平的指標。
依據(jù)以上分析,本文選取的影響鐵路冷藏運輸需求因素如表1所示。
表1 影響因素Table 1 Influence factors
2.2.4 特征選擇
利用SPSS軟件中的相關(guān)功能,對14個特征變量以及預測目標值鐵路冷鏈貨運量(y)進行Spear‐man相關(guān)性分析,選取與預測目標值鐵路冷鏈貨運量相關(guān)性顯著的特征變量作為鐵路冷藏運輸需求預測模型的輸入變量,Spearman相關(guān)性分析結(jié)果如圖2所示。
圖2 Spearman相關(guān)系數(shù)矩陣Fig.2 Correlation matrix of the variables
由Spearman相關(guān)性分析結(jié)果可知X1和X14在0.01級別與預測目標值鐵路冷鏈貨運量相關(guān)性顯著,X6,X8和X9在0.05級別與預測目標值鐵路冷鏈貨運量相關(guān)性顯著?;谝陨戏治?,選取X1,X6,X8,X9和X14作為輸入變量,并重新標號,具體如表2所示。
表2 特征變量的編號及名稱Table 2 Number and name of characteristic variable
2.3.1 模型參數(shù)確定
利用Bootstrap抽樣方法將數(shù)據(jù)集分為訓練集和測試集。將數(shù)據(jù)樣本中的2/3作為訓練集樣本,以訓練建立模型,剩余的1/3作為測試集樣本,以用于測量模型的預測性能。利用網(wǎng)格搜索方法對參數(shù)尋優(yōu),計算得到優(yōu)選參數(shù)如表3所示。
表3 預測模型參數(shù)選擇Table 3 Parameter selection of prediction model
基于網(wǎng)格搜索方法,研究在不同參數(shù)組合下預測模型的MAE和R2變化趨勢,MAE變化趨勢如圖3所示,R2變化趨勢如圖4所示。
圖3 不同參數(shù)組合下MAE變化趨勢Fig.3 Trend of MAEvariation under different parameter combinations
圖4 不同參數(shù)組合下R2變化趨勢Fig.4 Trend of R2 variation under different parameter combinations
由圖3和圖4可知,相較于決策樹數(shù)量,最大特征數(shù)的變動會導致MAE發(fā)生較大波動,且呈現(xiàn)先下降后上升的趨勢,在最大特征值為2時是拐點,而不同參數(shù)組合下擬合優(yōu)度R2的值相差不大。
2.3.2 模型對比
將RF預測值與實際值進行對比,如圖5所示。
由圖5可知,總體而言,經(jīng)過Spearman相關(guān)分析后進行特征篩選的隨機森林回歸預測模型預測值線圖與實際值的線圖變化趨勢大體相似,表明模型能夠較好地預測鐵路冷藏運輸需求發(fā)展趨勢變化。
圖5 預測值與實際值的對比Fig.5 Comparison between predicted value and actual value
為了驗證隨機森林回歸預測模型在鐵路冷藏運輸需求預測的合理性和適用性,本文利用Bagging,AdaBoost,BP神經(jīng)網(wǎng)絡(luò)以及未進行特征篩選的隨機森林(記為RF1)分別進行預測,得到訓練集和測試集的MAE,MAPE,RMSE和擬合優(yōu)度R2取值如表4所示。
由表4可知,訓練集中各模型按照MAE排序為:AdaBoost
表4 模型預測結(jié)果對比Table 4 Comparison table of model prediction results
測試集中各模型按MAE排序為:RF
綜上可知,隨機森林回歸預測模型的預測效果總體優(yōu)于AdaBoost,Bagging和BP預測模型?;诖耍帽疚臉?gòu)建的RF預測模型對未來3個月的鐵路冷鏈貨運量進行預測,預測結(jié)果如表5所示。
表5 RF預測結(jié)果Table 5 RFprediction results
1)對比RF1可知,特征篩選能夠提高隨機森林預測模型的預測精度,由此可知,雖然鐵路冷藏運輸需求系統(tǒng)是非線性的復雜系統(tǒng),且隨機森林在處理高維特征具有突出優(yōu)勢,但并非選取的影響因素越多越好,而是需要選取重要度較高的因素,否則反而會降低隨機森林模型預測精度。
2)對比Bagging,AdaBoost和BP神經(jīng)網(wǎng)絡(luò)預測模型可知,本文提出的隨機森林回歸預測模型的MAE和擬合優(yōu)度R2均優(yōu)于Bagging,AdaBoost和BP神經(jīng)網(wǎng)絡(luò)模型,MAPE和RMSE值僅高于BP神經(jīng)網(wǎng)絡(luò),這表明隨機森林預測模型在處理小樣本的鐵路冷藏運輸需求短期預測問題上的預測效果較好。
3)對比分析訓練集和測試集結(jié)果,RF和RF1模型在訓練集和測試集中MAE,MAPE和RMSE值的變動范圍均低于AdaBoost和Bagging模型,擬合優(yōu)度R2的變動范圍低于AdaBoost,Bagging和BP神經(jīng)網(wǎng)絡(luò)模型,表明隨機森林回歸預測模型的泛化性能較好。
4)由Spearman相關(guān)性分析結(jié)果可知,特征變量的重要程度分布較為集中,后續(xù)研究可引入權(quán)重分析。