孟祥愛(ài) 宋欣悅
(北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院 北京市 100044)
我國(guó)鐵路發(fā)展起步很早,鐵路網(wǎng)相對(duì)完善,鐵路貨運(yùn)歷史也很悠長(zhǎng)。據(jù)中國(guó)國(guó)家鐵路集團(tuán)有限公司統(tǒng)計(jì),2019年全國(guó)鐵路固定資產(chǎn)投資完成8029 億元,超額完成年初確定的8000 億元任務(wù),創(chuàng)下了近4年的最高值。同時(shí)2019年全國(guó)鐵路投產(chǎn)鐵路新線8489 公里。截至2019年底,全國(guó)鐵路營(yíng)業(yè)里程達(dá)到13.9 萬(wàn)公里以上。隨著鐵路交通的不斷發(fā)展,鐵路貨運(yùn)在我國(guó)貨運(yùn)體系中逐步占據(jù)關(guān)鍵地位。2019年,國(guó)家鐵路完成貨物發(fā)送量34.4 億噸,創(chuàng)歷史新高,同比增長(zhǎng)7.8%。根據(jù)中鐵總的《三年行動(dòng)方案》,到2020年,國(guó)家鐵路貨運(yùn)量預(yù)期達(dá)到37.18 億噸。這意味著,2020年國(guó)家鐵路貨運(yùn)量比2019年將增加8.1%。未來(lái)鐵路交通將進(jìn)一步發(fā)展,鐵路貨運(yùn)需求也將會(huì)繼續(xù)保持增長(zhǎng)趨勢(shì)。
在鐵路貨運(yùn)需求態(tài)勢(shì)持續(xù)增長(zhǎng)的情況下,鐵路貨運(yùn)需求預(yù)測(cè)變得尤為重要,一方面,相對(duì)準(zhǔn)確的預(yù)測(cè)結(jié)果對(duì)鐵路相關(guān)部門的決策可以提供一定的依據(jù),對(duì)全國(guó)鐵路固定資產(chǎn)投資具有指導(dǎo)作用,另一方面,我國(guó)鐵路市場(chǎng)環(huán)境復(fù)雜,鐵路貨運(yùn)量影響因素在持續(xù)變化,科學(xué)準(zhǔn)確的預(yù)測(cè)方法更加必要。
對(duì)鐵路貨運(yùn)需求進(jìn)行預(yù)測(cè),首先應(yīng)當(dāng)對(duì)鐵路貨運(yùn)的影響因素進(jìn)行分析,如宏觀經(jīng)濟(jì)指標(biāo)、大宗貨物產(chǎn)量、其他運(yùn)輸方式之間的聯(lián)系等。文獻(xiàn)[1]將鐵路貨運(yùn)需求預(yù)測(cè)方法分為以下幾類[1]:時(shí)間序列法、影響因素法、組合預(yù)測(cè)法、四階段法、機(jī)器學(xué)習(xí)法共五類,本文使用的方法為組合預(yù)測(cè)法,即通過(guò)灰色關(guān)聯(lián)分析法和主成分分析法對(duì)已有的數(shù)據(jù)進(jìn)行學(xué)習(xí),找到數(shù)據(jù)間的依賴關(guān)系,使用多元線性回歸模型對(duì)未知的數(shù)據(jù)進(jìn)行預(yù)測(cè),觀察擬合值,計(jì)算相對(duì)誤差,得到模型精度。
由于鐵路貨運(yùn)需求量是一個(gè)復(fù)雜的變量,為了更準(zhǔn)確地對(duì)鐵路貨運(yùn)量進(jìn)行預(yù)測(cè),應(yīng)當(dāng)綜合全面地考慮鐵路貨運(yùn)量的影響因素,但由于鐵路貨運(yùn)量影響因素眾多[2],部分影響因素的關(guān)聯(lián)度相對(duì)較小,全部考慮則成本較大,因此本文選擇文獻(xiàn)[3]中灰色關(guān)聯(lián)分析和ARDL 模型實(shí)證分析出的主要影響因素:國(guó)內(nèi)生產(chǎn)總值、工業(yè)增加值、第二產(chǎn)業(yè)增加值、公路貨運(yùn)量、進(jìn)出口總額、鐵路營(yíng)業(yè)里程、工業(yè)增加值占國(guó)內(nèi)生產(chǎn)總值比重、第二產(chǎn)業(yè)增加值占國(guó)內(nèi)生產(chǎn)總值比重共七個(gè)影響因素[3],通過(guò)下節(jié)介紹的灰色關(guān)聯(lián)分析定量分析,得到各個(gè)影響因素與鐵路貨運(yùn)量之間的關(guān)聯(lián)度數(shù)據(jù),進(jìn)而得到與鐵路貨運(yùn)量關(guān)聯(lián)最大的影響因素。如表1所示。
其中公路貨運(yùn)量與鐵路貨運(yùn)量是平行維度,國(guó)內(nèi)生產(chǎn)總值、工業(yè)增加值、第二產(chǎn)業(yè)增加值屬于宏觀因素,此外貨運(yùn)量還應(yīng)合理考慮各個(gè)影響因素對(duì)鐵路貨運(yùn)量需求的影響,比如哪些是正影響,哪些是負(fù)影響,這些都在一定程度上對(duì)最終擬合效果的準(zhǔn)確性有指導(dǎo)決定作用。
灰色關(guān)聯(lián)分析法被廣泛應(yīng)用于鐵路貨運(yùn)量預(yù)測(cè)當(dāng)中,因此在介紹主成分分析法之前,首先介紹灰色關(guān)聯(lián)分析方法,將灰色關(guān)聯(lián)分析得到的關(guān)聯(lián)度較高的影響因素應(yīng)用到主成分分析法中,得到相應(yīng)的主成分,最終將其得到的主成分替換多元線性回歸分析中的各個(gè)影響因素,觀察擬合值與相對(duì)誤差。
灰色關(guān)聯(lián)分析的基本思想是在建立確定反映系統(tǒng)行為特征的參考序列和影響系統(tǒng)行為的比較序列的基礎(chǔ)上,計(jì)算比較序列相對(duì)于參考序列曲線幾何形狀的關(guān)聯(lián)度,由此判斷自變量與因變量之間的關(guān)系[4]。
灰色關(guān)聯(lián)分析的具體計(jì)算步驟如下:
第一步:確定分析數(shù)列。對(duì)于本文來(lái)講及確定哪些是影響因素(自變量),又稱為比較數(shù)列,哪個(gè)是鐵路貨運(yùn)需求量(因變量),又稱為參考數(shù)列。
第二步,變量的無(wú)量綱化。在進(jìn)行灰色關(guān)聯(lián)度分析時(shí),需要對(duì)數(shù)據(jù)進(jìn)行無(wú)量綱化處理[5],防止因?yàn)橛绊懸蛩氐牟槐阌诒容^的問(wèn)題而難以得出正確的結(jié)論。
第三步,計(jì)算關(guān)聯(lián)系數(shù)
其中ρ即為相對(duì)關(guān)聯(lián)系數(shù),其中θ∈(0,∞),稱為合成系數(shù)。θ越小,分辨力越大,一般θ 的取值區(qū)間為(0,1),具體取值可視情況而定。當(dāng)θ ≤0.5463 時(shí),分辨力最好,通常取θ=0.5。
第四步,計(jì)算關(guān)聯(lián)度。因?yàn)殛P(guān)聯(lián)系數(shù)是比較數(shù)列(自變量)與參考數(shù)列(因變量)在各個(gè)時(shí)刻(即曲線中的各點(diǎn))的關(guān)聯(lián)程度值,因此得到的數(shù)據(jù)很多,而信息過(guò)于分散不便于進(jìn)行整體性比較。因此有必要將各個(gè)時(shí)刻(即曲線中的各點(diǎn))的關(guān)聯(lián)系數(shù)集中為一個(gè)值,即求其平均值,作為比較數(shù)列與參考數(shù)列間關(guān)聯(lián)程度的數(shù)量表示,關(guān)聯(lián)度記為ri[6]。
第五步,關(guān)聯(lián)度排序。關(guān)聯(lián)度按大小排序,如果r1<r2,則參考數(shù)列y 與比較數(shù)列x2 更相似。關(guān)聯(lián)度越接近1,則說(shuō)明該影響因素與鐵路貨運(yùn)需求量之間的關(guān)系越親密,及自變量對(duì)因變量的影響最大。在算出Xi(k)序列與Y(k)序列的關(guān)聯(lián)系數(shù)后,計(jì)算各類關(guān)聯(lián)系數(shù)的平均值,平均值ri 就稱為Y(k)與Xi(k)的關(guān)聯(lián)度。
根據(jù)灰色關(guān)聯(lián)分析,得到各個(gè)影響因素的關(guān)聯(lián)度如表2,并進(jìn)行排序,可以看到各個(gè)影響因素與鐵路貨運(yùn)量的關(guān)聯(lián)度都達(dá)到了0.5以上,其中公路貨運(yùn)量對(duì)鐵路貨運(yùn)量的影響是幾個(gè)影響因素中最大的,其次是鐵路營(yíng)業(yè)里程和工業(yè)增加值,而第二產(chǎn)業(yè)增加值占國(guó)內(nèi)生產(chǎn)總值比重和工業(yè)增加值占國(guó)內(nèi)生產(chǎn)總值比重的影響則最小,這也為今后的決策制定提供了方向。
表1:2000~2019年我國(guó)宏觀經(jīng)濟(jì)與綜合交通運(yùn)輸體系各指標(biāo)的年度數(shù)據(jù)
表2:2000~2019年鐵路貨運(yùn)量與各變量的灰色關(guān)聯(lián)分析結(jié)果
表3:主成分分析法成分矩陣
主成分分析[7]就是用較少的變量去解釋原來(lái)資料中的大部分?jǐn)?shù)據(jù),將很多相關(guān)性很高的變量轉(zhuǎn)化成彼此相互獨(dú)立或不相關(guān)的變量。通常是選出比原始變量個(gè)數(shù)少,能解釋大部分變量的幾個(gè)新變量,稱為主成分,并用以解釋數(shù)據(jù)變化的綜合性指標(biāo)。主成分分析實(shí)際上是一種降維方法,在力保數(shù)據(jù)信息丟失少的原則下,對(duì)多個(gè)變量數(shù)據(jù)進(jìn)行最佳綜合簡(jiǎn)化,即對(duì)高維變量空間進(jìn)行降維處理[8]。
主成份分析是最經(jīng)典的基于線性分類的分類系統(tǒng)[9]。這個(gè)分類系統(tǒng)的最大特點(diǎn)就是利用線性擬合的思路把分布在多個(gè)維度的高維數(shù)據(jù)投射到幾個(gè)軸上。如果每個(gè)樣本只有兩個(gè)數(shù)據(jù)變量,這種擬合就是線性擬合。
表4:一元線性回歸分析模型得到的擬合值
表5:多元線性回歸分析模型得到的擬合值(共六個(gè)影響因素)
表6:基于主成分分析法與多元線性回歸分析模型的擬合值
a1x1+a2x2=P 其中x1和x2分別是樣本的兩個(gè)變量,而a1和a2則被稱為loading,計(jì)算出的P 值就被稱為主成份。實(shí)際上,當(dāng)一個(gè)樣本只有兩個(gè)變量的時(shí)候,主成份分析本質(zhì)上就是做一個(gè)線性回歸。公式a1x1+a2x2=P 本質(zhì)上就是一條直線。如果一個(gè)樣本有n 個(gè)變量,那主成份就變?yōu)椋篴1x1+a2x2+......+anxn=PC1,其中PC1稱為第一主成份,以此類推可以得到第二主成分、第三主成分等。
將灰色關(guān)聯(lián)分析得到的影響因素帶入,得到主成分得分系數(shù)矩陣如表3。
2.1.1 多元回歸分析模型簡(jiǎn)述所謂回歸分析法,就是在掌握大量觀察數(shù)據(jù)基礎(chǔ)上,利用數(shù)理統(tǒng)計(jì)方法建立因變量與自變量之間的回歸關(guān)系函數(shù)表達(dá)式(簡(jiǎn)稱為回歸方程式)?;貧w分析是一種預(yù)測(cè)性的建模技術(shù),它研究的是因變量(目標(biāo))和自變量(預(yù)測(cè)值)之間的關(guān)系,這種因變量與自變量的不確定性的關(guān)系(相關(guān)性關(guān)系)。這種技術(shù)通常用于預(yù)測(cè)分析,時(shí)間序列模型以及發(fā)現(xiàn)變量之間的因果關(guān)系。
一元線性回歸指的是只有兩個(gè)變量x 與y,其中x 為自變量,y 為因變量。并且y 與x 成某種線性關(guān)系。這樣的情況我們稱其為一元線性回歸問(wèn)題。其基本形式為:Y=a+bx+c
其中,a、b 均為參數(shù)項(xiàng)。c 為隨機(jī)變量,因?yàn)樵趦山M變量之間,是無(wú)法滿足嚴(yán)格的線性關(guān)系的。所以,此項(xiàng)是補(bǔ)齊線性關(guān)系之中誤差,也稱為擾動(dòng)項(xiàng)。想要擬合線性關(guān)系,兩組變量需要滿足一一對(duì)應(yīng)關(guān)系,相當(dāng)于形成若干組鍵值對(duì)。但想要線性回歸真實(shí)可靠還需要注意,所有的擾動(dòng)項(xiàng)還需要保持同方差、正態(tài)分布、互相獨(dú)立、零均值的情況才能保證線性回歸所估計(jì)出的值是真實(shí)可靠的數(shù)值。對(duì)于自變量X 的要求則是非隨機(jī)保證其為確定性變量。還需要保證自變量與擾動(dòng)項(xiàng)之間不相關(guān),若存在相關(guān)關(guān)系只可能是線性方程中參數(shù)估值存在誤差。對(duì)于所有的擾動(dòng)項(xiàng)分布都要遵循正態(tài)分布,如圖所示。只有這樣線性回歸所估計(jì)出的模型才可以采信。
在對(duì)函數(shù)進(jìn)行擬合之后,我們可以得到一個(gè)線性模型:y=a+bx。其中,a 與b 是參數(shù)a 和b 的擬合值。y 是y 的估計(jì)值,也稱回歸值。其中,我們采用的同一個(gè)總體之中的不同樣本集也會(huì)得到不同的回歸直線。樣本集越大,樣本回歸直線越接近總體回歸直線。所以,我們?cè)谟?xùn)練線性模型的時(shí)候選取合適的樣本大小可以得到一個(gè)較為精確的回歸直線。
為了獲取線性參數(shù)a 和b,可以選擇最小二乘法,通過(guò)最小化真實(shí)值與估計(jì)值的誤差平方和(MSE)來(lái)進(jìn)行模型的判定。代價(jià)函數(shù)為下式:
得到關(guān)于擬合參數(shù)a 與b 的函數(shù)后,要求此函數(shù)極值要對(duì)兩個(gè)參數(shù)分別求偏導(dǎo),并使其偏導(dǎo)數(shù)為0。在此情況下求出的參數(shù)即為模型的擬合參數(shù)。在一元線性回歸之中,選擇這樣的方式是比較簡(jiǎn)便的。但在多元模型中,正規(guī)方程求解的辦法就會(huì)比較消耗時(shí)間,這時(shí)我們往往會(huì)選擇梯度下降法來(lái)求多元函數(shù)的極值。求解后可得:
上述結(jié)果即為通過(guò)正規(guī)方程求解法得出的,一元線性回歸擬合參數(shù)值。
多元線性回歸的主要特點(diǎn)是,自變量不再是一組數(shù)據(jù),而是由多于一組以上的數(shù)據(jù)作為自變量。所以,多元線性回歸的模型形式為:
多元線性回歸方程與一元線性回歸方程一樣,通過(guò)最小二乘法進(jìn)行參數(shù)估計(jì)。所以我們可以得出下式:
通過(guò)對(duì)此式求極值,可以得到一個(gè)針對(duì)不同參數(shù)求導(dǎo)的方程組,我們對(duì)這個(gè)方程組進(jìn)行整理,將方程組所有的數(shù)據(jù)項(xiàng)進(jìn)行展開(kāi),并參照矩陣乘法的方法,對(duì)所得出的式子繼續(xù)化簡(jiǎn),并得出參數(shù)矩陣b 的求解式子:
2.1.2 實(shí)驗(yàn)結(jié)果分析
由于2008年之前的實(shí)際值與當(dāng)前實(shí)際值相差較多,且年代久遠(yuǎn),近年來(lái)各影響因素都發(fā)生了很大的變化,因此參考意義不大,本文選用08年~19年共十二年的數(shù)據(jù),首先構(gòu)建一元線性回歸模型對(duì)數(shù)據(jù)進(jìn)行擬合,觀察擬合值,求得相對(duì)誤差如表4所示。
如表4,平均相對(duì)誤差為6.40%,由此可見(jiàn)使用關(guān)聯(lián)度最大的公路貨運(yùn)量為影響因素得到的一元線性回歸模型擬合效果一般。
表5 為使用關(guān)聯(lián)度0.55 以上的影響因素:公路貨運(yùn)量、鐵路營(yíng)業(yè)里程、工業(yè)增加值、第二產(chǎn)業(yè)增加值、國(guó)內(nèi)生產(chǎn)總值、進(jìn)出口總額(共六個(gè)),構(gòu)建多元線性回歸模型得到的擬合值與相對(duì)誤差。
平均相對(duì)誤差為0.86%,擬合效果較好。而采用主成分分析法與多元線性回歸模型得到的結(jié)果如表6所示。
平均相對(duì)誤差為0.75%,為幾種方法中擬合效果最好的。
通過(guò)對(duì)比一元線性回歸模型、灰色關(guān)聯(lián)分析與多元線性回歸模型結(jié)合、主成分分析法與多元線性回歸模型結(jié)合得到的擬合值與相對(duì)誤差,可以看出基于主成分分析法與多元線性回歸模型的擬合效果是最好的,一元線性回歸模型擬合效果較差,這也驗(yàn)證了鐵路貨運(yùn)需求量受多方影響,是一個(gè)很復(fù)雜的因變量,在預(yù)測(cè)過(guò)程中需要我們綜合考慮多方面的影響因素,才能更科學(xué)準(zhǔn)確地進(jìn)行預(yù)測(cè),只考慮一種很難得到理想的結(jié)果?;谥鞒煞址治龇ㄅc多元線性回歸模型的方法綜合考慮了多種影響因素,因此有較好的擬合效果。
本文采用主成分分析與多元線性回歸模型結(jié)合的方法對(duì)鐵路年度貨運(yùn)量進(jìn)行預(yù)測(cè),既可以解決影響因素的冗余的問(wèn)題,又可以綜合考慮影響因素的影響,不會(huì)漏掉關(guān)鍵影響因素。主要實(shí)驗(yàn)過(guò)程為首先對(duì)鐵路貨運(yùn)需求相關(guān)的影響因素進(jìn)行灰色關(guān)聯(lián)分析,并按關(guān)聯(lián)度大小排序,選出影響因素中關(guān)聯(lián)度較大的幾種,然后采用主成分分析法得到相關(guān)主成分,帶入多元線性回歸模型中,觀察擬合值與預(yù)測(cè)值,計(jì)算相對(duì)誤差。同時(shí)使用一元線性回歸模型、灰色關(guān)聯(lián)分析與多元線性回歸模型對(duì)處理過(guò)的數(shù)據(jù)集進(jìn)行分析,同樣得到相應(yīng)年份數(shù)據(jù)的擬合值,計(jì)算出相對(duì)誤差。形成對(duì)比試驗(yàn),通過(guò)比較相對(duì)誤差,得出結(jié)論基于主成分分析法與多元線性回歸模型的擬合效果是最好的,這種模型綜合考慮了所有影響因素,又避免了信息冗余,在鐵路年度貨運(yùn)量的預(yù)測(cè)中有較好的結(jié)果,相對(duì)誤差可達(dá)0.75%。
同時(shí)本文存在一定的局限性,未能將此方法應(yīng)用在月度數(shù)據(jù),或具體某一物品的年度鐵路貨運(yùn)量預(yù)測(cè)上,如煤炭、鐵礦石等,可在今后的實(shí)驗(yàn)中驗(yàn)證此種方法是否適用于其他場(chǎng)景。