寧 暉
(中煤能源研究院有限責(zé)任公司,陜西 西安 710054)
投資估算是在項(xiàng)目決策階段,以方案設(shè)計(jì)為依據(jù),按照規(guī)定的程序和方法,對(duì)擬建項(xiàng)目所需總投資及其構(gòu)成進(jìn)行的預(yù)測(cè)和估計(jì)。估算投資作為論證擬建項(xiàng)目的重要經(jīng)濟(jì)指標(biāo),既是建設(shè)項(xiàng)目技術(shù)經(jīng)濟(jì)評(píng)價(jià)的基礎(chǔ),又是該項(xiàng)目在實(shí)施階段投資控制的目標(biāo)值[1-2]。因此,全面準(zhǔn)確快速地對(duì)建設(shè)項(xiàng)目投資進(jìn)行估算,是科學(xué)、客觀、有效地進(jìn)行項(xiàng)目決策的關(guān)鍵。投資估算方法較多,各有其適用的條件和范圍,一般可采用的估算方法有簡(jiǎn)單匡算法和分類詳細(xì)估算法[1-2]。簡(jiǎn)單匡算法計(jì)算簡(jiǎn)單、速度快,但估算誤差往往較大;分類詳細(xì)估算需要以詳細(xì)的工程資料為基礎(chǔ),估算精度高,但涉及專業(yè)多,工作量大,耗費(fèi)時(shí)間較多。在項(xiàng)目前期決策階段,尤其是投資機(jī)會(huì)研究和初步可行性研究階段,往往獲取的項(xiàng)目信息較少、設(shè)計(jì)深度不足、工程資料欠缺、時(shí)間要求緊迫,無(wú)法直接采用詳細(xì)指標(biāo)法進(jìn)行分類估算,但這一階段的投資估算對(duì)企業(yè)決策影響較大。為了在項(xiàng)目前期工作中,能夠快速、準(zhǔn)確估算項(xiàng)目的建設(shè)投資,在收集大量投資數(shù)據(jù)的基礎(chǔ)上,本文提出了采用數(shù)據(jù)挖掘的方法和技術(shù),建立起基于最小二乘支持向量機(jī)的投資估算模型。
支持向量機(jī)(support vector machine,SVM)是建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)之上的新型機(jī)器學(xué)習(xí)方法,專門針對(duì)小樣本學(xué)習(xí)問(wèn)題,以結(jié)構(gòu)風(fēng)險(xiǎn)最小化為原則,在很大程度上克服了傳統(tǒng)機(jī)器學(xué)習(xí)方法中的過(guò)學(xué)習(xí)、 非線性、 維數(shù)災(zāi)難以及局部極小值等問(wèn)題, 有很強(qiáng)的非線性處理能力和良好的泛化性能,在社會(huì)經(jīng)濟(jì)的多個(gè)領(lǐng)域都獲得越來(lái)越廣泛的研究和應(yīng)用[3-5]。
最小二乘支持向量機(jī)(least squares support vector machine,LS-SVM)作為SVM的改進(jìn)和推廣,采用誤差項(xiàng)的平方,將不等式約束改成等式約束,最終求解線性方程組即可,避免了求解二次規(guī)劃問(wèn)題,提高了求解問(wèn)題的速度和收斂精度[5]。
最小二乘支持向量回歸機(jī)可表述為式(1)和式(2)優(yōu)化問(wèn)題。
(1)
s.t.yi=(w×φ(xi))+b+ξi,i=1,…,l
(2)
式中:w為權(quán)向量;b為偏置;ξi為誤差項(xiàng);C>0為正則化參數(shù)。為求解上述優(yōu)化問(wèn)題,引入Lagrange函數(shù),見(jiàn)式(3)。
(3)
式中,α=(α1,α2,…,αl)T為拉格朗日乘子向量。
根據(jù)KKT條件,有式(4)~式(7)。
(4)
(5)
(6)
(7)
消去變量w和ξi,可得線性方程組,見(jiàn)式(8)。
(8)
式中:1e=[1,1,…,1]T,y=(y1,y2,…yl)T;Il為l×l單位矩陣;K為核矩陣,見(jiàn)式(9)。
(9)
式中:k(xi,xj)=(φ(xi)×φ(xj));i,j=1,2,…,l。
通過(guò)求解方程組,得到最優(yōu)解α*和b*,進(jìn)而可以得到最小二乘支持向量機(jī)的回歸函數(shù),見(jiàn)式(10)。
(10)
在支持向量機(jī)算法中,選擇合適的核函數(shù)是關(guān)鍵的一步,核函數(shù)的種類較多,常用的有以下幾種。
線性核函數(shù),見(jiàn)式(11)。
k(x,x′)=(x,x′)
(11)
多項(xiàng)式核函數(shù),見(jiàn)式(12)。
k(x,x′)=((x,x′)+1)d
(12)
徑向基核函數(shù)(radial basis function,RBF),見(jiàn)式(13)。
k(x,x′)=exp(-σ‖x-x′‖2)
(13)
基于回歸預(yù)測(cè)的基本思想,應(yīng)用最小二乘支持向量機(jī)進(jìn)行項(xiàng)目投資估算的算法包括數(shù)據(jù)預(yù)處理、選擇最優(yōu)參數(shù)、訓(xùn)練模型及擬合預(yù)測(cè)四個(gè)步驟,流程如圖1所示。
圖1 基于LS-SVM的投資估算流程圖Fig.1 Flowchart of investment estimationbased on LS-SVM
基于LS-SVM的投資估算算法詳細(xì)描述如下所述。
第一步:數(shù)據(jù)預(yù)處理。對(duì)輸入樣本集W={(X1,Y1),(X2,Y2),…,(Xm,Ym)}進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)規(guī)約等,消除噪聲數(shù)據(jù)如離群值或重復(fù)值等異常點(diǎn)、刪除不相關(guān)及冗余變量,并對(duì)數(shù)據(jù)進(jìn)行[0,1]區(qū)間歸一化,得到數(shù)據(jù)集D={(x1,y1),(x2,y2),…,(xn,yn)}。
第二步:交叉驗(yàn)證選擇參數(shù)。將數(shù)據(jù)集D隨機(jī)地分成包含l個(gè)樣本點(diǎn)的訓(xùn)練集Train和包含k個(gè)樣本點(diǎn)的測(cè)試集Test,且l+k=n。
選取線性核或徑向基(RBF)核,學(xué)習(xí)最優(yōu)的懲罰參數(shù)C與RBF核參數(shù)σ。
1) forC=2-10,2-9.5,2-9,…,29.5,210;
2) forσ=2-10,2-9.5,2-9,…,29.5,210(注:線性核無(wú)此參數(shù)循環(huán));
3) fori=1,…,10;
4) 將訓(xùn)練集Train隨機(jī)分成10份,以其中9份合在一起建立模型,用剩余一份作為測(cè)試,計(jì)算出均方根誤差等評(píng)價(jià)指標(biāo);
5) End;
6) 計(jì)算10組實(shí)驗(yàn)均方根誤差的平均值;
7) End;
8) End。
比較C和σ所有組賦值下的均方根誤差,選擇最小值對(duì)應(yīng)的C和σ為最優(yōu)參數(shù)。
為了衡量算法的學(xué)習(xí)性能,常見(jiàn)的評(píng)價(jià)回歸算法性能的指標(biāo)有均方根誤差(root mean squared error,RMSE)和決定性系數(shù)(R2)。 定義見(jiàn)式(14)和式(15)。
(14)
(15)
煤炭建設(shè)項(xiàng)目的投資受礦山地質(zhì)條件(資源賦存深度、煤層結(jié)構(gòu)及厚度、頂?shù)装鍘r性等)、礦井技術(shù)條件(采煤方法、開(kāi)拓方式、采掘工作機(jī)械化程度等)、項(xiàng)目廠址條件(交通、供水、供電、原材料供應(yīng)等)、政策環(huán)境條件及價(jià)格市場(chǎng)條件等因素的影響[6-7]。不同條件下,投資水平的差異較大。以井工礦為主要研究對(duì)象,本文設(shè)置的主要特征包括項(xiàng)目地點(diǎn)、項(xiàng)目設(shè)計(jì)時(shí)間、設(shè)計(jì)生產(chǎn)能力、建設(shè)工期、設(shè)計(jì)階段、開(kāi)拓方式、井筒施工方法、采煤方法(工藝)、采煤工作面、瓦斯等級(jí)、水文地質(zhì)類型、煤層埋深、煤層傾角、是否為軟巖等主要信息。詳細(xì)見(jiàn)表1。本文提取特征主要從地質(zhì)賦存和工藝設(shè)計(jì)等方面考慮了與投資關(guān)聯(lián)度較高的條件及因素,并且全部信息可以從項(xiàng)目設(shè)計(jì)文件中提取。在實(shí)際預(yù)測(cè)中,需要做進(jìn)一步的數(shù)值分析,去除無(wú)關(guān)及冗余特征。
表1 井工礦主要特征表Table 1 Main features of coal mine
續(xù)表1
本文研究的建設(shè)投資中剔除了礦權(quán)價(jià)款、預(yù)備費(fèi)及某些項(xiàng)目特有的費(fèi)用等,并且礦井配套的鐵路專用線、礦井水深度處理或其他特殊工程的投資等均不包含在本次分析范圍之內(nèi)。本文數(shù)據(jù)實(shí)驗(yàn)所有程序在Matlab中編碼實(shí)現(xiàn)。
本次建模使用的礦井樣本數(shù)據(jù)主要來(lái)源于設(shè)計(jì)文件,包括可行性研究報(bào)告及初步設(shè)計(jì)等,共計(jì)45個(gè),其中可研數(shù)據(jù)31個(gè),初設(shè)數(shù)據(jù)14個(gè)。項(xiàng)目所在地區(qū)涵蓋了陜西省(榆林市、府谷縣、咸陽(yáng)市)、山西省(晉中市、晉城市、太原市)、內(nèi)蒙古自治區(qū)(鄂爾多斯市)、新疆維吾爾自治區(qū)(哈密市、塔城市、伊犁哈薩克自治州)、甘肅省、貴州省、云南省、青海省等主要產(chǎn)煤地區(qū);項(xiàng)目設(shè)計(jì)生產(chǎn)規(guī)模主要集中在1.2~15.0 Mt/a范圍內(nèi);開(kāi)拓方式以立井和斜井開(kāi)拓為主。樣本具有較強(qiáng)的代表性和較好的學(xué)習(xí)價(jià)值。
首先,在對(duì)所有字符性變量進(jìn)行數(shù)值化處理的基礎(chǔ)上,分別繪制了設(shè)計(jì)生產(chǎn)能力、開(kāi)拓方式、設(shè)計(jì)時(shí)間和項(xiàng)目地點(diǎn)四個(gè)變量與噸煤投資的關(guān)系箱體圖[8],如圖2所示。由圖2可知,不同維度下的投資分布特征,通過(guò)觀察和對(duì)比,初步判斷第35個(gè)樣本點(diǎn)為異常點(diǎn)。其次,對(duì)所有變量進(jìn)行了關(guān)聯(lián)分析,計(jì)算了兩兩變量間的Pearson相關(guān)系數(shù)[8],見(jiàn)表2。由表2可知,設(shè)計(jì)生產(chǎn)能力與噸煤投資關(guān)聯(lián)度最大,為負(fù)相關(guān)關(guān)系;而設(shè)計(jì)階段、水文地質(zhì)類型與建設(shè)投資的相關(guān)系數(shù)均小于0.3,表示關(guān)系極弱,認(rèn)為不相關(guān)。最后,對(duì)數(shù)據(jù)進(jìn)行[0,1]區(qū)間歸一化,轉(zhuǎn)換函數(shù),見(jiàn)式(16)[9]。
表2 變量相關(guān)系數(shù)表Table 2 Variable correlation coefficient
圖2 主要變量與噸煤投資的關(guān)系箱體圖Fig.2 Box diagram of the relationship between main variables and tons of coal investment
(16)
按照交互驗(yàn)證的方法選擇最優(yōu)參數(shù),將訓(xùn)練樣本集合隨機(jī)分成10份,其中9份合在一起建立模型,用剩余1份作為測(cè)試。這樣,最小二乘支持向量機(jī)在10組不同的訓(xùn)練集和測(cè)試集上進(jìn)行實(shí)驗(yàn),取10次實(shí)驗(yàn)的平均結(jié)果作為預(yù)測(cè)結(jié)果。
由表3可知,采用線性核函數(shù)和RBF核函數(shù)的最小二乘支持向量回歸機(jī)所得的確定性系數(shù)R2都超過(guò)了0.9,MSE值分別為0.005 0和0.003 3,預(yù)測(cè)結(jié)果良好。但相比較,采用RBF核函數(shù)的最小二乘支持向量回歸機(jī)在井工礦噸煤投資估算上獲得了更優(yōu)的預(yù)測(cè)精度。
表3 模型最優(yōu)參數(shù)與評(píng)價(jià)指標(biāo)結(jié)果表Table 3 Model optimal parameters and evaluationindex results
最優(yōu)參數(shù)選定后,利用兩種核函數(shù)在35個(gè)訓(xùn)練樣本集上分別進(jìn)行模型訓(xùn)練,得到各自的最優(yōu)決策函數(shù),再通過(guò)最優(yōu)決策函數(shù)分別對(duì)8個(gè)測(cè)試樣本點(diǎn)進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果見(jiàn)表4、圖3和圖4。
表4 井工礦噸煤投資預(yù)測(cè)結(jié)果Table 4 Forecast results of coal mine investment 單位:元/t
由表4可知,使用RBF核函數(shù)的最小二乘支持向量回歸機(jī)在測(cè)試集上預(yù)測(cè)的最大相對(duì)誤差為24.43%,不超過(guò)投資機(jī)會(huì)研究階段投資估算的允許誤差率30%[7];預(yù)測(cè)相對(duì)誤差介于10%~20%之間的有兩個(gè)樣本點(diǎn),分別為17.79%和19.98%,低于初步可行性研究(項(xiàng)目建議書(shū))階段投資估算的允許誤差率20%[7];其余5個(gè)測(cè)試樣本點(diǎn)的預(yù)測(cè)相對(duì)誤差全部小于可行性研究階段投資估算的允許誤差率10%[7],最小相對(duì)誤差為1.83%;預(yù)測(cè)的相對(duì)誤差平均值為10.95%。
由圖3和圖4也可以看出,該模型具有較高的預(yù)測(cè)精度和較強(qiáng)的泛化性能。但相比較,采用RBF核函數(shù)的最小二乘支持向量回歸機(jī)的預(yù)測(cè)值和真實(shí)值具有更好的吻合效果。
圖3 線性核函數(shù)預(yù)測(cè)結(jié)果Fig.3 Prediction results using linear kernel function
圖4 RBF核函數(shù)預(yù)測(cè)結(jié)果Fig.4 Prediction results using RBF kernel function
除了隨機(jī)數(shù)據(jù)實(shí)驗(yàn),本文選取了山西省某礦井(2011年9月可研,斜井)、陜西省某礦井(2017年12月可研,斜井)、內(nèi)蒙古自治區(qū)某一礦井(2018年3月初設(shè),立井)、云南省某礦井(2015年9月初設(shè),立井)、內(nèi)蒙古自治區(qū)某二礦井(2012年3月初設(shè),立井)等項(xiàng)目作為擬建項(xiàng)目,假設(shè)投資未知,分別用兩種核函數(shù)的最小二乘支持向量機(jī)算法和簡(jiǎn)單匡算法中的生成能力指數(shù)法進(jìn)行投資預(yù)測(cè),結(jié)果見(jiàn)表5和圖5。
圖5 實(shí)際項(xiàng)目投資預(yù)測(cè)對(duì)比圖Fig.5 Comparison chart of actual project investment forecast
由表5可知,生產(chǎn)能力指數(shù)法預(yù)測(cè)誤差較大,對(duì)所有項(xiàng)目的投資預(yù)測(cè)精度均低于最小二乘支持向量回歸機(jī)算法。 而最小二乘支持向量回歸機(jī)算法除了對(duì)陜西某礦井的投資預(yù)測(cè)相對(duì)誤差高于10%以外,對(duì)其他項(xiàng)目采用兩種核函數(shù)預(yù)測(cè)的相對(duì)誤差全部小于10%,其中RBF核函數(shù)的整體性能優(yōu)于線性核函數(shù)。
表5 實(shí)際項(xiàng)目投資預(yù)測(cè)結(jié)果對(duì)比表Table 5 Prediction results of actual project investment 單位:元/t
造成以上結(jié)果差異的主要原因在于兩種方法的預(yù)測(cè)原理存在本質(zhì)區(qū)別:生產(chǎn)能力指數(shù)法預(yù)測(cè)項(xiàng)目投資時(shí),只與搜尋到的目標(biāo)項(xiàng)目有關(guān),合適的目標(biāo)項(xiàng)目是否存在以及其投資是否合理直接影響預(yù)測(cè)結(jié)果的準(zhǔn)確性,另外,計(jì)算公式中的指數(shù)和綜合系數(shù)的確定受主觀經(jīng)驗(yàn)影響較大;支持向量機(jī)算法在去除數(shù)據(jù)集中異常數(shù)據(jù)點(diǎn)后,每次預(yù)測(cè)都會(huì)學(xué)習(xí)數(shù)據(jù)集中所有樣本的特征和投資之間的隱含關(guān)系,綜合了全部樣本信息,另外,模型中的參數(shù)以網(wǎng)格搜索的方式尋找最優(yōu),強(qiáng)調(diào)的是模型的泛化性能。
1) 本文模型技術(shù)特征提取簡(jiǎn)單方便、迅速快捷,避免了分類指標(biāo)估算時(shí),技術(shù)人員詳細(xì)設(shè)計(jì)各單體工程技術(shù)參數(shù)與具體工程量的過(guò)程,節(jié)省了估算時(shí)間,提高了工作效率。
2) 本文模型訓(xùn)練過(guò)程科學(xué)合理、準(zhǔn)確高效,綜合了數(shù)據(jù)集中所有樣本數(shù)據(jù)(去除異常點(diǎn))的全部信息,避免了依據(jù)類似項(xiàng)目進(jìn)行投資估算時(shí)的主觀性和偏差性,降低了估算誤差。
3) 本文模型具有動(dòng)態(tài)學(xué)習(xí)的優(yōu)勢(shì),隨著新的樣本數(shù)據(jù)不斷加入,可以不斷優(yōu)化模型、更新估算投資,進(jìn)一步提高預(yù)測(cè)精度。