房玄驊 王藝寧 劉夕
摘要:為提高成分?jǐn)?shù)據(jù)時(shí)序預(yù)測(cè)準(zhǔn)確性,提出一種以二階預(yù)測(cè)有效性作標(biāo)準(zhǔn)的多種數(shù)據(jù)處理方法的組合預(yù)測(cè)。選擇成分?jǐn)?shù)據(jù)的多種數(shù)據(jù)轉(zhuǎn)化方法,將有約束時(shí)序用對(duì)數(shù)比,中心對(duì)數(shù),超球面變換方法轉(zhuǎn)換成無(wú)約束時(shí)序后,利用ARIMA—ANN模型對(duì)轉(zhuǎn)換后無(wú)約束時(shí)序預(yù)測(cè),對(duì)結(jié)果做反變換,恢復(fù)為成分?jǐn)?shù)據(jù)得單項(xiàng)預(yù)測(cè)結(jié)果。最后對(duì)得到的單項(xiàng)預(yù)測(cè)結(jié)果進(jìn)行基于二階預(yù)測(cè)有效度的加權(quán)幾何平均組合,得到相對(duì)最優(yōu)的組合預(yù)測(cè)結(jié)果。
Abstract: In order to improve the accuracy of time series prediction of component data, a combined prediction of multiple data processing methods based on second-order prediction validity is proposed. Selecting a variety of data transformation methods for component data,after the constrained time series is transformed into the unconstrained time series by the logarithmic ratio, the central logarithm and the hypersphere transformation method, the ARIMA-ANN model is used to predict the unconstrained time series after the transformation, and the result is inversely transformed to restore the component data to a single prediction. result Finally, the weighted geometric mean combination based on the second-order prediction validity is obtained for the obtained single prediction result, and the relatively optimal combined prediction result is obtained.
關(guān)鍵詞:成分?jǐn)?shù)據(jù);組合預(yù)測(cè);預(yù)測(cè)有效度;對(duì)數(shù)比變換;中心對(duì)數(shù)變換;超球面變換
Key words: component data;combined prediction;prediction validity;log-ratio transformation;central logarithmic transformation;hypersphere transformation
中圖分類號(hào):O221.1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號(hào):1006-4311(2019)21-0192-03
0? 引言
作為一種廣泛運(yùn)用的數(shù)據(jù)類型,成分?jǐn)?shù)據(jù)有非常重要的作用,往往是整體的一部分,各個(gè)成分總為正,定和為1或其他常數(shù)[1]。其中一個(gè)成分增加,其余成分必減少,這意味著原始成分之間關(guān)系的標(biāo)準(zhǔn)統(tǒng)計(jì)分析結(jié)果會(huì)受到虛假效應(yīng)的影響,所以對(duì)于成分?jǐn)?shù)據(jù)的處理需嚴(yán)格控制。1986年,Aitchison提出對(duì)數(shù)變換方法,即基于對(duì)數(shù)變換將數(shù)據(jù)轉(zhuǎn)化為無(wú)約束的普通數(shù)據(jù),在預(yù)測(cè)后經(jīng)過(guò)反變換得最終預(yù)測(cè)。之后又出現(xiàn)了幾種對(duì)數(shù)轉(zhuǎn)化的成分?jǐn)?shù)據(jù)處理方法,如中心對(duì)數(shù)變換,對(duì)數(shù)比變換。此后王惠文又提出球坐標(biāo)變換的新方法[3],這幾種方法被廣泛的使用在各個(gè)領(lǐng)域的成分?jǐn)?shù)據(jù)預(yù)測(cè)和分析中[4,5,6]。
上述研究中基本只考慮單種模型的使用,而忽略單種模型可能不適合所有數(shù)據(jù)的可能情況。組合預(yù)測(cè)方法如文獻(xiàn)[7,8]等研究中,通過(guò)幾種模型的組合,使組合預(yù)測(cè)的方法能適用于大部分情況,起碼相對(duì)于單項(xiàng)方法是非劣的。本文基于已有研究,提出基于二階誤差有效度的多種成分?jǐn)?shù)據(jù)處理方法單項(xiàng)預(yù)測(cè)結(jié)果的組合預(yù)測(cè),以求得到一個(gè)更有普適性的精確模型。即在時(shí)間序列里,用三種成分?jǐn)?shù)據(jù)處理方法對(duì)成分?jǐn)?shù)據(jù)進(jìn)行轉(zhuǎn)化,用ARIMA-ANN模型擬合結(jié)果再反變換為成分?jǐn)?shù)據(jù)?;陬A(yù)測(cè)有效度,對(duì)三組預(yù)測(cè)值進(jìn)行加權(quán)幾何平均得到組合預(yù)測(cè)值。最后運(yùn)用實(shí)例數(shù)據(jù)實(shí)驗(yàn),比較驗(yàn)證該方法的合理性和有效性。
1? 預(yù)備知識(shí)
首先,成分?jǐn)?shù)據(jù)指任意非負(fù)的P元向量 式中T為時(shí)間,i表第i個(gè)成分, 表成分i第T時(shí)刻的值。對(duì)每個(gè)成分單獨(dú)擬合,相當(dāng)于把維度看為P,導(dǎo)致一系列不符合要求的預(yù)測(cè)。而三種數(shù)據(jù)變換方法先將其轉(zhuǎn)化為無(wú)約束的普通時(shí)序,對(duì)其擬合后再經(jīng)過(guò)反變換,得到成分?jǐn)?shù)據(jù)的預(yù)測(cè)值,且滿足定和約束。
1.1 中心對(duì)數(shù)變換
在預(yù)測(cè)之后對(duì)其進(jìn)行反變換,得到最終預(yù)測(cè)結(jié)果。
1.2 對(duì)數(shù)比變換
類似于上一種變換,先對(duì)原始序列中的前P-1個(gè)成分做變換得[4]:
對(duì)預(yù)測(cè)后數(shù)據(jù)反變換得到各成分最終預(yù)測(cè)。
1.3 球坐標(biāo)變換
基于將笛卡爾坐標(biāo),將數(shù)據(jù)變換到超球面的坐標(biāo)軸上。由于定和約束,使得球半徑為一個(gè)固定的數(shù)值如1。其變換過(guò)程中,先對(duì)原始序列中的所有 做開(kāi)方變換[3],即 ,再將此數(shù)據(jù)轉(zhuǎn)化為超球面坐標(biāo)數(shù)據(jù),由上式可知,半徑R=1。映射方程如下[3]:
通過(guò)反變換,可得最終預(yù)測(cè)值。
1.4 ARIMA—ANN預(yù)測(cè)模型
在本研究中對(duì)轉(zhuǎn)換后數(shù)據(jù)建立ARIMA模型。它的計(jì)算步驟可在參考文獻(xiàn)[7]中找到。此模型可以很好地對(duì)時(shí)間序列中的線性部分給出解釋,但是卻無(wú)法對(duì)時(shí)間序列的非線性部分給出很好的解釋,于是我們通過(guò)人工神經(jīng)網(wǎng)絡(luò)(ANN)的方法來(lái)對(duì)時(shí)間序列ARIMA模型擬合后得到的殘差做非線性的擬合。
我們認(rèn)為某時(shí)刻的預(yù)測(cè)殘差與該時(shí)刻原始值及其前K-1項(xiàng)有關(guān),以這K個(gè)值作為輸入,殘差作為輸出,使用ANN進(jìn)行擬合。兩種方法的擬合值的和作為最終的預(yù)測(cè)結(jié)果,這樣就既考慮了線性的部分,又包含了非線性的部分。
2? 基于預(yù)測(cè)有效度的幾何平均組合預(yù)測(cè)模型
定義2.1[8] 若 ,其中wj為指數(shù)加權(quán)向量且有 成立,則稱函數(shù)是n維加權(quán)幾何平均算子。
給與第i個(gè)方法一定的權(quán)重li,第i種方法得到的T時(shí)刻的成分j的預(yù)測(cè)值為 。那么最終的預(yù)測(cè)值 。對(duì)每個(gè)成分的預(yù)測(cè)值,根據(jù)重要性即權(quán)重,可給出成分?jǐn)?shù)據(jù)T時(shí)刻預(yù)測(cè)精度定義。
定義 以 作為第i種方法T時(shí)刻成分j的相對(duì)預(yù)測(cè)誤差時(shí),將 作為成分?jǐn)?shù)據(jù)的第i種方法在T時(shí)刻的相對(duì)預(yù)測(cè)誤差。則 為成分?jǐn)?shù)據(jù)的第i種單項(xiàng)預(yù)測(cè)方法在時(shí)刻T的預(yù)測(cè)精度。
其余的過(guò)程與普通時(shí)序數(shù)據(jù)相同,我們稱 為第i種單項(xiàng)預(yù)測(cè)方法在時(shí)刻T的一階預(yù)測(cè)有效度,同樣的我們稱
為第i種單項(xiàng)預(yù)測(cè)方法在時(shí)刻T的二階預(yù)測(cè)有效度[8]。以組合預(yù)測(cè)結(jié)果 作為一種預(yù)測(cè)結(jié)果,計(jì)算其對(duì)應(yīng)的二階預(yù)測(cè)有效度,找到使得二階預(yù)測(cè)有效度最大的一組權(quán)重li。即:
3? 模型實(shí)例求解分析
本文參考國(guó)泰安數(shù)據(jù),選取五大汽車生產(chǎn)企業(yè)中的一汽大眾企業(yè)每月生產(chǎn)客車,貨車,半掛牽引車生產(chǎn)量比例2016年1月到12月份的數(shù)據(jù),具體的數(shù)據(jù)情況如表1所示。
先利用成分?jǐn)?shù)據(jù)的三種數(shù)據(jù)處理方法對(duì)原始數(shù)據(jù)進(jìn)行轉(zhuǎn)換。三種方法分別將數(shù)據(jù)轉(zhuǎn)化為3維,2維,2維的數(shù)據(jù)且該數(shù)據(jù)不受約束,再用ARIMA先對(duì)轉(zhuǎn)化后數(shù)據(jù)擬合,擬合結(jié)果與真實(shí)值相比較得到殘差。對(duì)殘差利用類似滑動(dòng)窗的思想,選用了前2期的真實(shí)值作為影響殘差的輸入項(xiàng),殘差作為輸出項(xiàng),選用ANN進(jìn)行擬合,并選用兩層神經(jīng)網(wǎng)絡(luò)進(jìn)行擬合,將兩者的擬合結(jié)果進(jìn)行相加得到最終預(yù)測(cè)值。對(duì)得到的三種方法的數(shù)據(jù)集進(jìn)行預(yù)測(cè)之后,進(jìn)行反變換為成分?jǐn)?shù)據(jù),得到最終預(yù)測(cè)如表2所示。
在這認(rèn)為成分的重要性是相同的,即有w1=w2=w3=1/3,且第i種方法在T時(shí)刻的離散概率分布 ,即各點(diǎn)服從均勻分布。計(jì)算三種方法各個(gè)數(shù)據(jù)轉(zhuǎn)化方法的二階預(yù)測(cè)有效度為0.8766,0.8402,0.9026。此結(jié)果也可看出,球坐標(biāo)變換方法無(wú)論在一階還是二階預(yù)測(cè)有效度上都是優(yōu)于前兩種方法的。對(duì)比真實(shí)值,方法3的一階和二階預(yù)測(cè)有效度都比方法1和方法2要高。對(duì)三種預(yù)測(cè)結(jié)果進(jìn)行組合,給與相應(yīng)的權(quán)重,組合得到的最終預(yù)測(cè)值 。以此求得相應(yīng)的和,基于預(yù)測(cè)有效度最大原則,基于(4)式作優(yōu)化問(wèn)題。
lingo求得最優(yōu)權(quán)重為:l1=0,l2=0.0361,l3=0.9639,此時(shí)二階預(yù)測(cè)有效度為0.9088,可知球坐標(biāo)變換方法對(duì)最終組合預(yù)測(cè)結(jié)果的影響較大。對(duì)單項(xiàng)方法,可以發(fā)現(xiàn)組合預(yù)測(cè)結(jié)果較為準(zhǔn)確。因?yàn)榻M合預(yù)測(cè)方法權(quán)重在可能的取值中就包含了單項(xiàng)方法的結(jié)果,因此我們可以斷定的是該組合起碼是非劣的,該方法往往比單項(xiàng)數(shù)據(jù)轉(zhuǎn)換方法具有更優(yōu)秀的預(yù)測(cè)結(jié)果的。
參考文獻(xiàn):
[1]Reyment R A. The statistical analysis of compositional data[J]. Chemometrics & Intelligent Laboratory Systems, 1988, 3(4):254-256.
[2]Piepel D, Gregory F. The Statistical Analysis of Compositional Data[J]. Technometrics, 1988, 30(1):120-121.
[3]王惠文,劉強(qiáng).成分?jǐn)?shù)據(jù)預(yù)測(cè)模型及其在中國(guó)產(chǎn)業(yè)結(jié)構(gòu)趨勢(shì)分析中的應(yīng)用[J].管理評(píng)論,2002(5):27-29.
[4]Egozcue J J, Pawlowskyglahn V, Mateufigueras G. Isometric Logratio Transformations for Compositional Data Analysis[J]. Mathematical Geology, 2003, 35(3):279-300.
[5]寧自軍.成分?jǐn)?shù)據(jù)的預(yù)測(cè)方法與應(yīng)用[J].統(tǒng)計(jì)與決策, 2001(6):6-7.
[6]Bracci P, Bull S, Grynpas M D. Analysis of compositional bone density data using log ratio transformations[J]. Biometrics, 1998, 54(1):337-349.
[7]劉勇.ARIMA模型在我國(guó)能源消費(fèi)預(yù)測(cè)中的應(yīng)用[J].經(jīng)濟(jì)經(jīng)緯,2007,26(5):11-13.
[8]陳華友.基于預(yù)測(cè)有效度的組合預(yù)測(cè)模型研究[J].預(yù)測(cè),2001,20(3):72-73.