• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于隨機(jī)抽取的AR模型定階和參數(shù)評(píng)估

      2017-01-09 02:44:28尹慧萍朱建平太原理工大學(xué)數(shù)學(xué)學(xué)院太原030024廈門(mén)大學(xué)管理學(xué)院福建廈門(mén)36005
      統(tǒng)計(jì)與決策 2016年24期
      關(guān)鍵詞:階數(shù)參數(shù)估計(jì)系數(shù)

      劉 源,尹慧萍,朱建平,2(.太原理工大學(xué) 數(shù)學(xué)學(xué)院,太原 030024;2.廈門(mén)大學(xué) 管理學(xué)院,福建 廈門(mén) 36005)

      基于隨機(jī)抽取的AR模型定階和參數(shù)評(píng)估

      劉 源1,尹慧萍1,朱建平1,2
      (1.太原理工大學(xué) 數(shù)學(xué)學(xué)院,太原 030024;2.廈門(mén)大學(xué) 管理學(xué)院,福建 廈門(mén) 361005)

      文章基于對(duì)平穩(wěn)時(shí)間序列數(shù)據(jù)的隨機(jī)抽取,選用AR模型研究其模型定階方法和參數(shù)評(píng)估準(zhǔn)則。根據(jù)數(shù)據(jù)有序性的特點(diǎn),提出利用交叉驗(yàn)證的方法確定自回歸模型階數(shù),并通過(guò)對(duì)原數(shù)據(jù)的無(wú)放回抽取實(shí)現(xiàn)對(duì)系數(shù)參數(shù)估計(jì)的評(píng)估。實(shí)例分析結(jié)果表明,交叉驗(yàn)證的定階與AIC準(zhǔn)則定階結(jié)果保持較高一致性,新的參數(shù)評(píng)估在一定的模型誤差范圍內(nèi)可以得到更為簡(jiǎn)單有效的系數(shù)估計(jì)區(qū)間。

      隨機(jī)抽?。籄R模型;模型定階;參數(shù)評(píng)估

      0 引言

      時(shí)間序列分析的時(shí)域方法研究一般是分析樣本的自相關(guān)函數(shù),并建立參數(shù)模型來(lái)描述序列的動(dòng)態(tài)依賴(lài)關(guān)系。常用的模型有自回歸模型(Auto-regressive,AR)、移動(dòng)平均模型(Moving Average,MA)和混合模型(Auto-regressive Moving Average,ARMA)。由Wold分解定理[1]可知,任何一個(gè)具有有限方差的ARMA過(guò)程和MA過(guò)程都可以表示成AR過(guò)程,而且對(duì)AR模型參數(shù)估計(jì)得到的是線性方程,計(jì)算簡(jiǎn)便,所以基于AR模型的研究是最常見(jiàn)的。

      在AR的建模過(guò)程中,對(duì)于階數(shù)的確定和模型參數(shù)的估計(jì)是建模中很重要的步驟。從自相關(guān)函數(shù)出發(fā)的模型定階與參數(shù)估計(jì)一直是時(shí)間序列分析的主要研究方向之一。在時(shí)域中多數(shù)學(xué)者采用構(gòu)造統(tǒng)計(jì)量的方法來(lái)確定模型的階數(shù),確定有效階數(shù)后對(duì)AR模型的參數(shù)進(jìn)行求解估計(jì)。在頻域中,平穩(wěn)時(shí)間序列的自相關(guān)函數(shù)是功率譜密度函數(shù),人們根據(jù)計(jì)算時(shí)間和精確度提出適用不同應(yīng)用場(chǎng)合的多種算法,例如L-D遞推算法、Gram-Schmidt正à法等[2]。信息準(zhǔn)則法在時(shí)間序列模型選擇中也起著很重要的作用,AIC準(zhǔn)則是Akaika(1973)基于對(duì)數(shù)化的似然函數(shù)設(shè)計(jì)的一個(gè)方法來(lái)近似K-L距離,該準(zhǔn)則既考慮擬合模型對(duì)數(shù)據(jù)的接近程度,也考慮模型中所含待定參數(shù)的個(gè)數(shù)。與使用R2作為標(biāo)準(zhǔn)一樣,AIC有著良好的理論依據(jù)[3],Akaika在1976年改進(jìn)的BIC方法避免了大樣本情況下AIC準(zhǔn)則在選擇階數(shù)時(shí)收斂性不好的缺點(diǎn)。

      本文主要從時(shí)域方法角度對(duì)時(shí)間序列進(jìn)行探討,對(duì)于模型階數(shù)的確定,借鑒PCR、PLS回歸建模中常用的à叉驗(yàn)證方法,通過(guò)double-foldà叉驗(yàn)證,用兩次所得的均方預(yù)測(cè)誤差和來(lái)確定模型階數(shù)的選取。在模型參數(shù)估計(jì)的評(píng)估中,使用隨機(jī)多次抽取原時(shí)間序列部分?jǐn)?shù)據(jù)進(jìn)行參數(shù)估計(jì),從預(yù)測(cè)精度和模型穩(wěn)健性?xún)煞矫鎭?lái)評(píng)價(jià)自回歸方程。

      1 AR模型及其計(jì)算方法

      一般來(lái)說(shuō),以時(shí)間序列數(shù)據(jù)為依據(jù)的實(shí)證研究分析都必須假定有關(guān)的時(shí)間序列是平穩(wěn)的,否則會(huì)導(dǎo)致謬誤回歸的出現(xiàn)。本文中模型階數(shù)確定和參數(shù)估計(jì)中進(jìn)行隨機(jī)抽取也需要所研究序列的平穩(wěn)性這一假設(shè),這樣使得自回歸模型的假設(shè)條件滿足經(jīng)典線性回歸模型。所以首先對(duì)原始序列進(jìn)行檢驗(yàn)判別平穩(wěn)性,若序列不平穩(wěn)則通過(guò)差分使數(shù)據(jù)達(dá)到平穩(wěn)。

      1.1 AR模型簡(jiǎn)介

      設(shè)平穩(wěn)時(shí)間序列{yt}是一個(gè)AR(p)過(guò)程,則序列{yt}滿足:

      其中,{εt}是隨機(jī)誤差序列,對(duì)于任意的t,滿足假設(shè)條件E(εt)=0,Var(εt)=σ2>0,Cov(εi,εj)=0,i≠j。?1,…,?p稱(chēng)為自回歸系數(shù)。

      記Bk為k步滯后算子,則AR(p)平穩(wěn)的條件是滯后算子多項(xiàng)式?(B)=1-?1B-…-?pBp的根均在單位圓外。對(duì)AR(p)進(jìn)行參數(shù)估計(jì)常用的方法是最小二乘估計(jì)和極大似然估計(jì),本文采用極大似然法估計(jì)參數(shù),并計(jì)算中不同階數(shù)下的AIC值變化。

      1.2 階數(shù)確定

      PCR、PLS回歸建模中的à叉驗(yàn)證是為了選取多個(gè)主成分來(lái)做回歸分析,校驗(yàn)每個(gè)主成分下的PRESS值,選擇PRESS值小的主成分?jǐn)?shù),這樣可以得到可靠穩(wěn)定的模型[3]。

      利用double-foldà叉驗(yàn)證來(lái)確定模型的階數(shù)p,將原始數(shù)據(jù)集{yt}均分為兩份樣本:一份樣本被保留作為測(cè)試集,另一樣本用來(lái)做訓(xùn)練,用測(cè)試集去驗(yàn)證;之后再將訓(xùn)練集作為測(cè)試集,測(cè)試集作為訓(xùn)練集進(jìn)行迭代一次,將兩次所得的誤差和作為預(yù)測(cè)誤差[4]。

      本文定義:

      其中,V表示均勻分割的兩個(gè)不相à數(shù)據(jù)集,記作ν1、ν2,??(-ν)是基于ν數(shù)據(jù)集的數(shù)據(jù)進(jìn)行的參數(shù)估計(jì),Q(ν)是在ν數(shù)據(jù)集上定義的函數(shù),用均方預(yù)測(cè)誤差來(lái)衡量擬合的優(yōu)劣,其定義為:

      使得CVscore最小的p為最佳模型階數(shù)[5,6]。

      當(dāng)原序列數(shù)據(jù)的個(gè)數(shù)n很大的情況下,可以隨機(jī)抽取部分?jǐn)?shù)據(jù)做à叉驗(yàn)證,具體操作是:從原始數(shù)據(jù)集{yt}中隨機(jī)抽取一段數(shù)據(jù)作為測(cè)試集,再?gòu)闹谐槿∨c測(cè)試集不相à的一段數(shù)據(jù)作為訓(xùn)練集,之后進(jìn)行double-foldà叉驗(yàn)證計(jì)算CVscore值。在平穩(wěn)時(shí)間序列的假設(shè)條件下,隨機(jī)抽取部分?jǐn)?shù)據(jù)作為研究集可以避免數(shù)據(jù)量龐大帶來(lái)的復(fù)雜計(jì)算過(guò)程。

      在評(píng)價(jià)回歸方程的標(biāo)準(zhǔn)當(dāng)中,殘差平方和RSS從數(shù)據(jù)與模型擬合優(yōu)劣的角度出發(fā),反映了實(shí)際數(shù)據(jù)與理論模型的偏離程度;也可以從預(yù)測(cè)精度出發(fā)導(dǎo)出選取自回歸的變量集,看預(yù)報(bào)值與真實(shí)值偏離程度,而CVscore的計(jì)算兼有兩者,使得模型在階數(shù)的選取上更為穩(wěn)定可靠。

      1.3 評(píng)估

      對(duì)于時(shí)間序列數(shù)據(jù)的建模分析,大多關(guān)注于兩個(gè)方面:一是預(yù)測(cè)性能,是否確定階數(shù)后的自回歸變量和其對(duì)應(yīng)的回歸方程可以對(duì)沒(méi)有參與模型參數(shù)估計(jì)的數(shù)據(jù)進(jìn)行合理的預(yù)測(cè);二是回歸自變量的穩(wěn)定性,時(shí)間序列相鄰的數(shù)據(jù)之間的依賴(lài)關(guān)系是有變化的,不同數(shù)據(jù)集下模型的自變量系數(shù)參數(shù)估計(jì)是會(huì)略有不同的。另外,評(píng)價(jià)模型需要基于獨(dú)立的數(shù)據(jù)集。

      本文提出基于隨機(jī)抽取的模型預(yù)測(cè)評(píng)估,如下所示:

      (1)在原始序列數(shù)據(jù)中隨機(jī)選取n1長(zhǎng)度的數(shù)據(jù)集作為訓(xùn)練集,剩余的數(shù)據(jù)集n2作為測(cè)試集,其中n1+n2=n。本文使用

      (2)利用訓(xùn)練集中的時(shí)間序列數(shù)據(jù)進(jìn)行AR模型的參數(shù)估計(jì),本文使用double-foldà叉驗(yàn)證確定的階數(shù)p。

      (3)用訓(xùn)練集得出的回歸方程預(yù)測(cè)測(cè)試集中的數(shù)據(jù),計(jì)算均方預(yù)測(cè)誤差MSEP。

      (4)為了避免選取數(shù)據(jù)集時(shí)的偶然性,重復(fù)步驟(1)至步驟(3)300次,每一次都有新的隨機(jī)抽取訓(xùn)練集和MSEP的計(jì)算。

      對(duì)于以上的預(yù)測(cè)評(píng)估方法,可以評(píng)估出自回歸當(dāng)中穩(wěn)定的自變量參數(shù)估計(jì)的范圍。其基本原理是,如果自回歸中的自變量是重要的或者穩(wěn)定的,那么它的估計(jì)系數(shù)就會(huì)為不同數(shù)據(jù)集建立的模型變量而多次出現(xiàn)在一定的數(shù)值范圍內(nèi)。由于時(shí)間序列數(shù)據(jù)的有序性以及無(wú)法獲得多個(gè)獨(dú)立的數(shù)據(jù)集,采取了隨機(jī)抽取的辦法。在一定的誤差范圍內(nèi),記錄自回歸模型中某一自變量系數(shù)參數(shù)多次估計(jì)得到的數(shù)值,得到穩(wěn)定的合理估值范圍。

      AR模型作為回歸模型,系數(shù)參數(shù)的估計(jì)是可以通過(guò)Bootstrap的模擬重抽樣來(lái)估計(jì)系數(shù)的分布[7]。本文把原始數(shù)據(jù)集{yt}當(dāng)做總體,從中有放回的重新抽樣,重抽樣樣本大小仍為n,可以構(gòu)造得到系數(shù)參數(shù)估計(jì)的置信區(qū)間。本文通過(guò)預(yù)測(cè)評(píng)估方法得到系數(shù)參數(shù)的估計(jì)區(qū)間是在對(duì)序列{yt}無(wú)放回的部分?jǐn)?shù)據(jù)隨機(jī)抽樣并進(jìn)行參數(shù)估計(jì),在大致確定的模型預(yù)測(cè)誤差范圍內(nèi)得到簡(jiǎn)單有效的多次系數(shù)估計(jì)分布圖。

      2 實(shí)例分析

      本文選用小木蟲(chóng)網(wǎng)站上公開(kāi)的數(shù)據(jù)集:氧的同位素水平,該數(shù)據(jù)是在3000年時(shí)間里反向時(shí)間的180對(duì)160的同位素比率,相鄰數(shù)據(jù)之間的時(shí)間間隔為3年,這對(duì)于研究氣候模式和氣候變化,以及地球軌道的動(dòng)力學(xué)研究有很大的參考價(jià)值。

      本文把原始數(shù)據(jù)轉(zhuǎn)變成正向時(shí)間序列數(shù)據(jù)后,對(duì)其進(jìn)行平穩(wěn)性檢驗(yàn),通過(guò)調(diào)用R軟件包fUnitRoots中的urdfTest (x)函數(shù),分析結(jié)果為F統(tǒng)計(jì)量5.171,p值為0.005854,則拒絕原假設(shè),認(rèn)為同位素比率序列數(shù)據(jù)是平穩(wěn)的[8]。

      利用前文中提到的double-foldà叉驗(yàn)證來(lái)確定模型的階數(shù),計(jì)算p取不同值時(shí)的CVscore值,找到使之最小的p為最佳模型階數(shù);并且通過(guò)與不同階數(shù)下的AIC值進(jìn)行對(duì)比,考察定階方法的有效性(對(duì)CVscore值和MSEP值進(jìn)行同倍放大減去同數(shù)的處理,使其和AIC值隨階數(shù)的變化可以在同一個(gè)圖中觀察)。

      圖1 CVscore和AIC定階曲線圖

      從圖1中可以看出,AIC的曲線在階數(shù)p到達(dá)3以后變化呈現(xiàn)出穩(wěn)定的態(tài)勢(shì),在12處取得最小值,得到最優(yōu)自回歸變量集(AIC值為R軟件中arima0(x)函數(shù)計(jì)算所得);CVscore曲線和兩個(gè)訓(xùn)練集下的MSEP曲線都是隨著 p的增大而逐漸上升,CVscore值分別在3、5和12處最小或變化最小,與AIC準(zhǔn)則的判別結(jié)果保持一致。這表明利用à叉驗(yàn)證確定最優(yōu)集的階數(shù)是可行的。

      根據(jù)本文所提出的基于隨機(jī)抽取的模型預(yù)測(cè)評(píng)估操作實(shí)現(xiàn),得到了在階數(shù)p為3時(shí),300次隨機(jī)抽取的訓(xùn)練數(shù)據(jù)的參數(shù)估計(jì)及其預(yù)測(cè)方差。

      圖2 300次估計(jì)參數(shù)和預(yù)測(cè)誤差分布圖

      圖2分別為一次隨機(jī)300次自回歸變量的第一至第三的系數(shù)估計(jì)與預(yù)測(cè)誤差的直方圖和密度估計(jì)曲線,MSEP值的分布顯示,300次隨機(jī)抽取模型估計(jì)的預(yù)測(cè)誤差90%以上是在數(shù)值16~18的范圍內(nèi)的,模型的多次估計(jì)是穩(wěn)定有效的。在參數(shù)的估計(jì)方面,?1系數(shù)估計(jì)有30%以上在(1.05,0.1)中,?2的估計(jì)值有將近一半在(- 0.15,-0.1)的范圍,?3的估計(jì)40%以上落在了(- 0.14,-0.12)內(nèi);分布范圍中,?2的取值范圍遠(yuǎn)大于其他系數(shù)范圍,表明自回歸變量yt-2在自回歸模型建模中并沒(méi)有yt-1和yt-3穩(wěn)定。

      表1 系數(shù)參數(shù)的Bootstrap

      本文做出模擬500次的自回歸模型的Bootstrap,得到回歸系數(shù)參數(shù)估計(jì)的95%的置信區(qū)間。通過(guò)對(duì)比可以發(fā)現(xiàn),表1中得到的yt-1、yt-2和yt-3系數(shù)的置信區(qū)間與圖2中隨機(jī)抽取得到的各個(gè)系數(shù)估計(jì)分布圖的數(shù)值上下限相一致;自回歸變量yt-2系數(shù)估計(jì)顯著性檢驗(yàn)(p值>0.05)表明該變量在模型中的不穩(wěn)定性,參數(shù)置信區(qū)間的估計(jì)范圍也相對(duì)較大。另外,新提出的參數(shù)評(píng)估方法可以更為方便準(zhǔn)確地找到模型系數(shù)參數(shù)穩(wěn)定的估計(jì)區(qū)間,同時(shí)也避免了由回歸變量不穩(wěn)定引起的系數(shù)參數(shù)估計(jì)未通過(guò)顯著性檢驗(yàn)而沒(méi)有統(tǒng)計(jì)學(xué)意義的問(wèn)題。

      3 總結(jié)

      本文以AR模型為研究模型,針對(duì)平穩(wěn)的時(shí)間序列數(shù)據(jù),提出了基于隨機(jī)抽取的模型定階方法和參數(shù)評(píng)估。通過(guò)氧同位素比率的數(shù)據(jù)進(jìn)行實(shí)例分析,結(jié)果表明double-foldà叉驗(yàn)證來(lái)確定模型的階數(shù)是可行有效的,以原始數(shù)據(jù)為樣本的隨機(jī)抽取可以得到一定模型誤差范圍內(nèi)穩(wěn)定合理的系數(shù)估計(jì)區(qū)間。

      由于時(shí)間序列數(shù)據(jù)有序性的特征,à叉驗(yàn)證并不是真正的;在序列長(zhǎng)度n很大的情況下,隨機(jī)抽取部分?jǐn)?shù)據(jù)進(jìn)行à叉驗(yàn)證更為簡(jiǎn)便可行。本文提出的參數(shù)評(píng)估,較之回歸模型Bootstrap的參數(shù)估計(jì)置信區(qū)間,估計(jì)區(qū)間更為簡(jiǎn)單有效,并且避免了數(shù)據(jù)量很大時(shí)統(tǒng)計(jì)檢驗(yàn)失效的情況。

      [1]Kay S M,Marple S L.Spectrum Analysis——A Modern Perspective [J].Proceedings of IEEE,1981,69(11).

      [2]衡思坤,郭昊坤,吳軍基,應(yīng)展烽.離散序列AR模型定階方法研究[J].微計(jì)算機(jī)信息,2012,28(9).

      [3]Xu Q S,Liang Y Z.Monte Carlo Cross Validation[J].Chemometrics and Intelligent Laboratory Systems,2001,(56).

      [4]Burnham K P,Anderson D R.Model Selection and Multimodel Infer?ence:A Practical Information-Theoretic Approach[M].New York: Springer,2002.

      [5]Huang J,Ma S G.Variable Selection in the Accelerated Failure Time Model via the Bridge Method[J].Lifetime Data Anal,2010,16(2).

      [6]Jiang P,Wu H N.RF-DYMHC:Detecting the Yeast Meiotic Recom?bination Hotspots and Coldspots by Random Forest Model Using Gapped Dinucleotide Composition Features[J].Nucleic Acids Re?search,2007,(35).

      [7]Kohavi R.A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection[J].Computer Science Department, 1995.

      [8]薛毅,陳立萍.R統(tǒng)計(jì)建模與R軟件[M].北京:清華大學(xué)出版社,2007.

      (責(zé)任編輯/易永生)

      O211.61

      A

      1002-6487(2016)24-0016-03

      劉 源(1991—),男,山西五臺(tái)人,碩士研究生,研究方向:數(shù)據(jù)挖掘。

      尹慧萍(1990—),女,山西太原人,碩士研究生,研究方向:數(shù)據(jù)挖掘。

      (通訊作者)朱建平(1962—),男,山西太原人,教授,博士生導(dǎo)師,研究方向:數(shù)理統(tǒng)計(jì)、計(jì)量經(jīng)濟(jì)。

      猜你喜歡
      階數(shù)參數(shù)估計(jì)系數(shù)
      基于新型DFrFT的LFM信號(hào)參數(shù)估計(jì)算法
      關(guān)于無(wú)窮小階數(shù)的幾點(diǎn)注記
      確定有限級(jí)數(shù)解的階數(shù)上界的一種n階展開(kāi)方法
      這些待定系數(shù)你能確定嗎?
      打雪仗
      過(guò)年啦
      Logistic回歸模型的幾乎無(wú)偏兩參數(shù)估計(jì)
      基于向前方程的平穩(wěn)分布參數(shù)估計(jì)
      兩張圖弄懂照明中的“系數(shù)”
      基于競(jìng)爭(zhēng)失效數(shù)據(jù)的Lindley分布參數(shù)估計(jì)
      察雅县| 大姚县| 炎陵县| 裕民县| 威海市| 汶川县| 论坛| 巴彦县| 穆棱市| 上饶市| 仁化县| 北流市| 增城市| 上思县| 平阴县| 阿瓦提县| 湘潭县| 黄梅县| 井冈山市| 吐鲁番市| 济南市| 黄龙县| 中山市| 东海县| 大埔区| 绿春县| 左云县| 元阳县| 阳泉市| 勐海县| 环江| 昆山市| 凤山县| 富锦市| 遂昌县| 阿拉善左旗| 宜阳县| 大港区| 汝州市| 垦利县| 广丰县|