齊培艷,段西發(fā)
(太原科技大學(xué) 應(yīng)用科學(xué)學(xué)院,山西 太原 030024)
宏觀經(jīng)濟(jì)數(shù)據(jù), 如商品零售額、居民消費(fèi)價(jià)格指數(shù)(CPI)等, 通常會(huì)受到經(jīng)濟(jì)市場(chǎng)一些突發(fā)事件或政府決策的影響而發(fā)生變化, 即產(chǎn)生變點(diǎn)。因此,檢測(cè)變點(diǎn)是否發(fā)生變化及何時(shí)發(fā)生對(duì)風(fēng)險(xiǎn)控制及方案決策等至關(guān)重要。同時(shí),變點(diǎn)檢測(cè)也是統(tǒng)計(jì)學(xué)的一個(gè)熱點(diǎn)問題, 它把統(tǒng)計(jì)控制理論、估計(jì)、假設(shè)檢驗(yàn)和樣本抽樣方法結(jié)合起來(lái)[1]。從抽樣方法來(lái)分,變點(diǎn)檢測(cè)分為連續(xù)抽樣檢測(cè)(即在線監(jiān)測(cè))和非連續(xù)抽樣檢測(cè)(離線檢測(cè))。對(duì)變點(diǎn)的離線檢測(cè)發(fā)展較為成熟, 參見Sen和Srivastava(1975)[2], Csorgo和Horvah(1997)[3], Perron(2006)[4],Qian 和 Su(2016)[5]及Chen和Hu (2017)[6]等。Samaneh和Diane(2016)[7]指出非平穩(wěn)數(shù)據(jù)的變點(diǎn)問題和變點(diǎn)的在線監(jiān)測(cè)問題是變點(diǎn)分析領(lǐng)域未來(lái)的研究熱點(diǎn),對(duì)變點(diǎn)在線監(jiān)測(cè)的研究主要集中在線性模型,Chu(1996)[8]首次考慮線性回歸模型系數(shù)變點(diǎn)的監(jiān)測(cè)問題;針對(duì)同一問題,Leisch(2000)[9]提出了廣義波動(dòng)監(jiān)測(cè)統(tǒng)計(jì)量, Horvath等(2004)[10]基于最小二乘估計(jì)殘差提出了兩類殘差累積和監(jiān)測(cè)統(tǒng)計(jì)量,而Chen和Tian(2010)[11]在文獻(xiàn)[10]的基礎(chǔ)上,通過(guò)引進(jìn)一個(gè)窗寬參數(shù)提出了一種改進(jìn)的監(jiān)測(cè)方法;Hsu(2007)[12]和Chochola(2008)[13]分別考慮線性回歸模型和線性過(guò)程的方差變點(diǎn)的在線監(jiān)測(cè); Schmitz和Steinebach(2010)[14]討論了多元線性回歸模型的系數(shù)變點(diǎn)的監(jiān)測(cè)問題。Qi、Tian 和 Duan(2015)[15]考慮位置模型方差變點(diǎn)的監(jiān)測(cè)問題。近年, 對(duì)非線性模型變點(diǎn)的監(jiān)測(cè)問題也有所發(fā)展, Berkes(2004)[16]討論GARCH(p,q)過(guò)程參數(shù)變點(diǎn)的在線監(jiān)測(cè); Na and Lee(2010)[17]利用波動(dòng)型監(jiān)測(cè)統(tǒng)計(jì)量監(jiān)測(cè)一階隨機(jī)系數(shù)的自回歸模型的系數(shù)變點(diǎn);Qi、Duan和Tian(2017)[18]采用滑動(dòng)均方CUSUM統(tǒng)計(jì)量對(duì)非參數(shù)回歸模型方差變點(diǎn)進(jìn)行監(jiān)測(cè)。多項(xiàng)式回歸模型常用來(lái)擬合宏觀經(jīng)濟(jì)數(shù)據(jù),對(duì)此模型系數(shù)變點(diǎn)的離線檢測(cè)問題已有研究[19-20],但對(duì)其系數(shù)變點(diǎn)的在線監(jiān)測(cè)問題尚未見討論。
本文討論p階多項(xiàng)式回歸模型系數(shù)變點(diǎn)的監(jiān)測(cè)問題。從構(gòu)造一階多項(xiàng)式回歸模型系數(shù)變點(diǎn)的監(jiān)測(cè)統(tǒng)計(jì)量出發(fā)推導(dǎo)出適用于p階多項(xiàng)式回歸模型系數(shù)變點(diǎn)監(jiān)測(cè)的廣義波動(dòng)監(jiān)測(cè)統(tǒng)計(jì)量。在無(wú)變點(diǎn)的原假設(shè)下, 給出監(jiān)測(cè)統(tǒng)計(jì)量的漸近分布, 并模擬得到了部分臨界值; 在備擇假設(shè)下,證明其檢驗(yàn)的一致性; 定義了停時(shí)過(guò)程。模擬結(jié)果表明本文方法是有效的。最后利用本文方法監(jiān)測(cè)兩組宏觀經(jīng)濟(jì)數(shù)據(jù)的系數(shù)變點(diǎn)。
假設(shè)觀測(cè)數(shù)據(jù)Yt由以下模型生成
Yt=μt+εt,t=1,2,…,T,T+1,…,
(1)
假設(shè)1誤差序列{ετ}滿足泛函中心極限定理,即?s≥0有
假定由模型(1)生成的序列y1,y2,…在指定時(shí)刻1,2,…被連續(xù)地觀測(cè)到。假設(shè)已經(jīng)觀測(cè)到T個(gè)樣本且這T個(gè)樣本無(wú)污染, 即系數(shù)βt滿足如下條件:
假設(shè)2βt=β0, 1≤t≤T.
本文在假設(shè)2的前提下,從第T+1個(gè)樣本開始監(jiān)測(cè)系數(shù)是否發(fā)生改變, 直到監(jiān)測(cè)系統(tǒng)發(fā)出警報(bào)(出現(xiàn)變點(diǎn)), 或者到第N個(gè)樣本結(jié)束監(jiān)測(cè)(yT+1,…,yN為監(jiān)測(cè)樣本), 即連續(xù)檢驗(yàn)如下假設(shè)檢驗(yàn)問題:
H0:βt=β0,t=1,2,…,T,T+1,…,
HA:βt=β0,t=1,2,…,T,T+1,…,T+k*-1,
βt=βA,t=T+k*,…,N,β0≠βA,
其中參數(shù)β0,βA,變點(diǎn)k*≥1都是未知的。
注1這里設(shè)定最大監(jiān)測(cè)樣本量為N, 是考慮到實(shí)際應(yīng)用中獲取樣本的成本因素, 當(dāng)獲取樣本比較容易或成本較低時(shí), 可令N=∞.
本節(jié)從一階多項(xiàng)式回歸模型系數(shù)變點(diǎn)監(jiān)測(cè)系統(tǒng)的構(gòu)造出發(fā),進(jìn)而推導(dǎo)出適用于p階多項(xiàng)式回歸模型的變點(diǎn)監(jiān)測(cè)系統(tǒng),給出監(jiān)測(cè)統(tǒng)計(jì)量原假設(shè)下的漸近分布并證明其在備擇假設(shè)下的一致性。變點(diǎn)監(jiān)測(cè)系統(tǒng)包含監(jiān)測(cè)函數(shù),邊界函數(shù)和停時(shí)(系統(tǒng)發(fā)出警報(bào)的時(shí)刻)。
Kuan(1995,1998)[21,19]指出變點(diǎn)的離線檢測(cè)中, 波動(dòng)型檢驗(yàn)統(tǒng)計(jì)量多以經(jīng)驗(yàn)過(guò)程為基礎(chǔ)構(gòu)造, 故本文采取類似思想構(gòu)造變點(diǎn)監(jiān)測(cè)的波動(dòng)型統(tǒng)計(jì)量。定義如下經(jīng)驗(yàn)過(guò)程:
在無(wú)變點(diǎn)原假設(shè)下上式可化為
(2)
注意到(2)式中前兩項(xiàng)是二次多項(xiàng)式,最后一項(xiàng)服從中心極限定理。若能通過(guò)某變換消除前兩項(xiàng),則變換后的經(jīng)驗(yàn)過(guò)程在原假設(shè)下服從某一漸近分布。
考慮方程
Y(s)=b1s+b2s2+z(s)h(s)+z(s) ,
分別令s=1及s=u,u為大于1的一常數(shù),則可得
由上述方程組可求得
即
(3)
注2這里取s=1為了計(jì)算方便,b1,b2可由任意h(u),h(v) 表示, 其u,v>1,u≠v.
由(3)式可得
注意到上式中不含二次函數(shù)h(s), 故對(duì)經(jīng)驗(yàn)過(guò)程做類似變換,
在原假設(shè)下可得:
(4)
在備擇假設(shè)下可得
(5)
這里u為已知常數(shù)。由式(4)和(5)可知LT,uYT(s)在原假設(shè)下收斂于一維納過(guò)程的泛函,在備擇假設(shè)下可度量系數(shù)的變化量, 由此可定義如下監(jiān)測(cè)函數(shù):
(6)
當(dāng)新樣本不斷到來(lái)時(shí),如果通過(guò)不停地對(duì)已抽到樣本進(jìn)行離線檢測(cè)的方法來(lái)檢驗(yàn)變點(diǎn)是否發(fā)生,則隨著樣本量的增大錯(cuò)報(bào)率趨于1,即在原假設(shè)成立時(shí),以概率1拒絕原假設(shè)。因此需要設(shè)定一邊界函數(shù)來(lái)控制錯(cuò)報(bào)率,本文邊界函數(shù)定義為
g1(s)=([Ts]/T)2,1≤s<∞.
對(duì)不斷到來(lái)的新樣本計(jì)算監(jiān)測(cè)統(tǒng)計(jì)量F1T(u,s), 如果存在s∈[1,q)(q=[N/T]), 使得F1T(u,s)>cg1(s),則拒絕原假設(shè), 認(rèn)為系數(shù)在某時(shí)刻發(fā)生了變化, 否則接受原假設(shè)。
由此可定義停時(shí)
τ=inf{T+1≤[Ts]≤N:F1T(u,s)>c([Ts]/T)2},
(7)
其中臨界值c=c(α)可由以下兩式確定
即在原假設(shè)下, 停時(shí)小于最大監(jiān)測(cè)樣本量的概率(錯(cuò)報(bào)率)不超過(guò)給定的顯著水平α;而在備擇假設(shè)下,當(dāng)樣本量趨于無(wú)窮時(shí),以概率1拒絕原假設(shè)。
定理1 若假設(shè)1和假設(shè)2成立,則在原假設(shè)H0下有
其中W0(s)=W(s)-sW(1),W0(u)=W(u)-uW(1),s≥1,u>1,W(·)是一維納過(guò)程,λ為定義在[1,q)上的連續(xù)函數(shù)。
證明
由假設(shè)1可得
則由連續(xù)映照定理可得定理結(jié)論成立。
注3常用的連續(xù)函數(shù)λ(·)有
range(λ,[1,q])=max(λ,[1,q])-min(λ,[1,q]),
計(jì)算臨界值c。
證明令Δ=βA-β0,? [Ts]>k*, 當(dāng)[Tu]>k*時(shí),
推論1 若假設(shè)1和假設(shè)2成立且βt=β0+Δ(t),t≥k*, 則在備擇假設(shè)HA下
(8)
證明與定理2證明類似, 只需注意到
因此
從而可得(8)式。
與上節(jié)類似,對(duì)于方程
hp(s)=b1s+b2s2+…+bpsp+bp+1sp+1,
存在一組常數(shù)ui>1,i=1,…,p,ui≠uj,i≠j使得b1,…,bp可由hp(1),hp(u1),…,hp(up)表示。
令U=(u1,…,up),則可定義如下監(jiān)測(cè)統(tǒng)計(jì)量和邊界函數(shù)
FpT(U,s)=LT,UYT(s),gp(s)=([Ts]/T)p+1,
則停時(shí)可定義為
τ=inf{T+1≤[Ts]≤N:FpT(u,s)>cgp(s)}.
類似地,關(guān)于監(jiān)測(cè)統(tǒng)計(jì)量有如下定理和推論成立。
定理3 若假設(shè)1和2成立, 則在原假設(shè)H0下有
(9)
監(jiān)測(cè)統(tǒng)計(jì)量的臨界值可由下式計(jì)算
定理4 若假設(shè)1和假設(shè)2成立, 則在備擇假設(shè)HA下有
推論2若假設(shè)1和假設(shè)2成立且βt=β0+Δ(t),t≥k*, 則在備擇假設(shè)HA下
下面給出F2T(u,v,s),F3T(u,v,w,s)及fu,v(s),fu,v,w(s).
(10)
(11)
(12)
(13)
表1 部分臨界值
考慮數(shù)據(jù)由以下模型生成
yt=xt′βt+t,t=0.3t-1+et,et~I(xiàn)IDN(0,1).
考慮p=1 和p=2兩種情形下系數(shù)變點(diǎn)的監(jiān)測(cè)效果。在α=5%的顯著水平下做模擬, 實(shí)驗(yàn)重復(fù)2 500次。當(dāng)p=1時(shí), 取歷史樣本量T=50,100,200, 最大監(jiān)測(cè)樣本量N=500,β0=[1,0.2];當(dāng)p=2時(shí),T=50,100,N=200,β0=[1,0.2,0.003].
表2為無(wú)變點(diǎn)原假設(shè)下的各監(jiān)測(cè)統(tǒng)計(jì)量的經(jīng)驗(yàn)水平。從表中看出,對(duì)線性時(shí)間趨勢(shì)模型(p=1),當(dāng)歷史樣本量較大時(shí)三種方法的經(jīng)驗(yàn)水平都發(fā)生了扭曲,即都會(huì)發(fā)生錯(cuò)報(bào)。
表2 經(jīng)驗(yàn)水平(%)
在備擇假設(shè)下, 首先考慮變點(diǎn)發(fā)生時(shí)刻及歷史樣本量對(duì)監(jiān)測(cè)效果的影響, 對(duì)不同的βA,表3-表4分別給出了p=1和p=2且λ(·)為max(·)時(shí)變點(diǎn)監(jiān)測(cè)的檢驗(yàn)勢(shì)及平均延遲。由表可見, 變點(diǎn)發(fā)生的時(shí)刻對(duì)監(jiān)測(cè)效果的影響很大。
表3 max(F1T/g)的檢驗(yàn)勢(shì)(%)和平均延遲
對(duì)一階多項(xiàng)式回歸模型而言, 當(dāng)變點(diǎn)發(fā)生較早時(shí), 即使對(duì)較小的歷史樣本, 檢驗(yàn)勢(shì)也較高,幾乎達(dá)到1;而當(dāng)變點(diǎn)發(fā)生較晚時(shí), 對(duì)解釋參數(shù)變點(diǎn)和斜率參數(shù)變點(diǎn)的監(jiān)測(cè)效果都不理想。 對(duì)p=2的情形, 隨著變點(diǎn)時(shí)刻的推遲檢驗(yàn)勢(shì)明顯降低而延遲明顯增加,尤其是當(dāng)歷史樣本量較小時(shí)。對(duì)同一變點(diǎn), 檢驗(yàn)勢(shì)隨著歷史樣本量的增大而增大, 平均延遲則隨之縮短。
表4 max(F2T/g)的檢驗(yàn)勢(shì)(%)和平均延遲
下面分別在p=1和p=2兩種情形下對(duì)本文所提方法max(·),Range(·)和CUSUM 方法的監(jiān)測(cè)效果進(jìn)行比較。表5給出了T=100時(shí)三種方法對(duì)一階多項(xiàng)式回歸模型系數(shù)變點(diǎn)的檢驗(yàn)勢(shì)和平均延遲。對(duì)解釋參數(shù)變點(diǎn), 當(dāng)變點(diǎn)k*≤0.6N時(shí),Range和max方法都能很好地監(jiān)測(cè)到變點(diǎn),而 CUSUM方法即使對(duì)發(fā)生較早的變點(diǎn)(k*=0.5N)監(jiān)測(cè)效果也不理想,檢驗(yàn)勢(shì)較低,延遲較長(zhǎng);對(duì)斜率參數(shù)變點(diǎn),Range和max方法對(duì)≤0.7N的變點(diǎn)監(jiān)測(cè)效果都很好(檢驗(yàn)勢(shì)接近1,延遲很短),而當(dāng)k*=0.7N時(shí)CUSUM 方法的檢驗(yàn)勢(shì)只有31.36%。
此外,從表中不難看出對(duì)兩類變點(diǎn),無(wú)論變點(diǎn)發(fā)生早晚,max方法略優(yōu)于Range方法(個(gè)別情況除外),CUSUM方法的檢驗(yàn)勢(shì)明顯低于另外兩種方法,平均延遲又明顯偏長(zhǎng);而隨著變點(diǎn)發(fā)生時(shí)刻的推遲,三種方法的檢驗(yàn)勢(shì)都降低而平均延遲都增長(zhǎng),尤其是k*=0.9N時(shí),平均延遲幾乎達(dá)到最大(停時(shí)接近最大監(jiān)測(cè)樣本量)。三種方法對(duì)二次多項(xiàng)式回歸模型系數(shù)變點(diǎn)監(jiān)測(cè)的檢驗(yàn)勢(shì)和平均延遲見表6,與表5類似,變點(diǎn)發(fā)生越晚監(jiān)測(cè)效果越差。對(duì)所有變點(diǎn)max方法的監(jiān)測(cè)效果略優(yōu)于Range,而CUSUM方法監(jiān)測(cè)效果最差。
總之, 對(duì)p階多項(xiàng)式回歸模型的系數(shù)中的任何參數(shù)的變化, 本文方法都可以監(jiān)測(cè)到, 而CUSUM方法對(duì)p≥2的多項(xiàng)式回歸模型的系數(shù)變點(diǎn)幾乎監(jiān)測(cè)不到,即使p=1時(shí)本文方法也明顯優(yōu)于CUSUM方法。當(dāng)歷史樣本量較小時(shí), 本文方法對(duì)發(fā)生較早的變點(diǎn)監(jiān)測(cè)效果很好, 而發(fā)生較晚的變點(diǎn)的監(jiān)測(cè)效果較差。增加歷史樣本量可以改善監(jiān)測(cè)效果,即提高檢驗(yàn)勢(shì)縮短平均延遲。 此外, 當(dāng)系數(shù)變化較大或幾個(gè)參數(shù)同時(shí)發(fā)生變化時(shí), 監(jiān)測(cè)效果更好; 對(duì)p≥3的多項(xiàng)式回歸模型進(jìn)行變點(diǎn)監(jiān)測(cè), 可得類似結(jié)論,在此不再贅述。
表5 λ(F1T/g)與CUSUM的檢驗(yàn)勢(shì)(%)和平均延遲
表6 λ(F2T/g)與CUSUM的檢驗(yàn)勢(shì)(%)和平均延遲
本節(jié)利用本文方法對(duì)兩組實(shí)際數(shù)據(jù)的變點(diǎn)進(jìn)行監(jiān)測(cè),進(jìn)而說(shuō)明本文方法的有效性。
例1 考慮1952年到1983年我國(guó)社會(huì)商品零售總額, 共32個(gè)數(shù)據(jù), 對(duì)數(shù)據(jù)進(jìn)行二階差分, 差分后數(shù)據(jù)在區(qū)間上均勻波動(dòng), 即其二階差分?jǐn)?shù)據(jù)平穩(wěn), 故該組數(shù)據(jù)可由二次多項(xiàng)式趨勢(shì)模型擬合。取前5個(gè)樣本作為歷史樣本,利用統(tǒng)計(jì)量max(F2T/g)進(jìn)行變點(diǎn)監(jiān)測(cè), 在α=0.05 的檢驗(yàn)水平下, 監(jiān)測(cè)過(guò)程在t=13 處停止, 說(shuō)明該組數(shù)據(jù)在用二次多項(xiàng)式趨勢(shì)模型擬合時(shí),在第13個(gè)數(shù)據(jù)之前出現(xiàn)了變點(diǎn)。
第13個(gè)樣本觀測(cè)值對(duì)應(yīng)于1971年, 而在1971年之前的1968年,我國(guó)的商品零售額由往年的逐年增加突然變?yōu)闇p少,數(shù)據(jù)的變化趨勢(shì)發(fā)生了變化,故而產(chǎn)生變點(diǎn)。
Fig.1 (a)Original data and quadratic polynomial fitting curve of total retail sales;(b)Second difference data圖1 (a)社會(huì)商品零售總額原始數(shù)據(jù)和二次多項(xiàng)式擬合曲線;(b)二階差分?jǐn)?shù)據(jù)
例2 本例分析我國(guó)2008年1月到2012年3月居民消費(fèi)價(jià)格指數(shù), 共51個(gè)數(shù)據(jù), 其二階差分?jǐn)?shù)據(jù)呈現(xiàn)平穩(wěn)態(tài)勢(shì), 故該組數(shù)據(jù)可由二次多項(xiàng)式趨勢(shì)模型擬合。取前10個(gè)樣本作為歷史樣本,利用統(tǒng)計(jì)量max(F2T/g) 進(jìn)行變點(diǎn)監(jiān)測(cè), 在α=0.05的檢驗(yàn)水平下, 監(jiān)測(cè)過(guò)程在t=26處停止,說(shuō)明在第26個(gè)樣本之前存在結(jié)構(gòu)變點(diǎn)。
第26個(gè)樣本觀測(cè)值是2010年2月份的居民消費(fèi)價(jià)格指數(shù),在此之前, 受國(guó)際金融危機(jī)和國(guó)內(nèi)經(jīng)濟(jì)增速下滑的影響,從2009年2月起我居民消費(fèi)價(jià)格指數(shù)一直保持負(fù)增長(zhǎng)狀態(tài),直到2009年12月才呈現(xiàn)明顯的正增長(zhǎng)態(tài)勢(shì)。這可能因?yàn)槲覈?guó)持續(xù)擴(kuò)大內(nèi)需的政策有力地拉動(dòng)了國(guó)內(nèi)需求,一系列的補(bǔ)助政策的落實(shí)在一定程度上提升了居民的消費(fèi)能力。
Fig.2 (a)Original data and quadratic polynomial fitting curve of consumer price index;(b)Second difference data圖2 (a)居民價(jià)格消費(fèi)指數(shù)原始數(shù)據(jù)和二次多項(xiàng)式擬合曲線;(b)二階差分?jǐn)?shù)據(jù)
本文討論了p階多項(xiàng)式回歸模型的系數(shù)變點(diǎn)監(jiān)測(cè)問題。構(gòu)造了監(jiān)測(cè)函數(shù)和邊界函數(shù), 定義了停時(shí)過(guò)程, 推導(dǎo)出監(jiān)測(cè)統(tǒng)計(jì)量的漸近零分布, 證明了檢驗(yàn)的一致性, 并模擬得到了部分臨界值。模擬實(shí)驗(yàn)中, 考察了本文方法的有限樣本性質(zhì), 并將本文方法和CUSUM方法相比較, 結(jié)果表明本文方法是有效的而且具有更高的檢驗(yàn)勢(shì)和更短的延遲。最后將本文方法用于兩組宏觀經(jīng)濟(jì)數(shù)據(jù)的變點(diǎn)監(jiān)測(cè)中, 得到了和文獻(xiàn)[19]離線檢測(cè)一致的結(jié)論, 證明本文方法可以很好地監(jiān)測(cè)到變點(diǎn)。