蘇梽芳, 周煜, 李氣芳
(1. 華僑大學 經濟與金融學院, 福建 泉州 362021; 2. 閩南師范大學 數學與統(tǒng)計學院, 福建 漳州 363000)
隨著數據采集、處理和存儲技術的快速發(fā)展,越來越多的數據可被連續(xù)觀測且在本質上呈現出明顯的函數曲線特征,Ramsay等[1]將這類數據定義為函數型數據,函數型數據分析已經廣泛應用到氣象學、生物學、經濟學等領域[2-5]
函數型線性模型是函數型數據分析的重要工具,Cardot等[6-7]基于函數型主成分分析和懲罰樣條的估計方法研究估計量的相關漸進性質.Yao等[8]考慮觀測值為稀疏離散情況下的函數型線性模型的估計方式.文獻[9-11]采用平滑樣條方法估計函數型斜率參數,研究估計量的大樣本性質.
為進一步提高函數型線性模型的預測能力和可解釋性,Zhang等[12]將向量型解釋變量引入函數型線性模型中,提出部分函數型線性模型.Shin[13]運用函數主成分分析方法估計模型,并證明參數估計量的漸進正態(tài)性和函數系數估計量的最優(yōu)收斂速度.Zhou等[14]將模型的函數系數利用樣條基展開,進一步通過最小二乘法得到估計量.王曉光等[15]基于核函數構造一類部分函數線性回歸模型,研究模型參數的漸進正態(tài)性和非參數的收斂速度.
現有的這些估計方法一般都假設函數型數據服從獨立同分布(i.i.d),而沒有考慮函數型數據的相依特征.現實生活中,股票數據、溫度數據、空氣污染物數據等函數型數據明顯存在相依結構,如果運用獨立同分布條件下的函數型數據分析方法重構這些數據,必然會出現誤差,從而對后續(xù)模型的估計造成影響.對此,文獻[16-18]利用長期協方差函數替代獨立同分布條件下的協方差函數,證明長期協方差函數收斂于總體長期協方差函數.然而,長期協方差函數的估計涉及核函數和窗寬的選擇易受人為因素的影響.李氣芳[19]在文獻[20]的研究基礎上,提出基于無截斷 Bartlett 核的長期協方差函數估計方法,避免了核函數和窗寬的誤選導致的估計誤差.綜上,本文針對具有相依特征的函數型自變量,將獨立同分布條件下的部分函數型線性模型拓展到相依情形.
針對自變量中同時含有標量型和函數型變量的情況,Zhang[9]提出了部分函數型線性回歸模型,即觀測數據{(X1(t),Y1,Z1),(X2(t),Y2,Z2),…,(Xn(t),Yn,Zn)}滿足如下形式,即
(1)
式(1)中:Xi(t)為函數型變量,是L2[0,1]中的隨機過程;β(t)為回歸系數函數;Zi為p維標量型自變量;γ為p維回歸系數向量;εi表示均值為0,方差為σ2的隨機誤差項,且與(Zi,Xi(t))獨立;Yi為標量型應變量.
若函數型數據Xi(t)滿足函數
Cov[Xi(t),Xi+h(s)]=E{[Xi(t)-μ(t)][Xi+h(s)-μ(s)]}≠0,h≠0,
則稱Xi(t)為相依函數型數據.當Xi(t)為相依函數型數據時,可以把式(1)推廣為部分相依函數型線性回歸模型.
函數型數據分析的首要任務是把函數型數據重構成函數曲線,其主要方法有外生基法(Fourier基,B-Spline基等)和內生基法(函數主成分基),越來越多學者青睞函數主成分基的重構方法.在獨立同分布條件下,通過計算協方差函數得到函數主成分,但當函數型數據具有相依特征時,樣本協方差函數不再是總體協方差函數的一致估計量,計算得到的函數主成分不準確.H?rmann等[18]基于長期協方差函數計算函數主成分的方法,面臨核函數和窗寬的選擇問題.Kiefer等[19]在研究多元回歸模型中長期協方差估計問題時,構造基于無截斷Bartlett核的長期協方差估計統(tǒng)計量,不需要選擇核函數和窗寬.李氣芳[19]把文獻[20]的估計思想推廣到長期協方差函數的估計中.因此,采用基于無截斷Bartlett核的長期協方差函數估計方法,避免核函數和窗寬的選擇問題.
(2)
借鑒文獻[19]中基于無截斷Bartlett核的估計方法,把式(2)變?yōu)?/p>
根據文獻[21-22]對動態(tài)函數型主成分的定義,樣本長期協方差函數的特征值與特征函數滿足
(3)
基于Karhunen-Loeve展開,使用前m個函數主成分重構相依函數型數據,以達到降維的目的,即
(4)
由式(4)得到的m個函數主成分對回歸系數函數β(t)進行逼近,有
(5)
把式(4),(5)代入部分相依函數型線性模型,即
則有
定義如下函數
(6)
令Y=(Y1Y2…Yn)T,A=(γ1…γpa1a2…am)T,
那么,式(6)可以改成線性回歸模型的形式,即
根據最小二乘法估計式,可得
(7)
最小二乘法對樣本容量要求較大且對異常值較敏感,而支持向量機算法引入了損失函數,允許一些樣本點出錯,尋找的超平面只由少量支持向量決定,具有良好的魯棒性.最小二乘支持向量機估計方法是基于平方損失構建的一種支持向量機,其回歸問題最終歸結為等式約束下的線性方程組的求解問題,降低了計算的復雜度.因此,運用最小二乘支持向量機算法,構造如下優(yōu)化問題,即
引入拉格朗日乘子μi,構建如下方程,即
(8)
(9)
樣本數據由如下模型生成,即
上式中:系數向量γ=(2.0 -1.0 1.5 5.0 -1.7)T,隨機向量Zi=(Z1Z2Z3Z4Z5)T,其與N(0,I5)同分布;隨機誤差εi~N(0,0.52).
回歸系數函數β(t)有如下3個情形.
情形(Ⅰ):β(t)=0.
模型參數估計的算法有如下7個步驟.
步驟2由給定的γ,β(t),Zi,Xi(t),εi結合回歸模型(1)生成應變量Yi,得到數據集,把后0.2n個樣本作為樣本外預測集.
步驟5通過留一交叉驗證(CV)選取平滑參數λ,有
由表1~4可知:兩種估計方法的偏誤與方差非常接近且隨著樣本量的增大而減小,這說明兩種估計方法在3種情形下都能取得較好的效果且性能表現近似.
表1 三種情形下的估計偏差與方差(n=50)Tab.1 Deviation and variance of estimated in three situations (n=50)
表2 三種情形下的偏差與方差(n=100)Tab.2 Deviation and variance of estimated in three situations (n=100)
表3 三種情形下的偏差與方差(n=200)Tab.3 Deviation and variance of estimated in three situations (n=200)
表4 回歸系數函數β(t)估計得到的偏差與方差(n=500)Tab.4 The deviation and variance of estimated regression coofficiont fuction of β(t) (n=500)
圖1 情形(Ⅰ)的某次模擬中β(t)觀測曲線及其估計曲線Fig.1 Observed and estimated curve of β(t) in a simulation situation (Ⅰ)
圖2 情形(Ⅱ)的某次模擬中β(t)的觀測曲線及其估計曲線 圖3 情形(Ⅲ)的某次模擬中β(t)的觀測曲線及其估計曲線Fig.2 Observed and estimated curves ofβ(t) in simulation situation (Ⅱ) Fig.3 Observed and estimated curves of β(t) in simulation situation (Ⅲ)
表5 的平均偏離平方和的均值與方差Tab.5 Mean and variance of sum of mean deviation squares of
由圖3可知:當回歸系數函數β(t)設定為情形(Ⅲ)時,LSSVM的估計曲線在頭部和尾部更貼近觀測曲線,其余兩種方法估計相近都能較好地擬合觀測曲線.結合表5情形(Ⅲ)中的結果可知:當n=50,200時,LSSVM比OLS優(yōu)勢較大.
回歸系數函數β(t)樣本外預測值的RMSPE,如表6所示.由表6可知:在每個樣本容量下,LSSVM的樣本外預測誤差比OLS小;在同一回歸系數函數設定下,兩種方法的預測誤差隨著樣本量的增加略微上升,且LSSVM比OLS表現好.這說明LSSVM在系數估計上具有優(yōu)勢,有效提高了樣本外預測的準確度.
表6 樣本外預測值的RMSPETab.6 RMSPE of out-of-sample predicted values
以上證指數當日交易量和當日1 min高頻交易價格數據作為次日上證指數開盤價的影響因素.由于每日的交易量數據過大,因此,將其取對數后作為離散型自變量Zi,當日1 min高頻交易數據作為相依函數型自變量Xi(t),次日的開盤價作為標量型應變量Yi+1,構建部分相依函數型線性模型,即
實例數據來源于銳思數據庫,選取2018年1月至2018年12月的上證指數交易數據,包含次日開盤價、當日的交易量、及當日1 min高頻交易數據.2018年共有243個交易日數據,刪去最后1 d的交易日數據得到242個交易日數據,每個交易日有242個1 min高頻交易價格數據.
將前200個交易日數據作為訓練樣本,剩余42個交易日數據作為預測樣本.分別使用文中提出的考慮函數型數據相依性的最小二乘支持向量機方法與未考慮相依性的最小二乘估計方法預測次日開盤價.預測結果與絕對誤差的比較,如圖4所示.
圖4 預測結果與絕對誤差的比較Fig.4 Comparison of prediction results and absolute error
由圖4可知:除個別交易日外,LSSVM估計的開盤價的絕對誤差均OLS估計的開盤價的絕對誤差,因此,文中方法的泛化能力更強.
為了綜合比較預測效果,文中選取最大誤差、最小誤差、平均絕對誤差、均方預測誤差平方根評價方法的預測能力.兩種方法預測結果的綜合評價,如表7所示. 表7中:Emax為最大誤差;Emin為最小誤差;MAE為平均絕對誤差.由表7可知:LSSVM較好地預測次日的開盤價,其最大誤差、最小誤差、平均絕對誤差、均方預測誤差平方根均好于OLS,由此證明LSSVM得到的預測效果優(yōu)于OLS的預測效果.
表7 兩種方法預測結果的綜合評價Tab.7 Comprehensive evaluation of prediction results of two methods
考慮到函數型數據的相依性結構特征,提出一種基于最小二乘支持向量機的部分相依函數型線性模型.不同于其他的參數估計方法,利用無截斷Bartlett核估計長期協方差函數,并將長期協方差函數所得到的特征函數對函數系數進行基展開,從而把函數系數的估計轉化為參數向量的估計問題,隨后運用最小二乘支持向量機給出了模型參數的估計.通過數值模擬可知,與未考慮函數型數據相依性特征的最小二乘估計法相比,文中方法對向量系數的估計更加準確穩(wěn)健,有效提高了樣本外預測的準確度.最后,將文中的參數估計方法應用于上證指數次日開盤價的預測中,進一步證明使用文中模型及參數估計方法的有效性和優(yōu)越性.