楊聯(lián)強,藺一鳴,唐燕武
(1.安徽大學數(shù)學科學學院,安徽合肥230601;2.安慶師范大學數(shù)學與計算科學學院,安徽安慶246133)
支持向量機(SVM)首先由Vapnik[1]及其團隊在AT&T Bell實驗室提出,作為數(shù)據(jù)分析中分類和回歸的強有力工具,其擁有優(yōu)良的特性及完善的理論和算法[2-3],因而得到廣泛應用。相比于均值回歸,分位數(shù)回歸受異常值的影響較小而具有很好的穩(wěn)健性,且能更完整地描述隨機變量的分布特征,因此被回歸分析普遍采用[4]。特別地,近幾年學者們對支持向量分位數(shù)回歸做了很多工作,綜合了兩者的優(yōu)勢特征,使之成為非常流行的回歸分析工具[5-8];同時更新的支持向量分位數(shù)回歸方面的研究也得到進一步發(fā)展[9-10]。B樣條最初由Schoenberg[11]提出,其分片多項式的構造、保持一定的連續(xù)性等性質(zhì)使其擬合性能優(yōu)越,后又由de-Boor給出著名的遞推定義,使其計算快捷簡單,從而成為數(shù)值分析、計算機圖形學、函數(shù)逼近等領域強大的基本工具[12]。分位數(shù)回歸的本質(zhì)是對分位數(shù)函數(shù)的擬合,目前大多數(shù)用于分位數(shù)回歸的基函數(shù)是各種核函數(shù),例如高斯核函數(shù)、徑向基核函數(shù)等,卻少見將B樣條用于分位數(shù)回歸的研究。本文將B樣條基函數(shù)用于支持向量分位數(shù)回歸中,首先給出基于B樣條的支持向量分位數(shù)回歸模型,然后通過轉(zhuǎn)化為對偶問題給出模型的求解過程,最后給出模擬和實際應用結(jié)果。
設(X1,Y1),(X2,Y2),…,(Xn,Yn)是來自二元總體(X,Y )的一組樣本且X ∈[a,b]。 選取節(jié)點a=t1<t2<…<tk= b 來構造次數(shù)為p 的B 樣條基函數(shù),則用作回歸的基函數(shù)有k+p-1 個[12],記B(Xi)=(B1(Xi),B2(Xi),…,Bk+p-1(Xi))T。設qτ(Xi)=WTB(Xi)是在給定Xi情況下Yi的τ(τ ∈(0,1))分位數(shù),W 為系數(shù)向量,則基于B樣條的支持向量分位數(shù)回歸的目標函數(shù)定義如下:
并使得Yi-WTB(Xi)≤ξi,WTB(Xi)-Yi≤ξ*i,ξi,ξ*i>0,其中C是正則化參數(shù),ρτ(r)為分pin-ball損失函數(shù),ρτ(r)=(τ-1)rI(r ≤0)+τrI(r >0)。
再通過R中的命令ipop(D,H,A,b,I,u,r)求解(2)式中則估計的分位數(shù)為
通過兩個模擬來展示B樣條支持向量分位數(shù)的擬合效果。因為B樣條能通過節(jié)點來局部控制函數(shù)形狀,所以選取的兩個模擬一個函數(shù)較為波動,另一個較為光滑。對于較為波動的函數(shù),需用更多的節(jié)點來達到局部控制的效果,而較為光滑的函數(shù)則需要用較少的節(jié)點即能達到光滑的作用。兩個模擬中的樣條次數(shù)均為3。
例1設Y =e-7.5Xcos,其中X 在[0,1]區(qū)間上等間隔選取100 個樣本點,數(shù)據(jù)如圖1(a)所示。等間隔選取10個節(jié)點,并估計了在C=10,40兩種情況下τ=0.05,0.25,0.5,0.75,0.95的分位數(shù)估計結(jié)果,如圖1(b),1(c)所示。
例2設Y =4X+sin+,其中X 在[0,2]區(qū)間上等間隔選取200 個樣本點,數(shù)據(jù)如圖2(a)所示。等間隔選取5個節(jié)點,估計了在C=5,10兩種情況下τ=0.05,0.25,0.5,0.75,0.95的分位數(shù)估計結(jié)果,如圖2(b),2(c)所示。
圖1 例1真實函數(shù)(實線)、散點圖及分位數(shù)估計(虛線)
圖2 例2真實函數(shù)(實線)、散點圖及分位數(shù)估計(虛線)
選取R語言中cars包里的數(shù)據(jù):1920年50組汽車速度(v/(km·h-1))和剎車距離(s/m))的數(shù)據(jù),通過B樣條支持向量分位數(shù)回歸對其進行分位數(shù)估計。因數(shù)據(jù)量較少且數(shù)據(jù)趨勢較為光滑,所以這里等間隔選取3個節(jié)點來進行擬合,結(jié)果如圖3所示。
圖3 (a)cars數(shù)據(jù)散點圖;(b)、(c)分別為C=40,100時的0.05,0.25,0.5,0.75,0.95分位數(shù)估計
本文基于B樣條,利用其擬合函數(shù)時表達能力強、可靈活調(diào)節(jié)等優(yōu)點,將其作為支持向量分位數(shù)回歸的基函數(shù),構造了支持向量分位數(shù)回歸模型。通過拉格朗日函數(shù)將模型求解的原始優(yōu)化問題轉(zhuǎn)化為對偶問題,再通過調(diào)用R中二次規(guī)劃的程序包對其進行求解。模擬顯示,本文方法給出的分位數(shù)估計表現(xiàn)良好,能比較完整地表示響應變量的條件分位數(shù)變化狀況。但是,本文未系統(tǒng)討論如何選取最優(yōu)的調(diào)節(jié)參數(shù),這是一個比較復雜的問題,涉及樣條的次數(shù)、節(jié)點個數(shù)和位置以及懲罰參數(shù)的大小,這些理論工作有待進一步的研究。