彭 煜,張興娟,賀 唐,陳思穎,盛文文
(西南科技大學(xué) 經(jīng)濟管理學(xué)院,四川 綿陽 621010)
基于DEA的模糊點數(shù)據(jù)回歸分析
彭 煜,張興娟,賀 唐,陳思穎,盛文文
(西南科技大學(xué) 經(jīng)濟管理學(xué)院,四川 綿陽 621010)
對每個訓(xùn)練數(shù)據(jù)的DEA有效值作為它的模糊隸屬度,以表示訓(xùn)練數(shù)據(jù)對總體的貢獻程度。從DEA的視角,獲取模糊點數(shù)據(jù),得到了基于模糊點數(shù)據(jù)的最小二乘估計,及其一些優(yōu)良的統(tǒng)計性質(zhì)。利用平均相對貼近度,給出了一個評價模型擬合效果的準(zhǔn)則。通過數(shù)值實例的計算比較,表明了該方法的有效性。
數(shù)據(jù)包絡(luò)分析(DEA);模糊點數(shù)據(jù);平均相對貼近度;回歸分析
在經(jīng)典回歸分析中,認(rèn)為所有數(shù)據(jù)點對擬合曲線的貢獻是相同的,但在很多實際問題中,每個數(shù)據(jù)對總體來說具有不同的意義,有些數(shù)據(jù)相比于其他數(shù)據(jù)來說顯得更重要。
假設(shè)x是k維預(yù)報變量,Y是一維響應(yīng)變量,(xj,yj)是訓(xùn)練樣本。在這里我們給每個訓(xùn)練數(shù)據(jù)賦予一個模糊隸屬度 θj(0≤θj≤1),將其認(rèn)為是對應(yīng)的數(shù)據(jù)點對總體的重要程度。稱((xj,yj),θj)為 Rk+1中的模糊點,定義{(xj,yj),θj:j=1,2,…,n}為模糊點集。
設(shè)n個決策單元DMUj,j=1,2,…,n。每個DMUj都有k種輸入 Xj=(x1j,x2j,…,xkj),s 種輸出 Yj=(y1j,y2j,…,ysj),評價 DMUj0(xj0,yj0)相對有效性的BCC模型為:
其中θ為決策單元DMUj0的相對有效性值,把θ作為隸屬度,賦予決策單元所對應(yīng)的訓(xùn)練數(shù)據(jù)。
假設(shè)有一個k維輸入向量X=(x1,x2,…,xk),用下面的模型預(yù)測輸出Y:
其中β0,β1,…,βk是待估計的未知參數(shù)。對于訓(xùn)練數(shù)據(jù)集{(xi,yi);i=1,2,…,n},其中 xi=(xi1,xi2,…,xik)t,它們滿足:
其中 X,Y,β,ε 分別是:
誤差項 εi,i=1,2,…,n,滿足 Gauss-Markov 假設(shè)。
記e=Y-Xβ,選擇系數(shù)β以最小化殘差平方和:
假設(shè)給定一個有模糊權(quán)重的訓(xùn)練點數(shù)據(jù)集:
((x1,y1),θ1),((x2,y2),θ2),…,((xn,yn),θn)
給定每個訓(xùn)練點xi∈Rk+1和模糊隸屬度θi(0≤θi≤1),i=1,2,…,n,構(gòu)建基于模糊點數(shù)據(jù)的線性回歸模型:
其中運算“*”的定義如下:記
類似于文獻[2]的方法,可以得到基于模糊點數(shù)據(jù)的最小二乘估計具有許多優(yōu)良性質(zhì)。
定理 2 對于基于模糊點數(shù)據(jù)的線性回歸模型 (6),在CTβ的所有線性無偏估計中,最小二乘估計贊是唯一具有最小方差的估計。
誤差向量E=θ*(Y-Xβ),用基于模糊點數(shù)據(jù)的最小二乘估計贊代替其中的β,得到殘差向量:
因此,對于基于模糊點數(shù)據(jù)的線性回歸模型(6),用常規(guī)的方法可以證明下面的定理。
定理 4 假設(shè)誤差向量 ε~N(0,σ2I),則有:
對于模糊點數(shù)據(jù)的回歸分析,我們定義樣本相對平均貼近度。
定義:基于模糊點數(shù)據(jù)集:
按(6)進行線性回歸。樣本的平均相對貼近度為:
它反映了模型擬合值與樣本觀測值之間的平均相對接近程度。
以國內(nèi)生產(chǎn)總值GDP表示產(chǎn)出,資本形成總額表示資本投入,就業(yè)人數(shù)表示勞動投入,基于1990~2007年河南省的統(tǒng)計數(shù)據(jù)(來自2008年河南省統(tǒng)計年鑒),對生產(chǎn)函數(shù)進行回歸分析,分別用兩種不同的方法確定隸屬度。
方法一。線性函數(shù)方法。文獻[2]給出了確定模糊隸屬度的線性函數(shù)和二次函數(shù)方法,下面按線性函數(shù)方法確定隸屬度。對于給定的數(shù)據(jù)點序列:
其中t1≤t2≤…≤tn是數(shù)據(jù)點到達系統(tǒng)的時間。設(shè)si是ti的函數(shù),認(rèn)為最后一個點xn是最重要的并且選擇sn=f(tn)=1,認(rèn)為第一個點x1最不重要并且選擇s1=f(t1)=σ。使得模糊隸屬函數(shù)是時間的線性函數(shù):
本文中令σ=0.9,計算出對應(yīng)于1990~2007年度的18個隸屬度取值如表1所示:
表1 線性函數(shù)法計算的各個訓(xùn)練數(shù)據(jù)的隸屬度值
方法二。基于DEA方法確定的隸屬度。將收集到的統(tǒng)計數(shù)據(jù)代人(1),并使用Matlab進行上機運算,得到的結(jié)果如表2。
表2 DEA方法計算的各個訓(xùn)練數(shù)據(jù)的隸屬度值
分別將上述兩種方法得到的s、θ結(jié)果作為模糊隸屬度,對河南省1990~2007年的數(shù)據(jù)進行回歸分析,記兩種方法得到的 GDP 擬合值分別為回歸計算的結(jié)果為:
按傳統(tǒng)的方法,對原始數(shù)據(jù)進行回歸分析,得到的GDP擬合值為
記真實的GDP值為Y,對三種回歸分析的結(jié)果進行分析,分別計算如表3。
表3 三種回歸分析的殘差絕對值
從上面的計算可以發(fā)現(xiàn),相應(yīng)于1990年、1994年、1995年、1996年、1997年、2003 年、2004 年、2005年、2006 年及2007 年的數(shù)據(jù)對比來看,|都要小于,而這些年份恰好對應(yīng)著較大的模糊權(quán)重。從而可以說明在模糊線性回歸中,權(quán)重越大的模糊點數(shù)據(jù)對擬合曲線的貢獻也就越大,這與文獻[2]得出的結(jié)論是一致的。殘差絕對值總量、平均相對貼近度的計算結(jié)果為:
可以發(fā)現(xiàn) Dθ 用DEA的方法為數(shù)據(jù)確定模糊隸屬度,從DEA的角度將模糊性引入回歸分析中,是一種確定隸屬度的客觀方法。從理論分析和數(shù)值實例兩個方面,表明該方法不僅具有優(yōu)良統(tǒng)計性質(zhì),還從不同的角度進一步證明了模糊權(quán)重越大的數(shù)據(jù)對擬合曲線的貢獻越大,與其它確定隸屬度的方法相對比,基于DEA的隸屬度確定法要優(yōu)于傳統(tǒng)的確定隸屬度的方法。 [1]李正,宋保維,潘光,皮德福.無失效數(shù)據(jù)參數(shù)估計的模糊回歸法[J].機械設(shè)計,2005,22(3). [2]沈菊紅.基于模糊點數(shù)據(jù)的線性回歸分析[J].黑龍江大學(xué)自然科學(xué)學(xué)報,2007,(6). [3]沈菊紅.基于模糊點數(shù)據(jù)的Logistic回歸模型[J].寧夏師范學(xué)院學(xué)報(自然科學(xué)),2007,(3). [4]沈菊紅.基于模糊點數(shù)據(jù)的線性回歸模型在判別分析中的應(yīng)用[J].寧夏大學(xué)學(xué)報(自然科學(xué)版),2008,(4). [5]王惠惠,魏立力.基于模糊點數(shù)據(jù)的回歸變點識別[J].計算機應(yīng)用,2007,(06). [6]李竹渝,張成.模糊數(shù)據(jù)的回歸模型結(jié)構(gòu)分析[J].統(tǒng)計研究,2008,25(8). [7]龍海亮.基于DEA回歸的C-D生產(chǎn)函數(shù)分析[J].內(nèi)蒙古農(nóng)業(yè)科技,2008,(2). [8]全林,羅洪浪.基于Bootstrap方法數(shù)據(jù)包絡(luò)分析的回歸分析[J].上海交通大學(xué)學(xué)報,2005,39(10). [9]James Odeck.Statistical Precision of DEA and Malmquist Indices:A Bootstrap Application to Norwegian Grain Producers[J].Omega,2009,37. (責(zé)任編輯/易永生) C812 A 1002-6487(2011)03-0170-03 彭 煜(1963-),男,湖南永州人,博士,教授,研究方向:應(yīng)用數(shù)學(xué),決策分析。 張興娟(1986-),女,甘肅古浪人,碩士研究生,研究方向:循環(huán)經(jīng)濟。4 結(jié)論