戴金輝
(山東工商學(xué)院 統(tǒng)計學(xué)院,山東 煙臺 264005)
在回歸分析中,本文主要是研究因變量受到定量自變量的影響,而在經(jīng)濟分析中,影響因變量變動的因素,除了定量變量的影響外,定性變量的影響也不容忽視,由于定性變量不能直接用數(shù)據(jù)精確描述,所以因變量的變動通常是定量變量和定性變量共同作用的結(jié)果。在回歸分析模型中,應(yīng)該同時包含定量和定性兩種屬性因素的影響。
因為定量因素是可以直接測度的數(shù)值型因素,而定性因素是不能直接測度的說明某種屬性或者狀態(tài)是否存在的非數(shù)值型因素,為了在模型中反映定性因素,可以將定性因素轉(zhuǎn)化為虛擬變量去表現(xiàn)。在虛擬變量(或者稱為屬性變量、雙值變量、類型變量、定性變量、二元型變量等)應(yīng)用過程中,是通過定義屬性變量,取值分別定義為0和1(用字母D表示)。屬性因素可以具有多個類型(或者水平),當(dāng)某種屬性或狀態(tài)不存在時,虛擬變量定義為0,即D=0,表示不具有某種類型(或者水平);當(dāng)某種屬性或狀態(tài)存在時,虛擬變量定義為1,即D=1,表示具有某種類型(或者水平)。
在應(yīng)用虛擬變量進行回歸時,首先要注意的一個問題就是虛擬變量數(shù)目的設(shè)定,虛擬變量的數(shù)目不是越多越好,也不是越少越好。虛擬變量的數(shù)目設(shè)定規(guī)則:若定性因素有互斥的類型(或者水平)m個,在考慮截距項的模型中按照需要引入m-1個虛擬變量,如果引入m個虛擬變量就會產(chǎn)生完全的多重共線性。在不考慮無截距項的模型中,定性因素有互斥的類型(或者水平)m個,按照需要引入m個虛擬變量,不會導(dǎo)致完全多重共線性。
虛擬變量具有積極作用的一面,也有不良影響的一面。引入的虛擬變量適當(dāng),則發(fā)揮積極地作用;引入的虛擬變量過度,則會帶來負(fù)面的影響。
虛擬變量取1或0的原則,應(yīng)從分析問題的目的出發(fā)。虛擬變量取值為0,表示基礎(chǔ)類型,與基礎(chǔ)類型相比較時,虛擬變量取值為1,表示與基礎(chǔ)類型相對比的比較類型。
引入虛擬變量以后,使得回歸分析的應(yīng)用范圍變得更廣,虛擬變量可以表示:
(1)可以代表定性因素,如性別、所有制等;
(2)作為某些非精確計量的定量因素的代表,如受教育程度、管理者素質(zhì)等;
(3)作為某些偶然因素或政策因素的代表,如戰(zhàn)爭、災(zāi)害、改革前后等;
(4)分段回歸變?yōu)楝F(xiàn)實,可以研究回歸直線斜率的變動、截距的變動、斜率和截距同時變動,從而可以比較兩個回歸模型的結(jié)構(gòu)差異。
在回歸分析中,把包含虛擬變量的模型稱為虛擬變量模型。常見的虛擬變量回歸模型分為兩種:第一種是因變量為虛擬變量的回歸模型,第二種是自變量為虛擬變量的回歸模型,本文主要討論第二種情況。
傳統(tǒng)回歸分析主要是用來分析因變量受到定量自變量的影響,而不能分析因變量受到定性自變量影響,引入虛擬變量以后,可以利用回歸分析,研究因變量的變動受到定量變量和定性變量的影響,從而拓寬了回歸分析的應(yīng)用范圍。
引入虛擬變量回歸以后,單因素方差分析可以轉(zhuǎn)換成回歸模型進行處理。
表1 單因素方差分析時的數(shù)據(jù)結(jié)構(gòu)
在單因素方差分析數(shù)據(jù)結(jié)構(gòu)中(見表1),因素用A表示,為了分析方便,假定因素共有5個水平,分別用A1,A2,…,A5來表示,單個觀測值用xij表示(i=1,2,…,5;j=1,2,…,n),xij表示第i個水平的第j個觀測值。
表2 單因素方差分析觀測值編輯后結(jié)果
經(jīng)過以上設(shè)定以后,可以直接使用回歸分析方法對其進行回歸,得到結(jié)果,并且可以根據(jù)回歸分析的輸出結(jié)果,直接可以看出組內(nèi)平方和、組間平方和、因素水平之間是否有顯著差異和各因素水平對觀測值是否有顯著影響。至于雙因素方差分析,也可以通過引入更多的虛擬變量,仿照上述做法進行,只不過顯得有些笨拙而已。
在自變量為虛擬變量的回歸模型中,有兩種基本類型:一種是加法類型,引入虛擬變量改變的是截距;另一種是乘法類型,引入虛擬變量改變的是斜率。
2.2.1 在回歸方程截距調(diào)整中的應(yīng)用
以加法類型引入虛擬變量的模型,主要改變的是回歸方程的截距。
在所設(shè)計的回歸模型中,虛擬自變量與其他自變量是和的關(guān)系,虛擬自變量以加法形式被引入到回歸模型中,其作用是改變了原來回歸模型的截距水平而沒有改變回歸模型的斜率,引入虛擬變量后,根據(jù)自變量的不同,回歸模型可以分為以下4種類型:
(1)自變量只有一個分為兩種相互排斥的定性變量,而無定量變量的回歸模型
這種模型又被稱為方差分析模型,如下所示:
β0給出了當(dāng)虛擬變量Di=0時,截距項的水平;
β0+β2給出了當(dāng)虛擬變量Di=1時,截距項的水平;由此可見,β2為虛擬變量參數(shù)的估計結(jié)果,是截距差異系數(shù)。虛擬變量的作用是改變設(shè)定模型的截距水平。
(2)自變量包含一個定量變量和一個分為兩種類型定性變量的回歸模型
這種回歸模型由一個定量自變量xi和一個分為兩類型的虛擬自變量構(gòu)成:
值得注意的是,這里一個定性變量具有兩個類型,只是用了一個虛擬變量。
其中β2為虛擬變量參數(shù)的估計結(jié)果,是截距差異系數(shù)。虛擬變量的作用是改變設(shè)定模型的截距水平。
(3)自變量包含一個定量變量和一個兩種以上類型的定性變量的回歸模型
考慮以下的模型:
其中,D2i與D3i代表相同定性變量的虛擬變量,二者具有相同的性質(zhì),可以同時為0,但是不能同時為1。假定定性因素劃分為三種類型:依據(jù)虛擬變量設(shè)置規(guī)則引入m-1=3-1=2個虛擬變量,而且當(dāng)一個定性變量有多種類型時,虛擬變量可同時取值為0,但是不能同時取值為1,因為同一定性變量的各種類型間“非此即彼”的互斥關(guān)系。
基礎(chǔ)類型:
比較類型:
截距項β0+β1xi為對比基數(shù)項,另兩種類型截距與它的差距分別為β2和β3。
(4)自變量包含一個定量變量和兩個定性變量的回歸模型
其模型與自變量包含一個定量變量和一個兩種以上類型的定性變量的回歸模型形式上完全相同,但是表示的含義是不同的。
其中,D2i與D3i代表不同定性變量的虛擬變量,二者具有不同的性質(zhì),可以同時為0,也可以同時為1。因為不同性質(zhì)的定性變量間沒有“非此即彼”的互斥關(guān)系。
基礎(chǔ)類型:
比較類型:
截距項β0+β1xi為對比基數(shù)項,另三種類型截距與它的差距分別為β2、β3和β2+β3。
根據(jù)上述規(guī)則,可以推廣到自變量有多個定量變量和多個定性變量的情況,但是推廣過程中,注意引入虛擬變量的個數(shù)遵從前面的論述規(guī)則。
2.2.2 在回歸方程斜率調(diào)整中的應(yīng)用
以乘法類型引入虛擬變量的模型,主要改變的是回歸方程的斜率。引入虛擬變量后,根據(jù)自變量的不同,回歸模型可以分為以下3種類型:
(1)回歸模型結(jié)構(gòu)變化的比較
在加法類型的回歸方程中,引入虛擬自變量,屬性因素僅影響不同類型模型的平均水平(截距水平),而不會影響不同類型模型的相對變化(斜率水平),但是在現(xiàn)實中構(gòu)建回歸模型時,屬性因素也可以影響模型的斜率系數(shù)發(fā)生變化,這類問題可歸結(jié)于兩個模型的比較。
回歸模型:
在該模型中,以乘法的形式引入虛擬變量所形成的自變量為Dixi,以加法形式引入虛擬變量的自變量為Di。
基礎(chǔ)類型:
比較類型:
與基礎(chǔ)類型相比較,比較類型的截距和斜率都發(fā)生了變化。以乘法形式引入虛擬變量做回歸模型具有以下優(yōu)點:第一,用一個回歸模型代替了多個回歸模型,簡化了分析過程;第二,可以方便的對回歸模型結(jié)構(gòu)的差異做各種假設(shè)檢驗;第三,合并了的回歸模型增加了自由度,提高了參數(shù)估計的精確性;但是也應(yīng)該注意,合并后模型的隨機誤差項εi應(yīng)該服從均值為零,方差為1的標(biāo)準(zhǔn)正態(tài)分布,特別是所比較的方程的方差應(yīng)相同,否則會出現(xiàn)異方差。
(2)交互效應(yīng)分析
當(dāng)分析自變量對因變量的影響時,大多數(shù)情形只是分析了自變量自身變動對因變量的影響作用,而沒有深入分析自變量間的相互作用對因變量的影響。前面討論的分析兩個定性變量對因變量影響的虛擬變量模型中,暗含著一個假定:兩個定性變量是分別獨立的影響因變量的。但實際中,兩個定性變量同時對因變量產(chǎn)生影響的同時,他們的交互作用也會對因變量產(chǎn)生影響,即一個自變量的影響效應(yīng)要依賴另一個自變量才能產(chǎn)生,這是需要把兩個虛擬變量的乘積以加法形式引入模型。
考慮以下模型:
基礎(chǔ)類型:
比較類型:
β0+β2+β3+β4共同組成了截距水平,關(guān)于交互效應(yīng)是否存在,可以借助于交互效應(yīng)虛擬變量系數(shù)β4的顯著性進行檢驗,只有當(dāng)β4的檢驗結(jié)果是顯著的時候,交互效應(yīng)才會對因變量yi存在顯著影響。
(3)分段線性回歸
有的回歸模型中,會在自變量達(dá)到某個臨界值時發(fā)生突變,為了區(qū)分不同階段的截距和斜率,可以用虛擬變量進行分段回歸。
設(shè)虛擬變量Di為:
回歸模型可以設(shè)定為:
基礎(chǔ)類型:
比較類型:
在分段回歸中,第一段與第二段回歸不僅截距不等,而且斜率也不等。在分為兩段的回歸中,使用了一個虛擬變量,以此類推,分為K段的回歸中,可以用K-1個虛擬變量。
面板數(shù)據(jù)可以帶給我們更多的信息,但是分析方法也更復(fù)雜。引入虛擬變量以后,面板數(shù)據(jù)可以用回歸分析來分析,使得面板數(shù)據(jù)的分析方法更簡單。
假定有三個調(diào)查項目在n個時間點上的觀測數(shù)據(jù),樣本數(shù)據(jù)來自于三個不同的總體(見下頁表3)。
表3 三個調(diào)查項目在n個時間點上的觀測數(shù)據(jù)
X現(xiàn)在運用引入虛擬變量的技巧,對整個數(shù)據(jù)建立線性回歸模型:
按照以上設(shè)定的模型,表6的資料可以進行重新編輯,得到結(jié)果見表4。
接下來相當(dāng)于對Y、X1、X2、D1、D2做回歸分析,建立回歸模型,并進行檢驗。
回歸分析主要是研究定量自變量對因變量的影響,借助虛擬變量模型,回歸分析可以研究因變量受到定性變量和定量變量的影響,使得回歸分析的應(yīng)用更加廣泛。
表4 表3中的資料編輯后的結(jié)果