劉常彪,何慶光,王新軍
(廣西財經(jīng)學院 中國-東盟統(tǒng)計學院,南寧 530007)
帶有不可觀測個體效應(個體異質性)的面板數(shù)據(jù)離散選擇模型在營銷學、勞動者就業(yè)選擇、出行方式選擇等社會學領域有著廣泛的應用。在這些領域的應用研究中發(fā)現(xiàn),個體在做出選擇決策時除了受個體效應的影響外,還會受到不可觀測的時間效應(時間脈沖)的影響。在面板數(shù)據(jù)動態(tài)二值選擇模型中考慮不可觀測的個體效應和時間效應,可以使得模型更加靈活。在營銷學的研究中,通常要考慮廣告或優(yōu)惠券的時效性、競爭商品價格隨時間的變化,以及經(jīng)濟前景或天氣隨時間的變動,將這些影響因素稱為時間脈沖或不可觀測的時間效應。例如,公司在時變的市場條件下采用新技術,失業(yè)者隨時間變化在外來勞動力市場沖擊下找到工作等[1,2]。Chintagunta等(2005)[3]證明了在研究個體品牌選擇時忽略時間效應會導致平均價格參數(shù)的估計是有偏的,同時夸大了個體之間對價格敏感參數(shù)異質性分布方差的估計,這將會影響管理層對定價和促銷策略的決定。關于帶有個體效應和時間效應的雙因素面板數(shù)據(jù)模型的研究非常豐富,如,Hahn和Noon(2006)[4]研究了雙因素面板數(shù)據(jù)AR(1)模型參數(shù)估計的偏差修正問 題;Kuksov 和Villas Boas(2008)[5]、Andrews 和Currim(2009)[6]、Draganska 和Klapper(2011)[7]使用雙因素隨機效應多項logit 選擇模型來研究營銷學中的品牌選擇問題。最近,越來越多的文獻使用雙因素效應的線性回歸模型來處理考慮個體效應和時間效應的問題[8—12]。
對于帶有不可觀測個體效應的面板數(shù)據(jù)動態(tài)二值模型,當個體維數(shù)較大、時間序列維數(shù)固定時,估計模型參數(shù)時會出現(xiàn)伴隨參數(shù)問題,從而導致模型參數(shù)估計量不一致。Honore 和Kyriazidou(2000)[13]提出了用條件似然方法估計動態(tài)二值logit 模型參數(shù);Bartolucci 和Nigro(2012)[14]、Bartolucci 等(2016)[15]分別提出了用擬條件似然方法和修正輪廓似然方法估計動態(tài)二值logit模型;Kitazawa(2022)[16]通過構造有效的矩條件提出一種方法估計動態(tài)logit模型;Gao 等(2017)[17]提出了一種方法消除個體效應,用來估計動態(tài)二值probit模型參數(shù)。盡管研究者們對帶有個體效應的面板數(shù)據(jù)動態(tài)二值選擇模型的參數(shù)估計和應用有了相當深入的研究,但對帶有時間效應和個體效應的雙因素面板二值選擇logit 模型參數(shù)估計問題的研究還很少涉及。僅有Thomas(2006)[18]研究了帶有個體效應和時間效應的雙因素靜態(tài)二值選擇模型的參數(shù)估計問題,提出了用雙重條件最大似然估計方法估計雙因素靜態(tài)二值logit 模型及半?yún)?shù)方法估計雙因素靜態(tài)二值選擇模型。
本文提出了一個新的方法來估計帶有個體效應和時間效應的雙因素面板數(shù)據(jù)動態(tài)二值logit模型,該方法計算簡單、快捷,不需要像Honore和Kyriazidou(2000)[13]的條件最大似然估計量那樣構造核函數(shù)。同時,該方法也適用于靜態(tài)二值logit 模型和帶有個體效應的動態(tài)二值logit 模型。本文從理論上證明其優(yōu)越性,并通過實證檢驗其應用價值。
考慮帶有個體效應和時間效應的雙因素動態(tài)二值logit模型:
其中,I(·)是示性函數(shù);yit是可觀測的因變量,如果潛變量y*it>0,則yit=1,否則yit=0;αi表示不可觀測的第i個個體效應;ξt表示t時刻固定的時間效應;εit為誤差項;個體i和時間t相互獨立,服從標準的logistic 分布;xit=(xi1,…,xiK)′是K×1 的協(xié)變量,協(xié)變量xit關于誤差項εit是嚴格外生的;β是K×1 的偏好參數(shù);γ是動態(tài)參數(shù)。本文的目的是在面板數(shù)據(jù)周期T固定的條件下估計模型結構參數(shù)θ=(β′,γ,ξ1,…,ξT)′。
在模型(1)中,考慮面板數(shù)據(jù)二值logit 模型的三種情形:第一,當ξt≡0,γ≡0(情形1)時,模型轉化為面板數(shù)據(jù)靜態(tài)二值logit 模型;第二,當ξt≡0(情形2)時,模型轉化為帶有個體效應的面板數(shù)據(jù)動態(tài)二值logit 模型;第三,考慮帶有個體效應和時間效應(情形3)的雙因素面板數(shù)據(jù)動態(tài)二值logit模型。
不失一般性,先考慮T=2 時的模型參數(shù)估計問題。當T=2 時,模型(1)簡化為如下形式:
在模型(2)中,為了得到模型參數(shù)θ=(β′,γ,ξ1,…ξ2)′的一致估計量,需要消除個體效應αi,給出如下假設:
假設1:設個體效應αi為隨機的,與誤差項εit(t=1,2)相互獨立,且α1,…,αN之間獨立同分布,其密度函數(shù)具有如下形式:
其中,g(·)是概率密度函數(shù),其均值為0、方差為1;μα和σα是相應的位置參數(shù)和尺度參數(shù)。
記logistic 概率分布函數(shù)為L(x)=exp(x)/(1+exp(x)),誤差項εi1、εi2相互獨立且服從logistic 分布,其個體效應αi的密度函數(shù)為f(x),則yi1,yi2的聯(lián)合分布形式如下:
在某些情形下,個體之間的差異可能比較大,基于這種情形,考慮αi的分布是厚尾的,這意味著它的方差可以足夠大?;谏厦娴姆匠淌剑敠姚脸浞执髸r,給出如下兩個引理。
引理1:在假設1滿足的條件下,有:
證明:在假設1成立的條件下,有:
當M足夠大時,對固定的ξ1、ξ2和xi1、xi2,L(-M-可以充分小。當M足夠大時,積 分和∫t<-M L(-t-ξ1-x′i1β)L(t+ξ2+x′i2β)dt也可以足夠小。當σα足夠大時,積分可以足夠小。
因此,有:
引理1成立。
引理2:在假設1和引理1成立的條件下,有:
其中,G(x)=x/(ex-1)。在假設1成立的條件下,結合引理1,通過簡單的計算可以得到上面的等式。
在假設1滿足的條件下,應用引理2,可以得到如下條件概率:
基于式(4),模型參數(shù)θ的條件似然函數(shù)定義如下:
最大化上面的條件似然函數(shù)可以得到模型參數(shù)θ的估計量,即:
使用Newton-Raphson 迭代算法求解目標函數(shù),可以得到參數(shù)的估計量。本文得出的估計量具有通常的統(tǒng)計性質:一致性和漸近正態(tài)性。下面的定理指出了模型參數(shù)估計量滿足一致性和漸近正態(tài)性。
定理1:在假設1 滿足且g(x) 可導的條件下,如果a>0,則有:
(1)一致性:模型參數(shù)估計量一致收斂到真實參數(shù)θ,即當N→∞時,^→pθ。
(2)漸近正態(tài)性:模型參數(shù)估計量θ^ 滿足漸近正態(tài)性,即kn(-θ)→LN(0,c∑-1,其中:
在定理1 中,→L表示依分布收斂,→p表示依概率收斂,在假設1 成立的條件下,推廣Gao 等(2017)[17]論文中的定理1,可以得到該定理的證明。接下來,將提出的條件似然估計方法推廣到T≥2 的情形下。
記事件As={(yi1,…,yiT):yi1+…+yiT=s},其中,s=0,1,…,T。定義條件選擇概率函數(shù)如下:當s=0 時,有p(yi1,…,yiT|A0,xi1,…,xiT,θ}≡1;當s=T,有p(yi1,…,yiT|AT,xi1,…,xiT,θ}≡1。這意味著yit(t=1,…,T)取值全部為0 或1 時,不能為估計量提供有效的信息。當s=1,…,T-1時,有:
其中,ms為滿足下面方程式的歸一化常數(shù):
利用引理2,經(jīng)過簡單的計算,可以得到如下的條件概率:
基于上式中的條件概率,最大化下面的條件似然函數(shù)得到模型參數(shù)θ的估計量:
使用Newton-Raphson迭代算法求解目標函數(shù)。
進行數(shù)值模擬研究旨在說明本文提出的估計量的有限樣本性質。在模擬研究中考慮了三種不同的模型:(1)帶有個體效應的靜態(tài)二值logit模型,也就是ξt≡0,γ≡0;(2)帶有個體效應的動態(tài)二值logit模型,也就是ξt≡0;(3)雙因素動態(tài)二值logit模型。為了保持模擬框架的簡潔性,在所有的模擬研究中假設協(xié)變量xit是一維的,每次模擬實驗重復了500次,樣本數(shù)量N≡200,500,1000,2000。
(1)先考慮T=2 時的靜態(tài)二值logit模型,即yit=I{αi++εit>0},t=1,2。對不同的模型參數(shù)β=-0.5,0,0.5,將本文的估計量和Chamberlain(1980)[19]的條件最大似然估計量對比,結果顯示在表1中。從表1中可以發(fā)現(xiàn),隨著樣本容量N的增加,對不同的模型參數(shù)β,本文的估計量的偏差(Bais)和均方根誤差(RMSE)都逐漸減小,對于較大的N,估計量的Bais接近于0,從模擬角度說明本文估計量一致收斂到真實的模型參數(shù),模擬結果驗證了定理1中一致性結論是成立的。根據(jù)模型參數(shù)估計量的Bais和RMSE發(fā)現(xiàn),本文估計方法和條件最大似然估計方法的效果幾乎是一樣的。作為雙因素動態(tài)二值logit模型參數(shù)估計方法的附屬產(chǎn)品,可以認為本文的估計方法同樣適用于靜態(tài)logit模型,且該方法和條件最大似然估計方法相比同樣有效。
表1 靜態(tài)logit模型中,本文估計量 和條件最大似然估計量進行對比
表1 靜態(tài)logit模型中,本文估計量 和條件最大似然估計量進行對比
注:T=2,重復500次,αi,xi1,xi2~N(0,π2/3)。
β N-0.5 0 0.5 RMSE(β^C)0.113 0.080 0.045 0.034 0.078 0.052 0.035 0.023 0.149 0.075 0.059 0.045 200 500 1000 2000 200 500 1000 2000 200 500 1000 2000 Bias(β^L)0.011 0.015 0.008 0.001 0.005 0.005 0.003 0.002 0.028 0.014 0.009 0.001 RMSE(β^L)0.118 0.079 0.049 0.038 0.100 0.051 0.044 0.022 0.150 0.090 0.048 0.039 Bias(β^C)0.009 0.014 0.003 0.001 0.006 0.003 0.003 0.001 0.028 0.012 0.008 0.001
(2)考慮帶有個體效應的動態(tài)二值logit 模型,即yit=I將本文的估計方法和Honore 和Kyriazidou(2000)[13]的估計方法進行對比,結果見下頁表2??梢园l(fā)現(xiàn),當T≤3 時,Honore 和Kyriazidou(2000)[13]的估計方法是無效的,因此,考慮T=4,將本文的估計方法和他們的方法進行模擬對比。在模擬設置中盡可能遵循Honore 和Kyriazidou(2000)[13]的 設 置,假 設 模 型 參 數(shù)β=1,γ=0.5,協(xié)變量xit(t=1,2,3,4)相互獨立且服從N(0,π2/3),個體效應模擬結果顯示在表2 中。表2顯示,本文的估計量有著更小的偏差和均方根誤差,如:當樣本容量N=200 時,本文的估計量與真實值的偏差為0.018,均方根誤差為0.101,相應的Honore 和Kyriazidou(2000)[13]的估計量的偏差為0.128,均方根誤差為0.303。從估計量的偏差和均方根誤差來看,顯然本文的估計方法具有明顯的優(yōu)勢。
表2 動態(tài)logit模型中,本文估計量、 和文獻[3]的估計量,進行對比
表2 動態(tài)logit模型中,本文估計量、 和文獻[3]的估計量,進行對比
N 200 500 1000 2000 Bias(β^L)0.018 0.009 0.005 0.003 RMSE(β^L)0.101 0.070 0.045 0.029 Bias(β^H)0.128 0.080 0.059 0.051 RMSE(β^H)0.303 0.201 0.130 0.095 RMSE(γ^ H)0.570 0.401 0.260 0.201注:T=4,重復500次,β=1,γ=0.5,xit~N(0,π2/3),αi=(∑t4= 1xit)/4。Bias(γ^ L)0.018 0.020 0.012 0.005 RMSE(γ^ L)0.281 0.179 0.130 0.088 Bias(γ^ H)0.060 0.071 0.064 0.085
(3)考慮雙因素動態(tài)二值logit 模型,即yit=I{αi+ξt++γyit-1+εit>0}。不失一般性,在模擬設置中,將ξ1=0作為對照,周期T=3,模型參數(shù)β=1,γ=0.5,ξ2=0.4,ξ3= 0.2 ,協(xié) 變 量xit(t=1,2,3) 相 互 獨 立 且 服 從N(0,π2/3),針對個體效應不同分布來檢驗本文估計量的有效性,模擬結果顯示在表3 中。與預期一致,對個體效應的不同分布,估計量的偏差隨著樣本容量的增加逐漸趨近于0,均方根誤差也逐漸減小,模擬結果顯示本文的估計方法對雙因素動態(tài)二值logit模型也是有效的。
表3 雙因素動態(tài)二值logit模型中,對αi 的不同分布模擬本文估計量
通過實證分析來檢驗本文所提方法的應用價值。為了在實證分析中檢驗滯后因變量yit-1是否對當前因變量yit有著顯著的影響,考慮A.C.Neilsen 收集的洗滌用品購買數(shù)據(jù),數(shù)據(jù)可以在JAE 數(shù)據(jù)庫中獲得。在實際分析中,本文選擇了洗滌品牌“Tide”,相對于其他品牌,它的市場占有率為36.13%,具有最高的市場份額。本文考慮了至少連續(xù)三次選擇品牌“Tide”的個體,且保留數(shù)據(jù)的前三個周期用于分析,得到共467個個體的購買數(shù)據(jù)。在分析的數(shù)據(jù)中,三個購買周期的價格變量相差很小,因此本文忽略了該變量,選擇滯后的因變量作為解釋變量估計模型參數(shù)。
表4中展示了467個個體在三個周期內(nèi)選擇購買品牌“Tide”洗滌劑的相關數(shù)據(jù)。yit=1(t=1, 2, 3)表示第t個周期第i個個體購買了“Tide”洗滌劑;yit=0 表示第t個周期個體i沒有購買“Tide”洗滌劑。如果連續(xù)兩個或三個周期內(nèi)都有yit=1 或yit=0,就意味著消費者在這些周期內(nèi)全部購買了該品牌或沒有購買該品牌,說明在品牌選擇中消費者表現(xiàn)出一定的慣性或持續(xù)性,也就是上次的購買決策影響了個體下一次的購買意愿。從表4中可以看出,連續(xù)三個周期全部購買該品牌或沒購買該品牌的個體數(shù)量占總數(shù)量的73.01%,這說明在消費者選擇時表現(xiàn)出較強的購買慣性。根據(jù)表4中的數(shù)據(jù),使用本文提出的估計方法得到模型參數(shù)γ的估計值和標準差分別為=0.356,=0.198,動態(tài)參數(shù)γ的估計值為正,顯示模型中滯后因變量yit-1與當前因變量yit存在動態(tài)關系,也表明消費者在購買時表現(xiàn)出一定的持續(xù)性,即前一個周期購買了“Tide”洗滌劑將會增加下一個周期選擇品牌“Tide”的概率。時間效應參數(shù)的估計值和標準差分別為=0.307,=0.184和=0.171,=0.156,估計結果顯示,消費者在品牌購買時受到了時間脈沖的影響,且隨著時間的延長,時間脈沖的影響會逐漸降低。
表4 三個周期的購買數(shù)據(jù)
本文研究了雙因素面板數(shù)據(jù)動態(tài)二值logit模型的參數(shù)估計問題,基于條件似然的思想提出了一種新的估計方法并給出估計量的漸近性質。提出的估計方法適用于靜態(tài)二值logit模型、動態(tài)二值logit 模型及雙因素動態(tài)二值logit 模型。模擬仿真結果表明,在靜態(tài)logit 模型中,本文的估計方法和Chamberlain(1980)[19]的條件最大似然方法表現(xiàn)一樣好;但在動態(tài)logit模型中,本文的估計方法遠遠優(yōu)于Honore 和Kyriazidou(2000)[13]的估計方法,是一種更有效的估計量。本文的估計方法也可以推廣到雙因素面板數(shù)據(jù)動態(tài)probit模型中,而不只是局限于二值logit模型的框架內(nèi)。