李 勇
(重慶工商大學數學與統(tǒng)計學院,重慶 400067)
在社會科學各領域中,常常會出現一些具有嵌套結構的數據類型。如在教育學中,學生組成班級,班級形成學校,學校匯成學區(qū);在研究學生的情況時,可以涉及學生變量,同時可能考慮班級變量(包括學生變量的匯總,也包含班級自身變量)、學校變量和學區(qū)變量等。這就形成了從不同層級出發(fā)考慮同一問題的數據結構。這樣的結構在很多領域都存在,如環(huán)境科學中的個體、種群和群落之間;經濟學中的微觀、中觀和宏觀;社會學中的個人、群體和全體;地理區(qū)劃中的鄉(xiāng)鎮(zhèn)、區(qū)縣、省市和國家等。可見具有嵌套結構的數據類型比比皆是。如何利用統(tǒng)計方法對這類層次結構數據進行分析?對這一問題的研究,形成了當前統(tǒng)計學科的一個熱門領域——層次模型理論和方法。
層次模型是一種基于層次結構所形成的數據所構成的一種統(tǒng)計模型。在不同的研究領域中名稱不同:在生物統(tǒng)計領域,常稱為混合效應模型(mixed-effects models)和隨機效應模型(random-effects models,見Elston & Grizzle,1962;Laird & Ware,1982);在社會學領域,常稱為層次模型(hierarchical linear models,見Lindley & Smith,1972;Bryk & Raudenbush,1992)和多水平模型(multilevel linear models,見 mason et al.,1983;Goldstein,1986);在計量經濟學領域,稱為隨機系數回歸模型(random-coefficient regression models,見Rosenberg,1973;Longford,1987);在統(tǒng)計學領域,稱為協方差成分模型(covariance componentsmodels,見Dempster et al,1977)。
一般地,層次模型設為
其中,Y表示N×1響應向量;β表示p×1固定效應參數向量;X表示關于固定效應參數向量β的N×p解釋性變量的設計矩陣;e(k)表示水平k下均值為0的隨機誤差;Z(k)表示隨機誤差e(k)對應的設計陣。
層次模型構建的幾個關鍵問題:層次模型結構中的層數、各層結構中的解釋變量、各層結構中變量的概率分布,以及聯結期望結果與一組解釋變量之間的關聯函數。模型一旦確定,下一步就是對各種參數的估計理論和方法。
Lindley&Smith(1972)在研究對線性模型的貝葉斯估計方法時,提出了一個針對復雜誤差結構嵌套數據的研究框架模型;但該模型的應用需要對非平衡數據進行協方差成分的估計,僅能解決一些極簡單的問題。Dempster,Laind&Rubin(1977)提出的求參數極大似然估計的最大期望算法(Expectation-maximization algorithm,簡稱EM算法),此算法從技術上突破了協方差成分估計的障礙。隨后形成了解決方差協方差估計的3種不同思路:基于完全最大似然法(MLF)的迭代廣義最小二乘估計(Goldstein,1986)和Fisher得分算法(Longford,1987);基于限制最大似然法(mason et al.,1983;Raudenbush&Bryk,1986)的限制迭代廣義最小二乘估計(Goldstein,1989)和基于貝葉斯的馬爾科夫鏈蒙特卡羅迭代算法(MCMC)(Gelman et al,1995;Gilks et al,1996;Carlin & Louis,1996;Raudenbush & Bryk,2002)。
隨后開發(fā)了大量統(tǒng)計程序和軟件來擬合層次模型,如VARCL(Longford,1988)、BUGS(Spiegelhalter et al.,1994)、SAS 子程序 Proc Mixed(Little et al.,1996)、MIXOR(Hedeker & Gibbons,1996)、MLWIN(Rasbash et al.,2000)和 HLM(Raudenbush et al.,2000)等。
我國學者在層次模型的理論方面取得一定的成果,如探討了縱向數據混合效果方差分量估計(王松桂、吳密霞,2002);層次模型的統(tǒng)計診斷并提出了高水平單元的局部影響分析方法(石磊,2008);將灰色系統(tǒng)的建模思想融入層次模型構建了系列累加多層統(tǒng)計模型(劉殿國,2009)。系列專(譯)著對層次模型的基本理論進行了闡述(王濟川等,2010;郭志剛等,2007;溫福星,2009;陳華珊等譯,2011)。
基于完全最大似然法(MLF)的估計法基本原理:通過選擇待估參數的估計值,使得觀測到的這一實際數據的似然值達到最大。這一估計方法具有一系列大樣本的優(yōu)良特性:一致性、漸進有效性、抽樣分布正態(tài)性以及待估參數的函數估計便捷性等。但基于完全最大似然法的方差協方差估計依賴于固定參數的點估計,為此,提出限制最大似然法(MLR),對固定參數的不確定性進行調整,以適用于對于層次模型中高階層單位數量較小且數據平衡的情況。而MLF和MLR在對固定參數進行區(qū)間估計和假設檢驗的統(tǒng)計推斷時,都依賴于方差協方差參數的點估計的準確度。這使得MLF和MLR方法都存在局限性。而基于貝葉斯分析的估計方法,對參數的推斷僅依賴于給定數據的后驗分布,能夠適用于高階層單位數量較小且數據可能不平衡的情況。經研究證明,基于貝葉斯的方法能夠有效地解決層次模型中的小樣本、數據不平衡以及輔助參數不確定而影響焦點參數推斷等問題。因為完全的貝葉斯方法可以確保對每個參數的推斷都完全顧及所以其他參數的不確定性;不過該法也要求對所有參數設置先驗分布,而先驗分布的確定正是貝葉斯理論的關鍵問題。另外,后驗分布的計算也是至關重要的問題。
基本層次模型具有兩個特征:假設各層興趣參數的期望能夠表為回歸系數的線性函數和各層的隨機效應為正態(tài)分布。通常線性假定與正態(tài)假定并不完全符合現實。為了使層次模型具有更為廣泛地應用,得拓展基本層次模型。
首先,對模型的結果變量范圍進行拓展形成的分層一般化線性模型?;灸P偷慕Y果變量主要指連續(xù)型變量,所以,拓展的第一步就是結果變量為離散型的。Stiratelli、Laird&Ware(1984),Wong&Mason(1985)利用極大似然估計的一階近似來解決這類問題。Goldstein(1995)提出二階近似法;Hedeker&Cibbons(1993)和Pinheiro&Bates(1995)提出利用高斯-赫米特積分變換處理極大似然值的近似計算法;Raudenbush、Yang&Yosef(2000)提出了更準確、更便利的基于高階拉普拉斯變換的近似計算法。分層一般化線性模型主要包括二分類結果模型、計數數據模型、序次分類和多名義分類結果模型等。分層一般化線性模型與基本模型不同點在于其層-1模型的組成結構為3部分:抽樣模型、連接函數和結構模型。比如,在二分類結果模型中,層-1抽樣模型為二項抽樣模型,記為
其中,Yij表示為mij次試驗當中“成功”的數量;φij表示每一次試驗中的成功概率。則E(Yij|φij)=mijφij,Var(Yij|φij)=mijφij(1-φij)。
層-1連接函數最便利的為logit連接函數,記為
表示成功發(fā)生比的對數比。
層-1結構模型為線性結構模型,記為
其次,針對缺失數據的潛在變量分層模型?;灸P椭饕槍ν暾麛祿M行的推斷分析,而現實中往往存在缺失數據或不可觀測的潛在變量。Little&Rubin(1987)指出,若把觀測數據看作殘缺數據,則完整數據=殘缺數據+缺失數據,潛在變量的分析就變成缺失數據問題。針對潛在變量,可以利用中間變量與潛在變量的關聯性進行間接推斷,而關聯性由可觀測的中間變量值和帶有誤差的數據在進行推斷。Bock(1989)提出解決這一問題的兩階段推斷問題:先解決潛在變量產生誤差數據的機理;推斷產生潛在變量的總體參數。
再次,針對嵌套結構更為復雜的交互分類層次模型?;灸P椭饕杏趪栏竦姆謱訑祿Y構,而現實中往往存在較低層次的單位要面對兩個或更多較高層次的單位進行交互分類。Raudenbush(1993)和Goldstein(1995)等都分別提出了相應的解決方法。
最后,基于貝葉斯推斷的層次模型。層次模型中基于極大似然估計和經驗貝葉斯的統(tǒng)計推斷理論,面臨高層單位數量很小且數據不平衡時,穩(wěn)健性不太理想,基于設置所有參數先驗分布的完全貝葉斯方法具有明顯的優(yōu)勢(Gelfand et al,1990;Seltzer,1993,1996)。Gelman et al(1995)證明了利用貝葉斯方法解釋但依賴經典方法評估由先驗分布所計算的估計和檢驗的合理性是可能的;Carlin&Louis(1996)證明了在層次模型中,貝葉斯估計量在許多樣本中具有良好性質。Gilks et al(1996)和Browner(2004)等提出了基于貝葉斯理論的馬爾科夫鏈蒙特卡羅迭代算法(MCMC),Spiegelhalter et al(1994)開發(fā)了相應軟件BUGS等。
層次模型已廣泛應用于教育學、人口學、組織學、社會學、心理學、經濟學和公共衛(wèi)生等各個領域。環(huán)境科學也引進了層次模型和貝葉斯方法(Morris,1983;Ver Hoef,1990;Clark,2003,2006;Song S.Qian,2010),如CO2濃度的增加對火炬松冠層下幼苗生長速率的影響研究(Mohan et al,2006);并進行了R軟件開發(fā)(Clark,2007)。我國對層次模型也已廣泛應用于教育學、社會學、心理學、經濟學和公共衛(wèi)生等各個領域(張雷等,2002;楊珉等,2007;王濟川等,2008;石磊等,2013)。
綜上所述,在近三十多年的發(fā)展,層次模型無論在理論方面,還是應用方面,都取得了很多成果,成為了統(tǒng)計學科的一個熱門前沿領域。層次模型的未來發(fā)展,若與當前統(tǒng)計學科的另一熱點結構方程理論有機結合,將掀起統(tǒng)計學科的下一個發(fā)展熱潮。另外,若將灰色理論和模糊統(tǒng)計融入,將開辟更廣泛的統(tǒng)計領域。
[1]GOLDSTEIN H.Multilevel Statistical Models[M].3nd.New York:Halsted Press,2003
[2]RAUDENBUSH S,BRYK A.Hierarchical linear models:applications and data analysis methods[M].2nd.Thousand Oaks:Sage Publications,2002
[3]王濟川,謝海義,姜寶法.多層統(tǒng)計模型:方法與應用[M].北京:高等教育出版社,2010
[4]張雷,雷靂,郭伯良.多層次線性模型應用[M].北京:教育科學出版社,2002
[5]石磊,向其鳳,陳飛.多水平模型及其在經濟領域中的應用[M].北京:科學出版社,2013
[6]CLARK J.面向生態(tài)學數據的貝葉斯統(tǒng)計[M].沈澤昊,譯.北京:科學出版社,2013