谷恒明,胡良平,2*
(1.軍事醫(yī)學(xué)科學(xué)院生物醫(yī)學(xué)統(tǒng)計學(xué)咨詢中心,北京 100850;2.世界中醫(yī)藥學(xué)會聯(lián)合會臨床科研統(tǒng)計學(xué)專業(yè)委員會,北京 100029*通信作者:胡良平,E-mail:lphu812@sina.com)
科研方法專題
經(jīng)典統(tǒng)計的回歸模型概述
谷恒明1,胡良平1,2*
(1.軍事醫(yī)學(xué)科學(xué)院生物醫(yī)學(xué)統(tǒng)計學(xué)咨詢中心,北京 100850;2.世界中醫(yī)藥學(xué)會聯(lián)合會臨床科研統(tǒng)計學(xué)專業(yè)委員會,北京 100029*通信作者:胡良平,E-mail:lphu812@sina.com)
本文目的是系統(tǒng)全面地總結(jié)和歸納經(jīng)典統(tǒng)計中的回歸模型及其合理選用的要領(lǐng)。具體方法是先按因變量的性質(zhì)分為定量因變量與定性因變量兩大類,再分別按自變量所具備的不同前提條件,并基于經(jīng)典統(tǒng)計思想構(gòu)建相應(yīng)的回歸模型。初步結(jié)果為:在定量因變量的場合下,經(jīng)典回歸模型大致有16種不同情形;而在定性因變量的場合下,經(jīng)典回歸模型大致有6種不同情形??傊?,在構(gòu)建經(jīng)典回歸模型時,應(yīng)當(dāng)依據(jù)因變量的性質(zhì)和自變量所具備的前提條件,選擇最合適的回歸模型,才能達到比較理想的統(tǒng)計分析目的。
自變量;因變量;變量變換;多重共線性;多重線性回歸模型
*Correspondingauthor:HuLiangping,E-mail:lphu812@sina.com)
統(tǒng)計學(xué)上,統(tǒng)計學(xué)家用一個函數(shù)關(guān)系式將因變量隨自變量變化而變化的關(guān)系呈現(xiàn)出來,并稱其為回歸方程(對樣本而言)或回歸模型(對總體而言)。而在具體實踐中,人們常把回歸方程與回歸模型視為同一個東西,在稱呼時帶有隨意性?;貧w分析通常包括構(gòu)建回歸方程、對其回歸系數(shù)進行假設(shè)檢驗和區(qū)間估計(即由樣本去推論總體的規(guī)律,在本質(zhì)上是希望得到或接近回歸模型),最終目的是在給定自變量的新取值條件下,預(yù)測因變量的取值;少數(shù)場合下,會給定因變量的取值,把握自變量的取值區(qū)間(即用于控制)。
一般來說,構(gòu)建回歸方程并求解的方法有以下三種。
其一,經(jīng)典回歸分析法。僅依據(jù)樣本信息并結(jié)合專業(yè)知識人為構(gòu)建一個回歸方程A,再依據(jù)某些假定(如因變量服從某種特定的概率分布)和數(shù)學(xué)技術(shù)或原理(如最小二乘法或其改進方法、最大似然法或其改進方法、廣義估計方程法等)派生出一個方程組B,方程組B中包含的方程個數(shù)為方程A中待定回歸系數(shù)的個數(shù)再加1(用于估計回歸方程中的一個待定的常數(shù)項)。采用各種數(shù)值計算技術(shù)或迭代計算技術(shù)求出方程組B的解,也就獲得了方程A中全部待定系數(shù)的估計值(包括截距項和全部自變量前的回歸系數(shù))。根據(jù)對因變量所做出的假定不同,還可細(xì)分為“參數(shù)回歸分析法”“半?yún)?shù)回歸分析法”和“非參數(shù)回歸分析法”。
其二,貝葉斯回歸分析法。在經(jīng)典回歸分析的基礎(chǔ)上,再利用總體的有關(guān)信息,附加上關(guān)于回歸方程中待估參數(shù)的“先驗信息”,并借助馬爾科夫鏈蒙特卡羅算法(簡稱MCMC算法[1]),獲得回歸系數(shù)的“后驗信息”,進而獲得回歸方程中各待定系數(shù)的平均估計值(即基于m次隨機抽樣數(shù)據(jù)算得m個回歸方程中的待定系數(shù),求取同一個待定系數(shù)的算術(shù)平均值作為該待定系數(shù)的最終估計值)。
其三,機器學(xué)習(xí)回歸分析法[2]。此法與前述兩種方法有較大區(qū)別且有多種解決問題的思路,即現(xiàn)代回歸分析中所提及的“神經(jīng)網(wǎng)絡(luò)回歸分析法”“決策樹回歸分析法”“隨機森林回歸分析法”和“支持向量機回歸分析法”等。因篇幅所限,此處暫不贅述。
因篇幅所限,本文僅粗略介紹與“經(jīng)典回歸分析”有關(guān)的主要內(nèi)容。其基本思路是:先按因變量分為定量和定性兩種場合,再按自變量所具備的前提條件,分別進行概述和總結(jié)。
簡單線性回歸分析是定量地研究兩個變量之間線性關(guān)系的方法,模型為:
y=α+βx+ε
(1-1)
其中:y是因變量,x是自變量,ε是誤差項。
當(dāng)因變量隨著自變量變化關(guān)系不呈直線,而是曲線時,就需要對因變量和/或自變量進行相應(yīng)的變換。一般變換有以下幾種:
(1)當(dāng)因變量y隨著x的變化符合指數(shù)曲線規(guī)律時,可以對因變量y取對數(shù)變換,使指數(shù)曲線直線化。指數(shù)函數(shù)的一般形式為[3]:
y=aebx+k或y=aexp(bx)+k
(1-2)
其中:a≠0,k為漸近線。當(dāng)不考慮k時,對式(1-2)等號兩端同時取對數(shù),得:
y1=lna+bx
如果以y1和x在直角坐標(biāo)系內(nèi)繪制的散點圖呈直線變化趨勢時,就可以考慮采用指數(shù)曲線來擬合和解釋y與x之間的關(guān)系。
(2)當(dāng)因變量y隨著x的變化符合冪函數(shù)曲線規(guī)律時,可以對自變量x和因變量y同時取對數(shù)變換,使冪函數(shù)曲線直線化。冪函數(shù)的一般形式為:
y=axb+k(a>0,x>0)
(1-3)
當(dāng)不考慮k時,對式(1-3)等號兩端同時取對數(shù),得:
y1=lna+blnx
此時以y1和lnx在直角坐標(biāo)系內(nèi)繪制的散點圖呈直線變化趨勢時,就可以考慮采用冪函數(shù)曲線來擬合和解釋y與x之間的關(guān)系。
(3)當(dāng)實測數(shù)據(jù)曲線呈拉長的“S”形或“乙”字形,其形狀只升不降(正“S”形)或者只降不升(反“S形”)。此時可以考慮擬合Logistic曲線回歸方程。多用于發(fā)育、繁殖、動態(tài)率、劑量反應(yīng)及人口等方面的研究。一般形式為:
(1-4)
(4)當(dāng)以百分?jǐn)?shù)P為因變量時,若其隨自變量變化的規(guī)律呈“S”形曲線時,取P的Logit變換值為y。
Logit變換公式為:
(1-5)
(5)當(dāng)因變量的一系列取值可與標(biāo)準(zhǔn)正態(tài)分布曲線下的一系列累計面積(%)一一對應(yīng)時,可建立其與標(biāo)準(zhǔn)正態(tài)分布曲線下橫坐標(biāo)值x之間的關(guān)系,此時,可稱為對y進行Probit變換。
Probit公式為:
(1-6)
其中:μ為均數(shù),是正態(tài)曲線面積下相當(dāng)于50%時橫坐標(biāo)軸上的值,(x-μ)/σ為標(biāo)準(zhǔn)正態(tài)離差,加5是為了消除可能存在的負(fù)數(shù)以便于計算。
(6)當(dāng)因變量與自變量不是簡單的一階關(guān)系,而是與自變量的二階甚至高階存在線性關(guān)系時,就需要使用多項式回歸分析方法。P階多項式回歸模型為:
y=β0+β1x+β2x2+…+βpxp+ε
(1-7)
其中:βk(k=1,…,p)稱多項式回歸系數(shù)。p=2時,稱二項式回歸,依次類推。當(dāng)p值太大時(p≥6),自變量x各階之間容易發(fā)生共線性問題,因此p常取不大于5的值。若散點圖呈拋物線,可以考慮二項式回歸方程,通常叫做拋物線回歸方程;當(dāng)散點圖呈波峰波谷成對出現(xiàn)時,可以考慮三項式回歸方程。
(7)結(jié)果變量為計數(shù)的,初期增長緩慢,隨后增長速度逐漸加快,達到一定程度后又逐漸減慢,最后達到飽和狀態(tài),呈這種變化趨勢時,可以選用Compertz曲線回歸方程。
以上7個公式的散點圖皆是可以通過變量轉(zhuǎn)換,達到曲線直線化的目的,因此在擬合一個因變量與一個自變量的回歸方程時需要先作散點圖并觀察其特點,以便選用相適應(yīng)的變量轉(zhuǎn)換,使曲線變換為直線,得到直線回歸方程,最后再還原到初始變量。
進行曲線擬合時需要注意:由于生物醫(yī)學(xué)的特點,資料的散點圖往往不是完整的拋物線或波浪線,有可能僅是其中一段,需注意結(jié)合散點圖的變化趨勢選擇合適的曲線類型,沒有把握時,多選用幾種最接近的曲線類型,以因變量的計算值與觀測值之間的偏差平方和最小為判定標(biāo)準(zhǔn),確定最合適的曲線類型。
研究一個計量因變量和多個自變量之間的線性關(guān)系,一般選用多重線性回歸分析,多重線性回歸分析一般模型為:
y=β0+β1x1+β2x2+…+βmxm+ε(m=1,2,…)
(1-8)
其中:β0為截距項,βk(k=1,…,m)為各個自變量的偏回歸系數(shù),ε為誤差項。通?;谧钚《嗽硗茖?dǎo)出正規(guī)方程組,求解此方程組便可獲得截距項和全部回歸系數(shù)的估計值。
以下為兩種消除或減弱共線性影響的改進回歸分析方法:
(1)主成分回歸分析基本原理與計算方法:
①以因變量Y和全部自變量X1,X2,…,XP進行多重線性回歸,并診斷全部自變量之間的多重共線性[4]。
②將原來的具有共線性的回歸變量(即自變量)X1,X2,…,XP進行主成分分析,得出相關(guān)系數(shù)矩陣的特征值、貢獻率和累積貢獻率。
(1-9)
(1-10)
④做回歸自變量選擇。用累計貢獻率≥80%所包含的m個主成分變量代替原來的P個自變量,建立主成分回歸方程。
⑤將主成分Zm的表達式回代到回歸方程中,再將標(biāo)準(zhǔn)化變量還原為最原始的自變量,便可以得出因變量對原始自變量的回歸方程。
(2)嶺回歸分析基本原理與計算方法:
①多重線性回歸的回歸系數(shù)可以表示為:
β=(X'X)-1X'Y
(1-11)
其中X為自變量的n×m階矩陣,X'為X的轉(zhuǎn)置矩陣,(X'X)為對稱的m×m方陣,(X'X)-1為(X'X)的逆矩陣,Y為因變量n×1向量。β為回歸系數(shù)的m×1向量。
②嶺回歸分析方法對回歸系數(shù)估計的方法如下:
β(k)=(X'X+kIm)-1X'Y
(1-12)
即在矩陣(X'X)的主對角線元素上加上一個非負(fù)因子k,其中Im為m階單位矩陣,k>0,稱為嶺參數(shù)。
③模型系數(shù)隨參數(shù)k變化的曲線稱為嶺跡圖,可以根據(jù)嶺跡圖變化的形狀來確定k值和進行自變量的篩選。確定k值的方法還有方差膨脹因子法和殘差平方和法。
④選擇變量的標(biāo)準(zhǔn)
A.在嶺回歸計算中,剔除標(biāo)準(zhǔn)化嶺回歸系數(shù)比較穩(wěn)定且絕對值很小的自變量。
B.當(dāng)k值較小時,標(biāo)準(zhǔn)化嶺回歸系數(shù)并不小,但隨k值增加而迅速趨于0的自變量應(yīng)剔除。
C.剔除使回歸系數(shù)很不穩(wěn)定的自變量。
Possion回歸方程用于描述單位時間、面積或空間內(nèi)某事件發(fā)生數(shù)的影響因素分析方法。Possion回歸模型一般形式為:
(1-13)
其中:d表示單位時間或空間事件發(fā)生數(shù),X表示觀察事件發(fā)生數(shù)。
負(fù)二項回歸和Possion回歸類似,都適用于因變量為計數(shù)的資料。但Possion要求均數(shù)和方差相等,實際數(shù)據(jù)中往往不符合,學(xué)者們引入了負(fù)二項回歸。在醫(yī)學(xué)研究中,很多事件的發(fā)生是非獨立的,此時可以采用負(fù)二項回歸進行分析。負(fù)二項回歸模型為:
g(μi)=g(E(yi))=β0+β1xi1+β2xi2+…+βmxim,i=1,2,…,n
(1-14)
2.7.1 生存資料Cox模型回歸分析
它可以同時分析眾多因素對生存時間的影響,不受生存分布類型的影響?;貧w模型形式為:
(1-15)
其中:hi(t)為第i名受試者生存到ti時刻的危險率函數(shù),h0(t)是當(dāng)所有危險因素不存在時的基礎(chǔ)危險率函數(shù)。
2.7.2 生存資料參數(shù)模型回歸分析
生存資料參數(shù)模型回歸分析,即生存時間分布符合某一分布,通常有指數(shù)分布、Weibull分布、對數(shù)正態(tài)分布、Gamma分布等。此時需要根據(jù)數(shù)據(jù)的具體分布類型選擇與其相適應(yīng)的參數(shù)模型進行回歸分析。
主要描述因變量Y的分位數(shù)與自變量X之間的線性依賴關(guān)系。當(dāng)數(shù)據(jù)中存在較多的異常值,通?;谡龖B(tài)分布假定的多重線性回歸方程擬合效果不好,而采用因變量Y的百分位數(shù)擬合效果好,此時可以考慮分位數(shù)回歸分析。分位數(shù)回歸較通常意義下的多重線性回歸的優(yōu)點:①如果要估計的模型存在異方差,不會影響估計的結(jié)果;②能夠在不同的分位數(shù)水平下全面刻畫分布的特征,特別適合極端值和尾部分布的研究;③估計結(jié)果不受離群值(極端值)影響,具有很強的穩(wěn)健性[5]。分位數(shù)回歸模型為:
yi=β0+β1x1+β2x2+…+βnxn+ε(n=1,2,…)
(1-16)
其中:yi為因變量的分位數(shù),其余與通常的多重線性回歸模型相同。
Probit回歸方程可用于描述因變量的一系列取值為隨自變量變化而呈現(xiàn)出“累計發(fā)生率”的多重回歸分析問題,例如某種藥物陽性反應(yīng)率。如果用P=P(Y=1|X)表示在自變量取值為X時陽性結(jié)果發(fā)生率,那么Probit回歸模型可以寫成:
(1-17)
或Φ-1(P)=a+β1X1+β2X2+…+βpXp
(1-18)
其中:α和β1,β2,…,βp分別是模型的常數(shù)項和回歸系數(shù)。
值得一提的是,前面第2.2節(jié)中的(5)“Probit變換”與此處的“Probit回歸分析”在本質(zhì)上是一回事。
當(dāng)觀測對象為一個個的受試對象時,二值Logistic回歸分析與Probit回歸分析類似,皆屬于二值資料的概率回歸分析問題。然而,Probit回歸分析中的因變量的一系列取值皆為0~1之間的概率值且呈現(xiàn)出“累計概率”的形式,事實上,此時的觀測對象不是一個個單獨的個體,而是一組組的“群體”,即全部群組按自變量取值由小到大排序后,對應(yīng)的各群組中某現(xiàn)象的發(fā)生率呈現(xiàn)遞增的變化趨勢,其最小值可以為0.00%、最大值可以為100.00%;Logistic回歸分析中的因變量取值皆為0或者1,即觀測對象皆為一個個的單獨的個體。P=P(Y=1|X)表示在自變量取值為X時陽性結(jié)果發(fā)生的概率,Logistic回歸模型的基本形式如下。
陽性結(jié)果不出現(xiàn)的概率表達式為:
(2-3)
陽性結(jié)果出現(xiàn)的概率表達式為:
(2-4)
式(2-4)與式(2-3)中兩個概率比數(shù)的自然對數(shù)為:
(2-5)
多項分類Logistic回歸模型是二值Logistic回歸模型的拓展,適用于一些因變量結(jié)果多于兩個的資料。例如研究不同疾病、不同性別的患者與所用藥物種類頻數(shù)構(gòu)成的關(guān)系。多項分類Logistic回歸模型為:
j=0,1,2,…,c
(2-6)
其中:a0=0和β0k=0(k=1,2,…,p),aj和βj1,βj2,…,βjp為未知參數(shù)。0~c表示c+1個不同無序結(jié)局,Pj表示結(jié)局為j時的概率。
當(dāng)因變量為多值有序變量時,例如疾病嚴(yán)重程度、治療效果等,皆可以使用有序Logistic回歸模型進行分析。有序Logistic模型很多,應(yīng)用最廣泛的是累積Logistic模型,而且可以通過統(tǒng)計軟件實現(xiàn)。
j=0,1,2,…,c
(2-7)
其中:aj和βj1,βj2,…,βjp為未知參數(shù)。0~c表示c+1個不同有序結(jié)局,Pj表示結(jié)局為j時的概率。
因變量為二值變量,但各個觀測結(jié)果并不互相獨立,此時使用一般Logistic回歸模型分析就不合適??刹捎枚嗨絃ogistic回歸模型分析,一般模型為:
(2-8)
其中:X是固定效應(yīng)的解釋變量設(shè)計矩陣,Z是隨機效應(yīng)的解釋變量設(shè)計矩陣,β是水平1固定回歸系數(shù)向量,U是隨機回歸系數(shù)向量,服從均值為0、協(xié)方差為矩陣G的正態(tài)分布。
因變量為多值無序且各個實驗組的觀測結(jié)局不是完全獨立,此時可以使用二水平多項分類Logistic回歸模型,其模型為:
(2-9)
其中:βj是與設(shè)計矩陣X相對應(yīng)的固定效應(yīng)向量,Uj是與設(shè)計矩陣Z相對應(yīng)的隨機效應(yīng)向量。隨機效應(yīng)服從均值為0的正態(tài)分布。
因變量為多值有序變量且各個實驗組的觀測結(jié)局不是完全獨立,此時可以使用二水平多層累積Logistic回歸模型,其模型為:
(2-10)
其中:X是固定效應(yīng)的解釋變量設(shè)計矩陣,Z是隨機效應(yīng)的解釋變量設(shè)計矩陣,β是固定效應(yīng),U是服從均值為0的正態(tài)分布的隨機效應(yīng)。
[1] 黃長全. 貝葉斯統(tǒng)計及其R實現(xiàn)[M].北京: 清華大學(xué)出版社, 2017:114-138.
[2] 吳喜之.復(fù)雜數(shù)據(jù)統(tǒng)計方法——基于R的應(yīng)用[M]. 3版. 北京: 中國人民大學(xué)出版社, 2015:18-146.
[3] 徐天和, 柳青.中國醫(yī)學(xué)統(tǒng)計百科全書 多元統(tǒng)計分冊[M].北京: 人民衛(wèi)生出版社, 2004:142-144.
[4] 徐林.利用SPSS進行主成分回歸分析[J].寧波技術(shù)學(xué)院學(xué)報, 2006, 10(2):67-69, 74.
[5] Bittencourt M. Financial development and inequality: Brazil 1985-1994[J]. Economic Change and Restructuring,2010, 43(2): 113-130.
[6] 胡良平.面向問題的統(tǒng)計學(xué)——(2)多因素設(shè)計與線性模型分析[M].北京: 人民衛(wèi)生出版社, 2012:482-490.
Summarizationofregressionmodelofclassicalstatistics
GuHengming1,HuLiangping1,2*
(1.ConsultingCenterofBiomedicalStatistics,AcademyofMilitaryMedicalSciences,Beijing100850,China;2.SpecialtyCommitteeofClinicalScientificResearchStatisticsofWorldFederationofChineseMedicineSocieties,Beijing100029,China
The aim of this paper is to systematically summarize the regression models in classical statistics and the essentials of their rational selection. The concrete method of construct in the corresponding regression model based on the classical statistical thought is as follows: the first step is to divide the dependent variables into two categories-the quantitative dependent variable and the qualitative dependent variable according to the nature of the dependent variables; the second step is that the independent variables have the preconditions to be taken into account. The preliminary result is as follows: in the case of quantitative dependent variable and qualitative dependent variable there are roughly 16 and 6 different situations in the classical regression models. In short, when building a classical regression model, the most suitable regression model must be selected according to the nature of the dependent variable and the preconditions of the independent variables to achieve the aim of the ideal statistical analysis.
Independent variable;Dependent variable; Variable transformation; Multicollinearity; Multiple linear regression model
國家高技術(shù)研究發(fā)展計劃課題資助(2015AA020102)
R195.1
A
10.11886/j.issn.1007-3256.2017.06.001
2017-12-03)
陳 霞)