谷恒明,胡良平,2*
(1.軍事醫(yī)學科學院生物醫(yī)學統(tǒng)計學咨詢中心,北京 100850;2.世界中醫(yī)藥學會聯(lián)合會臨床科研統(tǒng)計學專業(yè)委員會,北京 100029*通信作者:胡良平,E-mail:lphu812@sina.com)
簡單線性回歸分析及其應用
谷恒明1,胡良平1,2*
(1.軍事醫(yī)學科學院生物醫(yī)學統(tǒng)計學咨詢中心,北京 100850;2.世界中醫(yī)藥學會聯(lián)合會臨床科研統(tǒng)計學專業(yè)委員會,北京 100029*通信作者:胡良平,E-mail:lphu812@sina.com)
本文目的是介紹簡單線性回歸分析的前提條件、種類、實現(xiàn)計算的SAS程序及結果解釋,并說明數(shù)據(jù)是否值得做直線回歸分析以及如何選擇正確的直線回歸分析類型。簡單線性回歸分析有三種具體情形,分別是:簡單直線回歸分析、加權直線回歸分析和具有重復試驗的直線回歸分析。進一步通過實例來闡述如何進行不同的簡單線性回歸分析,并給出實現(xiàn)這些直線回歸分析所需要的SAS程序及輸出結果。
簡單線性回歸分析;SAS程序;加權直線回歸分析;重復試驗的線性回歸分析
*Correspondingauthor:HuLiangping,E-mail:lphu812@sina.com)
簡單線性回歸分析是研究兩定量變量之間依存變化關系的一種最常用最簡單的方法。如何正確實現(xiàn)簡單線性回歸分析,需要考察以下兩組前提條件。
第一組前提條件,即從數(shù)理統(tǒng)計學角度考量所歸納出來的前提條件[1]:①自變量X可以是普通變量,也可以是隨機變量,但因變量Y必須是隨機變量;②線性,即因變量Y與自變量X之間的關系為線性關系,在直角坐標系內(nèi)繪制關于X與Y的散點圖,可以看出線性關系;③獨立性,即各個觀察對象之間必須是相互獨立的;④正態(tài)性,即給定X的取值后,Y服從正態(tài)分布;⑤等方差性,即不同X值對應的Y的分布具有相同的方差。
第二組前提條件,即從基本常識角度考量所歸納出來的前提條件:①對于兩個定量變量而言,所有受試對象應具有同質(zhì)性;②所研究的兩個定量變量在專業(yè)上應具有一定的聯(lián)系;③在直角坐標系中繪制(X,Y)的全部散點,全部散點應呈現(xiàn)直線變化趨勢;④散點圖上不存在下列兩類可疑的異常點,第一類,在垂直于橫坐標軸方向上的可疑異常點,第二類,在假定的理想直線的左右兩端的延長線方向上的可疑異常點。
事實上,上述的第二組前提條件更有實用價值,它也是進行簡單直線回歸分析的基本步驟。在此基礎上,再計算直線回歸方程中的參數(shù)并對參數(shù)進行假設檢驗;最后,再將所獲得的簡單直線回歸方程用于“預測(給定自變量的數(shù)值去計算因變量的取值)”或“控制(給定因變量的取值去估算自變量的變化范圍)”。
簡單直線回歸模型為:
y=α+βx+ε
(1)
簡單線性回歸分析的任務:其一,估計式(1)中參數(shù)α和β的數(shù)值;其二,假設檢驗,包括對截距、斜率和整個直線回歸方程的檢驗。
【例1】研究20名兒童的血紅蛋白(y)與血鐵(x)之間的關系[2],數(shù)據(jù)見表1。
【分析與解答】對表1資料進行簡單直線回歸分析所需要的SAS程序如下:
data jz; input n y x@@; cards;
113.5518.7213467.3311469.8414.3456.6512.5448.7612.5424.1
711.8405.6811.5446911416.71010.7430.81110.2409.81210384.1139.5356.3149.4388.6158.8325.9166.3292.8177.3332.8187.8283197.3312.5207294.7
; run;
proc gplot data=jz; plot x*y='s'; run;
proc reg data=jz; model y=x/noint; run;
圖1 20名兒童的血紅蛋白(y,mg/dL)與血鐵(x,ug/dL)的散點圖
簡單直線回歸分析的假設檢驗結果見表2、表3。
表2 方差分析
表3 參數(shù)估計
所謂經(jīng)驗決策是決策者憑借經(jīng)驗制定決策的活動和過程,[7]經(jīng)驗決策主要的推理過程是邏輯學中的類比推理,其最為主要的推理過程是:
醫(yī)學或藥學試驗中經(jīng)常需要計算引起試驗動物總體中半數(shù)動物產(chǎn)生某種反應所需的藥物(或毒物)劑量,即半數(shù)有效量,需要使用到加權直線回歸分析[1]。
【例2】SAS 9.3幫助文檔中Probit過程中第一個例子,研究不同劑量藥物下小鼠反應數(shù)。數(shù)據(jù)見表4。
表4 不同劑量藥物下小鼠反應數(shù)
注:dose代表劑量,n代表每個劑量組的動物數(shù),response代表每個劑量組的陽性反應動物數(shù)
【分析與解答】對表4資料進行加權直線回歸分析所需要的SAS程序如下:
data a; input Dose N Response @@; datalines;
11012122310441055128610871010
;
run;
output out=B p=Prob std=std xbeta=xbeta; run;
參數(shù)估計結果見表5。
表5 參數(shù)估計
所求得該藥物的半數(shù)反應劑量為3.39096。見表6。
表6 半數(shù)反應劑量
在同一試驗條件下進行多次重復試驗,研究因變量與自變量之間是否存在直線關系時可以用具有重復試驗的直線回歸分析。
具有重復試驗的直線回歸分析與無重復試驗的直線回歸分析的區(qū)別在于:前者可以對“失擬(即直線回歸方程所不能解釋的那部分信息)”進行假設檢驗,僅當“失擬”的檢驗結果無統(tǒng)計學意義時,可將其視為無重復試驗的情形,但試驗點數(shù)為不同X值個數(shù)乘以重復試驗次數(shù)(各X值對應的重復試驗次數(shù)相等);否則,應選擇合適的曲線類型,進行曲線回歸分析。
【例3】研究不同血液濃度與血紅蛋白含量之間的關系[1]。數(shù)據(jù)見表7。
表7 不同血液濃度下血紅蛋白的測定值
【分析與解答】 對表7資料進行具有重復試驗的直線回歸分析所需要的SAS程序如下:
data b; input x n@@; g=_n_; do i=1 to n; input y@@; output; end; cards;
1033.23.13.32036.26.26.23039.29.39.240312.312.412.250315.615.215.460318.318.218.370321.121.321.380323.923.823.790326.526.426.4100329.029.128.9
;
run;
proc glm data=b; class g;model y=x g/ss1; run;
proc reg data=b; model y=x; run;
具有重復試驗的直線回歸分析較簡單直線回歸分析多了失擬檢驗,目的是考察僅采用直線回歸方程是否可以較好地擬合給定的資料。失擬檢驗的結果見表8。
表8 本例資料的失擬檢驗結果
在表8中,只需看最后一行,對分組變量g(它在本質(zhì)上就是自變量不同取值的個數(shù))進行檢驗即可,這里F=29.57,P<0.0001,說明失擬平方和基本上是由模型分組因素造成,也就是說,該資料未通過失擬檢驗,不能直接擬合簡單直線回歸方程,而需要根據(jù)散點圖中全部散點的分布趨勢和形態(tài),選定合適的曲線類型并擬合之。
究竟如何進一步處理此資料,請讀者閱讀完本期中的下一篇文章《簡單曲線回歸分析及其應用》后,自己去把它完成。提示:若采用二次拋物線、對數(shù)函數(shù)曲線、指數(shù)函數(shù)曲線或冪函數(shù)曲線來分別擬合本例資料,從模型的假設檢驗的F值和復相關系數(shù)平方(即R2)的數(shù)值越大越好以及殘差圖中散點分布情況(全部散點在殘差為0的水平線上下隨機波動且無明顯變化趨勢為好)來全面考量,相對來說,本例資料擬合二次拋物線最好。
[1] 胡良平.科研設計與統(tǒng)計分析[M].北京: 軍事醫(yī)學科學出版社, 2012:381-400.
[2] 徐天和, 柳青.中國醫(yī)學統(tǒng)計百科全書 多元統(tǒng)計分冊[M].北京: 人民衛(wèi)生出版社, 2004: 2.
Simplelinearregressionanalysisanditsapplication
GuHengming1,HuLiangping1,2*
(1.ConsultingCenterofBiomedicalStatistics,AcademyofMilitaryMedicalSciences,Beijing100850,China;2.SpecialtyCommitteeofClinicalScientificResearchStatisticsofWorldFederationofChineseMedicineSocieties,Beijing100029,China
The aim of this article is to introduce the preconditions, categories, SAS programs and the results interpretation of the simple linear regression analysis to illustrate how to choose the correct regression model and whether the data is worth regression analysis. There are three kinds of simple linear regression analyses: simple linear regression analysis, weighted linear regression analysis and repeated experimental linear regression analysis. The following examples are used to illustrate different simple linear regression analyses and the corresponding SAS programs required to perform these linear regression analyses and their results.
Simple linear regression analysis; SAS Program; Weighted linear regression analysis; Repeated experimental linear regression analysis
國家高技術研究發(fā)展計劃課題資助(2015AA020102)
R195.1
A
10.11886/j.issn.1007-3256.2017.06.002
2017-12-03)
陳 霞)