湯向明 金 蛟
(1.泉州市教育科學研究所 362000;2. 北京師范大學統(tǒng)計學院 100875)
現(xiàn)實生活中,很多變量間存在著一定的關系,描述變量間關系的線性回歸模型有著廣泛的應用.現(xiàn)行高中教材中包含有相關和線性回歸的內(nèi)容,本文以案例教學的方式分析回歸的內(nèi)涵并對關鍵問題進行探究,供高中教師教學參考.
案例1 身高和臂展
根據(jù)直觀經(jīng)驗,我們普遍認識到,人的身高和臂展相近.我們收集1024名同學的身高和臂展數(shù)據(jù)(不同群體身高和臂展數(shù)據(jù)特點不盡相同,本文采用模擬數(shù)據(jù),各授課教師可收集教學班級的數(shù)據(jù),提升學生參與度和授課效果),部分數(shù)據(jù)如表1所示.
表1
從數(shù)據(jù)中能看出身高和臂展確實非常接近.但我們也會遇到如下情形:某籃球運動員身高226cm,但臂展只有220cm.又比如《三國演義》小說中描寫的人物劉備,身高7尺5寸,雙耳垂肩,雙臂過膝. 身高7尺5寸相當于現(xiàn)在的173cm,劉備的臂展相對于他的身高遠遠偏長.
如果身高、臂展數(shù)據(jù)的散點圖中所有點(為了直觀,取20點展示)在一條線上(圖1左),這就是數(shù)學上確定的函數(shù)關系.而實際收集數(shù)據(jù)(為了直觀,取20名同學)繪制的散點圖如圖1右,這些點不嚴格在線上,而是在線附近,這種變量間有影響,又沒達到確定程度的關系就是統(tǒng)計上的相關關系.
圖1
相關關系的度量方式有多種,英國生物學家、統(tǒng)計學家Pearson定義了線性相關系數(shù):
模擬具有不同相關系數(shù)的數(shù)據(jù)繪制散點圖如圖2:
圖2
由相關系數(shù)定義和圖2可見,相關系數(shù)的取值范圍在-1到1之間.相關系數(shù)為負時,隨著一個變量的增加,另一變量有著相反的降低趨勢;相關系數(shù)為正時,兩個變量之間有著同增同減的相同趨勢;相關系數(shù)為0時,兩個變量間沒有線性關系;隨著相關系數(shù)絕對值的增加,兩個變量間的相關關系增強,如果等于1,就嚴格在一條線上.
探究1 相關與線性相關
兩個變量間相關關系的度量方式除了Pearson線性相關系數(shù),還有Spearman秩相關系數(shù)、Kendall等級相關系數(shù)等(可作為延伸探討).取數(shù)據(jù)如表2,變量x和y的Pearson線性相關系數(shù)為0.928,而x和y的Spearman秩相關系數(shù)和Kendall等級相關系數(shù)都為1.可見,常用的Pearson線性相關系數(shù)r僅度量兩個變量的線性相關程度.
表2
案例1續(xù)
將數(shù)據(jù)繪成散點圖(如圖3),看出身高和臂展很接近,計算得相關系數(shù)為0.94,說明二者的相關關系非常強.學生們都經(jīng)歷過入學體檢,所以學生一般都知道自己的身高、體重的最新數(shù)據(jù),但知道自己的臂展是多少嗎?
假定學生們的身高、臂展數(shù)據(jù)規(guī)律和案例1的數(shù)據(jù)一致,我們提出問題:已經(jīng)知道學生的身高,能否估計出其臂展?進一步明確問題:假如學生的身高為180cm,我們可否基于數(shù)據(jù)提供的趨勢信息,估計出臂展.這就引出回歸.
圖3
回歸方法應用非常廣泛,例如可通過容易測量的樹的胸徑估計不容易測量的樹的高度;通過容易測量的氣壓估計不容易測量的海拔高度等等.
要講兩個變量的回歸,先回顧單個變量的分析方法.比如要研究某學校的全體同學身高的分布規(guī)律,我們抽取部分同學的身高數(shù)據(jù)(案例1的身高)作為樣本,繪制了直方圖、箱線圖,即使推測數(shù)據(jù)可能來自的總體分布其密度函數(shù)有著單峰、對稱、鐘型曲線特點,但仍無法確定其分布是否為正態(tài)分布(因還有其他對稱分布,例如t分布等).也就是說嚴格確定分布是困難的,我們退而求其次,考慮期望、方差等數(shù)字特征來描述總體分布特征.
圖4
處理兩個變量的相關關系,可以用回歸分析方法.
案例2 父子身高數(shù)據(jù)
英國科學家高爾頓研究遺傳差異時,收集了1078對成年父子身高的數(shù)據(jù),這個研究非常經(jīng)典,是回歸分析的起源.
圖5
圖5左圖橫坐標為父親身高,縱坐標為兒子身高.注意到身高是72英寸時,相當于183cm的父代,他們的子代身高是有變化的一些數(shù)據(jù).同樣,身高是64英寸,相當于163cm的父代,他們的子代身高也是一些不同的數(shù)據(jù).之所以是帶狀區(qū)域,是因為有四舍五入的影響.所以兩變量的研究就聚焦到給定一個變量后,另一個變量的條件分布(如父親身高為72英寸的子代的身高分布)問題,與一維數(shù)據(jù)分析類似:分布難以確定,就研究期望、方差等數(shù)字特征;條件分布同樣難以確定,我們就退而求其次,研究條件期望和條件方差這些數(shù)字特征.
圖5右上圖可以幫助理解回歸模型,坐標橫軸為父親身高,縱坐標為兒子身高,當父代身高為72英寸時,子代的條件分布有單峰對稱輪廓線,同樣當父代身高為64英寸時,子代的條件分布有單峰對稱輪廓線.回歸模型假定:條件期望(不同輪廓線的對稱中心)是x的線性函數(shù),就是條件期望成線性.不同輪廓線的形狀相同,與x取值無關,就是條件方差等方差.圖5右下圖展示了不等方差情形,即異方差回歸模型(可作為回歸分析深入學習的延伸探討).一般講解的回歸模型可按圖5右上圖理解.
下面給出回歸模型的總體形式:
·均值函數(shù):E(Y|X=x)=β0+β1x.
·方差函數(shù):Var(Y|X=x)=σ2.
就是條件期望成線性,條件方差等方差.待估參數(shù)為回歸參數(shù)β0和β1,及誤差方差σ2.
更為大家熟悉的是回歸模型的樣本形式:
xi,yi為第i個觀測數(shù)據(jù),β0+β1xi為回歸直線,數(shù)據(jù)點不嚴格在線上,這個擾動用模型誤差ei來表達,模型的具體限定條件分別為誤差項期望為0、等方差、不相關,也就是有名的高斯-馬爾可夫條件.
探究2 回歸名稱的由來
這個模型為什么叫回歸模型呢?英國科學家高爾頓研究遺傳問題時收集了1078對成年父子身高數(shù)據(jù),分析發(fā)現(xiàn):平均意義下,身高偏高的父親,兒子的身高也偏高,但沒有父親那么高.同樣,平均意義下,身高偏低的父親,兒子的身高也偏低,但沒有父親那么低.
圖6 圖片來自文獻[2]
通過圖片展示能得到什么結(jié)論嗎?高爾頓得出結(jié)論:子代的身高有向族群平均身高“回歸”的趨勢.他把分析方法稱為回歸分析方法,回歸這個詞就一直沿用至今了.
我們主要關注回歸參數(shù)β0和β1的估計問題.目前手中掌握了數(shù)據(jù),假定了回歸模型.β0和β1取不同的估計值,就是擬合了不同的直線,如何選擇估計值,等價于如何選擇最優(yōu)的擬合直線.
我們給出直觀解釋:為展示方便,忽略掉橫縱坐標的實際含義,繪制了散點圖如圖7.
圖7
參數(shù)估計問題直觀上看就是最優(yōu)擬合直線的選擇問題, 圖7繪制了兩條直線,一條實線,一條虛線,哪一條的擬合效果更好?大部分學生會覺得實線更好,因為視覺上我們會主觀判斷這條線更好地擬合了數(shù)據(jù)點,也就是所有這些點和這條線更接近.那么引出一個問題:如何度量點到線的接近程度?
把直線記作y=β0+β1xi,先描述一個點到線的接近程度,這點橫坐標取為xi縱坐標為yi,在直線上選擇xi對應的點,縱坐標為β0+β1xi,二者之間的差異,稱作殘差,記為ri.如果這個點在直線的下方,那么殘差符號為負.
圖8
圖9
定義了回歸模型并給出直觀理解后,我們可以給出參數(shù)的最小二乘估計方法,殘差平方和可以具體寫為參數(shù)β0和β1的函數(shù):
使得殘差平方和達到最小值的自變量的取值就是參數(shù)的最小二乘估計.
明確了估計方法,那么最小二乘的具體表達就容易得到.本質(zhì)上就是一個優(yōu)化問題,具體而言,就是求函數(shù)的極值點.結(jié)果為:
其中
探究3 為什么是最小二乘
需要說明的是回歸分析中參數(shù)估計方法有多種,最小二乘法只是我們介紹的一種常用估計方法.
探究4 為什么是縱向的差異
圖10
對于點(xi,yi),在直線上選擇xi對應的點,縱坐標為β0+β1xi,二者之間的差異,稱作殘差,記為:
ri=yi-β0-β1xi.
為什么不是如圖10所示的點到直線的垂直距離?這是因為回歸模型假定解釋變量x是精確值,沒有測量誤差.
如果有測量誤差存在,可以采用測量誤差模型:
這時觀測數(shù)據(jù)為(wi,yi),可基于垂直距離,使用正交回歸方法.這可作為回歸分析深入學習的延伸探討.
最后再回到案例1的問題,使用計算機軟件(如Excel等,本文使用R語言)得到回歸參數(shù)的估計值.進一步可以得到擬合的回歸直線,這里我們稱為經(jīng)驗回歸方程.它就是圖11的散點圖中的直線,它描述了數(shù)據(jù)的線性趨勢.
圖11
如何衡量回歸模型的擬合效果?殘差平方和是個不錯的選擇,殘差平方和越小表明回歸直線和所有點越接近,擬合效果越好.但殘差平方和與數(shù)據(jù)的單位有關,比如把身高數(shù)據(jù)的單位由厘米改為米,那同樣的數(shù)據(jù),殘差平方和就會縮小10000倍.人們常用另外一種指標:
探究5 解釋變量和響應變量互換會怎樣
模型中的x稱作解釋變量,或自變量;y稱作響應變量,或因變量.解釋變量和響應變量互換后使用最小二乘法得到的結(jié)果不同,即兩個經(jīng)驗回歸方程不同.這是因為最小二乘法假定解釋變量沒有測量誤差,只考慮響應變量(因變量)方向的殘差變化.
另需說明,回歸分析雖然是處理變量間的相關關系的一種統(tǒng)計方法,但在實際使用中,常常考慮解釋變量對響應變量一定意義下的影響作用(所以解釋變量也稱作自變量、響應變量也稱作因變量).在應用回歸模型進行實際數(shù)據(jù)分析時,哪些變量作為解釋變量,什么變量作為響應變量,是需要結(jié)合專業(yè)知識謹慎選擇的.
本文結(jié)合案例,旨在為中學師生教授、學習回歸分析提供幫助,最后給出本文總結(jié):一個變量:推分布,過猶不及.對單變量的分析,我們想知道它的統(tǒng)計分布,但精確分布難以確定,就退而研究期望、方差.兩個變量:用回歸,中庸之道.處理兩個變量的相關關系,我們想知道它的條件分布,同樣關注數(shù)字特征,具體描述為條件期望成線性,條件方差等方差,就是線性回歸模型.最小二乘:做擬合,眾志成城.我們給出參數(shù)的最小二乘估計方法,是使得所有點的殘差平方和最小的參數(shù)取值.統(tǒng)計結(jié)論:看效果,衡短論長.參數(shù)估計還有最小一乘等其他參數(shù)估計方法,同樣的數(shù)據(jù),采用不同方法,會得到不同的結(jié)論,我們要制定標準,比較擬合效果,最終找到更好的統(tǒng)計方法.
另外還有一些探究問題,如為什么采用條件期望?為什么不考慮條件中位數(shù)或其他條件分位數(shù)?什么是線性?等等,可留待高等教育階段學習時深入探究.