杜子芳,常志勇,2
(1.中國人民大學 統(tǒng)計學院,北京100872;2.河南科技大學 數(shù)學與統(tǒng)計學院,河南 洛陽471023)
在兩個隨機向量之間的建模問題中,邏輯上,只有在兩個隨機向量之間存在關系的基礎上,才能建立這兩個隨機向量之間的定量模型。兩個隨機向量之間關系的統(tǒng)計刻畫就是典型相關分析。典型相關分析是隨機向量之間建模問題的前奏,在多元統(tǒng)計建模中發(fā)揮著至關重要的基礎作用。
設兩個隨機向量分別為
X= (X1,X2,…,Xp)′
Y= (Y1,Y2,…,Yq)′
(不失一般性,設p<q)
尋找適合的系數(shù)向量
a= (a1,a2,…,ap)′和b= (b1,b2,…,bq)′
使得由此生成的線性組合對
U=a′X=a1X1+a2X2+…+apXp
V=b′Y=b1Y1+b2Y2+…+bqYq
擁有最大的相關系數(shù)[1]。
由拉格朗日乘數(shù)法求得,共有k≤min(p,q)組典型相關變量,每組典型相關變量的系數(shù)向量a=(a1,a2,…,ap)′和b= (b1,b2,…,bq)′為對應于同一個特征值λ2的特征向量。
在實際場合,以下指標都可用來衡量兩組數(shù)值型隨機向量的相關關系[2]315-322,并統(tǒng)稱為廣義相關系數(shù)。
在廣義相關系數(shù)中,可以證明:ρ(4)是偏大的,ρ(5)是偏小的,另外三種是適中的。依一般思維慣性,極容易產(chǎn)生適中的比較有代表性因而更有價值的結論,但在典型相關分析中,極值更有價值。因為典型相關分析是其他多元統(tǒng)計分析的前奏,若廣義相關系數(shù)特別是那些本身偏大的廣義相關系數(shù)不高,則說明因變量組與自變量組之間肯定無法建立起有效的因果模型;反之有可能建立起有效的因果模型。同理,若廣義相關系數(shù)即使是那些本身偏小的廣義相關系數(shù)都很高,則說明因變量組與自變量組之間有可能(但并無把握)建立起有效的因果模型。
典型相關分析中,部分教程和論文使用巴特萊特(Bartlett)的χ2檢驗確定典型相關變量的個數(shù)[3]539-574,[4]。χ2檢驗的過程為
依次進行下去,直至到第l(l≤k)個典型相關系數(shù)λl檢驗為不顯著或所有典型相關系數(shù)都通過檢驗時停止。
從上述分析過程中,可知Bartlett檢驗僅使用了典型相關變量之間的相關性。從(X,Y)協(xié)方差矩陣的角度看,Bartlett檢驗僅使用了該協(xié)方差矩陣的右上角分塊陣(或斜對角元素)的信息,而沒有使用對角線元素的信息。典型相關變量僅是原變量的線性組合,可能存在不同的線性組合系數(shù)使得線性組合的結果一樣,但不同的線性組合系數(shù)所攜帶的信息量不同。因此,僅從典型變量之間的相關性的角度出發(fā)來確定典型相關變量的個數(shù)有待改進。同樣Rao給出的F檢驗,在小樣本的情況下,檢驗的功效比χ2檢驗的功效高[5]582-587,但也僅是檢驗典型相關變量之間的相關性。
Stewart和Love也注意到了這個問題,考慮到典型相關分析中兩個隨機向量維數(shù)不同的問題,定義了冗余分析(redundancy analysis)[6]。該方法使用典型相關變量與原始隨機向量之間的相關系數(shù)構造典型變量代表性的度量(已在SPSS和SAS軟件中模塊化)。其基本原理:
記rl=ρUl,Vl,定義
冗余分析從原始變量與典型相關變量之間的簡單相關系數(shù)出發(fā)判定典型相關變量的個數(shù)。典型相關變量與原始變量之間的相關系數(shù)取決于兩個因素:典型相關變量表達式中的系數(shù)和變量組中某一個變量與另一個變量組的簡單相關系數(shù)。這兩種系數(shù)在計算線性內積時會存在由于符號而使得值相互抵消的情況。而冗余分析僅從相關系數(shù)的角度對組間變量的相關程度進行分析,不能如實反映實際情況。因此,該方法有待改進。Hair等也指出冗余分析是一個有爭議的方法,但是沒有給出改進的方法[7]245-249。
以下將給出一種改進冗余分析的算法。從典型相關變量的求解過程中,可知各個隨機向量的典型相關變量具有主成分的性質。所以,考慮使用主成分的方差貢獻率,研究該典型相關變量對原變量的代表性。典型相關分析的關鍵在于數(shù)值型變量的線性組合,故其應用場合與主成分分析及因子分析最為相似,理想的應是同組變量計量單位與量綱都一致,且其系數(shù)最好都是1或0,這樣有益于人們識別和理解典型相關變量(原變量線性組合)的實際意義。由于相關系數(shù)具有線性不變性(兩個變量的相關系數(shù)與其各自的任一線性組合間的相關系數(shù)相等),將線性組合中某一線性系數(shù)調整為1是可行的。
選擇累計貢獻率的方法主要有三種:一是根據(jù)專業(yè)而非統(tǒng)計的考慮而定,二是取一個較大百分比的累積貢獻率(例如80%,85%,90% 之類的百分數(shù))所對應的典型相關變量數(shù)目。不過第一種方法雖然合理,卻不易操作,尤其是在程序編寫上,不易確定閾值。如果對原始變量先標準化,則
因此ηi的均值為1,于是提取的前幾個典型相關變量的貢獻率理應高于所有的均值,其相應特征根滿足η≥1的條件就順理成章了。因此,以η≥1作為提取閾值的第三種方法更為常見。
在典型相關分析中,確定典型相關變量的個數(shù)時不僅要考慮典型相關變量之間的相關性的強弱,而且也應該考慮典型相關變量在因變量組或自變量組的代表性。從統(tǒng)計意義上看,只有當?shù)湫拖嚓P變量既滿足較強的相關性,又能攜帶大量的原向量組的信息時,才是一組較好的典型相關變量[8]。從數(shù)學的角度看,該問題應該是一個多目標最優(yōu)化問題,而非單目標最優(yōu)化問題。
余下的問題是如何在自變量組與因變量組內部進行變量選擇,以便構建模型?!笆澜缛f物是有聯(lián)系的”,當變量組的維數(shù)增加時,變量之間的相關性會增加。在建模時,需要在模型的復雜度和信息量之間進行均衡?;蛘咴谝欢ǖ膹碗s度下使盡可能多的信息進入模型,或者在信息量一定時,使模型盡可能的簡化。因此,在確定了典型相關變量的個數(shù)后,使每個典型相關變量成為盡可能少的原始變量的線性組合,是在信息量一定時模型盡可能簡化的思路的實現(xiàn)。同時在模型簡化后,可使得對典型相關變量的現(xiàn)實意義的解釋更加清晰。
變量選擇的準則有幾個合乎邏輯的線索,一是根據(jù)線性組合中的線性系數(shù)大小,大者進,小者出;二是以因變量線性組合中的前幾個最大線性系數(shù)所對應的因變量為主線,將與這些因變量相關程度最高的自變量列入最終保留自變量的名單;三是使用典型相關變量解釋各個原始變量方差的程度。
上述三種選擇方法中,前兩者相對易實現(xiàn),下面給出第三種方法的具體實現(xiàn)過程:
設提取的k個典型相關變量的系數(shù)矩陣分別為
如果hxi越大,則X中第i個分量對本組典型相關變量的影響程度越大。同理,hyj越大,則Y中第j個分量對本組典型相關變量的影響程度越大。從而可據(jù)此對典型相關變量中的原始變量進行選擇。
為研究人的上肢和下肢之間的關系,對成年男子的身高進行測量,數(shù)據(jù)單位為毫米(mm)。用來反映上肢長度的測量數(shù)據(jù):上臂長(shb)=肩高-肘高,上肢長(shzh)=肩高-中指指尖高,上肢前伸長(shzhsh),前臂加手前伸長(qb)等四組數(shù)據(jù);用來反映下肢長度的測量數(shù)據(jù):會陰高(hy),脛骨點高(jg),坐姿膝高(zzx),臀膝距(gxj),坐姿下肢長(zzxz)等五組數(shù)據(jù)。從中國第一次成年人工效學基礎參數(shù)調查的數(shù)據(jù)中隨機抽取上述變量的1 000組觀察值。使用SPSS和R軟件進行數(shù)據(jù)的處理與分析,首先使用SPSS中的CANCORR過程對數(shù)據(jù)進行典型相關分析;然后使用R軟件完成本分析中的其他部分。實例分析的主要目的在于將本文中方法的結論與SPSS中的結論進行對比。
利用SPSS軟件對該數(shù)據(jù)集進行典型相關分析。將上肢數(shù)據(jù)的相關系數(shù)矩陣、下肢數(shù)據(jù)的相關系數(shù)矩陣及兩組數(shù)據(jù)的相關系數(shù)矩陣(兩組數(shù)據(jù)集標準化后的協(xié)方差陣)等三個矩陣整理為表1,計算各對典型相關變量的相關系數(shù),見表2。
表1 相關系數(shù)矩陣表
表2 典型變量的相關系數(shù)表
表3 廣義相關系數(shù)表
由表3可見,最大的相關系數(shù)比較大,因此可能存在相關關系。但幾何平均,算術平均與調和平均的值都不大,因此此類系數(shù)的作用相對較弱。
SPSS軟件中使用卡方檢驗檢驗典型相關系數(shù)的顯著性,其檢驗結果見表4。
表4 相關系數(shù)的卡方檢驗表
在顯著性水平α=0.05下,四對典型相關變量都通過卡方檢驗,但并不意味著可以使用四對典型相關變量進行后續(xù)建模。
為了研究典型相關變量對所在組的解釋能力,分別使用冗余分析中的組內方差比和本文提出的方差貢獻率進行計算,并將計算結果使用極限作為評價標準,結果匯總為表5。
表5 典型相關變量對所在組變量的方差解釋表
根據(jù)表5中數(shù)據(jù),無論采用本文提出的累積貢獻率較大還是采用n≥1的標準,都得到一致的結論:選擇第一對典型相關變量具有較好的代表性。這與冗余分析的結果一致。但是本文所提方法給出的方差比例的離散程度比SPSS中給出的方差比例的離散程度大,從而在選擇典型相關變量個數(shù)時相對有效。
在確定典型相關變量的個數(shù)后,選擇典型相關變量表達式中原始變量。依據(jù)第四部分中給出的三種方法,分別給出其選擇過程。由于第一種方法和第二種方法中都需要用到典型相關變量的表達式,故首先計算該表達式(見表6)。同時,計算第三種方法中需要的各個分量對典型相關變量的共變度(見表7)。
表6 典型相關變量表達式表
表7 原始變量的共變度表
但對于統(tǒng)計意義上的“大小”有多種不同的定義方法和判斷標準,考慮到表達式中,系數(shù)的符號問題,本文使用絕對值的均值作為評價標準。即,如果某數(shù)據(jù)的絕對值小于所在組所有數(shù)據(jù)絕對值的均值,則認為該數(shù)據(jù)“小”,否則,認為該數(shù)據(jù)“大”。
采用第一種方法。從表6中可知:上肢數(shù)據(jù)組各系數(shù)絕對值的均值為0.276,故依據(jù)上述標準保留shzh和qb兩個變量;下肢數(shù)據(jù)組各系數(shù)絕對值的均值為0.215 2,故保留hy和zzx兩個變量。
對于第二種方法,假定下肢向量組為因變量,上肢向量組為自變量。首先計算下肢變量組的第一個典型相關變量的表達式,其線性組合表達式中,系數(shù)比較大的為hy和zzx兩個變量。所以,在下肢向量組中保留這兩個變量,剔除其他變量。然后,在原變量的相關系數(shù)矩陣(表1的右上角部分)中選擇與這兩個因變量相關程度較高的自變量,選擇結果為保留shzh和qb兩個變量。在選擇時,首先分別確定與每一個因變量相關程度高的自變量。各自變量與hy的相關系數(shù)絕對值的均值為0.713 5,故與hy相關程度較高的變量為shzh和qb;各自變量與zzx的相關系數(shù)絕對值的均值為0.711 7,故也保留shzh和qb兩個變量。然后對多個因變量選擇的自變量集合求交集,得到自變量組應保留shzh和qb兩個變量。該結果與方法一的結果相同。
在方法三中,上肢數(shù)據(jù)組共變度絕對值的均值(由于共變度的非負性,故與其均值相等)為3.644 3,故保留shzh和qb兩個變量;下肢數(shù)據(jù)組絕對值的均值為4.660,故保留hy、jg和zzx三個變量。
典型相關分析是探索隨機向量之間關系的一個有力工具,該方法大部分用于描述性分析階段,為后續(xù)的推斷分析奠定基礎。因此,典型相關分析不應僅局限于尋找到典型相關變量,更應該對獲得的典型相關變量進行評價。只有經(jīng)過基于一定標準評價的典型相關變量才能為后續(xù)分析提供較好的基礎。文中探索了如何建立評價的標準,并通過實例進行詳細的分析。但也有需要進一步改進的地方,如:在變量選擇時如何建立一些定量的標準;不同的選擇方法之間如何衡量優(yōu)劣等。
[1] Hotelling H.Relations Between Two Sets of Variables[J].Biometrika,1936(12).
[2] 張堯庭,方開泰.多元統(tǒng)計分析引論[M].北京:科學出版社,2006.
[3] Johnson R A,Wichern D W.Applied Multivariate Statistical Analysis[M].Upper Saddle River,New Jersey:Prentice Hall,2007.
[4] 謝瓊,王雅鵬.從典型相關分析洞悉我國糧食綜合生產(chǎn)能力[J].數(shù)理統(tǒng)計與管理,2009(11).
[5] Rao C R.Linear Statistical Inference and Its Applications[M].New York:John Wiley &Sons,Inc,1973.
[6] Stewart D,Love W.A General Canonical Correlation Index[J].Psychological Bulletin,1968(9).
[7] Joseph F Hair Jr,William C Black,Barry J Babin.多元數(shù)據(jù)分析[M].7版.北京:機械工業(yè)出版社,2011.
[8] Al-Kandari N M,Jolliffe I T.Variable Selection and Interpretation in Canonical Correlation Analysis[J].Communications in Statistics- Simulation and Computation,1997(3).