安徽師范大學教育科學學院(241000) 劉相英
?
最小平均偏相關(guān)法和平行分析在主成分分析中的應(yīng)用*
安徽師范大學教育科學學院(241000) 劉相英
探索性因素分析是多變量統(tǒng)計分析的主要方法之一,其目的在于通過對觀察變量的統(tǒng)計處理,用少數(shù)幾個因子來解釋變量所包含的主要信息,以達到簡化數(shù)據(jù)的目的。這就需要研究者決定因子的數(shù)目,即多少個因子可以保證觀察變量的變異量能夠得到合理的解釋,需要兼顧簡約性(parsimony)與完備性(completeness)原則[1]。
因子抽取的方法主要包括主成分分析法和主因素分析法兩類,主要的因素抽取技術(shù)包括Bartlett χ2最優(yōu)擬合度檢驗、K1法、碎石圖檢驗、Aaker原則、PA法、MAP法六種[2]。Bartlett χ2最優(yōu)擬合度檢驗抽取的因子通常過多,Aaker法僅是一個經(jīng)驗原則。目前應(yīng)用較多的是根據(jù)特征根大于1進行抽取的K1法和Cattell的碎石圖檢驗,前者因?qū)ψ兞康臄?shù)目較敏感而顯得極不穩(wěn)定,后者在曲線平滑或具有多個拐點時難以決定,而且也不具有客觀性。最小平均偏相關(guān)法(minimum average partial,MAP)和平行分析(parallel analysis,PA)是更穩(wěn)健的分析程序[3],兩者都是基于一定的數(shù)理統(tǒng)計基礎(chǔ)得出的方法[2],其客觀性具有一定的科學保證。
檢索國內(nèi)涉及因子抽取的文獻,盡管K1法和碎石圖檢驗存在較多的問題[4],但仍然是多數(shù)研究者常用的因子抽取方法,而MAP法和PA法的使用極少。造成這一現(xiàn)象的原因可能與研究者對這兩種方法的實現(xiàn)程序不熟悉具有很大的關(guān)系。在國內(nèi)介紹MAP法和PA法的文獻中,多數(shù)僅給出了統(tǒng)計分析的結(jié)果,如沐守寬[2]、尹波[5-6]等,而對具體的實現(xiàn)方法沒有相應(yīng)的介紹。由于常用的統(tǒng)計分析軟件如SPSS、SAS等都需要利用語法才能實現(xiàn),這造成了不熟悉語法的研究者使用的困難,限制了其使用的范圍。
鑒于目前沒有合適的軟件可以自動運行MAP分析且在SPSS軟件中MAP分析的語法相對簡單,本文將依據(jù)O′Connor[4]提供的MAP語法和ViSta軟件中PA法的使用結(jié)合具體的統(tǒng)計實例,介紹這兩種方法的實現(xiàn)過程。
1.最小平均偏相關(guān)(MAP)
最小平均偏相關(guān)法(MAP)是Velicer(1976)提出的一種決定因子數(shù)目的方法。在具有K個成分的情況下,它通過逐漸增加的方式抽取0~(K-1)個主成分后,比較剩余偏相關(guān)矩陣的系統(tǒng)與非系統(tǒng)的平均變異的相對比例決定因子抽取的數(shù)目,當非系統(tǒng)性變異較系統(tǒng)性變異更大時,即平均平方根偏相關(guān)達到最小時就停止因子的抽取。
2.平行分析(PA)
平行分析是從Horn的平行檢驗發(fā)展起來的一種分析技術(shù)。在實際觀察數(shù)據(jù)具有m個題項、n個樣本的情況下,通過模擬多組具有m×n的隨機數(shù)據(jù)矩陣并計算其平均特征根,比較實際觀察數(shù)據(jù)與隨機數(shù)據(jù)平均特征根的大小決定因子抽取的數(shù)目。其潛在的邏輯是如果觀察數(shù)據(jù)所代表的變異是由真實的情況引起的,其特征值應(yīng)當大于與其具有相同被試和變量個數(shù)的隨機數(shù)據(jù)的平均特征值;如果小于隨機變量的平均特征值,也就無法區(qū)分該因子所代表的變異是由真實的情況引起的還是由于隨機的誤差引起的,也就沒有保留的價值。最初Horn(1965)建議以實際觀察數(shù)據(jù)特征值大于隨機數(shù)據(jù)的平均特征值作為取舍的標準,而近年來傾向于以實際觀察數(shù)據(jù)特征值大于隨機數(shù)據(jù)平均特征值95%分位數(shù)作為判斷的標準[4]。Zwick 和Velicer(1986)比較了5種確定因子數(shù)目的方法,發(fā)現(xiàn)92%的情況下平行分析都是準確的[7]。
本研究采用趙千秋修訂的學校環(huán)境感知量表對312名在校初三學生進行調(diào)查,回收有效問卷290份,問卷有效率92.95%。問卷的Cronbach′s α=0.81,內(nèi)部一致性良好。KMO =0.89,Bartlett球形檢驗χ2=2900.02,df =325,P<0.001,適宜進行因素分析。共有6個主成分的特征值大于1,累積解釋了總變異的60.23%。碎石圖檢驗在第4個主成分處出現(xiàn)拐點,提示可以抽取三個因子。
1.MAP分析
將數(shù)據(jù)導入SPSS,打開語法編輯器,按照O′Connor提供的MAP語法樣本編輯本研究所需要的語法。具體程序如下所示:
correlation var1 to var26 / matrix out(′C: data.cor′)/ missing =listwise.
factor var =var1 to var26 / matrix out(cor =′C: data.cor′).
matrix.
mget / type =corr / file =′C:data.cor′.
call eigen(cr,eigvect,eigval).
compute loadings =eigvect * sqrt(mdiag (eigval)).
compute fm =make(nrow(cr),2,-9999).
compute fm(1,2)=(mssq(cr)-ncol(cr))/(ncol (cr)*(ncol(cr)-1))).
loop #m =1 to ncol(cr)-1.
compute a =loadings(:,1:#m).
compute partcov =cr-(a * t(a)).
compute d =mdiag(1 /(sqrt(diag(partcov)))).
compute pr =d * partcov * d.
compute fm(#m +1,2)=(mssq(pr)-ncol(cr))/ (ncol(cr)*(ncol(cr)-1))).
end loop.
* identifying the smallest fm value & its location (=the # of factors).
compute minfm =fm(1,2).
compute nfactors =0.
loop #s =1 to nrow(fm).
compute fm(#s,1)=#s-1.
do if(fm(#s,2)<minfm).
compute minfm =fm(#s,2).
compute nfactors =#s-1.
end if.
end loop.
print eigval / title =“Eigenvalues”.
print fm / title =“Velicer′s Average Squared Correlations”.
print minfm / title =“The smallest average square correlation is”.
print nfactors / title =“The number of components is”.
end matrix.
上述程序首先計算變量之間的相關(guān),然后進行因子分析,最后進行矩陣分析。矩陣分析的結(jié)果表明,樣本的最小平均偏相關(guān)系數(shù)為0.0123,共抽取了3個主成分,具體結(jié)果如表1所示。
2.平行分析
SPSS軟件的平行分析語法相對于MAP的語法更復雜,有興趣的讀者可以參考O′Connor的相關(guān)文獻[4]。由于ViSta(the visual statistics system)軟件可以方便的進行平行分析,本文將以其為基礎(chǔ)進行平行分析的處理。ViSta是一款基于可視化的免費統(tǒng)計分析系統(tǒng),采用圖形界面操作方式,可以直接從其網(wǎng)站上下載[8]。安裝完成后只要按照要求把數(shù)據(jù)導入,按需要點選對應(yīng)的分析按鈕即可。
表1 Velicer′s最小平均偏相關(guān)
將樣本數(shù)據(jù)轉(zhuǎn)換為文本文件,打開ViSta軟件,點擊file--import data把數(shù)據(jù)文件導入系統(tǒng)(注意:不是open data)。此時用戶界面左上方的工具按鈕變成藍色,如果沒有變色,需要返回檢查缺失值并進行處理。點擊Analyze-Parallel Analysis,出現(xiàn)Options for Parallel Analysis對話筐,根據(jù)需要可以改變Number of samples后的數(shù)字,如改為500,表明要模擬500個具有相同被試和題項的隨機數(shù)據(jù)矩陣,然后點擊Ok按鈕即可,用戶界面出現(xiàn)工作地圖,點擊“圖形”按鈕,即出現(xiàn)平行分析結(jié)果圖,分析完成。打開Window菜單,Current Report Window給出詳細的特征值,點選Copy Spread Plot,可以把平行分析的圖形復制入word文檔(圖1)。
圖1 ViSta平行分析結(jié)果圖
在本例中,真實數(shù)據(jù)的特征值曲線與模擬數(shù)據(jù)的特征值曲線在第3與4因子之間相交,說明前3個因子解釋的變異與隨機誤差引起的變異具有顯著的區(qū)
別。本例中前3個因子共解釋了變異的47.54%。第4-6個因子,盡管其特征值大于1,但由于無法區(qū)分其變異是由真實的情況引起還是由隨機的誤差引起,所以保留的價值不大。
最小平均偏相關(guān)法和平行分析是基于一定的數(shù)理統(tǒng)計基礎(chǔ)的決定因子數(shù)目的方法,克服了目前常用的因子提取規(guī)則如K1法、碎石圖、解釋的方差比例等方法的主觀性和不足。本文通過實際調(diào)查數(shù)據(jù)的分析,詳細介紹了上述兩種方法的實現(xiàn)過程,為研究者的應(yīng)用提供了較好的范例和樣本,有利于該方法的推廣使用,也有利于提高研究者因子提取的科學性。
但是,應(yīng)當注意的是,不要忘記任何方法都有它的局限性,不能無限放大它的作用,MAP分析的理論基礎(chǔ)是基于樣本數(shù)據(jù)的相關(guān)性,而平行分析的理論基礎(chǔ)是特征值分析,在一定的情況下,仍然會存在較大的誤差,因此,在推薦使用MAP分析和平行分析的同時,必須提醒研究者在實際的研究過程中最好聯(lián)合使用多種方法并兼顧理論的建構(gòu)來決定因子的數(shù)目,這需要每一個做探索性因素分析的研究者牢記[4,9]。
參考文獻
[1]Watkins MW.Determining parallel analysis criteria.Jour-nal of Modern Applied Statistical Methods,2006,2:344-346.
[2]沐守寬,顧海根.探索性因素分析因子抽取方法的比較.心理學探新,2011,31(5):477-480.
[3]趙必華.修訂的兩因素學習過程問卷因素結(jié)構(gòu)的探查.安徽師范大學學報(人文社會科學版),2013(4):402-408.
[4]O′Connor BP.SPSS and SAS programs for determining the number of components using parallel analysis and Velicer′s MAP test.Behavior Research Methods,Instr-uments,& Computers.2000,32(3):396-402.
[5]尹波.主成分抽取數(shù)量確定的新方法.統(tǒng)計與決策,2010,19:8-10.
[6]尹波.基于偏相關(guān)系數(shù)和平行檢驗的主成分抽取數(shù)量的確定方法.統(tǒng)計與決策,2011,4:7-9.
[7]Zwick WR,Velicer WF.Comparison of Five Rules fo-r Determining the Number of Components to Retain.Psychological Bulletin,1986,99 (3):432-442.
[8]ViSta軟件下載地址:http:/ / www.uv.es/ visualstats/ Book/ DownloadBook.htm.
[9]孔明,卞冉,張厚粲.平行分析在探索性因素分析中的應(yīng)用.心理科學,2007,30(4):924-925.
(責任編輯:郭海強)
*基金項目:安徽師范大學2014年度研究生科研創(chuàng)新項目(立項編號:2014yks004)