胡 鵬,路 紅,馬子程
(1.廣州大學(xué) 教育學(xué)院,廣州 510006;2.中山大學(xué)嶺南學(xué)院,廣州 510275)
近年來,越來越多的社會科學(xué)研究者采用結(jié)構(gòu)方程模型(SEM)來進行量化研究中的數(shù)據(jù)分析,其主要原因是相對于傳統(tǒng)的回歸分析,SEM具有允許自變量與因變量均含測量誤差、同時處理多個因變量、提供模型擬合指數(shù)等優(yōu)勢[1]。事物之間的關(guān)系錯綜復(fù)雜,當今的社會科學(xué)實證研究需要考慮更多的變量,應(yīng)用SEM是研究需要,SEM是多變量統(tǒng)計分析的重要方法,廣泛應(yīng)用于心理學(xué)、管理學(xué)、社會學(xué)、教育學(xué)和經(jīng)濟學(xué)等社科類實證研究。
SEM分為測量模型和結(jié)構(gòu)模型[2],而驗證性因子分析(Confirmatory Factor Analysis,CFA)的分析對象正是SEM中的測量模型部分。通常,研究者先根據(jù)前人研究并結(jié)合理論提出一個因子結(jié)構(gòu)模型,然后通過相關(guān)軟件建立模型,最后導(dǎo)入數(shù)據(jù)運用算法去估計模型待估參數(shù),得到參數(shù)估計結(jié)果和擬合指數(shù),評價模型。
在建構(gòu)好模型并確保模型可以識別后,選擇恰當?shù)墓烙嫹椒▽δP偷膮?shù)進行估計,目前比較常用的估計方法有ML和PLS[3]。最后是模型評價階段,模型擬合的評價主要是通過擬合指數(shù)的表現(xiàn)來衡量,擬合指數(shù)分為絕對擬合指數(shù)、相對擬合指數(shù)和簡約指數(shù)[4],目前國內(nèi)學(xué)者普遍建議使用的擬合指數(shù)有以下幾個:χ2/df、CFI、NNFI(TLI)和RMSEA,每個擬合指數(shù)都對應(yīng)一個臨界值,χ2/df最寬松的標準是5以下,CFI和NNFI要達到0.9以上,RMSEA的要求是0.08以下[5-7]。由于在實際研究中,很難一次就達到具有良好擬合的模型,所以目前各大主流SEM軟件均報告修正指數(shù)(MI),修正指數(shù)的實質(zhì)是對模型修正的“數(shù)學(xué)”提示,盲目地根據(jù)MI來修正模型是不可取的,不能忽略模型背后的理論意義[8]。值得注意的是,目前學(xué)界存在的一個較為普遍的現(xiàn)象:為了“提高模型擬合”,根據(jù)修正指數(shù)來設(shè)定CFA中部分條目的誤差項相關(guān),但沒有緊接著給出一個合理的解釋(實際上大多數(shù)情況下是解釋不清的)。那么究竟在CFA中能不能允許誤差相關(guān)?什么條件下可以允許誤差相關(guān)?不能允許誤差項相關(guān)但擬合不達標又怎么辦?這是本文所關(guān)注的三個核心問題。本文從誤差分解的角度來闡述CFA中允許誤差項相關(guān)的條件,并結(jié)合兩個特例模型來說明其允許誤差項相關(guān)的合理性和必要性。
提到誤差分解,最容易聯(lián)想到的是經(jīng)典測量理論(CTT):X=T+E(X為觀測分數(shù),T為真分數(shù),E為測量誤差),CTT框架下的測量誤差分為隨機誤差和系統(tǒng)誤差。隨機誤差是指那些研究者未知的也無法控制的因素所造成的測量偏差,如被試個人的緊張、生病或者測驗場景的偶發(fā)噪音等;而系統(tǒng)誤差的特點是對所有條目甚至所有被試的影響是一致的,如被試對模棱兩可的條目可能存在著一律選“是”或一律選“否”的傾向,這種誤差一旦被研究人員所察覺,在下次測量中就可以被控制甚至消除[9]。
CFA框架下的測量誤差被細分為:隨機誤差、系統(tǒng)誤差和獨特性成分[10],不難發(fā)現(xiàn),與CTT相比,獨特性成分是CFA的誤差里所獨有的,指的是某條目與同因子下其他條目的公共變異被抽取后剩余的成分,反映的是條目自身的獨特性,而獨特的原因往往是源于條目不同的表述。雖然誤差被分解,但無法對三者進行數(shù)量上的區(qū)分,始終是綁在一起呈現(xiàn)一個數(shù)值,而且目前學(xué)界關(guān)于獨特性的大小要求也沒有明確的臨界值界定,但可以肯定的是條目間是需要有一定程度的獨特性的,否則采用多個條目測量同一潛變量的意義將大打折扣。
CFA中的修正指數(shù)主要包括兩大類:允許誤差相關(guān)和條目跨因子負荷。前者是指釋放誤差相關(guān)自由估計,后者是指條目同時負荷于多個因子,修正指數(shù)的原理就是通過釋放這些參數(shù)自由估計來提高模型擬合優(yōu)度。每釋放一個參數(shù)自由估計,模型的卡方會減少,擬合相應(yīng)也會有所改善,理論上說,當模型的所有參數(shù)自由估計時,模型達到飽和,擬合最優(yōu);固定所有參數(shù)時,即為獨立模型,擬合最差。在參數(shù)估計結(jié)果未知時,先驗的去固定某些參數(shù)值的做法不利于產(chǎn)生數(shù)學(xué)上最優(yōu)的再生矩陣,有可能得到欠佳的擬合優(yōu)度,這時軟件從數(shù)學(xué)的角度指引研究者釋放一些MI比較大的參數(shù)來減小卡方值提高擬合優(yōu)度。一味的根據(jù)修正指數(shù)去不斷允許誤差相關(guān),模型的擬合一定會越來越好,但這是典型的“數(shù)據(jù)驅(qū)動”,顯然不可取。對于軟件本身來說,模型只是一堆數(shù)學(xué)聯(lián)立方程,而對于研究者來說,模型富有深厚的理論意義,一旦設(shè)定一般不可輕易改動的,因此,研究者應(yīng)始終堅持理論先行,否則改動的模型最終會變得無法解釋。那么究竟可不可以允許誤差相關(guān)?
首先,隨機誤差是未知的、不可控的,顯然,沒有任何理由去允許隨機誤差相關(guān),其中的道理就像先驗的讓兩列數(shù)隨機,然后承認它們之間相關(guān),這已經(jīng)違背了隨機的本質(zhì);其次,系統(tǒng)誤差是同一變異源對某些條目的共同影響,如果在特定研究中真的存在這個變異源,那么在澄清這個變異源的情況下允許這些條目間的誤差相關(guān)是可以接受的,但問題是既然知道為什么不事前去控制這個變異源?又為什么只允許部分條目間的系統(tǒng)誤差相關(guān),而不是允許所有條目?成功的解釋為什么這個變異源只是對量表中的部分條目產(chǎn)生影響并非易事,因為通常情況下這種變異源的作用對象是所有條目;最后,獨特性成分是每個條目所獨有的,如果可以允許不同條目間獨特性相關(guān),那也就不可以稱之為“獨特性”了。
綜上所述,在CFA中允許不同條目誤差項相關(guān)是可行的,但理由只能是其中的系統(tǒng)誤差相關(guān),因此要解釋清楚是什么系統(tǒng)誤差對這些條目的得分產(chǎn)生了影響。換句話說,只有當研究者清楚存在某個系統(tǒng)偏差(如方法效應(yīng))對條目得分產(chǎn)生影響才能去允許誤差項相關(guān)。如果沒有合理的解釋,很難擺脫“純粹為了提高模型擬合”的嫌疑。
雖然SEM在我國社科類研究中被廣泛使用,且越來越普遍,但仍然有很多研究者沒有認識到誤差相關(guān)的實質(zhì),不恰當?shù)卦试S誤差相關(guān),具有諷刺意味的是,這些文章是發(fā)表在了相關(guān)學(xué)科的權(quán)威雜志上,通過中國知網(wǎng)、萬方和維普進行“誤差相關(guān)”“殘差相關(guān)”“誤差項相關(guān)”“殘差項相關(guān)”等同義關(guān)鍵詞的搜索,可以查閱到大量在CFA中允許誤差項相關(guān)的文獻,其中大部分都沒有給出一個合理的解釋,在此不一一贅述,下面僅以近幾年的幾篇典型文獻來具體說明。
2016年發(fā)表在《心理發(fā)展與教育》上的《學(xué)生學(xué)業(yè)成績和教師控制知覺對教師差別行為的影響》在驗證其中一個量表的結(jié)構(gòu)效度時論述到:“本文采用Mplus7.0軟件對該量表進行驗證性因素分析,刪除了機會特權(quán)維度中的一個項目與負性反饋維度中的兩個項目,并分別設(shè)定兩個維度內(nèi)共三對項目殘差相關(guān),修正后問卷結(jié)構(gòu)效度良好,χ2/df=3.56,CFI=0.92,GFI=0.92,TLI=0.91,RMSEA=0.06”[11]允許了三對項目殘差相關(guān)后并沒有任何解釋,保守的說,有單純?yōu)榱颂岣邤M合的嫌疑。又如2016年發(fā)表在《心理與行為研究》上的《心理健康素質(zhì)測評系統(tǒng)·中國成年人核心心理健康素質(zhì)全國常模的制定》在CFA中論述到:“根據(jù)模型的修正指數(shù)表,依據(jù)每步修正對模型改善程度的大小,對測量模型進行逐步修正等。第一次修正:在誤差項e4與e6之間建立相關(guān)關(guān)系;第二次修正第六次修正:在誤差項e21與e2之間建立相關(guān)關(guān)系等。經(jīng)過六次模型修正,模型擬合指數(shù)在可接納的范圍內(nèi)?!盵12]從一個欠佳的擬合出發(fā)“硬生生”經(jīng)過六次誤差相關(guān)的設(shè)定將擬合疊到達標的水平,并沒有任何關(guān)于誤差相關(guān)的解釋,倘若經(jīng)過n次誤差相關(guān)修正后使得模型擬合達標,那不如直接廢除模型擬合這個門檻來的直接了當。
除心理學(xué)外,其他社會科學(xué)也有此類現(xiàn)象,如2016年發(fā)表在《學(xué)前教育研究》上的《父母沖突與幼兒社會適應(yīng)的關(guān)系:消極情緒的中介作用》在父母沖突量表的CFA中表述為“對該量表進行驗證性因素分析和模型修正,設(shè)定兩個項目殘差相關(guān)后的擬合指數(shù)為:χ2/df=2.31,RMSEA=0.06,GFI=0.95,CFI=0.95,NFI=0.93 ”[13]此處也是在誤差相關(guān)后緊隨一個良好的擬合但沒有解釋這么做的理由。又如2014年發(fā)在《社會學(xué)研究》上的文章《檢驗環(huán)境關(guān)心量表的中國版(CNEP)》中的表述:“以上兩個模型控制了2000版量表15個觀測項目可能存在的測量誤差以及測量項目之間的誤差相關(guān)”和“在依照模型修正指數(shù)逐步犧牲了一定的模型自由度后,兩個模型都達到了飽和,各項模型擬合度指標都達到了可接受標準”[14],前半句表述模模糊糊,后半句則表現(xiàn)出明顯的“數(shù)據(jù)驅(qū)動”。以上這些文獻均沒有對誤差相關(guān)做出解釋。其實也有一些文章給出了“所謂的”理由,比如2013年《管理評論》上的文章《IT治理績效影響因子分析:基于中國電子政務(wù)實施的實證研究》,文中給出允許誤差相關(guān)的理由是:“盡管建立誤差相關(guān)違背了模型的基本設(shè)定,但是從邏輯關(guān)系來講本測量工具的測量題目之間存在一定的關(guān)聯(lián)關(guān)系是可能的,誤差相關(guān)系數(shù)也非常低,修正模型可以接受。修正后的測量模型的擬合情況比較良好,多數(shù)指標達到了令人滿意的標準,可以接受測量模型?!盵15]理論上講條目間確實是相關(guān)的,但這種相關(guān)關(guān)系已經(jīng)被公因子所解釋,其次條目間相關(guān)和誤差相關(guān)也不是一回事。
綜上所述,目前此類不恰當允許誤差相關(guān)的文章對誤差相關(guān)的解釋分為三類:第一類,直接不解釋,可能認為根據(jù)修正指數(shù)來修正模型提高擬合理所當然;第二類,表述模糊,不明確指出允許了部分條目的誤差相關(guān),但內(nèi)行人能看的出來;第三類,似是而非的解釋,主要是類似于“理論上這些條目間是相關(guān)的,所以允許誤差相關(guān)可以接受”之類的表述。
在標準的CFA模型中一般不允許條目間誤差相關(guān),但有一些特殊CFA模型可以允許誤差相關(guān)的存在,并且這種允許是合理的、必要的,下文僅以CT-CU模型和縱向等值檢驗為例來說明其允許誤差項相關(guān)的合理性和必要性。
關(guān)聯(lián)特質(zhì)-關(guān)聯(lián)獨特性模型(Correlated Trait-Correlated Uniqueness,CT-CU)與標準CFA不同的是,所有條目的得分并不是采用同一種方法測到的,這里面存在一個方法學(xué)效應(yīng)。下面舉例說明:
如圖1所示,與圖1模型不同的是,這里允許e1與e4相關(guān)、e2與e5相關(guān)、e3與e6相關(guān),之所以這樣設(shè)定是因為在這個模型中,a1與 a4、a2與a5、a3與 a6這三對條目是分別用不同的方法測量的,比如老師評定、家長評定和自評這三種方法。因此,在這個模型中多了一個方法學(xué)效應(yīng),同一種方法測得的條目得分都受到該方法產(chǎn)生的系統(tǒng)誤差,不同方法造成的系統(tǒng)誤差可能是不同的,故可以允許同一種方法測得的條目誤差間相關(guān)[16]。此種情況下如果誤差相關(guān)全部限定為0,反而是不合理的,即沒有考慮到方法學(xué)效應(yīng)對條目得分的影響。
圖1 CT-CU模型
與橫斷研究相比,縱向研究可以考察變量隨不同時間點的變化情況,例如考察某群體心理健康水平隨時間的變化趨勢就需要進行縱向研究設(shè)計。需要注意的是,在比較不同時間點變量水平之前,需要進行縱向不變性的等值檢驗,如果不滿足這個前提,則不能進行潛均值的比較[17]。圖2即為一個兩因子測量兩次的縱向等值檢驗,f1與f2是第一次測量,f12與f22是第二次測量,f1對應(yīng)f12,f2對應(yīng)f22。從圖2可以看出,允許兩次測量中的同一條目間誤差相關(guān),如e1與e7,理由是e1與e7是同一條目,同一條目的獨特性是相同的,一般認為獨特性引起的變異在多次測量間保持恒定[18],因此,這里允許的誤差相關(guān)是同一條目獨特性的相關(guān),并且合理、必要。
圖2 縱向等值檢驗?zāi)P?/p>
綜上,兩個特例模型說明CFA在某些情況下是可以允許誤差相關(guān)的,不難看出,這兩個特例中允許誤差相關(guān)是合情合理、有理有據(jù)的,實際上這兩個模型也代表了兩類可能出現(xiàn)誤差相關(guān)的模型:方法學(xué)效應(yīng)模型、縱向設(shè)計模型。需要強調(diào)的是,本文利用這兩個模型進行闡述并不代表著只有這兩個特例模型可以允許誤差相關(guān),其意旨在說明其允許誤差項相關(guān)的合理性和必要性。
在實際研究中,由于人力、物力和財力等種種因素,往往很難做到采用多種方法測評或者縱向的追蹤調(diào)查,最常遇到的是采用同一種方法(如紙筆測驗)、相同數(shù)據(jù)來源(如自評)的橫斷調(diào)查數(shù)據(jù),由上述分析可知,在這種情況下去允許誤差相關(guān)往往是解釋不清的,尤其是只允許部分條目誤差相關(guān)。
如果不允許誤差相關(guān),但CFA模型的擬合欠佳,這時該怎么辦?可能是研究者最關(guān)心的問題,下面按CFA的對象將其分為兩類來分別探討并給出建議:
第一類CFA的對象是成熟量表,研究者利用某公認的成熟量表收集調(diào)查數(shù)據(jù),這時在進行CFA時一般不建議去改變量表的原結(jié)構(gòu),除非有特殊的理由(如跨群體研究)。不改變量表的原結(jié)構(gòu)意味著要忽略關(guān)于條目跨因子負荷的MI,剩下關(guān)于誤差相關(guān)的MI就顯得尤為重要。雖然不允許誤差相關(guān),但如果存在多個較大的誤差相關(guān)的MI值,意味著可能存在某個系統(tǒng)因素對這些條目的得分產(chǎn)生影響,這時可以將所有的條目都負荷在一個潛因子上(圖3),即共同方法變異(CMV)統(tǒng)計控制中的“控制未測單一方法潛因子法”[19],共同方法變異指相同數(shù)據(jù)來源或評分者、相同測量環(huán)境等因素所造成的測驗條目間或潛構(gòu)念間的人為共變[20],因此,對于采用此類調(diào)查方式收集的量表數(shù)據(jù),無論是從理論上還是邏輯上,假定存在一個方法因子可以解釋測驗條目的部分變異都是合情合理的;此外,從統(tǒng)計上說,在控制這個方法效應(yīng)后得到的參數(shù)估計結(jié)果會更加精確,這也應(yīng)是研究者所追求的;最后,增加一個方法因子后釋放了數(shù)量等于條目總數(shù)的參數(shù),從理論上說,模擬的擬合一定會有所改善,并且改善的幅度一般會比允許部分條目誤差相關(guān)更大??傊?,對于相同測量方法的橫斷成熟量表數(shù)據(jù),如果擬合不達標,建議采用帶方法因子的CFA模型,而不是允許部分條目誤差項相關(guān)。
圖3 帶方法因子的CFA模型
第二類CFA的對象是自編量表或修訂量表,對于這類量表數(shù)據(jù)的CFA,不僅可以考慮加入方法因子,還應(yīng)當重點關(guān)注條目跨因子負荷的MI,并根據(jù)量表背后的理論和條目的表述來判斷事先設(shè)定的條目的因子歸屬是否合理,如果存在交叉負荷的條目,建議予以刪除??傊?,在理論解釋條目跨因子負荷的合理性的基礎(chǔ)上,可以通過這種方法來提高模型擬合。
本文首先利用一個簡單的模型闡述CFA的原理及過程,接著從誤差分解的角度,在闡述各誤差成分含義的基礎(chǔ)上,分析得出:
(1)可行性:雖然標準CFA不允許誤差相關(guān),但在某些特定模型里可以允許誤差相關(guān),如CT-CU模型和縱向等值檢驗?zāi)P汀?/p>
(2)條件性:允許不同條目誤差項相關(guān)的理由只能是系統(tǒng)誤差相關(guān),只有研究者能夠解釋可能是什么系統(tǒng)偏差對條目得分產(chǎn)生了影響,才能去允許誤差相關(guān),否則允許誤差相關(guān)是欠妥的。
(3)建議:對于成熟量表的CFA,考慮加入方法因子;對于自編量表或修訂量表的CFA,還有重點關(guān)注條目負荷跨因子的修正提示,并結(jié)合理論來考慮量表的結(jié)構(gòu)是否需要調(diào)整。