王天劍
(貴州財經(jīng)大學(xué) 外國語學(xué)院,貴州 貴陽 550004)
`
隨著四、六級英語機考的逐漸推廣,大學(xué)英語學(xué)期考試方式也開始向無紙化方向轉(zhuǎn)變。機考或者無紙化考試可以節(jié)約資源,節(jié)省閱卷工作量。借助題庫和工具軟件,計算機系統(tǒng)能夠隨機生成大量不同內(nèi)容試卷,使學(xué)生難以在考場中抄襲他人答案。但機考也有潛在問題。例如機房軟硬件的穩(wěn)定性、學(xué)生對鍵盤操作的熟練度,以及對機考的心理反應(yīng)(如焦慮、恐懼等),都可能影響考試結(jié)果[1]。更主要的問題是試卷很難真正同質(zhì)。無論什么樣的題庫,同類試題之間所謂的“同質(zhì)”、“ 等值”僅是相對而言。據(jù)筆者調(diào)研,不少高校大學(xué)英語機考依托的是任課教師命題創(chuàng)建的題庫。由于缺乏嚴(yán)格質(zhì)量監(jiān)控,這些題庫在機考中隨機組合生成的試卷,同質(zhì)性尤其值得懷疑。試卷同質(zhì)性越小,測試信度越低??疾橥|(zhì)性和信度,離不開現(xiàn)代高級測量理論。
概化理論是一種教育、心理和行為測量理論。它是在方差分析與經(jīng)典測量技術(shù)基礎(chǔ)上,逐步發(fā)展而來的理論體系[2]。按照經(jīng)典測量理論,測量結(jié)果包括真分?jǐn)?shù)與誤差。利用方差分析,概化理論進一步將誤差區(qū)分為不同來源成分,計算各自比重,并估算概化系數(shù)和可靠性指數(shù)。兩種指標(biāo)類似于經(jīng)典測量的信度,其中概化系數(shù)旨在衡量,測量結(jié)果用于跟據(jù)某種特質(zhì)將對象排序時的穩(wěn)定性(相對測量信度);可靠性指數(shù)旨在衡量,測量結(jié)果用于考查對象某種特質(zhì)絕對水平時的可靠性(絕對測量信度)[3]。
概化分析包括G研究(概化研究)和D研究(決策研究)兩部分。前者可在觀測全域上展示各種方差來源及其比重;后者可在概化全域上,借助G研究的方差比重,通過調(diào)整測量條件(如樣本、任務(wù)、評分員、側(cè)面關(guān)系、權(quán)重等),展示信度變化,從而提供優(yōu)化測量設(shè)計的信息[4-5]。因其在測量中的重要價值,概化理論被譽為三大高級測量理論之一(另外兩種是經(jīng)典測量理論及項目反應(yīng)理論)。概化分析可分為一元概化分析和多元概化分析。前者用于單變量(univariate)研究,后者用于多變量(multivariate)研究。
近年來,國外和國內(nèi)有不少研究采用概化理論考查語言測試的質(zhì)量[6-7],但是以外語機考信度為對象的概化研究尚不多見。面對不斷推廣的機考,有必要對其進行概化分析,及時發(fā)現(xiàn)問題并予以解決。以下采用多元概化分析,考查大學(xué)英語機考的信度。
研究數(shù)據(jù)為某校120名學(xué)生的大學(xué)英語讀寫機考成績。每名學(xué)生的成績包含兩篇寫作分?jǐn)?shù)(每篇20分,共計40分)和三篇閱讀理解分?jǐn)?shù)(每篇20分,共計60分)。
由于試題包含寫作和閱讀兩類題型,寫作可視為一個變量(“因子”),閱讀可視為另一個變量(“因子”)。研究宜采用二因子、單側(cè)面多元概化分析設(shè)計:p˙×iO,其中p代表考生,i代表試題(字母p的上標(biāo)圓點表示每組數(shù)據(jù)中各個因子測量的對象相同,字母i的上標(biāo)圓圈表示不同因子包含的項目不同)。分析借助mGENOVA 軟件進行,該軟件是Brennan開發(fā)的多元概化分析專用工具[8]。
在進行概化分析前,對120名學(xué)生的機考分?jǐn)?shù)進行了描述統(tǒng)計,以展示成績的分布特征(表1)。
多元概化分析主要在兩種試題變量(因子)上展開,分析包括G研究和D研究兩部分。
1.G研究結(jié)果
借助G研究,可以獲得各個效應(yīng)(考生、試題、考生與試題的交互)在“寫作”和“閱讀”兩個因子上的方差等指標(biāo),結(jié)果如表2所示。
注:各個效應(yīng)矩陣中,主對角線上的數(shù)據(jù)是效應(yīng)在對應(yīng)因子上的方差估計,主對角線之下為因子間的協(xié)方差估計,主對角線之上為因子間的相關(guān)系數(shù)。
交互效應(yīng)是指一個變量的不同水平對結(jié)果的影響趨勢,在另一個變量的不同水平上呈現(xiàn)反差,在坐標(biāo)系中表現(xiàn)為交叉直線。例如,學(xué)生和試題可視為兩個變量,如有交互作用,會出現(xiàn)A生在第一題得分高、第二題得分低,而B生在第一題得分低、第二題得分高。在兩道題上,兩個學(xué)生的得分連線交叉。根據(jù)表2可知,交互效應(yīng)在“寫作”和“閱讀”二因子上的方差,明顯高于考生在二因子上的對應(yīng)方差(6.16>3.10, 11.85> 4.23)。試題難度的方差也不容忽視(在閱讀上的方差為3.41,接近考生的方差4.23)。交互效應(yīng)和試題難度在“閱讀”上的方差,高于其在“寫作”上的對應(yīng)方差(3.41>1.84, 11.85>6.16)。方差大小反映著一種效應(yīng)對成績影響的大小。交互效應(yīng)方差較大,意味著不同學(xué)生在不同試題上,得分或失分的傾向存在明顯反差(如A生在第一篇寫作上得分很高,在第二篇上很低;B生在第一篇上很低,在第二篇上很高)。試題難度在“閱讀”上的方差,與考生的對應(yīng)方差相去不大,表明試題對“閱讀”絕對測量信度的影響不能忽略(會導(dǎo)致低估或高估學(xué)生的絕對閱讀水平)??忌鷮Τ煽冇绊懖徽純?yōu)勢,表明考試未能有效反映學(xué)生的寫作和閱讀水平。
2. D研究結(jié)果
(1)不同因子測量的信度。針對不同因子測量信度的D研究結(jié)果顯示,“寫作”因子的概化系數(shù)為0.50,可靠指數(shù)為0.44;“閱讀”因子的概化系數(shù)為0.52,可靠性指數(shù)為0.45。所有信度指標(biāo)都遠遠低于理想標(biāo)準(zhǔn)(0.80)。
(2)全域合成分測量信度。按照兩因子所占比重(“寫作”分值比重為40%,“閱讀”為60%),設(shè)定權(quán)重系數(shù),對測量結(jié)果進行整合,可得全域合成分測量信度估計值。分析顯示,全域合成分概化系數(shù)和可靠指數(shù)分別為0.63和0.56,與單個因子測量精確度相比有所提高。這表明,“寫作”和“閱讀”兩個因子得分合并起來代表讀寫水平,具有一定的合理性。但是兩個信度指標(biāo)仍顯著低于0.80。
(3)兩因子對全域合成分的貢獻。雖然兩因子的賦分顯示其權(quán)重分別為40%和60%,但兩者對全域合成分方差的實際貢獻如何仍需D研究檢驗。根據(jù)分析,“寫作”對全域合成分方差的貢獻(34%)明顯低于其賦分,而“閱讀”的貢獻(66%)明顯高于賦分。當(dāng)然“閱讀”的測量誤差所占比重也較大(相對和絕對誤差方差分別為74.25%和74.08%)。由此可見,“寫作”和“閱讀”的權(quán)重有待調(diào)整。
(4)權(quán)重優(yōu)化后的全域合成分信度。鑒于“寫作”和“閱讀”賦分與實際貢獻的差別,調(diào)整兩因子權(quán)重,進一步分析信度變化。結(jié)果顯示,在“寫作”和“閱讀”權(quán)重調(diào)整為45%與55%時,概化系數(shù)和可靠指數(shù)分別可提高到0.63與0.57;兩權(quán)重各占50%時,兩系數(shù)可提高到0.64與0.57。所以在可操作范圍內(nèi),改變“寫作”和“閱讀”的權(quán)重,概化系數(shù)和可靠指數(shù)雖有提升趨勢,但變化很慢。由于兩個因子是讀寫課程測試的兩個平行特質(zhì),不易進一步改變權(quán)重。
(5)試題數(shù)量優(yōu)化后的全域合成分信度。改變試題數(shù)量是嘗試調(diào)整信度的常用手段。在“寫作”和“閱讀”權(quán)重各保持50%的情況下,將“寫作”變?yōu)?篇(或4篇),“閱讀”變?yōu)?篇(或5篇),概化系數(shù)與可靠指數(shù)分別可提高到0.71(或0.76)與0.65(或0.71)。由此可見,在可操作范圍內(nèi),合理增加任務(wù)數(shù)量能夠提高信度,但是不能完全解決問題(信度仍未達到0.80)。
本研究采用多元概化分析,考查了機考大學(xué)英語讀寫成績的信度。結(jié)果表明,對于成績的影響,考生與試題的交互效應(yīng)遠遠高于考生效應(yīng),試題難度效應(yīng)也不容忽視。交互效應(yīng)和試題難度效應(yīng)的影響在“閱讀”方面尤為突出。無論是在“寫作”和“閱讀”兩個因子層面,還是在整個測試層面,測試的信度都未達到理想水平。在可操作范圍內(nèi)調(diào)整試題權(quán)重和題量,僅能在一定程度上提高信度,但不能使信度達到理想水平。
本研究與其他相關(guān)概化分析出入較大。Bae等對雙語兒童不同語言、不同寫作任務(wù)進行的概化分析中發(fā)現(xiàn),考生是成績變異的主要來源[9]。在一項綜合研究中,In’nami等考查了17項寫作概化研究(涉及22個數(shù)據(jù)集)。結(jié)果發(fā)現(xiàn),平均而言考生是成績變異的主要來源,其次是考生與試題的交互效應(yīng),試題效應(yīng)是比較微小的變異來源[10]。Huang在元分析中,綜合了9項外語測試,發(fā)現(xiàn)任務(wù)與考生的交互效應(yīng)方差比重平均為15.06%,試題效應(yīng)的方差比重平均為0.04%[11]。由此可見,一般語言測試中,考生是成績的主要影響因素,交互效應(yīng)、試題等屬于次要影響因素。這是因為一般測試具有效度信度,成績主要反映的是考生的相關(guān)特質(zhì)(知識、技能、能力)水平。
本研究發(fā)現(xiàn),交互效應(yīng)對于成績的影響遠遠高于考生效應(yīng),試題難度效應(yīng)不容忽視。其原因很可能在于機考時計算機系統(tǒng)隨機生成的試卷缺乏同質(zhì)性。在同一道試題中,不同考生遇到的具體任務(wù)難度忽高忽低,不同試卷難度波動較大。
試題難度的影響,主要表現(xiàn)在絕對測量信度上;考生與試題交互效應(yīng)的影響,同時表現(xiàn)在相對測量和絕對測量信度上。當(dāng)成績不能較好地反映個人在特定方面的絕對水平和名次時,不僅考試信度較低,而且效度也值得懷疑。
由于隨機組卷依托的是題庫,本研究發(fā)現(xiàn)的機考問題,其深層原因可能是題庫質(zhì)量不穩(wěn)定、各題的難度差異太大。在缺乏可操作的標(biāo)準(zhǔn)以及必要的技術(shù)條件下,任課教師集體構(gòu)建的題庫很容易出現(xiàn)同類任務(wù)難度不同的情況。這樣的題庫未經(jīng)嚴(yán)格質(zhì)量鑒定和審核,直接用于機考組卷,導(dǎo)致異質(zhì)試卷及較低的考試信度和效度也就不足為奇了。
此外,本研究也發(fā)現(xiàn),試題難度、交互效應(yīng)對成績的影響在“閱讀”上較為突出,這可能是因為:“閱讀”是客觀題,系統(tǒng)自動評分,難度差別會不折不扣地反映在分?jǐn)?shù)上;“寫作”是主觀題,教師在改卷時會根據(jù)經(jīng)驗,對難度較大的“寫作”放寬標(biāo)準(zhǔn)評分,因此縮小了不同“寫作”任務(wù)之間的分?jǐn)?shù)差別。此外,一個教師要對同一個學(xué)生兩篇作文評分,暈輪效應(yīng)(Halo effect)也會降低分?jǐn)?shù)的差別。由于試題難度、交互效應(yīng)對“寫作”成績的影響相對較小,因此提升“寫作”并降低“閱讀”賦分權(quán)重可以緩解信度危機。
考試信度不僅關(guān)系到結(jié)果的穩(wěn)定性,也涉及公平性問題。提高機考信度,需要創(chuàng)建優(yōu)質(zhì)題庫。為了測量寫作和閱讀,命題者應(yīng)查閱相關(guān)文獻,全面理解兩者的發(fā)展規(guī)律。不少研究顯示,學(xué)生對不同體裁(genre)任務(wù)的寫作能力發(fā)展是不平衡的,一種體裁的寫作能力,不能預(yù)測另一種體裁的水平[12],因為不同體裁文章需要不同的修辭結(jié)構(gòu)、基本語言成分、甚至單詞類型。一般學(xué)生會對某些體裁的寫作擅長,對另一些則生疏[13]。全面衡量寫作水平,需要多篇不同作文測試任務(wù)[14]。
對于閱讀,在命題時不僅應(yīng)考慮體裁問題,也應(yīng)考慮文本的其他特征(如風(fēng)格、可讀性、篇長、句長、詞長、詞匯級別、詞匯密度等)[15],并通過實測建立文本特征與難度級別之間的對應(yīng)關(guān)系,以便使同類任務(wù)逼近同質(zhì)。
本研究考查了某高校大學(xué)英語讀寫機考的信度,結(jié)論如下:在缺乏同質(zhì)題庫條件下,大學(xué)英語機考中采用隨機組卷會導(dǎo)致信度不足,甚至扭曲考試結(jié)果,無法真正客觀、公平地反映學(xué)生的真實英語水平;在缺乏同質(zhì)題庫條件下,調(diào)整試題數(shù)量和賦分權(quán)重、適當(dāng)增加主觀題分量,可以在一定程度上緩解信度危機。
為從根本上解決機考信度危機問題,隨機組卷需要以同質(zhì)題庫為基礎(chǔ)。建議在建立大學(xué)英語讀寫題庫時,命題者要根據(jù)學(xué)生寫作和閱讀發(fā)展規(guī)律,采用定性、定量、實證研究結(jié)合的方法,對試題進行分析和研究,對難度進行準(zhǔn)確評定。在無法保證試題同質(zhì)條件下,不宜采用隨機組卷,而應(yīng)采用相同試卷,這樣至少可以在一定程度上減少考生與試題交互作用的影響。