北京科技大學(xué) 馬利紅 北京師范大學(xué) 劉 堅(jiān)
提 要:采用多面Rasch模型,以913名高中生為研究對(duì)象,從被試、評(píng)分員、任務(wù)和評(píng)分標(biāo)準(zhǔn)四個(gè)層面對(duì)外語(yǔ)寫作思辨能力評(píng)價(jià)進(jìn)行效度驗(yàn)證。研究結(jié)果顯示:(1)包含提出問題、表達(dá)觀點(diǎn)、提供證據(jù)、推理論證、得出結(jié)論、闡釋評(píng)價(jià)的評(píng)價(jià)框架符合多面Rasch模型的測(cè)評(píng)要求,能體現(xiàn)并合理區(qū)分被試的外語(yǔ)寫作思辨能力。(2)推理論證和提供證據(jù)對(duì)測(cè)試結(jié)果的整體效度有一定影響,需要進(jìn)一步完善。研究結(jié)果對(duì)于外語(yǔ)教學(xué)中的思辨能力培養(yǎng)與評(píng)價(jià)具有一定的啟示意義。
作為21世紀(jì)核心技能,思辨能力近年來受到國(guó)內(nèi)外教育界廣泛關(guān)注。思辨能力與寫作關(guān)系密切,寫作過程既是提出觀點(diǎn)、組織證據(jù)、開展論證和反思的過程,又是分析、推理、評(píng)價(jià)和自我調(diào)控的思辨過程(Deane,2011),思辨能力影響寫作成績(jī)(高宵、文秋芳,2018)。研究表明,寫作文本是評(píng)價(jià)思辨能力的有力工具(Stapleton,2001),通過寫作文本評(píng)價(jià)思辨能力是思辨能力測(cè)評(píng)發(fā)展的重要趨勢(shì)(Preiss,2013;馬利紅、劉堅(jiān),2018)。外語(yǔ)寫作思辨能力既具有思辨能力的共性,又具有外語(yǔ)寫作的特性,常常指寫作時(shí)分析事實(shí)、表達(dá)觀點(diǎn)、堅(jiān)持立場(chǎng)、開展論證和解決問題的能力(Barnawi,2011)。目前,外語(yǔ)寫作思辨能力評(píng)價(jià)研究主要針對(duì)大學(xué)外語(yǔ)學(xué)習(xí)者(Barnawi,2011;Chason,2016;Stapleton,2001;穆叢軍,2016),對(duì)其他學(xué)段關(guān)注不夠;而且以往研究構(gòu)建的外語(yǔ)寫作思辨能力評(píng)價(jià)框架主要以理論構(gòu)建和經(jīng)驗(yàn)總結(jié)為主,缺乏通過實(shí)證研究進(jìn)行效度驗(yàn)證(陳則航等,2016;董焱寧,2017)。
發(fā)展心理學(xué)研究表明,青少年的獨(dú)立性和批判性顯著發(fā)展,不但能批判地對(duì)待別人的意見,而且能有意識(shí)地調(diào)節(jié)、支配、檢查和論證自己的思維過程(林崇德,1998:382)?!镀胀ǜ咧杏⒄Z(yǔ)課程標(biāo)準(zhǔn)(2017年版)》(以下簡(jiǎn)稱課標(biāo))強(qiáng)調(diào)要發(fā)展學(xué)生的多元思維和批判性思維。臺(tái)灣和香港地區(qū)的相關(guān)研究表明,通過外語(yǔ)寫作培養(yǎng)和評(píng)價(jià)中學(xué)生的思辨能力是可行的(Liaw,2007;Mok,2009)。因此,本研究以高中生為研究對(duì)象探索外語(yǔ)寫作思辨能力評(píng)價(jià)效度問題,本研究既有政策依據(jù),又有實(shí)證研究支持,對(duì)于高中英語(yǔ)教學(xué)和《課標(biāo)》落地具有重要的現(xiàn)實(shí)意義。
以往外語(yǔ)寫作思辨能力評(píng)價(jià)研究主要關(guān)注思辨能力和思辨標(biāo)準(zhǔn),比如Connors(2008)從問題的完整性、答案的精確性與簡(jiǎn)潔性、結(jié)論的嚴(yán)謹(jǐn)性、能否結(jié)合案例討論、整體論證質(zhì)量;Stapleton(2001)從結(jié)論邏輯性、論點(diǎn)數(shù)量、證據(jù)充分性、識(shí)別反駁、回應(yīng)反駁、謬誤數(shù)量;Qin和Karabacak(2010)基于圖爾敏論證模型從論證、證據(jù)、反面論證、反面證據(jù)、反駁論證、反駁證據(jù);Osana和Seymour(2004)從基于證據(jù)、得出結(jié)論、不同視角論證等方面分析和評(píng)價(jià)等,這些都是從思辨能力視角開展的評(píng)價(jià)研究。另外,穆從軍(2016)從相關(guān)度、清晰度、精確度、深度、寬度和修辭自洽度;McLean(2005)從清晰度、相關(guān)性、深度、邏輯性、精確性、寬度和支持度;董焱寧(2017)從清晰性、準(zhǔn)確性、精確性、深度、廣度、重要性、相關(guān)性、邏輯性和公正性等方面構(gòu)建外語(yǔ)寫作思辨能力評(píng)價(jià)標(biāo)準(zhǔn),而這些是從思辨標(biāo)準(zhǔn)視角開展的評(píng)價(jià)研究。從思辨能力視角開展評(píng)價(jià)研究,強(qiáng)調(diào)外語(yǔ)寫作思辨的具體技能,但忽略了評(píng)價(jià)應(yīng)堅(jiān)持的標(biāo)準(zhǔn),容易降低評(píng)價(jià)結(jié)果的科學(xué)性;從思辨標(biāo)準(zhǔn)視角開展評(píng)價(jià)研究,雖重視外語(yǔ)寫作思辨質(zhì)量評(píng)價(jià)應(yīng)遵循的標(biāo)準(zhǔn),但弱化了評(píng)價(jià)的具體對(duì)象,導(dǎo)致評(píng)價(jià)的可操作性不強(qiáng)。
本研究以思辨能力三元結(jié)構(gòu)模型(Paul & Elder,2006)為理論依據(jù),將思辨能力(包括目的、問題、觀點(diǎn)、信息、推理、概念、假設(shè)、啟示)和思辨標(biāo)準(zhǔn)(包括清晰性、準(zhǔn)確性、精準(zhǔn)性、相關(guān)性、重要性、完整性、邏輯性、公正性、有廣度、有深度)共同融入高中外語(yǔ)寫作中。通過寫作文本分析初步篩選評(píng)價(jià)指標(biāo),基于三輪專家調(diào)查進(jìn)一步凝練評(píng)價(jià)指標(biāo)并完善其內(nèi)涵。(1)高中外語(yǔ)寫作思辨能力評(píng)價(jià)指標(biāo)的確定過程將另文表述,感興趣的讀者可與研究者聯(lián)系索取。最后形成的外語(yǔ)寫作思辨能力評(píng)價(jià)指標(biāo)體系包括提出問題、表達(dá)觀點(diǎn)、提供證據(jù)、推理論證、得出結(jié)論和闡釋評(píng)價(jià)(如表1所示)。
表1.外語(yǔ)寫作思辨能力評(píng)價(jià)指標(biāo)
上述指標(biāo)體系借鑒了思辨能力三元結(jié)構(gòu)模型的理論觀點(diǎn),并通過動(dòng)態(tài)交互的教師訪談、學(xué)生訪談和專家訪談,篩選和完善評(píng)價(jià)指標(biāo),彌補(bǔ)了以往研究相對(duì)靜態(tài)的、線性的基于文本視角的局限性,但是評(píng)價(jià)指標(biāo)的效度還需要通過實(shí)證研究檢驗(yàn)。本研究擬根據(jù)上述評(píng)價(jià)指標(biāo)命制英語(yǔ)寫作題目并進(jìn)行測(cè)試,通過多面Rasch模型對(duì)上述評(píng)價(jià)指標(biāo)進(jìn)行效度驗(yàn)證。
1)研究對(duì)象
2018年1月上旬,通過方便抽樣和目的抽樣相結(jié)合的方法,對(duì)H、K和S三個(gè)城市6所高中共1 001名學(xué)生進(jìn)行英語(yǔ)寫作測(cè)試。收集完數(shù)據(jù)后,研究者首先對(duì)作文進(jìn)行編號(hào),隱去姓名、學(xué)校等信息,并剔除無(wú)效作文,共得到有效信息913人,其中男生394人,約占43.2%,女生519人,約占56.8%。
2)研究工具
研究工具是兩道英語(yǔ)寫作題目。Azizollah等人(2013)發(fā)現(xiàn)學(xué)生在不同類型的寫作任務(wù)中表現(xiàn)出來的思辨能力不同,這說明評(píng)價(jià)外語(yǔ)寫作思辨能力應(yīng)該考慮寫作任務(wù)的類型。根據(jù)認(rèn)知需求,寫作任務(wù)類型分為信息類、觀點(diǎn)類和推理類,信息類任務(wù)要求學(xué)習(xí)者敘述個(gè)人信息、以書面形式與讀者交流,觀點(diǎn)類任務(wù)要求學(xué)習(xí)者就某一主題表達(dá)觀點(diǎn)、形成論證、以書面形式辯護(hù)自己的立場(chǎng),推理類任務(wù)要求學(xué)習(xí)者通過推理總結(jié)和整合已有信息(Prabhu,1987)。由此可見,觀點(diǎn)類任務(wù)是考查思辨能力的最佳任務(wù)類型。盡管高中英語(yǔ)寫作中的常見文體包括記敘文、應(yīng)用文、說明文和議論文四種,但研究表明議論文在激發(fā)和評(píng)價(jià)思辨能力方面具有獨(dú)特優(yōu)勢(shì)(如Qin & Karabacak,2010;Stapleton,2001),因此本研究中的英語(yǔ)寫作重點(diǎn)關(guān)注議論文。
基于表1中的外語(yǔ)寫作思辨能力評(píng)價(jià)指標(biāo),研究者編制了雙向細(xì)目表,以充滿矛盾觀點(diǎn)且高中生熟悉的語(yǔ)言材料為素材,讓被試提出問題、表達(dá)觀點(diǎn)、基于證據(jù)進(jìn)行論證、得出結(jié)論并對(duì)其進(jìn)行反思評(píng)價(jià)。然后通過6人訪談、30人試測(cè)、專家審題、300人試測(cè)等規(guī)范程序進(jìn)一步研磨題目。最終用于測(cè)試的寫作題目包括兩部分內(nèi)容,一是閱讀材料,約150—200個(gè)單詞;二是寫作指令,約40—50個(gè)單詞。研究表明,在有時(shí)間壓力的情況下,思維能力難以充分發(fā)展(秦曉晴、文秋芳,2007)。因此,本研究的寫作測(cè)試時(shí)間比高考英語(yǔ)寫作延長(zhǎng)0.5倍,設(shè)定為45分鐘。
3)評(píng)分過程
評(píng)分前需要根據(jù)評(píng)價(jià)指標(biāo)和寫作題目研制外語(yǔ)寫作思辨能力評(píng)分標(biāo)準(zhǔn)。評(píng)分標(biāo)準(zhǔn)要適合被試的心智發(fā)展和外語(yǔ)水平,反映測(cè)試構(gòu)念,評(píng)分檔數(shù)量應(yīng)切實(shí)可行(McKay,2006)。本研究采用直覺法和數(shù)據(jù)法相結(jié)合,通過初步擬定評(píng)分標(biāo)準(zhǔn)、專家審閱、試評(píng)、試評(píng)數(shù)據(jù)分析、討論修訂等步驟研制評(píng)分標(biāo)準(zhǔn)。最終形成的分項(xiàng)評(píng)分標(biāo)準(zhǔn)包括提出問題、表達(dá)觀點(diǎn)、提供證據(jù)、推理論證、得出結(jié)論和闡釋評(píng)價(jià)六個(gè)評(píng)分點(diǎn),每個(gè)評(píng)分點(diǎn)包括0—4五個(gè)分?jǐn)?shù)等級(jí)。
本研究中的評(píng)分過程包括評(píng)分前培訓(xùn)、試評(píng)、正式評(píng)分、抽查四個(gè)環(huán)節(jié)。研究者首先詳細(xì)講解外語(yǔ)寫作思辨能力評(píng)分標(biāo)準(zhǔn),然后讓評(píng)分員試評(píng)60份寫作樣本(題目1和2各30份),將評(píng)分結(jié)果與評(píng)分標(biāo)準(zhǔn)對(duì)比,討論理解有誤的地方,直至評(píng)分員完全掌握評(píng)分標(biāo)準(zhǔn)。正式評(píng)分實(shí)行雙評(píng),即兩位評(píng)分員獨(dú)立對(duì)一份寫作文本進(jìn)行評(píng)分,如果評(píng)分差異在預(yù)先設(shè)定的閾值范圍內(nèi)(本研究閾值設(shè)為2),取二者的平均分作為最終得分;如果評(píng)分差值超過2,則由研究者進(jìn)行三評(píng)。為保證評(píng)分結(jié)果的準(zhǔn)確性,研究者抽取10%左右的寫作文本進(jìn)行核查。
根據(jù)經(jīng)典測(cè)驗(yàn)理論,評(píng)分員信度是主觀題測(cè)試的重要信度指標(biāo),通常用評(píng)分員間的評(píng)分一致性表示。本研究中,兩名評(píng)分員采用分項(xiàng)評(píng)分法對(duì)913份寫作文本進(jìn)行獨(dú)立評(píng)分,適合運(yùn)用斯皮爾曼(Spearman)等級(jí)相關(guān)計(jì)算評(píng)分員間的評(píng)分一致性。以寫作任務(wù)一為例,相關(guān)分析結(jié)果表明,兩位評(píng)分員在提出問題、表達(dá)觀點(diǎn)、提供證據(jù)、推理論證、得出結(jié)論和闡釋評(píng)價(jià)6個(gè)評(píng)分點(diǎn)所評(píng)分?jǐn)?shù)高度相關(guān)(0.711<ρ<0.994),而且兩位評(píng)分員在每個(gè)評(píng)分點(diǎn)所評(píng)分?jǐn)?shù)的平均數(shù)差異不顯著(p>0.5),進(jìn)一步說明評(píng)分員之間具有較好的評(píng)分一致性。
4)采用多面Rasch模型的理?yè)?jù)及統(tǒng)計(jì)量解釋
(1)采用多面Rasch模型的理?yè)?jù)
Linacre(1989)提出的多面Rasch模型能用來衡量評(píng)分員的寬嚴(yán)程度和評(píng)分一致性,修正由評(píng)分員造成的評(píng)分差異,檢測(cè)被試能力、評(píng)分標(biāo)準(zhǔn)、評(píng)分員、評(píng)分項(xiàng)目、任務(wù)等各面之間可能存在的交互效應(yīng),為檢查開放題評(píng)分質(zhì)量提供了一種理論框架。因此,本研究采用多面Rasch模型,從評(píng)分員層面、學(xué)生層面、任務(wù)層面和評(píng)分標(biāo)準(zhǔn)層面分析高中英語(yǔ)寫作思辨能力評(píng)價(jià)效度問題,所建立的分析模型如下:
Log[Pnijmk/Pnijm(k-1)]=Bn-Cj-Di-Fm-Gmk
Pnijmk代表被試n在完成寫作任務(wù)i時(shí)在第m個(gè)評(píng)分指標(biāo)上由評(píng)分員j給出k分的概率;Pnijm(k-1)被試n在完成寫作任務(wù)i時(shí)在第m個(gè)評(píng)分指標(biāo)上由評(píng)分員j給出k-1分的概率;Bn代表被試n的能力參數(shù);Cj代表評(píng)分員j的寬嚴(yán)程度;Di代表寫作任務(wù)的難度;Fm代表第m個(gè)評(píng)分指標(biāo)的難度參數(shù);Gmk代表在第m個(gè)評(píng)分標(biāo)準(zhǔn)中被試得分從k-1到k的等級(jí)難度。
(2)多面Rasch模型中的統(tǒng)計(jì)量解釋
本研究采用軟件Facets進(jìn)行多面Rach模型分析。多面Rasch 模型為測(cè)量側(cè)面中的每個(gè)要素都提供測(cè)量值(measure)、標(biāo)準(zhǔn)差(S.E.)和擬合統(tǒng)計(jì)量(Fit)。measure代表研究者想要測(cè)量的對(duì)象,如被試能力、評(píng)分員的寬嚴(yán)程度等;S.E.提供每個(gè)測(cè)量值的精確程度;Fit代表原始觀測(cè)值與模型估計(jì)值之間的差異程度,包括Infit MsSq(加權(quán)均方擬合統(tǒng)計(jì)量)和Outfit MsSq(未加權(quán)均方擬合統(tǒng)計(jì)量)。Outfit對(duì)異常值比較敏感,波動(dòng)較大,一般使用Infit作為擬合統(tǒng)計(jì)量的指標(biāo),理論區(qū)間為[0,+∞],期望值為1,Infit沒有固定的取值范圍,一般設(shè)定為0.5—1.5(Linacre,1989)。
多面Rasch模型還提供分隔系數(shù)(Separation)和分隔信度(Reliability)。分隔系數(shù)為校正后的測(cè)量值的標(biāo)準(zhǔn)差,一般大于3.0就說明存在顯著差異;分隔信度為真實(shí)變異與觀測(cè)數(shù)據(jù)變異的比值,比值越高表明測(cè)量側(cè)面的區(qū)分度越好(Linacre,1989)。另外,多面Rasch模型中偏差分析的最重要指標(biāo)是T值,T值的均值為0,一般界限值為|T|=2,若T值大于2,表明評(píng)分員過于寬松,若T值小于-2,表明評(píng)分員過于嚴(yán)格(Linacre,1989)。
本研究中的測(cè)試得分受被試能力水平、評(píng)分員嚴(yán)厲程度、寫作任務(wù)難度、評(píng)分標(biāo)準(zhǔn)區(qū)分度四方面因素影響。假設(shè)不同評(píng)分員對(duì)不同被試、不同任務(wù)和不同評(píng)分指標(biāo)的嚴(yán)厲程度不同,在數(shù)據(jù)分析時(shí)加入了不同層面的交互作用。下面從多面Rasch模型總體分析、不同層面分析、偏差分析三方面匯報(bào)分析結(jié)果。
1)多面Rasch模型總體分析
圖1是多面Rasch模型的整體層面圖,第一列為洛基值(Logits),第二列是評(píng)分員層面,第三列是被試層面,第四列是寫作任務(wù)層面,第五列是評(píng)分標(biāo)準(zhǔn)層面。在多面Rasch模型中,各層面以及各層面指標(biāo)之間的比較和分析均基于洛基值。本研究中,被試層面的表現(xiàn)是正向的,表示測(cè)量值越大,被試的思辨能力就越強(qiáng);評(píng)分員、寫作任務(wù)和評(píng)分標(biāo)準(zhǔn)層面是負(fù)向的,表示測(cè)量值越大,評(píng)分員越嚴(yán)厲、寫作任務(wù)越難,被試在某個(gè)評(píng)價(jià)指標(biāo)上獲得高分的概率越低。
圖1.多面Rasch模型層面圖
根據(jù)圖1,兩名評(píng)分員的嚴(yán)厲程度和兩項(xiàng)寫作任務(wù)的難度均存在差異。六項(xiàng)評(píng)價(jià)指標(biāo)中,得出結(jié)論最難,提出問題最容易。被試分布在4個(gè)洛基值之間,跨度基本合理,表示評(píng)分的離散程度較好。
2)分層面分析
多面Rasch模型的優(yōu)勢(shì)在于不但能將各面統(tǒng)一在同一量表進(jìn)行估算,而且能提供每個(gè)層面的統(tǒng)計(jì)數(shù)據(jù)。
(1)評(píng)分員層面
從表2可以看出,評(píng)分員1(Logits=0.54)比評(píng)分員2嚴(yán)厲(Logits=0.44),但I(xiàn)nfit值在可接受的范圍內(nèi),表明兩位評(píng)分員的評(píng)分較為可信。評(píng)分員層面的分割系數(shù)為1.67,信度為.74,卡方檢驗(yàn)結(jié)果(χ2=3.8,df=1,p=0.5)說明兩位評(píng)分員之間的評(píng)分差異不具有統(tǒng)計(jì)學(xué)上的顯著意義,即兩位評(píng)分員的評(píng)分較為一致。
表2.評(píng)分員層面
Separation=1.67,Reliability=.74,χ2=3.8,df=1,P=.05
(2)被試層面
因被試較多,表3按測(cè)量值高低截取了被試層面的部分分析結(jié)果。根據(jù)表3,被試層面的分割系數(shù)為2.08,信度為.81,卡方檢驗(yàn)統(tǒng)計(jì)量為683.4(df=166),說明被試的得分差異具有統(tǒng)計(jì)學(xué)上的顯著意義(p<0.001)。另外,本研究中非擬合被試有18名,占總?cè)藬?shù)的1.9%;過度擬合被試50人,其中|Z|大于2的有34人,(2)|Z|>2表示被試顯著過度擬合。占總?cè)藬?shù)的5%,表明非擬合被試和過度擬合被試人數(shù)均在可接受的范圍內(nèi)(Linacre,1989)。
Separation=2.08,Reliability=.81,χ2=683.4,df=166,p=.00
統(tǒng)計(jì)結(jié)果顯示,大約93%的被試的原始評(píng)分與模型估計(jì)的期望測(cè)量值擬合較好,表明被試的外語(yǔ)寫作思辨能力能被科學(xué)、準(zhǔn)確測(cè)量。盡管有極端值存在,但數(shù)量在可接受的范圍內(nèi)。因此,本評(píng)分結(jié)果基本能反映被試的外語(yǔ)寫作思辨能力,評(píng)價(jià)指標(biāo)的構(gòu)念效度較好。
(3)寫作任務(wù)層面
從表4可以看出,寫作任務(wù)2(Logits=.03)比寫作任務(wù)1難(Logits=-.03)。但I(xiàn)nfit值在可接受的范圍內(nèi),表明兩項(xiàng)寫作任務(wù)較為可信。分割信度值.68雖然不高,但分割系數(shù).62遠(yuǎn)遠(yuǎn)小于3,表明兩個(gè)寫作任務(wù)之間不存在明顯差異。卡方值為1.4(df=1),表明兩項(xiàng)寫作任務(wù)之間的差異不顯著(p=.24),即二者難度較為一致。
表4.寫作任務(wù)層面
Separation=.62,Reliability=.68,χ2=1.4,df=1,p=.24
(4)評(píng)分標(biāo)準(zhǔn)層面
表5所示,分割系數(shù)為9.89,分割信度為.99,卡方值62.2(df=5),顯著性p=.00,表明各評(píng)價(jià)指標(biāo)的難度和區(qū)分度具有統(tǒng)計(jì)學(xué)意義上的顯著差異。相對(duì)而言,得出結(jié)論最難,提出問題最容易,而且論證能力和提供證據(jù)的Infit擬合不太理想,|Z|值大于2,表明對(duì)推理論證和提供證據(jù)的評(píng)分受其他評(píng)分指標(biāo)影響,研究者需進(jìn)一步明確推理論證和提供證據(jù)的操作性定義和評(píng)分細(xì)則。除推理論證和提供證據(jù)外,其他評(píng)分指標(biāo)對(duì)模型的擬合均在可接受的范圍內(nèi),各指標(biāo)間相關(guān)合理,且沒有出現(xiàn)過度擬合,表明評(píng)分員能準(zhǔn)確使用評(píng)分標(biāo)準(zhǔn)進(jìn)行評(píng)分,通過評(píng)分結(jié)果可以區(qū)分出不同水平的被試。
表5.評(píng)分標(biāo)準(zhǔn)層面
多面Rasch模型還可對(duì)評(píng)分等級(jí)是否有效進(jìn)行評(píng)價(jià)。參照各評(píng)分等級(jí)的概率曲線圖(如圖2所示)可觀察分值的使用情況,每個(gè)波形對(duì)應(yīng)一個(gè)分值,各波形的交點(diǎn)就是相鄰兩個(gè)分值的臨界點(diǎn)。圖2表明,所有波形都有獨(dú)立且具有一定間隔的波峰,表示每個(gè)評(píng)分等級(jí)對(duì)應(yīng)一個(gè)能力區(qū)域(Park,2004)。
圖2.評(píng)分等級(jí)概率曲線圖
3)偏差分析
雖然分層面分析可發(fā)現(xiàn)一般意義上的評(píng)分誤差,但各層面間的交互作用還需進(jìn)行偏差分析。偏差分析指實(shí)際分?jǐn)?shù)偏離模型預(yù)測(cè)值的程度。本研究將考察評(píng)分員與被試、寫作任務(wù)、評(píng)分標(biāo)準(zhǔn)之間的交互作用,并設(shè)定|T|大于2為顯著偏差。
(1)評(píng)分員與被試的偏差分析
偏差分析時(shí),需要對(duì)主效應(yīng)模型進(jìn)行拓展,添加交互效應(yīng)參數(shù),評(píng)分員與被試之間的偏差分析需要添加評(píng)分員與被試的交互效應(yīng)參數(shù)Φnj,其他指標(biāo)都與主效應(yīng)一致,拓展后的模型為:
Log[Pnijmk/Pnijm(k-1)]=Bn-Cj-Di-Fm-Gmk-Φjn
本研究共有1826對(duì)評(píng)分員與被試的交互效應(yīng)組合(913×2)。表6按T值大小,將評(píng)分員與被試的交互效應(yīng)進(jìn)行排列,沒有出現(xiàn)|T|大于2的偏差組合。根據(jù)卡方檢驗(yàn)結(jié)果(χ2=27.7,df=334,p=1.00),評(píng)分員與被試之間的偏差并不顯著,表明評(píng)分員對(duì)所有被試的評(píng)分都可能保持較好的一致性。
表6.評(píng)分員與被試的偏差分析結(jié)果
(2)評(píng)分員與寫作任務(wù)的偏差分析
評(píng)分員與寫作任務(wù)的偏差分析可考察評(píng)分員一致性在不同寫作任務(wù)上的表現(xiàn),若偏差顯著,說明評(píng)分員對(duì)不同任務(wù)的評(píng)分不一致。
評(píng)分員與寫作任務(wù)的偏差分析需要添加評(píng)分員與任務(wù)的交互效應(yīng)參數(shù)Φji,拓展后的模型為:
Log[Pnijmk/Pnijm(k-1)]=Bn-Cj-Di-Fm-Gmk-Φji
本研究共有4對(duì)評(píng)分員與被試的交互效應(yīng)組合(2×2),表7表明評(píng)分員與寫作任務(wù)之間沒有出現(xiàn)|T|大于2的偏差組合。根據(jù)卡方檢驗(yàn)結(jié)果(χ2=.1,df=4,p=1.00),評(píng)分員與寫作任務(wù)之間的偏差并不顯著,表明評(píng)分員在兩個(gè)寫作任務(wù)上都可能保持較好的一致性。
表7.評(píng)分員與寫作任務(wù)的偏差分析結(jié)果
(3)評(píng)分員與評(píng)分標(biāo)準(zhǔn)的偏差分析
評(píng)分員與評(píng)分標(biāo)準(zhǔn)的偏差分析可以考察評(píng)分員在哪些評(píng)分指標(biāo)上出現(xiàn)偏差,偏差程度如何,偏差顯著表明評(píng)分員對(duì)每項(xiàng)評(píng)分指標(biāo)的評(píng)分不一致。
評(píng)分員與評(píng)分標(biāo)準(zhǔn)之間的偏差分析需要添加評(píng)分員與評(píng)分標(biāo)準(zhǔn)的偏差參數(shù)Φjm,拓展后的模型為:
Log[Pnijmk/Pnijm(k-1)]=Bn-Cj-Di-Fm-Gmk-Φjm
本研究共有12對(duì)評(píng)分員與評(píng)分標(biāo)準(zhǔn)的交互效應(yīng)組合(2×6),表8表明評(píng)分員與評(píng)分標(biāo)準(zhǔn)之間沒有出現(xiàn)|T|大于2的偏差組合。根據(jù)卡方檢驗(yàn)結(jié)果(χ2=4.4,df=12,p=.97),評(píng)分員與評(píng)分標(biāo)準(zhǔn)的偏差并不顯著,表明評(píng)分員在六個(gè)評(píng)分指標(biāo)上都可能保持較好的一致性。
表8.評(píng)分員與評(píng)分標(biāo)準(zhǔn)的偏差分析結(jié)果
綜上所述,評(píng)分員與被試、寫作任務(wù)、評(píng)分標(biāo)準(zhǔn)之間的交互作用并不顯著,表明評(píng)分員在對(duì)兩個(gè)寫作任務(wù)評(píng)分時(shí),在提出問題、表達(dá)觀點(diǎn)、提供證據(jù)、推理論證、得出結(jié)論、闡釋評(píng)價(jià)6個(gè)評(píng)分點(diǎn)上均能保持較好的一致性,進(jìn)一步說明本研究中的外語(yǔ)寫作思辨能力評(píng)價(jià)效度較好。
根據(jù)多面Rasch模型對(duì)評(píng)分員、被試、寫作任務(wù)、評(píng)分標(biāo)準(zhǔn)的分析以及偏差分析結(jié)果,可得出以下結(jié)論:(1)包含提出問題、表達(dá)觀點(diǎn)、提供證據(jù)、推理論證、得出結(jié)論、闡釋評(píng)價(jià)6個(gè)評(píng)分指標(biāo)的外語(yǔ)寫作思辨能力評(píng)價(jià)框架符合多面Rasch模型的關(guān)鍵測(cè)量指標(biāo)要求,具有較好的效度,能體現(xiàn)并合理區(qū)分被試的外語(yǔ)寫作思辨能力,適用于外語(yǔ)寫作思辨能力的評(píng)分。(2)推理論證和提供證據(jù)對(duì)測(cè)試結(jié)果的整體效度有一定影響,需要進(jìn)一步完善這兩個(gè)子項(xiàng)的操作性定義,通過更大樣本被試進(jìn)行效度驗(yàn)證,也可通過訪談、觀察等質(zhì)性研究手段進(jìn)一步探索評(píng)價(jià)指標(biāo)的內(nèi)涵。
本研究中的多面Rasch模型分析結(jié)果整體上與Connors(2008)構(gòu)建的多步分析評(píng)價(jià)標(biāo)準(zhǔn)的效度驗(yàn)證結(jié)果一致,為外語(yǔ)寫作思辨能力評(píng)價(jià)提供了效度證據(jù),也證實(shí)了Liaw(2007)在臺(tái)灣和Mok(2009)在香港中學(xué)外語(yǔ)課堂的研究發(fā)現(xiàn)。本研究從評(píng)分員層面、寫作任務(wù)層面、評(píng)價(jià)標(biāo)準(zhǔn)層面和被試層面多角度考慮外語(yǔ)寫作思辨能力評(píng)價(jià)的效度證據(jù),是對(duì)以往研究的有益補(bǔ)充。思辨能力是伴隨寫作過程并指導(dǎo)寫作過程的高層次思維。寫作中的布局謀篇和說理論證需要思辨能力,而思辨能力的發(fā)展可以通過寫作表現(xiàn)來實(shí)現(xiàn)(余繼英,2014)。外語(yǔ)寫作活動(dòng)既是語(yǔ)言運(yùn)用活動(dòng),又是思辨活動(dòng),二者相互影響、相得益彰,通過寫作文本評(píng)價(jià)思辨能力是思辨能力測(cè)評(píng)發(fā)展的重要趨勢(shì)(Preiss,2013;馬利紅,2018)。研究結(jié)果表明,合理的評(píng)價(jià)指標(biāo)是保證外語(yǔ)寫作思辨能力評(píng)價(jià)效度的關(guān)鍵,科學(xué)系統(tǒng)的效度檢驗(yàn)有助于發(fā)現(xiàn)影響評(píng)價(jià)效度的因素。
在實(shí)踐層面上,本研究構(gòu)建的評(píng)價(jià)指標(biāo)不但能對(duì)外語(yǔ)寫作思辨能力進(jìn)行評(píng)價(jià),而且對(duì)外語(yǔ)教學(xué)中的思辨能力測(cè)評(píng)和培養(yǎng)具有啟示意義。
首先,在命題、評(píng)分、效度驗(yàn)證三個(gè)方面對(duì)外語(yǔ)教學(xué)中的思辨能力測(cè)評(píng)研究具有啟示意義。思辨能力是一個(gè)復(fù)雜整體,任何思辨能力評(píng)價(jià)工具都具有局限性,需要從多角度收集效度證據(jù)。本研究采用多面Rasch模型收集效度證據(jù),為進(jìn)一步提高思辨能力測(cè)試記錄的一致性、提高分?jǐn)?shù)解釋的意義和概括性、改進(jìn)試題質(zhì)量提供了參考和借鑒?;谕庹Z(yǔ)寫作文本評(píng)價(jià)思辨能力,是在高中外語(yǔ)教學(xué)領(lǐng)域以開放題形式評(píng)價(jià)思辨能力的有益嘗試,考查思辨能力的外語(yǔ)寫作試題的命題思路、命題過程、評(píng)分過程、評(píng)分方法、評(píng)分標(biāo)準(zhǔn)的設(shè)計(jì)等,可為外語(yǔ)教學(xué)領(lǐng)域以開放題形式測(cè)評(píng)思辨能力提供可以借鑒的實(shí)踐經(jīng)驗(yàn)。
其次,本研究構(gòu)建的外語(yǔ)寫作思辨能力評(píng)價(jià)指標(biāo)體系以思辨能力三元結(jié)構(gòu)模型為理論基礎(chǔ),結(jié)合高中生的心智特征和英語(yǔ)寫作水平,且經(jīng)過了系統(tǒng)的效度驗(yàn)證,評(píng)價(jià)指標(biāo)可為高中英語(yǔ)教師開展思辨能力培養(yǎng)提供參考和借鑒。具體講,外語(yǔ)寫作思辨能力評(píng)價(jià)結(jié)果可以為參測(cè)學(xué)生和教師提供詳細(xì)的診斷信息,對(duì)于教師發(fā)現(xiàn)教學(xué)盲點(diǎn),改善教學(xué)方法,調(diào)整教學(xué)策略有積極作用。教師可從熟悉話題入手,鼓勵(lì)學(xué)生質(zhì)疑權(quán)威,提出問題,表達(dá)觀點(diǎn),多角度論證,運(yùn)用批判性寫作技巧,讓文章更有說服力。在平時(shí)英語(yǔ)教學(xué)中,可以多給學(xué)生提供機(jī)會(huì)表達(dá)觀點(diǎn),通過論證、反證、推理等思維過程,得出結(jié)論或提出建議。地方教育決策者也可以通過評(píng)價(jià)結(jié)果了解作為英語(yǔ)學(xué)科核心素養(yǎng)之一的思維品質(zhì)培養(yǎng)在英語(yǔ)教學(xué)中的落實(shí)情況,以便在教學(xué)資源配置、課程設(shè)置、教師專業(yè)培訓(xùn)等方面做出決策和調(diào)整。