揭薇
(上海交通大學(xué) 外國(guó)語(yǔ)學(xué)院, 上海 200240 /上海對(duì)外經(jīng)貿(mào)大學(xué) 國(guó)際商務(wù)外語(yǔ)學(xué)院, 上海 201600)
商務(wù)英語(yǔ)是專門用途英語(yǔ)的一個(gè)重要分支,商務(wù)英語(yǔ)有其自身的顯著特點(diǎn),體現(xiàn)在語(yǔ)言能力、專業(yè)知識(shí)、文體風(fēng)格、外部語(yǔ)境等各個(gè)方面(對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)商務(wù)英語(yǔ)理論研究小組,2006)。針對(duì)專門用途英語(yǔ)的測(cè)試的內(nèi)容和方法來(lái)源于分析特定的目標(biāo)語(yǔ)言使用情況,測(cè)試任務(wù)和測(cè)試內(nèi)容的設(shè)計(jì)強(qiáng)調(diào)真實(shí)性(authenticity),包括情景真實(shí)性(situational authenticity)和交互真實(shí)性(interactional authenticity)(Douglas,2000;Douglas,2001)。商務(wù)英語(yǔ)測(cè)試比其他任何類型的英語(yǔ)測(cè)試更強(qiáng)調(diào)展示情景的真實(shí)性以及測(cè)評(píng)考生的實(shí)際的運(yùn)用和操作能力(O’Sullivan,2006)。因此,商務(wù)英語(yǔ)測(cè)試研究應(yīng)該結(jié)合傳統(tǒng)語(yǔ)言測(cè)試?yán)碚摵头椒?,同時(shí)要兼顧商務(wù)英語(yǔ)自身特點(diǎn),設(shè)計(jì)出符合學(xué)習(xí)者完成目標(biāo)環(huán)境下的真實(shí)任務(wù)的測(cè)試內(nèi)容和方法,并且根據(jù)完成任務(wù)的程度和效果來(lái)進(jìn)行評(píng)分。
強(qiáng)調(diào)運(yùn)用的語(yǔ)言測(cè)試主要測(cè)量語(yǔ)言使用者的實(shí)際應(yīng)用能力而被廣泛的使用于語(yǔ)言測(cè)試實(shí)踐中。但是這種形式的測(cè)試過(guò)程因?yàn)橐肓嗽u(píng)分者、評(píng)分標(biāo)準(zhǔn)以及任務(wù)形式等因素從而使得到的分?jǐn)?shù)往往更多的受到學(xué)生能力以外的因素的影響,從而對(duì)于確保測(cè)試的信度和效度有了更多的難度和要求??谡Z(yǔ)考試作為一種輸出性的考試,對(duì)學(xué)生的語(yǔ)言能力進(jìn)行直接的測(cè)量,如果設(shè)計(jì)合理,評(píng)分客觀準(zhǔn)確,能夠達(dá)到高效度。隨著經(jīng)濟(jì)全球化的步伐加快,商務(wù)英語(yǔ)口語(yǔ)能力是社會(huì)實(shí)踐中非常重要而且很受歡迎的能力,在人才招聘和商務(wù)交流中是一項(xiàng)重要的能力指標(biāo),但是其口語(yǔ)考試的評(píng)分過(guò)程往往因?yàn)樵u(píng)分員專業(yè)知識(shí)的影響而帶有主觀性,要保證評(píng)分的準(zhǔn)確性和一致性是一大難題。
多面Rasch模型是單參數(shù)Rasch模型的拓展(Linacre,1989;1994),通過(guò)對(duì)測(cè)試過(guò)程中的每個(gè)層面參數(shù)化,同時(shí)假定這些層面會(huì)共同作用從而影響考生得到某個(gè)分值的概率?;陔S機(jī)概率模型,多面Rasch模型將不同層面中的每個(gè)個(gè)體(學(xué)生、評(píng)分者、試題等)在共同的logit標(biāo)尺上進(jìn)行度量,并計(jì)算每個(gè)度量值的估算誤差、對(duì)模型的擬合程度以及每個(gè)層面之間可能的交互作用。由此可見,利用多層面Rasch模型分析測(cè)試結(jié)果,特別是對(duì)口語(yǔ)、寫作、翻譯等考試中,考生成績(jī)?nèi)菀资艿蕉鄠€(gè)方面影響的試題類型,具有非常大的優(yōu)勢(shì)。多層面Rasch模型可以將這些影響因素的程度參數(shù)化,并用數(shù)值的形式體現(xiàn),這樣有助于我們最大程度的減少考試其他方面對(duì)于學(xué)生能力的影響,更真實(shí)的表現(xiàn)學(xué)生的能力水平。
口語(yǔ)考試是國(guó)內(nèi)外大規(guī)??荚嚨闹匾M成部分,口語(yǔ)考試的評(píng)分是考試構(gòu)念的體現(xiàn),是考試信度和效度的重要保證(Fulcher,2003)。對(duì)口語(yǔ)考試的評(píng)分研究一直是各種口語(yǔ)考試的研究重點(diǎn)。多面Rasch模型在表現(xiàn)性評(píng)價(jià)(performance assessment)研究中具有諸多優(yōu)勢(shì),國(guó)外已有廣泛的應(yīng)用,如:分析同伴討論口語(yǔ)測(cè)試任務(wù)的評(píng)卷人效應(yīng)(Bonk & Ockey,2003);寫作評(píng)分的評(píng)卷人效應(yīng)(Eckes,2008);母語(yǔ)評(píng)分員在評(píng)閱二語(yǔ)學(xué)習(xí)者英文短文寫作的評(píng)分員偏差分析(Schaefer,2008);診斷性寫作測(cè)試評(píng)分量表的開發(fā)與驗(yàn)證(Knoch,2009);對(duì)現(xiàn)有特殊用途英語(yǔ)口語(yǔ)測(cè)試評(píng)分標(biāo)準(zhǔn)的擴(kuò)展研究(Hagan et.al.,2015);寫作評(píng)分員評(píng)分行為的比較研究(Goodwin,2016)等。近年來(lái),國(guó)內(nèi)應(yīng)用多面Rasch模型的口語(yǔ)考試研究也在逐年增加,研究側(cè)重點(diǎn)主要集中在兩個(gè)方面,一是應(yīng)用多面Rasch模型對(duì)口語(yǔ)考試的效度進(jìn)行驗(yàn)證以及對(duì)考試評(píng)分標(biāo)準(zhǔn)的質(zhì)量檢驗(yàn)(劉建達(dá),2005;張潔,2008,2016;何蓮珍、張潔,2008;趙南、董燕萍,2013;范勁松、季佩英,2015;高淼,2016)。另一方面是應(yīng)用多面Rasch模型對(duì)口語(yǔ)考試的評(píng)分進(jìn)行具體分析。劉建達(dá)(2010)分析了口語(yǔ)評(píng)卷人效應(yīng),戴朝暉、尤其達(dá)(2010)分析了大學(xué)生計(jì)算機(jī)口語(yǔ)考試評(píng)分者的評(píng)分偏差;李英、關(guān)丹丹(2016)對(duì)PETS口試教師評(píng)分的培訓(xùn)效果進(jìn)行了分析,發(fā)現(xiàn)多面Rasch模型有助于發(fā)現(xiàn)評(píng)分異常情況,開展有針對(duì)性的評(píng)分培訓(xùn)。周燕、曾用強(qiáng)(2016)對(duì)比分析了聽說(shuō)考試中計(jì)算機(jī)自動(dòng)評(píng)分和評(píng)分員評(píng)分的差異性。
這些研究都展現(xiàn)了多面Rasch模型在表現(xiàn)性評(píng)價(jià)中的各種應(yīng)用,但是目前鮮有研究應(yīng)用多面Rasch模型對(duì)商務(wù)英語(yǔ)口語(yǔ)考試進(jìn)行評(píng)分研究。因此,本研究基于某高校的一次VECTOR商務(wù)英語(yǔ)會(huì)話考試的學(xué)生實(shí)際成績(jī),在多層面Rasch模型框架下對(duì)評(píng)分者、學(xué)生、試題等進(jìn)行了探討,旨在使用這種統(tǒng)計(jì)方法有效地研究商務(wù)英語(yǔ)測(cè)試中各個(gè)層面因素對(duì)于學(xué)生成績(jī)的影響,從而使考試公平公正的反應(yīng)學(xué)生的真實(shí)能力水平。
本研究運(yùn)用多面Rasch模型對(duì)某大學(xué)的一次商務(wù)英語(yǔ)口語(yǔ)測(cè)試的評(píng)分進(jìn)行分析,具體回答以下問(wèn)題:1)評(píng)分者的嚴(yán)厲程度是否一致,評(píng)分者的評(píng)分是否存在內(nèi)在一致性?2)題項(xiàng)是否能夠很好地區(qū)分考生能力?3)評(píng)分質(zhì)量如何,是否存在顯著偏差?
Rasch模型作為IRT理論的主要模型之一,其基本想法是某個(gè)考生答對(duì)某道題的概率大小不僅取決于考生自身的能力, 也取決于這道題目的難度。Rasch模型的基本形式除了可以用來(lái)分析二分計(jì)分?jǐn)?shù)據(jù),其拓展形式(Andrich,1978;Wright & Masters,1982)還可以用來(lái)計(jì)算評(píng)分量表(Rating Scale)中的分步難度以及分析具有分部計(jì)分(Partial credit)的評(píng)分系統(tǒng)。如果將任務(wù)(或題項(xiàng))由難度大小順序從低往高排列,那么被試的能力大小應(yīng)該與其通過(guò)的任務(wù)(或答對(duì)的題項(xiàng))成正相關(guān)(朱正才等,2003;趙守盈、薛雯,2011),其模型的假設(shè)與語(yǔ)言測(cè)試?yán)碚撛u(píng)估試題質(zhì)量的依據(jù)是一致的(劉建達(dá),2010)。Rasch模型估計(jì)方法有以下優(yōu)勢(shì):估計(jì)得分能夠有效反映潛在特征。受試個(gè)體得分可以通過(guò)計(jì)算其各個(gè)測(cè)試項(xiàng)目的總體反映得到。所有擁有相同項(xiàng)目得分的受試者具有相同的隱含特征??忌诟黝}上的總分是個(gè)充分統(tǒng)計(jì)量,即考生能力參數(shù)的估計(jì)只與總分(即答對(duì)題目數(shù))有關(guān),而與具體的應(yīng)答模式無(wú)關(guān)??忌c題目在模型中的地位的對(duì)稱性,在Rasch模型下,可以同時(shí)求得考生能力與題目難度的估計(jì)。
Rasch模型可以采用以下一般化的描述:
本次研究的數(shù)據(jù)來(lái)自某校商務(wù)英語(yǔ)學(xué)習(xí)平臺(tái)的一次人機(jī)練習(xí),一共有120名非英語(yǔ)專業(yè)的大二學(xué)生參加,這些學(xué)生來(lái)自某校金融專業(yè)、經(jīng)貿(mào)專業(yè)。評(píng)分員共有5名,其中三名高校教師,教授商務(wù)英語(yǔ)課程,并且有過(guò)數(shù)次的評(píng)分經(jīng)驗(yàn),另外二名教師也教授商務(wù)英語(yǔ)課程,但是第一次參與這個(gè)考試的評(píng)分,5名評(píng)分員分別對(duì)120名被試評(píng)分。所有被試參加的口語(yǔ)練習(xí)測(cè)試題每道大題包括兩個(gè)部分,第一部分是模仿跟讀,第二部分是情景模擬,給出設(shè)定商務(wù)場(chǎng)景,然后要求學(xué)生根據(jù)場(chǎng)景給出回應(yīng),采用的是人機(jī)對(duì)話的形式錄制學(xué)生的回應(yīng)。本次測(cè)試一共有三道大題,每道大題10分,被試要求在18分鐘內(nèi)做完這三道大題。由于教學(xué)班級(jí)規(guī)模較大,實(shí)施直接面試型口語(yǔ)考試難度大,因此采用計(jì)算機(jī)化的口語(yǔ)考試,之后教師通過(guò)回聽學(xué)生考試錄音的方式進(jìn)行評(píng)分,每位教師是獨(dú)立評(píng)分。評(píng)分方式為總體評(píng)分,具體的評(píng)分依據(jù)有:1)發(fā)音(包括聲音大小、重音、語(yǔ)調(diào)、語(yǔ)氣);2)準(zhǔn)確性(包括語(yǔ)法、專業(yè)用詞及說(shuō)話方式);3)流利程度(包括語(yǔ)速、長(zhǎng)短句搭配)。
本研究的基本分析模型如下:
此次研究使用的軟件是FACETS(Linacre, 2008a),我們對(duì)評(píng)分結(jié)果數(shù)據(jù)進(jìn)行了多面Rasch模型分析。本研究將學(xué)生、評(píng)分者、測(cè)試題設(shè)為三個(gè)“面”(見圖1)。
圖1 分層圖
圖1是所有層面的分布情況。最左列是logit尺度,是用來(lái)衡量各層面的真實(shí)測(cè)量值的尺度。第二列為測(cè)試題分布,這里體現(xiàn)的是試題的難度分布,有圖可知,評(píng)分項(xiàng)的難度分布較為均勻,第二大題最難,第三大題最容易。第三列是學(xué)生能力,該圖按照學(xué)生能力的高低自上而下排列,每個(gè)星號(hào)代表3個(gè)學(xué)生,每個(gè)圓點(diǎn)則代表少于3個(gè)學(xué)生。圖1的結(jié)果顯示,所有學(xué)生的能力介于-2到+4之間。第四列為評(píng)分員嚴(yán)厲度,嚴(yán)厲度高的評(píng)分員排在上面,嚴(yán)厲度低的評(píng)分員排在下面。由圖可見5名評(píng)分員(編號(hào)為1-5)的嚴(yán)厲度介于-1和+1之間,分布比較集中,同時(shí)最嚴(yán)厲的評(píng)分員和最寬松的評(píng)分員之間的差異大約在2個(gè)logits,不到考生能力度量跨度(大約8 logits)的四分之一。這表示評(píng)分員之間嚴(yán)厲度的差異在總體上不會(huì)對(duì)考生的成績(jī)產(chǎn)生決定性的影響(Myford & Wolfe,2004)。最后一列是模型給出的各能力段學(xué)生應(yīng)該獲得的分?jǐn)?shù)(expected score)。如:logit值為0的學(xué)生應(yīng)該得到的分?jǐn)?shù)大約為7分,括號(hào)內(nèi)表示的是最高分和最低分。
多層面Rasch分析有個(gè)重要的優(yōu)點(diǎn)就是它可以給出模型中各個(gè)層面的估量和度量并且提供每個(gè)層面甚至與每一個(gè)個(gè)體的單位統(tǒng)計(jì)量。
評(píng)分員層面
Rasch模型分析顯示,5位評(píng)卷人的嚴(yán)厲度有差異(圖1),其中4號(hào)評(píng)分員最為嚴(yán)厲(1.12 logits),而5號(hào)評(píng)分員最寬松(-0.83 logits),他們之間相差1.95 logits。5位評(píng)分員的平均嚴(yán)厲程度為.00 logits,標(biāo)準(zhǔn)差為.63,其中4位評(píng)分員的嚴(yán)厲程度小于.00 logits,這顯示出評(píng)分總體偏寬松。評(píng)分員的Infit Mnsq反應(yīng)了評(píng)分員評(píng)分的內(nèi)部一致性(internal self-consistency),對(duì)于這個(gè)取值,有不同的取值范圍,比較嚴(yán)格的擬合取值是在0.7-1.3的范圍內(nèi)(Bonk & Ockey,2003),如果這個(gè)值在這個(gè)范圍則認(rèn)為評(píng)分員有較好的內(nèi)部一致性。表1是評(píng)分員層面的統(tǒng)計(jì)數(shù)據(jù),其中,分隔指數(shù)(Separation)為5.15,分隔指數(shù)信度(reliability)為0.96,一般認(rèn)為分隔指數(shù)大于2即表示該層面的每個(gè)個(gè)體之間存在顯著差異(Myford & Wolfe,2004)。這里的分隔指數(shù)信度是指該層面的個(gè)體之間有顯著差異的程度。數(shù)據(jù)表明,評(píng)分員嚴(yán)厲度差異達(dá)到顯著水平,不容忽視。同時(shí)從表1中可以看出這五位評(píng)分員中,有經(jīng)驗(yàn)的評(píng)分員(1、2、3號(hào))雖然總體偏寬松,但是他們比首次評(píng)分的評(píng)分員(4、5號(hào))的評(píng)分嚴(yán)厲度差異更小。
表1 評(píng)分員層面
Separation: 5.15 Reliability: .96
Chi-square: 146.8 Significance: .00
學(xué)生層面
表2為學(xué)生層面分析結(jié)果的一部分,因?qū)W生人數(shù)比較多,這里我們只看其中的一部分。這個(gè)層面是按照學(xué)生能力的高低排序的,能力高的學(xué)生排在上面。這里Observed Average是考生的實(shí)際平均得分,而Fair Average是結(jié)合題目難度而得到的期望分值,這個(gè)值更能體現(xiàn)學(xué)生的實(shí)際能力。Measure 值是表示學(xué)生能力的度量值,值越大表示學(xué)生的能力越高。本次考試學(xué)生的能力范圍從-1.97到3.63 logits,跨越5個(gè)logits,說(shuō)明學(xué)生的能力分布差異不是很大。Model S.E.是指該模型估算的精確度。Infit Mnsq是指學(xué)生的擬合統(tǒng)計(jì)值,我們可以根據(jù)這個(gè)值來(lái)判斷哪些學(xué)生擬合模型以及哪些學(xué)生非擬合,并且可以計(jì)算出非擬合學(xué)生所占的比例。Linacre(2008b) 提出0.5-1.5可以作為擬合取值范圍,那么本研究中大于等于1.5擬合值的屬于非擬合,共有10名學(xué)生非擬合,大約占總學(xué)生的8%,這表示有8%的學(xué)生內(nèi)部答題行為不太一致,可以進(jìn)一步進(jìn)行偏差分析,檢查學(xué)生和試題項(xiàng)之間的交互作用。如這學(xué)生在哪些試題項(xiàng)上的成績(jī)與其他試題項(xiàng)不同,是否是學(xué)生的答題方式的問(wèn)題。(Linacre,2008b)。
表2 學(xué)生層面(部分)
分隔系數(shù)(separation index)為1.63(表3),分隔指數(shù)信度的值在0到1之間,其值表明區(qū)分學(xué)生的能力的信度。這里的分隔指數(shù)信度是0.73,同時(shí)也通過(guò)卡方檢驗(yàn)驗(yàn)證這種差異具有顯著意義。說(shuō)明此次考試較好地區(qū)分了學(xué)生的能力水平。
表3 學(xué)生整體能力情況
試題層面
從表4的結(jié)果來(lái)看,分隔系數(shù)為29.35,信度1.0,卡方值2780.5,顯著性=.00,這些都說(shuō)明了本次口語(yǔ)試題的難度在統(tǒng)計(jì)上存在顯著差異,考試結(jié)果體現(xiàn)出來(lái)的試題難易差異較大(measure最高和最低之間的差異為3.75個(gè)logits)??谡Z(yǔ)考試中,由于試題的特點(diǎn)和話題的因素會(huì)造成難度上的差異,這也是研究者們關(guān)注的焦點(diǎn)和難點(diǎn)。不僅因?yàn)橛绊懺囶}難度的因素很難確定,而且這些因素和學(xué)生之間的交互作用也是非常重要的(Bachman,2002)。商務(wù)英語(yǔ)口語(yǔ)考試的話題任務(wù)設(shè)計(jì)涉及范圍廣,專業(yè)跨度大,話題可以涵蓋經(jīng)濟(jì)、貿(mào)易、財(cái)政、金融等各個(gè)方面。本次考試三道大題的區(qū)別主要在模擬商務(wù)場(chǎng)景的主題上,三道大題的主題分別是:“解決營(yíng)銷問(wèn)題”、“洽談貿(mào)易折扣”、“國(guó)際清算業(yè)務(wù)會(huì)話”。根據(jù)measure(表4)一欄可以看出每個(gè)題目的難度,這次考試難度最高的是第二大題(2.02 logits)①,但是題目的擬合分析沒(méi)有發(fā)現(xiàn)有非擬合或過(guò)度擬合,說(shuō)明題目的難度差異還是符合考試的要求。
表4 試題層面
Separation:29.35 Reliability:1.0
Chi-square:2780.5 Significance: .00
從表4我們可以推測(cè),造成難度差異的主要原因是學(xué)生對(duì)于商務(wù)口語(yǔ)話題的熟悉程度、興趣、以及對(duì)于話題所涉及信息的商務(wù)專業(yè)詞匯的掌握差異比較大,專業(yè)知識(shí)的掌握影響到了學(xué)生口語(yǔ)能力的發(fā)揮。如果要進(jìn)一步了解話題的難度,我們需要再分析成績(jī)之間的統(tǒng)計(jì)差異,以及結(jié)合學(xué)生的個(gè)人特點(diǎn),專業(yè)知識(shí)結(jié)構(gòu)和學(xué)生考試時(shí)的話語(yǔ)進(jìn)行具體分析。本次研究結(jié)果表明雖然試題在難度上體現(xiàn)出較大差異,這個(gè)難度差異總體上還對(duì)學(xué)生的考試成績(jī)有一定影響,但是這幾個(gè)任務(wù)的Infit MnSq都在0.7-1.3的范圍內(nèi),說(shuō)明評(píng)分員對(duì)各個(gè)試題的評(píng)分還是較為一致的,符合模型的期望。
表5是評(píng)分量表各個(gè)分?jǐn)?shù)段的使用統(tǒng)計(jì),可以評(píng)估評(píng)分量表是否能夠達(dá)到預(yù)期的使用目的。其中頻數(shù)統(tǒng)計(jì)(Counts,Cum%),擬合均分指數(shù)(Outfit MnSq)和Rasch-Andrich閾值(Rasch-Andrich Thresholds)是分析量表使用情況的主要指標(biāo)。通常擬合值小于2.0且閾值隨分值遞增且沒(méi)有出現(xiàn)逆序,不同分?jǐn)?shù)值之間的閾值差距相對(duì)均勻,說(shuō)明評(píng)分量表的使用情況良好,評(píng)分員能夠比較準(zhǔn)確地區(qū)分各個(gè)分?jǐn)?shù)段(Park,2004;劉建達(dá),2005;張潔,2016)。分析表5可以看出評(píng)分員總體上能夠較好地使用評(píng)分量表,但是表5第二欄的頻數(shù)統(tǒng)計(jì)了分?jǐn)?shù)的中間段(7分)使用頻次(54%)遠(yuǎn)高于其他分?jǐn)?shù)段,且0-4分?jǐn)?shù)段評(píng)分員沒(méi)有使用,這說(shuō)明評(píng)分員在評(píng)分時(shí)有可能存在趨中性,為了明確這一點(diǎn),我們還可以再看一下表2學(xué)生層面的能力分析,如果處于中間能力的學(xué)生確實(shí)要多于能力兩端的學(xué)生,或是學(xué)生的能力差異比較小,那么評(píng)分員的趨中表現(xiàn)恰恰是非常合適的(Myford & Wolfe,2004)。本研究中學(xué)生的能力跨度5個(gè)logits,處于中間段的學(xué)生比較多,學(xué)生能力分布比較均勻。
表5 分?jǐn)?shù)類別使用統(tǒng)計(jì)
圖2展示了5個(gè)分?jǐn)?shù)段的概率曲線圖,可以更直觀地看各個(gè)分?jǐn)?shù)段的使用質(zhì)量,通過(guò)這5個(gè)分?jǐn)?shù)段的峰值曲線,可以看出各分?jǐn)?shù)段的峰值較為獨(dú)立,間隔度相當(dāng),這說(shuō)明評(píng)分員對(duì)于各個(gè)分?jǐn)?shù)段可以較好地區(qū)分,也就是說(shuō)能力處于某個(gè)分?jǐn)?shù)段的學(xué)生能夠得到這個(gè)分?jǐn)?shù)段的分?jǐn)?shù)。由圖2可知本次考試所使用的各個(gè)分?jǐn)?shù)段表現(xiàn)尚可,基本達(dá)到預(yù)期。
圖2 分類別概率曲線圖
即使在閱卷前仔細(xì)地挑選評(píng)分員,進(jìn)行閱卷前培訓(xùn),評(píng)分員效應(yīng)仍然可能存在(Bonk & Ockey,2003)。FACETS 的多面Rasch分析可以對(duì)評(píng)分?jǐn)?shù)據(jù)進(jìn)行偏差交互(Bias interaction)分析,所謂的偏差是指評(píng)分員在給分時(shí)出現(xiàn)了異常高分和異常低分的情況,通過(guò)偏差分析可以調(diào)查評(píng)分的哪個(gè)方面引起了評(píng)分員偏差,對(duì)哪些學(xué)生產(chǎn)生了評(píng)分偏差,尤其是在評(píng)分培訓(xùn)時(shí)分析偏差并反饋給評(píng)分員可以幫助他們修正評(píng)分偏差。
表6 評(píng)分員-學(xué)生顯著偏差交互統(tǒng)計(jì)
本研究分析了評(píng)分員和學(xué)生的偏差交互,t(偏差統(tǒng)計(jì)量)的絕對(duì)值大于2即視為顯著偏差。表6列出了出現(xiàn)顯著偏差評(píng)分的評(píng)分情況,可見出現(xiàn)評(píng)分偏差數(shù)量較多的是4號(hào)評(píng)分員(首次評(píng)分),他對(duì)第77號(hào)等5位學(xué)生的評(píng)分過(guò)于寬松,這5位學(xué)生的能力均為中等偏下,這在首次評(píng)分的“新評(píng)分員”中普遍存在,對(duì)于差距較小的中等能力水平學(xué)生,他們往往難以區(qū)分,對(duì)評(píng)分標(biāo)準(zhǔn)把握不夠準(zhǔn)確,從而導(dǎo)致評(píng)分偏差。1號(hào)評(píng)分員對(duì)48號(hào)學(xué)生評(píng)分過(guò)于寬松而對(duì)113號(hào)學(xué)生評(píng)分過(guò)于嚴(yán)厲,3號(hào)評(píng)分員對(duì)48號(hào)學(xué)生的評(píng)分則過(guò)于嚴(yán)厲,這一行為和1號(hào)評(píng)分員存在較大的差異,1號(hào)和3號(hào)評(píng)分員都是有經(jīng)驗(yàn)的評(píng)分員,因此在評(píng)分培訓(xùn)中,我們可以進(jìn)一步詢問(wèn)這三位評(píng)分員,從而推斷為什么出現(xiàn)這樣的偏差。
通過(guò)以上討論,我們可以回答本研究提出的問(wèn)題:1)評(píng)分者的嚴(yán)厲程度是否一致,評(píng)分者的評(píng)分是否存在內(nèi)在一致性?2)題項(xiàng)是否能夠很好地區(qū)分考生能力?3)評(píng)分質(zhì)量如何,是否存在顯著偏差?根據(jù)前文評(píng)分者層面的分析,我們可以看到評(píng)分者的分隔指數(shù)和信度指數(shù)都很高,表明評(píng)分者之間總體嚴(yán)厲度差異顯著,但是能保持評(píng)分員內(nèi)部評(píng)分的一致性。本研究中的試題項(xiàng)難易區(qū)分度較大,這個(gè)結(jié)果表明了學(xué)生對(duì)商務(wù)話題的熟悉程度、興趣以及話題中涉及的商務(wù)專業(yè)知識(shí)可能會(huì)影響學(xué)生口語(yǔ)能力的發(fā)揮。本研究中的評(píng)分質(zhì)量較好,評(píng)分員可以有效地使用提供給他們的評(píng)分量表,但是評(píng)分員也存在評(píng)分偏差,應(yīng)有針對(duì)性的給予評(píng)分培訓(xùn)。
多面Rasch模型分析結(jié)果使我們看到商務(wù)英語(yǔ)口語(yǔ)測(cè)試評(píng)分作為一種主觀性評(píng)價(jià)可能會(huì)產(chǎn)生各種問(wèn)題和偏差,影響對(duì)學(xué)生真實(shí)商務(wù)口語(yǔ)能力的評(píng)價(jià)。此外,對(duì)商務(wù)英語(yǔ)口語(yǔ)能力的評(píng)分除了要考慮影響通用英語(yǔ)口語(yǔ)考試的因素,也需要考慮到專業(yè)知識(shí)和能力對(duì)口語(yǔ)能力的影響??梢宰鋈缦聨追矫娴母倪M(jìn):1)設(shè)計(jì)明確詳細(xì),具有可操作性的評(píng)分標(biāo)準(zhǔn)。商務(wù)英語(yǔ)口語(yǔ)考試的評(píng)分標(biāo)準(zhǔn)不能參照或是照搬通用英語(yǔ)口語(yǔ)考試的評(píng)分標(biāo)準(zhǔn)。描述清晰的、標(biāo)準(zhǔn)明確的、有針對(duì)性的評(píng)分標(biāo)準(zhǔn)是對(duì)商務(wù)英語(yǔ)口語(yǔ)能力準(zhǔn)確評(píng)估的必要前提,對(duì)于評(píng)分者把握評(píng)分標(biāo)準(zhǔn),保證一致性和評(píng)分信度至關(guān)重要。2)加強(qiáng)對(duì)評(píng)分員的訓(xùn)練,特別是評(píng)分前培訓(xùn),使其對(duì)評(píng)分標(biāo)準(zhǔn)充分理解以便更好地使用,最大限度地達(dá)到評(píng)分者總體寬嚴(yán)度的一致以及評(píng)分者內(nèi)部的一致,避免評(píng)分偏差。
本研究是將多層面Rasch模型應(yīng)用于商務(wù)英語(yǔ)口語(yǔ)測(cè)試評(píng)分研究中的一次嘗試,尚存在一些局限需要在進(jìn)一步的研究中改進(jìn),主要有以下三個(gè)方面:
1)本研究通過(guò)MFRM定量分析商務(wù)英語(yǔ)口語(yǔ)測(cè)試的評(píng)分效應(yīng),并未收集和分析評(píng)分員以及學(xué)生的定性數(shù)據(jù),因此在對(duì)定量統(tǒng)計(jì)結(jié)果的解釋上缺少定性數(shù)據(jù)的佐證和補(bǔ)充。
2)由于本次商務(wù)英語(yǔ)口語(yǔ)測(cè)試采用的是總體評(píng)分標(biāo)準(zhǔn),因此研究者在微觀層面上無(wú)法探索商務(wù)英語(yǔ)口語(yǔ)各分項(xiàng)評(píng)分維度的評(píng)分效應(yīng),在進(jìn)一步的研究中,可以應(yīng)用多層面Rasch模型對(duì)比分析總體評(píng)分和分項(xiàng)評(píng)分模式下評(píng)分員的評(píng)分依據(jù),有助于改進(jìn)和拓展評(píng)分標(biāo)準(zhǔn)。
3)本次口語(yǔ)考試采用的是間接性的測(cè)評(píng)方法(人機(jī)對(duì)話,對(duì)學(xué)生的答題進(jìn)行錄音),進(jìn)一步的研究可以收集學(xué)生對(duì)于這種考試形式的評(píng)價(jià)以及他們所希望的考試形式(錄音或是面對(duì)面),從而探索適合校本商務(wù)英語(yǔ)口語(yǔ)測(cè)試的最佳形式。
注釋:
① 具體題目請(qǐng)聯(lián)系本文作者索取。
[1] Andrich, D. A general form of Rasch’s extended logistic model for partial credit scoring[J].AppliedMeasurementinEducation, 1978,4:363-378.
[2] Bachman, L. F. Some reflections on task-based language performance assessment[J].LanguageTesting, 2002,19:453-476.
[3] Bonk, W. J. & G. J. Ockey. A many-facet Rasch analysis of the second language group oral discussion task[J].LanguageTesting, 2003,20(1):89-110.
[4] Douglas, D.AssessingLanguagesforSpecificPurposes[M]. Cambridge: Cambridge University Press, 2000.
[5] Douglas, D. Language for specific purposes assessment criteria: Where do they come from[J].LanguageTesting, 2001,18(2):171-185.
[6] Eckes, T. Rater types in writing performance assessments: A classification approach to rater variability[J].LanguageTesting, 2008,25:155-185.
[7] Fulcher, G.TestingSecondLanguageSpeaking[M]. London: Pearson ESL, 2003.
[8] Goodwin, S. A Many-Facet Rasch analysis comparing essay rater behavior on an academic English reading/writing test used for two purposes[J].AssessingWriting, 2016,30:21-31.
[9] Hagan, S., J. Pill & Y. Zhang. Extending the scope of speaking assessment criteria in a specific-purpose language test: Operationalizing a health professional perspective[J].LanguageTesting, 2015,33:195-216.
[10] Knoch, U. The development and validation of a rating scale for diagnostic writing assessment[J].LanguageTesting, 2009,26(2):275-304.
[11] Linacre, J. M.Many-facetRaschMeasurement[M]. Chicago: MESA Press, 1989.
[12] Linacre, J. M. Constructing measurement with a many-facet Rasch model[A]. In M. Wilson (ed.).ObjectiveMeasurement:TheoryinPracticeVol.II[C]. Newark: Ablex, 1994.
[13] Linacre, J. M. FACETS: version 3.63.0[CP/DK]. Chicago: Winsteps.com, 2008a.
[14] Linacre, J. M.AUser’sGuidetoFACETS:Rasch-modelComputerProgram[M]. Chicago: MESA Press, 2008b.
[15] Myford, C. M. & E.W. Wolfe. Detecting and measuring rater effects using many-facet Rasch measurement-Part II[J].JournalofAppliedMeasurement, 2004,5(2):189-227.
[16] O’Sullivan, B. (ed.).IssuesinTestingBusinessEnglish:StudiesinLanguageTesting,Volume17[M]. Cambridge: Cambridge University Press, 2006.
[17] Park, T. An investigation of an ESL placement test of writing using Many-Facet Rasch Measurement[J].TeachersCollege,ColumbiaUniversity,WorkingPaperinTESOL&AppliedLinguistics, 2004,4(1):1-21.
[18] Schaefer, E. Rater bias patterns in an EFL writing assessment[J].LanguageTesting, 2008,25(4):465-493.
[19] Wright, B. D. & G. N. Masters.RatingScaleAnalysis[M]. Chicago: MESA Press, 1982.
[20] 戴朝暉,尤其達(dá). 大學(xué)英語(yǔ)計(jì)算機(jī)口語(yǔ)考試評(píng)分者偏差分析[J]. 外語(yǔ)界,2010,(5):87-95.
[21] 對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)商務(wù)英語(yǔ)理論研究小組. 論商務(wù)英語(yǔ)的學(xué)科定位、研究對(duì)象和發(fā)展方向[J]. 中國(guó)外語(yǔ),2006,(9):4-8.
[22] 范勁松,季佩英. 口語(yǔ)測(cè)試中分析性評(píng)分量表的構(gòu)念效度研究[J]. 中國(guó)外語(yǔ)教育,2015,(3):85-94.
[23] 高淼. 基于多面Rasch模型的初中英語(yǔ)口語(yǔ)測(cè)試EBB評(píng)分標(biāo)準(zhǔn)研究與效度驗(yàn)證[J]. 中國(guó)考試,2016,(12):29-47.
[24] 何蓮珍,張潔. 多層面Rasch模型下大學(xué)英語(yǔ)四六級(jí)考試口語(yǔ)考試(CET-SET)信度研究[J]. 現(xiàn)代外語(yǔ),2008,(4):388-398.
[25] 李英,關(guān)丹丹. PETS口試評(píng)分培訓(xùn)效果的多面Rasch分析[J]. 外語(yǔ)教學(xué)理論與實(shí)踐,2016,(3):43-47.
[26] 劉建達(dá). 話語(yǔ)填充測(cè)試方法的多層面Rasch模型分析[J]. 現(xiàn)代外語(yǔ),2005,(2):157-169.
[27] 劉建達(dá). 評(píng)卷人效應(yīng)的多層面Rasch模型研究[J]. 現(xiàn)代外語(yǔ),2010,(2):185-193.
[28] 張潔. PETS三級(jí)口語(yǔ)考試評(píng)分質(zhì)量控制研究——基于多側(cè)面Rasch模型(MFRM)的方法[J]. 考試研究,2008,(4):65-78.
[29] 張潔. 基于多層面Rasch模型的評(píng)分員評(píng)分質(zhì)量診斷[J]. 外語(yǔ)測(cè)試與教學(xué),2016,(2):47-54.
[30] 趙南,董燕萍. 基于多面Rasch 模型的交替?zhèn)髯g測(cè)試效度驗(yàn)證[J]. 解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2013,(1):86-90.
[31] 趙守盈,薛雯. Rasch模型和IRT在學(xué)生成就測(cè)驗(yàn)統(tǒng)計(jì)分析中的對(duì)比研究[J]. 中國(guó)考試,2011,(6):8-12.
[32] 周燕,曾用強(qiáng). 機(jī)助英語(yǔ)聽說(shuō)考試計(jì)算機(jī)自動(dòng)評(píng)分的多層面Rasch 模型分析[J]. 外語(yǔ)測(cè)試與教學(xué),2016,(1):22-31.
[33] 朱正才,楊惠中,楊浩然. Rasch模型在CET考試分?jǐn)?shù)等值中的應(yīng)用[J]. 現(xiàn)代外語(yǔ),2003,(1):70-75.