華中師范大學外語學院 童揚芬 陳佑林
提 要: 語言測試既是一門社會科學,又是一門實踐活動,其公平性檢驗貫穿于測試的整個流程之中。在我國現(xiàn)實測試環(huán)境下,語言測試公平性的檢測框架應(yīng)當涵蓋對測試開發(fā)者、使用者和應(yīng)試者責權(quán)利的界定,在應(yīng)用實踐中需要同時考慮技術(shù)公平性需求和社會公平性需求,針對效度、偏差和敏感度三個主要方面進行測量技術(shù)檢驗和人工價值判斷,將檢驗的結(jié)果對社會公布并接受監(jiān)督。建立完善的公平性檢測報告制度不僅是提高測試質(zhì)量的必要舉措,亦是保障社會公正的重要措施。
測試作為一種實踐活動,“是實現(xiàn)人的社會化和人的社會價值的重要手段,也是人類社會演進發(fā)展不可或缺的機制”(廖平勝,2003: 1)。追求公平是各種測試的重要目標之一,人們通過實施科學、公正、嚴格的測試以實現(xiàn)這一重要目標。隨著人們對測試評估標準認識的擴展,測試公平性的研究受到越來越多的關(guān)注和重視。作為教育測試中的一員,語言測試是用來檢測語言學習者的語言水平、語言能力和學習效果的一種測量工具,由于語言既是測試的內(nèi)容,同時亦是測試的媒介,其測試公平所涉及的因素較之其它測試更為復(fù)雜,可以說語言測試既是一門社會科學,又是一門實踐活動。
國外對于測試公平性的系統(tǒng)研究起步較早,教育評估領(lǐng)域早在上世紀60年代已經(jīng)出現(xiàn)對公平性的關(guān)注(Angoff, 1993),語言測試界對于公平性的討論始于上世紀90年代(Kunnan, 2000)。測試學界的權(quán)威專家Bachman很早就在其著作中指出,公平性將是未來語言測試的研究重點,“會成為以后二十年語言測試的主導(dǎo)方向”。(Bachman, 1990: 357)國際語言測試協(xié)會(LTRC) 1997年年會因以此為主題而被普遍認為是語言測試公平性研究的標志,其2005年年會再次焦距語言測試公平性研究。語言測試學科發(fā)展到今天,該領(lǐng)域有影響力的相關(guān)理論和代表之作均出自歐美的語言測試學專家,國外的相關(guān)研究從時間上和深度上均領(lǐng)先于國內(nèi)的相關(guān)研究。
在我國,把考試作為一門學科來進行研究始于上世紀80年代,對于測試公平性的研究大致從上世紀90年代后期開始,語言測試領(lǐng)域關(guān)注公平性大致也是始于彼時。然而在倡導(dǎo)語言測試公平性的背景下, 我國對語言測試公平性問題的研究還遠未充分展開。對過去18年間語言測試方向的CSSCI論文進行了計量學的統(tǒng)計和分析,結(jié)果顯示,我國外語測試界對公平問題進行的研究非常少,語言測試的社會性和倫理問題方面的研究等在國內(nèi)幾乎是空白或者處于起步階段(謝賽、陳賀文, 2016: 143)。2015年11月我國首次語言測試與評價國際研討會的核心議題之一是加快外語考試質(zhì)量標準的相關(guān)研究,在會議提交的二百多篇論文中,僅有三篇論文涉及語言測試公平性討論。目前,教育界均認可公平性檢驗的重要性和必要性,但是在很多方面仍難達成共識,例如: 公平性檢測的有效實踐性和公眾感知度如何得到體現(xiàn)?其核心體現(xiàn)的問題仍在于公平性究竟可不可以被檢驗?應(yīng)該如何檢驗?本文將在現(xiàn)有研究成果的基礎(chǔ)上,對公平性研究中的核心問題進行討論,并嘗試提出中國測試環(huán)境下語言測試公平性的檢驗框架。
公平性通常被認為等同于倫理。著名學者Davies最早首次提出語言測試應(yīng)當考慮倫理因素(Davies, 1977),Stevenson(1981)則號召語言測試應(yīng)盡早開發(fā)全球廣為接受的心理與教育測量標準,Canale(1988)認為語言測試工作者應(yīng)該對測試信息的倫理負責,Bachman(2000: 23)也曾指出:“語言測試不能單純追求構(gòu)念而忽略倫理,語言測試研究既應(yīng)包括對信度和效度的考驗,也要充分考慮后效和倫理問題”。然而這兩者雖緊密關(guān)聯(lián),卻并非一回事。
在語言測試領(lǐng)域,倫理問題應(yīng)該針對的是測試者,即所有參與測試活動并使測試得以實現(xiàn)的人(Shohamy, 2001: 145)——測試的開發(fā)者、使用者、實施者、評分者、分數(shù)的報道和解釋者等利益相關(guān)者,他們實施測試行為要遵守道德準則和行為規(guī)范,這里強調(diào)的是特定行業(yè)的責任和標準,Davies(1997)將其分為公共道德、專業(yè)道德和個體道德;公平性則應(yīng)當針對測試本身,即測試的開發(fā)、使用、實施、評分、分數(shù)的報道和解釋等等在整個測試過程中對所有應(yīng)試群體和個體的公平和公正,使他們具有相同的應(yīng)試條件和相等的答題機率。
語言測試的開發(fā)、使用、實施、評分、分數(shù)的報道和解釋等都會對利益相關(guān)者產(chǎn)生影響,但是測試者應(yīng)當承擔什么責任、要承擔多大的責任?Davies(1997)認為測試者不應(yīng)該也不可能承擔所有的社會后果,其責任只能局限于合理的范圍之內(nèi),測試者只能負責有限的后果;Hamp-Lyons(2000)則認為語言測試者必須為所有能意識到的預(yù)期或非預(yù)期的測試后果承擔責任;Bachman和Palmer(2010)提出在“語言測評使用論證”(Assessment Use Argument, AUA) 框架下測試開發(fā)者和使用者在測試不同階段各自承擔不同的責任,前者對命題設(shè)計和試測負責,后者對測試結(jié)果的解釋和使用負責。對于這一問題目前學界還沒有達成共識,然而對于測試者各方倫理責任的認定始終是公平性討論中非常重要的一個環(huán)節(jié),也是公平性研究框架下必須要正視的問題。
有學者則認為,測量的信度和測量的公平性驗證都屬于效度,公平性的證據(jù)用于表明分數(shù)在跨群體、跨組別、跨情境方面的可比性(Messick, 1988)。Shohamy(1997)認為測試任務(wù)和對測試的使用是引發(fā)不公平的兩大主要方面,某些測試內(nèi)容和方法對于一些考生是不公平的,而代表不同測試利益的分時解釋也必然會導(dǎo)致政治的或者基于其他意圖的不公平。Kunnan(1997)則認為對測試公平性的考察應(yīng)當更為重要,測試的公平性要考查的不僅僅是將效度和信度進行關(guān)聯(lián);如果一項測試的公平性出現(xiàn)問題,對效度和信度的考慮將變得毫無意義,他主張將效度驗證與公平性聯(lián)系在一起,并提出了建構(gòu)效度(equal construct validity)——保證受試者語言測試成績不受受試者性別、種族、專業(yè)背景、母語、文化等影響。
雖然有關(guān)公平性的定義會由于對社會和政治等因素的關(guān)注程度不同而有所不同,但是公平性與效度的關(guān)系一直是探討公平性定義內(nèi)涵的主要內(nèi)容,當前大多數(shù)公平性的研究都將兩者結(jié)合起來。Kunnan所提出公平性包括效度、可行性和公正(Kunnan, 2001),他觀點鮮明地指出公平性不僅應(yīng)包含效度驗證,更應(yīng)當貫穿于測試開發(fā)的各個階段(Kunnan, 2010);由于效度是一個程度性的問題,因此很多研究者認為公平性同樣是一個程度性的問題(Cole & Zieky, 2001);Kane(2010) 則認為公平性和效度都有廣泛的外延,如果對效度的界定窄,那么效度包含于公平性的定義框架中;如果公平性的界定窄,那么公平性就是效度框架中的一部分。Xi(2010)總結(jié)并歸納了學界對公平性的描述,認為公平性與效度存在三種維度的闡釋(如圖1),即: 公平性是獨立于效度之外的測試特征;公平性是涵蓋效度的測試特征;公平性是效度驗證的一部分。
圖1. Xi總結(jié)的公平與效度的關(guān)系
雖然以上分類都各自有其代表觀點,但是公平性與效度的關(guān)系問題時至今日依然是測試界探討和爭論的焦點之一。事實上,無論哪一種觀點都不容回避地說明了公平性與效度直接或高度相關(guān),但是其關(guān)聯(lián)程度可能由于不同的社會、政治、文化和經(jīng)濟因素有所不同,這種不同反映出測試在不同文化背景下的社會性;效度從技術(shù)層面反映測試社會性的要求,公平性則更多在社會價值層面關(guān)注測試的效果,一項成功的測試理應(yīng)包括對兩者的共同要求。公平性和效度在某些方面是有共性的,它們存在共同關(guān)注的部分,而交疊的部分體現(xiàn)的正是測試中的社會性,我們嘗試用下圖更為直觀地展示三者的關(guān)聯(lián):
圖2. 測試的公平性、效度、社會性的關(guān)系
語言測試之所以要求公平和公正,主要基于兩個方面的原因: 一是內(nèi)在要求,即測試自身需要,語言測試需要測試應(yīng)試者的語言能力,因此希望測試本身具有高效度,能夠盡可能排除非語言水平因素,測試出應(yīng)試者對語言知識的掌握情況和語言能力的運用水平,這實際上是從心理測量學的角度強調(diào)測試的平等和測量的無偏差;二是外在要求,從社會維度進行的分析,要求測試對分數(shù)的解釋和使用是合理的和公正的,測試的社會后果決定了測試分數(shù)的解釋和使用情況,如果測試的社會權(quán)重越大,公平性要求就會越高。
Kunnan(2001)很早就提出公平性應(yīng)包括效度、可行性和公正,這里的公正實際上指的就是語言測試的社會影響。Kane(2010)借用法律中公平的分類程序來歸納測試公平的定義,他認為公平應(yīng)基于程序性的公平和實質(zhì)性的公平,這一界定充分肯定了語言測試中應(yīng)當體現(xiàn)的社會公平。McNamara&Ryan進一步區(qū)分了測試的公平性和公正性,他們指出:“公平性是技術(shù)質(zhì)量,即基于心理測量技術(shù)的質(zhì)量要求,要保證受試個體和群體的測試程序相同,要保證測試構(gòu)念在材料中得到充分體現(xiàn),而公正性則是指測試構(gòu)念中的價值觀意義對社會意識形態(tài)方面的影響”(McNamara&Ryan, 2011: 163)。這一論述很好地區(qū)分了公平性和公正性在語言測試中各自的側(cè)重點,有助于界定長久以來語言測試公平性在實際應(yīng)用中應(yīng)當如何界定的困繞,對于進一步探討公平性檢驗具有重要意義。
雖然學者們在界定公平性概念時的所知范圍不同,但一種較為一致的觀點基本認同,公平性應(yīng)包括測試本身的公平和測試使用的公正,前者主要針對測試的技術(shù)質(zhì)量,在效度范疇下討論測試的公平性,在此方面,Messick(1989)的效度理論經(jīng)過幾十年的發(fā)展已經(jīng)成熟并被廣泛運用于對公平性的討論(如: Shohamy,1997; Willingham&Cole, 1999; Weir, 2005; Bachman&Palmer, 2010; Xi, 2010; Walter, 2012);后者主要指基于結(jié)果使用的社會公平,指對測試的解釋和使用的價值觀意義對社會意識形態(tài)方面的影響,然而這一問題在語言測試學界并沒有得到和前者同等的重視,近二十年來對于測試使用的社會公正問題才逐漸引起學界的關(guān)注,目前這方面的研究尚處于初期(Karami, 2013)。
語言測試公平性研究在經(jīng)過近二十年的發(fā)展,成果顯著且日趨完善。學者們從不同的側(cè)重點對公平性進行了界定,并提出了各自的研究思路或者理論框架。有學者認為公平性框架的核心是“可比性”(comparability),既考生個體與個體之間以及群體和群體之間具有可比較的公平性,這一公平性體現(xiàn)在測試開發(fā)、實施、分數(shù)的評定和解釋的所有測試過程中(Willingham & Cole, 1997: 11)。Kunnan在語言測試公平性研究方面進行了持久的探索且成果豐碩,他最早提出語言測試的公平性應(yīng)包括效度(validity)、可行性(access)和公正(justice),效度關(guān)注對不同考生群體分數(shù)解釋的公平性,可行性關(guān)注在考試費用、考點設(shè)置、所考內(nèi)容、考試形式等方面是否對考生公平,公正關(guān)注考試結(jié)果的使用能否維護社會公正(Kunnan,2000: 3)。Kunnan的框架歷經(jīng)修改,他的公平性研究模型最終調(diào)整為: 對全體考生的公平(equitable treatment of examinees)、無偏差(freedom from bias)、對測試結(jié)果使用的公平(equality of testing outcomes)以及對測試內(nèi)容學習的公平(equality of opportunity to learn the testing content)(Kunnan, 2008: 24-34)。Kunnan的框架拓展了學界對測試公平性的理解,建立了公平性研究的理論框架,然而Bachman(2005)指出,雖然框架中的要素都非常重要,卻沒有一個系統(tǒng)機制將這些要素連貫起來為公平性提供論據(jù),Xi(2010)則認為他的模型對于測試公平性研究具有理論意義,但缺乏對實際操作層面的指導(dǎo),因為它沒有提供具體的指導(dǎo)或者綱要對測試的公平性進行操作和評估。
一些知名測試機構(gòu)在出臺測試領(lǐng)域指導(dǎo)文件時均對公平性進行描述,被視為考試領(lǐng)域的權(quán)威文件《教育與心理測量標準》(Standards for Educational and Psychological Testing) 1985版把公平性定義為測試質(zhì)量的一種純技術(shù)性指標,即測試對于不同的群體不存在偏差;1999 版的《標準》認為公平性是測試存在和使用的基礎(chǔ),測試公平與否將關(guān)系到社會公正,強調(diào)測試的公平性應(yīng)貫穿和超越整個測試過程,同時該版《標準》承認公平性沒有唯一的技術(shù)標準;2014版則進一步指出公平性是效度的基礎(chǔ),保障測試公平性是所有相關(guān)方的共同責任,其核心是避免和減少構(gòu)念無關(guān)因素(construct-irrelevant variance)對受試的影響(AERA,APA,NCME, 1985/1999/2014)?!督逃郎y試實踐公平性準則》(Joint Committee on Testing Practices)明確指出,測試的公平性是指測試在多大程度上同等地對待每位考生,并為每位考生發(fā)揮其與測試相關(guān)的知識和技能提供平等的機會;無論考生的年齡、性別、種族、國籍、語言背景及其個人特征,測試應(yīng)該對所有的考生公平(JCTP, 2004: 2)?!禘TS質(zhì)量和公平標準》(ETS Standards of Quality and Fairness)在定義測試公平時強調(diào)構(gòu)念不相關(guān)考生特征對測試結(jié)果和分數(shù)使用應(yīng)無顯著影響,并且列舉了測試中潛在的不公平因素和保障公平的相關(guān)措施(ETS, 2014: 20)。
如何使用公平性理論有效地指導(dǎo)測試開發(fā)的實踐活動呢?這是所有測試研究者、開發(fā)者和使用者最關(guān)心和亟待解決的問題。Xi(2010)總結(jié)和歸納了當前公平性與效度的三種關(guān)系,并提出將公平性置于測試效度檢驗的范疇更有利于公平性在實踐中的運用。她以TOEFL iBT測試為實證案例,結(jié)合ETS在開發(fā)大規(guī)模標準化測試方面的經(jīng)驗,嘗試性地提出在測試開發(fā)和使用過程中公平性框架應(yīng)用的六個步驟,并在此檢驗基礎(chǔ)上得出對TOEFL iBT測試進行公平性驗證的結(jié)論,即: 該測試能夠有效檢驗本科生的語言水平,但是對研究生并不合適;某些領(lǐng)域的專門知識可能會影響考生的應(yīng)試表現(xiàn),測試對不同的應(yīng)試群體存在不公平。她的討論遭到Alan Davies的批評,他認為Xi的公平性驗證實際上是效度驗證,兩者只是在措詞上不同;他觀點鮮明地指出對于語言測試公平性的討論是不現(xiàn)實和不必要的(Davies 2010)。
隨著測試公平性研究不斷的發(fā)展和深入,Walter(2012)提出了“形式模型”(formalistic model),并將公平性檢驗劃分為微觀分析(micro-analyses)和宏觀分析(macro-analyses),前者指有關(guān)公平性的技術(shù)檢測,后者指公平性的社會價值判斷,這一觀點在實際上呼應(yīng)了McNamara& Ryan(2011)所提出的有關(guān)公平性和公正性區(qū)別的觀點。他們的研究都肯定了公平性檢驗?zāi)P蛻?yīng)當結(jié)合量化和質(zhì)化的方法,指明了公平性判斷中兩個最重要的范疇,具有實踐意義,但是隨著而來的問題在于: 公平性作為一個有很強主觀意識判定的概念,如何清晰地界定微觀公平和宏觀公平?在公平性檢驗的內(nèi)容中哪些屬于微觀層面,哪些屬于宏觀層面?
基于上述討論,我們把公平界定為: 在測試流程中確保受試群體和個體同等測試機會的構(gòu)念不相關(guān)因素,它既包括測量技術(shù)檢驗的公平性,也包括社會價值判斷的公平性?!肮叫詸z驗雖然是一項非常重要的工作,執(zhí)行起來卻是困難重重”(Ravitch, 2004: 3),國內(nèi)外眾多機構(gòu)和學者對語言測試公平性進行了諸多有益的探索,如前文所提到的歐美測試機構(gòu)在倫理規(guī)范和行為準則制定方面已經(jīng)卓有成就,而在公平性踐行方面也已經(jīng)形成較為完備的體系,例如: 著名的TOEFL考試在試題開發(fā)過程中就有專家審題程序,試題通過統(tǒng)計手段檢驗之后,還要經(jīng)過測試專家對諸如性別、種族等敏感問題進行的審查,而英國的培生集團在命題過程中有項目敏感度復(fù)查環(huán)節(jié),以確保技術(shù)手段下沒有檢出的問題在人工價值判斷階段被檢出。這些方法主觀和客觀方法相結(jié)合、定性和定量方法相結(jié)合,能夠使公平審查更有效。
我國作為考試的大國,語言測試種類繁多、功能各異,然而尚未見關(guān)于測試公平性的倫理準則和操作規(guī)范,近年以來國內(nèi)的有識之士已經(jīng)開始對此進行探索性研究。范勁松提出的中國測試環(huán)境下語言測試公平性研究的基本框架,清晰地界定了測試中的相關(guān)利益群體在維護測試公平性中的責任,該模型充分展示了測試的整個過程中三個利益群體對于保障和提高公平性的重要作用,即: 開發(fā)機構(gòu)在確保測試公平性中發(fā)揮著最重要的作用,而所有利益相關(guān)群體責任的界定有助于提高公平性意識(范勁松, 2014: 7)。范的理論模型充分考慮了中國測試環(huán)境下利益相關(guān)群體的責任以及他們的公平性意識對于整個測試公平性的影響,其重要性在于這是國內(nèi)首次有學者專門針對語言測試的標準制定進行的探索性研究,然而這一模型仍然沒有詳細指明其核心“測試公平性”的具體內(nèi)涵和驗證手段,如: 測試公平性應(yīng)包括哪些內(nèi)容?應(yīng)采用什么方式或者手段驗證測試的公平性?李清華(2016)總結(jié)了前人關(guān)于公平的界定,進一步區(qū)分了公平性與效度、公平性與公正性的關(guān)系,借用AUA框架(Bachman & Palmer, 2010) 提出了一個語言測試公平性檢驗框架,將測試公平性的檢驗分為測量公平性的檢測和社會公平性的檢驗,并清晰界定了開發(fā)者和使用者這兩大測試利益高相關(guān)群體各自對于保障不同階段的公平性所應(yīng)該承擔的具體責任。這一框架充分考慮了長久以來關(guān)于公平性究竟是技術(shù)檢測還是價值判斷的爭論,對測試整個流程中公平性檢測的實際操作具有很強的指導(dǎo)意義,模型對于測試中最重要的利益相關(guān)群體——開發(fā)者和使用者各自對公平性的責任和影響都進行了詳細描述,然而遺憾的是該模型沒有體現(xiàn)出“應(yīng)試者”這一關(guān)鍵群體在整個公平性檢測中應(yīng)有位置和作用。在測試的整個流程中,測試開發(fā)者、使用者和應(yīng)試者的權(quán)力關(guān)系是不對等的,前兩者直接決定和影響著對應(yīng)試者的公平,因而測試的公平性框架中應(yīng)當必須要考慮和體現(xiàn)所有利害高相關(guān)者的立場和關(guān)系(Lynch, 2001)。
事實上,長久以來語言測試領(lǐng)域就一直有兩種聲音(Filer, 2000: 2): 技術(shù)聲音(technical discourse)和社會聲音(sociological discourse),前者關(guān)注測試本身的質(zhì)量,后者關(guān)注測試在社會中的使用及產(chǎn)生的影響。在我國語言測試具有高利害相關(guān)因素的環(huán)境下,測試的結(jié)果往往直接關(guān)系到應(yīng)試者的一些重大切身利益,因此無論是測試本身的質(zhì)量,還是測試的社會影響,都應(yīng)當納入對其公平性進行考量的范圍。綜合前人對語言測試公平性的研究成果,吸收和借鑒了范和李兩位學者對中國測試環(huán)境下公平性的研究框架,我們認為語言測試公平性的檢測框架應(yīng)當涵蓋對測試開發(fā)者、使用者和應(yīng)試者責權(quán)利的界定,在應(yīng)用實踐中需要同時考慮技術(shù)公平性需求和社會公平性需求,對效度、偏差和敏感度三個主要方面進行測量技術(shù)檢驗和人工價值判斷。據(jù)此我們提出以下語言測試公平性檢測框架(如下圖):
圖3. 語言測試公平性檢驗框架
語言測試既是一門社會科學,同時亦是一門實踐性很強的實踐活動,因此語言測試公平性研究應(yīng)當既包括對理論原則的探討,也包括對實踐準則的探討。測試公平性理論原則探討的重要內(nèi)容應(yīng)包括用于規(guī)范所有測試者倫理道德的職業(yè)規(guī)范,而實踐準則是指用于指導(dǎo)具體測試行為的實施準則。根據(jù)范和李所提出的模型,開發(fā)機構(gòu)在確保測試公平性中發(fā)揮著最重要的作用,即開發(fā)機構(gòu)對于測試的開發(fā)和實施階段的公平性負有絕對的責任,但是測試的開發(fā)者不可能決定對于測試的使用和后果的公平性,這些理應(yīng)由測試的使用者所負責。如果將整個測試過程按照測試前、測試中和測試后三個階段,將公平性的探求需貫穿于整個測試流程中,那么一項測試最初的命題研究是構(gòu)成整個測試公平、公正的起點和基礎(chǔ)。在命題階段,公平性的要求主要反映在測試的選材內(nèi)容和答題形式上,尤其是大規(guī)模、高風險的測試,應(yīng)當對于所有考生而言具有同等的作答機會和答題條件;如果由于考生性別、經(jīng)歷、專業(yè)等原因造成難易度差別和答機率失衡等狀況,那么就會出現(xiàn)“不公平”。在命題階段的公平會對測試的解釋、決策和后果產(chǎn)生最重要的和最直接的預(yù)期影響,但是不能夠確保測試的最終使用在開發(fā)者預(yù)期的公平范圍內(nèi),這也正是上圖3中虛線所要表明的意思,即測試的開發(fā)者所努力確保的公平并不能保證測試的最終公平,測試的開發(fā)者不可能也不應(yīng)該對測試的誤用和濫用等超出其職責之外的后果負責(楊惠中、桂詩春,2007)。
學界有專家認為公平性檢驗的具體方法應(yīng)當以專家審驗為主,統(tǒng)計方法為輔,傳統(tǒng)的偏差偵測方法適用于測試的開發(fā)、分數(shù)評定和解釋,對于施測、決策及其后果的公平性檢驗則以質(zhì)性研究方法為主(李清華,2016: 549)。然而,在實際操作過程中的人工判斷(如專家審查等)會受到判斷者的經(jīng)驗、喜好、職業(yè)等諸多因素或多或少的影響,誠如Berlack所指出的:“如果測試可以由專家的判斷來決定效度的技術(shù)檢測,那么為了保障測試的公平性所進行的科學技術(shù)檢測都將是無意義的”(Berlack, 2000: 192)。公平性檢驗的特殊之處在于它既涉及客觀方法,也涉及主觀方法,這兩種方法對于保障測試的公平性都是不可缺少的,在具體流程中,客觀性的測量技術(shù)檢驗理應(yīng)先行,技術(shù)檢測和人工價值判斷亦可“同行”;如果在“同行”過程中發(fā)現(xiàn)爭議較為集中的問題,再做進一步審查和判斷。在具體實施步驟上,首先應(yīng)當進行的是效度驗證,因為“提升效度是通向公平性的必由之路”(Willingham, 1999: 221),測試首先要確保采用了恰當?shù)姆绞娇剂恕耙肌钡膬?nèi)容,這是對“所有考生的公平”;隨后進行偏差檢測以保證測試使用了公平的形式考了“應(yīng)考”的內(nèi)容,這是對“不同考生群體的公平”,減少或者控制偏差是保證效度和公平性的必要條件之一。同時,人工價值判斷亦可同時進行偏差檢測,并進一步進行敏感度檢測,確保測試內(nèi)容和語言是合適的、對不同考生個體是公平和無歧視的。關(guān)于人工價值判斷的重要性,Gregory& Rutgers(2006: 232)曾明確指出:“如果能夠判斷出試題錯測內(nèi)容的確是測試所需要的,那么即便該題被認定為DIF較高,也應(yīng)該保留”,進一步的公平性分析需要相關(guān)領(lǐng)域的專家結(jié)合經(jīng)驗進行判斷。
測試學專家Bachman認為,語言測試不公平可能是因為語言測試的開發(fā)和使用者沒有考慮到受試者的文化背景、知識背景、認知風格、母語、種族、性別和年齡等方面的差異(Bachman, 1990: 113),這些差異可能導(dǎo)致測試行為中存在的系統(tǒng)性差異與所要測量的能力無邏輯關(guān)系而與考生的其他特征有關(guān),從而使考試對具有某個特征的考生群體有利,或?qū)哂心硞€特征的考生群體不利,最終導(dǎo)致語言測試的不公平。其后他在語言測評論證框架(Assessment Use Argument, AUA)(Bachman&Palmer, 2010)中主張,針對每一步合理使用的測試流程應(yīng)提出理據(jù),以保證測試的開發(fā)和質(zhì)量檢驗。根據(jù)Bachman對于影響公平性因素的表述和AUA框架的主張,我們嘗試將其中的相關(guān)因素細化并制成校對量表(如下表),對測試的公平性進行核對和檢查,畢竟對于一線的測試踐行者們而言,指導(dǎo)細則能夠?qū)⒊橄蟮墓骄唧w化,能夠降低公平性審查過程中的主觀性(Zieky, 2006)。
表1.語言測試公平性量表檢測細則
請在量表上勾選最能反映您想法的數(shù)字,其中: 1=完全不同意,2=不太同意,3=不確定,4=基本同意,5=完全同意。
1考試應(yīng)該做到對所有考生都公平。1 2 3 4 52考試可以做到對所有考生都公平。1 2 3 4 53考試對考試分數(shù)的使用上可以做到對每個考生都公平。1 2 3 4 5
續(xù) 表
需要特別指出的是,目前公平性檢驗的的實踐性較差,國內(nèi)還沒有機構(gòu)或部門能夠出具完備的操作細則,而公眾對于公平性檢測也只是處在可感而不可知的狀態(tài)。因此,要推動和推進有關(guān)公平性檢測的理論研究和實踐應(yīng)用,應(yīng)當將檢測的結(jié)果對社會公布,接受來自社會的監(jiān)督。畢竟測試的公平性檢測是為了保證測試的公平性,究竟公平與否還要接受社會監(jiān)督,而公布檢測結(jié)果的部門應(yīng)當收集社會反饋并用于指導(dǎo)和完善之后的公平性檢驗工作,使公平性檢驗成為一個持續(xù)化和常態(tài)化的工作,使社會約束力能夠有效促進機構(gòu)對公平性檢驗的責任心,這一點對于大規(guī)模和高風險類語言測試尤其必要。國家和各級考試主管部門應(yīng)當建立完善的公平性檢測報告機制,或引入第三方評估和監(jiān)察,這不僅是提高測試質(zhì)量的必要舉措,亦是保障社會公正的重要措施(王后雄、詹先君,2011;范勁松,2014;楊惠中,2015;鄭宇靜、辜向東,2015;李清華,2016)。
當前語言測試公平性研究在定義界定、研究視角和實踐檢驗等重要方面都還存在巨大分歧,目前的公平性研究沒有從根本上解決以下問題: 應(yīng)該采用什么樣的證據(jù)對公平性進行驗證?如何認定公平性的確認標準?到哪個階段或者程度可以結(jié)束驗證?統(tǒng)一的公平觀還沒有出現(xiàn),驗證公平性的框架尚不清晰,適用于不同測試文化環(huán)境的公平性評價標準尚未形成,這都使公平性理念在付諸實踐時困難重重。雖然公平性研究中很多問題尚無明確答案,現(xiàn)有的理論框架或模式也尚未能全面解決公平性檢驗的問題,但是語言測試從開發(fā)、施測、評分到根據(jù)測試結(jié)果做出決策是一個漫長的過程,其中環(huán)節(jié)都涉及公平性問題,如果一項測試存在公平性問題,無論是在內(nèi)容上還是形式上,無論是在測試前還是測試中,那么分數(shù)的解釋、使用及其后果都將有可能是不合理的。因此,公平性的重要性應(yīng)放在第一位,開發(fā)者和使用者對測試的公平性負有絕對的和有限的責任,但是開發(fā)者和使用者的責任因其職責不同而應(yīng)當區(qū)分開來(楊惠中、桂詩春,2007)。
語言測試公平性檢測不僅僅指從測量技術(shù)角度進行的檢測,也應(yīng)當包括從社會價值角度進行的人工判斷,針對效度、偏差和敏感度的檢驗?zāi)軌蛴行Т_保測試的公平性。雖然現(xiàn)階段學者們對于語言測試公平性檢驗所做出的探索研究尚待成熟,隨著語言測試理論的不斷發(fā)展和測試檢測技術(shù)的不斷提高,語言測試公平性檢驗必將更加科學和完善。將主觀和客觀相結(jié)合、定性和定量方法相結(jié)合,方能使公平審查更有效。
目前我國在測試公平性等測評領(lǐng)域的研究與英美國家相比還有很大差距,眾多現(xiàn)有研究較多局限于引進和闡釋西方的理論,尚缺乏有組織、跨學科、持續(xù)性的科研,因此我們的研究既要充分借鑒和利用國際上已有的成果,也不應(yīng)該忽略對中國文化情境下測評理論體系的建構(gòu)。以公平性研究為例,只有立足于本國研究并對接國際前沿,方可在不斷摸索中摸索出適合于我國情境的公平性測評體系。