楊 華 沈麗坤
(保定科技職業(yè)學院,河北 保定 071000)
考試,作為教學的一部分,在教學過程中起著必不可少的作用。實行得當?shù)目荚囉兄诮虒W的順利開展,對教學有很強的導(dǎo)向作用,有助于提高教學效果。一次成功的考試,可以幫助教師真實有效地獲取所需要的有關(guān)學生能力或具體技能的信息。信度和效度是衡量考試質(zhì)量的兩個重要標準,是考試必須滿足的兩個基本條件。成功的考試應(yīng)盡可能做到可靠、可信。
考試信度(reliability),用確切的語言講,應(yīng)該是測量結(jié)果的信度??荚囍械男哦壤碚?,就是教育和心理測量中關(guān)于測量誤差的理論。
根據(jù)現(xiàn)行的教育和心理測量理論和實踐情況,要給信度下一個較完整的定義十分困難。下面我們從定性和定量兩個方面嘗試給信度下個定義。
定性定義:信度是關(guān)于測量結(jié)果一致性程度的量度。這種一致性可能是關(guān)于不同時間的一致性,也可能是關(guān)于由等價項目組成的不同試卷間的一致性,也可能是關(guān)于不同評分者間的一致性,也可能是關(guān)于不同次決策的一致性,也可能是關(guān)于以上幾種因素不同組合情況下的一致性。這種一致性通常用信度系數(shù)(一般用相關(guān)系數(shù))表示。
定量定義:信度是關(guān)于測量結(jié)果偏離真值大小的量度。這種量度通常用測量的標準誤差來表示(鄒申,2005:132-134)。
考試要成為有效的測量手段,信度是其關(guān)鍵因素之一。在教學實踐中,我們可以通過重復(fù)考試法、平行卷考試法、對半分析法三種方法來測定考試信度(鄒申,2000:34-35)。
衡量考試的另一個標準是考試效度(validity)。效度,是在教育和心理測量學這一特定語境中對“有效程度”或“有效性”一詞的簡稱。
簡單說,考試效度就是它在多大程度上考了想要考的內(nèi)容。每次考試,不管何種類型,都應(yīng)盡可能有效??荚嚤仨氠槍μ峁ο胍獪y量的個別技能的真實的測量:在一定程度上同時測量外部知識和其他技能,否則,它不是一個有效的考試。
例如,教師編制了一套口試題目,來考試學生口頭表達語言的能力,考試的結(jié)果顯示這套題目的確檢查了學生在規(guī)定方面的能力,我們可以說這套考試題目具有效度。
又如,如果我們只想測量寫作能力的話,下面這個考試項目就是無效的:“討論‘攝影是一門藝術(shù)還是科學?’”很簡單,因為它需要一些攝影知識,必然會對一些學生有利(Heaton,2000:159)。
考試的效度可以通過表面效度、內(nèi)容效度、尺度關(guān)聯(lián)效度、結(jié)構(gòu)效度幾個方面來檢驗。
考試效度是一個整體概念,四種效度應(yīng)為這個概念的不同側(cè)面。在確定一個考試的效度時,我們必須通盤考慮效度的各個方面。我們既不能只滿足考試的表面效度,又不能孤立地評價考試的內(nèi)容效度。只有聯(lián)系結(jié)構(gòu)效度來評價內(nèi)容效度時,我們才能作出有意義的結(jié)論。任何論證結(jié)構(gòu)效度的過程都包含內(nèi)容效度、尺度關(guān)聯(lián)效度或表面效度等方面。
考試效度和信度構(gòu)成評估考試的兩個主要標準。如前所述,信度是關(guān)于測量結(jié)果一致性程度的量度,指的是考試結(jié)果(分數(shù))的可靠性;效度指的是考試達到預(yù)定目的的程度。
一個考試可以具備較高的信度,但缺乏效度。如果我們用一個已被證明具有較高信度的閱讀試卷去考學生的寫作能力,考試結(jié)果有很高的穩(wěn)定性也沒用。試卷的誤用無法使我們測量到期望的能力或技能。如果用尺子作為工具來測量人的體重,可能很“可靠”,在不同的被測者之間、不同的地點之間,可能會有很高的一致性,但這種測量對于測量體重來說是一個有效度不高的測量。
理想中的考試應(yīng)該既有信度又有效度。然而,信度和效度之間存在著矛盾??荚嚨男哦仍礁撸ǔPФ仍降?。包含創(chuàng)造性技能的主觀考試比如口試、角色扮演等在失去信度的情況下才可能得到較高的結(jié)構(gòu)效度和表面效度。語言學習行為不可能只靠從所給選項中選擇正確答案的能力去論證。
考試工作者所面臨的選擇是增加有信度的考試的效度還是增加有效度的考試的信度。如果想要增加有信度的考試的效度,這是不可能達到的,因為那些使考試可信的特征也正是使考試無效的特征。我們可以先設(shè)計一個有效考試,然后增加其信度。一個效度高的測評,一定有好的信度。但有高信度的測評,不一定有好的效度。信度是效度的必要條件,但并不充分。考試結(jié)果與要考試的內(nèi)容越吻合則效度越高;反之,則效度越低??傊承y試對所要測量的行為具有更明顯的代表性;而有些則不具有代表性。
信度是效度的前提條件。一個有效度的考試一定有信度,而一個信度很高的考試不一定有效度,這是信度與效度的最基本的關(guān)系(鄒申,1998:259)。如果考試本身不可靠,我們就不能說考試有效地檢測了所選定的語言能力或技能。確定效度的一些方法需要考試結(jié)果作為基本數(shù)據(jù),如試卷內(nèi)各項目之間相關(guān)的關(guān)系、考試成績與考生特征之間關(guān)系的分析等。如果數(shù)據(jù)不可靠,考試效度也是無法確定的。
信度和效度似乎存在著不可調(diào)和的矛盾,是一種“你進我退”的關(guān)系,多一點信度就少一點效度,反之亦然。傳統(tǒng)上,人們往往努力追求絕對的信度和效度,結(jié)果終究是徒勞的。因為不考慮效度,盲目增加信度,結(jié)果是一個考試在信度很高地測試著并非我們想測試的內(nèi)容;而不顧信度盲目地提高效度,其測試結(jié)果只能是不準確不可信的,即絕對的信度和效度是沒有意義的。兩者相互妥協(xié)以達到共存的目的才是我們經(jīng)過努力能夠達到的,追求“絕對”只是一個美麗的“憧憬”(鄒申,1998:260)。 總而言之,對于考試來說,信度與效度都是必不可少的,信度是保證效度的基礎(chǔ),撇開效度只談信度是沒有實際意義的。
信度和效度是衡量考試質(zhì)量的最重要的兩項指標。它們之間既相互依存,又相互排斥。一項考試如果可靠,則其效度很可能高,也很可能低;但是,如果一項考試不可靠,則該考試必然無效。保證考試的高信度和高效度是考試工作者追求的目標。但這只能是一個理想化的目標,因為一項考試要想做到信度和效度很高往往是不可能的,但我們絕不能為了追求信度而忽視效度,也不能為了追求效度而放棄信度。
[1]Heaton,J.B.W riting English Language Tests[M].北京:外語教學與研究出版社,2000,8.
[2]鄒申.語言測試[M].上海:上海外語教育出版社,2005,9.
[3]鄒申.英語語言測試——理論與操作[M].上海:上海外語教育出版社,1998,7.
[4]鄒申,楊任明.簡明英語測試教程[M].北京:高等教育出版社,2000,7.