計(jì)算機(jī)自適應(yīng)性語言測試的智能選題方法研究*

2014-07-17 10:17:51柴省三

中國教育信息化·基礎(chǔ)教育 2014年4期

柴省三

摘要：隨著計(jì)算機(jī)信息技術(shù)的發(fā)展和多媒體網(wǎng)絡(luò)教學(xué)設(shè)備的日益普及，基于項(xiàng)目反應(yīng)理論（IRT）的計(jì)算機(jī)自適應(yīng)性（CAT）語言測試由于在測驗(yàn)信度、測驗(yàn)效率和考試安全性等方面比傳統(tǒng)的紙筆測驗(yàn)具有更大的優(yōu)勢，因此針對計(jì)算機(jī)自適應(yīng)性考試的理論問題和實(shí)踐問題正在成為教育考試信息化研究的熱點(diǎn)之一。文章在對自適應(yīng)性考試原理進(jìn)行考察的基礎(chǔ)上，專門就計(jì)算機(jī)自適應(yīng)性語言測試，特別是對國內(nèi)外計(jì)算機(jī)自適應(yīng)性閱讀理解考試過程中遇到的智能選題單位和方法問題進(jìn)行了探討，并對具體的解決途徑進(jìn)行了研究。

關(guān)鍵詞：教育信息化；計(jì)算機(jī)自適應(yīng)性考試；考試信息化；語言測試

中圖分類號：GTP393文獻(xiàn)標(biāo)志碼：A 文章編號：1673-8454（2014）08-0081-05

當(dāng)代計(jì)算機(jī)科學(xué)的日益普及和信息技術(shù)及網(wǎng)絡(luò)技術(shù)的高速發(fā)展，不僅對語言教學(xué)模式和語言教學(xué)手段的完善發(fā)揮了重要作用，而且還全面提升了教育信息化和考試信息化的水平。進(jìn)入本世紀(jì)以后，以項(xiàng)目反應(yīng)理論（Item Response Theory,簡稱IRT）為基礎(chǔ)的計(jì)算機(jī)自適應(yīng)性考試模式（Computer-Adaptive Testing，簡稱CAT），在國內(nèi)外語言測試領(lǐng)域的應(yīng)用已經(jīng)由理論探索階段進(jìn)入了實(shí)踐探索階段。2000年，美國ETS（Educational Testing Service）即開始對計(jì)算機(jī)自適應(yīng)性TOEFL考試的可行性問題進(jìn)行了實(shí)驗(yàn)研究，并于2005年正式推出了計(jì)算機(jī)網(wǎng)絡(luò)版的TOEFL考試（internet-Based TOEFL，簡稱TOEFL iBT）。與此同時(shí)，美國大學(xué)入學(xué)考試（SAT）、研究生入學(xué)資格考試（GRE）以及全美建筑師資格考試等也相繼嘗試將傳統(tǒng)的紙筆測試方式向計(jì)算機(jī)自適應(yīng)性測試方式過渡（Sawaki et al.，2008）。

從上個(gè)世紀(jì)末開始，國內(nèi)也陸續(xù)對計(jì)算機(jī)自適應(yīng)性考試進(jìn)行了許多探索。漆書青、戴海崎（1986）、谷思義等（1990）分別對CAT測驗(yàn)的模式和在英語水平測驗(yàn)中的應(yīng)用問題進(jìn)行了初步探索；謝小慶（2008）教授對中國漢語水平考試（HSK）自適應(yīng)性測試的可行性問題進(jìn)行了實(shí)驗(yàn)，并開發(fā)出了國內(nèi)第一個(gè)計(jì)算機(jī)自適應(yīng)性HSK模擬考試系統(tǒng)；2008年，全國大學(xué)英語四、六級考試也對自適應(yīng)性測驗(yàn)方式進(jìn)行了嘗試。綜觀上述研究成果，我們不難發(fā)現(xiàn)，計(jì)算機(jī)自適應(yīng)性語言測試在考試個(gè)性化、測驗(yàn)信度和測驗(yàn)效率等方面確實(shí)具有紙筆考試無法比擬的優(yōu)勢。不過，上述研究主要是針對以分離式（discrete）、客觀性多項(xiàng)選擇題為主要測驗(yàn)方式所進(jìn)行的探索和研究，不少研究成果對于傳統(tǒng)的基于共同刺激材料（stimulus）的閱讀理解測驗(yàn)項(xiàng)目的CAT考試卻鮮有涉及。因此，本文將在對CAT測驗(yàn)原理和測試邏輯過程進(jìn)行考察的基礎(chǔ)上，專門就CAT在閱讀理解測驗(yàn)中的計(jì)算機(jī)智能選題方法問題進(jìn)行研究。

一、計(jì)算機(jī)自適應(yīng)性考試的原理

計(jì)算機(jī)考試和計(jì)算機(jī)自適應(yīng)性考試是最近幾年國內(nèi)外語言測試和教育測量界研究的熱點(diǎn)問題之一，由于兩種測試方式所依托的信息技術(shù)背景完全相同，而且與傳統(tǒng)的紙筆測驗(yàn)方式存在顯著的差異，所以兩者經(jīng)常被誤解，因此我們有必要首先澄清兩者之間的基本關(guān)系。

所謂計(jì)算機(jī)考試，顧名思義，即被試通過計(jì)算機(jī)終端完成測試的過程，也稱之為基于計(jì)算機(jī)的考試（Computer-Based Testing，簡稱CBT）。而計(jì)算機(jī)自適應(yīng)性考試的標(biāo)準(zhǔn)英文名稱則是“Computer-Adaptive Testing”或“Computerized Adaptive Testing”，簡稱為CAT。CBT和CAT之間存在很多相同的地方，但也存在本質(zhì)的區(qū)別（見圖1）。

首先，CBT和CAT考試都是以計(jì)算機(jī)科學(xué)和網(wǎng)絡(luò)技術(shù)為依托，測驗(yàn)的內(nèi)容都是通過網(wǎng)絡(luò)化傳遞和呈現(xiàn)，考生全部在計(jì)算機(jī)上完成測試的過程。與傳統(tǒng)的紙筆測試相比，CBT和CAT的考試效率和評分效率更高，答題的方式更加便捷（熊春明，吳瑞，2006）。

其次，CBT和CAT也存在若干不同的地方，其中最本質(zhì)的區(qū)別在于兩者的測量理論基礎(chǔ)完全不同。CBT考試的理論基礎(chǔ)是經(jīng)典測量理論（Classical Testing Theory，簡稱CTT），而CAT考試的理論基礎(chǔ)則是現(xiàn)代項(xiàng)目反應(yīng)理論。所以，基于計(jì)算機(jī)信息科學(xué)和網(wǎng)絡(luò)技術(shù)，不僅可以開發(fā)和實(shí)施CBT考試，也可以實(shí)施CAT考試，甚至還可以進(jìn)行CBT和CAT混合型考試模式的設(shè)計(jì)，即半適應(yīng)性測驗(yàn)，因此，兩者的差異不是體現(xiàn)在信息技術(shù)手段方面，而是測量理論和計(jì)算機(jī)施測時(shí)的計(jì)算模型方面。

在CBT考試中，所有的考生，無論其語言水平差異有多大，都必須在相同的時(shí)間內(nèi)完成由相同題目構(gòu)成的定長測驗(yàn)。由于考生的語言水平和測驗(yàn)題目的難度指標(biāo)一般符合正態(tài)分布（見圖2），因此，難度較低的部分題目，比如N1和N2部分的題目對于考生團(tuán)體中語言水平較高的E組和F組考生而言，由于題目的難度水平已遠(yuǎn)低于其語言水平，所以考生在回答這部分題目時(shí)根本無法獲得有效的分?jǐn)?shù)差異（ceiling effect）。同樣，對于語言水平較低的A組和B組考生而言，試卷中較難的N5和N6部分題目的難度則太難，考生在回答這部分試題時(shí)就會產(chǎn)生地板效應(yīng)（floor effects），即考生的分?jǐn)?shù)普遍較低，考生對這部分測驗(yàn)題目的回答幾乎無法提供任何測量信息。另外，由于受CTT測量理論的嚴(yán)格平行測驗(yàn)假設(shè)的限制，在CBT考試中，考生答對任何一個(gè)題目所獲得的分?jǐn)?shù)都相同，即答對相同題目數(shù)量的考生被認(rèn)為具有相同的語言能力。事實(shí)，考生答對題目的難度不同，其語言水平也必然存在本質(zhì)的區(qū)別。

基于IRT理論的CAT考試則可以克服CBT考試上述之不足。在CAT考試中，考生的語言水平不是單純地以定長測驗(yàn)的總分來表示的，因?yàn)槊總€(gè)測驗(yàn)題目的難度、區(qū)分度和猜測度不同（b，a，c參數(shù)不同），所以不同能力水平（θ）的考生答對每個(gè)測驗(yàn)題目的概率值也就不同，并且概率值可以用下列公式進(jìn)行估計(jì)。

P(θ)=C+(1-c)

其中，Pi(θ)表示具備能力水平θ的被試在題目參數(shù)為ai、bi和ci的題目上正確回答的概率。同一個(gè)測驗(yàn)項(xiàng)目，不同能力水平的考生正確回答的概率不同，相同能力水平的考生回答ai、bi和ci參數(shù)不同的題目的概率也不相同。由于在IRT中題目的難度參數(shù)不依賴于被試樣本，所以，我們就可以借助計(jì)算機(jī)系統(tǒng)對被試的能力和項(xiàng)目參數(shù)分別進(jìn)行估計(jì)，同時(shí)將若干題目進(jìn)行參數(shù)估計(jì)后建立題庫（item bank）和進(jìn)行等值處理。參數(shù)完備的測驗(yàn)題庫是CAT考試設(shè)計(jì)的必要條件之一，因?yàn)镃AT考試的主要優(yōu)點(diǎn)就是“量體裁衣”式的考試，只有具備數(shù)量較大、參數(shù)完備的題庫后才能借助計(jì)算機(jī)技術(shù)參照被試的不同水平進(jìn)行隨機(jī)選擇題目，以保證每個(gè)考生回答的測驗(yàn)題目的難度與其能力水平最接近，從而不必回答那些難度水平明顯高于或低于其語言水平的題目，從而既提高了測驗(yàn)的效率，也確保了測驗(yàn)題目對不同被試水平的測量可以提供最大信息函數(shù)值（item information）。

二、CAT測試的基本過程

計(jì)算機(jī)自適應(yīng)性考試的實(shí)施必須滿足三個(gè)基本條件：一是事先必須建立一個(gè)容量較大的題庫，并對每個(gè)測驗(yàn)題目進(jìn)行參數(shù)估計(jì)和參數(shù)量表化處理（scaling），以保證題庫具備適應(yīng)測量不同語言水平被試的足夠題量。二是成熟的計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)信息技術(shù)的支持。三是采用優(yōu)化的計(jì)算方法和操作程序，保證考試過程中的即時(shí)能力估計(jì)和選題策略。目前，計(jì)算機(jī)科學(xué)和網(wǎng)絡(luò)技術(shù)的發(fā)展已經(jīng)足以滿足CAT考試的實(shí)施條件（巫華芳，2011），因此，決定CAT考試可行性的關(guān)鍵因素是題庫建設(shè)、題庫維護(hù)和能力估計(jì)的優(yōu)化算法以及選題策略。根據(jù)國內(nèi)外計(jì)算機(jī)自適應(yīng)性考試的研究成果，CAT語言測試的基本流程包括初測、實(shí)測和結(jié)果處理三個(gè)邏輯過程（參見圖3）。

1.初測階段（piloting）

CAT考試的精髓就是針對不同水平的考生提供不同難度的測驗(yàn)題目，因此初測階段主要是對被試的語言水平進(jìn)行初步的估計(jì)，以便判斷考生在正式考試階段首先作答的題目難度。在初測階段，計(jì)算機(jī)CAT系統(tǒng)首先從題庫中隨機(jī)抽取少量（5-10個(gè)）的中等難度的題目讓被試作答，同時(shí)計(jì)算機(jī)系統(tǒng)通過期望能力法（EAP）或最大似然估計(jì)法（MLE）對被試的水平進(jìn)行在線（on-line）估計(jì)，從而判斷正式考試階段對每一個(gè)被試第一次呈現(xiàn)的題目難度。初測階段的操作機(jī)制與眼科大夫根據(jù)國際標(biāo)準(zhǔn)視力表檢查學(xué)生的裸眼視力時(shí)第一次選擇辨別符號的方法一樣。檢查者首先讓被試辨別幾個(gè)代表中等視力的符號“E”，然后根據(jù)學(xué)生反應(yīng)的正確情況再決定繼續(xù)讓被試辨別的視力符號的級別，這樣不斷循環(huán)，逐步逼近學(xué)生的真實(shí)視力水平后即可終止檢查過程，從而可以在最短的時(shí)間內(nèi)準(zhǔn)確地判斷被試的視力水平。

2.實(shí)測階段（formal administration）

CAT考試的實(shí)測階段是考試的核心階段。根據(jù)初測階段的結(jié)果，計(jì)算機(jī)從題庫中隨機(jī)選擇并呈現(xiàn)一個(gè)與被試初測水平最匹配的題目讓被試回答，回答結(jié)束后，系統(tǒng)馬上根據(jù)回答的結(jié)果判斷下一個(gè)應(yīng)該呈現(xiàn)的題目難度，并計(jì)算測驗(yàn)的信息函數(shù)值是否達(dá)到了終止測驗(yàn)的標(biāo)準(zhǔn)。測驗(yàn)的信息函數(shù)值（information function）是反映測量準(zhǔn)確性的關(guān)鍵指標(biāo)，它是測驗(yàn)項(xiàng)目信息函數(shù)值的總和，其具體估計(jì)公式如下：

1(θ)=

其中，P1i(θ)是Pi(θ)的一階導(dǎo)數(shù)，Qi(θ)=1- Pi(θ)，據(jù)此，我們可以得出滿足信息函數(shù)值最大化的項(xiàng)目與能力值之間存在如下關(guān)系：

θ=b+loge

當(dāng)Ci=0時(shí)，在能力量表的bi點(diǎn)上，題目i提供的信息量最大，即當(dāng)被試的語言能力水平與項(xiàng)目的難度值相當(dāng)時(shí)，項(xiàng)目對被試的測量準(zhǔn)確性最高。所以，在選擇下一個(gè)測驗(yàn)題目時(shí)，如果被試答對了項(xiàng)目I(j)，并且測驗(yàn)的信息函數(shù)值I(θ)還沒有達(dá)到終止測驗(yàn)的標(biāo)準(zhǔn)，那么系統(tǒng)就會繼續(xù)給被試隨機(jī)提供一個(gè)難度更高（b值更大一點(diǎn)）的項(xiàng)目I(j+1)；如果被試答錯(cuò)了項(xiàng)目I(j)，系統(tǒng)則會為被試隨機(jī)提供一個(gè)難度更低的項(xiàng)目I(j+1)，并繼續(xù)計(jì)算被試的反應(yīng)結(jié)果和測驗(yàn)信息函數(shù)值，如此不斷循環(huán)，直到滿足結(jié)束標(biāo)準(zhǔn)（達(dá)到預(yù)先設(shè)置的信度要求）后，實(shí)測階段即告結(jié)束。

3.處理結(jié)果（score transformation and report）

CAT考試的最后階段是在測驗(yàn)滿足終止（end-up）條件后，首先對每個(gè)考生的能力估計(jì)值進(jìn)行計(jì)算，然后進(jìn)行分?jǐn)?shù)轉(zhuǎn)換，并給每個(gè)考生報(bào)告一個(gè)便于理解的標(biāo)準(zhǔn)化測驗(yàn)分?jǐn)?shù)（standardized score）和測量的標(biāo)準(zhǔn)誤（信度值），最后宣布考試結(jié)束。

三、CAT在閱讀測驗(yàn)中的智能選題策略問題

閱讀理解能力是一個(gè)人語言水平高低的重要標(biāo)志，因此，國內(nèi)外幾乎所有的外語測試或第二語言測試都將閱讀理解能力的測量作為考試的重要組成部分，而且基本上都是采用經(jīng)典的篇章閱讀測驗(yàn)方式對被試的閱讀水平進(jìn)行考查，即命題者首先選擇若干適當(dāng)長度的閱讀材料（passages），然后針對每篇閱讀材料命制適當(dāng)數(shù)量的多項(xiàng)選擇題讓考生回答，從而通過考生對測驗(yàn)題目的回答情況推斷其閱讀理解水平的高低。

這種經(jīng)典的測量方式可以比較準(zhǔn)確、全面地評價(jià)考生的綜合閱讀理解能力，具有較高的構(gòu)想效度（construct validity ），因此在未來一個(gè)相當(dāng)長的時(shí)間內(nèi)，教育測量領(lǐng)域還無法找到其他替代的測量方式。不過，CAT考試中的即時(shí)能力估計(jì)和選題策略基本上都是以二分記分（dichotomous）模式的孤立測驗(yàn)項(xiàng)目為基礎(chǔ)的，因此，在CAT測驗(yàn)方式中，就必然會面對這樣一個(gè)特殊的困境：基于同一篇閱讀材料命制的題束內(nèi)測驗(yàn)項(xiàng)目之間的難度并不相同，如果僅以題目的難度參數(shù)作為標(biāo)準(zhǔn)選擇題目時(shí)，不同能力水平的考生必然需要回答不同的測驗(yàn)項(xiàng)目，同時(shí)還必須讓考生閱讀相同的閱讀材料，否則考生就無法對測驗(yàn)的題目做出回答。然而，考生對同一個(gè)題束內(nèi)不同題目的回答，并不能完全反映考生對閱讀材料的整體理解水平。另外，如果兩個(gè)考生分別正確回答了一個(gè)難度指數(shù)相同、但屬于不同文章的題目時(shí)，兩者的閱讀能力也不具有可比性。

所以，為了解決上述測量悖論，在以CAT方式對被試的閱讀能力進(jìn)行測量時(shí)，必須以整篇閱讀材料為單位，而不是以其中的題目參數(shù)值為標(biāo)準(zhǔn)進(jìn)行題目的適應(yīng)性選擇，否則在考試的可行性和能力的估計(jì)方面就會產(chǎn)生邏輯矛盾。目前，國外在實(shí)施計(jì)算機(jī)自適應(yīng)性語言測試時(shí)，主要采用三種方法解決閱讀測試的智能選題問題：一是計(jì)算機(jī)考試和適應(yīng)性考試的混合設(shè)計(jì)方式；二是篇章難度系數(shù)控制法；三是借助題組反應(yīng)理論（TRT）的固定路徑法（fixed branching routine）嘗試解決上述問題，不過該方法目前還不能在CAT中進(jìn)行實(shí)際應(yīng)用。

1.混合設(shè)計(jì)模式

在絕大多數(shù)語言測試中，為了保證測驗(yàn)的內(nèi)容效度和避免測驗(yàn)方法引起的構(gòu)想無關(guān)變異（construct-irrelevant variance），測驗(yàn)題目主要以客觀性測驗(yàn)方式為主。所以只有在段落聽力理解和閱讀理解考試部分不得不采用題束方式。為了避免產(chǎn)生CAT考試中的上述選題陷阱，所以不少考試采用“CAT+CBT”混合設(shè)計(jì)的方式進(jìn)行施測。在考試開始階段，首先對考生進(jìn)行基于CBT的閱讀理解定長測驗(yàn)，然后再進(jìn)行其他部分客觀題目的CAT測試。這樣，所有的考生必須閱讀相同的閱讀材料并回答相同的題目，計(jì)算機(jī)根據(jù)每個(gè)題目的參數(shù)，估計(jì)考生的能力和信息函數(shù)值。閱讀理解測試結(jié)束后，再按照嚴(yán)格的CAT模式繼續(xù)完成其它部分的測驗(yàn)。這樣一方面可以充分發(fā)揮CAT的優(yōu)勢，同時(shí)又可以避免閱讀測試中的題目選擇問題。目前，“CBT+CAT”混合測量模式是國際語言測試的主流模式之一，其優(yōu)點(diǎn)是效率高、可行性強(qiáng)，但缺點(diǎn)是兩種測量模式的考試結(jié)果必須進(jìn)行復(fù)雜的分?jǐn)?shù)合成處理（Chalhoub-Deville，1999；Yang，2011）。

2.篇章難度系數(shù)控制模式

篇章難度系數(shù)控制模式的CAT考試?yán)碚摶A(chǔ)源自美國對英語閱讀材料的易讀度（readability）研究。1948年美國哈佛大學(xué)的語言學(xué)家和心理學(xué)家G. K.Zipf在對大樣本語料庫（corpus）進(jìn)行統(tǒng)計(jì)研究和變量分析的基礎(chǔ)上，提出了書面語言表達(dá)中的最省力原則，即：任何作者在用自然語言寫作時(shí)，都會潛意識地在不違反語言篇章組織原則的前提下，使用盡量簡單的詞匯和簡單的句法表達(dá)期望表達(dá)的意思，這也是后來被稱之為齊普夫定律（Zipfs law）的精髓。齊普夫定律中的詞頻和句子復(fù)雜度是英語閱讀材料易讀度研究的基礎(chǔ)。1995年，Stenner在齊普夫定律的基礎(chǔ)上提出了藍(lán)思文本難度計(jì)算公式（text difficulty in Lexile），并將其用于英語閱讀材料的難度估計(jì)（Rover，2001）。

Lexile difficulty=582-386*mean(ln(WF))+1768*ln(mean(SL))

該公式的基本含義是：文章的難度與文章中詞頻（WF）對數(shù)的平均值和平均句長（SL）（平均每個(gè)句子中的詞匯數(shù)量）密切相關(guān)。詞頻越低、平均句長越長，文章的難度越高，即藍(lán)思值越大，反之藍(lán)思值越小。為了保證CAT語言測試中的閱讀理解文章的選擇具有理想的適應(yīng)性，在建立題庫時(shí)，不僅要根據(jù)IRT模型對題目的參數(shù)進(jìn)行估計(jì)，而且還要對每篇文章的難度Lexile值和相應(yīng)的題目參數(shù)進(jìn)行計(jì)算和標(biāo)注，從而在CAT考試的選題中根據(jù)考生的不同閱讀水平，自動從題庫中選擇滿足相應(yīng)Lexile值的閱讀材料。篇章難度系數(shù)控制模式的CAT閱讀選題和測試過程包括兩個(gè)階段，分別是初測和正式施測階段（參見圖4）。

在初測階段，CAT系統(tǒng)以題庫中所有文章的平均難度值為基礎(chǔ)，隨機(jī)選擇一篇文章對所有的考生進(jìn)行施測，并根據(jù)考生對文章的整體反應(yīng)情況，以測驗(yàn)項(xiàng)目為單位即時(shí)估計(jì)考生的能力值。然后根據(jù)考生能力值的不同，再分別呈現(xiàn)較難或較容易的整篇文章而不是單個(gè)的測驗(yàn)項(xiàng)目讓考生繼續(xù)閱讀。

正式考試階段，可以根據(jù)實(shí)際需要設(shè)計(jì)不同的測量階段。在初測階段閱讀水平較低的考生將在第二階段閱讀若干篇難度較低的文章，而初測階段閱讀水平較高的考生則在第二階段閱讀若干篇難度較高的文章。在考生回答完每篇文章的所有題目后，CAT系統(tǒng)馬上估計(jì)每個(gè)考生的測驗(yàn)信息函數(shù)值，如果達(dá)到終止條件，考生的閱讀測試即告結(jié)束，反之，考生將繼續(xù)按上述步驟進(jìn)入下一個(gè)測量階段，直到滿足終止條件。在考生完成閱讀測驗(yàn)以后，CAT系統(tǒng)將分別估計(jì)考生在閱讀理解測驗(yàn)部分的能力值，為考生提供最終的測驗(yàn)總分和分測驗(yàn)考試分?jǐn)?shù)。

篇章難度系數(shù)控制模式的CAT閱讀理解考試，是一個(gè)在充分考慮閱讀材料難度基礎(chǔ)上的智能選題方案。這種測試方法，不是簡單地以測驗(yàn)項(xiàng)目的難度值為選題策略，而是充分考慮到文章本身的難度變量對文章和題目難度的影響因素，因而從理論上講更符合語言學(xué)的客觀事實(shí)。在具體的測量實(shí)踐中，我們還可以根據(jù)測量精度的要求，將題庫中所有的閱讀材料按照藍(lán)思值的大小進(jìn)行分層組織，從而構(gòu)造出更多的智能選題路徑（Fulcher，2005），使CAT閱讀理解測驗(yàn)的適應(yīng)性更強(qiáng)，測量的信度和效度更高。

四、結(jié)束語

計(jì)算機(jī)自適應(yīng)性語言測試，可以提供個(gè)性化測量模式并確保測量具有更高的信度與效度，因而CAT考試是未來語言測試和教育測量發(fā)展的必然趨勢。不過，由于分離式測驗(yàn)題目在考查學(xué)生的綜合語言能力方面存在諸多不足，盡管采用綜合性、整體性測驗(yàn)任務(wù)對考生語言能力進(jìn)行評價(jià)的社會需求日益迫切，然而僅靠傳統(tǒng)的CAT選題策略已經(jīng)無法滿足對閱讀理解測驗(yàn)的考試要求，因而這在相當(dāng)大的程度上限制了CAT考試模式的推廣和普及。所以，為了充分發(fā)揮信息技術(shù)在語言測試中的作用，我們必須在對測驗(yàn)內(nèi)容進(jìn)行深入分析的基礎(chǔ)上，采用科學(xué)的指標(biāo)體系和靈活的選題方法才能滿足對考生語言水平的自適應(yīng)性測量。當(dāng)代計(jì)算機(jī)科學(xué)和多媒體技術(shù)與項(xiàng)目反應(yīng)理論的有機(jī)結(jié)合為CAT測量方法的實(shí)現(xiàn)奠定了基礎(chǔ)，同時(shí)針對CAT考試中各種可行性問題的探索，特別是對閱讀和聽力測驗(yàn)中選題方式的探索，也對語言測試研究人員和計(jì)算機(jī)科學(xué)設(shè)計(jì)人員提出了更高的技術(shù)要求。在多級計(jì)分IRT模型和題組反應(yīng)理論（TRT）在計(jì)算機(jī)自適應(yīng)性考試的實(shí)踐中取得實(shí)質(zhì)性進(jìn)展以前，閱讀理解測驗(yàn)的智能選題策略問題仍將是計(jì)算機(jī)自適應(yīng)性語言測試普及中必須面對的嚴(yán)峻挑戰(zhàn)。

參考文獻(xiàn):

[1]谷思義，漆書青，賴民.中學(xué)英語水平計(jì)算機(jī)自適應(yīng)測試系統(tǒng)的研制報(bào)告[J].外語電化教學(xué)，1990（3）.

[2]巫華芳.計(jì)算機(jī)化自適應(yīng)測驗(yàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].科技廣場，2011（1）：111-113.

[3]熊春明，吳瑞.紙筆測驗(yàn)和計(jì)算機(jī)自適應(yīng)測驗(yàn)的比較研究[J].計(jì)算機(jī)與現(xiàn)代化，2006（9）：28-35.

[4]漆書青，戴海崎.項(xiàng)目反應(yīng)理論及其應(yīng)用研究[M].南昌：江西高校出版社，1992.

[5]謝小慶.網(wǎng)上模擬HSK考試系統(tǒng)和練習(xí)系統(tǒng)[DB/OL]. http://blog.sina.com.cn/s/blog_4cce637301008165.html.

[6]Chalhoub-Deville, M. Issues in Computer-adaptive Testing of Reading Proficiency [M].Cambridge: Cambridge University Press, 1999.

[7]Fulcher, G. Interface design in computer-based language testing[J].Language Testing,2005(4): 384-408.

[8]Rover, C. Web-based language testing Language[J].Learning & Technology,2001 (2): 84–94.

[9]Sawaki,Y.,Stricker,L.,& Oranje,A. Factor structure of the TOEFL Internet-based Test (iBT): Exploration in a field trial sample [R]. Educational Testing Service. TOEFL Research Report: 08-09. Revised November 2, 2008, from Http: //www.ets.org/Media Research/pdf/RR-08-09.pdf.

[10]Yang, M. Computer-Adaptive Testing of ESL Reading Proficiency[J].Read and Write Periodical,2011(3):10-11.

（編輯：魯利瑞）