肖 剛,王昌達(dá),張文莉
(江蘇大學(xué) 江蘇 鎮(zhèn)江 212013)
云計(jì)算技術(shù)的發(fā)展為網(wǎng)絡(luò)化考試帶來前所未有的機(jī)遇。HSK[1]是中國(guó)漢語(yǔ)水平考試的縮寫,是為測(cè)試母語(yǔ)為非漢語(yǔ)者的漢語(yǔ)水平而設(shè)立的國(guó)家級(jí)標(biāo)注化考試。HSK作為國(guó)家級(jí)水平考試面向國(guó)際社會(huì)開考達(dá)十多年了,其成績(jī)是外國(guó)留學(xué)生進(jìn)入中國(guó)高等院校學(xué)習(xí)專業(yè)的必要條件,并且已經(jīng)成為國(guó)內(nèi)外一些機(jī)構(gòu)人員選拔的一種依據(jù)。但在HSK考試中,主要還是采用傳統(tǒng)的考試形式,即統(tǒng)一的紙質(zhì)試卷。這種統(tǒng)一的試題內(nèi)容,并不適用于各個(gè)層次水平的學(xué)生,無法真正考查出學(xué)生對(duì)知識(shí)的掌握程度。盡管專家們命題過程中總是盡量保持考試難度的穩(wěn)定性,但不同試卷之間在難度、信度、分?jǐn)?shù)分布方面的差別很難完全避免。因此,對(duì)HSK的要求也越來越高,不僅要求實(shí)現(xiàn)“試卷”之間的等值,甚至要求實(shí)現(xiàn)“試題”之間的等值。
為克服傳統(tǒng)考試中的不足,本文提出了一種基于項(xiàng)目反應(yīng)理論的HSK分級(jí)自適應(yīng)考試系統(tǒng)。該系統(tǒng)將自適應(yīng)技術(shù)、計(jì)算機(jī)技術(shù)和教育技術(shù)相結(jié)合,按國(guó)家漢辦的規(guī)定,將水平等級(jí)劃分為6個(gè)等級(jí),1級(jí)最低,6級(jí)最高。同時(shí)對(duì)考生和測(cè)試基本項(xiàng)目的定義做了抽象與擴(kuò)充,以一套試卷作為一個(gè)基本的測(cè)試項(xiàng)目而不是一個(gè)題目。測(cè)試過程始終圍繞學(xué)生的能力進(jìn)行,測(cè)試時(shí)系統(tǒng)自動(dòng)地適應(yīng)參加考試學(xué)生的情況,根據(jù)學(xué)生的能力從題庫(kù)中自動(dòng)獲取相應(yīng)級(jí)別的試題組成試卷[2-5]。該系統(tǒng)已在奧地利孔子學(xué)院的教學(xué)中投入運(yùn)行,收到了良好的效果。2013年初,該軟件得到了漢考中心的高度評(píng)價(jià)與項(xiàng)目資金支持。
目前該考試系統(tǒng)可以通過云平臺(tái)在 http://42.121.136.212/index.php訪問。該系統(tǒng)的使用目的是為參加對(duì)外學(xué)漢語(yǔ)學(xué)習(xí)的學(xué)生提供一個(gè)參考的學(xué)習(xí)分班等級(jí),以及學(xué)習(xí)后的學(xué)生自我評(píng)估。該系統(tǒng)并非設(shè)計(jì)用于取代國(guó)家漢辦的HSK分級(jí)考試。
項(xiàng)目反應(yīng)理論是一種關(guān)于現(xiàn)代心理的測(cè)量理論。它的特點(diǎn)是以概率來解釋受測(cè)者對(duì)項(xiàng)目的反應(yīng)和其潛在能力特質(zhì)之間的關(guān)系。項(xiàng)目反應(yīng)理論的基本思想起源于上世紀(jì)三十年代末和四十年代初,1946年塔克(TuKer)正式提出“項(xiàng)目特征曲線”概念。所謂項(xiàng)目特征曲線就是表征受測(cè)者的能力與特質(zhì)水平與其對(duì)一個(gè)測(cè)驗(yàn)項(xiàng)目的正確反應(yīng)概率之間關(guān)系的二維曲線圖。不同的特征曲線假設(shè)對(duì)應(yīng)著不同項(xiàng)目反應(yīng)模型。
項(xiàng)目反應(yīng)理論的模型有二十余種,可根據(jù)實(shí)際情況選擇適當(dāng)?shù)哪P?。目前?yīng)用最廣的項(xiàng)目反應(yīng)理論模型是邏輯斯蒂模型[6]。
項(xiàng)目反應(yīng)理論是以受測(cè)者的回答問題的情況,經(jīng)項(xiàng)目特征函數(shù)的運(yùn)算,推測(cè)受測(cè)者的能力。根據(jù)參數(shù)的不同,特征函數(shù)可分為單參數(shù)、雙參數(shù)和三參數(shù)3種模式,公式如下:
其中,D是常數(shù),值等于1.702;
θ:受測(cè)者能力值,一般在實(shí)際應(yīng)用中,取值范圍多取[-3.00,3.00];
a:項(xiàng)目的區(qū)分度,即特征曲線的斜率,它的值越大說明項(xiàng)目對(duì)受測(cè)者的區(qū)分程度越高。a=(H-L)/N其中H表示高分組答對(duì)題的人數(shù);L表示低分組答對(duì)題的人數(shù);N表示高分組與低分組人數(shù)之和。
b:題目的難度,即特征曲線在橫坐標(biāo)上的投影。
b=R/N,其中R表示試題的答對(duì)人數(shù),N表示考生人數(shù)。
c:題目的猜測(cè)系數(shù),即特征曲線的截距。它的值越大,說明不論受測(cè)者能力高低,都容易猜對(duì)。
P(θ):表示能力為θ的受測(cè)者答對(duì)此項(xiàng)目的概率。
基于以下兩個(gè)原因,我們將選用二參數(shù)的邏輯斯蒂模型[7]。
三參數(shù)邏輯斯蒂模型中的參數(shù)C的心理測(cè)量學(xué)的含義含糊不清,而且數(shù)學(xué)上難以估計(jì)。
在能力參數(shù)估計(jì)時(shí),二參數(shù)邏輯斯蒂模型存在充分統(tǒng)計(jì)量γj,
其中γj是考生在一個(gè)測(cè)試上的題目加權(quán)總分,其權(quán)重是每個(gè)題目的區(qū)分度參數(shù)aj??梢宰C明能力的極大似然估計(jì)量就是根據(jù)γj估計(jì)的。但三參數(shù)邏輯斯蒂模型至今未能找到能力參數(shù)估計(jì)的充分統(tǒng)計(jì)量,使得能力參數(shù)的估計(jì)可靠性收到懷疑。
HSK自適應(yīng)分級(jí)考試系統(tǒng)中,共有6個(gè)級(jí)別,一級(jí)水平最低,六級(jí)水平最高。而在實(shí)際應(yīng)用中θ的取值一般取為[-3.00,3.00]。因此可以將θ的取值區(qū)間分為6個(gè)區(qū)間 :[-3.00,-2.00],[-2.00,-1.00],[-1.00,0],[0,1.00],[1.00,2.00],[2.00,3.00],分別對(duì)應(yīng)一到六級(jí)的能力區(qū)間。當(dāng)每一張?jiān)嚲碜鐾旰?,求出其相?yīng)的θ的極大似然估計(jì)值。并根據(jù)此極大似然估計(jì)值選出下一次考試的級(jí)別,然后隨即抽取若干題目組成一套試卷,再次進(jìn)行考試。測(cè)試項(xiàng)目的難度以及區(qū)分度分別為整套試卷題目的難度、區(qū)分度的平均值:
基于項(xiàng)目反應(yīng)理論的HSK自適應(yīng)分級(jí)考試系統(tǒng)基本流程如圖1所示。
圖1 系統(tǒng)流程圖Fig.1 Flow chartof the system
主要過程如下:
當(dāng)受測(cè)者進(jìn)行測(cè)試時(shí),受測(cè)者自選開始級(jí)數(shù),并在該級(jí)數(shù)的題庫(kù)中隨機(jī)抽取若干題組成一張?jiān)嚲恚M(jìn)行作答。作答完后估計(jì)能力值。并進(jìn)行終止條件判斷。若滿足終止條件,則測(cè)試結(jié)束,并給出該受測(cè)者最后的水平級(jí)別。若不滿足終止條件則由能力的極大似然值θ判斷下一個(gè)考試的級(jí)別,繼續(xù)測(cè)試。
教師首先將級(jí)別編號(hào),并將隸屬于某個(gè)級(jí)別的題庫(kù)和題目分類在該級(jí)別下。當(dāng)測(cè)試開始時(shí)抽取試題組成臨時(shí)題庫(kù),并將臨時(shí)題庫(kù)中試題編號(hào)、題庫(kù)及其題目設(shè)為關(guān)聯(lián)[8-9]。
圖2 系統(tǒng)數(shù)據(jù)結(jié)構(gòu)圖Fig.2 Structure diagram of the system
確定能力初值是指在受測(cè)者在進(jìn)行測(cè)試之前,對(duì)受測(cè)者的能力值進(jìn)行初始估計(jì),一般有以下幾種方法:
1)選擇中等難度的試題,即假定受測(cè)者的能力為中等,在題庫(kù)中隨機(jī)抽取難度為中等的題目,作為測(cè)試的開始點(diǎn)。
2)根據(jù)歷史記錄確定受測(cè)者的初始能力值,受測(cè)者可能參加過測(cè)試,可以根據(jù)以前的測(cè)試記錄決定此次的開始題目。
3)受測(cè)者自行選擇,由受測(cè)者對(duì)自己的能力水平做初步估計(jì),選擇測(cè)試起始項(xiàng)目。
本系統(tǒng)中采用受測(cè)者自行選擇,即受測(cè)者自行選擇測(cè)試的起始級(jí)別,然后系統(tǒng)在所選級(jí)別的題庫(kù)中隨機(jī)抽取若干題組成一張?jiān)嚲怼?/p>
對(duì)考生能力的估計(jì)是系統(tǒng)順利進(jìn)行的前提,本系統(tǒng)采用最大似然估計(jì)法[10]通過受測(cè)者的似然函數(shù)取來求測(cè)試者的能力參數(shù),假設(shè)一位受測(cè)者在一次有n份試卷的測(cè)試中,若以表示能力為θ的受測(cè)者對(duì)試卷i的反應(yīng)為ui(若及格,ui=1;若不及格ui=0)的概率?;诰植开?dú)立性的假設(shè),上述觀察到的反應(yīng)模式的聯(lián)合概率是每一張?jiān)嚲矸磻?yīng)概率的連乘級(jí),即:
其中:
n:試卷數(shù)
Puii:受測(cè)者第份試卷幾個(gè)的概率
Quii:受測(cè)者第份試卷及格的概率
公式 (4)稱為似然函數(shù),當(dāng)似然函數(shù)取最大值時(shí)的θ值,稱為θ的極大似然估計(jì)值,也就是說當(dāng)考生的能力值為極大似然估計(jì)值時(shí),考生對(duì)試題做出的反應(yīng)模式的可能性最大。
根據(jù)極大似然估計(jì)的思想,求出最有可能的P值,作為P的估計(jì)值,使L能取極大值。由高等數(shù)學(xué)方法求極值可知,L(u1,u2,……,un)與 ln L(u1,u2,……,un)同時(shí)達(dá)到極值點(diǎn),因此對(duì)數(shù)似然函數(shù)可簡(jiǎn)化為:
通過求式(6)便可獲得參數(shù)的極大似然估計(jì)值。對(duì)改式中的θ求一階導(dǎo)數(shù)并使其等于0,即:
由于式(7)是非線性方程,可用牛頓-拉夫遜(N-R)迭代法求解。
自適應(yīng)測(cè)試的一大優(yōu)點(diǎn)是可以用較少的試題施測(cè),達(dá)到較高的測(cè)量精度。測(cè)驗(yàn)是否終止是根據(jù)測(cè)驗(yàn)?zāi)繕?biāo)是否達(dá)到來決定的。主要有3種方式[11]。
1)固定測(cè)驗(yàn)長(zhǎng)度,即當(dāng)測(cè)驗(yàn)項(xiàng)目達(dá)到一定數(shù)量時(shí),測(cè)驗(yàn)自動(dòng)終止,此方法易于實(shí)現(xiàn),可以對(duì)每個(gè)測(cè)驗(yàn)項(xiàng)目的使用率作精確統(tǒng)計(jì),但這種算法實(shí)際上是不公平的,因?yàn)闇y(cè)驗(yàn)終止時(shí),可能只有一部分受測(cè)者的能力估計(jì)是完成的,而且要確定一個(gè)合適的長(zhǎng)度一般來說并不容易。
2)比較受測(cè)者能力參數(shù)最后兩次的估計(jì)值,當(dāng)這個(gè)值小于預(yù)先給定的數(shù)值時(shí),測(cè)試自動(dòng)終止。
3)當(dāng)能力參數(shù)估計(jì)的標(biāo)準(zhǔn)差小于某一預(yù)先確定的值時(shí),測(cè)驗(yàn)自動(dòng)終止。這種方法具有更高的效率,能克服固定測(cè)驗(yàn)長(zhǎng)度的缺點(diǎn),但當(dāng)估計(jì)標(biāo)準(zhǔn)差要求過嚴(yán)時(shí),測(cè)驗(yàn)可能過長(zhǎng)。
上述的終止方法都存在缺點(diǎn),因此在系統(tǒng)中采用(1)、(2)結(jié)合起來使用,當(dāng)測(cè)試滿足任何一個(gè)條件,測(cè)試即終止。并給出最后的水平級(jí)別。在系統(tǒng)中根據(jù)需要設(shè)定測(cè)試項(xiàng)目的最大長(zhǎng)度,從而避免了測(cè)試時(shí)間過長(zhǎng)與效率低下的問題。
以下是準(zhǔn)考證號(hào)為602346的考生的自適應(yīng)測(cè)試過程中的相關(guān)記錄信息,如表1所示。
表1 602346考生的信息記錄Tab.1 Information recording of 602346 candidates
1)測(cè)試開始時(shí),考生自選3級(jí)的題目開始測(cè)試,它具有較高的區(qū)分度值。該測(cè)試通過考核,但此時(shí)的極大似然估計(jì)法無法進(jìn)行能力估計(jì)。
2)其次抽取6級(jí)的試題試題進(jìn)行測(cè)試,難度值和區(qū)分度都比較大,該考核未通過,該考生在兩個(gè)試題的反應(yīng)組型為(1,0)利用這兩次抽題的已知項(xiàng)目參數(shù)和極大似然估計(jì)法,從而估計(jì)出該考生能力估計(jì)值為-0.21。
3)接著,根據(jù)第二次抽題的能力值從3級(jí)題庫(kù)里面抽取試題。該考生通過此次考核,再估計(jì)出考生的新能力值威0.35。然后根據(jù)新的能力值再去題庫(kù)抽題,以此類推。從表5.1可以看出該考生最后兩次測(cè)試的能力估計(jì)值滿足終止條件。因此得出該考生的HSK等級(jí)為4級(jí)。
綜上所述,本文設(shè)計(jì)的系統(tǒng)對(duì)考生的HSK等級(jí)估計(jì)準(zhǔn)確且測(cè)驗(yàn)效率高。
文中將項(xiàng)目反應(yīng)理論用于HSK自適應(yīng)分級(jí)考試中,提出了一種始終圍繞受測(cè)者能力的考試系統(tǒng)。文中給出了項(xiàng)目反應(yīng)理論的深入分析,對(duì)系統(tǒng)中能力初值的確定、能力估計(jì)、級(jí)別選擇、終止條件做了較深的研究與具體的解決方法,并給出了系統(tǒng)的流程描述。該系統(tǒng)依托于公共云平臺(tái),目前已經(jīng)在應(yīng)用于奧地利格拉茨大學(xué)孔子學(xué)院的日常教學(xué)中。
[1]張萍,吳秉會(huì).網(wǎng)絡(luò)輔助教學(xué):意義、問題與對(duì)策[J].黑龍江高教研究,2010(5):153-155.ZHANG Ping,WU Bing-hui.The network assisted teaching:significance,problems and countermeasures[J].Heilongjiang Researches on Higher Education,2010(5):153-155.
[2]幸濤.當(dāng)前考試?yán)碚撗芯康倪M(jìn)展[J].心理發(fā)展與教育,2005(z1):63-69.XIN Tao.The current progress of examination research[J].Psychological Development and Education,2005(z1):63-69.
[3]李衛(wèi)東,黃河笑,郭俊文.IRT在自適應(yīng)考試中的應(yīng)用[J].計(jì)算機(jī)工程,2001,27(7):179-181.LIWei-dong,HUANG He-xiao,GUO Jun-wen.Application of IRT in computerized adaptive test[J].Computer Engineering,2001,27(7):179-181.
[4 Choi,Hae-Gill,Jeong,Hwa-Young.Service based E-learning system model using IRT[J].Advanced Materials Research,201 2:2155-2158.
[5]楊承青,張晉軍.漢語(yǔ)水平考試(HSK)改革設(shè)想[J].語(yǔ)言文字應(yīng)用,2007(3):107-112.YANG Cheng-qing,ZHANG Jing-jun.Chinese Proficiency Test(HSK)reform[J].Applied Linguistics,2007(3):107-112.
[6]詹沐清,盧榮華.論項(xiàng)目反應(yīng)理論模型[J].科技信息,2009(15):28.78.ZHAN Mu-qing,LU Rong-hua.Item response theory Computer Adaptive[J].Science,2009.15:28.78.
[7]朱正才.大學(xué)英語(yǔ)四、六級(jí)考試分?jǐn)?shù)等值研究[J].心理學(xué)報(bào),2005,27(2):280-284.ZHU Zheng-cai.College English equivalent of six test scores[J].Acta Psychologica Sinica 2005,27(2):280-284.
[8]Chang,Wen-Chih,Sheng-Lin,Integrating IRT to clustering strudent’s ability with K-means[M].2009 4th International conference on Innovative Computing,Information and Control,ICICIC 2009.
[9]邵晨輝,陳玉泉,徐良賢.基于題目反應(yīng)理論的機(jī)助自適應(yīng)考試[J].計(jì)算機(jī)工程,2000,26(11):161-163.SHAO Chen-hui,CHEN Yu-quan,XU Nian-xian.Based on item response theory computer assisted adaptive test[J].Computer Engineering,2000,26(11):161-163.
[10]王飛.基于Agent的計(jì)算機(jī)自適應(yīng)考試系統(tǒng)的應(yīng)用 [J].南京工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2003,25(6):82-86.WANG Fei,Agent-based computer adaptive testing system application [J].Journal of Nanjing University of Technology:Natural Science Edition,2003,25(6):82-86.
[11]于海霞,劉競(jìng)杰,王家琪.基于項(xiàng)目反應(yīng)理論自適應(yīng)考試系統(tǒng)的設(shè)計(jì)與應(yīng)用[J].合肥學(xué)院學(xué)報(bào),2010,20(3):44-48.YU Hai-xia,LIU Jing-jie,WANG Jia-qi.Based on item response theory adaptive testing system design and application[J].Journal of HefeiUniversity,2010,20(3):44-48.