許 嘉,李秋云,劉 靜,呂 品,于 戈
1(廣西大學(xué) 計(jì)算機(jī)與電子信息學(xué)院,南寧530004)
2(廣西大學(xué) 廣西多媒體通信網(wǎng)絡(luò)技術(shù)重點(diǎn)實(shí)驗(yàn)室,南寧 530004)
3(廣西大學(xué) 廣西高校并行與分布式計(jì)算重點(diǎn)實(shí)驗(yàn)室,南寧 530004)
4(東北大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,沈陽 110819)
E-mail:lvpin@gxu.edu.cn
隨著大數(shù)據(jù)、云計(jì)算和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,以Coursera、edX、中國大學(xué)MOOC和學(xué)堂在線為代表的在線教育平臺的興起給平臺上的任課教師帶來了嚴(yán)峻的教學(xué)挑戰(zhàn).一個(gè)最突出的教學(xué)挑戰(zhàn)在于教師如何高效批改大規(guī)模選課學(xué)生在平臺上提交的作業(yè).鑒于做作業(yè)能夠幫助學(xué)生鞏固和內(nèi)化知識,是至關(guān)重要的教學(xué)活動,各大在線教育平臺都提供了客觀題(例如選擇題和判斷題)的自動批改功能,減輕了任課教師的教學(xué)負(fù)擔(dān).相對于客觀題,主觀題(例如簡答題和應(yīng)用題)更能考察學(xué)生的語言表達(dá)能力、知識運(yùn)用能力與創(chuàng)新思維能力,所以主觀題的考察對于很多在線課程而言是必不可少的[1].然而,由于沒有唯一標(biāo)準(zhǔn)答案,主觀題的批改很難由計(jì)算機(jī)自動完成[2],需要任課教師花費(fèi)大量精力逐份手工批改,導(dǎo)致他們無法將精力用于課程內(nèi)容及活動的改進(jìn)提高.可見,如何減輕任課教師的主觀題批改負(fù)擔(dān)是當(dāng)前教育研究領(lǐng)域亟待解決的重要問題.
為了有效降低任課教師的主觀題作業(yè)批改負(fù)擔(dān),國內(nèi)外各大在線平臺與科研機(jī)構(gòu)提出了不少主觀題評判的技術(shù),這些技術(shù)可分為兩類:基于自然語言處理的評判技術(shù)[3-5]和基于同行互評的評判技術(shù)[6-10].其中,基于自然語言處理的評判技術(shù)通過分析學(xué)生答案與教師給的參考答案之間的匹配程度來實(shí)現(xiàn)主觀題的自動判分.然而,基于自然語言處理的評判技術(shù)通常依賴于特定領(lǐng)域的知識,只適用于解決面向特定領(lǐng)域的主觀題評分問題,因此鮮有在線教育平臺提供基于自然語言處理的主觀題評判功能.基于同行互評的評判技術(shù)是當(dāng)下不少主流在線教育平臺(例如Coursera和中國大學(xué)MOOC)提供的主觀題評判功能.該類技術(shù)將主觀題批改任務(wù)的子集分派給每個(gè)學(xué)生,然后基于多名學(xué)生對某主觀題的評分來估計(jì)該題的真實(shí)分?jǐn)?shù).基于同行互評的主觀題評判技術(shù)對于教師與學(xué)生而言都有積極益處:一方面減輕了任課教師的主觀題作業(yè)批改負(fù)擔(dān);另一方面要求學(xué)生評判他人的主觀題作業(yè),不但能夠讓他們學(xué)習(xí)到不同的解題思路,還能提高他們的課程參與度[11,12].因此,基于同行互評的主觀題評判技術(shù)成為當(dāng)下解決大規(guī)模主觀題評判問題的主流技術(shù)和目前智能教育領(lǐng)域的研究熱點(diǎn),關(guān)注于提出提高同行互評質(zhì)量的方法[13].
本文考慮基于基數(shù)估計(jì)的同行互評場景,即每名同行評價(jià)者針對每道主觀題給出一個(gè)數(shù)值型的評價(jià)分?jǐn)?shù).基于同行互評的主觀題評判方法的研究難點(diǎn)在于如何利用多個(gè)同行給出的評價(jià)分?jǐn)?shù)估計(jì)被評價(jià)者的真實(shí)分?jǐn)?shù).大多數(shù)在線教育平臺只是簡單基于各個(gè)評價(jià)分?jǐn)?shù)的均值或中位數(shù)來估計(jì)被評價(jià)者的真實(shí)分?jǐn)?shù).然而,由于同行評價(jià)者的打分質(zhì)量受其可靠性、偏見等因素的影響[14],簡單用各個(gè)評價(jià)分?jǐn)?shù)的均值或中位數(shù)估計(jì)被評價(jià)者的真實(shí)分?jǐn)?shù)往往不夠準(zhǔn)確[15].近年來,研究人員將同行評價(jià)者的評分可靠性及評分偏見作為模型的隨機(jī)變量,構(gòu)建了估計(jì)被評價(jià)主觀題作業(yè)真實(shí)分?jǐn)?shù)的概率模型,能夠利用變量間的依賴關(guān)系提高估計(jì)的準(zhǔn)確性[6-9].然而,現(xiàn)有研究方法均假設(shè)同行評價(jià)者的可靠性只與其當(dāng)前作業(yè)的答題情況相關(guān),未同時(shí)考慮同行評價(jià)者對主觀題考察的知識點(diǎn)的掌握程度(由其歷史答題結(jié)果數(shù)據(jù)診斷得到)對其評分可靠性造成的影響,因而存在局限性.對284名同行評價(jià)者針對三道主觀題作業(yè)給出的2109條互評打分記錄進(jìn)行統(tǒng)計(jì)分析.具體而言,首先以這些同行評價(jià)者的歷史答題結(jié)果數(shù)據(jù)為輸入并利用流行的認(rèn)知診斷DINA模型[16]診斷得到他們對主觀題考察的知識點(diǎn)的掌握程度,并進(jìn)而量化每個(gè)同行評價(jià)者對每道主觀題的掌握程度值.之后,計(jì)算由每名同行評價(jià)者對每道主觀題的掌握程度值組成的序列與每名同行評價(jià)者對每道主觀題的評分誤差值序列之間的皮爾遜相關(guān)系數(shù).由于兩個(gè)序列的皮爾遜相關(guān)系數(shù)為-0.673,表明評價(jià)者的可靠性還受其對該主觀題掌握程度的影響:評價(jià)者的掌握程度越低,則平均評分誤差越大,可靠性越低;評價(jià)者的掌握程度越高,則平均評分誤差越小,可靠性越大.因此,在對同行評價(jià)者的可靠性進(jìn)行建模時(shí),應(yīng)該同時(shí)考慮評價(jià)者對待評價(jià)習(xí)題的掌握程度信息.
鑒于此,本文提出了一種基于認(rèn)知診斷的主觀題同行互評技術(shù),包括PG8和PG9兩個(gè)概率模型.該技術(shù)在現(xiàn)有概率模型的基礎(chǔ)上[9],同時(shí)基于同行評價(jià)者在本次作業(yè)中的答題表現(xiàn)(對應(yīng)于本次作業(yè)取得的真實(shí)分?jǐn)?shù))以及評價(jià)者的歷史答題表現(xiàn)(對應(yīng)于基于歷史答題記錄診斷得到的該評價(jià)者對本次作業(yè)題的掌握程度)對評價(jià)者的可靠性進(jìn)行建模,以期最終提高概率模型估計(jì)主觀題作業(yè)真實(shí)分?jǐn)?shù)的準(zhǔn)確性.PG8和PG9的區(qū)別在于:PG8假設(shè)評價(jià)者的評分可靠性服從伽馬分布;PG9則假設(shè)評價(jià)者的評分可靠性服從高斯分布.綜上,本文的主要貢獻(xiàn)包括:
1)提出了改進(jìn)現(xiàn)有同行評價(jià)概率模型的思路,即應(yīng)同時(shí)以認(rèn)知診斷得到的同行評價(jià)者對主觀題的掌握程度信息和評價(jià)者在該主觀題中取得的真實(shí)分?jǐn)?shù)信息作為評價(jià)者評分可靠性的建模依據(jù),以期進(jìn)一步提高概率模型對主觀題作業(yè)真實(shí)分?jǐn)?shù)的估計(jì)準(zhǔn)確性.
2)基于由284名學(xué)生參與的3次主觀題作業(yè)的互評活動收集真實(shí)互評數(shù)據(jù)集,并基于該數(shù)據(jù)集評估提出的互評技術(shù)和相關(guān)互評技術(shù)的有效性.實(shí)驗(yàn)結(jié)果表明本文提出的基于認(rèn)知診斷的主觀題互評技術(shù)在提高對主觀題作業(yè)真實(shí)分?jǐn)?shù)的估計(jì)準(zhǔn)確性方面比其它相關(guān)技術(shù)更具優(yōu)勢.
本文剩余部分的內(nèi)容組織如下.第2部分闡釋了相關(guān)研究工作.第3部分給出了預(yù)備知識.第4部分給出了基于認(rèn)知診斷的同行互評技術(shù),包含PG8和PG9兩個(gè)概率模型.第5部分為實(shí)驗(yàn).最后,第6部分總結(jié)了全文.
基于自然語言處理的主觀題評判技術(shù)從題目本身的特性出發(fā),利用自然語言處理、機(jī)器學(xué)習(xí)等技術(shù)實(shí)現(xiàn)主觀題的自動評判.例如,文獻(xiàn)[5]基于自然語言處理技術(shù)對開放式數(shù)學(xué)問題的每一個(gè)解答轉(zhuǎn)變?yōu)閿?shù)字特征,再通過聚類分析發(fā)現(xiàn)解答中正確、部分正確以及不正確的解答結(jié)構(gòu),從而實(shí)現(xiàn)了對該類問題的自動判分.文獻(xiàn)[3]針對英文論文寫作題給出了自動判分的解決方案,該方案利用潛在語義分析和學(xué)習(xí)向量量化算法來提升自動判分的準(zhǔn)確率.文獻(xiàn)[17]針對英語簡答題設(shè)計(jì)了自動判分方法,該方法利用同義詞詞典和衡量語義距離的兩種自然語言處理方法來解決標(biāo)準(zhǔn)文本相似度衡量方法對于同義詞的匹配不夠準(zhǔn)確的問題.文獻(xiàn)[4]則基于潛在語義分析的奇異值分解策略設(shè)計(jì)了日語短文的自動評分系統(tǒng).基于自然語言處理的主觀題評判技術(shù)為主觀題的自動評分提供解決思路,也取得了不錯(cuò)的評分效果.然而,該類技術(shù)通常依賴特定領(lǐng)域的知識來優(yōu)化自然語言的處理過程,從而保證自動判分的準(zhǔn)確性,因而只適用于解決特定領(lǐng)域的主觀題自動判分問題,很難在其它領(lǐng)域推廣使用.
基于同行互評的主觀題評判問題即讓每名評價(jià)者對分配給其的一部分主觀題作業(yè)進(jìn)行評判,最終基于各個(gè)評價(jià)者反饋的評判信息估計(jì)每份主觀題作業(yè)的質(zhì)量.由于評價(jià)者的態(tài)度和能力存在差異,與眾包問題類似,基于同行互評的主觀題評判問題需要解決的核心問題是對評價(jià)者反饋的評價(jià)信息進(jìn)行質(zhì)量控制.按照評價(jià)者反饋的評價(jià)信息形式的不同,基于同行互評的主觀題評價(jià)技術(shù)可分為序數(shù)(Ordinal)估計(jì)技術(shù)和基數(shù)(Cardinal)估計(jì)技術(shù)兩類.
序數(shù)估計(jì)技術(shù)要求每名評價(jià)者對分配給其的主觀題作業(yè)給出表征作業(yè)質(zhì)量高低的排名反饋,系統(tǒng)則基于所有評價(jià)者給出的作業(yè)間的偏序排名信息估計(jì)每份作業(yè)的質(zhì)量[18].序數(shù)估計(jì)技術(shù)通常利用基于配對比較的方法[19,20]、貝葉斯生成法[21]和矩陣分解方法[22]來估計(jì)主觀題作業(yè)的質(zhì)量.序數(shù)估計(jì)的方法不要求同行評價(jià)者給出主觀題作業(yè)的具體分?jǐn)?shù),降低了評價(jià)者的評判難度.然而,該類技術(shù)存在兩大問題[23]:首先,評價(jià)者由于評判經(jīng)驗(yàn)有限,很難對質(zhì)量相差不大的兩份主觀題作業(yè)給出它們的合理排序;其次,僅依賴作業(yè)間的偏序排名信息很難量化兩份作業(yè)之間的質(zhì)量差異.
與序數(shù)估計(jì)技術(shù)不同,基數(shù)估計(jì)技術(shù)要求每名評價(jià)者對分配給其的每份主觀題作業(yè)都給出一個(gè)量化分?jǐn)?shù),系統(tǒng)繼而基于不同評價(jià)者針對同一份作業(yè)給出的多個(gè)評價(jià)分?jǐn)?shù)估計(jì)作業(yè)的真實(shí)分?jǐn)?shù).主流的基數(shù)估計(jì)方式有兩種:加權(quán)求和的估計(jì)方式[23-26]和基于概率模型的估計(jì)方式[6-9].其中,加權(quán)求和的估計(jì)方式依據(jù)同行評價(jià)者的評分準(zhǔn)確性和信任度給他們賦以不同的權(quán)重,然后以同行評價(jià)者針對主觀題作業(yè)給出的評價(jià)分?jǐn)?shù)為輸入,通過加權(quán)求和的方法來估計(jì)該作業(yè)的真實(shí)分?jǐn)?shù).系統(tǒng)會根據(jù)同行評價(jià)者在新的互評活動中的評分表現(xiàn)來迭代更新其權(quán)重信息.另一類方式是通過構(gòu)建概率模型來估計(jì)主觀題作業(yè)的真實(shí)分?jǐn)?shù).本文提出的基于認(rèn)知診斷的主觀題互評技術(shù)就屬于這類方法.這類方法的主要實(shí)現(xiàn)思路是將待估計(jì)的主觀題作業(yè)的真實(shí)分?jǐn)?shù)、同行評價(jià)者的可靠性及偏見都建模為滿足一定概率分布的隱含變量,然后基于能觀察到的同行評價(jià)者的評分信息來推演以上各個(gè)隱含變量的值.具體而言,Piech等人[6]首先提出了估計(jì)主觀題作業(yè)真實(shí)分?jǐn)?shù)的3個(gè)概率模型,即PG1(考慮了評價(jià)者當(dāng)前的可靠性和偏見),PG2(在PG1的基礎(chǔ)上考慮了評價(jià)者的歷史偏見),PG3(在PG1的基礎(chǔ)上將評價(jià)者當(dāng)前可靠性設(shè)定為評價(jià)者當(dāng)前作業(yè)真實(shí)分?jǐn)?shù)的線性函數(shù)的隨機(jī)變量).考慮到PG3模型所設(shè)置的評價(jià)者的可靠性是關(guān)于評價(jià)者真實(shí)分?jǐn)?shù)的線性函數(shù)這一假設(shè)過于嚴(yán)格,Mi等人將評價(jià)者的可靠性建模為滿足形狀參數(shù)為其真實(shí)分?jǐn)?shù)的伽馬分布或均值為其真實(shí)分?jǐn)?shù)的高斯分布,分別得到了PG4模型和PG5模型[7].研究表明一名同行評價(jià)者的評分偏見會受到其朋友的評分偏見的影響[27,28],為了提高對評價(jià)者偏見建模的準(zhǔn)確性,Chan等人利用學(xué)堂在線平臺上收集到的學(xué)生間的社交關(guān)系信息優(yōu)化對評價(jià)者偏見的建模,擴(kuò)展了PG1、PG4、PG5這3個(gè)概率模型[8].然而上述概率模型均認(rèn)為評價(jià)者針對不同主觀題作業(yè)給出的評價(jià)分?jǐn)?shù)之間是相互獨(dú)立的,存在局限性.因此,Wang等人在概率建模時(shí)引入了評價(jià)者的相對分?jǐn)?shù)信息(即同一個(gè)評價(jià)者對不同作業(yè)評分之間的差值),提出了PG6模型(構(gòu)建在PG4之上),PG7模型(構(gòu)建在PG5之上)[9].這兩個(gè)概率模型由于引入了評價(jià)者的相對分?jǐn)?shù)信息,降低了數(shù)據(jù)稀疏性給參數(shù)估計(jì)帶來的負(fù)面影響,從而有效提高了對主觀題真實(shí)分?jǐn)?shù)估計(jì)的準(zhǔn)確性.然而,PG6模型與PG7模型僅基于同行評價(jià)者針對當(dāng)前主觀題作業(yè)取得的真實(shí)分?jǐn)?shù)對其可靠性進(jìn)行建模.PG6模型與PG7模型是當(dāng)前最好的同行互評概率模型,實(shí)驗(yàn)部分將針對這兩種相關(guān)模型進(jìn)行比較分析.
綜上,基于概率模型的基數(shù)估計(jì)方法是目前實(shí)現(xiàn)主觀題評判的主流方法,近年來研究人員們提出了不少相關(guān)工作.然而,現(xiàn)有研究工作在概率建模時(shí)均未同時(shí)考慮影響同行評價(jià)者評分可靠性的兩大因素,即其在本次作業(yè)中的答題表現(xiàn)(對應(yīng)于本次作業(yè)取得的真實(shí)分?jǐn)?shù))以及其的歷史答題表現(xiàn)(對應(yīng)于基于歷史答題記錄診斷得到的該評價(jià)者對本次作業(yè)題的掌握程度),因而限制了它們對于主觀題真實(shí)分?jǐn)?shù)的估計(jì)準(zhǔn)確性.
認(rèn)知診斷以認(rèn)知心理學(xué)和心理計(jì)量學(xué)為理論基礎(chǔ),通過構(gòu)建具有認(rèn)知診斷功能的心理計(jì)量模型,能夠基于被試的歷史答題結(jié)果數(shù)據(jù)診斷其對不同技能(知識點(diǎn))的掌握程度,從而為教學(xué)提供重要依據(jù),是當(dāng)下教育評估領(lǐng)域的研究熱點(diǎn)[29-31].作為最流行的認(rèn)知診斷模型之一,DINA模型[16]在實(shí)現(xiàn)對被試知識點(diǎn)掌握程度的精準(zhǔn)建模的同時(shí)具有較好的解釋性,近年來受到廣泛的關(guān)注和研究[32,33].以同行評價(jià)者的歷史答題結(jié)果數(shù)據(jù)為診斷基礎(chǔ),本文正是基于DINA認(rèn)知診斷模型來量化評價(jià)者對主觀題作業(yè)的掌握程度.
給定被試集合C={c1,…,cM},習(xí)題集合E={e1,…,eN},則記錄被試和其答題結(jié)果之間關(guān)聯(lián)關(guān)系的響應(yīng)矩陣R可表示為R=[rmn]M×N,其中rmn=1表示被試cm答對了習(xí)題en(rmn=0則表示答錯(cuò)了該題).設(shè)習(xí)題集合E考察的知識點(diǎn)集合為KP={kp1,…,kpK},則記錄習(xí)題與其考察的知識點(diǎn)之間關(guān)聯(lián)關(guān)系的Q矩陣可表示為Q=[qnk]N×K,其中qnk=1表示習(xí)題en考察了知識點(diǎn)KPk(qnk=0則表示未考察該知識點(diǎn)).DINA模型將被試cm的知識狀態(tài)描述為一個(gè)向量αm={αm1,…,αmK},稱為被試cm的知識點(diǎn)掌握程度向量.其中,αmk表示被試cm對知識點(diǎn)kpk的掌握程度,且αmk∈[0,1].αmk=1說明被試cm完全掌握了第k個(gè)知識點(diǎn);αmk=0則說明被試cm完全沒有掌握第k個(gè)知識點(diǎn).DINA認(rèn)知診斷模型的項(xiàng)目反應(yīng)函數(shù)為:
p(rmn=1|αm)=guess1-δmnn(1-slipn)δmn
(1)
其中:
δmn=∏Kk=1αmkqnk
(2)
公式(2)中,δmn表示知識狀態(tài)為αm的被試cm對習(xí)題en的潛在正確作答概率,即可被定義為被試cm對習(xí)題en的掌握程度值;slipn=P(rmn=0 |δmn=1)表示被試掌握習(xí)題en考察的所有知識點(diǎn)但是答錯(cuò)該題的概率,被稱為失誤參數(shù);guessn=P(rmn=1|δmn=0)指被試沒有掌握習(xí)題en考察的任何一個(gè)知識點(diǎn)時(shí)但答對該題的概率,被稱為猜測參數(shù).DINA模型利用EM算法最大化公式(1)的邊緣似然值,從而得到被試cm的知識點(diǎn)掌握程度向量αm.
本文假設(shè)參與主觀題互評活動的同行評價(jià)者在進(jìn)行主觀題作業(yè)評判之前完成了該主觀題考察的知識點(diǎn)所對應(yīng)的客觀題的習(xí)題練習(xí),因而作業(yè)互評測試系統(tǒng)能夠收集到他們對于這些知識點(diǎn)對應(yīng)的客觀習(xí)題的答題結(jié)果數(shù)據(jù).以某同行評價(jià)者的歷史答題結(jié)果數(shù)據(jù)和表征習(xí)題和主觀題作業(yè)知識點(diǎn)間考察關(guān)系的Q矩陣為輸入,利用DINA認(rèn)知診斷模型即可求得該同行評價(jià)者的知識點(diǎn)掌握程度向量α.然后基于α和主觀題作業(yè)所考察的知識點(diǎn)信息即可以利用公式(2)求得該評價(jià)者對于該主觀題的掌握程度值.
本節(jié)介紹了基于認(rèn)知診斷的主觀題同行互評技術(shù),具體涉及概率模型PG8與PG9.用U表示提交主觀題作業(yè)的被評價(jià)者集合,V表示參與互評的同行評價(jià)者集合.考慮到實(shí)際教學(xué)實(shí)踐中一般要求提交主觀題作業(yè)的被評價(jià)者都參與該作業(yè)的互評活動,因而有|U|=|V|.下面給出模型所涉及的重要概念的定義并說明它們在模型中的設(shè)定.
真實(shí)分?jǐn)?shù):假設(shè)每份被評價(jià)者提交的主觀題作業(yè)對應(yīng)一個(gè)真實(shí)分?jǐn)?shù),且用si表示被評價(jià)者ui∈U所提交作業(yè)的真實(shí)分?jǐn)?shù).兩個(gè)概率模型中均假設(shè)變量si的取值滿足高斯分布.
可靠性:可靠性(記為τv)表示同行評價(jià)者v∈V對主觀題作業(yè)的評分精度.評價(jià)者v的可靠性實(shí)際反映了v給出的主觀題作業(yè)的評價(jià)分?jǐn)?shù)基于其偏見bv修正后的分?jǐn)?shù)與主觀題作業(yè)真實(shí)分?jǐn)?shù)之間的接近程度.給定某主觀題作業(yè),本文首先假設(shè)評價(jià)者v對于該作業(yè)的評分可靠性τv滿足形狀參數(shù)為θ1δv+θ2sv的伽馬分布,得到PG8模型;其次假設(shè)τv滿足均值為θ1δv+θ2sv的高斯分布,得到PG9模型.其中,δv表示基于DINA認(rèn)知診斷模型得到的評價(jià)者v對該作業(yè)的掌握程度.可見,PG8和PG9在對評價(jià)者可靠性建模時(shí)同時(shí)考慮了評價(jià)者的對當(dāng)前作業(yè)答題表現(xiàn)(對應(yīng)θ2sv部分)和評價(jià)者的歷史答題表現(xiàn)(對應(yīng)θ1τv部分).
偏見:偏見(記為bv)是量化同行評價(jià)者v∈V評分時(shí)表現(xiàn)出其評分高于真實(shí)分?jǐn)?shù)或其評分低于真實(shí)分?jǐn)?shù)的常量.考慮到互評活動中不同的同行評價(jià)者的偏見不同(有些給分偏高,有些則給分偏低),因此兩個(gè)概率模型均認(rèn)為所有評價(jià)者的偏見值的均值為0,即假設(shè)同行評價(jià)者v的偏見bv服從均值為0且方差為1/η0的高斯分布.
互評分?jǐn)?shù):互評分?jǐn)?shù)(記為zvi)表示同行評價(jià)者v∈V針對被評價(jià)者ui提交的主觀題作業(yè)給出的評價(jià)分?jǐn)?shù).設(shè)所有評價(jià)者的互評分?jǐn)?shù)集合為Z={zvi|ui∈U,v∈V}.兩個(gè)概率模型均假設(shè)變量zvi服從以高斯分布,且高斯分布的均值等于作業(yè)的真實(shí)分?jǐn)?shù)si與評價(jià)者v的評分偏見bv之和,方差反比于評價(jià)者v的可靠性τv.在PG9模型中引入了超參數(shù)λ用于調(diào)節(jié)高斯分布的方差取值.
相對分?jǐn)?shù):相對分?jǐn)?shù)(記為dvij)表示同行評價(jià)者v∈V對被評價(jià)者ui∈U和uj∈U的主觀題作業(yè)給出的互評分?jǐn)?shù)間的差值.記面向所有評價(jià)者的相對分?jǐn)?shù)集合為D={dvij|ui,uj∈U,v∈V}.相對分?jǐn)?shù)的引入有利于提高對主觀題作業(yè)真實(shí)分?jǐn)?shù)估計(jì)的精度.PG8模型中,相對分?jǐn)?shù)dvij被設(shè)定為滿足均值為兩份被v評價(jià)的主觀題作業(yè)的真實(shí)分?jǐn)?shù)之差(即si-sj)、且方差為2/τv的高斯分布.在PG9模型中同樣引入了超參數(shù)λ用于調(diào)節(jié)高斯分布的方差取值.
基于以上符號表征,本文的研究問題為:已知所有同行評價(jià)者的互評分?jǐn)?shù)集合Z,面向所有評價(jià)者的相對分?jǐn)?shù)集合D,所有評價(jià)者的知識點(diǎn)掌握程度向量α構(gòu)成的矩陣M|V|×|KP|,通過構(gòu)建概率模型PG8和PG9推斷出每個(gè)同行評價(jià)者(即?v∈V)的可靠性τv、偏見bv以及每個(gè)被評價(jià)者(即?ui∈U)提交的主觀題作業(yè)的真實(shí)分?jǐn)?shù)si,可以形式化表示為P({bv|v∈V},{τv|v∈V},{si|ui∈U}Z,D,M).表1總結(jié)了模型涉及的主要符號和相關(guān)解釋.
表1 主要符號及其含義Table 1 Main notations and their descriptions
圖1展示了PG8和PG9的概率圖模型.可見,同行評價(jià)者v針對被評價(jià)者ui的主觀題作業(yè)給出的互評分?jǐn)?shù)zvi、v針對被評價(jià)者ui和被評價(jià)者uj給出的評價(jià)分?jǐn)?shù)之間的相對分?jǐn)?shù)dvij、v的潛在正確作答概率δv是概率圖模型中的觀測變量.而ui的主觀題作業(yè)的真實(shí)分?jǐn)?shù)si、v的偏見bv、v的可靠性τv則是概率模型估計(jì)的隱含變量,且這些隱含變量的先驗(yàn)分布由超參數(shù)μ0、γ0、θ1、θ2、η0和β0所確定.由圖可知,這些隱含變量彼此間是相聯(lián)系的.因而,為了估計(jì)這些隱含變量的值,基于每個(gè)隱含變量的近似后驗(yàn)分布信息,并利用Gibbs采樣技術(shù)[34]對每個(gè)隱含變量的取值進(jìn)行采樣.具體而言,Gibbs采樣技術(shù):首先基于每個(gè)隱含變量的近似后驗(yàn)分布信息運(yùn)行若干次Gibbs采樣以生成該變量的若干個(gè)樣本,得到該變量的樣本集;其后,當(dāng)隱含變量樣本的分布逐漸趨于收斂和穩(wěn)定時(shí),基于隱含變量的樣本集推斷變量的真實(shí)值.例如,假定基于Gibbs采樣技術(shù)所得到的被評價(jià)者ui的主觀題作業(yè)真實(shí)分?jǐn)?shù)si的樣本集為{s1i,s2i,…,sIGi}且IG為采樣的次數(shù),則可基于樣本集中樣本的平均值來估計(jì)si.考慮到Gibbs采樣過程存在老化階段(Burn-in階段),這時(shí)得到的隱含變量的樣本不準(zhǔn)確,因而基于Gibbs采樣技術(shù)生成隱含變量的樣本集時(shí)需要丟棄在老化階段生成的樣本(一般為樣本集中的前n個(gè)樣本).
圖1 PG8和PG9的概率圖模型Fig.1 Probabilistic graphical model for PG8 and PG9
PG8模型擴(kuò)展了現(xiàn)有的PG6模型[9],其的生成過程為:
·對于第i個(gè)被評價(jià)者ui提交的每份主觀題作業(yè)
→定義隱含變量si(即ui的真實(shí)分?jǐn)?shù))si~N(μ0,1/γ0)
·對于每個(gè)同行評價(jià)者v
→定義隱含變量τv(即v的可靠性)τv~Γ(θ1δv+θ2sv,1/η0)
→定義隱含變量bv(即v的偏見)bv~N(0,1/η0)
·對于每個(gè)互評分?jǐn)?shù)zvi
→定義可觀測變量zvi~N(si+bv,1/τv)
·對于每個(gè)相對分?jǐn)?shù)dvij
→定義可觀測變量dvij~N(si-sj,2/τv)
由于概率模型PG8中的隱含變量si沒有閉式解(close-form solution),因而采用近似離散推斷的策略得到該隱含變量的近似后驗(yàn)分布.概率模型PG8中隱含變量的近似后驗(yàn)分布的推斷結(jié)果如下:
s∝β0θ2siτi(θ2si-1)Γ(θ1δi+θ2si)×exp(R(si-YR)2)
其中R=γ0+∑v∈Vuiτv+∑v∈Vui∑uj∈Uvτv2
(3)
Y=μ0γ0+τv(∑v∈Vui(zvi-bv)+∑v∈Vui∑uj∈Uv(dvij+sj)2)
τ~Γ(θ1δv+θ2sv+|Uv|22,β0+
∑vi∈Uv(zvi-si-bv)2+∑ui,uj∈Uv12(dvij-si+sj)2)
(4)
b~N∑ui∈Uvτv(zvi-si)η0+|Uv|τv,1η0+|Uv|τv
(5)
PG8模型與PG9模型的區(qū)別在于PG8模型假同行設(shè)評價(jià)者的可靠性滿足伽馬分布而PG9模型則假設(shè)同行設(shè)評價(jià)者的可靠性滿足高斯分布.PG9模型擴(kuò)展了現(xiàn)有的PG7模型[9],其的生成過程為:
· 對于第i個(gè)被評價(jià)者ui提交的每份主觀題作業(yè)
→定義隱含變量si(即ui的真實(shí)分?jǐn)?shù))si~N(μ0,1/γ0)
· 對于每個(gè)同行評價(jià)者v
→定義隱含變量τv(即v的可靠性)τv~N(θ1δv+θ2sv,1/η0)
→定義隱含變量bv(即v的偏見)bv~N(0,1/η0)
· 對于每個(gè)互評分?jǐn)?shù)zvi
→定義可觀測變量zvi~N(si+bv,λ/τv)
· 對于每個(gè)相對分?jǐn)?shù)dvij
→定義可觀測變量dvij~N(si-sj,2λ/τv)
由于PG9模型中的隱含變量si和τv沒有閉式解,因而采用近似離散推斷的策略得到該隱含變量的近似后驗(yàn)分布.概率模型PG9中隱含變量的近似后驗(yàn)分布的推斷結(jié)果如下:
s∝β0θ2siτi(θ2si-1)Γ(θ1δi+θ2si)×exp(R(si-YR)2)
其中R=γ0+∑v∈Vuiτvλ+∑v∈Vuiτv*(|Uv|-1)2λ
(6)
Y=γ0μ0+τvλ∑v∈Vui(zvi-bv)+∑v∈Vui∑uj∈Uv(dvij+sj)2
τ∝τv|Uv|22×exp-β02τv-θ1δv+θ2sv+
∑ui∈Uv(zvi-si-bv)2λβ0+∑ui,uj∈Uv(dvij-si+sj)22λβ02
(7)
b~N∑ui∈Uvτvλ(zvi-si)η0+|Uv|τvλ,1η0+|Uv|τvλ
(8)
利用PG8模型和PG9模型即可估計(jì)一份主觀題作業(yè)的真實(shí)分?jǐn)?shù),具體分為以下4個(gè)步驟:
步驟1.認(rèn)知診斷.以所有同行評價(jià)者的歷史答題記錄為輸入,利用DINA 模型診斷得到記錄了他們對所有知識點(diǎn)的掌握程度信息的矩陣M.
步驟2.推理.由于概率模型中的各個(gè)變量是相互聯(lián)系的,因而基于模型中觀測變量的觀測值(包括同行評價(jià)者v的潛在正確作答概率(v、互評分?jǐn)?shù)zvi和相對分?jǐn)?shù)dvij)推斷模型中隱含變量(包括同行評價(jià)者的偏見bv、可靠性τv和被評價(jià)者ui的主觀題作業(yè)的真實(shí)分?jǐn)?shù)si)的后驗(yàn)概率分布是一個(gè)循環(huán)推理的過程,最終推理得到PG8模型中各個(gè)隱含變量的近似后驗(yàn)分布(循環(huán)推理得到的近似后驗(yàn)概率分布如公式(3)-公式(5)所示)以及PG9模型中各個(gè)隱含變量的近似后驗(yàn)分布(循環(huán)推理得到的近似后驗(yàn)概率分布如公式(6)-公式(8)所示).
步驟3.采樣.以互評分?jǐn)?shù)集合、相對分?jǐn)?shù)集合和步驟一得到的知識點(diǎn)的掌握程度矩陣M為輸入,以Gibbs采樣技術(shù)為采樣框架并利用步驟2得到的各個(gè)隱含變量的近似后驗(yàn)分布得到概率模型中每個(gè)隱含變量的多個(gè)樣本值.
步驟4.整合.對步驟3得到的概率模型中的每個(gè)隱含變量的多個(gè)樣本值進(jìn)行整合,進(jìn)而得到每個(gè)隱含變量(包括主觀題作業(yè)的真實(shí)分?jǐn)?shù))的估計(jì)值.
基于真實(shí)采集的主觀題同行互評數(shù)據(jù)集,本節(jié)對本文提出的基于認(rèn)知診斷的主觀題同行互評技術(shù)PG8、PG9和相關(guān)的主觀題同行互評技術(shù)進(jìn)行了實(shí)驗(yàn)比較.
為了驗(yàn)證本文提出的基于認(rèn)知診斷的同行互評技術(shù)對于主觀題評判的有效性,基于自主研發(fā)的“會了嗎”在線教學(xué)服務(wù)系統(tǒng)[37]收集計(jì)算機(jī)專業(yè)核心主干課“數(shù)據(jù)庫原理”中“關(guān)系數(shù)據(jù)庫規(guī)范化理論”這一節(jié)的真實(shí)教學(xué)數(shù)據(jù),得到涉及關(guān)系數(shù)據(jù)庫規(guī)范化理論相關(guān)知識點(diǎn)的主觀題同行互評數(shù)據(jù)集以及客觀題測試結(jié)果數(shù)據(jù)集.
5.1.1 主觀題同行互評數(shù)據(jù)集
在“會了嗎”在線教學(xué)服務(wù)系統(tǒng)中實(shí)現(xiàn)了主觀題作業(yè)的互評功能.通過給“數(shù)據(jù)庫原理”課程的5個(gè)本科平行教學(xué)班的284名學(xué)生布置考察了關(guān)系數(shù)據(jù)庫規(guī)范化理論的3次主觀題作業(yè)并組織他們進(jìn)行同行互評從而得到主觀題同行互評數(shù)據(jù)集.每次主觀題作業(yè)僅包含一道主觀題,且布置的3次主觀題作業(yè)涉及考察關(guān)系數(shù)據(jù)庫規(guī)范化理論的11個(gè)知識點(diǎn),這些知識點(diǎn)和它們的編號分別為:1)一范式;2)二范式;3)三范式;4)BC范式;5)主屬性;6)傳遞函數(shù)依賴;7)決定因素;8)函數(shù)依賴;9)碼;10)部分函數(shù)依賴;11)非主屬性.這些知識點(diǎn)是數(shù)據(jù)庫原理這門課的教學(xué)難點(diǎn),而主觀題形式的作業(yè)比客觀題形式的作業(yè)能更好地幫助學(xué)生鞏固對這些知識點(diǎn)的學(xué)習(xí).圖2給出了記錄了3次主觀題作業(yè)所考察知識點(diǎn)信息的Q矩陣.
圖2 主觀題作業(yè)的Q矩陣Fig.2 Q matrix of subjective questions
在主觀題作業(yè)的互評教學(xué)活動中,每名學(xué)生既是提交主觀題作業(yè)的提交者(即被評價(jià)者)又是評判同行提交的主觀題作業(yè)的評價(jià)者.每個(gè)評價(jià)者都會收到系統(tǒng)隨機(jī)給其派發(fā)的3份主觀題作業(yè),并要求其遵循教師制定的評分指導(dǎo)規(guī)則完成對這3份主觀題作業(yè)的判分.需要說明的是,為了保證互評的質(zhì)量,互評活動采用雙盲的方式進(jìn)行.為了評估不同主觀題互評技術(shù)對于主觀題作業(yè)真實(shí)估計(jì)的準(zhǔn)確性,邀請擁有6年以上“數(shù)據(jù)庫原理”課程教學(xué)經(jīng)驗(yàn)的教師對每份學(xué)生提交的主觀題作業(yè)進(jìn)行評價(jià)打分,并以教師的評分作為該主觀題作業(yè)的真實(shí)分?jǐn)?shù).表2給出了從3次主觀題作業(yè)的互評教學(xué)活動收集到的主觀題同行互評數(shù)據(jù)集的相關(guān)統(tǒng)計(jì)信息.
表2 主觀題同行互評數(shù)據(jù)集的統(tǒng)計(jì)信息Table 2 Statistics of our subjective question dataset for peer grading
5.1.2 歷史客觀題測試結(jié)果數(shù)據(jù)集
為了能夠基于DINA模型診斷學(xué)生對主觀題的掌握程度,要求學(xué)生們在“會了嗎”在線教學(xué)服務(wù)系統(tǒng)上完成包含40道客觀題的在線測試.這些客觀題覆蓋了3次主觀題作業(yè)考察的關(guān)系數(shù)據(jù)庫規(guī)范化理論的11個(gè)知識點(diǎn).基于在線測試活動得到的每名學(xué)生的客觀題測試結(jié)果數(shù)據(jù)和記錄了每道客觀題考察的知識點(diǎn)信息的Q矩陣(如圖3所示),從而可基于DINA模型診斷每名學(xué)生對11個(gè)知識點(diǎn)的掌握程度,進(jìn)而可計(jì)算每名學(xué)生對每道客觀題作業(yè)的掌握程度.
圖3 每道客觀題考察的知識點(diǎn)信息的Q矩陣Fig.3 Q matrix of objective questions
為了評估本文提出的PG8模型與PG9模型的有效性,將它們與其它主觀題同行互評技術(shù)進(jìn)行比較,具體包括:
·中位數(shù):即用一份主觀題作業(yè)所獲得的所有評價(jià)分?jǐn)?shù)的中位數(shù)估計(jì)該作業(yè)的真實(shí)分?jǐn)?shù),這也是當(dāng)今大多數(shù)提供主觀題互評功能的MOOC平臺(例如Coursera和中國大學(xué)MOOC)采用的估計(jì)主觀題作業(yè)真實(shí)分?jǐn)?shù)的方法.
·均值:即用一份主觀題作業(yè)所獲得的所有評價(jià)分?jǐn)?shù)的均值估計(jì)該作業(yè)的真實(shí)分?jǐn)?shù).
·PG6和PG7[9]:PG6和PG7均是解決主觀題同行互評問題的現(xiàn)有最先進(jìn)概率模型.本文提出的PG8與PG9模型分別是在PG6和PG7模型的基礎(chǔ)上對評價(jià)者可靠性進(jìn)行了建模優(yōu)化.具體而言,PG6和PG7模型在評價(jià)者可靠性時(shí)僅考慮了其在當(dāng)前主觀題作業(yè)中的答題表現(xiàn),而PG8與PG9模型在對評價(jià)者的可靠性進(jìn)行建模時(shí)不但考慮了其在當(dāng)前作業(yè)中的答題表現(xiàn)還考慮了基于其歷史答題表現(xiàn)診斷得到的評價(jià)者對待評價(jià)作業(yè)的掌握程度信息,以期提高概率模型對主觀題作業(yè)真實(shí)分?jǐn)?shù)估計(jì)的精確性.需要說明的是:1)PG8與PG6相對應(yīng),均假設(shè)同行評價(jià)者互評可靠性取值的先驗(yàn)分布為伽馬分布;2)PG9與PG7相對應(yīng),均假設(shè)同行評價(jià)者互評可靠性取值的先驗(yàn)分布為高斯分布.
本文提出的主觀題同行互評技術(shù)和相關(guān)主觀題同行互評技術(shù)PG6和PG7均是利用概率模型對同行評價(jià)者的互評可靠性和互評偏見進(jìn)行建模,因而都使用了一些超參數(shù).為這些超參數(shù)設(shè)置合理的值對準(zhǔn)確估計(jì)主觀題作業(yè)的真實(shí)分?jǐn)?shù)非常重要.對于概率模型中的真實(shí)分?jǐn)?shù)變量si服從的高斯分布的超參數(shù),即均值μ0和方差1/γ0,分別設(shè)置為所有主觀題作業(yè)互評分?jǐn)?shù)的均值和方差.根據(jù)文獻(xiàn)[7,9]的參數(shù)設(shè)置,本文的具體調(diào)整策略為:對于PG8和PG6,在其它參數(shù)取值固定的前提下,以50為步長嘗試超參數(shù)β0在[150,400]范圍中的不同取值,然后以該技術(shù)所得到的對真實(shí)分?jǐn)?shù)最準(zhǔn)確的估計(jì)值為該技術(shù)的最終估計(jì)值;對于PG9和PG7,在其它參數(shù)取值固定的前提下,以0.2為步長嘗試超參數(shù)λ在[0.6,1.6]范圍中不同取值,然后以該技術(shù)所得到的對真實(shí)分?jǐn)?shù)最準(zhǔn)確的估計(jì)值為該技術(shù)的最終估計(jì)值.由于基于概率模型的同行互評技術(shù)在估計(jì)主觀題作業(yè)真實(shí)分?jǐn)?shù)時(shí)具有一定的隨機(jī)性,因此對于超參數(shù)集合的每種設(shè)定,每種技術(shù)都執(zhí)行10次真實(shí)分?jǐn)?shù)的推斷算法.對于基于概率模型的同行互評技術(shù)中每個(gè)需要估計(jì)的隱含變量,推斷算法均迭代運(yùn)行600次Gibbs采樣獲取隱含變量的樣本值,并設(shè)定前60次采樣得到的樣本為老化階段的樣本,這些老化階段的樣本將不參與對真實(shí)分?jǐn)?shù)的估計(jì)運(yùn)算.
所有參與比較的主觀題同行互評技術(shù)均基于Python(v3.7)語言實(shí)現(xiàn),并在配備了i5-8500 3GHZ CPU、8GB內(nèi)存、1TB硬盤,運(yùn)行了64位Windows 10操作系統(tǒng)的服務(wù)器上進(jìn)行統(tǒng)一實(shí)驗(yàn)測試.
5.4.1 同行互評技術(shù)的估計(jì)準(zhǔn)確性
采用不同技術(shù)給出的對主觀題真實(shí)分?jǐn)?shù)的估計(jì)值和主觀題作業(yè)真實(shí)分?jǐn)?shù)之間的均方根誤差(即RMSE)作為不同同行互評技術(shù)有效性的評估指標(biāo).RMSE被廣泛應(yīng)用于評估同行互評技術(shù)有效性[6,8].表3展示了不同主觀題同行互評技術(shù)估計(jì)主觀題作業(yè)真實(shí)分?jǐn)?shù)的準(zhǔn)確性.需要說明的是,表中的RMSE表示互評技術(shù)10次迭代得到的RMSE的平均值,而STD表示RMSE的標(biāo)準(zhǔn)差.由表3可知,本文提出的基于認(rèn)知診斷的同行互評技術(shù)PG8和PG9在3份主觀題作業(yè)中的估計(jì)準(zhǔn)確率均高于比其他技術(shù).由于同時(shí)考慮了同行評價(jià)者在本次作業(yè)中的答題表現(xiàn)以及評價(jià)者的歷史答題表現(xiàn)對其評分可靠性的影響,PG8和PG9技術(shù)對3次作業(yè)真實(shí)分?jǐn)?shù)的平均估計(jì)誤差比PG6和PG7技術(shù)平均降低了42%.實(shí)驗(yàn)結(jié)果證實(shí)了結(jié)合本次作業(yè)中的答題表現(xiàn)以及評價(jià)者的歷史答題表現(xiàn)建??煽啃詫τ诨鶖?shù)同行互評估計(jì)的有效性.
表3 估計(jì)真實(shí)分?jǐn)?shù)的準(zhǔn)確性Table 3 Error of true score estimation
5.4.2 同行互評技術(shù)的最大估計(jì)誤差
通過衡量主觀題作業(yè)真實(shí)分?jǐn)?shù)估計(jì)值與教師批改分?jǐn)?shù)之間的最大評分偏差來分析同行互評技術(shù)的評估表現(xiàn),如表4所示.從表中可看出,均值技術(shù)與中位數(shù)技術(shù)的最大評分偏差是最大的,而基于認(rèn)知診斷的同行互評技術(shù)PG8和PG9在3份主觀題作業(yè)中的最大評分偏差是最小的,說明同行評價(jià)者對主觀題作業(yè)考察的知識點(diǎn)的掌握程度信息使概率模型能更有效地保障對每個(gè)學(xué)生的主觀題作業(yè)真實(shí)分?jǐn)?shù)的估計(jì)準(zhǔn)確性.同時(shí)還可觀察到,PG8和PG9技術(shù)對3次作業(yè)真實(shí)分?jǐn)?shù)估計(jì)的最大評分誤差均低于PG6和PG7技術(shù),進(jìn)一步表明了同時(shí)考慮影響可靠性的兩方面因素(即同行評價(jià)者在本次作業(yè)中的答題表現(xiàn)以及評價(jià)者的歷史答題表現(xiàn))能夠提升對主觀題作業(yè)真實(shí)分?jǐn)?shù)估計(jì)的精確性.
5.4.3 同行互評技術(shù)的超參數(shù)敏感性
表4 真實(shí)分?jǐn)?shù)估計(jì)值與真實(shí)分?jǐn)?shù)間的最大評分偏差Table 4 Maximum deviation between an estimated grade and ground truth for all students
為了表明PG8技術(shù)中的超參數(shù)β0和PG9技術(shù)中的超參數(shù)λ對主觀題作業(yè)真實(shí)分?jǐn)?shù)估計(jì)的影響,本文采取固定其他超參數(shù)值的策略并對這兩個(gè)超參數(shù)的值進(jìn)行了實(shí)驗(yàn)分析.在實(shí)驗(yàn)中為了測試模型的敏感性,將PG8中的超參數(shù)β0設(shè)置在[150,400]范圍內(nèi)以50為步長變化,實(shí)驗(yàn)結(jié)果如圖4;將PG9中的超參數(shù)λ設(shè)置在[0.6,1.6]范圍內(nèi)以0.2為步長變化,實(shí)驗(yàn)結(jié)果如圖5所示.圖4和圖5的結(jié)果表明:在合理的取值范圍內(nèi),這兩種技術(shù)對超參數(shù)值具有魯棒性,它們對主觀題作業(yè)真實(shí)分?jǐn)?shù)的估計(jì)誤差都控制在可接受的范圍.
圖4 PG8技術(shù)的超參數(shù)敏感性分析Fig.4 Sensitivity analysis of hyper-parameter for PG8
圖5 PG9技術(shù)的超參數(shù)敏感性分析Fig.5 Sensitivity analysis of hyper-parameter for PG9
同行互評是當(dāng)前大型開放式網(wǎng)絡(luò)課程(MOOCs)平臺用以解決大規(guī)模主觀題作業(yè)評價(jià)的主流方式.同行評價(jià)者的評分偏見和評分可靠性是未知的,因此基于多個(gè)同行評價(jià)者給出的評價(jià)分?jǐn)?shù)估計(jì)主觀題作業(yè)的真實(shí)分?jǐn)?shù)是一個(gè)具有挑戰(zhàn)的問題.現(xiàn)有同行互評技術(shù)利用概率模型對同行評價(jià)者的評分可靠性和評分偏見進(jìn)行建模,有效提高了估計(jì)主觀題作業(yè)的真實(shí)分?jǐn)?shù)的準(zhǔn)確性.然而,這些技術(shù)均未同時(shí)考慮同行評價(jià)者在本次作業(yè)中的答題表現(xiàn)以及評價(jià)者的歷史答題表現(xiàn)對其評分可靠性的影響.鑒于此,本文在現(xiàn)有概率模型的基礎(chǔ)上提出了基于認(rèn)知診斷的主觀題同行互評技術(shù),包含PG8和PG9兩個(gè)概率模型.PG8和PG9利用教育評估領(lǐng)域流行的認(rèn)知診斷DINA模型診斷得到同行評價(jià)者對主觀題的掌握程度信息并結(jié)合評價(jià)者在待評價(jià)作業(yè)中的答題表現(xiàn)對評價(jià)者評分可靠性進(jìn)行建模,實(shí)驗(yàn)證實(shí)PG8和PG9比相關(guān)最好的同行技術(shù)在提升主觀題作業(yè)真實(shí)分?jǐn)?shù)估計(jì)準(zhǔn)確性方面更有優(yōu)勢.