曹陽 顧問
(三江學(xué)院計算機科學(xué)與工程學(xué)院,江蘇南京 210012)
同伴互評是在線學(xué)習(xí)中的一種互助學(xué)習(xí)形式,指學(xué)習(xí)者根據(jù)特定的評價標準對其他學(xué)習(xí)者的作業(yè)進行評價,并提供反饋意見。同伴互評不僅可以提高大規(guī)模在線學(xué)習(xí)中的作業(yè)評價效率,減輕教師的教學(xué)負擔,而且能夠使學(xué)習(xí)者在互評過程中得到交流、思考的機會,提高學(xué)習(xí)參與度和高階認知能力。因此,同伴互評已經(jīng)成為廣大學(xué)習(xí)者所認可的在線學(xué)習(xí)方式,諸多慕課平臺也廣泛支持同伴互評機制[1]。
同伴互評的有效性主要體現(xiàn)在以下兩方面:(1)保證評價結(jié)果具有較高的信效度,即提供可靠和精確的評價;(2)促進學(xué)習(xí)者在互評過程中進行知識和觀點的交流與創(chuàng)新[2]。圍繞以上兩點,在線學(xué)習(xí)的研究者與實踐者對于如何優(yōu)化同伴互評過程,提高同伴互評效果進行了深入研究。其中,評閱人的匹配及推薦是研究的中心問題之一。許云紅提出了一種同伴互評推薦模型,根據(jù)學(xué)習(xí)者特征與作業(yè)特征生成互評配對列表[3],但其采用的特征屬性難于統(tǒng)計和量化,在實踐中不易操作。何升提出了基于二分圖最優(yōu)匹配的方法進行互評推薦[4],探索了采用經(jīng)典算法實現(xiàn)推薦匹配的可行性。這類方案給出了具體的匹配算法,但往往算法中對各參數(shù)的假設(shè)依賴較多,不能實現(xiàn)作業(yè)的完全匹配。因此,僅根據(jù)學(xué)習(xí)者及作業(yè)具備的初始特征,構(gòu)建同伴互評推薦模型具有較大的不確定性,推薦策略中各種假設(shè)因素過于復(fù)雜,實際操作時具有較大難度,并且在推薦過程中沒有考慮到“同伴互評不僅僅是為了評價而評價”[5],還要促使不同類型、不同背景的學(xué)習(xí)者進行學(xué)習(xí)交流,借鑒彼此的做題思路,在互評過程中實現(xiàn)再學(xué)習(xí)。
本研究通過在互評過程前引入互評訓(xùn)練環(huán)節(jié),分析學(xué)習(xí)者在訓(xùn)練中產(chǎn)生的評價數(shù)據(jù),對學(xué)習(xí)者進行分組,根據(jù)學(xué)習(xí)組內(nèi)部成員及學(xué)習(xí)組之間的相似度進行互評匹配,實現(xiàn)自動推薦評閱人機制。設(shè)計的同伴互評推薦策略在保證評價信效度的情況下,能夠使不同知識背景、不同學(xué)習(xí)觀念、不同思考方式的學(xué)習(xí)者互相學(xué)習(xí)借鑒,在互評過程中獲得滿意的互評體驗和學(xué)習(xí)效果。
互評訓(xùn)練是在正式互評之前,為了提高學(xué)習(xí)者的評閱能力,針對訓(xùn)練題目所開展的模擬評價過程。在互評訓(xùn)練中,學(xué)習(xí)者根據(jù)提供的評價標準或評分范例對訓(xùn)練題目進行互評,教師根據(jù)學(xué)習(xí)者的互評訓(xùn)練結(jié)果提供反饋信息?;ピu訓(xùn)練能夠使學(xué)習(xí)者盡快熟悉互評規(guī)則及操作流程,并且根據(jù)反饋意見發(fā)現(xiàn)自己評分的不足,加以改進。實踐證明,互評訓(xùn)練對學(xué)習(xí)者評分準確性的提高有十分關(guān)鍵的作用[6]。
引入互評訓(xùn)練的同伴互評一般過程如圖1所示。教師首先設(shè)計互評訓(xùn)練題目以及對應(yīng)的評價標準,學(xué)習(xí)者根據(jù)評價標準或評分范例進行互評訓(xùn)練。完成訓(xùn)練環(huán)節(jié)后,教師發(fā)布正式作業(yè),組織學(xué)習(xí)者開展互評,并在互評結(jié)束后發(fā)布本次作業(yè)的評價結(jié)果。多次作業(yè)的互評結(jié)果按照課程預(yù)先設(shè)定的計分規(guī)則加權(quán)計算后得到該課程的作業(yè)總成績。
圖1 同伴互評的一般過程
在此過程中,互評訓(xùn)練僅僅作為開展互評前的一個獨立環(huán)節(jié),旨在提高學(xué)習(xí)者的評閱能力,而訓(xùn)練結(jié)果與后續(xù)互評過程中的評閱匹配并無關(guān)聯(lián)。而事實上,學(xué)習(xí)者的每一次評閱結(jié)果都能夠反映出其自身的專業(yè)能力、學(xué)習(xí)風格及認知水平[7]。本研究認為在互評訓(xùn)練的過程中,產(chǎn)生的作業(yè)評分能夠在一定程度上描述學(xué)習(xí)者的評價特征,可以根據(jù)學(xué)習(xí)者評價特征的相似度,對學(xué)習(xí)者進行分組,設(shè)計后續(xù)同伴互評環(huán)節(jié)中的評閱人自動推薦策略。
個性化推薦機制通過分析用戶行為中產(chǎn)生的數(shù)據(jù),能夠?qū)崿F(xiàn)用戶需求與所需數(shù)據(jù)的快速匹配,其推薦效果已經(jīng)在以電子商務(wù)為典型代表的各類互聯(lián)網(wǎng)應(yīng)用中得到廣泛認同[8]。本研究將推薦機制應(yīng)用于同伴互評環(huán)節(jié),利用互評訓(xùn)練及正式互評產(chǎn)生的數(shù)據(jù)對學(xué)習(xí)者進行分組,采用組內(nèi)與組間互評相結(jié)合的策略進行評閱人與作業(yè)的匹配,達到提高同伴互評效果的目的。具體模型設(shè)計如圖2所示。
圖2 基于訓(xùn)練的同伴互評推薦模型
(1)互評訓(xùn)練設(shè)計及訓(xùn)練結(jié)果分析
采用同伴互評方式進行評價的作業(yè)大多為主觀題,因此,互評訓(xùn)練的題目設(shè)計要與互評作業(yè)任務(wù)類型相匹配,并制定詳細的評價量規(guī)[9]。互評訓(xùn)練題目的數(shù)量可以參照一門課程中互評作業(yè)類型的數(shù)量來確定,但不宜過多,避免使學(xué)習(xí)者感到過重的訓(xùn)練壓力而降低訓(xùn)練質(zhì)量。
在互評訓(xùn)練中,學(xué)習(xí)者的評價對象需要保持一致,才能更準確地反映學(xué)習(xí)者的特征。因此,學(xué)習(xí)者無需自己完成訓(xùn)練題目,只需要對預(yù)設(shè)的答案范例進行評價,并給出評分。互評訓(xùn)練完成后,對評價結(jié)果進行分析。若有N名學(xué)習(xí)者參加了訓(xùn)練,每位學(xué)習(xí)者在訓(xùn)練中給出的評分可以用一個評分向量S={s1,s2,…,sn}表示,其中n為互評訓(xùn)練中的題目數(shù)量,sn表示該學(xué)習(xí)者對第n個題目答案的評分,則訓(xùn)練結(jié)果可以表示為Sresult={S1,S2,…,SN}。
(2)學(xué)習(xí)者分組
根據(jù)學(xué)習(xí)者的評分向量,分析學(xué)習(xí)者特征,將特征相似度較高的學(xué)習(xí)者歸為一組。特征相似度采用皮爾遜相關(guān)系數(shù)進行計算,其取值范圍為[-1,1],具體方法如下:
式中x,y分別表示兩個不同的學(xué)習(xí)者在互評訓(xùn)練中的評分向量,為兩個學(xué)習(xí)者各自的評分均值。計算出的sim(x,y)值越接近1,表示相關(guān)性越強,反之相關(guān)性越弱。采用皮爾遜相關(guān)系數(shù)進行相似度計算,能夠避免評分向量維度中存在數(shù)據(jù)缺失的問題,如某個學(xué)習(xí)者遺漏了一道訓(xùn)練題目。
將經(jīng)過互評訓(xùn)練的學(xué)習(xí)者兩兩比較,進行相似度計算,把相關(guān)性較高的學(xué)習(xí)者分為一組,表示該組內(nèi)的學(xué)習(xí)者在訓(xùn)練中表現(xiàn)出的學(xué)習(xí)認知較為接近。
(3)生成推薦列表及開展同伴互評
同伴互評屬于一種過程性的學(xué)習(xí)評價方式,其目的不僅僅是獲得較為準確的評定成績,還要促進學(xué)習(xí)者之間的交流借鑒。因此,通過互評訓(xùn)練完成對學(xué)習(xí)者的分組后,采用組內(nèi)推薦和組間推薦組合的方式生成同伴互評推薦列表。
組內(nèi)推薦是將學(xué)習(xí)者的作業(yè)推薦給其同組的學(xué)習(xí)者進行評閱?;ピu訓(xùn)練結(jié)束后,分在同一組的學(xué)習(xí)者具有相似的做題思路及判斷能力,其對同類型學(xué)習(xí)者的學(xué)習(xí)成果更加熟悉。因此,組內(nèi)推薦能夠使學(xué)習(xí)者的作業(yè)被同組的學(xué)習(xí)者更加合理地評閱,并給出相對準確的評分。
組間推薦是指把學(xué)習(xí)者的作業(yè)推薦給不同組的學(xué)習(xí)者進行評閱。通過互評訓(xùn)練后,分到不同組的學(xué)習(xí)者表示他們具有不同的認知理解和思維方式。在解答問題時,不同組的學(xué)習(xí)者往往風格迥異,因此他們互相評價對方的學(xué)生成果時,能夠彼此學(xué)習(xí)對方的解題思路,拓展自身的知識面。
在開展同伴互評時,每份作業(yè)都會被推薦給若干個學(xué)習(xí)者進行評閱。推薦的評閱人名單中應(yīng)當包括與被評閱人同組的學(xué)習(xí)者,以及不同組的學(xué)習(xí)者。為了保證互評結(jié)果的信效度,一般組內(nèi)推薦的數(shù)量略高于組間推薦。目前,在大部分在線課程平臺中,每份作業(yè)會分配給五個評閱人[10]。因此,可以由組內(nèi)推薦三個評閱者,組間推薦兩個評閱者,生成同伴互評推薦列表。
在軟件工程專業(yè)2018級的軟件測試課程中對所設(shè)計的基于互評訓(xùn)練的同伴互評推薦策略進行應(yīng)用驗證。軟件測試課程采用混合式教學(xué)模式,共有328人選課。在互評訓(xùn)練中,設(shè)計了6道題目,全部為主觀題,并提供了詳細的評分標準及供學(xué)習(xí)者評價的范例答案,范例答案由教師按照不同評分標準進行設(shè)計。
組織學(xué)習(xí)者完成互評訓(xùn)練后,根據(jù)每個人的評分向量進行相似度計算,完成學(xué)習(xí)者分組,并進行正式作業(yè)的互評,評閱人依據(jù)本研究設(shè)計的同伴互評推薦策略自動生成。每位學(xué)習(xí)者均需要評價5份作業(yè),每份作業(yè)的評閱人由3名與答題者同組的學(xué)習(xí)者及2位其他組的學(xué)習(xí)者組成,作業(yè)成績?yōu)?位評閱者的平均評分。為了減小在互評過程中的情感影響因素,被評者及評閱人均采用匿名方式。
在同伴互評結(jié)束后,由教師對每份作業(yè)進行評閱,以教師的評閱成績?yōu)闃藴逝c互評成績比較,驗證互評質(zhì)量,結(jié)果如圖3所示。從圖中可以看到,互評成績與教師評定成績誤差不超過10%的作業(yè)有167份,占比為51%,誤差在20%以內(nèi)的作業(yè)共有256份,占比接近80%,說明大部分作業(yè)的評分結(jié)果較為準確。此外,有8%的作業(yè)評分誤差大于30%,主要原因是少量學(xué)生未評滿5份作業(yè),導(dǎo)致計算單個作業(yè)的評分均值時產(chǎn)生了較大誤差。
圖3 同伴互評結(jié)果分析
為了檢驗學(xué)生在同伴互評過程中是否進行了有效學(xué)習(xí),教師進行了問卷調(diào)查,收集到有效反饋313份。問卷中包含了兩個核心問題:是否能夠根據(jù)評閱標準順利對所分配的作業(yè)進行評價、是否在評閱他人作業(yè)過程中獲得了啟發(fā)。學(xué)生對兩個核心問題的反饋結(jié)果如圖4所示。
圖4 問卷調(diào)查結(jié)果
調(diào)查表明,絕大部分學(xué)生都能夠順利完成互評任務(wù),對評閱標準、分配的作業(yè)有較清晰的理解,極少數(shù)學(xué)生認為評閱存在一定難度。通過進一步深入了解,這種情況與學(xué)生自身的專業(yè)水平有一定關(guān)聯(lián)。在促進學(xué)習(xí)方面,90%的學(xué)生認為在互評過程中,接觸到了多樣化的答題思路,有助于自身知識面和思維的拓展。實踐結(jié)果表明,基于訓(xùn)練的同伴互評推薦策略能夠保證評價結(jié)果的有效性和可靠性,促進學(xué)生進行學(xué)習(xí)交流及思考。
同伴互評是互聯(lián)網(wǎng)時代下教育信息化發(fā)展的一種新型評價方式,在以慕課為代表的線上課程中得以廣泛應(yīng)用。提升互評結(jié)果的精確度以及促進學(xué)習(xí)者進行學(xué)習(xí)反思是同伴互評能否順利開展的關(guān)鍵問題。同伴互評的影響因素眾多,其中學(xué)習(xí)者作為學(xué)習(xí)過程的主體,其學(xué)習(xí)行為產(chǎn)生的數(shù)據(jù)是如何開展同伴互評的核心因素。因此,如何強化對在線學(xué)習(xí)行為數(shù)據(jù)的深度分析,是提高同伴互評信效度、推進學(xué)習(xí)者在互評過程中進行學(xué)習(xí)內(nèi)省的研究趨勢。
本研究充分發(fā)揮互評訓(xùn)練在正式互評前的作用,根據(jù)訓(xùn)練情況進行學(xué)習(xí)特征分析及學(xué)習(xí)者分組,采用組內(nèi)推薦與組間推薦結(jié)合的方式生成同伴互評推薦列表,通過在具體課程中的實踐檢驗了設(shè)計的推薦策略具有良好的應(yīng)用效果,為基于學(xué)習(xí)行為數(shù)據(jù)構(gòu)造在線同伴互評模型提供了設(shè)計思路。