趙 春,李 欣
(成都錦城學(xué)院 計(jì)算機(jī)與軟件學(xué)院,四川 成都 611731)
在“互聯(lián)網(wǎng)+教育”的背景下,隨著移動(dòng)智能設(shè)備的普及和數(shù)字化學(xué)習(xí)資源的極大豐富,網(wǎng)絡(luò)學(xué)習(xí)逐漸成為一種主流的學(xué)習(xí)模式。學(xué)生在網(wǎng)絡(luò)學(xué)習(xí)空間中的學(xué)習(xí)行為產(chǎn)生了大量的學(xué)習(xí)數(shù)據(jù)。利用基于大數(shù)據(jù)的用戶畫像技術(shù)對(duì)學(xué)生的線上學(xué)習(xí)數(shù)據(jù)進(jìn)行挖掘分析、構(gòu)建學(xué)生學(xué)習(xí)畫像變得現(xiàn)實(shí)可行。
用戶畫像是根據(jù)用戶數(shù)據(jù)提煉出的描述用戶屬性及行為的標(biāo)簽集合[1],被廣泛地應(yīng)用于描述用戶特征、用戶興趣和用戶偏好等[2-4]。學(xué)生畫像則是用戶畫像技術(shù)在教育領(lǐng)域的應(yīng)用,反映了學(xué)生的學(xué)習(xí)特征和學(xué)習(xí)行為。它可以幫助教師理解教學(xué)實(shí)施情況,也可以輔助制定新的教學(xué)策略[5]。余明華等將學(xué)生畫像劃分為能力屬性、行為屬性和興趣屬性,以數(shù)據(jù)分析和人工手段相結(jié)合的方式建立了學(xué)生畫像的標(biāo)簽體系[6]。楊長春等認(rèn)為創(chuàng)建用戶畫像的過程就是依據(jù)構(gòu)建的用戶模型在用戶信息中得到特征,并將特征標(biāo)簽化的過程[7]。他從學(xué)生的基本特征、學(xué)習(xí)特征、學(xué)習(xí)能力、素質(zhì)與偏好五個(gè)維度進(jìn)行了學(xué)生畫像建模。黃文林認(rèn)為學(xué)生畫像是用能夠反映學(xué)生的特征描述、行為診斷和需求預(yù)測屬性的三類標(biāo)簽來刻畫,并進(jìn)行可視化呈現(xiàn)的用戶畫像方法[8]。任紅杰認(rèn)為學(xué)生畫像是根據(jù)學(xué)生的基礎(chǔ)信息、學(xué)習(xí)習(xí)慣、學(xué)習(xí)偏好、學(xué)習(xí)行為和學(xué)習(xí)期待等方面的數(shù)據(jù)信息構(gòu)建出來的標(biāo)簽化學(xué)生模型[9]。楊彩霖認(rèn)為可以從線上學(xué)習(xí)的活躍度、參與度、持久度、學(xué)習(xí)效果和學(xué)習(xí)預(yù)警五個(gè)維度刻畫學(xué)生個(gè)體畫像,并對(duì)每個(gè)維度賦予相應(yīng)的權(quán)值[10]。
以上研究基于各自不同的數(shù)據(jù)基礎(chǔ)和畫像需求,從不同的角度提出了構(gòu)建學(xué)生畫像標(biāo)簽?zāi)P偷姆椒?。它們各自抽取的?shù)據(jù)維度和粒度雖然有所不同,但學(xué)習(xí)能力和學(xué)習(xí)行為均被包含其中,是最被研究者重視的兩個(gè)維度。上述研究中提到的學(xué)習(xí)習(xí)慣和學(xué)習(xí)偏好等維度完全可以合入學(xué)習(xí)行為維度中體現(xiàn)。學(xué)習(xí)能力標(biāo)簽?zāi)P涂梢砸詫W(xué)生的學(xué)習(xí)成績?yōu)橹饕罁?jù)進(jìn)行分析刻畫,而學(xué)習(xí)行為標(biāo)簽?zāi)P偷臉?gòu)建所依賴的數(shù)據(jù)維度則相對(duì)較為復(fù)雜,比如設(shè)備使用習(xí)慣、登錄時(shí)間習(xí)慣、作業(yè)完成習(xí)慣和學(xué)習(xí)響應(yīng)習(xí)慣等。
在構(gòu)造學(xué)習(xí)畫像標(biāo)簽的過程中,傳統(tǒng)方式采用的單純統(tǒng)計(jì)類標(biāo)簽維度刻畫的模式具有顆粒度粗糙、標(biāo)簽等級(jí)不夠精準(zhǔn)的缺陷。因此很多研究者利用聚類方法進(jìn)行用戶分類與畫像構(gòu)建。張毅認(rèn)為大數(shù)據(jù)背景下用戶畫像的統(tǒng)計(jì)方法可以簡單概括為針對(duì)用戶屬性加以統(tǒng)計(jì),建議從統(tǒng)計(jì)分析視角出發(fā),明確畫像指標(biāo),做好主客觀指標(biāo)之間的轉(zhuǎn)換,從而獲得用戶畫像更詳細(xì)的特征[11]。翟鳴宇等為適應(yīng)教育大數(shù)據(jù)中含有的大量類別信息,采用了K-prototype聚類方法對(duì)高校學(xué)生大數(shù)據(jù)進(jìn)行聚類,以此構(gòu)建學(xué)生畫像[12]。許智宏等通過改進(jìn)K-means算法和PCA算法來對(duì)學(xué)生行為進(jìn)行用戶畫像[13]。凌玉龍等在引入馬氏距離的基礎(chǔ)上通過改變初始聚類中心的選擇來改進(jìn)K-means算法,從而適應(yīng)學(xué)生群體聚類場景,更好地刻畫學(xué)生的消費(fèi)畫像[14]。王惠惠等在實(shí)施學(xué)生群體畫像的過程中為了提高聚類結(jié)果的精確性和魯棒性,利用KMeans、KModes和GMM三種聚類方法構(gòu)建基聚類器,并通過投票方法對(duì)聚類結(jié)果進(jìn)行集成處理[15]。袁苗苗等基于改進(jìn)的K-means聚類算法針對(duì)記錄數(shù)據(jù)和用戶評(píng)論數(shù)據(jù)分別建立了用戶興趣特征標(biāo)簽庫和用戶消費(fèi)特征標(biāo)簽庫,提出了多數(shù)據(jù)源融合的用戶畫像構(gòu)建方法[16]。
由此可見,K-Means聚類算法成為研究者構(gòu)建用戶畫像時(shí)最常被采用的方法,但是KMeans等聚類算法魯棒性不好,對(duì)噪聲敏感,同時(shí)存在對(duì)離散型特征無法進(jìn)行有效訓(xùn)練的缺陷??紤]到不同維度的特點(diǎn),針對(duì)具有代表性的學(xué)習(xí)能力及學(xué)習(xí)行為標(biāo)簽,文中通過提出一種新的調(diào)整的線性加權(quán)變異系數(shù)算法,實(shí)現(xiàn)了學(xué)生學(xué)習(xí)能力標(biāo)簽?zāi)P?同時(shí)基于偏好隨機(jī)變量概率分布理論,利用箱線圖和k百分位數(shù)方法構(gòu)建了學(xué)生行為標(biāo)簽?zāi)P?較好地實(shí)現(xiàn)了學(xué)生畫像的精準(zhǔn)構(gòu)建。
文中使用的學(xué)生學(xué)習(xí)數(shù)據(jù)集按照教學(xué)周階段性產(chǎn)生、采集,具有連續(xù)的數(shù)值型特征,同時(shí)也具備周期性、動(dòng)態(tài)性的特點(diǎn)。對(duì)學(xué)習(xí)能力的階段性刻畫,集中趨勢度指標(biāo)是一種常用的方法,如均值、眾數(shù)、中位數(shù)等,因?yàn)檫@些指標(biāo)代表了學(xué)生的平均水平。但是均值的魯棒性非常差,容易受到噪聲的影響,而眾數(shù)則更加適合離散的數(shù)據(jù)特征。中位數(shù)雖然克服了上述兩種指標(biāo)度量的缺點(diǎn),兼具魯棒性和數(shù)值特征適應(yīng)性,但是又沒有考慮到每一次成績的變化波動(dòng)情況。離中趨勢度指標(biāo)是另外一種可以用于刻畫學(xué)習(xí)能力的方法。但是如果單純使用方差或者標(biāo)準(zhǔn)差,雖然能夠度量數(shù)據(jù)的離散程度,但是忽略了成績數(shù)據(jù)的周期動(dòng)態(tài)性特點(diǎn),即每周都會(huì)有新的成績數(shù)據(jù)產(chǎn)生。成績數(shù)據(jù)集合以周為單位進(jìn)行擴(kuò)充,樣本容量每周發(fā)生變化。因此采用變異系數(shù)(Coefficient of Variation,CV)的形式度量學(xué)習(xí)能力穩(wěn)定性是較為合適的方法。CV沒有量綱,不受樣本容量限制,這樣就可以對(duì)學(xué)習(xí)能力穩(wěn)定性進(jìn)行客觀比較。
傳統(tǒng)的變異系數(shù)CV的計(jì)算方式為原始數(shù)據(jù)標(biāo)準(zhǔn)差與原始數(shù)據(jù)平均數(shù)的比,如式(1)所示:
(1)
傳統(tǒng)的變異系數(shù)CV計(jì)算方法簡潔,但是沒有考慮變量每一次取值的差異性與重要性,因此,該文引入了加權(quán)調(diào)整的變異系數(shù)Adjusted_CV,解決帶權(quán)重的特征穩(wěn)定性的計(jì)算問題。
圖1是構(gòu)建學(xué)習(xí)能力穩(wěn)定性的算法模型。
圖1 學(xué)習(xí)能力穩(wěn)定性算法模型
成績數(shù)據(jù)源SDataset如式(2)所示,包括m個(gè)學(xué)生,n次成績。
SDataset=[s1,s2,…,sm]=
(2)
其中,Si{i=1,2,…,m}為學(xué)生成績樣本,wsi,j為第i個(gè)樣本第j周的成績(ws為weekscore的簡記),如式(3)所示:
可以通過圖1所示的學(xué)習(xí)能力穩(wěn)定性算法模型計(jì)算si的CV系數(shù)值。模型輸入層InputLayer接收到按周期采集的n次成績:weekscore1,…,weekscoren,每次成績根據(jù)其難度系數(shù)給予不同權(quán)重fi,i的取值為1,2,…,n。轉(zhuǎn)換層TransferLayer根據(jù)接收到的成績及權(quán)重?cái)?shù)據(jù),計(jì)算集中趨勢度和離中趨勢度。集中趨勢度采用加權(quán)線性平均的形式進(jìn)行計(jì)算,計(jì)算結(jié)果記為Weighted_Mean(score_stu),如式(4)所示:
(4)
其中,fi為每次任務(wù)的難度系數(shù)權(quán)重,i的取值為1,2,…,n。
離中趨勢度的計(jì)算采用加權(quán)的樣本標(biāo)準(zhǔn)差進(jìn)行計(jì)算,其中n為樣本容量,即當(dāng)前個(gè)體成績數(shù)量。計(jì)算結(jié)果記為Weighted_σ(score_stu),如式(5)所示:
Weighted_σ(score_stu)=
(5)
其中,weekscorei是動(dòng)態(tài)的每周學(xué)習(xí)成績,n為時(shí)間窗口期內(nèi)的作業(yè)數(shù)量。
模型輸出層OutputLayer計(jì)算最終的學(xué)習(xí)能力穩(wěn)定性系數(shù)CV值,采用加權(quán)的標(biāo)準(zhǔn)差與加權(quán)線性均值的比值計(jì)算,進(jìn)而調(diào)整的Adjusted_CV計(jì)算公式如式(6)所示:
(6)
其中,Adjusted_CV(score)作為個(gè)體成績穩(wěn)定性原始評(píng)價(jià)指標(biāo),可有效衡量窗口期內(nèi)學(xué)生成績的穩(wěn)定性情況,消除量綱與樣本容量的影響。Adjusted_CV(score)數(shù)值越小,窗口期內(nèi)學(xué)生成績越穩(wěn)定地趨近于該學(xué)生的平均水平,集中趨勢的代表性越好,學(xué)生的學(xué)習(xí)能力越穩(wěn)定。Adjusted_CV(score)數(shù)值越大,平均成績的代表性也就越差,成績數(shù)值的震蕩性越大,因而學(xué)生能力的穩(wěn)定性也就越差。
經(jīng)過上述算法對(duì)Adjusted_CV值的處理,可以得到一系列個(gè)體成績穩(wěn)定性原始評(píng)價(jià)數(shù)據(jù)集合。Adjusted_CV(score)={scorei,i=1,2,…,n},n為樣本容量。為了評(píng)價(jià)個(gè)體學(xué)生成績穩(wěn)定性在全量樣本中的位置,此處采用箱線圖k百分位數(shù)的方式進(jìn)行離散化,計(jì)算方法為p=1+(n-1)×k%,p為k百分位數(shù)的位置,此處k的取值為序列[0,25,50,75,100],從而最終產(chǎn)生個(gè)體學(xué)習(xí)穩(wěn)定性標(biāo)簽。上述完整的學(xué)習(xí)能力穩(wěn)定性標(biāo)簽構(gòu)建算法如算法1所示。
算法1:學(xué)習(xí)能力穩(wěn)定性標(biāo)簽構(gòu)建算法
輸入:階段性在線學(xué)習(xí)事務(wù)數(shù)據(jù)集C
過程:
(1)Shuffle(C) //隨機(jī)打亂數(shù)據(jù)集
(2)For each score_stu inC:
(3) Aggregation(score_stu) //分組聚合個(gè)體樣本的階段性評(píng)分?jǐn)?shù)據(jù)
(4) 根據(jù)式(4)計(jì)算Weighted_Mean(score_stu) //計(jì)算個(gè)體線性加權(quán)集中趨勢度指標(biāo)
(5) 根據(jù)式(5)計(jì)算Weighted_σ(score_stu) //計(jì)算個(gè)體加權(quán)離中趨勢度指標(biāo)
(6) 根據(jù)式(6)計(jì)算Adjusted_cv(scorei) //計(jì)算該個(gè)體成績穩(wěn)定性指標(biāo)
(7) Add(CV, Adjusted_cv) //將個(gè)體成績穩(wěn)定性指標(biāo)Adjusted_cv加入全量樣本穩(wěn)定性指標(biāo)集合CV
(8)End For
(9)Sort(CV) //對(duì)全量樣本cv值進(jìn)行排序
(10)P=1+(n-1)×k% //計(jì)算箱線圖k百分位數(shù),P為k百分位數(shù)位置集合,k取值序列為[0,25,50,75,100],n為樣本數(shù)
(11)For each cv in CV:
(12) loc=Position(cv,P) //計(jì)算個(gè)體樣本所處百分位數(shù)位置
(13)Fi=AssignFlag(loc) //根據(jù)個(gè)體位置賦予對(duì)應(yīng)標(biāo)簽
(14) Add(F,Fi) //將個(gè)體成績穩(wěn)定性標(biāo)簽Fi加入全量樣本穩(wěn)定性標(biāo)簽集合F
(15)End For
輸出:學(xué)習(xí)成績穩(wěn)定性畫像標(biāo)簽集合F
學(xué)習(xí)行為是指學(xué)生在線學(xué)習(xí)的行為習(xí)慣,如學(xué)習(xí)響應(yīng)習(xí)慣、設(shè)備訪問習(xí)慣、登錄時(shí)間習(xí)慣、作業(yè)完成習(xí)慣等。其中學(xué)生對(duì)學(xué)習(xí)任務(wù)的響應(yīng)習(xí)慣最具代表性,反映了學(xué)生的學(xué)習(xí)主動(dòng)性和積極性。下面以學(xué)習(xí)響應(yīng)習(xí)慣為例,詳細(xì)闡述行為偏好類畫像標(biāo)簽?zāi)P偷臉?gòu)建算法。圖2展示了學(xué)習(xí)響應(yīng)習(xí)慣偏好行為的事務(wù)數(shù)據(jù)流。學(xué)習(xí)響應(yīng)偏好數(shù)據(jù)的產(chǎn)生主要由任務(wù)點(diǎn)、作業(yè)、測試、討論等行為觸發(fā),而終端個(gè)體會(huì)響應(yīng)該任務(wù),形成訪問時(shí)間數(shù)據(jù)流。學(xué)習(xí)響應(yīng)習(xí)慣偏好標(biāo)簽?zāi)P鸵匀繒r(shí)間數(shù)據(jù)流為基礎(chǔ),利用箱線圖k百分位點(diǎn)方法及概率分布等理論產(chǎn)生。相比較傳統(tǒng)的忽略中間時(shí)刻敏感度、使用部分響應(yīng)取平均的方式,這種構(gòu)建方法更為精準(zhǔn)客觀。
圖2 學(xué)習(xí)響應(yīng)習(xí)慣偏好行為事務(wù)數(shù)據(jù)流
第一步是單次行為事件的觸發(fā),將每一次任務(wù)的發(fā)布事件序列記為T={trelease,tcheck,tsubmit}。其中trelease、tcheck、tsubmit分別為發(fā)布時(shí)間、查看時(shí)間和提交時(shí)間。切片時(shí)間段數(shù)據(jù)記為V={vsensitive,vcomplete},其中vsensitive=tcheck-trelease,vcomplete=tsubmit-tcheck。學(xué)習(xí)響應(yīng)敏感度為任務(wù)查看時(shí)間減去任務(wù)發(fā)布時(shí)間,學(xué)習(xí)響應(yīng)完成度為任務(wù)提交時(shí)間與查看時(shí)間之差。每一個(gè)個(gè)體一次任務(wù)的響應(yīng)值計(jì)算公式如式(7)所示:
rj,i=w1*vsensitive+w2*vcomplete
w1+w2=1,i=1,2,…,m,j=1,2,…,n
(7)
響應(yīng)值rj,i即為響應(yīng)敏感度和完成度的線性加權(quán)平均,m為發(fā)布任務(wù)數(shù),n為學(xué)生樣本量,vsensitive為一次任務(wù)的學(xué)習(xí)響應(yīng)敏感度,vcomplete為一次任務(wù)的學(xué)習(xí)響應(yīng)完成度,w1、w2分別為敏感度和完成度權(quán)重。
對(duì)于一次任務(wù),全量學(xué)生形成的響應(yīng)度集合為Ri={r1,i,r2,i,…,rn,i}。
第二步,采用箱線圖k百分位數(shù)的方式對(duì)響應(yīng)度集合Ri進(jìn)行離散化,計(jì)算方法為p=1+(n-1)×k%,p為k百分位數(shù)的位置,k的取值為序列[0,30,70,100]。
第三步,采用眾數(shù)投票的方式對(duì)每一次任務(wù)分段結(jié)果進(jìn)行投票計(jì)數(shù),取分段頻次最大概率值作為最終的學(xué)習(xí)響應(yīng)習(xí)慣標(biāo)簽。分段概率計(jì)算公式如式(8)所示。
(8)
其中,n_pos、n_com、n_neg為第j個(gè)樣本的積極性、一般、消極性的支持度計(jì)數(shù),m為任務(wù)數(shù),pj為第j個(gè)樣本學(xué)習(xí)響應(yīng)分段頻次概率集合,ppos為響應(yīng)積極的概率,pcom為響應(yīng)一般的概率,pneg為響應(yīng)消極的概率。最終的個(gè)體標(biāo)簽取決于概率分布的最大值, maxPj=max{ppos,pcom,pneg}。上述完整的學(xué)習(xí)響應(yīng)習(xí)慣標(biāo)簽?zāi)P蜆?gòu)建算法如算法2所示。
算法2:學(xué)習(xí)響應(yīng)習(xí)慣標(biāo)簽?zāi)P蜆?gòu)建算法
輸入:切片時(shí)間事件數(shù)據(jù)集C
過程:
(1)For eachTiinC.T: //遍歷學(xué)習(xí)任務(wù)數(shù)據(jù)集
(2) For eachSjinTi.S: //遍歷第i次任務(wù)的個(gè)體樣本學(xué)習(xí)數(shù)據(jù)集
(3)Sj.vsensitive=Sj.tcheck-Sj.trelease//計(jì)算樣本j的任務(wù)敏感度
(4)Sj.vcomplete=Sj.tsubmit-Sj.tcheck//計(jì)算樣本j的任務(wù)完成度
(5) 根據(jù)式(7)計(jì)算Rj,i//計(jì)算個(gè)體樣本j的第i次任務(wù)的響應(yīng)值
(6) Add(Ri,Rj,i) //將個(gè)體任務(wù)響應(yīng)值Rj,i加入全量樣本響應(yīng)值集合R
(7) End For
(8)P=1+(n-1)×k% //計(jì)算箱線圖k百分位數(shù),P為k百分位數(shù)的位置集合,k的取值為序列[0,30,70,100],n為個(gè)體樣本數(shù)
(9) For eachRj,iinRi:
(10) loc=Position(Rj,i,P) //計(jì)算個(gè)體樣本j所處百分位數(shù)位置
(11) MFj,i=Flag(loc) //計(jì)算樣本j第i次任務(wù)的標(biāo)簽
(12) Add(MF,MFj,i) //將樣本j第i次任務(wù)標(biāo)簽MFj,i加入全量樣本任務(wù)積極性標(biāo)簽階段性集合MF
(13) End For
(14)End For
(15)For each MFjin MF:
(16) 根據(jù)式(8)計(jì)算Pj={Ppos,Pcom,Pneg} //計(jì)算個(gè)體學(xué)習(xí)響應(yīng)分段頻次概率集合
(17)Fj=max(Pj) //生成個(gè)體學(xué)習(xí)響應(yīng)習(xí)慣標(biāo)簽,個(gè)體標(biāo)簽取決于概率分布的最大值
(18) Add(F,Fj) //將個(gè)體響應(yīng)習(xí)慣標(biāo)簽Fj加入全量樣本響應(yīng)習(xí)慣標(biāo)簽集合F
(19)End For
輸出:學(xué)習(xí)響應(yīng)習(xí)慣標(biāo)簽集合F
實(shí)驗(yàn)數(shù)據(jù)通過學(xué)習(xí)通系統(tǒng)在線數(shù)據(jù)采集,并結(jié)合教務(wù)系統(tǒng)歷史成績等輔助信息進(jìn)行人工標(biāo)注。利用調(diào)整的線性加權(quán)變異系數(shù)算法進(jìn)行學(xué)習(xí)能力穩(wěn)定性模型實(shí)驗(yàn),部分抽樣數(shù)據(jù)及處理結(jié)果如表1所示。表中,wsi表示周次,Linearwei_CV表示調(diào)整后的CV值,Lw_CV_Quan表示樣本所處分位點(diǎn),tra_tendency表示樣本成績平均值。
表1 調(diào)整的線性加權(quán)變異系數(shù)算法處理結(jié)果示例
從表1可以看出,序號(hào)為19*****04、19*****27的兩個(gè)樣本在文中所采用的變異系數(shù)方法中系數(shù)值分別為0.02、0.05,在全量樣本中位于第Q1分位點(diǎn)處,成績穩(wěn)定性都很高,4號(hào)樣本成績高且穩(wěn)定在98.69附近,27號(hào)樣本成績低且穩(wěn)定在均值67.13附近。19*****02在全量樣本中位于第Q2分位點(diǎn)處,成績穩(wěn)定性良好,在均值附近有一定的波動(dòng),但與均值的偏差不大。19*****26、19*****07,在全量樣本中位于第Q3分位點(diǎn)處,成績穩(wěn)定性一般,震蕩較明顯。19*****28在全量樣本中位于第Q4分位點(diǎn)處,成績穩(wěn)定性差,各次成績與平均值70.56的偏差較大,震蕩明顯。
利用調(diào)整的線性加權(quán)變異系數(shù)Adjusted_CV算法與傳統(tǒng)的變異系數(shù)算法進(jìn)行學(xué)習(xí)能力穩(wěn)定性對(duì)比實(shí)驗(yàn),模型效果如圖3所示。相較于傳統(tǒng)的變異系數(shù)算法,調(diào)整權(quán)重后的Adjusted_CV算法具有更好的擬合效果。
圖3 學(xué)生學(xué)習(xí)穩(wěn)定性加權(quán)效果對(duì)比曲線
通過學(xué)習(xí)通系統(tǒng)累計(jì)采集16周的在線學(xué)習(xí)行為數(shù)據(jù)并進(jìn)行人工標(biāo)注,利用箱線圖k百分位數(shù)及隨機(jī)變量概率分布的組合方法進(jìn)行學(xué)習(xí)響應(yīng)習(xí)慣標(biāo)簽?zāi)P蛯?shí)驗(yàn),部分抽樣數(shù)據(jù)及處理結(jié)果如表2所示。表中,Ti_release表示第i次任務(wù)的發(fā)布時(shí)間,Ti_check表示第i次任務(wù)的查看時(shí)間,Ti_submit表示第i次任務(wù)的提交時(shí)間,sensitive表示敏感度,complete表示完成度,vote表示樣本第i次任務(wù)的標(biāo)簽,P(pos)表示樣本積極性概率,P(com)表示樣本一般性概率,P(neg)表示樣本消極性概率,total表示樣本響應(yīng)習(xí)慣最終標(biāo)簽。
表2 箱線圖k百分位數(shù)及隨機(jī)變量概率分布方法處理結(jié)果示例
從表2可以看出,19*****02、19*****04、19*****26、19*****28四個(gè)樣本對(duì)歷次任務(wù)響應(yīng)比較積極,其中19*****02積極響應(yīng)的占比達(dá)88%。從上述樣本的過程細(xì)節(jié)數(shù)據(jù)來看,積極響應(yīng)的個(gè)體樣本歷次任務(wù)的完成度較為及時(shí)。19*****27、19*****07號(hào)樣本響應(yīng)程度分別為一般和消極,占比分別為63%、50%。從這些樣本的過程細(xì)節(jié)數(shù)據(jù)來看,此類樣本單次任務(wù)響應(yīng)敏感度和完成度較差,尤其是19*****07號(hào)樣本雖然有時(shí)查看任務(wù)及時(shí),但是執(zhí)行力很差,有嚴(yán)重的拖沓習(xí)慣。
通過基于箱線圖k百分位數(shù)及隨機(jī)變量概率分布的方法可以得出學(xué)生響應(yīng)偏好識(shí)別結(jié)果的混淆矩陣,如圖4所示。從圖中可知,方法的準(zhǔn)確率為83%,識(shí)別效果良好,能夠很好地刻畫個(gè)體的響應(yīng)習(xí)慣偏好。
圖4 學(xué)生響應(yīng)偏好識(shí)別結(jié)果混淆矩陣
混合式學(xué)習(xí)積累了海量的學(xué)生學(xué)習(xí)數(shù)據(jù)。充分挖掘和利用這些學(xué)習(xí)過程和學(xué)習(xí)結(jié)果數(shù)據(jù),實(shí)施學(xué)生學(xué)習(xí)畫像是面向未來型教育的一個(gè)重要研究領(lǐng)域。學(xué)習(xí)畫像能夠很好地刻畫學(xué)生在學(xué)習(xí)能力、學(xué)習(xí)行為和學(xué)習(xí)成效等方面的特征,實(shí)現(xiàn)學(xué)生群體的劃分[17-18],通過數(shù)據(jù)驅(qū)動(dòng)更好地為個(gè)性化學(xué)習(xí)規(guī)劃學(xué)習(xí)路徑[19-20]。學(xué)習(xí)畫像的關(guān)鍵在于對(duì)學(xué)生學(xué)習(xí)各個(gè)特征維度的標(biāo)簽?zāi)P瓦M(jìn)行構(gòu)建,從數(shù)據(jù)的分析結(jié)果中提煉出合適的標(biāo)簽來對(duì)目標(biāo)對(duì)象的學(xué)習(xí)特征進(jìn)行標(biāo)識(shí)。文中提出的一種調(diào)整的線性加權(quán)變異系數(shù)算法,以及對(duì)偏好隨機(jī)變量概率分布理論和箱線圖k百分位數(shù)方法的應(yīng)用,成功地構(gòu)建了學(xué)習(xí)畫像中最關(guān)鍵的學(xué)習(xí)能力和學(xué)習(xí)行為兩個(gè)維度的標(biāo)簽?zāi)P汀?shí)驗(yàn)結(jié)果的對(duì)比分析也證明了這種構(gòu)建方法的合理性和有效性。在后續(xù)模型優(yōu)化過程中,可以考慮擴(kuò)充數(shù)據(jù)維度、調(diào)整過程權(quán)重等方式進(jìn)一步優(yōu)化模型效果。