崔薛騰
(長(zhǎng)春大學(xué)教務(wù)處,吉林長(zhǎng)春130022)
大數(shù)據(jù)環(huán)境下的高校成績(jī)預(yù)警算法研究*
崔薛騰
(長(zhǎng)春大學(xué)教務(wù)處,吉林長(zhǎng)春130022)
在高校學(xué)生成績(jī)預(yù)警研究中,傳統(tǒng)的分析是使用統(tǒng)計(jì)匯總方法,這種方法挖掘出的規(guī)律不夠深入,并缺乏明確的指導(dǎo)原則.該文以教務(wù)成績(jī)信息和數(shù)據(jù)挖掘理論為基礎(chǔ),重點(diǎn)研究了大數(shù)據(jù)環(huán)境下的高等院校成績(jī)預(yù)警算法設(shè)計(jì)與優(yōu)化,提出了一種基于關(guān)聯(lián)分析技術(shù)的預(yù)警機(jī)制,保證預(yù)警系統(tǒng)知識(shí)庫(kù)規(guī)則的豐富、科學(xué)和完備.通過對(duì)某高校同一專業(yè)學(xué)生的成績(jī)進(jìn)行預(yù)警知識(shí)挖掘,獲得了預(yù)警規(guī)則集,進(jìn)而幫助學(xué)生對(duì)課程的未來(lái)成績(jī)走向進(jìn)行預(yù)測(cè),并相應(yīng)地調(diào)整學(xué)習(xí)計(jì)劃,為教學(xué)管理提供有效的決策支持.
大數(shù)據(jù);教育;數(shù)據(jù)挖掘;關(guān)聯(lián)分析;成績(jī)預(yù)警
大數(shù)據(jù)時(shí)代的到來(lái)為世界帶來(lái)了一場(chǎng)全面的革命,對(duì)社會(huì)的進(jìn)步和變革起到了巨大的推動(dòng)作用.大數(shù)據(jù)具有數(shù)據(jù)量大、種類繁多、價(jià)值密度低的特性,如何對(duì)大數(shù)據(jù)進(jìn)行更加有效、快速的存儲(chǔ)、采集、處理和分析成為當(dāng)前研究的重點(diǎn).其中,教育領(lǐng)域在大數(shù)據(jù)研究方面也遇到了前所未有的挑戰(zhàn)和機(jī)遇.隨著我國(guó)高等教育改革的不斷深入和發(fā)展,網(wǎng)絡(luò)教學(xué)、移動(dòng)教學(xué)、社交網(wǎng)絡(luò)及高校各類信息系統(tǒng)的使用,促進(jìn)了學(xué)生、教師數(shù)據(jù)量的快速激增,尤其在學(xué)校的教務(wù)系統(tǒng)中,存在著大量的教學(xué)信息數(shù)據(jù)[1].但是,這些數(shù)據(jù)目前大多處于沉睡的狀態(tài),沒有得到有效的利用,而且隨著數(shù)據(jù)量的持續(xù)增加,很多前期數(shù)據(jù)被當(dāng)作垃圾數(shù)據(jù)清理掉,造成巨大的信息資源浪費(fèi).因此,如何充分利用此類數(shù)據(jù),將數(shù)據(jù)轉(zhuǎn)化成促進(jìn)教學(xué)效果的知識(shí)和信息,幫助教務(wù)管理者和教師進(jìn)行教學(xué)決策、課程優(yōu)化等服務(wù),是大數(shù)據(jù)時(shí)代教務(wù)工作者必須重視的問題.
高等院校在教學(xué)運(yùn)行過程中,學(xué)生的成績(jī)管理是教務(wù)工作關(guān)注的重點(diǎn).課程成績(jī)不僅是學(xué)生個(gè)人學(xué)習(xí)能力的體現(xiàn),可以為學(xué)生選擇研究方向、工作方向提供參考,還是高校教學(xué)質(zhì)量的重要反映,對(duì)高校加強(qiáng)教學(xué)管理、調(diào)整教學(xué)方式和方法具有重要的指導(dǎo)意義.隨著大數(shù)據(jù)時(shí)代的到來(lái),高等院校在教務(wù)管理系統(tǒng)的研發(fā)和應(yīng)用方面有了快速的發(fā)展,并積累了海量的教務(wù)管理和教學(xué)過程數(shù)據(jù).高校的教學(xué)管理工作者一直致力于通過分析此類數(shù)據(jù)促進(jìn)高校教務(wù)管理能力和管理水平,但是,常用的方法都是通過傳統(tǒng)的統(tǒng)計(jì)匯總完成的,這種方法挖掘出的規(guī)律不夠深入,并缺乏明確的指導(dǎo)原則,在大數(shù)據(jù)環(huán)境下這些分析方式的缺陷更加突出.基于上述觀點(diǎn),本文基于數(shù)據(jù)挖掘算法對(duì)大數(shù)據(jù)環(huán)境下的高校成績(jī)預(yù)警模型進(jìn)行了研究和構(gòu)建.高校成績(jī)預(yù)警模型通過對(duì)大學(xué)生的課程成績(jī)進(jìn)行分析,能夠挖掘出學(xué)科課程間的聯(lián)系,并結(jié)合實(shí)際成績(jī)數(shù)據(jù)獲取預(yù)警信息,幫助學(xué)生對(duì)課程的未來(lái)成績(jī)走向進(jìn)行預(yù)測(cè),然后根據(jù)預(yù)測(cè)結(jié)果制定相應(yīng)的方案,為教學(xué)管理提供有效的決策支持.
所謂預(yù)警,是指在事件發(fā)生前對(duì)事件發(fā)生的潛在可能性進(jìn)行預(yù)測(cè)并提供警示信息的過程.在大數(shù)據(jù)環(huán)境下,基于現(xiàn)有的數(shù)據(jù)和知識(shí),預(yù)警可以通過數(shù)據(jù)挖掘技術(shù)對(duì)事物的發(fā)展規(guī)律進(jìn)行總結(jié)和分析,描述、預(yù)測(cè)事物的發(fā)展趨勢(shì),然后與目標(biāo)閾值進(jìn)行對(duì)比,判斷是否發(fā)出必要的信號(hào)和警示,以便事件主體有充足的時(shí)間采取適當(dāng)?shù)奶幹脤?duì)策[2-3].
隨著我國(guó)教育信息化、網(wǎng)絡(luò)化的發(fā)展和應(yīng)用,從積累的大數(shù)據(jù)倉(cāng)庫(kù)中提取有用的成績(jī)預(yù)警規(guī)則并建立一套預(yù)警系統(tǒng)成為教育工作者的重要研究方向.基于教務(wù)系統(tǒng)中的成績(jī)數(shù)據(jù),自動(dòng)預(yù)警系統(tǒng)能夠自動(dòng)構(gòu)建預(yù)警模型并應(yīng)用模型提供必要的預(yù)警信息,這種從真實(shí)數(shù)據(jù)提取的知識(shí)具有更高的應(yīng)用價(jià)值.本文首先對(duì)基于數(shù)據(jù)挖掘算法的成績(jī)預(yù)警系統(tǒng)框架進(jìn)行簡(jiǎn)要的介紹,如圖1所示.
圖1 成績(jī)預(yù)警系統(tǒng)框架
成績(jī)預(yù)警系統(tǒng)包括成績(jī)數(shù)據(jù)導(dǎo)入、數(shù)據(jù)預(yù)處理、知識(shí)挖掘建模、參數(shù)設(shè)置、成績(jī)預(yù)警、預(yù)警信息輸出等模塊,以及一個(gè)預(yù)警知識(shí)庫(kù)組成.其中,知識(shí)挖掘建模模塊是系統(tǒng)的重要核心,它能夠基于用戶預(yù)置參數(shù)和教務(wù)系統(tǒng)成績(jī)數(shù)據(jù)挖掘出預(yù)警規(guī)則和知識(shí),并將這些知識(shí)存儲(chǔ)到預(yù)警知識(shí)庫(kù)內(nèi).因?yàn)榻虅?wù)系統(tǒng)數(shù)據(jù)是不斷變化的,因此,預(yù)警系統(tǒng)需要從數(shù)據(jù)庫(kù)中定期更新成績(jī)數(shù)據(jù),構(gòu)建新的預(yù)警模型,形成新的預(yù)警規(guī)則和策略.
針對(duì)監(jiān)測(cè)數(shù)據(jù),成績(jī)預(yù)警系統(tǒng)能夠根據(jù)知識(shí)庫(kù)的規(guī)則和事先制定的預(yù)警閾值來(lái)判斷是否發(fā)出預(yù)警.最后的預(yù)警模塊和信息輸出模塊能夠?qū)ν馓峁┮幌盗械目刂平涌?,進(jìn)而與其他系統(tǒng)聯(lián)動(dòng)完成整個(gè)成績(jī)預(yù)警過程.
2.1 成績(jī)預(yù)警規(guī)則介紹
成績(jī)預(yù)警規(guī)則是對(duì)被預(yù)警課程成績(jī)與前期已修課程成績(jī)間關(guān)聯(lián)或依賴關(guān)系的反映,被預(yù)警課程成績(jī)能夠根據(jù)關(guān)聯(lián)課程成績(jī)進(jìn)行預(yù)警[4-5].預(yù)警系統(tǒng)主要應(yīng)用關(guān)聯(lián)分析技術(shù)產(chǎn)生預(yù)警規(guī)則,在教務(wù)管理的過程中,系統(tǒng)首先將監(jiān)測(cè)數(shù)據(jù)處理成標(biāo)準(zhǔn)的數(shù)據(jù)格式,然后根據(jù)數(shù)據(jù)特征從預(yù)警知識(shí)庫(kù)中提取相應(yīng)的預(yù)警規(guī)則,并將預(yù)警規(guī)則和監(jiān)測(cè)數(shù)據(jù)對(duì)比:首先在規(guī)則集的前項(xiàng)中查找監(jiān)測(cè)數(shù)據(jù),若均無(wú)法匹配,則使用下一條規(guī)則重新比對(duì);若匹配成功,則根據(jù)事先的策略產(chǎn)生綜合預(yù)警信息.
2.2 基于關(guān)聯(lián)分析技術(shù)的成績(jī)預(yù)警算法
關(guān)聯(lián)分析技術(shù),是指從數(shù)據(jù)集中挖掘頻繁項(xiàng)集的技術(shù),它形成一系列形如X→Y的規(guī)則,其中,X代表發(fā)生前項(xiàng)事件,Y代表預(yù)警事件.關(guān)聯(lián)分析產(chǎn)生的規(guī)則稱為關(guān)聯(lián)規(guī)則.關(guān)聯(lián)分析通過提取滿足支持度、置信度要求的規(guī)則對(duì)事件的前后項(xiàng)關(guān)系進(jìn)行預(yù)測(cè).
支持度:表示在所有的事務(wù)中,項(xiàng)集{X,Y}出現(xiàn)的概率大小.如下所示:
Support(X→Y)=P(X,Y)=P(X∪Y)
置信度:表示發(fā)生事務(wù)X的前提下,由“X→Y”得到Y(jié)的概率大小.即在所有包含X的項(xiàng)集內(nèi),包含Y的概率,如下所示:
Confidence(X→ Y) = P(Y|X) =P(X,Y)/P(X)=P(X∪Y)/P(X)
基于教務(wù)系統(tǒng)大數(shù)據(jù)的成績(jī)預(yù)警模型主要以關(guān)聯(lián)分析技術(shù)為基礎(chǔ)進(jìn)行構(gòu)建.但是,由于傳統(tǒng)的關(guān)聯(lián)分析算法會(huì)產(chǎn)生很多無(wú)用的、冗余的關(guān)聯(lián)規(guī)則,這些規(guī)則會(huì)對(duì)最終的預(yù)警結(jié)果產(chǎn)生很大的影響,顯著降低預(yù)警的精度.因此,在實(shí)際應(yīng)用過程中,對(duì)算法流程進(jìn)行了一定的約束和優(yōu)化:
(1)最小支持度.支持度是項(xiàng)集在數(shù)據(jù)集中出現(xiàn)的概率,反映了數(shù)據(jù)項(xiàng)集的普遍規(guī)律.在數(shù)據(jù)挖掘過程中,要保證所分析出的規(guī)則和規(guī)律具有普遍性,因此需要對(duì)最小支持度進(jìn)行限制,這樣才能使得到的結(jié)果具有現(xiàn)實(shí)意義.
(2)最低置信度.置信度的大小代表了預(yù)測(cè)結(jié)果的準(zhǔn)確度,如果最低置信度設(shè)置得較小,會(huì)將準(zhǔn)確度較低的規(guī)則都納入到關(guān)聯(lián)規(guī)則中來(lái),從而顯著降低預(yù)測(cè)的效果.同時(shí),也會(huì)增加建模的硬件壓力和時(shí)間.
(3)后件約束.通常,算法中不對(duì)關(guān)聯(lián)規(guī)則的前件和后件屬性進(jìn)行約束.但是,在進(jìn)行高校學(xué)生成績(jī)預(yù)警的過程中,要求規(guī)則的后件必須為限定條件下的項(xiàng)集元素.也就是說,需要對(duì)預(yù)警規(guī)則的后件進(jìn)行一定的約束.約束后不僅能夠保證算法的正常運(yùn)行,還能將無(wú)效規(guī)則剔除,從而提高算法的運(yùn)行效率.
(4)順序約束.在關(guān)聯(lián)分析中,規(guī)則的前件和后件順序沒有固定的限制和要求.但是在學(xué)生成績(jī)預(yù)警時(shí),后件課程需要發(fā)生在前件課程之后,這是課程大綱和業(yè)務(wù)需求所決定的.因此,在本文的算法設(shè)計(jì)過程中,需要加入前后件事件的時(shí)間順序約束.
本文設(shè)計(jì)的成績(jī)預(yù)警模型主要基于Apriori算法.通過算法分析和上述限制條件的約束,最終得到的規(guī)則和實(shí)際情況相比是比較符合的,可以把這些預(yù)警規(guī)則添加到規(guī)則庫(kù)內(nèi).Apriori算法得到的規(guī)則較多,但是有用的規(guī)則比例較低.本文經(jīng)過優(yōu)化后的算法能夠?qū)崿F(xiàn)定向的數(shù)據(jù)挖掘,在有約束的前提下獲取讓用戶更感興趣的知識(shí).算法描述如下所示:(其中:D1代表事務(wù)集,D2代表預(yù)警項(xiàng)集,L代表頻繁項(xiàng)集,C代表候選集,Rules代表預(yù)警規(guī)則集,seq代表項(xiàng)順序集,minsup代表最小支持度,minconf代表最小置信度)
Input:D1,minsup,minconf,D2,seq
Output:成績(jī)預(yù)警規(guī)則Rules
①初始化頻繁項(xiàng)集L1
②while(all Lk-1≠?)
a.產(chǎn)生新候選集Ck;
b.根據(jù)minsup分割Ck;
c.遍歷Ck中的全部候選項(xiàng)并對(duì)計(jì)數(shù);
d.選擇Ck中支持度大于minsup的集合作為L(zhǎng)k;
③end
④while(all Lk)
a.對(duì)于同時(shí)屬于L和D2的子集lk,要求lk滿足:x∈(Lk-lk),y∈lk,有(x,y)∈seq;
b.while(all lk)
置信度=support(Lk)/support(Lk-lk);
if置信度≥minconf
Rules=Rules∪{(Lk-lk)→lk};
end
c.end
⑤end
隨著我國(guó)高校規(guī)模的迅速擴(kuò)大和學(xué)生數(shù)量的不斷增加,我國(guó)高等教育的發(fā)展水平取得了很大的進(jìn)步.隨著在校學(xué)生的增長(zhǎng),高等院校的教育質(zhì)量和教學(xué)成果受到了廣泛的關(guān)注.通過高等院校的培養(yǎng),大學(xué)生能否順利畢業(yè),能否滿足就業(yè)的需求成為社會(huì)關(guān)注的焦點(diǎn).因此,高校教學(xué)工作要加強(qiáng)對(duì)學(xué)生學(xué)習(xí)水平的考核與管理,這樣才能保證學(xué)生學(xué)習(xí)的質(zhì)量和教師教學(xué)的效果.然而,由于我國(guó)高校的辦學(xué)方式主要是自主管理,所以課程的數(shù)量和種類變化很大,使得對(duì)高校學(xué)生的管理和培養(yǎng)更加困難,嚴(yán)重影響了大學(xué)生的發(fā)展[6].
通過上文的介紹,預(yù)警規(guī)則模型能夠通過對(duì)教務(wù)系統(tǒng)數(shù)據(jù)庫(kù)成績(jī)數(shù)據(jù)的分析,挖掘數(shù)據(jù)中的潛在規(guī)律,建立成績(jī)預(yù)警知識(shí)庫(kù),以輔助學(xué)校的教學(xué)管理和教務(wù)決策工作.這樣就能夠通過提前預(yù)警,幫助學(xué)生及早發(fā)現(xiàn)學(xué)習(xí)中的問題,進(jìn)而通過改正問題提高學(xué)習(xí)的質(zhì)量,另外也能夠幫助教師優(yōu)化教學(xué)流程,完善教學(xué)體系,提高高校教育的系統(tǒng)化、合理化、科學(xué)化.為了對(duì)預(yù)警規(guī)則的有效性進(jìn)行驗(yàn)證,需要將高校教務(wù)系統(tǒng)中的成績(jī)數(shù)據(jù)代入模型,通過預(yù)警模塊產(chǎn)生預(yù)警信息,然后通過對(duì)比預(yù)警信息與實(shí)際成績(jī)確定模型分析效果.
下文以某高校同一專業(yè)87位學(xué)生的23門專業(yè)課程成績(jī)?yōu)槔M(jìn)行數(shù)據(jù)建模,模型將學(xué)生在大一期間的課程作為項(xiàng)集前件,在大二期間的課程作為項(xiàng)集后件,目的是建立預(yù)警規(guī)則,通過學(xué)生大一課程的成績(jī)對(duì)其大二課程成績(jī)進(jìn)行判斷和預(yù)警.模型最小置信度為0.6,最小支持度為0.3,最終模型得到了30條預(yù)警規(guī)則.部分規(guī)則如表1所示:
表1 部分預(yù)警規(guī)則
表1列出了部分模型挖掘出的預(yù)警規(guī)則.例如,高等數(shù)學(xué)A2與概率論與數(shù)理統(tǒng)計(jì)A、線性代數(shù)A之間的關(guān)聯(lián)性較強(qiáng),這幾門課程均屬于數(shù)學(xué)基礎(chǔ)課程,課程相互之間必然存在一定的關(guān)聯(lián).而且在大部分的課程培養(yǎng)方案中,高等數(shù)學(xué)通常作為最基礎(chǔ)的課程首先開設(shè).因此,當(dāng)學(xué)生出現(xiàn)“高等數(shù)學(xué)A2-不及格”的情況時(shí),預(yù)警模型就會(huì)對(duì)后續(xù)的概率論與數(shù)理統(tǒng)計(jì)A和線性代數(shù)A進(jìn)行預(yù)警,讓學(xué)生提前引起重視,合理調(diào)整學(xué)習(xí)計(jì)劃,也讓教師在教學(xué)過程中能夠更多關(guān)注此類學(xué)生.
另外,高等數(shù)學(xué)A2與數(shù)字電子技術(shù)、大學(xué)外語(yǔ)Ⅲ之間也具有顯著的關(guān)聯(lián)性.這個(gè)規(guī)律在課程內(nèi)容上雖然不是很明顯,但卻是一條具有統(tǒng)計(jì)意義的規(guī)律,這些課程在學(xué)生的理解方式、學(xué)習(xí)方法方面可能具有相似的部分.相對(duì)于很多顯而易見的規(guī)則,這些看似不相關(guān)的規(guī)則更加重要,因?yàn)樗鼈兡軌驗(yàn)榻虅?wù)管理工作者和教師提供更多的信息和啟發(fā),加深對(duì)學(xué)生、課程的理解,促進(jìn)教務(wù)工作摒棄以往根據(jù)主觀判斷進(jìn)行決策管理的方式,提高教務(wù)管理的系統(tǒng)性、科學(xué)性.
大數(shù)據(jù)對(duì)社會(huì)的進(jìn)步和變革起到了巨大的推動(dòng)作用,教育領(lǐng)域在大數(shù)據(jù)研究方面也遇到了前所未有的挑戰(zhàn)和機(jī)遇,如何充分利用大數(shù)據(jù),將數(shù)據(jù)轉(zhuǎn)化成促進(jìn)教學(xué)效果的知識(shí)和信息,幫助教務(wù)管理者和教師進(jìn)行教學(xué)決策、課程優(yōu)化等服務(wù),是大數(shù)據(jù)時(shí)代教務(wù)工作者必須重視的問題.本文以數(shù)據(jù)挖掘理論和高校成績(jī)預(yù)警現(xiàn)狀為基礎(chǔ),對(duì)高等院校成績(jī)預(yù)警算法進(jìn)行了設(shè)計(jì)和優(yōu)化,提出了一種基于關(guān)聯(lián)分析技術(shù)的預(yù)警機(jī)制,通過對(duì)某高校同一專業(yè)學(xué)生的成績(jī)進(jìn)行預(yù)警知識(shí)挖掘,獲得了預(yù)警規(guī)則集.根據(jù)預(yù)警規(guī)則集就可以形成預(yù)警信息,進(jìn)而指導(dǎo)教務(wù)管理工作者、教師和學(xué)生作出合理的決策,提高學(xué)習(xí)的質(zhì)量和效果.
[1]張慶利,李文斐.淺談提高本科教學(xué)質(zhì)量[J].高教探索,2003,19(1):27.
[2]柳炳祥.基于數(shù)據(jù)挖掘的危機(jī)管理及其預(yù)警方法研究[D].南京:東南大學(xué),2003.
[3]羅堯成,陳敬良,姚儉.我國(guó)高校課程與教學(xué)改革三十年:歷程、經(jīng)驗(yàn)與瞻望[J].中國(guó)高教研究,2009,24(2):11-14.
[4]Agrawal R,Imielinskia T,Swami A.Mining Association Rules between Sets of Items in Large Databases[C].Acm Sigmod Record.Washington D.C,1993:207-216.
[5]盧炎生,楊芬,趙棟.帶單調(diào)約束的關(guān)聯(lián)規(guī)則挖掘[J].計(jì)算機(jī)工程,2004,30(15):78-80.
[6]胡華平,張怡,陳海濤,等.面向大規(guī)模網(wǎng)絡(luò)的入侵檢測(cè)與預(yù)警系統(tǒng)研究[J].國(guó)防科技大學(xué)學(xué)報(bào),2003,25(1):21-25.
(責(zé)任編輯:王前)
圖6 提示信息
綜上所述,我們可以從Word文檔中要轉(zhuǎn)換為演示文稿中第一張幻燈片標(biāo)題文字的段落開始,將該段落之前不需要轉(zhuǎn)換的文字刪除,同時(shí)將該段落及其下面要轉(zhuǎn)換為演示文稿中各張幻燈片標(biāo)題文字的各段文字都設(shè)置成“標(biāo)題1”樣式,把要轉(zhuǎn)換為幻燈片的1級(jí)文本、2級(jí)文本、3級(jí)文本等的各段文字設(shè)置成“標(biāo)題2”“標(biāo)題3”“標(biāo)題4”等樣式,并放置在對(duì)應(yīng)的已設(shè)置成“標(biāo)題1”樣式文字段落的下面,然后進(jìn)行轉(zhuǎn)換就可以了.
參考文獻(xiàn):
[1]孫偉.計(jì)算機(jī)應(yīng)用基礎(chǔ)Win 7+Office 2010[M].北京:化學(xué)工業(yè)出版社,2015.
[2]王杰.PPT轉(zhuǎn)Word三妙招[J].電腦知識(shí)與技術(shù),2014(04).
[2]何勇.親密無(wú)間——Word2000與其他Office程序間的合作[J].電腦技術(shù),2001(02).
(責(zé)任編輯:岳朋)
TP274
1008-7974(2016)06-0075-04
10.13877/j.cnki.cn22-1284.2016.12.024
2016-08-09
吉林省教育科學(xué)“十三五”規(guī)劃課題(ZD16022)
崔薛騰,男,吉林長(zhǎng)春人,教師.
通化師范學(xué)院學(xué)報(bào)2016年12期