劉昆
摘要:序列模式挖掘表示在序列數(shù)據(jù)庫匯總找出頻繁子序列使之成為模式的一項知識發(fā)現(xiàn)的過程。在教學(xué)管理中應(yīng)用序列模式挖掘,根據(jù)一定的序列數(shù)據(jù)模式將學(xué)生成績樣本實行建模以及信息挖掘,獲得三條高于65%置信度的時序關(guān)聯(lián)規(guī)律。經(jīng)過實驗可知,在教學(xué)管理中運用序列模式挖掘,挖掘?qū)W生教學(xué)成績具有一定的可行性,得出的時序關(guān)聯(lián)規(guī)律可以促進教學(xué)管理,促進學(xué)生學(xué)業(yè)成績的提升。
關(guān)鍵詞:序列模式;數(shù)據(jù)挖掘;教學(xué)管理;運用
中圖分類號:TP391 文獻標(biāo)識碼:A 文章編號:1009-3044(2016)13-0189-02
序列模式挖掘是屬于數(shù)據(jù)挖掘范疇內(nèi)的一個常用的分支,該模式未來的應(yīng)用前景非常廣闊,該模式能夠根據(jù)時間序列數(shù)據(jù)庫發(fā)掘先后事件之間存在的關(guān)聯(lián)規(guī)律,序列模式發(fā)掘在教師管理中充分應(yīng)用,能夠發(fā)掘?qū)W習(xí)者在學(xué)習(xí)成績方面具有前導(dǎo)后續(xù)的時序關(guān)系規(guī)律,同時可以得出這一關(guān)聯(lián)規(guī)律在教學(xué)管理應(yīng)用可以幫助進行科學(xué)的決策有利于教師做出指導(dǎo)性的建議。
1序列模式挖掘模型
I代表的是項目全集,這一全集指的是論域內(nèi)相關(guān)的獨立數(shù)據(jù)項構(gòu)成的非空數(shù)集I={i1,i2,…,Im}(k=1,2,…,m)代表的是單獨的數(shù)據(jù)項。
項集sj=(1,2,…,2m-1),指的是一個全集 I 若干項目構(gòu)成的集合,可以得出sj?I且 s 存在的數(shù)量2m-1。增加時間屬性之后集合T為:
T = { 2 學(xué)生成績序列模式建模 2.1數(shù)據(jù)抽取 從某一教學(xué)管理數(shù)據(jù)庫中抽取一定的學(xué)生成績當(dāng)做初識的數(shù)據(jù)信息,在數(shù)據(jù)庫中僅僅讀取和成績相關(guān)的數(shù)據(jù)字段,涉及學(xué)年學(xué)期、課程名稱、學(xué)號等。 2.2 隱私保護 抽取的成績樣本屬于學(xué)生的隱私范疇的內(nèi)容,因此對所抽取的樣本信息實施隱私保護[1]。為了保護信息,可以歪曲處理相關(guān)初始的一些信息,關(guān)聯(lián)規(guī)律發(fā)掘的對象是集聚信息的數(shù)據(jù)集并非單獨的數(shù)據(jù)項目,所以存在足夠數(shù)據(jù)信息的狀況下,可以對具體的數(shù)據(jù)進行歪曲處理,數(shù)據(jù)集設(shè)計統(tǒng)計和聚集信息能夠得到準(zhǔn)確的儲存,對處理之后的信息發(fā)掘關(guān)聯(lián)規(guī)律,一方面可以有效保護隱私,另一方面可以發(fā)掘數(shù)據(jù)集內(nèi)部存在的關(guān)聯(lián)性[2]。面對獲得的樣本數(shù)據(jù),在數(shù)據(jù)信息統(tǒng)一的基礎(chǔ)之上,使用隨機的方法替換學(xué)號,隱蔽實際的學(xué)號,這是隱私保護的主要手段 2.3 過濾 獲得成績信息中總評成績字段涉及部分意義不大字段信息,比如,曠考、緩考等信息,對于這部分信息需要過濾掉[3]。與此同時,為了確保數(shù)據(jù)自身的完善性,假如過濾掉部分信息,那么這一實體需要刪除全部信息。 2.4 離散化 總評成績字段最初信息可以在0 ~100進行隨意取值,為方便進行分類處理,最為簡便的方式是設(shè)置一個合格界限60,離散為是否合格兩種取值形式。 2.5 建立序列數(shù)據(jù)模型 在教學(xué)數(shù)據(jù)庫中,最初的成績保存形式是一條記錄儲存一項成績,這屬于時序數(shù)據(jù)庫基礎(chǔ)上的事務(wù)模式: M={Tid,Cid,Time,Item_set} 差別非常大,因此必須轉(zhuǎn)變課程信息并建立模型。 1)時間段劃分 通常來說,學(xué)習(xí)成績可以根據(jù)學(xué)期將成績獲取時間化為8個時間段,也就是四個學(xué)年,每個學(xué)年存在2個學(xué)期。但是也可能存在別的狀況,比如,一個學(xué)年存在三個學(xué)期,如果是這種情況的話,需要按照實際的狀況劃分具體的時間段。 2)代換 為方便對數(shù)據(jù)進行處理,應(yīng)當(dāng)對課程名稱以及經(jīng)過離散獲得成績利用符號的形式進行轉(zhuǎn)換。比如,我們單純關(guān)注不合格成績,這樣對后續(xù)的課程出現(xiàn)的不及格成績是否會造成影響,可以將各個幾個成績信息過濾后,使用字母符號針對某一課程涉及的不及格數(shù)據(jù)進行表示。 3)歸并 在相同的時間段內(nèi)獲得相同學(xué)生的成績應(yīng)當(dāng)劃分到一條事務(wù)之中,可以保障數(shù)據(jù)同序列數(shù)據(jù)事務(wù)模式M相符,繼而便于后學(xué)的序列模式發(fā)掘。假定初始成績?nèi)缤?所示,對其進行離散、按照時間段進行劃分、進行一系列的替換以及歸并之后得出的序列數(shù)據(jù)庫事務(wù)(如表2所示)。 3 GSP 算法 GSP 算法數(shù)據(jù)最具代表性的Apriori 類型的方法,當(dāng)然也有很多需要進行掃描的數(shù)據(jù)庫同時具有一定的缺陷比如候選集量太大,但是因為本次研究需要進行處理的樣本信息數(shù)量相對小,因此使用GSP 算法具有一定的可行性[4]。GSP 算法描述如下: 4 序列模式挖掘?qū)嶒灱敖Y(jié)果 學(xué)生成績樣本經(jīng)過一定的過濾獲得共計50000多條信息,在進行離散、劃分、替換以及歸并等操作之后,獲得序列模式數(shù)據(jù)庫D,進而使用GSP 算法發(fā)掘序列模式,將最后的發(fā)掘情況進行關(guān)聯(lián)規(guī)律的轉(zhuǎn)變,高于65%的置信度的存在三條: 1)Confidence( 高數(shù) 1 不合格→高數(shù) 2 不及格)= 66% ; 2)Confidence( 英語1 不合格∩英語2 不及格→英語 3 不合格) =73%; 3)Confidence( 信息技術(shù) 1 不合格→信息技術(shù) 2不合格) =87%。 其置信度越高就表示假如規(guī)律涉及的條件具備的情況下,這樣規(guī)則情況出現(xiàn)的幾率也就會更高。規(guī)律3具有87%的置信度,通過一系列的分析,產(chǎn)生這一情況的原因是只有極少數(shù)人的信息技術(shù)1不合格,但是大多數(shù)人的信息技術(shù)2 是不合格的,也就是說信息技術(shù)1沒有過關(guān)的這部分人中,大部分的人他們的信息技術(shù)2是不合格的。這表明各項功課不合格幾率的差異會在一定程度上影響發(fā)掘的最終結(jié)果。此外,站在規(guī)律推廣立場上講,假如需要采用序列模式發(fā)掘獲得 鼓勵對后續(xù)工程不合格的概率進行預(yù)測,本質(zhì)上還不存在確切的可以進行表述的約束條件,樣本成績以及需要進行預(yù)測的成績不合格率應(yīng)當(dāng)基本相當(dāng),不然的話獲得的規(guī)律缺乏較高的有效性。上述獲得三條管理可以指導(dǎo)學(xué)校的教學(xué)管理活動,也可以指導(dǎo)學(xué)生的學(xué)習(xí)進展。具有較高置信度的關(guān)聯(lián)規(guī)則,假如其條件具備,則規(guī)則中涉及的情況出現(xiàn)幾率就會增加,假如不想出現(xiàn)規(guī)則結(jié)果,可以實施一定的措施進行補救。比如,一個學(xué)生的英語1、2均不合格,必須提醒他英語3很可能還會不合格,不合格風(fēng)險高達75%,要求該學(xué)生充分重視,學(xué)習(xí)更加努力,另外對其進行針對性的輔導(dǎo),加快成績的提升。 5 結(jié)束語 文章中在教學(xué)管理中運用序列模式挖掘,充分發(fā)掘?qū)W生成績樣本數(shù)據(jù),獲得三項較高置信度的時序關(guān)聯(lián)規(guī)則,所得出的規(guī)律可以有效指導(dǎo)教學(xué)管理工作,教師可以針對具體規(guī)律中涉及的情況進行合理的分析,對于問題采取積極的措施進行規(guī)避,對于不足進行改善,促進教學(xué)質(zhì)量和水平的提升,對于學(xué)生的具體的情況,制定特定的教育方案,提升學(xué)生的學(xué)業(yè)成績。 參考文獻: [1] 侯錕.數(shù)據(jù)挖掘技術(shù)在高校教育教學(xué)中的應(yīng)用[J].吉林省教育學(xué)院學(xué)報:下旬,2012(28):51-52. [2] 王智鋼,王池社,顧云鋒,等.序列模式挖掘在教學(xué)管理上的應(yīng)用[J].計算機與現(xiàn)代化,2012(11):22-25. [3] 劉美玲,李熹,李永勝.數(shù)據(jù)挖掘技術(shù)在高校教學(xué)與管理中的應(yīng)用[J]. 計算機工程與設(shè)計,2010(31): 1130-1133. [4] 劉雨露.數(shù)據(jù)挖掘在高校學(xué)生管理決策中的應(yīng)用模式分析[J].成都信息工程學(xué)院學(xué)報,2015(3):373-377.