白 玲,陳井霞,劉志凱
(哈爾濱商業(yè)大學(xué)廣廈學(xué)院)
關(guān)聯(lián)規(guī)則在高校評教系統(tǒng)的應(yīng)用
白 玲,陳井霞,劉志凱
(哈爾濱商業(yè)大學(xué)廣廈學(xué)院)
利用關(guān)聯(lián)規(guī)則對高校教師進(jìn)行評價,進(jìn)而探索受學(xué)生歡迎的教師類型.
數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;Apriori算法
簡單地說,數(shù)據(jù)挖掘 (Data Mining,DM)是指從大量數(shù)據(jù)中提取或“挖掘”知識.廣義觀點是:數(shù)據(jù)挖掘是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫的大量數(shù)據(jù)中發(fā)現(xiàn)有趣知識的過程.它是“數(shù)據(jù)中的知識發(fā)現(xiàn)”(KDD)的一個非常重要的步驟.[1]
數(shù)據(jù)挖掘是知識發(fā)現(xiàn)中比較重要的步驟.數(shù)據(jù)挖掘流程如圖1所示.
圖1 數(shù)據(jù)挖掘流程
雖然挖掘的最后結(jié)果不可預(yù)測,但要探索的問題應(yīng)是有預(yù)見性的.首先要選擇合適的挖掘算法,然后按照不同算法進(jìn)行預(yù)處理.這一步非常重要,不同的算法可能需要不同的分析數(shù)據(jù)模型.數(shù)據(jù)挖掘的過程是一個多次循環(huán)反復(fù)的過程,每一個步驟一旦與預(yù)期目標(biāo)不符,都要回到前面步驟,重新調(diào)整,重新執(zhí)行.[2]
頻繁模式是頻繁地出現(xiàn)在數(shù)據(jù)集中的模式(如項集、子序列或子結(jié)構(gòu)).在挖掘數(shù)據(jù)之間的關(guān)聯(lián)、相關(guān)和許多其他有趣的聯(lián)系時,頻繁模式起著重要的作用.因此頻繁模式的挖掘就成了一項重要的挖掘任務(wù)和挖掘研究關(guān)注的主題之一.[1]
關(guān)聯(lián)規(guī)則挖掘過程一般分兩步:
第一步:找出所有的頻繁項集.根據(jù)定義,這些項集的每一個出現(xiàn)的頻繁性至少與預(yù)定義的最小值支持計數(shù)min_sup一樣.
第二步:由頻繁項集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則:根據(jù)定義,這些規(guī)則必須滿足最小支持度和最小置信度.
Apriori算法是Agrawal和 R.Srikant于1994年提出的為布爾關(guān)聯(lián)規(guī)則挖掘頻繁項集的原創(chuàng)算法.
Apriori算法分析:算法使用頻繁項集性質(zhì)的先驗知識.Apriori使用一種稱作逐層搜索的迭代方法,k項集用于探索(k+1)項集.首先,通過掃描數(shù)據(jù)庫,累積每個項的計數(shù),并收集滿足最小支持度的項,找出頻繁1項集的集合.該集合記作L1.然后,L1用于找頻繁2項集的集合,L2用于找L3,如此下去,直到不能再找到頻繁k項集.找每個Lk需要一次數(shù)據(jù)庫全掃描.[1]
算法選擇:選用經(jīng)典的Apriori算法.
挖掘?qū)ο?全?,F(xiàn)任專兼職教師,79人次,100門課程.
挖掘目標(biāo):挖掘?qū)W生更喜歡哪類教師,學(xué)歷高還是職稱高?
數(shù)據(jù)采集:2010-2011第一學(xué)期的教師評價表
數(shù)據(jù)源類型:Excel工作表
挖掘工具:SPSS Clementine
原始表有兩個,一個是教師基本信息表,一個是學(xué)生評教表,因為有些教師信息不全,所以采用忽略元組的方式,將資料不全的教師信息刪除.將兩表集成后得到教師評估表.因為主要針對職稱、學(xué)歷、評分結(jié)果信息挖掘,其他字段對來說沒有意義,所以將其余字段刪除.由于Apriori算法是基于布爾型的算法,對連續(xù)數(shù)據(jù)無法使用,所以需對評分結(jié)果離散化,離散標(biāo)準(zhǔn)是:設(shè)大于等于90分為“優(yōu)秀”;大于等于85分為“良好”;大于等于80分為“中等”;小于80分為“一般”四個等級.離散化后教師評估表如表1所示.
表1 離散化后的教師評估表
利用Apriori算法,在Clmentine下建立的數(shù)據(jù)挖掘模型如圖2所示.
圖2是針對本次挖掘任務(wù)所設(shè)計的流.流中將“教師評估表.xls”作為源文件節(jié)點.添加類型節(jié)點建立庫與模型間的數(shù)據(jù)傳輸,Apriori算法模型中共用到了6個屬性字段,所以叫6字段,最后將圖形節(jié)點填入流中,實現(xiàn)了結(jié)果多樣性.
建模過程及主要參數(shù)配置如下:
(1)建立數(shù)據(jù)源節(jié)點.教師評估表.xls
圖2 Apriori關(guān)聯(lián)規(guī)則數(shù)據(jù)模型
(2)建立類型節(jié)點,與數(shù)據(jù)源連接.將所有字段將方向設(shè)置為兩者.
(3)建立Apriori模型,與類型連接.將后項、前項設(shè)置為全選;最低支持度設(shè)為10%,最低置信度設(shè)為60%,最大前項數(shù)設(shè)為2.
(4)建立網(wǎng)絡(luò)圖形,與類型連接.將可顯示的最大鏈接數(shù)設(shè)為15.其他默認(rèn)即可.
(1)模型評估:執(zhí)行關(guān)聯(lián)規(guī)則模型得到挖掘結(jié)果1,見表1.
表1 數(shù)據(jù)挖掘結(jié)果1
(2)圖形表示:挖掘結(jié)果2(DAG布局),如圖3所示.
圖3 數(shù)據(jù)挖掘結(jié)果2(DAG布局)
(1)由表1分析可知:
①職稱為講師、學(xué)歷是本科的教師,課程評分是優(yōu)秀.
②職稱是講師的教師,課程評分是優(yōu)秀.
③職稱為講師、學(xué)歷是研究生的教師,課程評分是優(yōu)秀.
④學(xué)歷是研究生的教師,課程評分是優(yōu)秀.
⑤職稱是助教、學(xué)歷是研究生的教師,課程評分是優(yōu)秀.
⑥職稱是助教、學(xué)歷是本科的教師,課程評分是優(yōu)秀.
規(guī)則中,沒有挖掘出評分為良好、中等、一般的情況,說明有些統(tǒng)計結(jié)果還是偏高,有部分學(xué)生填寫不夠認(rèn)真導(dǎo)致.
(2)由圖4分析可知:
圖中將學(xué)歷、職稱劃分為一組,對應(yīng)評分結(jié)果產(chǎn)生連線.線條較密集(粗)的有以下幾根:
①研究生和優(yōu)秀
②助教和優(yōu)秀
③本科和優(yōu)秀
④講師和優(yōu)秀
這與生成規(guī)則得出的結(jié)論完全相符.
(3)誤差原因分析:
①由于本次參與測試的原始數(shù)據(jù)只有79名教師,100門課程,共176條記錄,規(guī)模不是很大.
②部分教師的資料不是實時更新的,這對挖掘結(jié)果都有一定的影響.
③在對原始數(shù)據(jù)進(jìn)行離散化處理時,可能也產(chǎn)生了誤差.
從結(jié)果前項中看到,職稱基本上是講師和助教、學(xué)歷基本上是本科和研究生,這說明象學(xué)校這樣的有十年校齡的民辦高校中,大部分骨干教師都是本科起點的講師和研究生起點的助教為主.
而從后項評分結(jié)果都是優(yōu)秀中能夠看出,教師的教學(xué)效果得到了大部分學(xué)生的認(rèn)可.這說明學(xué)生喜歡的并不全是職稱高,學(xué)識深的有多年教學(xué)經(jīng)驗的老教師.而年輕的肯干的青年教師,縮短了和學(xué)生之間的差距和代溝,更受到學(xué)生的歡迎.
這個結(jié)論說明,學(xué)?,F(xiàn)任助教和講師的教學(xué)水平得到了學(xué)生的認(rèn)可,可能與以下因素有關(guān):
(1)教師隊伍比較年輕,在和學(xué)生溝通方面沒有障礙.
(2)雖然看到的職稱是助教和講師,但其實這些老師在此崗位已經(jīng)工作多年,積累了很多教學(xué)經(jīng)驗,已經(jīng)接近評定下一職稱的年限,工作能力比較強(qiáng).
[1]Han Jiawei,Micheline Kamber.范明,孟小峰,譯.數(shù)據(jù)挖掘概念與技術(shù):原第二版.北京:機(jī)械工業(yè)出版社,2008.
[2]劉宇陽.數(shù)據(jù)挖掘技術(shù)在高校學(xué)生成績分析中的應(yīng)用[J].交通科技與經(jīng)濟(jì),2008,47(3):65 -67.
[3]陳輝,向偉忠,單健.關(guān)聯(lián)規(guī)則挖掘在教師教學(xué)評價系統(tǒng)中的應(yīng)用[J].南華大學(xué)學(xué)報:自然科學(xué)版,2005,19(1):104-107,118.
The Application of Association Rules in University Teaching Assessment System
Bai Ling,Chen Jingxia,Liu Zhikai
(Harbin University of Commerce)
The teachers in the universities are evaluated by using association rules,further the types of teachers welcomed by students are explored.
Data mining;Association rules;Apriori algorithm
2010-11-01
(責(zé)任編輯:黃永輝)