張貴元
摘 要:數(shù)據(jù)挖掘是在海量的數(shù)據(jù)中尋找模式或規(guī)則的過程。隨著學(xué)校招生規(guī)模的擴大,在校學(xué)生成績分布越來越復(fù)雜,傳統(tǒng)的成績分析有一定的局限性,該文介紹了K-means聚類算法的原理和算法流程,針對學(xué)生成績數(shù)據(jù)進行選擇、預(yù)處理,運用K-means聚類算法對學(xué)生成績數(shù)據(jù)進行聚類挖據(jù)分析等。通過聚類結(jié)果分析,打破原有成績分析得局限,使現(xiàn)有數(shù)據(jù)體現(xiàn)更好的價值,從而輔助教學(xué)管理者做出相應(yīng)決策,更好地提高教學(xué)質(zhì)量。
關(guān)鍵詞:數(shù)據(jù)挖掘 K-means算法 聚類分析 成績分析
中圖分類號:TP31 文獻標識碼:A 文章編號:1674-098X(2016)01(c)-0090-03
Abstract:Data mining is the process of finding patterns or rules in massive data. With the expansion of school enrollment,students in grades distribution are more and more complex,the traditional performance analysis has some limitations.This paper introduces the theory and algorithm process of K-means clustering algorithm,to choose for student achievement data,preprocessing, on student achievement data clustering mining to analysis using the K-means clustering algorithm.Through the analysis of clustering results,breaking the original performance analysis is limited,so that the existing data to reflect the better value,so as to assist the teaching managers to make corresponding decisions,to better improve the quality of teaching.
Key Words:Data mining;K-means algorithm;Clustering analysis;Performance analysis
在現(xiàn)代信息化被廣泛應(yīng)用的時代,在我們?nèi)粘=虒W(xué)中,面對錯綜復(fù)雜的學(xué)生成績信息和各種各樣的學(xué)習(xí)方法和學(xué)習(xí)方式,針對學(xué)生不及格的課程成績信息群體,我們傳統(tǒng)的數(shù)據(jù)分析有一定的局限性,通常還是停留在簡單的統(tǒng)計、查詢和匯總等層面,往往對這些數(shù)據(jù)背后的深一層原因無所了解,而聚類分析通過數(shù)據(jù)挖掘技術(shù)對這個數(shù)據(jù)群體進行處理,通過聚類、劃分、分群,將有助于學(xué)校從堆積如山的數(shù)據(jù)中,發(fā)掘有利于教學(xué)的具有針對性的信息。利用聚類分析方法能從數(shù)據(jù)中找出相關(guān)的特征或模式,可以幫助學(xué)校針對不學(xué)生的學(xué)習(xí)狀況,制定針對性的教學(xué)策略,對學(xué)生信息聚類和分組可以幫助改善學(xué)生學(xué)習(xí)成績,并且可以根據(jù)此數(shù)據(jù)信息預(yù)測將來的成績趨勢,輔助學(xué)校進行教學(xué)管理。
1 聚類分析
數(shù)據(jù)挖掘的方法中聚類是對記錄分組,把相似的記錄放在一個類別里。聚類和分類的區(qū)別是聚類不依賴于預(yù)先定義好的類,不需要訓(xùn)練集。
聚類分析中,首先需要確定基本聚類分析原則,在各聚集內(nèi)部數(shù)據(jù)對象間之間,追求的是相似度最大化。而在各聚集對象之間,追求的是相似度最小化。在進行聚類分析時,聚類分析所獲得的組可視為同類別的歸屬,也可視為該類歸屬的數(shù)據(jù)對象集合。聚類分析已經(jīng)在模式識別圖像處理、市場分析和數(shù)據(jù)分析等領(lǐng)域得到了廣泛應(yīng)用。
2 K-means聚類算法
學(xué)生成績挖掘分析主要目標是針對學(xué)生成績數(shù)據(jù)進行聚類分析,挖掘出數(shù)據(jù)隱含的不同學(xué)生群體信息。而K-means聚類算法是數(shù)據(jù)挖掘基于劃分最經(jīng)典的聚類方法,也是易于實現(xiàn)的算法。主要思想是首先初始化K個聚類簇中心,使用一定的準則將所有樣本點分到不同的K個簇中;接著計算現(xiàn)有的K個簇的質(zhì)心,確定新的簇心。一直循環(huán)迭代,直到簇心的移動距離小于某個給定的閾值。如果初始簇心選擇不好時,K—means的結(jié)果會很差,所以一般是多運行幾次,按照一定標準選擇一個比較好的結(jié)果。
K-means聚類算法的主要流程如下。
(1)初始化K個聚類中心。
(2)計算每個點到聚類中心的距離,將每個點劃分到離該點最近的類別中去。
(3)更新個類別中所有點的坐標均值,并將其作為新的聚類中心。
(4)反復(fù)執(zhí)行(2)(3),直到聚類中心不再進行大范圍移動或者聚類次數(shù)達到要求為止。
算法的流程圖如圖1所示。
3 K-means聚類算法應(yīng)用
在使用K-means聚類算法聚類分析之前,必須對數(shù)據(jù)進行預(yù)處理,信息數(shù)據(jù)預(yù)處后,才可以利用K-means聚類算法對處理后的成績數(shù)據(jù)聚類分析,最后將聚類結(jié)果可視化展示。
3.1 數(shù)據(jù)預(yù)處理
學(xué)生成績數(shù)據(jù)庫中,由于少數(shù)學(xué)生的個別錯誤信息和虛假信息可能導(dǎo)致聚類中心偏移,從而對聚類結(jié)果產(chǎn)生影響。需要在研究各屬性值的總體分布后,刪除這些對聚類結(jié)果準確性有所影響的部分極值。因此要對數(shù)據(jù)進行清洗、去重和修正等操作。
在進行學(xué)生成績信息分析挖掘過程中,不是所有的屬性信息都和學(xué)生成績信息分析任務(wù)有關(guān),比如進行學(xué)生聚類分析時的學(xué)生專業(yè)等屬性。因此,在進行數(shù)據(jù)轉(zhuǎn)換過程中,把和學(xué)生成績數(shù)據(jù)分析挖掘不相關(guān)的屬性去除有助于提高數(shù)據(jù)挖掘的效率,節(jié)省分析挖掘時間,將與挖掘分析任務(wù)相關(guān)的數(shù)據(jù)進行格式轉(zhuǎn)換,對一些屬性值進行數(shù)字量化,使得轉(zhuǎn)換后的數(shù)據(jù)更好地適合數(shù)據(jù)挖掘分析。
此次數(shù)據(jù)源是以東莞理工學(xué)校2014級計算機專業(yè)學(xué)生成績?yōu)閿?shù)據(jù)源,選取2014級100名學(xué)生的8門課程成績數(shù)據(jù),經(jīng)過初步的一些修正和轉(zhuǎn)換,學(xué)生數(shù)據(jù)屬性包括:專業(yè)、年級、班級、學(xué)號、學(xué)習(xí)科目、學(xué)習(xí)課時、科目成績、學(xué)科評分等信息,學(xué)生成績數(shù)據(jù)部分信息如表1所示。
3.2 K-means聚類算法應(yīng)用
針對預(yù)處理后的學(xué)生成績數(shù)據(jù),使用聚類算法K—means進行,分析挖掘不同學(xué)生群體類別信息,并將得到的挖掘結(jié)果輸入分析結(jié)果可視化模塊中進行輸出展示。使用的學(xué)生成績數(shù)據(jù)信息是表1中的100條成績數(shù)據(jù)記錄,聚類分析的實驗環(huán)境是通過SPSS軟件中的“K-均值聚類法”,給定聚類數(shù)為3,經(jīng)過信息數(shù)據(jù)預(yù)處理模塊、信息分析挖掘模塊、分析結(jié)果可視化模塊的處理,最終得到Cluster-A、Cluster-B和Cluster-C三種群體??傮w的類別信息如表2所示。
經(jīng)過聚類,可以發(fā)現(xiàn),目前該學(xué)校的學(xué)生群體基本上可以分為A、B、C三類,每類學(xué)生群體有自己的類別屬性,表3是部分聚類詳細結(jié)果。
3.3 聚類結(jié)果分析
根據(jù)K-means聚類的結(jié)果分析可以看出,A類學(xué)生一共25個,是屬于整個群體中優(yōu)秀的;C類學(xué)生一共37個,是屬于整個群體比較差的;B類學(xué)生一共38個,屬于A類和C類之間。從整個聚類結(jié)果分析,C類學(xué)生的比例和B類學(xué)生的比例相當,而且A類學(xué)生不足該群體1/3,優(yōu)秀學(xué)生所占比例較少,C類學(xué)生所占比例較大,這樣就給教師有一個預(yù)警作用,需要加強B類學(xué)生,需要有針對地制定策略幫助C類學(xué)生,提高他們的成績。
通過表3觀察,A類學(xué)生群體中各種屬性值都是比較好的,說明A類學(xué)生的各方面綜合素質(zhì)還是比較高的,C類學(xué)生的學(xué)習(xí)時長和A類是同等的,那就說明針對C類的學(xué)生他們同樣付出了,但是效果不好,那就可以有針對地進行學(xué)習(xí)方法的輔導(dǎo),多元化幫助他們。而B類中大家可以觀察到他們的補考成績是差的,那就應(yīng)該對于B類學(xué)生加強他們對于補考的重視,提高他們補考成績,從而不影響他們畢業(yè)和升學(xué)。
4 結(jié)語
通過介紹在大數(shù)據(jù)和信息化背景下,針對學(xué)生不及格數(shù)據(jù)信息進行聚類分析。聚類分析目前已經(jīng)被廣泛地應(yīng)用于各個行業(yè),文章重點針對K-means聚類算法的主要思想和算法流程進行闡述,同時基于K-means聚類算法挖掘的學(xué)生成績分析,通過每一類群體屬性的不同,學(xué)??梢灾贫ň哂嗅槍π缘慕虒W(xué)策略,促進學(xué)生學(xué)習(xí)成績得改善和提高。
參考文獻
[1] 孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學(xué)報,2008,19(1):48-61.
[2] 譚慶.基于K-means聚類算法的分析研究[J].河南大學(xué)學(xué)報,2009(4):412-415.
[3] 廖文果,廖光萍.基于數(shù)據(jù)挖掘的圖書館創(chuàng)新服務(wù)研究[J].軟件導(dǎo)刊,2014(8):116-118.
[4] 汪福成.可視化數(shù)據(jù)挖掘在水利工程管理中的使用[J].環(huán)球市場信息導(dǎo)報,2015(39):74.