孫云帆
基于教育的數(shù)據(jù)挖掘應用研究是現(xiàn)今教育研究的重點與難點,這方面研究是將來自教育環(huán)境中獨特的數(shù)據(jù)進行去噪與預測,并運用由此得來的有效方法來更好地掌握學生的性格與進行更有效的課程改革。數(shù)據(jù)挖掘就是從大量的、有噪的、沒有規(guī)則的數(shù)據(jù)中提取有效的且對未來需要的數(shù)據(jù)預測的有用模式或知識。所以,將教育資源的龐大數(shù)據(jù)庫中存儲著龐大的、無序的數(shù)據(jù)通過不同的數(shù)據(jù)挖掘技術功能,即得到學校、教師等需要的有效教育教學數(shù)據(jù)、發(fā)現(xiàn)其中未知的數(shù)據(jù)以及這些數(shù)據(jù)之間的關系。利用基于教育的數(shù)據(jù)挖掘技術應用可以得到:有輟學傾向的學生或者因為其他原因輟學的學生,學生之間的融洽度,通過對入學考試的分析,預測學生的學習成績、優(yōu)劣點以及最終達到的認知水平,發(fā)現(xiàn)學生感興趣與不感興趣的學科,預測學生在學術上可能獲得的成就,可以根據(jù)學生不同的學習風格利用計算機或者其他相關技術編程設計中對學生的表現(xiàn)進行分類,比較學校在教學和學生管理之間的相似性和差異。
關聯(lián)規(guī)則的最終結果就是在龐大的數(shù)據(jù)庫中找出一組或者幾組數(shù)據(jù)之間關系的相似性。如果一組數(shù)據(jù)中大部分數(shù)據(jù)之間存在一定的關聯(lián)關系,那么這個組中的其他數(shù)據(jù)就能通過關聯(lián)規(guī)則預測到。發(fā)現(xiàn)關聯(lián)規(guī)則的步驟:
1.搜索所有數(shù)據(jù)中的頻繁項集。
2.由搜索得出的頻繁項集生成盡可能相似的最小信任度閾值的分類規(guī)則。
圖1是有原始數(shù)據(jù)通過關聯(lián)規(guī)則挖掘,得出顯示了生成的項集&頻繁項集的最小支持度計算是2。
關聯(lián)規(guī)則的支持度和信任度可以作為由用戶設定初值后機器篩選數(shù)據(jù)的條件。信任度就是廣泛待開發(fā)的原始數(shù)據(jù)庫中蘊含的強度,即A中B%的擁有X元素且同時擁有N、M。若A的支持度是 support(N),規(guī)則的信任度為即為 support(N、M)/support(N),其實就是在 A 中的概率 P(N|M),即 confidence(N、M)=P(N|M)。用戶規(guī)定的支持度的上下極值就是支持度閾值。圖2是一個關于關聯(lián)規(guī)則支持度和信任度的例子,如果趙、錢、孫、李、周擁有不同的物品,但是物品是彼此有聯(lián)系的,通過關聯(lián)規(guī)則可以得出:支持度發(fā)現(xiàn)了擁有面包的人一定擁有礦泉水;信任度發(fā)現(xiàn)了擁有方便面和礦泉水的大部分人擁有面包。
圖1 顯示了生成的項集&頻繁項集的最小支持度計算是2
圖2 關聯(lián)規(guī)則信任度和支持度的案例
分類就是首先分析預先設定初值的數(shù)據(jù),而后為每個類別設定分類模型,再對原始數(shù)據(jù)庫中的其他數(shù)據(jù)進行分類。數(shù)據(jù)挖掘技術的分類技術在教育中的應用也被稱為監(jiān)督式學習,分類的步驟如下。
1.構建模型:最初需要設定數(shù)據(jù)樣本或者條件。每個數(shù)據(jù)或者數(shù)據(jù)組樣本都被認定為分類的條件。這些由用戶設定的數(shù)據(jù)樣本或者條件都會作為分類技術中試驗數(shù)據(jù)。該模型通過數(shù)據(jù)挖掘中的分類規(guī)則、決策樹或數(shù)學公式來表示。這個模型如圖3所示。
圖3 學習步驟與模型結構
2.使用模型:此步主要是使數(shù)據(jù)通過數(shù)據(jù)挖掘給定的分類模型后預測與發(fā)現(xiàn)未知的數(shù)據(jù)。模型主要是比較待開發(fā)的數(shù)據(jù)與分類設定的數(shù)據(jù)樣本和條件相比得出數(shù)據(jù),而后比較其與設定數(shù)據(jù)樣本和條件的相似性。數(shù)據(jù)樣本是單獨的,反之將會增加數(shù)據(jù)分類的時間。這個模型如圖4所示。
圖4 模型使用(分類)
利用基于教育的數(shù)據(jù)挖掘應用技術,會預測學生的未來發(fā)展以及以后的成就。評判該技術得出的結果是否合理利用數(shù)據(jù)挖掘技術中的決策樹規(guī)則。
3.預測。預測可以看成是預測未知的數(shù)據(jù)和缺失的值,就是應用于模型的連續(xù)價值函數(shù)。在這個模型中,可以得出一個數(shù)據(jù)組中的一些未知數(shù)據(jù)。基于教育的數(shù)據(jù)挖掘技術可以用來預測學生的行為以及預測學生的學習成果。如圖5所示。
圖5 預測與了解學生的學習成果
4.聚類分析。數(shù)據(jù)挖掘技術中的聚類分析在教育中被稱為非監(jiān)督式學習方法,主要是將大量無規(guī)則數(shù)據(jù)有關聯(lián)的或者相似進行分組,每組之間的性質以及相似性基本一樣,可以發(fā)現(xiàn)相對于該組數(shù)據(jù)中表現(xiàn)異常的數(shù)據(jù)。聚類分析和其分類如圖6所示。
圖6 聚類分析和其分類
在基于教育的數(shù)據(jù)挖掘技術應用中,聚類分析可以通過學生通常的一些習慣和做法對擁有相似特點的學生進行分類。如果需要區(qū)分相對性格活潑的學生中性格稍微內向或者過于活潑的學生,就可以利用聚類分析來得出。
日趨復雜的學生特點以及嚴峻的課程改革方案一直都是我國教育的一塊難以根除的痢疾。本文通過研究數(shù)據(jù)挖掘技術以及教育的特點,利用數(shù)據(jù)挖掘在現(xiàn)在社會的成功案例證明了數(shù)據(jù)挖掘在教育中的應用是可行的,且可以優(yōu)化現(xiàn)在課程改革的方法。本文敘述了通過對數(shù)據(jù)挖掘功能、數(shù)據(jù)挖掘技術的應用案例以及教育的特點分析,利用已有的教育資源以及對每個學生的了解情況,可以得到每個學生的學習特點或者是個性以及學生在學科學習中的普遍難易點,以此幫助學?;蛘呓處煾行У膶W生進行管理或者是學科改革。
[1]孫云帆,齊美玲.數(shù)據(jù)挖掘在教育應用中的淺析[J].北京:商場現(xiàn)代化,2012(8),693:161-162
[2]韓家煒.數(shù)據(jù)挖掘概念與技術[M].北京:機械工業(yè)出版社,2007
[3]Behrouz.et.al.,(2003)Predicting Student Performance:An Application of Data Mining Methods with The Educational Web-Based System Lon-CAPA?2003 IEEE[J],Boulder,CO
[4]劉宇,王滸,李成名等.數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的技術方法[J].北京:測繪科學,2000(4):36-39
[5]郭崇慧,田鳳占.數(shù)據(jù)挖掘教程[M].北京:北京清華大學出版社,2005