胡祖輝+施佺
摘 要】
網(wǎng)絡對于學生的學習既有正面作用,又有負面作用。為了制定合理、有效的網(wǎng)絡管理措施,本研究以學生上網(wǎng)數(shù)據(jù)和學生成績數(shù)據(jù)為研究對象,采用決策樹、關聯(lián)規(guī)則、邏輯回歸三種數(shù)據(jù)挖掘方法對學生上網(wǎng)行為相關屬性與學生學習質(zhì)量之間的關系進行了研究。研究結果表明,學生上網(wǎng)行為的相關屬性如“上網(wǎng)時長”“入流量”“出流量”“總流量”“上網(wǎng)次數(shù)”等均對學生的學習質(zhì)量有不同程度的影響,且均呈現(xiàn)負相關關系。其中,“上網(wǎng)時長”是影響學習質(zhì)量的主要因素,可以根據(jù)數(shù)據(jù)挖掘發(fā)現(xiàn)的關鍵數(shù)據(jù)節(jié)點,制定相應的網(wǎng)絡管理措施限制學生過度上網(wǎng)。三種數(shù)據(jù)挖掘方法都較好地實現(xiàn)了預期效果,得出的結論基本一致,其中關聯(lián)規(guī)則挖掘算法的總體性能最好,決策樹算法的總體性能略好于邏輯回歸算法。
【關鍵詞】 高校學生;上網(wǎng)行為分析;數(shù)據(jù)挖掘;決策樹;關聯(lián)規(guī)則;邏輯回歸
【中圖分類號】 G40-057 【文獻標識碼】 A 【文章編號】 1009-458x(2017)02-0026-07
一、引言
在信息技術時代,網(wǎng)絡的普及一方面給高校學生的學習和生活帶來了極大的便利,另一方面也導致了一些學生出現(xiàn)過度上網(wǎng)甚至沉迷網(wǎng)絡的問題??梢哉f,網(wǎng)絡是把雙刃劍,利用好了可以充分借助網(wǎng)絡教育資源拓展學習時空,促進學習交流;利用不好則會使學生沉迷于網(wǎng)絡虛擬世界,浪費寶貴的學習時間,影響正常學習。對網(wǎng)絡的管理,高校既不能放任不管,也不能簡單地限制上網(wǎng)。由于學生在校上網(wǎng)都要通過學校的網(wǎng)關,因此學生上網(wǎng)數(shù)據(jù)能夠真實地反映學生的上網(wǎng)行為。利用學生上網(wǎng)數(shù)據(jù)對學生的上網(wǎng)行為進行分析研究具有可行性,可以為制定合理、有效的網(wǎng)絡管理措施提供決策支持。
教育數(shù)據(jù)內(nèi)涵廣泛,學生上網(wǎng)數(shù)據(jù)和課程考試成績數(shù)據(jù)都屬于教育數(shù)據(jù)。上網(wǎng)數(shù)據(jù)中蘊含了學生上網(wǎng)行為的客觀事實屬性,成績數(shù)據(jù)中蘊含了學生學習質(zhì)量的客觀事實屬性。根據(jù)一般經(jīng)驗,學生過度上網(wǎng)會影響學習質(zhì)量。這一論斷是否正確,學生上網(wǎng)行為與學習質(zhì)量之間是否存在更多的關聯(lián),這些問題都需要利用數(shù)據(jù)挖掘技術對學生上網(wǎng)數(shù)據(jù)和成績數(shù)據(jù)進行綜合分析,這正是本研究的意義所在。
二、教育數(shù)據(jù)挖掘相關研究
教育數(shù)據(jù)挖掘(Educational Data Mining,簡稱“EDM”)是運用數(shù)據(jù)挖掘方法從來自教育系統(tǒng)的原始數(shù)據(jù)中提取出有意義信息的過程,這些信息可以為教育者、學習者、教育管理者、教育軟件開發(fā)者和教育研究者等提供服務(李婷, 等, 2010)。教育數(shù)據(jù)挖掘是計算機科學、教育學和統(tǒng)計學相結合而形成的一個交叉學科,如圖1所示(Romero & Ventura, 2013)。
從圖1中可以看到,三個學科兩兩交叉形成了數(shù)字化學習、學習分析、數(shù)據(jù)挖掘與人工智能等研究領域。這些研究領域與教育數(shù)據(jù)挖掘密切相關,且在一定程度上體現(xiàn)了教育數(shù)據(jù)挖掘的內(nèi)涵(Bousbia & Belamri, 2014)。
教育活動與教育數(shù)據(jù)密切關聯(lián),教育活動必然產(chǎn)生教育數(shù)據(jù)。在出現(xiàn)教育數(shù)據(jù)挖掘之前,教育活動與教育數(shù)據(jù)之間的聯(lián)系是單向的,教育數(shù)據(jù)中蘊含的信息沒有得到有效利用。教育數(shù)據(jù)挖掘與應用的過程就是從教育活動所產(chǎn)生的數(shù)據(jù)中發(fā)現(xiàn)知識,再利用這些知識來改善教育活動的循環(huán)過程(周慶, 等, 2015)。這個循環(huán)過程使得教育活動與教育數(shù)據(jù)之間建立起雙向循環(huán)反饋,有助于不斷改進教育活動,提高教育質(zhì)量。教育數(shù)據(jù)挖掘模型如圖2所示(García, Romero, Ventura, & Castro, 2011)。
由圖2可見,教育數(shù)據(jù)挖掘的主要流程包括數(shù)據(jù)采集、數(shù)據(jù)預處理、數(shù)據(jù)挖掘和結果分析四個步驟。數(shù)據(jù)采集是從教育環(huán)境中獲取數(shù)據(jù)并按照數(shù)據(jù)標準進行初步轉(zhuǎn)換、存儲的過程。數(shù)據(jù)采集解決數(shù)據(jù)來源的問題,是數(shù)據(jù)挖掘的基礎。數(shù)據(jù)預處理是采用數(shù)據(jù)清理、數(shù)據(jù)合并、數(shù)據(jù)變換、數(shù)據(jù)歸約等方法將原始數(shù)據(jù)處理成適用于數(shù)據(jù)挖掘或有益于提高數(shù)據(jù)挖掘效果的數(shù)據(jù)形式。數(shù)據(jù)挖掘是整個模型的核心,是運用統(tǒng)計分析、人工智能、機器學習等方法,從大量數(shù)據(jù)中挖掘出隱含的、有價值的信息的過程。常用的數(shù)據(jù)挖掘方法有決策樹、聚類分析、關聯(lián)規(guī)則、回歸分析、神經(jīng)網(wǎng)絡、時序分析等。結果分析是采用評價指標對數(shù)據(jù)挖掘結果進行評價和分析,具體評價指標包括查準率、查全率、正確率、顯著性等。
由于教育數(shù)據(jù)挖掘具有重要意義,因此,教育數(shù)據(jù)挖掘與應用已經(jīng)成為一個研究熱點。早在2008年,來自美國、德國、加拿大、澳大利亞、荷蘭等國的研究人員就成立了國際教育數(shù)據(jù)挖掘工作組。在該組織的大力推動下,2008年在加拿大召開了第一屆教育數(shù)據(jù)挖掘國際學術會議,至今已舉辦了九屆。同時,該組織于2011年設立了國際教育數(shù)據(jù)挖掘網(wǎng)站,并成功創(chuàng)辦了專門的電子期刊——教育數(shù)據(jù)挖掘雜志(Journal of Educational Data Mining,簡稱“JEDM”)。該組織給出了教育數(shù)據(jù)挖掘的定義:教育數(shù)據(jù)挖掘是一個新興的學科,該學科專注于研究用于探索來自教育系統(tǒng)獨特的和不斷增長的大規(guī)模數(shù)據(jù)的數(shù)據(jù)挖掘方法(Pechenizkiy et al., 2011)。Antonenko等(2012)使用聚類分析方法對Web服務器日志數(shù)據(jù)進行了研究,分析了學生的在線學習行為,并對利用聚類分析作為教育數(shù)據(jù)挖掘技術的優(yōu)勢和局限性進行了探討。Guruler等(2014)使用決策樹方法對高校學生成績的影響因素進行了研究,并基于微軟的數(shù)據(jù)分析服務技術構建了一個名為“學生知識發(fā)現(xiàn)”的教育數(shù)據(jù)挖掘系統(tǒng)。Agarwal等(2012)使用支持向量機、線性回歸、邏輯回歸、決策樹等多種數(shù)據(jù)挖掘方法對學生數(shù)據(jù)進行了分析,并對分析結果進行了比較。Parack等(2012)使用Apriori關聯(lián)規(guī)則算法和K-means聚類分析算法對學生的學術成果數(shù)據(jù)進行了研究,分析了考試成績、考勤、實踐環(huán)節(jié)等因素對學術成果的影響。舒忠梅等(2014)采用回歸分析和決策樹方法對大學生滿意度調(diào)查數(shù)據(jù)進行了分析,研究學生特征和學習經(jīng)歷與滿意度之間的關系。施佺等(2016)使用關聯(lián)規(guī)則和聚類分析方法對學生網(wǎng)絡學習行為數(shù)據(jù)進行了研究,并提出了網(wǎng)絡學習過程監(jiān)管的教育數(shù)據(jù)挖掘模型。陳益均等(2013)使用K-means聚類分析算法對學生上網(wǎng)行為與英語四級通過率之間的關系進行了研究,發(fā)現(xiàn)學生英語四級通過率與上網(wǎng)行為中的下載流量、在線時長、使用費用等有明顯關聯(lián)。吳淑蘋(2013)在對教師網(wǎng)絡學習行為特征、表現(xiàn)形式和學習過程等進行分析的基礎上,采用時序分析方法對教師網(wǎng)絡學習行為進行了分析和預測。吳青等(2014)運用J48決策樹算法對不同風格網(wǎng)絡學習者的網(wǎng)絡學習行為特征進行了研究,并構建了學習風格模型?;诮逃龜?shù)據(jù)挖掘的在線學習預警研究已經(jīng)成功應用于實踐,包括美國普渡大學的課程警示系統(tǒng)、Desire2Learn公司的學生成功系統(tǒng)、可汗學院的學習儀表盤等(王林麗, 等, 2016)。
教育數(shù)據(jù)挖掘具有實際應用價值,政府、高校和企業(yè)都很重視教育數(shù)據(jù)挖掘。2012年美國教育部教育技術辦公室發(fā)布了一份《通過教育數(shù)據(jù)挖掘和學習分析促進教與學》的研究報告,對美國國內(nèi)教育數(shù)據(jù)挖掘和學習分析的研究及應用情況進行了總結,并提出了進一步發(fā)展的意見建議(Bienkowski, Feng, & Means, 2012)。哈佛大學、斯坦福大學、耶魯大學等世界知名高校都啟動了教育數(shù)據(jù)挖掘相關研究計劃。一些企業(yè)已經(jīng)開發(fā)出了教育數(shù)據(jù)挖掘相關產(chǎn)品,如美國Knewton公司、英國Pearson公司、加拿大Desire2Learn公司等。國內(nèi)很多高校也開始關注教育數(shù)據(jù)挖掘研究與應用。2014年5月,電子科技大學成立了教育大數(shù)據(jù)研究所,并已經(jīng)完成了數(shù)據(jù)一體化平臺、學生畫像系統(tǒng)等多個研究。2015年9月,中國統(tǒng)計信息服務中心和曲阜師范大學共同成立了中國教育大數(shù)據(jù)研究院,并聯(lián)合十余所高校和教育研究機構發(fā)起“中國教育大數(shù)據(jù)發(fā)展促進計劃”,提出了推動中國教育大數(shù)據(jù)發(fā)展的路線圖。
三、數(shù)據(jù)挖掘模型構建
1. 數(shù)據(jù)采集
本研究以高校學生上網(wǎng)數(shù)據(jù)和課程考試成績數(shù)據(jù)為研究對象。從學生管理系統(tǒng)中提取某年級在籍本科學生數(shù)據(jù)6,725條記錄,從教務管理系統(tǒng)中提取相應學生成績數(shù)據(jù)401,278條記錄,從網(wǎng)絡管理系統(tǒng)中提取相應學生某月上網(wǎng)數(shù)據(jù)506,361條記錄。
2. 數(shù)據(jù)預處理
(1)成績數(shù)據(jù)。由于每個學生選修的課程和學分不一樣,因此,為了準確衡量每個學生的綜合學習質(zhì)量,引入GPA(Grade Point Average,平均績點)進行成績評定。首先將百分制和等級成績都折算成績點,考試成績與績點的關系如表1所示。
然后對每個學生的所有課程績點和學分進行加權平均運算得到平均績點:
(1)經(jīng)過計算平均績點,每個學生只有1條成績數(shù)據(jù)記錄。這樣成績數(shù)據(jù)的記錄總數(shù)就由原來的401,278條記錄減少為6,725條記錄,與學生數(shù)據(jù)記錄總數(shù)一致,成績數(shù)據(jù)量大大減少。根據(jù)數(shù)據(jù)挖掘需要,采用等頻分箱法進一步對成績數(shù)據(jù)進行離散化處理,即按照平均績點由小到大進行排序,取中間值將學生綜合學習質(zhì)量等分為“成績較差”和“成績較好”兩個成績類別。
(2)上網(wǎng)數(shù)據(jù)。首先利用數(shù)據(jù)庫分組查詢,按學號匯總得到每個學生的“在線時長”“入流量”“出流量”“總流量”“上網(wǎng)次數(shù)”。這樣處理后得到的上網(wǎng)數(shù)據(jù)匯總記錄總數(shù)小于學生數(shù)據(jù)記錄總數(shù),因為每個學生最多有1條上網(wǎng)匯總記錄,但是客觀上存在部分學生一個月都不在校上網(wǎng)的情況。學生不在校上網(wǎng)的原因可能是因病請假或外出實習,具體原因可由院系管理人員作進一步了解。
(3)學生數(shù)據(jù)。保留學生數(shù)據(jù)中的主要字段,如“學號”“姓名”“院系”“專業(yè)”“班級”等,去除不必要字段,減少數(shù)據(jù)量。然后以學生數(shù)據(jù)為基礎,將預處理后的學生上網(wǎng)數(shù)據(jù)和課程成績平均績點數(shù)據(jù)通過“學號”進行關聯(lián),得到學生數(shù)據(jù)、上網(wǎng)數(shù)據(jù)和課程成績平均績點數(shù)據(jù)三者的合并數(shù)據(jù)集。合并后的數(shù)據(jù)集作為樣本數(shù)據(jù),以“學號”為關鍵字段,唯一標識每條記錄。
3. 相關分析
在進行數(shù)據(jù)挖掘之前,首先采用相關分析來研究上網(wǎng)與學習兩者之間的關系。相關分析是研究兩個變量之間相關性強弱及方向的一種統(tǒng)計方法。通常使用相關系數(shù)來定量描述兩個變量之間的線性關系,取值范圍為-1~1,相關系數(shù)大于0為正相關,相關系數(shù)小于0為負相關。
根據(jù)不同數(shù)據(jù)的特點,通常采用3個相關系數(shù)來描述相關性,分別為Pearson相關系數(shù)、Spearman等級相關系數(shù)和Kendall等級相關系數(shù)。使用SPSS作為數(shù)據(jù)分析工具,分別以“上網(wǎng)時長”“入流量”“出流量”“總流量”“上網(wǎng)次數(shù)”作為統(tǒng)計變量與“平均績點”作相關分析,計算兩者的相關系數(shù),結果如表2所示。
從表2可以看出,3個相關系數(shù)雖然數(shù)值不同,但是得出的結論是一致的。由此可以看到:①“上網(wǎng)時長”“入流量”“出流量”“總流量”“上網(wǎng)次數(shù)”與“平均績點”之間的相關系數(shù)均為負值,即均呈負相關關系;②顯著性均為0,在0.01的置信度上,相關性不顯著;③與其他指標相比,“上網(wǎng)時長”與“平均績點”的相關系數(shù)絕對值最大,表明其與“平均績點”的相關性最強,即“上網(wǎng)時長”是影響學習質(zhì)量的主要因素。由此可見,過度上網(wǎng)會影響學習這個論斷是成立的。但如何區(qū)分合理上網(wǎng)與過度上網(wǎng),具體的尺度如何把握,還需要進行數(shù)據(jù)挖掘。
4. 數(shù)據(jù)挖掘
根據(jù)數(shù)據(jù)預處理結果,樣本數(shù)據(jù)被分為“成績較好”和“成績較差”兩個類別。將“上網(wǎng)時長”“入流量”“出流量”“總流量”“上網(wǎng)次數(shù)”作為屬性,通過數(shù)據(jù)挖掘研究各個屬性對樣本成績分類的影響。本研究使用SSAS作為數(shù)據(jù)挖掘工具,采用決策樹、關聯(lián)規(guī)則和邏輯回歸三種方法來進行數(shù)據(jù)挖掘。
(1)決策樹
決策樹作為一種監(jiān)督學習算法,主要用于分類和預測建模。決策樹通過不斷細化的分支,將錯綜復雜的數(shù)據(jù)分為若干類型(牟冬梅, 等, 2016)。通過決策樹分析,最終可形成一個樹形結構,每個內(nèi)部節(jié)點表示一個屬性上的測試,每個分支代表一個輸出,每個葉子節(jié)點代表一種類別。將“上網(wǎng)時長”“入流量”“出流量”“總流量”“上網(wǎng)次數(shù)”作為輸入值,“成績類別”既作為輸入值又作為預測值。將樣本總數(shù)的70%作為訓練集,剩余的30%作為測試集。為避免決策樹分支過多,出現(xiàn)過擬合現(xiàn)象,將算法復雜度參數(shù)Complexity_Penalty設為0.8,以抑制決策樹的生長,達到剪枝的目的。決策樹分析結果如圖3所示。
從圖3可以看出,“上網(wǎng)時長”被作為決策樹每個節(jié)點的最優(yōu)分支屬性,最佳分割點分別為238.987、191.192、159.328。在根節(jié)點中,全部學生樣本按照成績類別被等分為兩個部分,灰色表示成績較好類別,白色表示成績較差類別。從圖中所有節(jié)點的圖例可以直觀地看出,上網(wǎng)時長越長,成績較好學生的比例越小,成績較差學生的比例越大,反之亦然。如在上網(wǎng)時長大于等于238.987的節(jié)點中,成績較差學生的比例達到79.82%。由此可以得出結論: ①“上網(wǎng)時長”是影響學習質(zhì)量的主要因素;②上網(wǎng)時長與學習質(zhì)量呈現(xiàn)負相關關系,即上網(wǎng)時長越長,成績越差;③上網(wǎng)時長的關鍵分割點是238.987、191.192、159.328,可以考慮采取上網(wǎng)時長階梯計費等措施限制過度上網(wǎng)。
(2)關聯(lián)規(guī)則
關聯(lián)規(guī)則挖掘算法用于發(fā)現(xiàn)事物屬性特征之間的關聯(lián)關系。關聯(lián)規(guī)則是形如X->Y的蘊涵式,其中X稱為前件,Y稱為后件。關聯(lián)規(guī)則挖掘中有幾個重要的概念:項集、頻繁項集、支持度、置信度、重要性。項集為事物屬性特征的集合,如“成績類別=1”“總流量>=56.01”等。頻繁項集是在數(shù)據(jù)集中出現(xiàn)頻率較高的項集。對于規(guī)則X->Y,支持度為(X,Y)/T,置信度為(X,Y)/X。其中,T表示項集的事務集合,(X,Y)表示T中同時包含X和Y的事務的個數(shù),X表示T中包含X的事務的個數(shù)。支持度表示規(guī)則的可能性大小,置信度表示規(guī)則的條件概率,也稱為概率。重要性用于衡量規(guī)則的有效性,重要性值越大,規(guī)則前件和后件的相關性越強。關聯(lián)規(guī)則挖掘是從事務集合中挖掘出滿足支持度和置信度最低閾值要求的所有關聯(lián)規(guī)則。關聯(lián)規(guī)則挖掘可以大致分為兩步:第一步是基于事務集合生成頻繁項目集,第二步是基于頻繁項目集生成滿足最低置信度的關聯(lián)規(guī)則。將“上網(wǎng)時長”“入流量”“出流量”“總流量”“上網(wǎng)次數(shù)”作為輸入值,“成績類別”既作為輸入值又作為預測值。由于關聯(lián)規(guī)則挖掘要求數(shù)據(jù)為離散型數(shù)據(jù),因此將連續(xù)型輸入值的數(shù)據(jù)類型設置為“Discretized”,以自動進行離散化。將樣本總數(shù)的70%作為訓練集,剩余的30%作為測試集。為保證關聯(lián)規(guī)則挖掘效果,將算法的最大項集大小參數(shù)Maximum_Itemset_Size設置為2,最小概率參數(shù)Minimum_Probability設置為0.6。關聯(lián)規(guī)則挖掘結果如圖4所示。
根據(jù)圖4關聯(lián)規(guī)則挖掘結果,整理得到詳細的關聯(lián)規(guī)則如表3所示。
從圖4和表3可以看出,影響學習質(zhì)量的因素有“上網(wǎng)時長”“出流量”“總流量”“入流量”,如規(guī)則1中學生上網(wǎng)時長大于等于255.84小時,其成績有84.0%的概率屬于“成績較差”類別;規(guī)則5中學生上網(wǎng)出流量小于1.01GB,其成績有62.5%的概率屬于“成績較好”類別;規(guī)則6中學生上網(wǎng)總流量大于等于56.01GB,其成績有62.5%的概率屬于“成績較差”類別;規(guī)則7中學生上網(wǎng)入流量大于等于48.34GB,其成績有61.9%的概率屬于“成績較差”類別。與其他屬性相比,“上網(wǎng)時長”的置信度和重要性最高,因此,“上網(wǎng)時長”仍然是影響學習質(zhì)量的主要因素。上網(wǎng)時長的關鍵分割點為255.84、190.44、150.14、69.85。可以看出,關聯(lián)規(guī)則挖掘的結果與決策樹分析結果大體一致。
(3)邏輯回歸
回歸分析是通過建立回歸模型來確定兩種或兩種以上變量間的因果關系。邏輯回歸是對線性回歸模型的擴展,可用于分類與預測分析。設因變量為y,影響y的n個自變量為x1,x2,...,xn,p為事件發(fā)生的概率,1-p為事件不發(fā)生的概率, p/(1-p)取自然對數(shù)ln(p/(1-p)),得到邏輯回歸模型為:
由式(2)可得:
式中為常數(shù),(i=1,…, n)為邏輯回歸系數(shù)。
將“上網(wǎng)時長”“入流量”“出流量”“總流量”“上網(wǎng)次數(shù)”作為輸入值,“成績類別”既作為輸入值又作為預測值。將樣本總數(shù)的70%作為訓練集,剩余的30%作為測試集。邏輯回歸分析結果如表4所示。
從表4可以看出,影響學習質(zhì)量的因素有“上網(wǎng)時長”“出流量”“總流量”,如上網(wǎng)出流量在46.334GB到178.196GB之間的學生,其傾向于“成績較差”類別的概率為80%,上網(wǎng)時長在190.133小時到361.467小時之間的學生,其傾向于“成績較差”類別的概率為76.92%。分數(shù)表示自變量與因變量之間因果關系的強度。表4中的分析結果顯示,“上網(wǎng)時長”仍然是影響學習質(zhì)量的主要因素。上網(wǎng)時長的關鍵分割點為190.133、140.440、90.746,這與前兩種分析方法得到的結論基本一致。此外,“出流量”也成為一個影響學習質(zhì)量的重要因素,這與前兩種分析方法的結論不一致,這個結論的有效性可以通過對相關學生進行抽樣調(diào)查分析進行驗證。
四、結果評價
首先對三種數(shù)據(jù)挖掘方法進行評價,評價指標包括查準率、查全率、正確率、F值等。查準率為算法識別正確的正面樣本數(shù)與所有識別為正面的樣本數(shù)的比值,用于衡量算法的精密度。查全率為算法識別正確的正面樣本數(shù)與樣本中所有正面樣本數(shù)的比值,反映算法的靈敏度,也稱為召回率。正確率為算法識別正確的觀點數(shù)與樣本總數(shù)的比值,反映算法的準確度。F值為查準率與查全率的調(diào)和平均值,其取值范圍在0到1之間,用于衡量算法的總體性能。查準率所描述的精密度與正確率所描述的準確度具有不同的含義。精密度是指多次重復測定同一輸入值時各測定值之間彼此相符合的程度,用來表示隨機誤差的大小。準確度是指在一定條件下多次測定的平均值與其真值相符合的程度,用來表示系統(tǒng)誤差的大小。
在本研究中,設TP(Ture Positive)為實際成績較好而分類預測結果也為成績較好的樣本數(shù),F(xiàn)P(False Positive)為實際成績較好但分類預測結果為成績較差的樣本數(shù),TN(True Negative)為實際成績較差而分類預測結果也為成績較差的樣本數(shù),F(xiàn)N(False Negative)為實際成績較差但分類預測結果為成績較好的樣本數(shù),則有如下定義(Wikipedia, 2016):
為了更準確地衡量算法的總體性能,有必要將正確率考慮在內(nèi),借鑒F值的調(diào)和平均值計算方法,定義精確度為正確率與F值的調(diào)和平均值,即:
精確度可以全面反映算法的精密度、靈敏度、準確度,更準確地描述算法的總體性能好壞。
根據(jù)決策樹、關聯(lián)規(guī)則、邏輯回歸三種方法的數(shù)據(jù)挖掘建模結果,采用樣本總體的30%測試集進行測試,分別計算相應的評價指標值。計算結果如表5所示。
從表5可以看出,查準率:關聯(lián)規(guī)則>決策樹>邏輯回歸;查全率:邏輯回歸>決策樹>關聯(lián)規(guī)則;正確率:邏輯回歸>決策樹>關聯(lián)規(guī)則,F(xiàn)值和精確度的計算結果均為:關聯(lián)規(guī)則>決策樹>邏輯回歸。三種算法都較好地實現(xiàn)了數(shù)據(jù)挖掘和分類預測效果,得出的結論基本一致,各項指標都接近或超過60%,尤其是關聯(lián)規(guī)則的查準率超過了80%。綜合考慮算法的總體性能,關聯(lián)規(guī)則挖掘算法的總體性能最好,決策樹算法的總體性能略好于邏輯回歸,兩者相差不大。
五、結論
在大數(shù)據(jù)時代,數(shù)據(jù)是寶貴的資源,充分挖掘和利用教育數(shù)據(jù)中蘊含的信息,有助于改善教育活動。本研究首先對學生上網(wǎng)數(shù)據(jù)和成績數(shù)據(jù)進行相關分析,然后采用三種數(shù)據(jù)挖掘方法對學生上網(wǎng)行為的相關屬性與學生成績的內(nèi)在關系進行研究,得出了以下結論:①學生上網(wǎng)行為的相關屬性“上網(wǎng)時長”“入流量”“出流量”“總流量”“上網(wǎng)次數(shù)”對學習質(zhì)量都有不同程度的影響,且均呈現(xiàn)負相關關系,適度上網(wǎng)有利于學習,過度上網(wǎng)影響學習;②“上網(wǎng)時長”是影響學習質(zhì)量的主要因素,即兩者負相關關系強度最強,應予以重點關注;③綜合三種算法的挖掘結果,“上網(wǎng)時長”的關鍵分割點為248、190、150、90、70,其中“上網(wǎng)時長”超過190小時會對學習質(zhì)量產(chǎn)生顯著負面影響,超過248小時會產(chǎn)生嚴重負面影響,應據(jù)此制定合理的網(wǎng)絡管理措施,引導學生健康上網(wǎng);④不同的數(shù)據(jù)挖掘方法在算法性能和挖掘結論上可能存在差異,需要根據(jù)實際情況選擇合適的算法,并合理設置算法參數(shù),保證結論的正確性和有效性。網(wǎng)絡環(huán)境是教育環(huán)境的重要組成部分。通過上網(wǎng)行為分析和數(shù)據(jù)挖掘,可以為制定合理、有效的網(wǎng)絡管理策略提供決策支持服務,讓網(wǎng)絡真正成為學生學習的良好輔助工具。
[參考文獻]
陳益均,殷莉. 2013. 基于數(shù)據(jù)挖掘的學生成績影響模型的研究[J]. 現(xiàn)代教育技術,23(1):94-96.
李婷,傅鋼善. 2010. 國內(nèi)外教育數(shù)據(jù)挖掘研究現(xiàn)狀及趨勢分析[J]. 現(xiàn)代教育技術(10):21-25.
牟冬梅,任珂. 2016. 三種數(shù)據(jù)挖掘算法在電子病歷知識發(fā)現(xiàn)中的比較[J]. 現(xiàn)代圖書情報技術,32(6):102-109.
舒忠梅,徐曉東. 2014. 學習分析視域下的大學生滿意度教育數(shù)據(jù)挖掘及分析[J]. 電化教育研究(5):39-44.
施佺,錢源,孫玲. 2016. 基于教育數(shù)據(jù)挖掘的網(wǎng)絡學習過程監(jiān)管研究[J]. 現(xiàn)代教育技術,26(6):87-93.
吳淑蘋. 2013. 基于數(shù)據(jù)挖掘的教師網(wǎng)絡學習行為分析與研究[J]. 教師教育研究,25(3):47-55.
吳青,羅儒國. 2014. 基于網(wǎng)絡學習行為的學習風格挖掘[J]. 現(xiàn)代遠距離教育,(1):54-62.
王林麗,葉洋,楊現(xiàn)民. 2016. 基于大數(shù)據(jù)的在線學習預警模型設計——“教育大數(shù)據(jù)研究與實踐專欄”之學習預警篇[J]. 現(xiàn)代教育技術,26(7):5-11.
周慶,牟超,楊丹. 2015. 教育數(shù)據(jù)挖掘研究進展綜述[J]. 軟件學報(11):3026-3042.
Agarwal, S., Pandey, G. N. & Tiwari, M. D. (2012). Data Mining in Education: Data Classification and Decision Tree Approach. International Journal of e-Education, e-Business, e-Management and e-Learning, 2(2), 140-144.
Antonenko, P. D., Toy, S. & Niederhauser, D. S. (2012). Using Cluster Analysis for Data Mining in Educational Technology Research. Educational Technology Research and Development, 60(3), 383-398.
Bienkowski, M., Feng, M. & Means, B. (2012). Enhancing Teaching and Learning Through Educational Data Mining and Learning Analytics: An Issue Brief. Washington:U.S. Department of Education, Office of Educational Technology.
Bousbia, N. & Belamri, I. (2014). Which Contribution Does EDM Provide to Computer-Based Learning Environments. Educational Data Mining, 524, 3-28.
García, E., Romero, C., Ventura, S. & Castro, C. D. (2011). A Collaborative Educational Association Rule Mining Tool. Internet and Higher Education, 14(2), 77-88.
Guruler, H. & Istanbullu, A. (2014). Modeling Student Performance in Higher Education Using Data Mining. Educational Data Mining, 524, 105-124.
Pechenizkiy, M., et al. (2011 July). International Educational Data Mining Society. from http://www.educationaldatamining.org.
Parack, S., Zahid, Z. & Merchant, F. (2012). Application of Data Mining in Educational Databases for Predicting Academic Trends and Patterns. IEEE International Conference on Technology Enhanced Education,1-4.
Romero, C. & Ventura, S. (2013). Data mining in education. Wiley Interdisciplinary Reviews:Data Mining and Knowledge Discovery, 3(1), 12-27.
Wikipedia. (2016, August 6). Precision and recall. from https://en.wikipedia.org/wiki/Precision_and_recall.