張鸰 陳燕飛
摘要:當(dāng)前流行的在線學(xué)習(xí)方式面臨最大的問題是無法面對面交流及時獲得教學(xué)反饋,但是利用現(xiàn)代技術(shù),我們可以通過大數(shù)據(jù)的方式記錄學(xué)生的學(xué)習(xí)行為,然后利用數(shù)據(jù)挖掘技術(shù)對獲得的行為數(shù)據(jù)進(jìn)行分析,并得到相關(guān)的教學(xué)反饋,這就是所謂的教育數(shù)據(jù)挖掘(EDM)。例如可以對訪問者基本信息、交互日志、活動行為等一系列過程性數(shù)據(jù)進(jìn)行技術(shù)挖掘,得出了頁面訪問率、訪問者的來源構(gòu)成等結(jié)論,從而以此為參考對訪問的學(xué)生提供各種教學(xué)建議:如各種學(xué)習(xí)資源、定制個性化的教學(xué)指導(dǎo)、推薦有效的學(xué)習(xí)方法,并且為教學(xué)實施者提供學(xué)生的各種學(xué)習(xí)信息,從而實現(xiàn)教學(xué)決策。
關(guān)鍵詞: 教育數(shù)據(jù)挖掘;網(wǎng)絡(luò)教學(xué);數(shù)據(jù)挖掘算法;決策樹ID3算法
中圖分類號:TP311? ? ? ?文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2019)28-0021-02
1 引言
教育數(shù)據(jù)挖掘技術(shù)在線上教學(xué)過程中的應(yīng)用涉及很多方面,例如:針對學(xué)生基本信息的統(tǒng)計、不同類別生源在線學(xué)習(xí)行為的分析、教學(xué)行為評價反饋、成績分析、教師業(yè)務(wù)能力分析、在線學(xué)習(xí)平臺環(huán)境分析等。通常情況下,基于在線教學(xué)環(huán)境的學(xué)習(xí)行為數(shù)據(jù)挖掘基本涵蓋兩個方面的內(nèi)容,第一個方面:通過對登錄次數(shù)、瀏覽頁面內(nèi)容類型、學(xué)習(xí)時長、討論參與度、點播內(nèi)容相關(guān)度等方面進(jìn)行分析,評估學(xué)生在線學(xué)習(xí)行為的需求,進(jìn)行合理的輔導(dǎo);同時結(jié)合在線問答、單元及綜合測試、各種訓(xùn)練測試等環(huán)節(jié),評估教學(xué)實施與學(xué)習(xí)績效, 分析之間的影響因素,提供較為準(zhǔn)確的學(xué)習(xí)規(guī)劃。第二方面:通過教育數(shù)據(jù)挖掘技術(shù),根據(jù)不同學(xué)生群體的個性化差異,精準(zhǔn)識別學(xué)員特征,根據(jù)他們不同的學(xué)習(xí)需求、興趣愛好、在線學(xué)習(xí)行為進(jìn)行精細(xì)劃分,針對不同的關(guān)鍵特征開展個性化教學(xué),從而增強(qiáng)學(xué)員個性認(rèn)知。
2 教育數(shù)據(jù)挖掘相關(guān)理論和技術(shù)
教育數(shù)據(jù)挖掘(EDM,Educational? Data? Mining)是指數(shù)據(jù)挖掘技術(shù)在教育教學(xué)領(lǐng)的應(yīng)用,通過對整個教育教學(xué)過程中產(chǎn)生的離散數(shù)據(jù)進(jìn)行技術(shù)分析,為教學(xué)的多方面主體(教師、學(xué)生、教學(xué)管理人員、系統(tǒng)開發(fā)維護(hù)人員、行業(yè)企業(yè))提供必要信息支持的過程。根據(jù)數(shù)據(jù)挖掘應(yīng)用領(lǐng)域的不同,根據(jù)不同的應(yīng)用場合可以將其劃分為在教學(xué)、科研、管理等方面的應(yīng)用等。
2.1 數(shù)據(jù)挖掘過程
整個數(shù)據(jù)挖掘過程包含數(shù)據(jù)的準(zhǔn)備、挖掘、結(jié)果評估三個主要部分。具體的數(shù)據(jù)挖掘流程如圖1所示。
(1)在數(shù)據(jù)準(zhǔn)備階段主要有四個步驟,如圖2所示。在這個環(huán)節(jié)中,數(shù)據(jù)按照規(guī)則被轉(zhuǎn)換成為統(tǒng)一格式,生成的數(shù)據(jù)簡潔、可靠、準(zhǔn)確,為進(jìn)一步的數(shù)據(jù)挖掘工作奠定了基礎(chǔ)。
(2)數(shù)據(jù)挖掘
作為整個過程的核心內(nèi)容,基于挖掘的任務(wù)目標(biāo),利用選定的數(shù)據(jù)挖掘算法,將在數(shù)據(jù)準(zhǔn)備階段已經(jīng)預(yù)處理完成的數(shù)據(jù)進(jìn)行計算,提煉出用戶關(guān)心的內(nèi)容,并將其通過某種形式展示出來。
(3)挖掘結(jié)果評估
對上一環(huán)節(jié)挖掘的結(jié)果進(jìn)行合理的分析評估,去除其中冗余、無效的數(shù)據(jù),將有效可靠的數(shù)據(jù)進(jìn)行判定,如果挖掘結(jié)果無用,進(jìn)行回退操作,另外選取數(shù)據(jù)挖掘算法和新數(shù)據(jù)重新操作,通過若干次迭代,最終可以篩選達(dá)到目標(biāo)要求的信息,根據(jù)需求采用不同的展示方式,幫助用戶理解,并進(jìn)一步指導(dǎo)決策。
2.2 常用的數(shù)據(jù)挖掘技術(shù)
因為數(shù)據(jù)類型和結(jié)構(gòu)形式多樣,如關(guān)系數(shù)據(jù)庫數(shù)據(jù)、數(shù)據(jù)倉庫數(shù)據(jù)、空間數(shù)據(jù)、時間數(shù)據(jù)、流媒體數(shù)據(jù)、圖和網(wǎng)格數(shù)據(jù)、超文本數(shù)據(jù)等等。因此,衍生出來的數(shù)據(jù)挖掘方式也門類眾多。目前針對網(wǎng)絡(luò)教學(xué)數(shù)據(jù)分析這種特殊形式主要有以下幾種方式:統(tǒng)計分析方式,可以對教學(xué)環(huán)境中的熱門數(shù)據(jù)進(jìn)行統(tǒng)計并做到自動推送;關(guān)聯(lián)規(guī)則挖掘,比如對在線學(xué)習(xí)過程產(chǎn)生的過程性學(xué)習(xí)形式數(shù)據(jù)進(jìn)行分析,比對學(xué)習(xí)效果產(chǎn)生結(jié)論性指導(dǎo);聚類分析,是一種動態(tài)分類的方法,通過對數(shù)據(jù)集進(jìn)行分類,并保證同類數(shù)據(jù)的相似和各個類之間的明顯差異性;分類和回歸,該算法甚至可以通過學(xué)員的基本信息對未來課程的成績進(jìn)行預(yù)測;文本挖掘,對網(wǎng)絡(luò)教學(xué)平臺中的超文本數(shù)據(jù),如教學(xué)互動、在線評論、留言等數(shù)據(jù)進(jìn)行分析等。通過不同的應(yīng)用場合,實際選取合適的挖掘技術(shù)。
3 決策樹分析算法
3.1 決策樹基本算法
決策樹是一種常用并且很重要的數(shù)據(jù)挖掘方法,該算法的實現(xiàn)是采用自頂向下的貪婪算法,對給定的數(shù)據(jù)樣本進(jìn)行歸納,從無序的數(shù)據(jù)元組中提取分類規(guī)則,從最高層的根節(jié)點開始遞歸的產(chǎn)生一個樹形結(jié)構(gòu),該樹形結(jié)構(gòu)的每個分支節(jié)點代表一個測試或選擇結(jié)果,通過對每個選擇結(jié)果的合理歸類,持續(xù)這一過程,直到遍歷所有屬性最終生成決策樹。決策樹算法主要包括兩個過程:構(gòu)造樹和對決策樹進(jìn)行剪枝。前者是指將輸入訓(xùn)練數(shù)據(jù)作為既定算法的函數(shù)值,將輸出的不同屬性值生成各個分支,并且各個分支繼續(xù)向下級進(jìn)行遞歸操作,最終形成決策樹;對于剛剛建立的決策樹,其相當(dāng)多的分支節(jié)點都是因為輸入的訓(xùn)練樣本數(shù)據(jù)包含有異常內(nèi)容構(gòu)成產(chǎn)生的,這也就是必須要對決策樹進(jìn)行剪枝的原因。整個決策樹流程如圖3所示。目前比較典型的決策樹算法有CART、ID3、CHAID等等。
3.2 ID3算法
在眾多決策樹算法中,ID3是較早形成的一個基本算法,它是一種貪心算法,利用了自上而下的遞歸分類構(gòu)造的方式來生成決策樹。該算法的模型產(chǎn)生方式較為簡單、較好的健壯性、分類精度較高,對于網(wǎng)絡(luò)學(xué)習(xí)過程中非增量的數(shù)據(jù)樣本集具有較好的分類統(tǒng)計能力,比較適合應(yīng)用在教育數(shù)據(jù)挖掘的領(lǐng)域。下面對ID3算法展開簡單的討論。
ID3在進(jìn)行分支節(jié)點屬性選擇時,采用信息增益作為度量單位。假設(shè)[ni]是數(shù)據(jù)樣本集S中屬于類別[yi]的樣本數(shù)量,S中總的樣本數(shù)為count個,則各類別的先驗概率為[Pyi= nicount,i=1,2,…,m]。對于數(shù)據(jù)集S,樣本期望信息為
4 結(jié)束語
網(wǎng)絡(luò)教學(xué)要求教師能夠從大量冗余繁雜的教學(xué)過程數(shù)據(jù)中,提煉出可靠有用的學(xué)習(xí)反饋信息,并以此為基礎(chǔ)及時更新和調(diào)整教學(xué)策略、方法、內(nèi)容,解決網(wǎng)絡(luò)教學(xué)無法進(jìn)行現(xiàn)場互動的問題,實現(xiàn)對教學(xué)個體進(jìn)行個性化的引導(dǎo),真正做到因材施教,提升在線學(xué)習(xí)效果。因此教育數(shù)據(jù)挖掘技術(shù)在線上學(xué)習(xí)環(huán)境中有著舉足輕重的作用。在眾多數(shù)據(jù)挖掘技術(shù)中,因為ID3決策樹算法有較強(qiáng)的學(xué)習(xí)能力,并且比較容易實現(xiàn),所以特別適用于處理大規(guī)模在線學(xué)習(xí)問題。另外,生成的決策樹可以具體形象地表達(dá)出不同分支所對應(yīng)的分類規(guī)則,算法易讀易用,特別適合作為教育數(shù)據(jù)挖掘(EDM)的技術(shù)工具。
參考文獻(xiàn):
[1] 黃文秀.數(shù)據(jù)挖掘技術(shù)及應(yīng)用研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2018(7).
[2] 孫健,趙鵬,雷鳴.數(shù)據(jù)挖掘技術(shù)在高校教學(xué)評價中的應(yīng)用研究[J].科技資訊,2014(17).
[3] 楊艷霞.基于數(shù)據(jù)挖掘技術(shù)的個性化網(wǎng)絡(luò)教學(xué)平臺應(yīng)用研究[J].科技創(chuàng)業(yè)月刊,2013(2).
[4] 朱偉忠 .數(shù)據(jù)挖掘決策樹分類技術(shù)及應(yīng)用的研究[D].華南理工大學(xué),2004.
[5] 謝淑敏. 基于大數(shù)據(jù)的高職學(xué)生學(xué)習(xí)行為及效果分析[J].電腦與電信,2018(9).
【通聯(lián)編輯:梁書】