陳雯雯+夏一超
摘 要:大數(shù)據(jù)開(kāi)啟了教育領(lǐng)域本質(zhì)上的變化和發(fā)展,一個(gè)大規(guī)模的生產(chǎn)、分享和應(yīng)用教育數(shù)據(jù)的時(shí)代正在開(kāi)啟,而發(fā)掘數(shù)據(jù)價(jià)值、征服龐大教育數(shù)據(jù)的“武器”就是教育數(shù)據(jù)挖掘。本文通過(guò)文獻(xiàn)分析法,對(duì)國(guó)內(nèi)外文獻(xiàn)進(jìn)行分析和綜述,首先對(duì)EDM進(jìn)行概念界定和歷史溯源,比較EDM相關(guān)概念的區(qū)別和聯(lián)系,針對(duì)EDM作為大數(shù)據(jù)時(shí)代下的新技術(shù),對(duì)其研究、發(fā)展和應(yīng)用等方面進(jìn)行了較系統(tǒng)的闡釋?zhuān)詈罂偨Y(jié)了EDM目前面臨的挑戰(zhàn)和展望,以期對(duì)EDM進(jìn)行全方位的闡述和梳理,并促進(jìn)該領(lǐng)域在中國(guó)的深入研究。
關(guān)鍵詞:教育數(shù)據(jù)挖掘;學(xué)習(xí)分析;大數(shù)據(jù)
中圖分類(lèi)號(hào):TP393 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-8454(2017)07-0037-08
一、前言
隨著大數(shù)據(jù)時(shí)代的到來(lái),教育數(shù)據(jù)正如漂浮在海洋中的冰,第一眼只能看到冰山一角,絕大部分都隱藏在表面之下。[1]而發(fā)掘教育數(shù)據(jù)價(jià)值、征服教育數(shù)據(jù)海洋的“動(dòng)力”就是教育數(shù)據(jù)挖掘(Education Data Mining, EDM)。EDM最初應(yīng)用于智能導(dǎo)學(xué)系統(tǒng)(ITS)和教育人工智能(AIED)研究領(lǐng)域,這些技術(shù)的深入應(yīng)用也帶來(lái)教育數(shù)據(jù)爆炸式膨脹。日益增長(zhǎng)的教學(xué)軟件中儲(chǔ)存著巨大的學(xué)生數(shù)據(jù),互聯(lián)網(wǎng)教學(xué)E-learning等網(wǎng)絡(luò)教育學(xué)習(xí)行為更是呈現(xiàn)出極具增長(zhǎng)的數(shù)據(jù)流趨勢(shì)。[2]這些數(shù)據(jù)集過(guò)大、難以被傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具捕捉、儲(chǔ)存、管理和分析的教育類(lèi)大數(shù)據(jù),目前已成為困擾教育機(jī)構(gòu)的一大難題,研究們逐漸開(kāi)始關(guān)注這些教育數(shù)據(jù)的潛在價(jià)值。教育數(shù)據(jù)挖掘用統(tǒng)計(jì)、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘等方法來(lái)解決這些教育領(lǐng)域的問(wèn)題,從而對(duì)更好的理解學(xué)生學(xué)習(xí)和提高教育管理決策的質(zhì)量。[3]
2012年3月,在教育部正式頒布的《教育信息化十年發(fā)展規(guī)劃(2011-2020年)》[4]中提出,促進(jìn)教育管理科學(xué)決策就要“大力推行教育信息化”,而這種科學(xué)的決策來(lái)源于教育信息化與教育管理的深度結(jié)合。而教育數(shù)據(jù)挖掘則是促進(jìn)這種結(jié)合的有效手段。與此同時(shí),“智慧教育”也將改變學(xué)習(xí)和教育方式,促進(jìn)傳統(tǒng)教育向智慧教育的轉(zhuǎn)變,使得教育變得更靈活和個(gè)性化。以教育數(shù)據(jù)挖掘?yàn)榛?,深度挖掘?qū)W生的各方面情況數(shù)據(jù),“智慧教育”也需要教育數(shù)據(jù)挖掘的發(fā)展作為支撐加快,從而加快教育管理系統(tǒng)信息系統(tǒng)和智能學(xué)習(xí)平臺(tái)建設(shè)。
國(guó)外的研究與國(guó)內(nèi)相比,對(duì)于教育數(shù)據(jù)挖掘有著更為廣泛、成熟的應(yīng)用。雖然2005年在國(guó)際會(huì)議上首次提出“教育數(shù)據(jù)挖掘”這一概念,但是在不到十年的發(fā)展過(guò)程中,教育數(shù)據(jù)挖掘相關(guān)應(yīng)用已經(jīng)越來(lái)越受到學(xué)界的關(guān)注。本文嘗試用文獻(xiàn)分析方法對(duì)教育數(shù)據(jù)挖掘進(jìn)行綜述和梳理。國(guó)外文獻(xiàn)分析主要有四個(gè)文獻(xiàn)來(lái)源:一是利用筆者在中山大學(xué)圖書(shū)館檢索系統(tǒng)(http://library.sysu.edu.cn/web/guest/index)以“EDM(教育數(shù)據(jù)挖掘)”、“Educational Data Mining”、“學(xué)習(xí)分析(Learning Analysis,LA)”、“知識(shí)發(fā)現(xiàn)(knowledge Discovery in Database, KDD)”等相近關(guān)鍵詞對(duì)論文、圖書(shū)、電子書(shū)、DVD、以及論文題目、圖書(shū)題目和雜志題目,進(jìn)行文獻(xiàn)搜索,其中Education Data Mining檢索論文,在Willey Online Library中有4個(gè)搜索結(jié)果,tandfonline.com有3篇文獻(xiàn),在CSA原劍橋科學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)中搜到40篇相關(guān)文獻(xiàn),選擇其中12篇文獻(xiàn)作為研究對(duì)象,通過(guò)Google學(xué)術(shù)搜索以“教育數(shù)據(jù)挖掘(Education Data Mining)”等關(guān)鍵詞進(jìn)行文獻(xiàn)搜索,在搜索到的上百篇文獻(xiàn)中,根據(jù)引用頻率進(jìn)行篩選。三是對(duì)可獲取到的教育數(shù)據(jù)挖掘領(lǐng)域著名國(guó)際會(huì)議,例如第六屆教育數(shù)據(jù)挖掘國(guó)際會(huì)議(the 6th International Conference on Educational Data Mining)中的30多篇文獻(xiàn),國(guó)際教育數(shù)據(jù)挖掘?qū)W會(huì)(International Educational Data Mining Society)、學(xué)習(xí)分析研究學(xué)會(huì)(SoLAR)、教育數(shù)據(jù)挖掘IEEE專(zhuān)責(zé)小組中28篇論文,根據(jù)作者文章引用頻率和領(lǐng)域知名度進(jìn)行篩選。四是根據(jù)每年的國(guó)際教育數(shù)據(jù)挖掘研討會(huì)(Workshop of Education Data Mining)中論文,根據(jù)引用頻率進(jìn)行選讀和篩選。根據(jù)以上四個(gè)途徑選取的文獻(xiàn)資源,除去相同文獻(xiàn)之外,最終獲得相關(guān)文獻(xiàn)70多篇,其中國(guó)內(nèi)相關(guān)文獻(xiàn)主要來(lái)源是“中國(guó)知網(wǎng)”等學(xué)術(shù)文獻(xiàn)庫(kù)中的相關(guān)文獻(xiàn)。
二、數(shù)據(jù)挖掘與教育數(shù)據(jù)挖掘
1.什么是數(shù)據(jù)挖掘與教育數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是通過(guò)仔細(xì)分析大量數(shù)據(jù)來(lái)揭示有意義的新的關(guān)系、趨勢(shì)和模式的過(guò)程。主要應(yīng)用于銀行、電信、交通、零售(如超級(jí)市場(chǎng))等商業(yè)領(lǐng)域,而用在e-learning方面還是處于起步階段。數(shù)據(jù)挖掘是一門(mén)交叉性學(xué)科,融合了人工智能、數(shù)據(jù)庫(kù)技術(shù)、模式識(shí)別、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)和數(shù)據(jù)可視化等多個(gè)領(lǐng)域的理論和技術(shù)。由于數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)的核心步驟,發(fā)現(xiàn)了隱藏的模式,所以從模式處理的角度,許多人認(rèn)為兩者是等同的。[5]
目前,學(xué)術(shù)界對(duì)于教育數(shù)據(jù)挖掘的定義并未有統(tǒng)一的描述,比較常用的幾個(gè)定義分別來(lái)自于教育數(shù)據(jù)挖掘網(wǎng)站(http://www.educationaldatamining.org)是這樣定義教育數(shù)據(jù)挖掘的,“教育數(shù)據(jù)挖掘是應(yīng)用數(shù)據(jù)挖掘方法從教育系統(tǒng)中的數(shù)據(jù)提取出有用的信息,從而更好地理解學(xué)生及其學(xué)習(xí)系統(tǒng)的新興學(xué)科。”這一版本的定義成為之后學(xué)者廣泛討論的基礎(chǔ),引發(fā)學(xué)術(shù)界對(duì)教育數(shù)據(jù)挖掘的探討和深究。Luan認(rèn)為教育數(shù)據(jù)挖掘應(yīng)該是從構(gòu)建數(shù)據(jù)的模型、任務(wù)、方法和算法來(lái)探索教育環(huán)境中的數(shù)據(jù)信息。[6]Baker和Yacef認(rèn)為教育數(shù)據(jù)挖掘是分析教育系統(tǒng)中的數(shù)據(jù)并且解決教育研究問(wèn)題的一門(mén)新興學(xué)科。[7]2011年出版的《教育數(shù)據(jù)挖掘手冊(cè)》上是這樣描述,“教育數(shù)據(jù)挖掘是開(kāi)發(fā)、研究和應(yīng)用計(jì)算機(jī)方法來(lái)對(duì)傳統(tǒng)教育環(huán)境中的大量數(shù)據(jù)進(jìn)行分析和監(jiān)測(cè),而數(shù)據(jù)的容量之大是其他方式很難或者基本上無(wú)法進(jìn)行的?!盵8]教育數(shù)據(jù)挖掘從各種支持學(xué)習(xí)或者教育的信息系統(tǒng)中提取出有用的信息,這些數(shù)據(jù)并不是來(lái)源少數(shù)學(xué)生或者某一個(gè)教育系統(tǒng),而是包括所有參與的學(xué)生、管理數(shù)據(jù)、人口統(tǒng)計(jì)數(shù)據(jù)(例如,性別、年齡、年級(jí))、學(xué)生的情感(例如,動(dòng)機(jī)、情緒)等等。因此,在教育大數(shù)據(jù)的背景下,我們分析更多的數(shù)據(jù),有時(shí)候甚至可以處理某個(gè)特別現(xiàn)象的所有數(shù)據(jù)傳統(tǒng)的教育數(shù)據(jù)挖掘。
2.教育數(shù)據(jù)挖掘溯源
教育數(shù)據(jù)挖掘是伴隨著數(shù)據(jù)挖掘和教育系統(tǒng)的發(fā)展而逐漸形成的研究領(lǐng)域。在傳統(tǒng)教育系統(tǒng)的數(shù)據(jù)挖掘應(yīng)用中,尤其是網(wǎng)絡(luò)課程,著名的是學(xué)習(xí)內(nèi)容管理系統(tǒng)和應(yīng)用智能網(wǎng)絡(luò)教育系統(tǒng)。每一個(gè)系統(tǒng)都會(huì)有各自的數(shù)據(jù)源和知識(shí)發(fā)現(xiàn)的對(duì)象。在處理每一種可利用的數(shù)據(jù)過(guò)程中,通常會(huì)應(yīng)用統(tǒng)計(jì)、可視化、聚類(lèi)、分類(lèi)、離群點(diǎn)檢測(cè)等數(shù)據(jù)挖掘的技術(shù),大量技術(shù)的成功應(yīng)用使教育數(shù)據(jù)挖掘逐漸成為一門(mén)成熟的學(xué)科領(lǐng)域。在過(guò)去的十年間,教育系統(tǒng)中最重要的創(chuàng)新點(diǎn)在于新技術(shù)的引進(jìn)。
教育數(shù)據(jù)挖掘是在多種數(shù)據(jù)挖掘和分析技術(shù)的基礎(chǔ)上發(fā)展而來(lái)的新興應(yīng)用。教育數(shù)據(jù)挖掘是一個(gè)交叉學(xué)科領(lǐng)域,包括信息檢索、推薦系統(tǒng),可視化數(shù)據(jù)分析,領(lǐng)域驅(qū)動(dòng)數(shù)據(jù)挖掘、社交網(wǎng)絡(luò)分析(SNA)、教育心理學(xué),認(rèn)知心理學(xué),心理測(cè)量學(xué)等學(xué)科知識(shí)。其中主要包括教育學(xué)、統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué),這三個(gè)領(lǐng)域的相互作用同樣也形成了其他子領(lǐng)域與教育數(shù)據(jù)相關(guān)的計(jì)算機(jī)教育。數(shù)據(jù)挖掘、及其學(xué)習(xí)和學(xué)習(xí)分析。
3.教育數(shù)據(jù)挖掘相關(guān)概念的界定
(1)教育數(shù)據(jù)挖掘與學(xué)習(xí)分析
教育數(shù)據(jù)挖掘就是將數(shù)據(jù)挖掘應(yīng)用到教育領(lǐng)域,通過(guò)跨學(xué)科領(lǐng)域的研究更好地了解學(xué)生學(xué)習(xí)和教育的結(jié)果,從而對(duì)教育現(xiàn)象做出科學(xué)的解釋。從溯源教育數(shù)據(jù)挖掘可以看出,雖然教育數(shù)據(jù)挖掘涉及到多種不同領(lǐng)域的技術(shù),但是目前與之相近的在教育領(lǐng)域中的技術(shù)主要有學(xué)習(xí)分析。所有之前提到的學(xué)科領(lǐng)域,與教育數(shù)據(jù)挖掘關(guān)系最緊密的是學(xué)習(xí)分析,也叫做學(xué)術(shù)分析。[9]學(xué)習(xí)分析主要用于數(shù)據(jù)驅(qū)動(dòng)的決策制定和社會(huì)/教育相關(guān)的學(xué)習(xí)分析。然而,盡管教育數(shù)據(jù)挖掘在數(shù)據(jù)上是一個(gè)新的框架,發(fā)現(xiàn)新的算法或者模型,學(xué)習(xí)分析用于結(jié)構(gòu)系統(tǒng)的預(yù)測(cè)模型。事實(shí)上,學(xué)習(xí)分析定義為測(cè)量、收集、分析和包括學(xué)習(xí)者在內(nèi)的學(xué)習(xí)背景的報(bào)告,為了理解和優(yōu)化學(xué)習(xí)和所發(fā)生的環(huán)境。盡管學(xué)習(xí)分析和教育數(shù)據(jù)挖掘在很多性質(zhì)上具有相同的目標(biāo)和興趣,關(guān)鍵的不同主要從兩方面進(jìn)行辨析[8]:
重要性:學(xué)習(xí)分析在數(shù)據(jù)和結(jié)果描述上更加重要;然而,教育數(shù)據(jù)挖掘則是描述和比較數(shù)據(jù)挖掘技術(shù)運(yùn)用上更加重要。
發(fā)現(xiàn)的類(lèi)型:在學(xué)習(xí)分析中,利用人類(lèi)的判斷是關(guān)鍵;自動(dòng)發(fā)現(xiàn)用于完成這項(xiàng)目的工具。在教育數(shù)據(jù)挖掘過(guò)程中,自動(dòng)發(fā)現(xiàn)是關(guān)鍵;利用人類(lèi)的判斷是用于完成這項(xiàng)目標(biāo)的工具。
(2)教育數(shù)據(jù)挖掘與E-Learning數(shù)據(jù)挖掘
教育數(shù)據(jù)挖掘的應(yīng)用環(huán)境分為傳統(tǒng)教育環(huán)境和計(jì)算機(jī)教育系統(tǒng)。其中傳統(tǒng)的教育系統(tǒng)包括演講、課堂討論、小組練習(xí)、個(gè)人作業(yè)等傳統(tǒng)形式。而基于計(jì)算機(jī)教育系統(tǒng)的教育數(shù)據(jù)挖掘則成為E-Learning數(shù)據(jù)挖掘。E-Learning數(shù)據(jù)挖掘指的是一個(gè)將各種E-Learning軟件系統(tǒng)(主要是網(wǎng)絡(luò)教學(xué)平臺(tái))的原始數(shù)據(jù)轉(zhuǎn)換為有用信息的過(guò)程,這些有用信息可為教師、學(xué)生、家長(zhǎng)、教育研究人員、教育管理人員以及E-Learning軟件系統(tǒng)開(kāi)發(fā)人員所利用,以實(shí)現(xiàn)對(duì)學(xué)生及其所接受教育的更好理解,并可據(jù)此采用更有針對(duì)性的管理和教學(xué)優(yōu)化措施。廣義講,E-Learning理解為通過(guò)因特網(wǎng)進(jìn)行學(xué)習(xí)與教學(xué)的活動(dòng)。[10]因此,E-Learning數(shù)據(jù)挖掘是教育數(shù)據(jù)挖掘的一個(gè)方面。
三、教育數(shù)據(jù)挖掘成為教育大數(shù)據(jù)背景下的新動(dòng)力
教育數(shù)據(jù)挖掘通過(guò)發(fā)展、研究和應(yīng)用計(jì)算機(jī)的方法來(lái)識(shí)別教育規(guī)律,對(duì)教育數(shù)據(jù)進(jìn)行大規(guī)模收集。近年來(lái),教育數(shù)據(jù)挖掘在分析發(fā)生在教育環(huán)境中的特定數(shù)據(jù),解決教育問(wèn)題方面發(fā)揮著越來(lái)越重要的作用。
1.教育數(shù)據(jù)挖掘研究日趨成熟
教育數(shù)據(jù)挖掘正在處于飛速發(fā)展階段。80%以上的教育數(shù)據(jù)挖掘文獻(xiàn)都是在2000年之后發(fā)表。教育數(shù)據(jù)挖掘已經(jīng)擁有成熟的研討會(huì)(Workshop of Educational Data Mining)、國(guó)際教育數(shù)據(jù)挖掘年會(huì)(the annual International Conference on Educational Data Mining)、期刊(the Journal of Educational Data Mining)和研究手冊(cè)(the Handbook of Educational Data Mining)。
最早的一篇教育數(shù)據(jù)挖掘綜述是Romero &Ventura《教育數(shù)據(jù)挖掘: 1995年至2005年的調(diào)查》[11],也是目前為止引用最多的文獻(xiàn)。該綜述首先詳細(xì)說(shuō)明了教育數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)之間的關(guān)系和區(qū)別,并且提到了教育數(shù)據(jù)挖掘應(yīng)用在傳統(tǒng)的教育系統(tǒng),網(wǎng)絡(luò)課程,學(xué)習(xí)內(nèi)容管理系統(tǒng)和智能教育系統(tǒng)中的案例。作者只是介紹了數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域的初步運(yùn)用,并且大部分是在介紹數(shù)據(jù)挖掘的技術(shù)和方法,例如統(tǒng)計(jì)和可視化,聚類(lèi),分類(lèi)和離群點(diǎn)檢測(cè);關(guān)聯(lián)規(guī)則和挖掘模式,以及文本挖掘等,而教育數(shù)據(jù)挖掘現(xiàn)階段的應(yīng)用遠(yuǎn)遠(yuǎn)不止這些。Baker和Yacef《教育數(shù)據(jù)挖掘的現(xiàn)狀:綜述和未來(lái)展望(2009)》[12]從理論上對(duì)比了早期和現(xiàn)階段教育數(shù)據(jù)挖掘工作,分析教育數(shù)據(jù)挖掘的發(fā)展趨勢(shì)。關(guān)于教育數(shù)據(jù)挖掘方法分類(lèi)上,學(xué)界大部分是根據(jù)Baker的觀點(diǎn)分為預(yù)測(cè)、聚類(lèi)、關(guān)系挖掘等,作者認(rèn)為應(yīng)該在此增加人工判斷和模型發(fā)現(xiàn),因?yàn)槟P桶l(fā)現(xiàn)越來(lái)越學(xué)界的歡迎,并且該方法對(duì)學(xué)生學(xué)習(xí)產(chǎn)生了更好的效果。
雖然這兩項(xiàng)綜述的主題為“教育數(shù)據(jù)挖掘”,但是從內(nèi)容來(lái)看,大部分已有研究的挖掘?qū)ο笫荅-Learning系統(tǒng)產(chǎn)生的數(shù)據(jù),對(duì)于傳統(tǒng)課堂的數(shù)據(jù)挖掘占少數(shù)。
現(xiàn)階段只有兩本關(guān)于EDM書(shū)已經(jīng)出版。第一本是《E-Learning的數(shù)據(jù)挖掘》[13],有17章,主要內(nèi)容是在網(wǎng)絡(luò)環(huán)境下的教育數(shù)據(jù)挖掘。第二本是《教育數(shù)據(jù)挖掘手冊(cè)》,有36章,面向不同的教育環(huán)境(educational settings)類(lèi)型。[14]
最后提到了最近日益增長(zhǎng)的對(duì)于教育數(shù)據(jù)挖掘的興趣。圖2表明引用EDM是增長(zhǎng)很快的,在一個(gè)免費(fèi)的數(shù)據(jù)庫(kù)網(wǎng)絡(luò)中,例如Google Scholar 和 基于描述的工具例如 SciVerse Scopus,當(dāng)搜索“教育數(shù)據(jù)挖掘”(Education Data Mining)時(shí)候,從2004年到2011年的數(shù)據(jù)變化。如圖所示,兩個(gè)數(shù)據(jù)都是成指數(shù)增長(zhǎng)的,表明對(duì)這個(gè)話題的興趣越來(lái)越高了,最近兩年的SciVerse Scopus引用數(shù)據(jù)都是高于Google Scholar的。
但是目前,國(guó)內(nèi)學(xué)術(shù)界對(duì)于教育數(shù)據(jù)挖掘的研究并不多,使用“教育數(shù)據(jù)挖掘”作為關(guān)鍵詞在中國(guó)知網(wǎng)上進(jìn)行檢索,僅得到文獻(xiàn)6篇,分別來(lái)自中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)(5篇)和會(huì)議(1篇)。按照與教育數(shù)據(jù)挖掘相近的關(guān)鍵詞“學(xué)習(xí)分析”來(lái)看國(guó)內(nèi)教育數(shù)據(jù)挖掘的研究趨勢(shì)??梢钥闯?,教育數(shù)據(jù)挖掘和學(xué)習(xí)分析的研究比較少,但是2013年開(kāi)始就逐漸增多??傮w來(lái)看,我國(guó)學(xué)術(shù)界對(duì)于教育數(shù)據(jù)挖掘的研究還處于起步階段,相關(guān)研究有待進(jìn)一步開(kāi)展和深入。
對(duì)國(guó)內(nèi)外教育數(shù)據(jù)挖掘的文獻(xiàn)主題可以看出,目前國(guó)際上教育數(shù)據(jù)挖掘的研究方向主要集中于學(xué)生模型的構(gòu)建(學(xué)生行為模型、學(xué)生表現(xiàn)模型)方面;而國(guó)內(nèi)的研究還處于初級(jí)階段。教育數(shù)據(jù)挖掘的研究可能聚焦在如下幾個(gè)領(lǐng)域:①教育數(shù)據(jù)挖掘的功能,主要針對(duì)于教育數(shù)據(jù)挖掘的目的和應(yīng)用目標(biāo),因此其工作重要主要是研究、開(kāi)發(fā)和應(yīng)用某一方面類(lèi)似的、合作性質(zhì)的工作方式;②學(xué)生模型分析,主要面向小組活動(dòng)、學(xué)術(shù)成就分析、資源的利用率、學(xué)生成功因子分析、專(zhuān)注度、學(xué)生思維情況、領(lǐng)域知識(shí)等方面;③評(píng)估分析,將向應(yīng)用測(cè)試、自我評(píng)估、動(dòng)力提升和合作評(píng)價(jià)等方面發(fā)展;④學(xué)生支持和反饋,更多的研究將會(huì)關(guān)注學(xué)生的情緒反饋,競(jìng)爭(zhēng)性刺激、決策支持、文本挖掘、網(wǎng)絡(luò)挖掘和社會(huì)網(wǎng)絡(luò)交互影響等方面。
2.教育數(shù)據(jù)挖掘的利益相關(guān)者
(1)教育數(shù)據(jù)挖掘利用相關(guān)者組譜
利益相關(guān)者(stakeholder)是一個(gè)實(shí)體(人、組織等),與教育數(shù)據(jù)挖掘存在著一定的利益關(guān)系。利益相關(guān)者可以認(rèn)為是教育數(shù)據(jù)挖掘過(guò)程中的受益者,也可以認(rèn)為是教育數(shù)據(jù)挖掘的實(shí)施主體、面向用戶等。
Romero和Ventura認(rèn)為,教育數(shù)據(jù)挖掘包括不同類(lèi)型的用戶或者參與者。不同的團(tuán)體從不同的角度看到教育信息。根據(jù)他們的任務(wù)、視角和使用數(shù)據(jù)挖掘的目的不同。例如,通過(guò)教育數(shù)據(jù)挖掘算法而發(fā)現(xiàn)的知識(shí)不僅能夠幫助教師管理班級(jí),理解學(xué)生學(xué)習(xí)的過(guò)程,反應(yīng)他們的教學(xué)方法是否正確,也能夠根據(jù)學(xué)生對(duì)于環(huán)境做出反應(yīng)和反饋。[15]盡管從內(nèi)部使用者來(lái)看包括教師和學(xué)習(xí)者這兩個(gè)群體,但是,實(shí)際上也包括很多的對(duì)象。①學(xué)習(xí)者;②教師;③網(wǎng)絡(luò)課程研發(fā)人員;④教育機(jī)構(gòu)(大學(xué)、培訓(xùn)公司);⑤行政人員(學(xué)校區(qū)域行政人員、網(wǎng)絡(luò)管理人員、系統(tǒng)管理人員)。他們使用數(shù)據(jù)挖掘的目的如表3所示。
3.教育數(shù)據(jù)挖掘的技術(shù)策略
(1)教育數(shù)據(jù)挖掘技術(shù)手段
教育數(shù)據(jù)挖掘的方法有很多,其中很多方法在數(shù)據(jù)挖掘領(lǐng)域已經(jīng)有很成熟的應(yīng)用。例如,預(yù)測(cè)、聚類(lèi)、離群點(diǎn)檢測(cè)、關(guān)系挖掘,過(guò)程挖掘,文本挖掘等。另外一方面就是專(zhuān)門(mén)針對(duì)教育數(shù)據(jù)挖掘而采用的技術(shù)手段,例如提煉人類(lèi)判斷的數(shù)據(jù),模型發(fā)現(xiàn),知識(shí)跟蹤、非負(fù)矩陣分解等。
A.預(yù)測(cè)。預(yù)測(cè)的目的就是為了推斷出目標(biāo)屬性獲知數(shù)據(jù)的一個(gè)方面(預(yù)測(cè)變量)或者從數(shù)據(jù)的其他幾個(gè)方面的結(jié)合(預(yù)測(cè)性的變量)。預(yù)測(cè)方法的類(lèi)型主要是分類(lèi)(被預(yù)測(cè)變量是分類(lèi)變量),回歸(當(dāng)被預(yù)測(cè)變量是持續(xù)性變量)或者密度估計(jì)(當(dāng)被預(yù)測(cè)變量是概率密度函數(shù))。在教育數(shù)據(jù)挖掘中,預(yù)測(cè)編寫(xiě)已經(jīng)成為預(yù)測(cè)學(xué)生表現(xiàn)[16]和監(jiān)測(cè)學(xué)生的行為[17]。
B.聚類(lèi)。聚類(lèi)就為了將某些方面具有相似性的小組聚集為一類(lèi)。通常,這種例子測(cè)量方法就是為了覺(jué)得這些實(shí)例的相似度。一旦決定了簇,新的例子將會(huì)被分為最相似的簇。在教育數(shù)據(jù)挖掘中,聚類(lèi)通常用于將相似的課程材料進(jìn)行分組或者基于他們的學(xué)習(xí)和交流模式來(lái)分組。[18]
C.離群點(diǎn)檢測(cè)。離群點(diǎn)檢測(cè)的目的是發(fā)現(xiàn)數(shù)據(jù)顯著不同于其他的數(shù)據(jù)。一個(gè)離群點(diǎn)就是不同的觀察(或者測(cè)量),數(shù)據(jù)通常和其他的點(diǎn)很不同或者很小。在教育數(shù)據(jù)挖掘中,離群點(diǎn)通常會(huì)用于檢測(cè)學(xué)習(xí)困難的學(xué)生,學(xué)習(xí)者或者教育行為,表現(xiàn)的偏差,檢測(cè)不規(guī)則的學(xué)習(xí)過(guò)程。[19]
D.關(guān)系挖掘。關(guān)系挖掘就是堅(jiān)定變量和常量之間的關(guān)系并且用新的規(guī)則去在編碼以便以后能夠繼續(xù)使用。挖掘的技術(shù)不同類(lèi)型的關(guān)系,例如association rule mining(在變量之間)、關(guān)聯(lián)挖掘、序列框架挖掘(變量之間的暫時(shí)結(jié)合)、偶然數(shù)據(jù)的挖掘(變量之間的偶然關(guān)系)。教育數(shù)據(jù)挖掘中,關(guān)系挖掘已經(jīng)被用在學(xué)習(xí)行為框架之間關(guān)系的鑒定和學(xué)生學(xué)習(xí)困難的對(duì)話或者錯(cuò)誤的發(fā)生頻率。[20]
E.社交網(wǎng)絡(luò)分析。社交網(wǎng)絡(luò)是理解和測(cè)量準(zhǔn)入網(wǎng)絡(luò)信息之間的關(guān)系。SNA基于網(wǎng)絡(luò)理論的社交關(guān)系來(lái)構(gòu)成節(jié)點(diǎn)(代表網(wǎng)絡(luò)之間的個(gè)體因素)和聯(lián)系或者鏈接(代表個(gè)體的關(guān)系,例如友情,親緣關(guān)系,組織地位,性別關(guān)系等等)。在教育數(shù)據(jù)挖掘中,SNA主要用于挖掘解釋和分析結(jié)構(gòu)和合作任務(wù)之間的關(guān)系,相互交流的工具。[21]
F.過(guò)程挖掘。過(guò)程挖掘就是通過(guò)信息系統(tǒng)從過(guò)去的日志中提取出與過(guò)程相關(guān)的知識(shí)來(lái)對(duì)于整個(gè)過(guò)程有一個(gè)可視化的代表的信息。包括三個(gè)子領(lǐng)域:一致性檢測(cè),模型發(fā)現(xiàn)和模型擴(kuò)建。在教育數(shù)據(jù)挖掘過(guò)程中,過(guò)程挖掘用于從學(xué)生的考試跟蹤中發(fā)現(xiàn)學(xué)生的行為,或者從一系列課程,年級(jí)或者每一個(gè)同學(xué)。[22]
G.文本挖掘。文本挖掘也叫做文本數(shù)據(jù)挖掘或者文本分析,從文本中取得高質(zhì)量的信息。檢點(diǎn)的文本挖掘任務(wù)包括文本分類(lèi),文本聚類(lèi),概念提取,粒度分類(lèi),情緒分析,文件總結(jié)和實(shí)體關(guān)系模型。在教育數(shù)據(jù)挖掘工作中,文本挖掘主要用于討論委員會(huì),論壇,聊天,網(wǎng)頁(yè),文件諸如此類(lèi)的內(nèi)容分析。[23]
H.提煉人類(lèi)判斷的數(shù)據(jù)。主要使用總結(jié),可視化,人機(jī)交互界面等智能方法強(qiáng)調(diào)有用信息和決策支持。一方面,從獲得教育數(shù)據(jù)描述性停機(jī)到獲得全球數(shù)據(jù)的特征和總結(jié),和學(xué)習(xí)者的報(bào)告等方式變得更加容易,另外一方面,信息的可視化和圖表技術(shù)的應(yīng)用對(duì)探索和理解大量的教育數(shù)據(jù)一目了然。在教育數(shù)據(jù)挖掘工程中,同樣也是以人工判斷提煉著名就是已經(jīng)用用幫助教師來(lái)對(duì)學(xué)生的課程表現(xiàn)和使用信息的情況進(jìn)行可視化表現(xiàn)和分析。[24]
I.模型發(fā)現(xiàn)。模型發(fā)現(xiàn)的目的是使用某一現(xiàn)象(例如,使用預(yù)測(cè),聚類(lèi),手工知識(shí)工程)的有效模型作為另外一種分析,例如預(yù)測(cè)或者關(guān)系挖掘的組成部分。[25]這個(gè)在教育數(shù)據(jù)挖掘上是一個(gè)很突出的辦法,也能夠支持學(xué)生行為和學(xué)生特征或者上下文變量之間的關(guān)系鑒定,著用廣泛內(nèi)容的研究問(wèn)題分析,已經(jīng)心理測(cè)量模型架構(gòu)的一體化已經(jīng)應(yīng)用于學(xué)習(xí)模型。[26]
J.知識(shí)跟蹤。知識(shí)跟蹤(KT)是一種有效評(píng)估學(xué)生掌握認(rèn)知導(dǎo)學(xué)系統(tǒng)的技巧。[27]主要應(yīng)用于認(rèn)知模型,將問(wèn)題解決的項(xiàng)目用需要的技巧,學(xué)生正確或者不正確答案的日志來(lái)回到某一技巧所需要的知識(shí)。知識(shí)跟蹤學(xué)生知識(shí)和通過(guò)四個(gè)變量來(lái)設(shè)置參數(shù)。這個(gè)作為貝葉斯網(wǎng)絡(luò)的一種迭代公式。
K.非負(fù)矩陣分析。非負(fù)矩陣分解NMF是一種新矩陣分解算法,自《Nature》1999年刊登了兩位科學(xué)家D.D.Lee和H.S.Seung有關(guān)非負(fù)矩陣研究的成果后,此分解算法逐漸被人們接受并應(yīng)用到各種領(lǐng)域。NMF的基本思想可以簡(jiǎn)單描述為:對(duì)于任意給定的一個(gè)非負(fù)矩陣M,NMF算法能夠?qū)ふ业揭粋€(gè)非負(fù)矩陣Q和一個(gè)非負(fù)矩陣S,使得滿足M=QS,從而將一個(gè)非負(fù)的矩陣分解為左右兩個(gè)非負(fù)矩陣的乘積。NMF分解算法相較于傳統(tǒng)的一些算法而言,具有實(shí)現(xiàn)上的簡(jiǎn)便性、分解形式和分解結(jié)果上的可解釋性,以及占用存儲(chǔ)空間少等諸多優(yōu)點(diǎn)。通過(guò)矩陣分解,一方面將描述問(wèn)題的矩陣的維數(shù)進(jìn)行削減,另一方面也可以對(duì)大量的數(shù)據(jù)進(jìn)行壓縮和概括。有很多NMF算法和不同的解決辦法。NMF構(gòu)成了正數(shù),同時(shí)也是兩個(gè)較小矩陣的結(jié)果。
(2)教育數(shù)據(jù)挖掘的應(yīng)用環(huán)境
教育數(shù)據(jù)挖掘的應(yīng)用環(huán)境日趨復(fù)雜,主要分為傳統(tǒng)教育環(huán)境和計(jì)算機(jī)網(wǎng)絡(luò)環(huán)境。每一個(gè)環(huán)境都提供了不同形式的數(shù)據(jù)資源,根據(jù)可利用數(shù)據(jù)的屬性和具體的問(wèn)題,需要采取不同的方式進(jìn)行處理。
A.傳統(tǒng)教育。傳統(tǒng)教育主要是教師與學(xué)生之間通過(guò)面對(duì)面的交流,例如演講、課堂討論、小組練習(xí)、個(gè)人作業(yè)等形式。這些環(huán)境下手機(jī)學(xué)生出勤率、分?jǐn)?shù)、課程目標(biāo)和個(gè)人計(jì)劃等數(shù)據(jù)信息。同時(shí)傳統(tǒng)的教育機(jī)構(gòu)也會(huì)存儲(chǔ)著形式多樣的資料[28]:傳統(tǒng)數(shù)據(jù)庫(kù)(學(xué)生信息、教師信息、班級(jí)和課堂安排信息)、在線網(wǎng)絡(luò)信息等。在傳統(tǒng)課堂上一般會(huì)通過(guò)試卷或者觀察來(lái)監(jiān)控學(xué)生的學(xué)習(xí)過(guò)程,分析他們的學(xué)習(xí)。[29]
B.計(jì)算機(jī)教育系統(tǒng)。計(jì)算機(jī)系統(tǒng)在商業(yè)領(lǐng)域已經(jīng)有了成熟的應(yīng)用。但是在教育系統(tǒng)中的應(yīng)用還是處于成長(zhǎng)期。計(jì)算機(jī)教育系統(tǒng)根據(jù)用戶的研究領(lǐng)域不同,而將不同的風(fēng)格加以融合。該系統(tǒng)根據(jù)確立的目標(biāo)(例如,教材、學(xué)習(xí)、問(wèn)題解決、管理課件等),應(yīng)用學(xué)習(xí)理論(客觀論、認(rèn)知理論和社會(huì)學(xué)理論)來(lái)設(shè)置相應(yīng)的功能(例如,個(gè)性化,智能化等),并且運(yùn)用技術(shù)平臺(tái)來(lái)進(jìn)行教學(xué)實(shí)踐活動(dòng),其中智能導(dǎo)學(xué)系統(tǒng)(ITS)完成問(wèn)題引入、操作和實(shí)驗(yàn)室儀器的管理等任務(wù)。[30]而智能化教育系統(tǒng)(AIWBES)就是將智能應(yīng)用到課程、內(nèi)容、排序、評(píng)估和學(xué)習(xí)等方面,以滿足不同的教育目標(biāo)。而其他的計(jì)算機(jī)教育系統(tǒng)將重點(diǎn)放在用戶體驗(yàn)方面,例如學(xué)生模型、評(píng)估和教師支持等。
我們認(rèn)為,教育數(shù)據(jù)挖掘系統(tǒng)主要有以下幾種技術(shù)特征:
功能模塊化。單一的教育數(shù)據(jù)挖掘工具已經(jīng)無(wú)法滿足“智慧教育”學(xué)習(xí)環(huán)境建構(gòu)中對(duì)于教育數(shù)據(jù)挖掘的多樣化要求。教育數(shù)據(jù)挖掘的計(jì)算機(jī)應(yīng)用系統(tǒng)要滿足利益相關(guān)者的各種需求,就需要強(qiáng)調(diào)對(duì)多種工具、技術(shù)的模塊化聚合。不同功能和特征的模塊集成為一個(gè)教育數(shù)據(jù)挖掘應(yīng)用系統(tǒng),模塊內(nèi)高內(nèi)聚,不同模塊間低耦合,針對(duì)不同的數(shù)據(jù)源采用統(tǒng)一的模塊進(jìn)行處理和分析。系統(tǒng)內(nèi)的模塊可以有工具集、插件等多種形式。
分析結(jié)果的可視化。教育數(shù)據(jù)挖掘的結(jié)果是面向不同的學(xué)習(xí)者和教學(xué)者,已經(jīng)研究者。這就強(qiáng)調(diào)教育數(shù)據(jù)挖掘的結(jié)果報(bào)告一定要滿足不同人群的需要和理解能力。因此,可視化呈現(xiàn)時(shí)教育數(shù)據(jù)挖掘結(jié)果需求所在。
數(shù)據(jù)多源化。教育數(shù)據(jù)挖掘的應(yīng)用系統(tǒng)已經(jīng)不再局限于各類(lèi)數(shù)據(jù)化學(xué)習(xí)環(huán)境,如Sakai,Moodle等,而是超越LMS嘗試對(duì)多源的教育數(shù)據(jù)進(jìn)行處理。這些數(shù)據(jù)來(lái)源可以正式學(xué)習(xí)環(huán)境下的LMS數(shù)據(jù)、機(jī)構(gòu)管理系統(tǒng)數(shù)據(jù)(學(xué)生檔案、學(xué)生基本信息等)、也可以是非正式學(xué)習(xí)環(huán)境下的各種學(xué)習(xí)行為痕跡采集。Ryan S.J.d.Baker 在2013年教育數(shù)據(jù)挖掘研究進(jìn)展大會(huì)(孟菲斯)提出教育數(shù)據(jù)挖掘的工作正處于一個(gè)復(fù)雜而又不斷變化的世界中。[31]
(3)教育數(shù)據(jù)挖掘的關(guān)鍵性應(yīng)用
教育數(shù)據(jù)的研究者不僅針對(duì)教育軟件,計(jì)算機(jī)支持合作學(xué)習(xí),計(jì)算機(jī)應(yīng)用測(cè)試等個(gè)人學(xué)習(xí)的分析,同時(shí)也對(duì)學(xué)生失敗或者課程的因素分析。
教育數(shù)據(jù)挖掘應(yīng)用在學(xué)生模型的提高。學(xué)生模型表示學(xué)生特征或者狀態(tài)的信息,例如學(xué)生當(dāng)前的知識(shí),動(dòng)機(jī),外在識(shí)別和態(tài)度。不同的學(xué)生個(gè)體建模需要軟件來(lái)對(duì)于個(gè)體的差異進(jìn)行區(qū)別和反應(yīng),這樣才能夠顯著提高學(xué)生學(xué)習(xí)。教育數(shù)據(jù)挖掘的方法能讓研究者對(duì)于重要的相關(guān)的學(xué)生在真正時(shí)間范圍內(nèi)進(jìn)行研究,例如高水平的構(gòu)建而不是之前的可能性。例如,最近幾年,研究者用教育數(shù)據(jù)挖掘的方法來(lái)鑒定學(xué)生是否在教育系統(tǒng)中作弊或者很差的自我效益。未完成任務(wù),或者甚至一個(gè)學(xué)生覺(jué)得無(wú)聊或者失望。研究者也能夠延伸學(xué)生模型甚至超過(guò)教育軟件,目的是計(jì)算出預(yù)測(cè)學(xué)生失敗]或者為保留大學(xué)課程的因素。
發(fā)現(xiàn)或者提供領(lǐng)域知識(shí)結(jié)構(gòu)的模型 從機(jī)器學(xué)習(xí)文件中將心理學(xué)模型與空間搜索算法結(jié)合,仍然有很多的研究者開(kāi)發(fā)自動(dòng)獲取準(zhǔn)確領(lǐng)域結(jié)構(gòu)的模型,直接從數(shù)據(jù)著手。例如,Barnes已經(jīng)開(kāi)發(fā)了一種能夠自動(dòng)發(fā)現(xiàn)Q矩陣的算法來(lái)分析數(shù)據(jù)[32],Desmarai已經(jīng)開(kāi)發(fā)了一個(gè)算法來(lái)發(fā)現(xiàn)部分順序知識(shí)結(jié)構(gòu)(POKS)模型,解釋領(lǐng)域知識(shí)的相互關(guān)系。[33]
第三個(gè)關(guān)鍵應(yīng)用是研究教育支持(在學(xué)習(xí)軟件,其他領(lǐng)域中,例如合作學(xué)習(xí)行為),面向發(fā)現(xiàn)什么類(lèi)型的教育支持最有效。不同分組的學(xué)生或者不同情況下的學(xué)生。學(xué)習(xí)教育學(xué)支持最受歡迎的一個(gè)方法就是學(xué)習(xí)分解適合支持。
第四個(gè)關(guān)鍵的應(yīng)用就是教育數(shù)據(jù)挖掘能夠去定義或者擴(kuò)展教育的理論,對(duì)于影響學(xué)習(xí)的關(guān)鍵性因素就能夠獲得更為深入的理解,經(jīng)常是用于設(shè)計(jì)一個(gè)更好的學(xué)習(xí)系統(tǒng)。例如,Gong,Rai和Heffernan(2009)調(diào)查了自我理論在學(xué)習(xí)上的影響,研究發(fā)現(xiàn)與學(xué)習(xí)相關(guān)的知識(shí)輸入越多,那么就會(huì)在學(xué)習(xí)中更少犯錯(cuò)誤,而關(guān)于學(xué)習(xí)本身的影響力也是有限的。[34]Perera使用五大合作理論作為驅(qū)動(dòng)理論來(lái)對(duì)于學(xué)生小組成功交流的框架。[35]Madhyastha和Tanimoto評(píng)估了一致性和學(xué)生表現(xiàn)之間的關(guān)系,用這個(gè)目的去指導(dǎo)支架式教學(xué),基于他們的工作對(duì)于學(xué)生行為的一致性影響的超前理論。[36]
四、教育數(shù)據(jù)挖掘在大數(shù)據(jù)背景下面臨的挑戰(zhàn)和愿景
國(guó)際著名學(xué)術(shù)期刊《自然》和《科學(xué)》分別于2008年和2011年推出大數(shù)據(jù)專(zhuān)欄,在教育領(lǐng)域,哈佛大學(xué)、斯坦福大學(xué)、耶魯大學(xué)等世界知名大學(xué)也啟動(dòng)了教育大數(shù)據(jù)研究項(xiàng)目??梢?jiàn),大數(shù)據(jù)時(shí)代已經(jīng)到來(lái),這并將改變教育的傳統(tǒng)形式,在未來(lái)具有廣闊的應(yīng)用前景,然而,由于種種限制,部分大數(shù)據(jù)相關(guān)應(yīng)用還處于探索研究階段,筆者認(rèn)為,大數(shù)據(jù)時(shí)代背景下教育數(shù)據(jù)挖掘的全面應(yīng)用主要面臨兩方面的挑戰(zhàn):
(1)技術(shù)層面的挑戰(zhàn)。大數(shù)據(jù)的應(yīng)用基礎(chǔ)是對(duì)海量數(shù)據(jù)的存儲(chǔ),因而數(shù)據(jù)處理和分析技術(shù)必須跟上信息技術(shù)發(fā)展的步伐,這就包括計(jì)算機(jī)的數(shù)據(jù)處理能力、大型超級(jí)計(jì)算機(jī)算法技術(shù)開(kāi)發(fā)等。其次,教育數(shù)據(jù)挖掘的核心環(huán)節(jié)是數(shù)據(jù)采集和問(wèn)題分析,應(yīng)用開(kāi)發(fā)這需要面對(duì)的就是采集數(shù)據(jù)技術(shù)和學(xué)習(xí)分析技術(shù)的挑戰(zhàn)。最后,不得不提的是數(shù)據(jù)存儲(chǔ)系統(tǒng)的兼容性問(wèn)題。目前,還沒(méi)有制定教育數(shù)據(jù)的標(biāo)準(zhǔn)形式,沒(méi)有統(tǒng)一的數(shù)據(jù)平臺(tái),這就對(duì)我們計(jì)算機(jī)兼容性提出了嚴(yán)峻的挑戰(zhàn)。
(2)組織管理的挑戰(zhàn)。眾所周知,大數(shù)據(jù)的最大特點(diǎn)在于其“混雜性”,這種“混雜性”不僅表現(xiàn)在不同國(guó)家、地區(qū)和學(xué)校之間數(shù)據(jù)背景的差別,也表現(xiàn)在不同教師和研究人員對(duì)數(shù)據(jù)的期望也千差萬(wàn)別。因此,提升數(shù)據(jù)使用者的綜合素質(zhì)是我們開(kāi)展數(shù)據(jù)挖掘工作的關(guān)鍵。
我們已經(jīng)進(jìn)入了一個(gè)“數(shù)據(jù)驅(qū)動(dòng)學(xué)校,分析變革教育”的大數(shù)據(jù)時(shí)代,大數(shù)據(jù)必將改變傳統(tǒng)教育的形式,“數(shù)據(jù)驅(qū)動(dòng)決策”已經(jīng)成為教育發(fā)展的潮流趨勢(shì)。發(fā)達(dá)國(guó)家已經(jīng)意識(shí)到大數(shù)據(jù)背景下教育的機(jī)遇與挑戰(zhàn),將大數(shù)據(jù)提升到國(guó)家戰(zhàn)略地位,雖然我國(guó)教育數(shù)據(jù)挖掘工作還處于起步階段,但是我們相信,只要我們整合現(xiàn)有資源,恰當(dāng)運(yùn)用數(shù)據(jù)挖掘技術(shù)優(yōu)化教育規(guī)劃和管理、提高教育教學(xué)質(zhì)量,這不僅是必要的,也是一定能夠做到的。
參考文獻(xiàn):
[1]Mayer-Sch?nberger V, Cukier K. Big data: A revolution that will transform how we live, work, and think[M]. Houghton Mifflin Harcourt, 2013.
[2]頁(yè)川.大數(shù)據(jù)時(shí)代背景下挖掘教育數(shù)據(jù)的價(jià)值——教育部科學(xué)技術(shù)研究重點(diǎn)項(xiàng)目成果《教育數(shù)據(jù)挖掘:方法與應(yīng)用》出版[J].中國(guó)遠(yuǎn)程教育,2013(4):94.
[3]Bala M, Ojha D B. Study of applications of data mining techniques in education[J]. International J Res Sci Technol, 2012, 1: 1-10.
[4]中華人民共和國(guó)教育部.教育信息化十年發(fā)展規(guī)劃(2011-2020年)[EB/OL].[2012-03-13].http://www.edu.cn/zong_he_870/20120330/t20120330_760603.shtml.
[5]Han J W,Micheline K.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟曉峰譯.北京:機(jī)械工業(yè)出版社,2001.
[6]Luan, Jing. "Data mining and its applications in higher education." New directions for institutional research 2002.113 (2002): 17-36.
[7][25]Baker RSJd, Yacef K. The state of educational data mining in 2009: a review and future visions. J Edu Data Min 2009, 3–17.CAS
[8][14]Romero, C., Ventura, S., Pechenizkiy, M., & Baker, R. S. (Eds.). (2011). Handbook of educational data mining. CRC Press.
[9]Siemens, George, and Ryan SJ d Baker. "Learning analytics and educational data mining: towards communication and collaboration." Proceedings of the 2nd international conference on learning analytics and knowledge. ACM, 2012.
[10]Romero, Cristóbal, Sebastián Ventura, and Enrique García. "Data mining in course management systems: Moodle case study and tutorial." Computers & Education 51.1 (2008): 368-384.
[11]Romero, Cristóbal, and Sebastian Ventura. "Educational data mining: A survey from 1995 to 2005." Expert systems with applications 33.1 (2007): 135-146.
[12]Baker, Ryan SJD, and Kalina Yacef. "The state of educational data mining in 2009: A review and future visions." JEDM-Journal of Educational Data Mining 1.1 (2009): 3-17.
[13]Romero, C., and S. Ventura. "Data Mining in E-learning (Advances in Management Information)." (2006).
[15]Romero C, Ventura S. Educational data mining: a review of the state of the art[J]. Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions on, 2010, 40(6): 601-618.
[16]Romero C, Espejo P, Zafra A, Romero J, Ventura S. Web usage mining for predicting marks of students that use Moodle courses. Comput Appl Eng Edu J. In Press.
[17]Baker RSJd, Gowda SM, Corbett AT. Automatically detecting a students preparation for future learning: help use is key. In: Fourth International Conference on Educational Data Mining. Eindhoven, The Netherlands;2011, 179-188.
[18]Vellido A, Castro F, Nebot A. Clustering Educational Data. Handbook of Educational Data Mining. Boca Raton, FL: Chapman and Hall/CRC Press; 2011, 75-92.
[19]Ueno M. Online outlier detection system for learning time data in e-learning and its evaluation. In: International Conference on Computers and Advanced Technology in Education. Beijiing, China; 2004, 248-253.
[20]Merceron A, Yacef K. Measuring correlation of strong symmetric association rules in educational data. In Romero C, Ventura S, Pechenizkiy M, Baker RSJd, eds. Handbook of Educational Data Mining. Boca Raton,F(xiàn)L: CRC Press; 2010, 245-256.
[21]Rabbany R, Takaffoli M, Za¨?ane O. Analyzing participation of students in online courses using social network analysis techniques. In: International Conference on Educational Data Mining. Eindhoven, The Netherlands;2011, 21-30.
[22]Trˇcka N, Pechenizkiy M, van der Aalst W. Process mining from educational data. Handbook of Educational Data Mining. Boca Raton, FL: CRC Press; 2011, 123-142.
[23]Tane J, Schmitz C, Stumme G. Semantic resource management for the web: an e-learning application. In:International Conference of the WWW. New York;2004, 1-10.
[24]Mazza R, Milani C. GISMO: a graphical interactive student monitoring tool for course management systems.In: International Conference on Technology Enhanced Learning.Milan, Italy; 2004, 1-8.
[26]Bienkowski M, Feng M, Means B. Enhancing teaching and learning through educational data mining and learning analytics: an issue brief. Washington, D.C.:Office of Educational Technology, U.S. Department of Education; 2012, 1-57.
[27]Corbett A, Anderson J. Knowledge tracing: modeling the acquisition of procedural knowledge. User Model User-Adapted Interact 1995, 4:253-278.
Corbett A, Anderson J. Knowledge tracing: modeling the acquisition of procedural knowledge. User Model User-Adapted Interact 1995, 4:253-278.
[28]Ma Y, Liu B, Wong C, Yu P, Lee S. Targeting the right students using data mining. In: KDD‘00: Proceedings Proceedings of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2000,457-464.
[29]student failure at school using genetic programming and different data mining approaches with high dimensional and imbalanced data. Appl Intell. In Press.
[30]Mostow J, Beck J. Some useful tactics to modify, map and mine data from intelligent tutors. J Nat Lang Eng 2006, 12:195-208.
[31]San Pedro, Maria Ofelia Z., et al. "Predicting college enrollment from student interaction with an intelligent tutoring system in middle school." Proceedings.
[32]the 6th international conference on educational data mining. 2013. Johnson M, Barnes T. EDM visualization tool: watching students learn. In: Third International.
[33]Conference on Educational Data Mining. Pittsburgh, PA; 2010,297-298.Desmarais MC. Mapping question items to skills with non-negative matrix factorization. ACM SIGKDD Explor 2011, 13:30–36.
[34]Gong, Yue, et al. "Does Self-Discipline Impact Students' Knowledge and Learning?." International Working Group on Educational Data Mining (2009).
[35]PERERA, D., KAY, J., KOPRINSKA, I., YACEF, K. and ZAIANE, O. 2009. Clustering and sequential pattern mining to support team learning. IEEE Transactions on Knowledge and Data Engineering 21, 759-772
[36]MADHYASTHA, T. and TANIMOTO, S. 2009. Student Consistency and Implications for Feedback in Online Assessment Systems. In Proceedings of the 2nd International Conference on Educational Data Mining, 81-90.
(編輯:王曉明)