丁國勇, 錢靜珠
(1.南京師范大學 教育科學學院,南京 210097;2.南京審計大學 教務處,南京 211815; 3.南京工業(yè)大學 教務處,南京 211815)
現(xiàn)代社會爆炸式增長的數(shù)據使得我們進入了舍恩伯格所說的“大數(shù)據時代”。如何從這些海量數(shù)據中發(fā)現(xiàn)有價值的信息,把這些“死”的數(shù)據成“活”的知識,催生了數(shù)據挖掘技術。數(shù)據挖掘是從大量數(shù)據中挖掘有趣模式和知識的過程[1]。數(shù)據挖掘技術在商業(yè)、生物學等領域已經得到了很好的應用,其遷移到教育領域,就產生了教育數(shù)據挖掘(Educational Data Mining,EDM)這樣一門新興的學科,通過對大規(guī)模教育數(shù)據的挖掘,更好的理解教育,為教育提供有效信息。實驗教學作為高校教學的重要組成部分和環(huán)節(jié),在其組織、運行、實施過程中勢必產生了大量的多種類型的數(shù)據。本文主要探討教育數(shù)據挖掘在高校實驗教學中應用的可行性、實施步驟、可能存在問題以及相關建議。
由圖1可以看出,計算機科學與教育學融合產生了信息技術教育,計算機科學與統(tǒng)計學融合產生了機器學習和數(shù)據挖掘,教育學與統(tǒng)計學融合產生了教育測量(統(tǒng)計),而教育數(shù)據挖掘則是由計算機科學、教育學、統(tǒng)計學3種學科融合而成,屬于一種新興的復合交叉學科,不僅繼承了來源學科的基本特征,還具有自己的獨特的特性[2]。
圖1教育數(shù)據挖掘的支撐學科
教育數(shù)據挖掘最早起源于上世紀80年代,數(shù)據挖掘技術出現(xiàn)后,部分研究者嘗試將數(shù)據挖掘技術應用于教育領域,但由于數(shù)據挖掘技術處于發(fā)展中,可供挖掘的教育數(shù)據也有限,一般來源于調查問卷和管理軟件,使用方法主要是統(tǒng)計分析的方法,成果相對較少。進入21世紀,特別是2010年以后,隨著互聯(lián)網+教育、Web技術、網絡課程、MOOC、在線學習平臺等的廣泛使用,對學生的學習行為、學習過程、學習結果全覆蓋全記錄,形成了海量的多種類型的數(shù)據,使教育數(shù)據挖掘有了其用武之地。第一個關于教育數(shù)據挖掘的國際學術組織國際教育數(shù)據挖掘學會(International Educational Data Mining Society,IEDMS)于2011年在美國馬薩諸塞州成立。從2008年起至今,IEDMS及其前身教育數(shù)據挖掘國際工作組已經在美國、加拿大、英國等國家舉辦了九屆教育數(shù)據挖掘國際會議,來自不同領域的研究人員對教育數(shù)據挖掘的理論、技術、方法進行探討,研究教育數(shù)據挖掘在改進教學過程、管理中的作用。IEDMS還辦有一份國際期刊《教育數(shù)據挖掘》[3]。美國教育部也在2012年發(fā)布了《通過教育數(shù)據挖掘和學習分析促進教與學》藍皮書,說明教育數(shù)據挖掘已經受到了高度關注。近幾年在我國,教育數(shù)據挖掘也逐漸受到了研究者的關注[4]。
教育數(shù)據挖掘的研究范圍,從主體來看包括學生、教師、管理人員等。對于學生,可以進行學習風格分析、評價學習效率、預測學習效果、推薦個性化的學習資源;對于教師,可以了解教學效率,改進教學材料,預測學生產出;對于管理人員,可以提供決策支持。從可被挖掘的數(shù)據來源來看包括常規(guī)課堂教學、教學管理系統(tǒng)、Web、在線學習平臺、網上實驗平臺等。從可供使用的挖掘技術來看包括聚類(聚類、離群點分析)、預測(決策樹、回歸分析、 時序分析、神經網絡)、關系挖掘(關聯(lián)規(guī)則挖掘、序列模式挖掘、相關挖掘)、文本挖掘等[5-7]。
與理論教學相對應,實驗教學在高校人才培養(yǎng)中占有極其重要的地位。近些年來,國家、省和高校也都對實驗教學有高度的重視,通過國家、省級實驗示范教學中心建設等措施,有力地提升了高校實驗教學的質量。實驗教學相關的教學管理、虛擬、仿真、模擬等軟件、系統(tǒng)、平臺紛繁復雜,以作者所在高校為例,相關實驗教學軟件平臺有數(shù)十種之多,這些軟件、系統(tǒng)、平臺在使用過程中必然產生了海量的數(shù)據,為教育數(shù)據挖掘提供了數(shù)據基礎和可能性。
通過選擇合適的教育數(shù)據挖掘模式,對海量的數(shù)據進行深度挖掘,從其中挖掘一些“有趣”的知識,必將從某些方面對當前高校的實驗教學提供改進的措施,主要包括:
(1) 提升教師實驗教學能力。傳統(tǒng)實驗教學往往是一套軟件、一個流程,教師在教學中不能兼顧學生的學習基礎、學習風格差異。引入學生其他方面的數(shù)據比如生源、績點、以往實驗課程學習成果等等,通過教育數(shù)據挖掘中相關技術,對學生學習風格進行分類,因材施教,分層次分級別或者分項目組織教學;預測學生的學習產出,對于個別學習困難的學生再單獨提供精準幫扶。
(2) 改進實驗課程軟件設計。通過關聯(lián)規(guī)則挖掘、聚類、分類等技術,對實驗課程軟件中的學生使用軌跡、嘗試次數(shù)、持續(xù)時間、學習結果進行分析,幫助實驗課程軟件開發(fā)者優(yōu)化該課程內容組織、活動安排和鏈接。比如,Deirdre等通過對學生學習行為的挖掘來改進教育視頻游戲的設計[8]。
(3) 為學生提供學習支持。對于學生而言,教育數(shù)據挖掘可以從學生行為角度探索學習過程的發(fā)生機制,并用來優(yōu)化學習,通過對學習行為數(shù)據的分析為學生推薦學習軌跡,促進適應性學習、自我導向學習[9-11]??梢允褂玫募夹g包括序列模式挖掘、Web日志挖掘、文本挖掘等等。
國家、省、高校對實驗教學的大規(guī)模持續(xù)的資金投入,必然對實驗教學管理工作提出更高的要求,關鍵因素可以包括實驗教學質量監(jiān)控體系的建立[12]、實驗教學管理人員能力和素質的提升[13]等,當然也有優(yōu)化實驗教學資源配置[14]。通過教育數(shù)據挖掘,對實驗室使用數(shù)據、實驗教學軟件使用數(shù)據進行分析和評價,為實驗室開放、實驗教學軟件配置等提供決策支持。
參考了García等的教育數(shù)據挖掘流程圖[15],結合高校實驗教學的實際,將教育數(shù)據挖掘在高校實驗教學中的應用分為六大步驟:數(shù)據獲取、數(shù)據處理、數(shù)據挖掘、結果評估、知識發(fā)現(xiàn)和反饋實驗教學,如圖2所示。
圖2教育數(shù)據挖掘應用步驟
數(shù)據獲取是從實驗教學環(huán)境中提取數(shù)據的過程。這是教育數(shù)據挖掘應用的第一步,也是最難以開展的一步,主要解決的問題是哪些數(shù)據需要被抽取。實驗教學平臺、軟件的復雜性決定了數(shù)據獲取的復雜性。數(shù)據獲取工作應該是以問題研究為導向,需要平臺、軟件的設計者、教育數(shù)據挖掘的實施者和實驗教學的研究者共同來完成,確定需要獲得的數(shù)據的類型、范圍、特征,有些在實驗教學環(huán)境中無法獲取的數(shù)據還需要與其他系統(tǒng)平臺進行整合抽取。
數(shù)據處理是對上一步獲取的數(shù)據進行規(guī)范化處理的過程。從實驗軟件平臺或其他系統(tǒng)獲得的數(shù)據,格式往往達不到可供挖掘的要求,比如有數(shù)據的缺失,有數(shù)據的不一致或者是包含一些無用的數(shù)據。在這一步中,按照數(shù)據挖掘算法對數(shù)據的規(guī)范要求,對原始數(shù)據進行格式轉換。
數(shù)據挖掘是最核心的步驟。數(shù)據挖掘的目的是從數(shù)據中建立模型,主要包括預測模型和描述模型。預測模型通過已知的數(shù)據去預測未知的數(shù)據,而描述模型則通過分析數(shù)據發(fā)現(xiàn)新的模式或結構[14]。主要的數(shù)據挖掘算法包括分類、聚類、關聯(lián)規(guī)則挖掘等。分類的目的在于為數(shù)據對象指定一個類別,比如根據學生的實驗操作行為判斷學習風格;聚類的目的在于將相似的數(shù)據對象歸為同一類別,比如將對學生學習進行聚類評價。關聯(lián)規(guī)則挖掘,其目的在于發(fā)現(xiàn)數(shù)據對象之間的關聯(lián)或關系,比如發(fā)現(xiàn)學生實驗課程與理論課程學習的關聯(lián)度。還有其他的許多數(shù)據挖掘算法,可以根據數(shù)據類型、挖掘要求來單獨或組合選擇。
結果評估是對數(shù)據挖掘效果的評價。主要的評估指標有:準確率即全部樣本中被正確識別的比例;召回率即真實的正樣本中被正確識別的比例;精度,即識別為正樣本中真實的正樣本所占比例。
通過數(shù)據獲取、數(shù)據處理、數(shù)據挖掘和結果評估后,可能會形成一系列的關聯(lián)規(guī)則、決策樹等,這時,需要實驗教學管理領域專業(yè)人員對這些生成的規(guī)則進行有效性鑒別,發(fā)現(xiàn)其中可能對改進實驗教學、管理產生作用的規(guī)則。
根據知識發(fā)現(xiàn)步驟中生成的規(guī)則,結合實際,形成政策、建議或其他相應的文檔,并在實驗教學中進行檢驗。
教育數(shù)據挖掘在高校實驗教學中可以有比較廣泛的應用前景,但在實際實施過程中,必然也會遇到一些問題,概括起來就是“挖什么?””怎么挖?”和“誰來挖?”。
高校實驗教學的特殊性,導致其數(shù)據來源復雜且數(shù)據的結構不統(tǒng)一,不僅包括實驗教學管理系統(tǒng)的數(shù)據,還可能有網上實驗教學平臺,單機版、網絡版的實驗教學軟件等等。要對這些數(shù)據進行挖掘,首先要詳細分析各種數(shù)據源的數(shù)據庫類型、數(shù)據組織方式以及可用數(shù)據,再按照規(guī)則進行數(shù)據采集、轉換、清洗和挖掘,與其他一些通用的網絡教學平臺如Blackboard的挖掘相比,其工作復雜性會成倍增加。建議開發(fā)有針對性的數(shù)據采集軟件,制定數(shù)據接口標準,方便對實驗教學軟件平臺的數(shù)據挖掘。
教育數(shù)據挖掘是一門新興的學科、一種新的研究范式,從本質上來看更是多種技術和工具的融合。與教育數(shù)據挖掘相關的技術相當繁雜,就像上文提到的聚類、分類、文本等,每種類別中還有不同的算法;教育數(shù)據挖掘可以使用的工具軟件也很多,RapidMiner、Weka、KEEL、KNIME、Orange、SPSS、R語言,在數(shù)據預處理步驟中還可能應用到數(shù)據庫工具。因此,如何選擇技術與工具也會成為難題。建議借鑒國內外教育數(shù)據挖掘經驗,設計與開發(fā)不同類別的實驗教學教育數(shù)據挖掘模式,并建立高校實驗教學教育數(shù)據挖掘研究小組和組織,促進知識、經驗的共享、交流與合作。
教育數(shù)據挖掘的主體是教師、學生和管理者。教師和學生是教學活動的主導者、參與者,是數(shù)據的生成者,無法掌握全局性的數(shù)據,所以教育數(shù)據挖掘的主要實施者應該是管理者。通過教育數(shù)據挖掘的成果,改進了教學、改進了管理,教師、學生和管理者三方都是受益者。但實施教育數(shù)據挖掘并不是一件容易的事,對管理者能力要求較高,不僅要熟悉教育數(shù)據挖掘的相關理論、技術、步驟,還要是本業(yè)務領域的行家。建議將教育數(shù)據挖掘納入實驗教學管理者的能力框架體系,有步驟地進行專業(yè)培訓,提高實驗管理人員的綜合素質。
習近平總書記提出要“以數(shù)據集中和共享為途徑,建設全國一體化的大數(shù)據中心,推進技術融合、業(yè)務融合、數(shù)據融合”[16],大數(shù)據逐漸上升為國家戰(zhàn)略,而教育數(shù)據挖掘充分體現(xiàn)了“大數(shù)據”的理念,將可能得到更多的政策與資源支持,教師、學生與管理者也會逐漸接受、重視教育數(shù)據挖掘并從中受益。本文僅僅對教育數(shù)據挖掘在高校實驗教學領域中的應用進行了淺層的研究和初步的探討,可以預見在實證研究、應用研究等方面應該有相當多的問題等待我們去探索。
參考文獻(References):
[1]Jiawei Han,Micheline Kamber.數(shù)據挖掘概念與技術[M].北京:機械工業(yè)出版社,2001:4-6.
[2]周慶,牟超,楊丹. 教育數(shù)據挖掘研究進展綜述[J]. 軟件學報,2015(11):3026-3042.
[3]http://www.educationaldatamining.org/[EB/OL].2016-10-25.
[4]李婷,傅鋼善.國內外教育數(shù)據挖掘研究現(xiàn)狀及趨勢分析[J]. 現(xiàn)代教育技術,2010(10):21-25.
[5]葛道凱,張少剛,魏順平.教育數(shù)據挖掘:方法與應用[M].北京: 教育科學出版社, 2012:14-15.
[6]Romero,etal.Data mining in course management systems: Moodle case study and tutorial[J]. Computers & Education,2005,51(1):368-384.
[7]Cristobal,Etc.Handbook of Educational Data Mining[M].CRC Press.2011:3-4.
[8]Deirdre Kerr. Using data mining results to improve educational video game design[J]. Journal of Educational Data Mining, 2015,7(3):1-17.
[9]魏順平. 學習分析技術:挖掘大數(shù)據時代下教育數(shù)據的價值[J]. 現(xiàn)代教育技術,2013(2):5-11.
[10]熊宏齊. 論高校實驗教學如何適應學生的自主選擇要求[J]. 實驗技術與管理,2013(1):1-4,7.
[11]熊文元,譚永宏,包本剛. 地方高校實驗教學應用型人才培養(yǎng)的改革與探索[J]. 實驗技術與管理,2012(9):120-122.
[12]彭志平,李紹平,柯文德. 高校實驗教學質量監(jiān)控體系的研究與實踐[J]. 實驗技術與管理,2012(9):123-125.
[13]王偉,張紅巖,韓拴,等. 高校實驗室技術人員素質教育芻議[J]. 實驗室研究與探索,2014(2):230-233.
[14]鄧廣濤,崔志恒,趙俊偉,等. 改革實踐教學管理 培養(yǎng)創(chuàng)新能力[J]. 實驗室研究與探索,2013(6):349-352,423.
[15]García E, Romero C, Ventura S, de Castro C. A collaborative educational association rule mining tool[J]. The Internet and HigherEducation, 2011,14(2):77-88.
[16]習近平.建設全國一體化的國家大數(shù)據中心[EB/OL].http://finance.ifeng.com/a/20161010/14924812_0.shtml,2016-10-10/2016-10-31.