• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      我國教育數據挖掘研究熱點與趨勢分析*

      2019-05-17 01:51:16聶文苗彭紹東
      中小學電教 2019年4期
      關鍵詞:數據挖掘聚類算法

      聶文苗 彭紹東

      (湖南師范大學 教育科學學院,湖南 長沙410081)

      一、引言

      中共“十九大”報告指出在發(fā)展的重要戰(zhàn)略機遇期必須深化教育改革,加快教育現代化,把建設教育強國作為中華民族偉大復興的基礎工程。為把握發(fā)展機遇,面對大數據對教育領域產生的重要影響,充分利用前沿引領技術來提取或挖掘教育數據的價值顯得尤為重要。2018年4月教育部印發(fā)了《教育信息化2.0 行動計劃》,該計劃聚焦以能力為先的人才培養(yǎng)需求,提出實施數字資源服務普及、網絡學習空間覆蓋、教育治理能力優(yōu)化等重點開展的八大行動[1]。這些行動實施過程的特征是以“數據”為*基礎,這表明我們在推進信息技術與教育教學深度融合的條件下,需要利用數據挖掘技術發(fā)現教育產生的海量數據所隱藏的規(guī)律和深層聯系,從而使教育數據為各級各類教育的發(fā)展提供支持服務,真正實現教育數據挖掘的意義。

      教育數據挖掘是順應智能環(huán)境下教育發(fā)展的必然選擇,已成為眾多學者研究的重點,但是整體上分析該領域研究現狀與熱點的文獻少而分散。本研究主要通過BICOMB2.0、Ucinet6.0、SPSS20.0 對檢索的相關文獻分別進行時間分布分析、詞頻分析、共詞聚類分析以及戰(zhàn)略坐標分析,并結合文獻研讀展開探討,從而把握我國教育數據挖掘領域的研究熱點及其發(fā)展趨勢,旨在為同類研究提供參考。

      二、研究的對象、方法與過程

      1.研究對象

      本研究數據來源于中國學術期刊網絡出版總庫CNKI,以“主題”為檢索項,“教育數據挖掘”“教育+數據挖掘”為檢索詞進行高級檢索,檢索時間限定為2017年12月31日之前,并對初次檢索結果中會議通知、論文集、開欄語以及無關的文獻進行排除,最終選取624 篇有效樣本作為研究對象。本研究將這624 篇文獻的題錄信息以NoteFirst 格式導出并保存,以便利用相關研究工具進行系統(tǒng)梳理和分析。

      2.研究方法與研究工具

      本研究主要使用文獻年代分布分析、詞頻分析、共詞聚類分析和戰(zhàn)略坐標分析法。文獻的時間分布情況能夠反映教育數據挖掘領域關注度的變化。詞頻分析法是對表現文獻主體的關鍵詞的頻次進行統(tǒng)計,利于快速掌握研究重點。共詞聚類分析是利用聚類算法統(tǒng)計共詞出現的頻率,把眾多分析對象之間復雜的共詞網狀關系簡化為數目相對較少的若干類群之間的關系,以進一步探究主題詞之間的關聯[2]。戰(zhàn)略坐標分析法是通過計算向心度和密度來探究聚類后所形成各亞領域內部以及彼此之間關系緊密程度的方法。

      本研究使用的工具包括BICOMB2.0、Excel、SPSS20.0以及Ucinet6.0,使用目的是探尋科學文獻中的可視化模式和發(fā)展趨勢,分析該研究領域演進的關鍵路徑和潛在動力機制。其中,書目共現分析系統(tǒng)(BICOMB)是在文本數據集中正規(guī)地抽取關鍵字段,發(fā)現潛在、有效、新穎的信息,并用可理解的視覺方式呈現的工具。其在本研究中主要步驟為:(1)新建項目來管理NoteFirst 格式類型的主題數據;(2)將一批待處理xml 格式文件解析,提取關鍵字段并修改(同義詞合并),調整顯示結果的順序;(3)根據g 指數原理設置高頻詞閾值,對提取字段內容進行詞頻統(tǒng)計;(4)生成共現矩陣,利于后續(xù)SPSS20.0 進行聚類分析以得到戰(zhàn)略坐標圖。

      3.研究過程

      具體研究過程如圖1所示。

      圖1 研究過程圖

      三、研究結果

      1.文獻年代分布

      對2002-2017年間國內教育數據挖掘相關文獻進行時間分布統(tǒng)計,具體如圖2、3 所示。從中我們發(fā)現,關于教育數據挖掘的研究數量整體呈上升趨勢。文獻數量變化曲線可以劃分為三個階段,2002-2004年期間,教育數據挖掘研究文獻相對較少;在2005-2012年期間,相關研究文獻逐步增加且個別年份小幅減少,所占比例達到24%;在2013-2017年期間,發(fā)表數量顯著增加,所占比例已達到74%,2017年文獻數量達到了178 篇的最高值,這受到了網絡教育逐漸普及,教學行為與教育要素數據化的影響。由此說明,國內教育數據挖掘研究的關注度越來越高,各領域學者結合專業(yè)背景,挖掘教育數據潛在價值來解決實際問題,研究成果逐漸豐富。

      圖2 時間分布圖

      圖3 雷達圖

      2.詞頻統(tǒng)計

      利用BICOMB2.0 對有效文獻中關鍵詞進行詞頻統(tǒng)計,然后刪除無關、同義詞合并整理,最后,結合詞頻g 指數計算公式[3]:M>=g2&N<(g+1),提取了37 個高頻關鍵詞,按照頻次降序排列的具體情況如表1所示。為了更直觀地進行可視化表達,而將重要關鍵詞渲染輸出為詞云,如圖4所示。由結果可見,與教育數據挖掘聯系最為密切的詞分別是數據挖掘和大數據,它們是該領域重要研究內容。

      表1 高頻關鍵詞(前20)

      圖4 高頻關鍵詞標簽云

      3.構建共詞矩陣與相異矩陣

      利用BICOMB2.0 進行詞頻統(tǒng)計后,還可生成高頻詞共現矩陣以便進一步研究內部關系特征,部分如表2所示。利用Ucinet6.0 對數據進行可視化,可形成圖5所示的高頻關鍵詞共現網絡。從圖表中可以看出,出現在同一篇文獻次數較多的高頻詞組有“數據挖掘”—“關聯規(guī)則”“教育數據挖掘”—“學習分析”“數據挖掘”—“遠程教育”等,表明這些個體之間存在較密切的關系。為深入挖掘隱性信息,將共現矩陣轉換為相似矩陣,結果如表3所示。其數值大小表明關鍵詞間的相異程度,值越大,相似度越小,距離越遠[4]。兩個矩陣是我們后續(xù)進行聚類和戰(zhàn)略坐標分析的重要基礎。

      表2 共詞矩陣(部分)

      表3 相異矩陣(部分)

      圖5 高頻關鍵詞共現網絡

      4.高頻關鍵詞聚類樹狀圖與戰(zhàn)略坐標圖

      聚類分析的目的是按照個體特征分類,使同類別內的個體之間具有較高的相似度,不同類別之間具有較大的差異性。共詞聚類分析是把復雜的共詞網狀關系簡化為若干類群之間的關系,便于有的放矢地進行策略分析。為此,將相異矩陣導入SPSS,并進行參數設置。包括聚類方法是組間聯接,測量方法選擇平方歐式距離,使用Z 得分標準化轉換值,最終生成可以直觀表現聚類過程的聚類樹狀圖,如圖6所示。結合粘合力的計算(N(A i )=S/(n-1),n 為某類團內主題詞數量,S 為與其它詞共現頻次之和)衡量聚類后形成的類團內各主題詞對所屬類團的貢獻程度,以中心詞為主確定類團的名稱與性質[5]。經計算比較與分析后,將高頻關鍵詞聚合成的6 個類團的研究主題(A-F)分別總結為:數據挖掘與算法在教育數據挖掘中的應用研究、大數據視域下學習分析的應用與思考、面向智慧學習的教育數據挖掘作用研究、基于教育數據挖掘的遠程教育發(fā)展探究、教育數據挖掘關鍵技術研究、基于學習活動過程數據的學習預測與學業(yè)預警研究。

      圖6 高頻關鍵詞聚類樹狀圖

      戰(zhàn)略坐標圖是通過計算外(內)部連接平均數以及相應總平均數得到各個類團研究主題向心度(密度)后繪制而成的,用于描述研究亞領域內部聯系狀態(tài)和亞領域間的相互影響[6]。根據表4計算結果,以向心度為橫坐標,密度為縱坐標,把每一個研究熱點放置到坐標的四象限中,如圖7所示。從核心/周邊地位、發(fā)展成熟/不成熟角度出發(fā),觀察并描述各主題的研究發(fā)展情況,有利于輔助我們進行教育數據挖掘領域發(fā)展趨勢的探討。在A—F 表示的6 個研究熱點中,B、D 在第一象限,即學習分析應用與遠程教育發(fā)展是教育數據挖掘領域研究的重點內容,發(fā)展較為成熟;A 在第二象限,且密度最高,說明分類的各主題詞聯系最緊密,表示數據挖掘算法在教育數據挖掘領域中已初步成熟,而向心度低表示目前的研究處于非核心狀態(tài);E、F 在第三象限,二者向心度、密度都最低,說明這兩項研究主題內部結構松散且發(fā)展不成熟,處于研究的周邊地位;C 在第四象限且向心度最高,說明該研究主題與其他主題間聯系廣泛,如教育數據挖掘、在線學習、機器學習與其他主題中關鍵詞共現次數高,表示其同樣是研究重點與核心,但研究有待于成熟。

      表4 研究主題的向心度和密度

      圖7 戰(zhàn)略坐標圖

      四、研究熱點分析

      1.數據挖掘與算法在教育數據挖掘中的應用研究

      教育數據挖掘符合教育信息化建設的價值取向,主要應用數據挖掘技術幫助揭示潛在的意義關系,科學解釋教育現象,發(fā)現相關教育動態(tài)和規(guī)律。因此,教育數據挖掘領域伴隨數據挖掘技術(如數據挖掘算法)的進化而逐步發(fā)展。從管理與評價的服務角度出發(fā),李橋等[7]提出應用關聯規(guī)則與Apriori 算法在樣本分析中發(fā)現有價值的數據模式,為科學地評價教學活動及教學改進提供依據。還有運用決策樹算法、聚類算法設計信息系統(tǒng)、開發(fā)教育決策支持系統(tǒng)[8],為高校發(fā)展規(guī)劃提供幫助,實現管理的智能化。除此之外,李彥奇[9]、王琴[10]等通過比較常見算法后選擇合適算法進行優(yōu)化,建立模型應用于就業(yè)系統(tǒng),實現對高校就業(yè)的指導。綜上,研究者主要探討了各種算法在教學管理、教學評價、就業(yè)、成績等方面的應用以及如何互相結合使用提高算法效率,但如何在保證信度效度前提下能夠平行移植算法,使模型或系統(tǒng)應用在更大的領域中。如何能夠挖掘出更有質量、體現教育教學本質的規(guī)則,目前這些研究有待于深入。

      2.大數據視域下學習分析的應用與思考

      教育數據挖掘和學習分析這兩個研究領域聯系緊密且多有交叉,是目前促進教與學的熱門領域。二者雖然起源、側重點具有差異性,但是具有很多共同的目標和關注點。舒忠梅、徐曉東等對于跨領域研究有深度探討,如基于教育數據挖掘視角獲取影響大學生滿意度的因素,從學習分析視角探討意義再建構[11],從學生個體和學校兩層面構建學習成果評價模型[12]、采用相關分析和數據挖掘方法相結合識別以學生投入模型為基礎的相關因素,并對學生學習行為進行分類研究[13]。這些探討,充分發(fā)揮了教育數據挖掘方法建模與發(fā)現結構的優(yōu)勢,促進了學習分析中的意義建構。同時也利用學習分析收集學習痕跡促進教育數據挖掘算法的發(fā)現演進路徑與計算指標。劉清堂等[14]界定了學習分析和教育數據挖掘的概念與區(qū)別,提出教育數據挖掘可以幫助解決學習分析中的數據不足等問題,學習分析應用策略等可為教育數據挖掘提供借鑒。因此,協同研究、跨領域合作對于彼此的發(fā)展大有裨益,關鍵是處理好人為與自動的關系,做出合適的搭配與解釋論證。

      3.面向智慧學習的教育數據挖掘作用研究

      教育數據挖掘旨在通過對持續(xù)積累的數據資源進行智能挖掘,發(fā)現教學活動過程中各變量的價值關系,重點解決“為什么”“是什么”的問題,然后作為促進教育結構性變革的重要實踐途徑,為“如何用”探討方向。文益民等提出在人才培養(yǎng)方案設計、招生、在校學習與生活、學生就業(yè)以及校友跟蹤調查五個階段實施數據挖掘[15],推動應用模式的改革,創(chuàng)新高校人才培養(yǎng)機制。呂海燕等針對教育數據挖掘的作用,以學生在線學習行為分析為例,形成教育數據挖掘模式的構成要素及流程[16],強調了調整優(yōu)化教學策略與完善課程內容的重要性。此外,研究者需要深入探討在數據機制中,如何利用機器學習使供給方式適應智慧學習的需要,以滿足教與學利益相關者需求。這些研究將參與教育供給側改革,助力教育服務供給模式升級。

      4.基于教育數據挖掘的遠程教育發(fā)展探究

      教育數據挖掘中,提取可用信息、構建學習者模型等是促進遠程教育研究關鍵問題解決的助推器。其中,個性化學習支持服務與教學交互是遠程教育的核心內容之一,也是研究者關注的熱點。姜強等強調了個性化自適應學習成為大數據時代數字化學習新常態(tài)的必要性,并提煉了個性化自適應學習的元認知與開放學習者模型、自主學習方式、信息可視化處理等內容[17],為解決網絡個性化學習問題、提高學習者學習效果、改善學習體驗提供了應用參考。馮桂爾[18]側重于從數據挖掘在遠程教育中的作用出發(fā),運用關聯規(guī)則、聚類分析等方法處理在線課程數據,尊重個體差異,反饋結果以優(yōu)化教學。張婷[19]基于現代遠程教育發(fā)展與個性化學習理論,運用數據挖掘技術挖掘學習者相關信息,設計出以學習者模型為核心的個性化學習系統(tǒng),進而為后續(xù)的智能應用及動態(tài)更新研究提供借鑒意義。因此,教育數據挖掘拓寬了遠程教育發(fā)展的實現路徑,對于支持個性化服務、輔助學習者資源取舍、學習診斷與反饋等方面有較大的促進作用。

      5.教育數據挖掘關鍵技術研究

      在“互聯網+教育”的背景下,教育數據挖掘技術是一種手段,能夠將資源匯聚并流動傳播。它更是一種創(chuàng)造力,體現在適應各種教育場景的變化,動態(tài)挖掘隱藏的知識信息,形成新的認識與研究。教育數據挖掘技術其實是在教育領域中采用的數據挖掘技術。馮桂爾[20]對于在線課程學習的大量數據,運用各種數據挖掘技術進行挖掘,如從路徑分析訪問次數、聚類分析共同特征、關聯規(guī)則統(tǒng)計興趣比率、序列模式預測學習行為,使改善后的在線平臺訪問與交流頻次增多、滿意度與成績有了提高。彭亞等[21]將教育數據挖掘技術方法的分布進行了梳理,結果顯示常用的技術分別為預測、關系挖掘、聚類、統(tǒng)計分析與可視化,其它應用較少的是協同過濾,研究的重點是隨著數據更豐富,技術的復雜度更高,需要注意挖掘任務目標與挖掘技術的適應性,避免走彎路。研究者更多傾向于數據挖掘技術在網絡教育、平臺架構、學習行為分析等方面的應用,而技術的標準化與易用性的研究還不成熟,當前的數據“孤島”與技術“鴻溝”問題依然有待解決。

      6.基于學習活動過程數據的學習預測與學業(yè)預警研究

      在教與學的動態(tài)交互過程中,各種類型數據出現,如學習參與度數據、課程表現數據等,這些可作為教育數據挖掘的輸入,然后被事先制定的規(guī)則程序自動分析進而得到輸出結果,最后將結果結合教育教學的熱點問題進行分析與應用。學習成績預測與學業(yè)預警研究作為不斷深化教學實踐探索的重要抓手,與教育數據挖掘中的學習活動過程數據聯系緊密。陳益均等[22]基于數據挖掘中的聚類算法對不同網絡行為群體的成績特征進行分析,從而探討學生成績影響模型,制定有效策略。陳子健等[23]采用數據挖掘與機器學習方法,通過相關系數和信息增益率共同確定成績影響因素,構建分類預測模型并評估性能,推進在線學習學業(yè)預警及學習預測實踐。大多數研究的一般流程,是運用數據挖掘技術對各種學習記錄與行為信息進行提取、分析,構建學習者模型,從而判定學習者行為屬性,并預測其學習表現,對具有警告的行為提供指向性內容和針對性干預,以達到教育教學的精準支持,規(guī)避風險,促進學生全面發(fā)展。

      五、研究趨勢討論

      1.決策支持系統(tǒng)、自適應學習系統(tǒng)的設計與應用

      教育數據挖掘的算法、方法與技術對決策支持系統(tǒng)、自適應學習系統(tǒng)的設計與實現起著重要的作用,未來將促進各種服務系統(tǒng)的研制與應用。決策支持系統(tǒng)包括數據倉庫、知識庫、方法庫以及人機接口五個重要組成部分,技術改進將有利于發(fā)揮各部分協同效應,完善系統(tǒng)功能,為學校管理與決策提供強有力的支撐。自適應學習系統(tǒng)是支持個性化學習、實現差異化教學的有效途徑,它能夠對多維數據進行轉化分析,從社會性、情感性和元認知等方面建立模型,以使學習者掌握自己的學習狀態(tài),主動投入深度學習。但是目前記錄、跟蹤、分析、預測、評估等階段的自適應調節(jié)還不精準,離目標還有距離,還需要研究者開展深入探討。此外,這些系統(tǒng)的設計與應用需應用更多教育理論,旨在為內容配置、學習行為評估等方面提供指導,共同促進教育數據挖掘意義的實現,避免實踐脫離教育需求的尷尬局面。

      2.安全標準、法規(guī)的制定與隱私保護算法的創(chuàng)新應用

      隨著虛擬現實、人工智能技術的發(fā)展,教育數據挖掘創(chuàng)新應用面臨著機遇與挑戰(zhàn)。縱觀研究熱點中各類應用實踐,可知教育數據挖掘發(fā)展的著力點越來越豐富,但伴隨著多類型大規(guī)模的數據共享,其安全與隱私問題越發(fā)凸顯。如何在保障師生隱私的前提下進行數據的采集與分析,已成為當前及今后所面臨的挑戰(zhàn)之一。未來研究中,對于該問題解決主要有兩大切入點:一是制度保證,即制定相關安全標準和特定的非營利性規(guī)則,加強對運營產業(yè)的監(jiān)管,以此來規(guī)范教育機構或企業(yè)獲取教育大數據的行為,嚴格保密所持有數據資源,保證師生等資源提供方的合法權益;二是教育數據挖掘隱私保護算法,如k 匿名算法、關聯規(guī)則隱藏算法等,可在一定程度上防止隱私泄露,但是需要平衡數據挖掘的準確性與隱私保護強度。因而,數據挖掘隱私保護算法的組合創(chuàng)新及精細化應用將是未來重要發(fā)展方向。

      六、總結

      基于教育數據挖掘領域的文獻進行了年代分布分析、詞頻分析、共詞聚類分析和戰(zhàn)略坐標分析,根據以上分析得到的研究結果確定了六大研究熱點,并重點闡述了眾多研究者的核心思想以及各主題所處研究狀態(tài)、存在的問題。最后結合文獻研讀,指出決策支持系統(tǒng)與自適應學習系統(tǒng)的設計及應用、制度保證與隱私保護算法的創(chuàng)新應用等是未來研究的重要發(fā)展動向。這些都表明在教育行為和教育要素數據化的時代,教育數據挖掘以其顯著特征促進“聯接”與“智能”落地,同時為各級各類學校的教學改革帶來了新的機遇。

      猜你喜歡
      數據挖掘聚類算法
      探討人工智能與數據挖掘發(fā)展趨勢
      基于MapReduce的改進Eclat算法
      Travellng thg World Full—time for Rree
      進位加法的兩種算法
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      基于并行計算的大數據挖掘在電網中的應用
      電力與能源(2017年6期)2017-05-14 06:19:37
      一種改進的整周模糊度去相關算法
      基于改進的遺傳算法的模糊聚類算法
      一種基于Hadoop的大數據挖掘云服務及應用
      一種層次初始的聚類個數自適應的聚類方法研究
      乌兰浩特市| 咸宁市| 柘荣县| 竹溪县| 资中县| 上蔡县| 珠海市| 怀集县| 湄潭县| 个旧市| 仁怀市| 民乐县| 永兴县| 漯河市| 伊川县| 凤凰县| 建阳市| 土默特右旗| 隆化县| 镇坪县| 怀来县| 靖边县| 镇平县| 肃北| 柳州市| 佳木斯市| 买车| 怀化市| 肇州县| 曲靖市| 达日县| 天台县| 韩城市| 郎溪县| 桃园县| 安义县| 行唐县| 莲花县| 宿州市| 德江县| 长顺县|