趙玥
摘要:自20世紀80年代末起,數(shù)據(jù)挖掘概念首次出現(xiàn)并作為人工智能和數(shù)據(jù)庫領(lǐng)域研究的熱點問題一直延續(xù)至今。本文介紹了幾種數(shù)據(jù)挖掘的主要技術(shù),并對數(shù)據(jù)挖掘在線上教育平臺上的應(yīng)用進行總結(jié),最后指出其在線上教育平臺的發(fā)展趨勢。
關(guān)鍵詞:數(shù)據(jù)挖掘;線上教育平臺;計算機;大數(shù)據(jù)
在信息技術(shù)飛速發(fā)展的基礎(chǔ)上,同時受今年新型冠狀病毒疫情影響,線上教育商業(yè)發(fā)展趨勢呈大規(guī)模增長,線上教育平臺競爭激烈,各個線上教育平臺都積累了以不同形式存儲的海量數(shù)據(jù)資料。在大量的資料中,隱藏著許多有用信息,但這些信息很難有效被人們獲得,僅依靠傳統(tǒng)的數(shù)據(jù)檢索或者統(tǒng)計學方法很難做到。想要利用好這些難得的大數(shù)據(jù)資源,就需要人們探索和開發(fā)更多方法技術(shù),比如數(shù)據(jù)挖掘(Data Mining,DM)技術(shù)。
數(shù)據(jù)挖掘(Data Mining,DM)技術(shù),通常又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Databases),是從大量的、有噪聲的、不完全的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中提取有效的、新穎的、潛在有用的知識的非平凡過程。它融合了數(shù)據(jù)庫技術(shù)、人工智能、機器學習、統(tǒng)計學、知識工程、信息檢索等最新的技術(shù)研究成果。數(shù)據(jù)挖掘技術(shù)在非常多的領(lǐng)域都可以用得到,只要是有分析價值的數(shù)據(jù)庫,都可以利用數(shù)據(jù)挖掘工具為決策者獲得有效信息提供幫助。
線上教育平臺數(shù)據(jù)是有分析價值的大數(shù)據(jù)資源
首先,線上教育平臺數(shù)據(jù)類型極其繁多,可分類為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),它們的組織形式、形態(tài)結(jié)構(gòu)、類型格式呈多樣化特征。
其次,除今年疫情影響外,云計算、移動線上、社交網(wǎng)絡(luò)、移動設(shè)備APP的應(yīng)用等也推進了線上教育平臺流量的迅速增長。這些數(shù)據(jù)時效性強,要想有效其價值,必須及時處理和分析,而數(shù)據(jù)挖掘技術(shù)是最有效及時的方式之一。
幾種數(shù)據(jù)挖掘的主要方法
利用數(shù)據(jù)挖掘進行數(shù)據(jù)分析常用的方法主要有分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、特征、變化和偏差分析、Web頁挖掘等。在這里,本文主要介紹3種數(shù)據(jù)挖掘技術(shù)在線上教育平臺的應(yīng)用。
分類是找出數(shù)據(jù)庫中一組數(shù)據(jù)對象的共同特點,并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數(shù)據(jù)庫中的數(shù)據(jù)項映射到某個給定的類別。其重要技術(shù)有:決策樹、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、支持向量機、深度學習等。
分類在線上教育平臺中可以應(yīng)用到學生的分類,學生的屬性和特征分析、學生的需求預(yù)測等。例如,將學生選擇的課程按內(nèi)容分類,根據(jù)學習者的背景、以往活動日志、學習路徑等預(yù)測其新的學習需求,為學生推送符合需要的學習課程。
關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫中數(shù)據(jù)項之間所存在的關(guān)系的規(guī)則,即根據(jù)一個事務(wù)中某些項的出現(xiàn)可導出另一些項在同一事務(wù)中也出現(xiàn),即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。在大數(shù)據(jù)背景下的教育教學資源中,關(guān)聯(lián)性是其重要的特征之一。
在線上教育教學中,學生和教師會因為興趣和需求建立實時或非實時的討論小組,進行討論及交流協(xié)作。同時在內(nèi)容、主題等方面,教學資源也具有關(guān)聯(lián)性。因此,在學習者之間、教學資源和學習者之間、教學資源之間產(chǎn)生了豐富的關(guān)聯(lián)關(guān)系。通過關(guān)聯(lián)分析,可以為學習者推送相關(guān)聯(lián)的學習內(nèi)容,設(shè)定相關(guān)聯(lián)的主題,提供個性化學習服務(wù)。
聚類分析是把一組數(shù)據(jù)按照相似性和差異性分為幾個類別,其目的是使得屬于同一類別的數(shù)據(jù)間的相似性盡可能大,不同類別中的數(shù)據(jù)間的相似性盡可能小。聚類可幫人們掌握事物內(nèi)部規(guī)律。
數(shù)據(jù)挖掘在線上教育平臺的應(yīng)用
構(gòu)建學習者特征模型。依據(jù)學習者不同的特征參數(shù),根據(jù)學習者經(jīng)常訪問的URL,跟蹤統(tǒng)計學生訪問次數(shù)、總停留時間、訪問課程數(shù)、網(wǎng)站某時間段訪問次數(shù)、參與討論情況、學習偏好等,對學生學習活動進行全面跟蹤和記錄,再通過數(shù)據(jù)挖掘的去噪和模式發(fā)現(xiàn)模塊,得到學習者的學習特征風格,建立和完善學習者學習模型,建立學習者個性數(shù)據(jù)庫,作為后期學習者學習策略的制定奠定基礎(chǔ)。數(shù)據(jù)庫建立后,可為學習者調(diào)整學習資源,過濾無關(guān)信息。還可利用統(tǒng)計分析技術(shù),預(yù)測學習者行為。
以個性化學習指導為導向。學習者作為個體,在個人學習能力、興趣及學習習慣、原有基礎(chǔ)及努力程度上都有不同,且這些屬性是持續(xù)變化的。數(shù)據(jù)挖掘可用來挖掘?qū)W習者使用數(shù)據(jù)日志,分析其瀏覽趨勢,以預(yù)測未來的訪問模式。將有利于解決線上教育中針對各層次學生因材施教的問題。以個性化學習指導為導向,就是動態(tài)地獲取學習者當前學習過程信息,在學習界面上反饋挖掘處理后的信息,給學習者以適合的、個性化的學習指導。
改進系統(tǒng)性能。對于線上教育平臺來講,學習者的滿意程度和服務(wù)質(zhì)量是關(guān)鍵。在解決系統(tǒng)安全性及穩(wěn)定性方面,web的使用挖掘提供了網(wǎng)站構(gòu)架的信息及用戶使用信息,管理員可以根據(jù)站點流量信息,控制web緩存、負載平衡和網(wǎng)絡(luò)構(gòu)架等問題。
數(shù)據(jù)挖掘在線上教育中的發(fā)展趨勢及存在問題
隨著線上教育的不斷普及和拓展,數(shù)據(jù)挖掘技術(shù)也越來越受到研究者的重視。線上教育帶著其特殊的性質(zhì)將大數(shù)據(jù)帶入了教學應(yīng)用中,讓學生更了解自己,有了自適應(yīng)的學習模型;教師更易于掌握學生學習情況,隨時可隨數(shù)據(jù)調(diào)整;教學資源更豐富多樣。目前數(shù)據(jù)挖掘逐漸從高端研究轉(zhuǎn)向常用的數(shù)據(jù)分析,很多教育領(lǐng)域的數(shù)據(jù)分析已經(jīng)成功采用了數(shù)據(jù)挖掘技術(shù)來輔助決策。盡管如此,數(shù)據(jù)挖掘技術(shù)依然面臨許多問題和挑戰(zhàn),如規(guī)模過大過于集中的數(shù)據(jù)挖掘效率有待提高,需要開發(fā)適應(yīng)于多數(shù)據(jù)類型、容噪的挖掘方法,動態(tài)數(shù)據(jù)和知識的數(shù)據(jù)挖掘等。
參考文獻
陳娜.數(shù)據(jù)挖掘技術(shù)的研究現(xiàn)狀及發(fā)展方向[J].電腦與信息技術(shù),2006(02):46-49.
胡侃,夏紹瑋.基于大型數(shù)據(jù)倉庫的數(shù)據(jù)采掘:研究綜述[J].軟件學報,1998(09):53-63.
HAN Jiawei , KAMBER M..范明,孟小峰,譯.數(shù)據(jù)挖掘:概念與技術(shù)[M]北京:機械工業(yè)出版社,2001.
李施,李艷華,趙慧瓊.教育大數(shù)據(jù)挖掘技術(shù)與應(yīng)用案例分析[J].中國教育網(wǎng)絡(luò),2017(05):60-62
鄭倩倩.數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)教學平臺中的應(yīng)用研究[J].通訊世界,2016(03):193-194