徐 麗 徐志明 陳 峰
(景德鎮(zhèn)學(xué)院,江西 景德鎮(zhèn) 333000;2、景德鎮(zhèn)市財(cái)政局,江西 景德鎮(zhèn) 333000)
現(xiàn)代遠(yuǎn)程教育系統(tǒng)是對(duì)傳統(tǒng)教學(xué)模式的一次革命,它突破了傳統(tǒng)“面授”教學(xué)的局限,為網(wǎng)絡(luò)學(xué)員提供了自由的學(xué)習(xí)時(shí)間、優(yōu)秀學(xué)習(xí)資源共享、不受空間限制、動(dòng)態(tài)交互式的全新教學(xué)模式。其設(shè)計(jì)大多基于XML標(biāo)準(zhǔn)和大型分布式數(shù)據(jù)庫(kù)等新一代設(shè)計(jì)環(huán)境。在遠(yuǎn)程教育平臺(tái)系統(tǒng)上開(kāi)展數(shù)據(jù)挖掘可以整合XML和OLAP等技術(shù)優(yōu)勢(shì),使遠(yuǎn)程學(xué)習(xí)系統(tǒng)的設(shè)計(jì)以用戶為中心,各類教學(xué)資源都適應(yīng)網(wǎng)站學(xué)習(xí)用戶需求進(jìn)行差異化排列組合。
當(dāng)前流行的遠(yuǎn)程教學(xué)系統(tǒng)組織框架一般包括個(gè)性化的組合課程模塊、分階段的考試系統(tǒng)、遠(yuǎn)程教育數(shù)據(jù)流控制動(dòng)態(tài)調(diào)配模塊、作業(yè)答疑等子系統(tǒng)。結(jié)合WEB數(shù)據(jù)挖掘技術(shù),可以針對(duì)當(dāng)前遠(yuǎn)程教育平臺(tái)體系中的一些不足,充分發(fā)揮數(shù)據(jù)挖掘在互聯(lián)網(wǎng)大數(shù)據(jù)處理中的優(yōu)勢(shì),為網(wǎng)絡(luò)學(xué)員提供可定制化的學(xué)習(xí)進(jìn)度安排,提高網(wǎng)絡(luò)教育的質(zhì)量。
在一些熱門的遠(yuǎn)程教育系統(tǒng)中,比如新東方網(wǎng)校、中華會(huì)計(jì)網(wǎng)校以及國(guó)內(nèi)外一些著名高校的遠(yuǎn)程教育網(wǎng)站。教師和學(xué)員在教學(xué)互動(dòng)中處于不同的空間、時(shí)間,網(wǎng)站通過(guò)動(dòng)態(tài)交互頁(yè)面從注冊(cè)招生、教學(xué)管理、學(xué)員信息維護(hù)等多方位對(duì)整個(gè)教學(xué)過(guò)程進(jìn)行管理。對(duì)遠(yuǎn)程教育網(wǎng)站的各種用戶行為(如瀏覽空間、模塊點(diǎn)擊頻度)進(jìn)行數(shù)據(jù)挖掘,獲取有用的知識(shí),并隨之更新網(wǎng)站搜索引擎和web頁(yè)面設(shè)計(jì),提供有針對(duì)性的服務(wù)內(nèi)容,使遠(yuǎn)程教學(xué)平臺(tái)的各類資源圍繞學(xué)生的個(gè)性化需求配置。
近年來(lái),數(shù)據(jù)挖掘技術(shù)的應(yīng)用引起了人們的極大關(guān)注。在這關(guān)注的背后是自上世紀(jì)九十年代以來(lái)各種大型的商業(yè)數(shù)據(jù)庫(kù)廣泛應(yīng)用,產(chǎn)生了大量的歷史數(shù)據(jù),而各種商業(yè)目的迫切需要從這些不斷產(chǎn)生的數(shù)據(jù)中挖掘出有用的知識(shí),這些獲取的信息和知識(shí)已被證明有著廣泛的價(jià)值和應(yīng)用。
作為一種較新的信息分析處理技術(shù),數(shù)據(jù)挖掘(Data Mining)的核心步驟是對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的大量留存的歷史業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、清洗、轉(zhuǎn)換和分類模型化處理,進(jìn)而實(shí)現(xiàn)輔助設(shè)計(jì)、事務(wù)決策、全局分析等高價(jià)值商業(yè)目的。挖掘數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)多步驟的分析過(guò)程,包括問(wèn)題定義、建立數(shù)據(jù)挖掘庫(kù)、分析數(shù)據(jù)、調(diào)整數(shù)據(jù)、模型化、評(píng)價(jià)和解釋等。知識(shí)提取往往需要反復(fù)對(duì)相關(guān)數(shù)據(jù)再處理以及對(duì)知識(shí)學(xué)習(xí)算法不斷優(yōu)化。發(fā)現(xiàn)的知識(shí)必須經(jīng)過(guò)實(shí)踐的檢驗(yàn),在應(yīng)用中根據(jù)實(shí)際環(huán)境修改策略重新學(xué)習(xí)使得獲取的知識(shí)更精確化,新發(fā)現(xiàn)的知識(shí)對(duì)已有的知識(shí)進(jìn)行拓展變得全面從而更符合現(xiàn)實(shí)情況。
數(shù)據(jù)挖掘是一個(gè)以數(shù)據(jù)庫(kù)、神經(jīng)網(wǎng)絡(luò)、數(shù)理統(tǒng)計(jì)、模糊論等幾個(gè)支柱技術(shù)為基礎(chǔ)。數(shù)據(jù)挖掘算法的輸入是通過(guò)轉(zhuǎn)換接口導(dǎo)入的領(lǐng)域知識(shí)、元數(shù)據(jù);輸出是新發(fā)現(xiàn)的規(guī)律或模式;中間的處理過(guò)程由知識(shí)發(fā)現(xiàn)系統(tǒng)管理器智能化引導(dǎo)。數(shù)據(jù)挖掘主要涉及挖掘內(nèi)容、挖掘引擎構(gòu)造、挖掘任務(wù)三個(gè)方面。其中的挖掘內(nèi)容包括關(guān)系數(shù)據(jù)庫(kù)、文本數(shù)據(jù)庫(kù)、對(duì)象數(shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、多媒體數(shù)據(jù)庫(kù)及ODS(操作數(shù)據(jù)存儲(chǔ))等。常用的挖掘方法大致分為:關(guān)聯(lián)規(guī)則算法、分類構(gòu)造法、遺傳算法、人工智能法,針對(duì)大型分布式WEB數(shù)據(jù)庫(kù)主要有多維數(shù)據(jù)分析方法、基于網(wǎng)格的聚類方法、貝葉斯分類算法和決策樹分類算法。
流行的數(shù)據(jù)挖掘工具有:基于粗糙集的工具、基于規(guī)則和決策樹的工具、基于公式發(fā)現(xiàn)的工具以及綜合以上多種方法的工具。數(shù)據(jù)挖掘工具主要可分為特定領(lǐng)域使用的和通用的。著名的如SKICAT系統(tǒng)、Advanced Scout系統(tǒng)均是特定領(lǐng)域的數(shù)據(jù)挖掘工具,Advanced Scout系統(tǒng)由IBM公司開(kāi)發(fā),針對(duì)NBA的數(shù)據(jù),幫助球隊(duì)優(yōu)化戰(zhàn)術(shù)組合;SKICAT系統(tǒng)由CIT設(shè)計(jì),幫助人們發(fā)現(xiàn)遙遠(yuǎn)的類星體。特定領(lǐng)域的數(shù)據(jù)挖掘工具針對(duì)性強(qiáng),采用獨(dú)特的算法實(shí)現(xiàn)特殊的目的。通用的數(shù)據(jù)挖掘工具,采用通用的挖掘算法處理常見(jiàn)的數(shù)據(jù)類型,用戶可以自己定義挖掘的范圍和模式。投入初步商業(yè)化應(yīng)用的如:加拿大西蒙菲莎大學(xué)研發(fā)的DB Miner軟件,SGI公司設(shè)計(jì)的Mine Set系統(tǒng)。
對(duì)于遠(yuǎn)程教育網(wǎng)站平臺(tái)而言,對(duì)網(wǎng)頁(yè)的瀏覽量、點(diǎn)擊率等數(shù)據(jù)進(jìn)行專門的收集存儲(chǔ),建立DW并展開(kāi)挖掘分析,可以提供有針對(duì)性的服務(wù)引導(dǎo),及時(shí)優(yōu)化搜索引擎算法路徑和Web頁(yè)面框架設(shè)計(jì)。
通過(guò)對(duì)網(wǎng)站系統(tǒng)架構(gòu)改進(jìn)重組,可以幫助系統(tǒng)管理人員創(chuàng)建一個(gè)高效的技術(shù)體系,優(yōu)化服務(wù)器的通信:比如采用自動(dòng)歸類技術(shù)實(shí)現(xiàn)網(wǎng)站信息的層次性組織,結(jié)合對(duì)用戶訪問(wèn)日志的挖掘,把握用戶的興趣,開(kāi)展個(gè)人信息的定制和推送;通過(guò)Web頁(yè)面數(shù)據(jù)提取,挖掘?yàn)g覽歷史信息,提高網(wǎng)絡(luò)利用率,從而加快網(wǎng)站響應(yīng)時(shí)間。
由于Web信息呈現(xiàn)半結(jié)構(gòu)和無(wú)結(jié)構(gòu)的特征,傳統(tǒng)的搜索引擎功能設(shè)計(jì)已不能夠滿足互聯(lián)網(wǎng)知識(shí)搜索的需求,更別提WEB上的知識(shí)發(fā)現(xiàn)。因此,針對(duì)Web信息的數(shù)據(jù)挖掘可以使遠(yuǎn)程教育平臺(tái)的信息檢索水平得到較大的提升。Web數(shù)據(jù)挖掘一般分為Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘、Web日志挖掘,為提高對(duì)Web挖掘結(jié)果的興趣性,可以將上述三類挖掘方法一并使用。
隨著WEB應(yīng)用的深入,XML的優(yōu)點(diǎn)愈發(fā)明顯。首先,作為半結(jié)構(gòu)化的XML規(guī)范,XML將顯示與數(shù)據(jù)內(nèi)容分離并徹底把標(biāo)示的概念與顯示分開(kāi),處理者能夠嵌套程序化的描述顯示數(shù)據(jù);其次,XML解決了數(shù)據(jù)的統(tǒng)一接口問(wèn)題并且XML能增加結(jié)構(gòu)和語(yǔ)義信息,使得統(tǒng)一數(shù)據(jù)以不同面貌展現(xiàn)給不同用戶;除此以外,XML應(yīng)用于網(wǎng)絡(luò)代理的所取得的信息編輯可以很好地適應(yīng)個(gè)人用戶需要。利用XML的上述優(yōu)勢(shì),遠(yuǎn)程教育平臺(tái)在實(shí)現(xiàn)智能交互時(shí),搜索部件就不必了解每個(gè)數(shù)據(jù)庫(kù)是如何構(gòu)建的。
OLAP是共享多維信息的、針對(duì)特定問(wèn)題的聯(lián)機(jī)數(shù)據(jù)訪問(wèn)和分析的快速軟件技術(shù)。它具有靈活的分析功能、直觀的數(shù)據(jù)操作和分析結(jié)果可視化表示等突出優(yōu)點(diǎn),從而使管理方對(duì)大量的遠(yuǎn)程網(wǎng)絡(luò)教學(xué)數(shù)據(jù)的挖掘分析變得輕松而高效。
要在遠(yuǎn)程教育系統(tǒng)中構(gòu)建二級(jí)個(gè)性化教學(xué)子平臺(tái),必須先對(duì)網(wǎng)絡(luò)學(xué)員各階段的學(xué)習(xí)情況給出較全面的評(píng)估,之后再匹配相關(guān)的教學(xué)方案。我們可以建立如下的多維數(shù)據(jù)模型獲取對(duì)學(xué)員的評(píng)估:
⑴事實(shí)數(shù)據(jù)表。事實(shí)數(shù)據(jù)表是數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)中的中央表,它包含聯(lián)系事實(shí)與維度表的度量值和鍵,事實(shí)數(shù)據(jù)表包含描述業(yè)務(wù)特定事件的數(shù)據(jù)。遠(yuǎn)程教育平臺(tái)系統(tǒng)的中心主題是對(duì)學(xué)員的學(xué)習(xí)事實(shí)做出多維度的評(píng)價(jià),對(duì)網(wǎng)站學(xué)員的評(píng)價(jià)維度我們可以提取為簡(jiǎn)單直觀的數(shù)值表示,對(duì)每個(gè)維度分別給出數(shù)字的度量值,然后進(jìn)行綜合加權(quán)出最后的結(jié)果。
⑵項(xiàng)目評(píng)價(jià)維度表。學(xué)員是整個(gè)遠(yuǎn)程教育網(wǎng)站服務(wù)的中心對(duì)象,要實(shí)現(xiàn)平臺(tái)真正的個(gè)性化教學(xué)功能,必須利用數(shù)據(jù)捕獲技術(shù)動(dòng)態(tài)地跟蹤學(xué)員的學(xué)習(xí)活動(dòng),并及時(shí)對(duì)其學(xué)習(xí)進(jìn)度、成效做出評(píng)價(jià),反饋相關(guān)建議信息。評(píng)價(jià)的項(xiàng)目維度有四個(gè)方面:作業(yè)答疑情況、網(wǎng)站資源利用率、測(cè)試結(jié)果、交互程度。
⑶知識(shí)維度表。知識(shí)維度表存放課件中重要知識(shí)點(diǎn)的組織架構(gòu)。在傳統(tǒng)文本形式的課件中,知識(shí)維度表架構(gòu)呈現(xiàn)的是樹狀形式。其不僅可以從多重粒度上了解學(xué)員的學(xué)習(xí)效果,而且更便于掌握學(xué)員學(xué)習(xí)進(jìn)度。我們?cè)趯W(xué)習(xí)進(jìn)程中是從上到下依次遍歷各知識(shí)節(jié)點(diǎn),不會(huì)遺漏。其缺點(diǎn)是在分析難點(diǎn)和重點(diǎn)時(shí),通常是愛(ài)莫能助的。要實(shí)現(xiàn)個(gè)性化教學(xué),我們須另外構(gòu)造一種知識(shí)結(jié)構(gòu)圖,其基于有序矢量路徑的拓?fù)浣Y(jié)構(gòu)并假設(shè)新的知識(shí)點(diǎn)由一個(gè)或一個(gè)以上的已被掌握的知識(shí)積累形成,這種繼承關(guān)系組織知識(shí)架構(gòu)去除了章、節(jié)等傳統(tǒng)結(jié)構(gòu),只留下要學(xué)習(xí)的知識(shí)點(diǎn)依照先后關(guān)系建構(gòu)出有序可追溯的知識(shí)結(jié)構(gòu)圖。對(duì)于學(xué)員碰到的重點(diǎn)、難點(diǎn)可以結(jié)合互動(dòng)測(cè)試,根據(jù)相關(guān)結(jié)果重新進(jìn)入相應(yīng)知識(shí)結(jié)構(gòu)圖的節(jié)點(diǎn)重新學(xué)習(xí),從而針對(duì)性的突破學(xué)員遇到的課程重難點(diǎn)。
在網(wǎng)絡(luò)平臺(tái)教學(xué)資源建設(shè)上,為了更具備針對(duì)性,按如下步驟進(jìn)行:首先對(duì)網(wǎng)站學(xué)員選擇的課程聚類并建立關(guān)注度模型,建立關(guān)注度和課件間關(guān)聯(lián),調(diào)整課件制作方案,通過(guò)聚類算法標(biāo)記每門課程;其次,根據(jù)關(guān)聯(lián)規(guī)則估計(jì)出若干組同類課程課件,根據(jù)類別標(biāo)記輸入訓(xùn)練集,構(gòu)造分類器;最后計(jì)算關(guān)鍵字段使用頻度的平均值、方差值等統(tǒng)計(jì)數(shù)據(jù),利用OLAP對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行多維分析,引導(dǎo)序列模式預(yù)測(cè)出學(xué)員感興趣的課件,根據(jù)學(xué)員需求配置相關(guān)教學(xué)資源。
要實(shí)現(xiàn)遠(yuǎn)程網(wǎng)絡(luò)教育平臺(tái)的個(gè)性化教學(xué),很重要的一點(diǎn)是要對(duì)學(xué)習(xí)者個(gè)體數(shù)據(jù)進(jìn)行差異化分析處理。利用數(shù)據(jù)挖掘中分類和聚類分析的方法,依照學(xué)生的興趣愛(ài)好為其推薦相關(guān)知識(shí)點(diǎn),并在學(xué)習(xí)過(guò)程中不斷調(diào)整,因材施教;根據(jù)學(xué)員的測(cè)試成績(jī)挖掘知識(shí)點(diǎn)和問(wèn)題間的關(guān)聯(lián),補(bǔ)充沒(méi)有掌握的學(xué)習(xí)點(diǎn)并給出相關(guān)學(xué)習(xí)建議;教師根據(jù)學(xué)員的學(xué)習(xí)行為和反饋情況,及時(shí)調(diào)整教學(xué)方案,制定專門化的教學(xué)內(nèi)容。數(shù)據(jù)挖掘技術(shù)的應(yīng)用使遠(yuǎn)程教育方案能夠個(gè)性化實(shí)施、極大地提高遠(yuǎn)程教育的作用和效率。
遠(yuǎn)程教育系統(tǒng)的架構(gòu)師可以結(jié)合WEB數(shù)據(jù)挖掘出的信息指導(dǎo)遠(yuǎn)程教育網(wǎng)站建設(shè),持續(xù)優(yōu)化系統(tǒng)性能以提高廣大網(wǎng)絡(luò)學(xué)員的學(xué)習(xí)體驗(yàn)。通過(guò)對(duì)注冊(cè)學(xué)員學(xué)習(xí)活動(dòng)行為過(guò)程的挖掘,掌握學(xué)習(xí)者的訪問(wèn)特點(diǎn),預(yù)測(cè)學(xué)員學(xué)習(xí)訪問(wèn)情況,重構(gòu)頁(yè)面的底層鏈接。對(duì)需求強(qiáng)烈的頁(yè)面提供優(yōu)化,預(yù)先緩存頻繁被訪問(wèn)的頁(yè)面,改善信息通信瓶頸節(jié)點(diǎn)的流通速度,及時(shí)把學(xué)習(xí)者想要的信息以更有效的方式呈現(xiàn)給他,從而提高用戶的滿意度。除此以外,遠(yuǎn)程教育網(wǎng)站系統(tǒng)的安全和穩(wěn)定性能也是十分重要的,平臺(tái)的技術(shù)管理人員可以根據(jù)系統(tǒng)數(shù)據(jù)庫(kù)中間件被請(qǐng)求的資源,負(fù)載緩存的進(jìn)出平衡和整個(gè)后臺(tái)流控突發(fā)情況等信息,找到影響系統(tǒng)性能的瓶頸,及時(shí)發(fā)現(xiàn)平臺(tái)的安全漏洞。
本文主要探討了現(xiàn)階段WEB數(shù)據(jù)挖掘在遠(yuǎn)程網(wǎng)絡(luò)教學(xué)中的應(yīng)用,數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)遠(yuǎn)程教學(xué)中還存在許多待研究的領(lǐng)域。隨著數(shù)據(jù)挖掘前沿技術(shù)領(lǐng)域不斷收獲豐碩的成果,Data Mining也呈現(xiàn)出可視化、精確化、更加智能化等新的特性。同時(shí)伴隨近兩三年來(lái)移動(dòng)互聯(lián)技術(shù)、普適計(jì)算、云計(jì)算等數(shù)據(jù)應(yīng)用大環(huán)境的迅速革新,作為核心數(shù)據(jù)處理技術(shù)之一的數(shù)據(jù)挖掘在遠(yuǎn)程教育領(lǐng)域擁有廣闊的應(yīng)用前景。
[1]Magaret H.Dunham.數(shù)據(jù)挖掘教程[M].北京:清華大學(xué)出版社,2005.
[2]張林.數(shù)據(jù)挖掘技術(shù)及其在高等教育教學(xué)中的應(yīng)用[J].宿州學(xué)院學(xué)報(bào),2011.
[3]黃勇,李玉華.面向知識(shí)發(fā)現(xiàn)的數(shù)據(jù)分類技術(shù)在網(wǎng)絡(luò)教學(xué)中的應(yīng)用研究[J].南華大學(xué)學(xué)報(bào),2006,(6):32-35.
[4]基于web的數(shù)據(jù)挖掘在遠(yuǎn)程教育中的應(yīng)用[EB/OL].<http://wenku.baidu.com/view/2967f91ca76e58fafa b003a4.html>