宗小忠
摘要:提出一個(gè)智能網(wǎng)絡(luò)課程系統(tǒng)模型,采用B/S結(jié)構(gòu),系統(tǒng)的智能核心是智能預(yù)測(cè)推薦系統(tǒng)。該模型采用了離線部分挖掘與在線部分挖掘相分離思路,重點(diǎn)論述了基于Web挖掘的智能網(wǎng)絡(luò)課程系統(tǒng)模型的體系結(jié)構(gòu),并對(duì)算法進(jìn)行了驗(yàn)證分析。
關(guān)鍵詞:Web挖掘;Web日志;關(guān)聯(lián)規(guī)則;數(shù)據(jù)預(yù)處理
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)30-0027-02
Research and Application of Web Data Mining on Intelligent Network Course System
ZONG Xiao-zhong
(Shazhou Polytechnical Institute of Technology, Zhangjiagang 215600, China)
Abstract:Based on web mining theory and technology,introduced the process of the web mining.the article proposed a module of intelligent network course system, adopts B/S model, mainly includes two problems:the first, is intelligent forecast of students visited the curriculum resources; secondly, is dig out the hot course; Finally in the form of visualization relayed to the students. System of intelligent core is intelligent forecast recommend system. This model used offline part of mining and the on-line partial mining phase separation mentality, discusses the intelligent network Based on Web mining system structure of curriculum system model, and verified algorithm by analysis.
Key words: web mining;web usage;association rule;data preprocessing
1 概述
隨著信息技術(shù)的日益發(fā)展,信息逐步數(shù)字化,人們正面臨“數(shù)據(jù)豐富而知識(shí)貧乏”的問題。八十年代末興起的數(shù)據(jù)挖掘( data mining )技術(shù)為解決此問題提供了方法。數(shù)據(jù)挖掘是在大量的看似無序的數(shù)據(jù)中發(fā)現(xiàn)潛在的、有價(jià)值的模式和數(shù)據(jù)間關(guān)系(知識(shí))的過程。隨著Internet和計(jì)算機(jī)技術(shù)的快速發(fā)展,基于Web的網(wǎng)絡(luò)教育已經(jīng)成為現(xiàn)代教育的一種重要方式。利用網(wǎng)絡(luò),可以進(jìn)行在線學(xué)習(xí)、輔導(dǎo)、答疑、交流等,為師生提供豐富的教學(xué)資源,創(chuàng)造了一個(gè)無障礙交流互動(dòng)平臺(tái)。
數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或“挖掘”知識(shí)[1]。從Web文檔和訪問數(shù)據(jù)中發(fā)現(xiàn)并抽取信息,可以從海量的Web訪問數(shù)據(jù)中發(fā)現(xiàn)學(xué)生的學(xué)習(xí)興趣、方向、訪問習(xí)慣等,并可以給同學(xué)推薦合適的課程內(nèi)容和學(xué)習(xí)資料。數(shù)據(jù)挖掘?yàn)榫W(wǎng)絡(luò)課程系統(tǒng)的智能化、個(gè)性化提供了重要的手段。挖掘用戶訪問行為的潛在模式,預(yù)測(cè)用戶可能訪問的結(jié)果,智能地選擇、推薦與用戶興趣接近的網(wǎng)絡(luò)信息。
2 Web挖掘
2.1 基本概念
Web挖掘的概念:Web挖掘是在大量的文檔收集C中識(shí)別潛在的模式p的一種活動(dòng),其中C和p的關(guān)系可以用映射:[ξ:C→p表示][3]。
Web信息的具體結(jié)構(gòu)如圖1所示:
2.2 Web數(shù)據(jù)挖掘的過程
與傳統(tǒng)數(shù)據(jù)庫和數(shù)據(jù)倉庫相比,Web上的信息是非結(jié)構(gòu)化或半結(jié)構(gòu)化的、動(dòng)態(tài)的、并且是容易造成混淆的,所有很難直接對(duì)Web網(wǎng)頁上的數(shù)據(jù)進(jìn)行挖掘,而必須經(jīng)過必要的數(shù)據(jù)處理。典型Web挖掘的處理流程如圖2所示[4]。
3 基于Web挖掘的智能課程系統(tǒng)模型設(shè)計(jì)
3.1 體系結(jié)構(gòu)功能
智能課程系統(tǒng)主要想實(shí)現(xiàn)兩個(gè)方面的問題:一是對(duì)學(xué)生訪問課程資源的智能預(yù)測(cè);二是挖掘出熱點(diǎn)課程;最后以可視化的形式傳遞給學(xué)生。本系統(tǒng)采用B/S模型,系統(tǒng)的智能核心是智能預(yù)測(cè)推薦系統(tǒng)。其模型結(jié)構(gòu)如圖3所示:
本智能課程系統(tǒng)課程類型主要有兩類:視頻和HTML格式。課程大約有3000門。在校學(xué)生人數(shù)大約為8000千人。
在圖3中,數(shù)據(jù)挖掘的主要數(shù)據(jù)來源有課程基本信息、學(xué)生的基本信息和學(xué)生訪問記錄等。通過圖3可以看出,離線模塊進(jìn)行特征抽取和規(guī)則生成,預(yù)測(cè)推薦系統(tǒng)在線把推薦結(jié)果反饋給學(xué)生,達(dá)到個(gè)性化教學(xué)的目的。采用挖掘技術(shù),可以提高系統(tǒng)的智能化,使系統(tǒng)具有自主性、自適應(yīng)性和合作性等特點(diǎn)[4]。
3.2 實(shí)現(xiàn)思路
1) 先測(cè)算某人訪問某一個(gè)課程的訪問率
如果以[fi]表示第[i]訪問該課程的訪問度,即:第一次訪問[f1=1],第二次訪問[f2=2]…,以[xi]表示第[i]次訪問這個(gè)課程時(shí)間長(zhǎng)度,則可以通過加權(quán)平均法計(jì)算一個(gè)課程的訪問率,即:
[x=f1x1+f2x2+…+fkxkf1+f2+…+fk=i=1kfixii=1kfi=fxf]
2) 在本月若有N個(gè)人訪問過該課程,按照上述公式,則可以分別計(jì)算出這N個(gè)人對(duì)該課程的訪問率,然后計(jì)算出這個(gè)課程的平均訪問率,即:endprint
[X=x1+x2+…+xNN]
3) 在多個(gè)課程中,如何測(cè)算出哪些課程受歡迎程度呢?則可以以一個(gè)月時(shí)間進(jìn)行內(nèi)測(cè),通過計(jì)算每個(gè)課程的平均訪問率,然后排名,就可以得出結(jié)論。
4) 第二個(gè)月開始,我們就可以按照以下方式進(jìn)行課程篩選了。
為了準(zhǔn)確地表示每個(gè)課程的訪問率的變異程度,可以考慮以第一個(gè)月的內(nèi)測(cè)平均訪問率為標(biāo)準(zhǔn),求出本月各個(gè)課程的平均訪問率與內(nèi)測(cè)平均訪問率的離差,即([X-X]),稱為離均差。離均差能表達(dá)一個(gè)觀測(cè)值偏離平均數(shù)的性質(zhì)和程度,因?yàn)殡x均差有正、有負(fù)。顯然,離均差越大,說明這個(gè)課程受歡迎程度越大。
4 仿真結(jié)果與分析
根據(jù)挖掘的結(jié)果,我們?cè)诰€給每個(gè)登陸系統(tǒng)的同學(xué)預(yù)測(cè)了5課程。為了驗(yàn)證該模型的可行性,我們?cè)O(shè)置系統(tǒng)的權(quán)重h=1.8,并對(duì)推薦給學(xué)生的課程點(diǎn)擊率、停留時(shí)間、新訪問率、頁面跳出率、進(jìn)行了統(tǒng)計(jì),進(jìn)行了手工計(jì)算,得出的結(jié)果如表 1所示。
從表1中所示,我們手工設(shè)置通過對(duì)訪問時(shí)間和訪問次數(shù)進(jìn)行加權(quán)平均法計(jì)算,則可以得出對(duì)學(xué)生訪問課程資源的智能預(yù)測(cè);預(yù)測(cè)成功率可達(dá)56.80%。
5 結(jié)束語
本文通過在課程平臺(tái)中應(yīng)用Web挖掘技術(shù),并對(duì)學(xué)生訪問記錄進(jìn)行分析和數(shù)據(jù)挖掘,發(fā)現(xiàn)數(shù)據(jù)間的內(nèi)在規(guī)律,理解用戶的行為,并據(jù)此為依據(jù)進(jìn)行有針對(duì)性的信息提取,為用戶提供個(gè)性化的服務(wù)或改善站資源提供的內(nèi)容,提高用戶搜索的準(zhǔn)確率。
本文研究的問題是利用Web使用挖掘動(dòng)態(tài)的引導(dǎo)用戶選擇適當(dāng)?shù)恼n程,基于以往的訪問記錄,立即推薦給下次合適的課程。本文給出了模型的具體結(jié)構(gòu)及主要思路,為同類研究提供了一種有益參考。實(shí)踐證明基于Web挖掘技術(shù)在精品課程系統(tǒng)中的應(yīng)用提高了精品課程系統(tǒng)的個(gè)性服務(wù)水平,為系統(tǒng)的決策分析提供了智能的輔助手段。
參考文獻(xiàn):
[1] Jiawei Han,Micheline Kamber. 數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2006.
[2] 朱志國(guó).Web使用模式挖掘系統(tǒng)的框架設(shè)計(jì)[J].信息系統(tǒng),2010,33(4):97-101.
[3] 申麗君,孟凡榮.基于XML的Web文本挖掘模型的研究與設(shè)計(jì)[J].計(jì)算機(jī)工程與設(shè)計(jì),2007,28(10):2287-2230.
[4] 付文蘭,楊國(guó)林. Web數(shù)據(jù)挖掘在個(gè)性化搜索引擎中的研究與應(yīng)用[J].內(nèi)蒙古農(nóng)業(yè)大學(xué)學(xué)報(bào),2009,30(4):223-226.
[5] 楊錕,孟波. 一種基于XML的Web數(shù)據(jù)挖掘方法[J].計(jì)算機(jī)應(yīng)用,2003,23(6):160-161.
[6] 吳學(xué)治,張景,李軍懷,等.一種基于日志挖掘的自適應(yīng)緩存調(diào)試優(yōu)化算法[J].計(jì)算機(jī)工程,2006,32(11):116-118.
[7] 郭秋萍,王全蘭.一種基于Web挖掘的圖書館服務(wù)推薦模型及其算法研究[J].圖書館雜志,2010,29(6):53-54.
[8] 羅興文,閆友彪,蔡海濱.基于Web挖掘的個(gè)性化遠(yuǎn)程教育系統(tǒng)研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2007,28(12):3016-3022.
[9] 許曉東,李柯,朱士瑞. Web 使用挖掘Apriori算法的改進(jìn)研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(3):539-541.endprint