• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于web挖掘的網(wǎng)站信息推送個(gè)性化服務(wù)研究
    ——以“網(wǎng)頁(yè)動(dòng)畫設(shè)計(jì)”課程網(wǎng)站的信息推送為案例

    2018-07-19 09:03:38肖宏飛
    關(guān)鍵詞:會(huì)話日志網(wǎng)頁(yè)

    肖宏飛

    隨著互聯(lián)網(wǎng)的迅速發(fā)展,Internet技術(shù)不斷完善,網(wǎng)絡(luò)已成為人們獲取信息不可或缺的渠道.20世紀(jì)90年代中期以來(lái),web挖掘理論得到廣泛而深入的研究.如何將web挖掘的理論知識(shí)應(yīng)用到個(gè)性化信息推送服務(wù)中去,在學(xué)界是一個(gè)備受關(guān)注的課題.截止至今,國(guó)內(nèi)外在理論和實(shí)踐方面的相關(guān)研究都有很大的發(fā)展,同時(shí)出現(xiàn)了很多基于web挖掘的個(gè)性化信息服務(wù)系統(tǒng)原型和實(shí)際的應(yīng)用系統(tǒng).

    網(wǎng)絡(luò)信息的迅猛快速發(fā)展使用戶有可能享受豐富的網(wǎng)絡(luò)資源,然而沒(méi)有相應(yīng)的服務(wù)模式來(lái)服務(wù)用戶,讓用戶無(wú)法有效利用這些資源.個(gè)性化服務(wù)應(yīng)運(yùn)而生,是Internet發(fā)展和用戶需求相結(jié)合的必然結(jié)果.所謂個(gè)性化服務(wù),是指針對(duì)不同興趣愛好的用戶提供不同的服務(wù)模式和服務(wù)策略,它會(huì)根據(jù)用戶的不同特點(diǎn),為用戶提供不同的服務(wù),以滿足用戶多樣化的需要.

    本文結(jié)合“網(wǎng)頁(yè)動(dòng)畫設(shè)計(jì)”課程網(wǎng)站,提出一種集合了web日志和web內(nèi)容挖掘的混合挖掘策略,此策略的實(shí)施包括了幾個(gè)部分:訪問(wèn)用戶會(huì)話的識(shí)別,基于N-gram技術(shù)的web日志和web內(nèi)容混合挖掘策略,構(gòu)建用戶訪問(wèn)模式描述文件,用戶訪問(wèn)模式的分類和用戶訪問(wèn)興趣預(yù)測(cè)及推送.通過(guò)對(duì)web數(shù)據(jù)的收集與預(yù)處理,分析得出用戶訪問(wèn)模式,同時(shí)對(duì)訪問(wèn)模式進(jìn)行分類,然后對(duì)來(lái)訪用戶進(jìn)行歸類,找到相關(guān)模式描述文件,然后根據(jù)此類進(jìn)行信息推送.

    1 信息推送方法概述

    隨著網(wǎng)絡(luò)和電子商務(wù)的快速發(fā)展,信息推送也越來(lái)越受到重視,逐漸成為數(shù)據(jù)挖掘領(lǐng)域研究的熱點(diǎn)[1].目前,國(guó)內(nèi)外信息推送的研究工作主要集中在對(duì)基于web內(nèi)容的信息推送方法和基于web日志的信息推送方法的研究.

    基于web頁(yè)面信息的個(gè)性化推送方法是根據(jù)用戶瀏覽web站點(diǎn)的信息資源,推送和此用戶瀏覽信息相似或者相關(guān)的一種個(gè)性化推送方法.基于頁(yè)面信息推送的基本原理是通過(guò)用戶瀏覽資源描述文件,根據(jù)用戶瀏覽習(xí)慣,推送與用戶以往訪問(wèn)習(xí)慣比較相似的信息資源,見圖1.比較典型的基于web內(nèi)容的推送系統(tǒng)有igoogle、Adaptive Web Site等,可以實(shí)時(shí)地對(duì)web服務(wù)器提供的相關(guān)頁(yè)面進(jìn)行自動(dòng)或者半自動(dòng)的調(diào)整[2].

    基于web日志的推送方法是根據(jù)對(duì)web日志文件進(jìn)行分析,通過(guò)聚類算法得出用戶訪問(wèn)模式,對(duì)在線的用戶進(jìn)行歸類,給相似用戶推送相似信息的一種方法.基于web日志推送方法的原理是通過(guò)對(duì)用戶訪問(wèn)習(xí)慣進(jìn)行數(shù)據(jù)分析和挖掘,找出其相似性資源信息進(jìn)行推送,見圖1.比較典型的基于web日志的推送系統(tǒng)有webwatcher、firefly、let’s browse等.

    圖1 基于web頁(yè)面信息推送和基于web日志的推送的基本原理圖

    基于web內(nèi)容的推送具有簡(jiǎn)單、快速的特點(diǎn),缺點(diǎn)是由于無(wú)法對(duì)用戶瀏覽的網(wǎng)頁(yè)按用戶進(jìn)行分割和分組,因此進(jìn)行信息推送所依據(jù)的模式和知識(shí)一般是以單張網(wǎng)頁(yè)為單位進(jìn)行組織的,具有局限性和孤立性,所推送的信息不會(huì)太準(zhǔn)確.基于web日志的推送方法在推送信息時(shí)更加準(zhǔn)確和具有針對(duì)性,但是由于在初期沒(méi)有足夠多的web日志信息可供挖掘,因此完善的用戶訪問(wèn)模式庫(kù)需要在系統(tǒng)運(yùn)行過(guò)程中逐漸建立和完善,系統(tǒng)進(jìn)入穩(wěn)定狀態(tài)所需要的時(shí)間較長(zhǎng).

    可見,單一的推送方法有各自的優(yōu)點(diǎn),但是不足之處也很明顯,所以結(jié)合多種推送方法的優(yōu)點(diǎn),取長(zhǎng)補(bǔ)短構(gòu)造混合推送方法近年來(lái)越來(lái)越受到重視,這也是該領(lǐng)域?qū)W者和研究人員目前最感興趣的研究熱點(diǎn)之一.

    2 基于web日志和web內(nèi)容的混合信息推送方法

    基于單一的挖掘策略的信息推送方法具有一定的局限性,本文提出了基于web日志挖掘和web內(nèi)容挖掘的混合挖掘策略構(gòu)建個(gè)性化信息推送系統(tǒng).基于內(nèi)容挖掘和web日志挖掘的混合策略原理圖如圖2所示.

    圖2 基于web日志挖掘和web內(nèi)容挖掘的混合方法的基本原理

    基于內(nèi)容挖掘和web日志挖掘的混合挖掘信息推送方法的基本原理是:在離線階段,首先對(duì)用戶的訪問(wèn)會(huì)話進(jìn)行識(shí)別,從web日志文件中提取用戶的訪問(wèn)會(huì)話信息;使用K-Medoids聚類算法,依據(jù)訪問(wèn)會(huì)話記錄集來(lái)對(duì)用戶進(jìn)行分組,識(shí)別不同的用戶訪問(wèn)類別[3];將用戶訪問(wèn)類別和所訪問(wèn)網(wǎng)頁(yè)的主題內(nèi)容通過(guò)N-gram技術(shù)結(jié)合起來(lái),建立融合了web日志和web內(nèi)容的挖掘結(jié)果的用戶訪問(wèn)模式,形成用戶訪問(wèn)模式描述文件.在線信息推送階段,依據(jù)用戶的當(dāng)前網(wǎng)頁(yè)瀏覽序列,判斷其用戶訪問(wèn)模式,辨別其所屬的用戶類別,以預(yù)測(cè)用戶的瀏覽興趣和可能的訪問(wèn)內(nèi)容,并據(jù)此進(jìn)行信息推送服務(wù).圖3為信息推送系統(tǒng)流程圖.

    信息推送系統(tǒng)的設(shè)計(jì)包括兩種關(guān)鍵技術(shù):離線web數(shù)據(jù)挖掘技術(shù)和在線信息推送技術(shù).下文分別介紹這兩種關(guān)鍵技術(shù)的具體步驟.

    離線數(shù)據(jù)挖掘技術(shù)步驟如下:

    (1)利用向量P來(lái)表示用戶瀏覽的頁(yè)面集合,通過(guò)對(duì)web站點(diǎn)信息頁(yè)面集合P進(jìn)行數(shù)據(jù)清洗,清除多余無(wú)用的html標(biāo)簽、空格空行等,提取出網(wǎng)頁(yè)文本信息.

    圖3 信息推送系統(tǒng)流程圖

    (2)通過(guò)使用主動(dòng)策略對(duì)網(wǎng)站注冊(cè)用戶進(jìn)行識(shí)別,使用被動(dòng)策略對(duì)網(wǎng)站匿名用戶進(jìn)行識(shí)別,實(shí)現(xiàn)對(duì)訪問(wèn)用戶身份識(shí)別.

    (3)設(shè)定用戶訪問(wèn)會(huì)話持續(xù)訪問(wèn)時(shí)間為30分鐘,如果超過(guò),則認(rèn)為是新的會(huì)話開始.

    (4)利用K-Medoids聚類算法對(duì)用戶會(huì)話進(jìn)行聚類分析,將具有相同興趣愛好的用戶分到同一組.

    (5)通過(guò)建立N-gram信息項(xiàng)對(duì)用戶訪問(wèn)模式進(jìn)行分類描述,建立用戶訪問(wèn)模式描述文件.

    在離線數(shù)據(jù)挖掘技術(shù)中,最后得出的用戶訪問(wèn)模式分類描述是非常重要的,也是信息推送的基礎(chǔ)和依據(jù)[4].訪問(wèn)模式中包括用戶會(huì)話的訪問(wèn)網(wǎng)址序列信息,網(wǎng)頁(yè)文本關(guān)鍵字信息、用戶信息、會(huì)話分類信息和與此類會(huì)話相關(guān)聯(lián)的信息.

    在線信息推送技術(shù)步驟如下:

    (1)設(shè)置測(cè)試會(huì)話集s,將當(dāng)前用戶的會(huì)話和已有的會(huì)話集合進(jìn)行對(duì)比,找出當(dāng)前用戶訪問(wèn)會(huì)話的類別.

    (2)結(jié)合離線數(shù)據(jù)挖掘出來(lái)的用戶訪問(wèn)模式描述文件,對(duì)當(dāng)前用戶進(jìn)行信息推送.

    混合挖掘方法的基本模塊關(guān)系如圖4所示.

    通過(guò)對(duì)web日志文件和web站點(diǎn)文件信息的數(shù)據(jù)預(yù)處理,實(shí)現(xiàn)對(duì)用戶的訪問(wèn)會(huì)話進(jìn)行識(shí)別和分類,利用N-gram技術(shù)的關(guān)鍵詞頻率和文檔頻率建立一個(gè)N-gram三元組向量來(lái)表示用戶訪問(wèn)模式[5].在用戶訪問(wèn)會(huì)話中既包括了來(lái)訪用戶信息,也包括了網(wǎng)站頁(yè)面信息,因此重點(diǎn)通過(guò)對(duì)訪問(wèn)會(huì)話的聚類來(lái)分析得出用戶訪問(wèn)模式.

    圖4 web日志和web內(nèi)容挖掘主要模塊

    3 基于向量模型的網(wǎng)站信息內(nèi)容預(yù)處理

    Web網(wǎng)站上面的信息基本上是非結(jié)構(gòu)或者半結(jié)構(gòu)化的動(dòng)態(tài)信息,很難直接利用,因此需要對(duì)web網(wǎng)頁(yè)文件進(jìn)行數(shù)據(jù)預(yù)處理,然后對(duì)清洗后的web網(wǎng)頁(yè)文件上面的數(shù)據(jù)信息再進(jìn)行web挖掘.

    Web網(wǎng)頁(yè)內(nèi)容的挖掘是從網(wǎng)頁(yè)自身資源抽取信息項(xiàng)來(lái)表示網(wǎng)頁(yè)主題信息,本文是通過(guò)提取網(wǎng)頁(yè)關(guān)鍵字來(lái)對(duì)網(wǎng)頁(yè)主題內(nèi)容進(jìn)行表述.用向量P={p1,p2,p3,…,pn}來(lái)表示用戶瀏覽所有網(wǎng)頁(yè)的集合[6].每個(gè)網(wǎng)頁(yè)文件包括了一定的網(wǎng)頁(yè)代碼和圖片或者相關(guān)視頻等信息,不同于單純的文本文件,因此在對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行數(shù)據(jù)挖掘前,首先需要對(duì)網(wǎng)頁(yè)信息集合P進(jìn)行數(shù)據(jù)清洗,過(guò)濾與網(wǎng)頁(yè)主題不相關(guān)的文字內(nèi)容等.

    本文提取<title></title>、頭文件keywords標(biāo)簽中的信息和網(wǎng)頁(yè)中的文本信息.對(duì)于提取的網(wǎng)頁(yè)文本信息,清除多余無(wú)用的html標(biāo)簽、空行等信息,用集合PC={pc1,pc2,pc3,…,pcn}來(lái)表示數(shù)據(jù)預(yù)處理后的網(wǎng)頁(yè)集合.

    4 基于主動(dòng)策略和被動(dòng)策略的用戶識(shí)別

    在進(jìn)行web挖掘前,首先要進(jìn)行的就是確定一個(gè)機(jī)制來(lái)對(duì)不同用戶的身份進(jìn)行識(shí)別,進(jìn)而分析此用戶的訪問(wèn)行為.本文采用主動(dòng)策略和被動(dòng)策略的方法對(duì)用戶進(jìn)行識(shí)別.

    所謂的主動(dòng)策略就是指在用戶進(jìn)行瀏覽訪問(wèn)的時(shí)候,讓用戶進(jìn)行登記注冊(cè),然后通過(guò)登錄ID,來(lái)唯一識(shí)別一個(gè)用戶.在本文研究的課程網(wǎng)站中,采用了會(huì)員制,即在課程網(wǎng)站中,每個(gè)學(xué)員都有自己注冊(cè)的賬號(hào)和密碼,據(jù)此可以快速準(zhǔn)確地區(qū)分不同的用戶.在后臺(tái)數(shù)據(jù)庫(kù)中為用戶建立了一個(gè)user表,每個(gè)ID和用戶名唯一定義一個(gè)用戶,這樣就可以通過(guò)數(shù)據(jù)庫(kù)表中的ID和用戶名對(duì)應(yīng)每一個(gè)用戶.快速準(zhǔn)確地識(shí)別出注冊(cè)用戶.

    被動(dòng)策略是指通過(guò)對(duì)訪問(wèn)者的web日志信息來(lái)進(jìn)行用戶識(shí)別.本文采用以瀏覽者的IP地址、客戶端的相關(guān)信息來(lái)區(qū)分不同的用戶.如果IP地址、操作系統(tǒng)、瀏覽軟件等客戶端信息全部相同時(shí),則認(rèn)為是同一用戶.

    5 利用用戶訪問(wèn)模式對(duì)用戶訪問(wèn)會(huì)話進(jìn)行分類

    通過(guò)給定的用戶訪問(wèn)模式描述文件和每個(gè)用戶會(huì)話,如何來(lái)確定用戶會(huì)話屬于哪一個(gè)訪問(wèn)模式類型,這是具體信息推送的關(guān)鍵點(diǎn).N-gram信息項(xiàng)比較普遍的是二元和三元的,本文以二元為研究對(duì)象,為N-gram建立一個(gè)二元組向量{(x1,tfx1),(x2,tfx2),(x3,tfx3)......(xn,tfxn)},其中 xi是指通過(guò)用戶訪問(wèn)會(huì)話所訪問(wèn)的web頁(yè)面上的N-gram信息項(xiàng),tfxi是信息項(xiàng)的頻率.當(dāng)前已經(jīng)獲得的用戶訪問(wèn)模式,對(duì)照N-gram的訪問(wèn)模式描述文件集中的每個(gè) pfi,計(jì)算它與訪問(wèn)會(huì)話描述文件 p的DV(p,pfi).如果會(huì)話和系統(tǒng)中某個(gè)已有訪問(wèn)模式比較地相似或者接近,那么它們應(yīng)當(dāng)具有類似的N-gram數(shù)據(jù)分布,則DV(p,pfi)也就是在所有的相異值中差距最小的一個(gè)值,可以確認(rèn)會(huì)話訪問(wèn)模式描述文件為p的會(huì)話是屬于pfm類型的訪問(wèn)模式.

    對(duì)于相異值DV(p,pfi)的計(jì)算,算法描述如下:

    輸入用戶會(huì)話描述文件p和用戶會(huì)話模式描述文件pfi.

    在用戶會(huì)話描述文件p和用戶會(huì)話模式描述文件 pfi中,都有N-gram信息項(xiàng) xi,tfp是 xi在用戶會(huì)話描述文件 p上的信息項(xiàng)頻率,tfpfi是xi在用戶會(huì)話模式描述文件 pfi上的信息項(xiàng)頻率,獲取這兩個(gè)頻率的值.

    按照公式1進(jìn)行計(jì)算相異值dv(tfp,tfpfi) .

    將所有的dv(tfp,tfpfi)進(jìn)行求和運(yùn)算,得到的就是相異值DV(p,pfi).

    用戶訪問(wèn)會(huì)話分類的步驟:假設(shè)訪問(wèn)會(huì)話s是一個(gè)含有n個(gè)被訪問(wèn)頁(yè)面的測(cè)試會(huì)話集.基于N-gram為s建立一個(gè)用戶訪問(wèn)描述文件 p,比較會(huì)話訪問(wèn)描述文件p和用戶訪問(wèn)模式文件pfi的相異值DV(p,pfi),其中如果DV(p,pfm)值為最小,那么則認(rèn)為s是屬于用戶會(huì)話描述文件pfm的用戶訪問(wèn)模式類型.

    6 基于測(cè)試會(huì)話集的信息推送

    課程網(wǎng)站的個(gè)性化信息推送要求對(duì)在線用戶實(shí)時(shí)推送其感興趣或者可能需要訪問(wèn)的頁(yè)面信息.對(duì)用戶感興趣的預(yù)測(cè)是建立在用戶訪問(wèn)模式分類的基礎(chǔ)之上的,信息推送要求對(duì)當(dāng)前訪問(wèn)用戶的會(huì)話進(jìn)行分類,預(yù)測(cè)出來(lái)當(dāng)前用戶未來(lái)可能的訪問(wèn)會(huì)話模式,根據(jù)建立的會(huì)話模式,進(jìn)行信息推送.

    用戶訪問(wèn)興趣預(yù)測(cè)分為兩個(gè)步驟:第一步是根據(jù)已有用戶訪問(wèn)模式預(yù)測(cè)當(dāng)前用戶的訪問(wèn)會(huì)話模式,第二步是根據(jù)預(yù)測(cè)的結(jié)果對(duì)當(dāng)前的用戶進(jìn)行信息推送.

    假設(shè)s是一個(gè)包含n個(gè)被訪問(wèn)頁(yè)面的測(cè)試會(huì)話集.會(huì)話s分為兩個(gè)部分:第一部分用來(lái)做測(cè)試集,建立用戶訪問(wèn)模式描述文件.第二部分用來(lái)模擬當(dāng)前用戶可能將要進(jìn)行的訪問(wèn)請(qǐng)求結(jié)果的預(yù)測(cè).首先為此會(huì)話建立一個(gè)基于N-gram信息項(xiàng)和信息項(xiàng)頻率的用戶訪問(wèn)描述文件p,通過(guò)用戶訪問(wèn)模式描述文件p和用戶訪問(wèn)模式描述文件 pfi的相異值DV(p,pfi)的比較,來(lái)決定此段會(huì)話將屬于哪一種會(huì)話訪問(wèn)模式.根據(jù)會(huì)話訪問(wèn)模式對(duì)當(dāng)前用戶進(jìn)行信息推送.

    7 實(shí)驗(yàn)數(shù)據(jù)

    本文對(duì)挖掘策略的性能評(píng)價(jià)主要看分類精確度A(C)和預(yù)測(cè)精確度A(F)值的分布.預(yù)測(cè)精確度是指模擬活躍會(huì)話的數(shù)量占總的測(cè)試會(huì)話數(shù)量的比例.分類精確度是指能正確反映用戶會(huì)話分類中的測(cè)試會(huì)話占總的測(cè)試會(huì)話總量的比例.分類精確度和預(yù)測(cè)精確度越大則說(shuō)明挖掘策略的效果越好.

    基于web日志挖掘和web內(nèi)容挖掘的分類精確度A(C)如圖5所示.

    圖5 分類精確度A(C)分布

    從圖5中,可以明顯地看出N-gram的N值過(guò)大或者過(guò)小會(huì)話分類的效果都不理想.本文的實(shí)驗(yàn)中,N-gram的N的值是4,用戶訪問(wèn)描述文件的大小在文檔頻率df=20%的時(shí)候達(dá)到最佳的分類精確度.

    8 結(jié)論

    本文在研究了web挖掘技術(shù)和個(gè)性化服務(wù)之后,分析了web日志挖掘和內(nèi)容挖掘的方法,提出了基于web日志挖掘和web內(nèi)容挖掘的混合挖掘方法,通過(guò)混合挖掘方法可以方便準(zhǔn)確地獲得用戶訪問(wèn)的模式,利用用戶訪問(wèn)模式進(jìn)行模式分類和用戶將來(lái)的訪問(wèn)請(qǐng)求的預(yù)測(cè).通過(guò)實(shí)驗(yàn)數(shù)據(jù),驗(yàn)證了本文所研究方法的效果,對(duì)個(gè)性化學(xué)習(xí)的信息推送效果要明顯地高于單一的挖掘算法.本方法可以更好地應(yīng)用于個(gè)性化信息推送服務(wù),更高效率地提高用戶的訪問(wèn)效率和自主學(xué)習(xí)的動(dòng)力.

    猜你喜歡
    會(huì)話日志網(wǎng)頁(yè)
    一名老黨員的工作日志
    扶貧日志
    心聲歌刊(2020年4期)2020-09-07 06:37:14
    基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
    電子制作(2018年10期)2018-08-04 03:24:38
    游學(xué)日志
    基于URL和網(wǎng)頁(yè)類型的網(wǎng)頁(yè)信息采集研究
    電子制作(2017年2期)2017-05-17 03:54:56
    有意冒犯性言語(yǔ)的會(huì)話含義分析
    漢語(yǔ)教材中的會(huì)話結(jié)構(gòu)特征及其語(yǔ)用功能呈現(xiàn)——基于85個(gè)會(huì)話片段的個(gè)案研究
    網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
    10個(gè)必知的網(wǎng)頁(yè)設(shè)計(jì)術(shù)語(yǔ)
    一種基于粗集和SVM的Web日志挖掘模型
    沂源县| 丘北县| 肇东市| 葵青区| 武乡县| 巴塘县| 天台县| 盐津县| 兰考县| 江安县| 涞源县| 固始县| 井冈山市| 镇远县| 图们市| 安岳县| 托克逊县| 五常市| 滁州市| 沙湾县| 界首市| 拉孜县| 兖州市| 石林| 屏东市| 舒城县| 纳雍县| 台东市| 淮北市| 无为县| 珠海市| 鞍山市| 额尔古纳市| 砀山县| 合江县| 万州区| 宁津县| 仪陇县| 许昌市| 岳普湖县| 高雄市|