楊 思
[摘 要]由于網(wǎng)站的結(jié)構(gòu)設(shè)計(jì),對(duì)特定用戶而言信息獲取的代價(jià)與所經(jīng)過(guò)的瀏覽路徑長(zhǎng)度成正比,這些位于路徑中間的不必要的文檔就無(wú)疑增加了用戶獲取信息的代價(jià)。本文利用Web挖掘的方法和技術(shù)對(duì)用戶所訪問(wèn)的頁(yè)面序列進(jìn)行挖掘,構(gòu)建路徑優(yōu)化的模型,實(shí)現(xiàn)對(duì)當(dāng)前站點(diǎn)排序方式的優(yōu)化,從而最大限度地優(yōu)化用戶訪問(wèn)體驗(yàn),提高當(dāng)前站點(diǎn)信息獲取的整體效率。
[關(guān)鍵詞]站點(diǎn)路徑優(yōu)化;Web挖掘;訪問(wèn)序列
[中圖分類號(hào)]G250.76[文獻(xiàn)標(biāo)志碼]A[文章編號(hào)]1005-6041(2009)-01-0064-04
傳統(tǒng)的Web網(wǎng)站以系統(tǒng)自身為中心,為了容納大量的信息,以圖結(jié)構(gòu)組織網(wǎng)站,頁(yè)面之間存在著比較復(fù)雜的層次關(guān)系。這些預(yù)先設(shè)計(jì)好的瀏覽路徑(網(wǎng)站的結(jié)構(gòu))嚴(yán)格按照設(shè)計(jì)者編輯好的層次返回頁(yè)面,因此,為了獲取特定的信息,從同一頁(yè)面出發(fā)的所有用戶都不得不重復(fù)地經(jīng)過(guò)很多與自己毫無(wú)關(guān)系的、不希望看到的中間鏈接頁(yè)面,使得用戶為了獲取少量的信息付出較大的代價(jià)[1]。如果在確保網(wǎng)頁(yè)內(nèi)容的前提下,實(shí)現(xiàn)網(wǎng)站物理結(jié)構(gòu)的調(diào)整和再組織,就可以避免混亂。站點(diǎn)路徑優(yōu)化實(shí)際上就是站點(diǎn)管理者優(yōu)化其站點(diǎn)結(jié)構(gòu),它的出現(xiàn)就是為了提高用戶的訪問(wèn)效率以及用戶對(duì)站點(diǎn)的忠誠(chéng)度。
1 站點(diǎn)個(gè)性化與路徑優(yōu)化
Web站點(diǎn)結(jié)構(gòu)設(shè)計(jì)好壞的衡量標(biāo)準(zhǔn)之一是用戶為獲取所需信息所付出的平均代價(jià),而這種代價(jià)則可以理解為所經(jīng)過(guò)的超鏈數(shù)目和選擇這些超鏈的困難程度的函數(shù)。用戶的瀏覽路徑優(yōu)化就是在盡量不破壞Web系統(tǒng)原有結(jié)構(gòu),即不刪除系統(tǒng)原有文檔和超鏈的前提下,通過(guò)增加新的超鏈或文檔來(lái)減少用戶獲取信息所需付出的平均代價(jià)[2]。
所謂站點(diǎn)個(gè)性化實(shí)質(zhì)上就是為站點(diǎn)用戶提供個(gè)性化的站點(diǎn)訪問(wèn)體驗(yàn)。對(duì)于一般站點(diǎn)而言,站點(diǎn)管理者進(jìn)行路徑優(yōu)化的直接目的就是提高用戶點(diǎn)擊行為的效用度,最終目的是提高用戶滿意度與忠誠(chéng)度。站點(diǎn)路徑的優(yōu)化實(shí)際上就是優(yōu)化站點(diǎn)結(jié)構(gòu),消除站點(diǎn)實(shí)際安排與用戶期望之間差異的過(guò)程,它為站點(diǎn)個(gè)性化提供了一種思路,即用戶一系列的瀏覽行為所遍及的頁(yè)面序列就是用戶針對(duì)目標(biāo)頁(yè)面的尋找過(guò)程,此時(shí)站點(diǎn)設(shè)計(jì)可以考慮調(diào)整網(wǎng)站的結(jié)構(gòu)、在頻繁訪問(wèn)路徑處添加指向目標(biāo)頁(yè)面的鏈接,或者是將常見(jiàn)瀏覽路徑加入緩存,如圖1所示。
圖1 網(wǎng)狀結(jié)構(gòu)中的路徑優(yōu)化
網(wǎng)站的頻繁瀏覽路徑體現(xiàn)了特定的用戶在特定時(shí)期內(nèi)的活動(dòng)規(guī)律,是站點(diǎn)路徑優(yōu)化的依據(jù)。它包括兩個(gè)方面的內(nèi)容:首先是個(gè)體用戶在其瀏覽歷史區(qū)域中多次重復(fù)出現(xiàn)的瀏覽路徑,另一方面即用戶群體在一定時(shí)期中瀏覽歷史區(qū)域內(nèi)出現(xiàn)的瀏覽重復(fù)行為,即瀏覽模式。
個(gè)體用戶的一條瀏覽路徑對(duì)應(yīng)于用戶的一段信息探求過(guò)程。根據(jù)個(gè)體用戶的重復(fù)瀏覽路徑,就可以形成用戶興趣視圖,并依據(jù)用戶興趣視圖完成個(gè)性化推薦,為用戶提供定制的訪問(wèn)體驗(yàn)。而用戶群體在較長(zhǎng)時(shí)期內(nèi)穩(wěn)定的行為模式則為網(wǎng)站結(jié)構(gòu)的改進(jìn)和路徑的優(yōu)化提供了參考依據(jù)。如果在一定時(shí)期內(nèi)大多數(shù)用戶都表現(xiàn)出訪問(wèn)路徑的相似性,此時(shí)Web站點(diǎn)就要做相應(yīng)的訪問(wèn)路徑優(yōu)化。
前者可以為用戶提供“一對(duì)一”的具備自適應(yīng)性的在線動(dòng)態(tài)智能個(gè)性化服務(wù),這種智能個(gè)性化服務(wù)可大大縮短用戶在網(wǎng)絡(luò)上的訪問(wèn)延遲,使得提供給用戶的網(wǎng)絡(luò)信息服務(wù)質(zhì)量得到最大限度的提高。后者則通過(guò)離線修改實(shí)施改進(jìn),用以優(yōu)化用戶瀏覽體驗(yàn),提高當(dāng)前站點(diǎn)信息獲取的整體效率,同時(shí)提高用戶滿意度和忠誠(chéng)度。2 基于Web挖掘的路徑優(yōu)化模型
Web挖掘從數(shù)據(jù)挖掘發(fā)展而來(lái),但Web挖掘與傳統(tǒng)的數(shù)據(jù)挖掘相比有許多獨(dú)特之處。首先,Web挖掘的對(duì)象是大量、不同和分散型的Web文件;其次,Web文件本身是半結(jié)構(gòu)化或無(wú)結(jié)構(gòu)的,因此Web挖掘所得到的模式可能是關(guān)于內(nèi)容的,也可能是關(guān)于結(jié)構(gòu)的;最后,有些數(shù)據(jù)挖掘技術(shù)并不適用于Web挖掘,即使可以用也需要建立在對(duì)Web文件進(jìn)行預(yù)先處理的基礎(chǔ)之上[3]。
2.1 訪問(wèn)序列挖掘?qū)崿F(xiàn)過(guò)程的理論分析
為了跟蹤用戶以往瀏覽的網(wǎng)頁(yè),對(duì)網(wǎng)頁(yè)訪問(wèn)數(shù)據(jù)進(jìn)行挖掘,Web挖掘技術(shù)以Web日志為數(shù)據(jù)源。因?yàn)槊慨?dāng)用戶在點(diǎn)擊鏈接向站點(diǎn)發(fā)出頁(yè)面瀏覽請(qǐng)求時(shí),該用戶的IP地址、瀏覽日期和時(shí)間、瀏覽頁(yè)面URL及引用頁(yè)面等信息會(huì)被記錄在Web日志中,用戶瀏覽點(diǎn)擊頁(yè)面就按照時(shí)間順序以頁(yè)面URL序列的形式隱藏在Web日志中[4]。用戶訪問(wèn)序列挖掘即通過(guò)對(duì)Web日志進(jìn)行系統(tǒng)的分析和預(yù)處理,將用戶以往的瀏覽序列從日志中提取及表示出來(lái),并采用各種Web挖掘方法和算法從不同的角度獲得各類用戶可能的網(wǎng)頁(yè)瀏覽順序,探索總結(jié)出用戶瀏覽網(wǎng)頁(yè)的規(guī)則和模式。在獲得用戶瀏覽規(guī)律之后,通過(guò)模式分析識(shí)別用戶需求的鏈接,確定用戶瀏覽行為的目標(biāo)就可以提高用戶瀏覽的總體性能,幫助改進(jìn)網(wǎng)頁(yè)的設(shè)計(jì)和網(wǎng)站的鏈接結(jié)構(gòu),同時(shí)確定可以用于緩存的瀏覽網(wǎng)頁(yè)信息[5]。
從服務(wù)器的角度分析,挖掘發(fā)現(xiàn)的是提供服務(wù)的網(wǎng)站的信息,挖掘結(jié)果可以幫助改善網(wǎng)站的設(shè)計(jì)。從用戶的點(diǎn)擊序列分析,可以發(fā)現(xiàn)一個(gè)(或者一組)用戶的信息,可幫助實(shí)現(xiàn)網(wǎng)頁(yè)的預(yù)存取和緩存[6]。
2.2 站點(diǎn)路徑優(yōu)化的模型構(gòu)建
以Web日志為數(shù)據(jù)源進(jìn)行的站點(diǎn)路徑優(yōu)化的挖掘模型,采用了數(shù)據(jù)挖掘及Web日志挖掘的相關(guān)技術(shù)和算法獲取用戶瀏覽規(guī)則與模式,為網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化、站點(diǎn)重構(gòu)提供參考及個(gè)性化服務(wù)推薦設(shè)計(jì)提供了依據(jù)。據(jù)此站點(diǎn)路徑優(yōu)化的模型可分為數(shù)據(jù)預(yù)處理和站點(diǎn)路徑優(yōu)化實(shí)現(xiàn)兩個(gè)部分,站點(diǎn)路徑優(yōu)化部分可從兩個(gè)方面來(lái)考慮[7]:一是通過(guò)對(duì)Web日志的挖掘,發(fā)現(xiàn)用戶的期望位置。如果在期望位置的訪問(wèn)頻率高于實(shí)際位置的訪問(wèn)頻率,可考慮在期望位置和實(shí)際位置之間建立導(dǎo)航鏈接,從而實(shí)現(xiàn)對(duì)Web站點(diǎn)的優(yōu)化。二是通過(guò)對(duì)Web日志的挖掘,發(fā)現(xiàn)用戶訪問(wèn)頁(yè)面的相關(guān)性,從而對(duì)密切聯(lián)系的頁(yè)面之間增加鏈接,方便用戶使用。如圖2所示。
圖2 利用Web挖掘技術(shù)的路徑優(yōu)化模型
3 站點(diǎn)路徑優(yōu)化的實(shí)現(xiàn)
3.1 Web日志數(shù)據(jù)收集
Web服務(wù)系統(tǒng)是一個(gè)多層次的邏輯結(jié)構(gòu),包括客戶端、代理服務(wù)器端、Web服務(wù)器端。本文挖掘的是本站點(diǎn)用戶的頻繁訪問(wèn)路徑、用戶聚類等,因此適合采用Web服務(wù)器端的用戶訪問(wèn)模式挖掘[8]。Web服務(wù)器日志由三部分組成:訪問(wèn)日志、引用日志和代理日志,包括用戶訪問(wèn)Web站點(diǎn)時(shí),所訪問(wèn)的頁(yè)面、時(shí)間、用戶ID等信息。
3.2 站點(diǎn)數(shù)據(jù)預(yù)處理
Web站點(diǎn)及訪問(wèn)數(shù)據(jù)預(yù)處理部分主要包括站點(diǎn)結(jié)構(gòu)數(shù)據(jù)預(yù)處理、內(nèi)容數(shù)據(jù)預(yù)處理和Web日志數(shù)據(jù)預(yù)處理。其中,結(jié)構(gòu)數(shù)據(jù)預(yù)處理的任務(wù)是描述站點(diǎn)的拓?fù)浣Y(jié)構(gòu)圖、站點(diǎn)頁(yè)面文件鏈接有向圖,并明確站點(diǎn)各個(gè)頁(yè)面文件鏈接的請(qǐng)求(Request)方法,如GET、POST、HEAD等。站點(diǎn)內(nèi)容數(shù)據(jù)預(yù)處理包括將文本、圖片、腳本和其他多媒體文件轉(zhuǎn)變?yōu)橛脩魧?duì)站點(diǎn)瀏覽模式記錄信息的開(kāi)發(fā)與利用有用的格式[9]。
用戶訪問(wèn)序列挖掘的Web日志數(shù)據(jù)源預(yù)處理包括數(shù)據(jù)過(guò)濾、格式轉(zhuǎn)換、用戶識(shí)別、會(huì)話識(shí)別、路徑補(bǔ)全和事務(wù)識(shí)別,預(yù)處理過(guò)程是保證后繼挖掘質(zhì)量的關(guān)鍵。
3.3 基于Web日志挖掘的路徑優(yōu)化實(shí)現(xiàn)
在數(shù)據(jù)預(yù)處理之后,對(duì)所形成的用戶會(huì)話文件,利用數(shù)據(jù)挖掘的一些有效算法(如關(guān)聯(lián)規(guī)則、聚類、分類、序列模式等)來(lái)發(fā)現(xiàn)隱藏的模式規(guī)則。由于傳統(tǒng)的手工決策規(guī)則系統(tǒng)方法、基于內(nèi)容的過(guò)濾代理系統(tǒng)方法、協(xié)作過(guò)濾系統(tǒng)方法的種種不足,并且就分析和建立模型的技術(shù)而言站點(diǎn)路徑挖掘和傳統(tǒng)的數(shù)據(jù)挖掘差別并不是特別大,所以路徑優(yōu)化模式除了可以運(yùn)用Web數(shù)據(jù)挖掘的很多方法和算法思想,也可以采用一般的統(tǒng)計(jì)方法和在線分析處理方法,如聚類分析方法、關(guān)聯(lián)規(guī)則分析方法和序列模式分析方法等[10]。
站點(diǎn)路徑優(yōu)化可以分為兩類:用戶群訪問(wèn)模式挖掘的路徑優(yōu)化和個(gè)性化挖掘的路徑優(yōu)化。一般訪問(wèn)模式挖掘的路徑優(yōu)化通過(guò)分析在特定時(shí)間點(diǎn)的特定用戶群的訪問(wèn)記錄來(lái)了解用戶的瀏覽模式和傾向,以改進(jìn)站點(diǎn)的組織結(jié)構(gòu);而個(gè)性化挖掘的路徑優(yōu)化則傾向于分析個(gè)別用戶的偏好,其目的是根據(jù)用戶的訪問(wèn)模式,為其提供定制服務(wù)。
3.3.1個(gè)性化的瀏覽路徑優(yōu)化。Web站點(diǎn)的鏈接結(jié)構(gòu)是Web設(shè)計(jì)者根據(jù)一定的策略建立起來(lái)的,可能與用戶期望的鏈接結(jié)構(gòu)之間存在一定的差距。如圖3.1所示,目標(biāo)頁(yè)面X放在頁(yè)面B1下,但是用戶瀏覽路徑是F→A2→B2,因此用戶期望頁(yè)面X的位置在A2或B2下。如果事先能了解用戶的期望位置,從而在A2(或B2)和頁(yè)面X之間建立導(dǎo)航鏈接,自然就方便了用戶,提高了網(wǎng)站的訪問(wèn)效率[1]。
(1)發(fā)現(xiàn)用戶期望位置。
設(shè){P1,P2,...,Pn}為用戶訪問(wèn)過(guò)的頁(yè)面,Pn是一個(gè)目標(biāo)頁(yè)面,B=Ф;∥B為回溯點(diǎn)的集合;
圖3 用戶訪問(wèn)站點(diǎn)路徑
For(i=2;i<=n-2;i++)
{if(Pi-1=Pi+1) or (no link from Pi to Pi+1) add Pi to B} ∥Pi是一個(gè)回溯點(diǎn);
If (B not empty) add
n