曾 令,肖如良
(1.福建師范大學(xué) 軟件學(xué)院,福州 350117; 2.福建省公共服務(wù)大數(shù)據(jù)挖掘與應(yīng)用工程研究中心,福州 350117)
基于相鄰請(qǐng)求的動(dòng)態(tài)時(shí)間閾值會(huì)話識(shí)別算法
曾 令1,2,肖如良1,2*
(1.福建師范大學(xué) 軟件學(xué)院,福州 350117; 2.福建省公共服務(wù)大數(shù)據(jù)挖掘與應(yīng)用工程研究中心,福州 350117)
在大數(shù)據(jù)平臺(tái)的異常檢測(cè)分析中,為提高會(huì)話序列建模的效率,提出一種基于相鄰請(qǐng)求的動(dòng)態(tài)調(diào)整時(shí)間間隔閾值的會(huì)話識(shí)別算法——DAITS算法。首先同時(shí)結(jié)合站點(diǎn)頁(yè)面因子和用戶訪問(wèn)頁(yè)面時(shí)間的平均因子;然后在兩者間加入合適的權(quán)重因子對(duì)時(shí)間閾值進(jìn)行動(dòng)態(tài)調(diào)整;最后根據(jù)判斷是否超過(guò)該時(shí)間閾值來(lái)劃分會(huì)話。實(shí)驗(yàn)結(jié)果表明,DAITS算法比傳統(tǒng)使用固定閾值的方法在會(huì)話識(shí)別的精確率和查全率上提高了14.8%和13.2%,比動(dòng)態(tài)調(diào)整閾值的方法在精確率和查全率上提高了6.2%和3.2%。
異常檢測(cè);會(huì)話識(shí)別;會(huì)話序列;相鄰請(qǐng)求;動(dòng)態(tài)時(shí)間閾值
隨著大數(shù)據(jù)技術(shù)的飛速發(fā)展,大數(shù)據(jù)平臺(tái)架構(gòu)變得愈發(fā)復(fù)雜,而大數(shù)據(jù)平臺(tái)對(duì)新風(fēng)險(xiǎn)的安全需求也在持續(xù)增加。利用異常檢測(cè)技術(shù)保證大數(shù)據(jù)平臺(tái)的安全性是一種有效的解決方式,而對(duì)用戶日志進(jìn)行精準(zhǔn)的會(huì)話識(shí)別具有重要的意義:一方面可利用會(huì)話異常模型檢測(cè)出會(huì)話異常;另一方面可根據(jù)會(huì)話可疑度對(duì)用戶會(huì)話進(jìn)行模式挖掘。日志挖掘的步驟主要包括數(shù)據(jù)預(yù)處理、模式識(shí)別和模式分析,其中數(shù)據(jù)預(yù)處理是首要階段。數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清洗、用戶識(shí)別、會(huì)話識(shí)別和路徑補(bǔ)充。會(huì)話識(shí)別算法的好壞直接影響著后續(xù)對(duì)會(huì)話序列建模的工作,從而決定能否為異常檢測(cè)提供有意義的支持。
目前,會(huì)話識(shí)別的方法很多。按照對(duì)用戶訪問(wèn)行為的不同假設(shè),會(huì)話識(shí)別的方法可分為基于時(shí)間、基于導(dǎo)航、基于語(yǔ)義這三類方法?;趯?dǎo)航的方法主要分析用戶整個(gè)訪問(wèn)過(guò)程,并需要尋找訪問(wèn)過(guò)程中斷開的位置,并從統(tǒng)一資源定位符(Uniform Resource Locator, URL)中挖掘可以反映用戶行為的信息。這類方法主要包括基于引用的方法[1]和基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的方法[2]?;诰W(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的方法比基于引用的方法劃分的粒度更小,但是不同用戶在相同時(shí)間訪問(wèn)相同網(wǎng)頁(yè)的后續(xù)行為會(huì)不同,因此這類方法不能模仿人的智能。而基于語(yǔ)義的方法為模擬人的智能提供了可能性。這類方法需要先構(gòu)建語(yǔ)義本體,再建立用戶會(huì)話模型,最后將語(yǔ)義接近到一定程度的請(qǐng)求資源劃分到同一個(gè)會(huì)話中。這類方法可劃分為直接使用URL信息[3]和使用URL請(qǐng)求的頁(yè)面內(nèi)容[4]:一方面,這類方法對(duì)URL信息要求比較完整;另一方面,雖然這種方法在模擬用戶真實(shí)網(wǎng)絡(luò)行為有一定的突破,但是由于存在局限性和準(zhǔn)確率較低的問(wèn)題,目前這類方法的應(yīng)用并不廣泛。而最常用的基于時(shí)間的會(huì)話識(shí)別方法是以時(shí)間閾值為基準(zhǔn)來(lái)確定會(huì)話邊界,優(yōu)點(diǎn)是這類方法在原理和實(shí)現(xiàn)上相對(duì)另兩種方法簡(jiǎn)單,關(guān)鍵的難點(diǎn)是如何有效合理地設(shè)置時(shí)間閾值。該方法也可大致分為以會(huì)話時(shí)長(zhǎng)為依據(jù)和以相鄰請(qǐng)求時(shí)長(zhǎng)為依據(jù)這兩類,并且以相鄰請(qǐng)求時(shí)長(zhǎng)為依據(jù)的方法比以會(huì)話時(shí)長(zhǎng)為依據(jù)的方法更加接近用戶真實(shí)行為[5]。
因此,本文在以相鄰請(qǐng)求時(shí)長(zhǎng)為依據(jù)的基礎(chǔ)上,提出一種基于相鄰請(qǐng)求的動(dòng)態(tài)調(diào)整時(shí)間間隔閾值的會(huì)話識(shí)別算法(session identification algorithm based on Dynamic Adjustive Interval Time threShold of adjacent requests, DAITS)。該算法同時(shí)考慮站點(diǎn)頁(yè)面因子和用戶訪問(wèn)時(shí)間的平均因子,并加入合適的權(quán)重因子對(duì)該閾值進(jìn)行動(dòng)態(tài)調(diào)整。
在基于時(shí)間的方法中,Fernandez等[6]使用30 min作為整個(gè)會(huì)話時(shí)長(zhǎng)切分的時(shí)間閾值,而Jones等[7]使用25.5 min作為劃分時(shí)長(zhǎng)依據(jù),甚至Neelima等[8]提出使用60 min作為切分閾值。這類劃分方式認(rèn)為所有會(huì)話持有相同的時(shí)間,劃分相對(duì)比較粗糙。
在以相鄰請(qǐng)求時(shí)長(zhǎng)為依據(jù)的方法中需要預(yù)先設(shè)置一時(shí)間間隔閾值,根據(jù)判斷相鄰兩次請(qǐng)求的時(shí)間是否超過(guò)這一閾值確定同一用戶相鄰兩次的請(qǐng)求是否屬于同一會(huì)話,而時(shí)間間隔閾值通常設(shè)置為10 min[9]。這種設(shè)置固定閾值方法的不足在于一方面可能使原本在同一會(huì)話中的記錄被劃分到不同的會(huì)話中,另一方面也可能使原本不在同一會(huì)話中的記錄劃分到同一會(huì)話中。殷賢亮等[10]提出了一種改進(jìn)的基于時(shí)間間隔的方法,考慮到不同頁(yè)面的差異性,通過(guò)根據(jù)頁(yè)面內(nèi)容及站點(diǎn)結(jié)構(gòu)引入鏈接內(nèi)容比作為因變量對(duì)該閾值進(jìn)行調(diào)整;而文獻(xiàn)[11]也提出一種將過(guò)濾框架網(wǎng)頁(yè)與頁(yè)面訪問(wèn)時(shí)間閾值相結(jié)合的方法構(gòu)造出相對(duì)合理的時(shí)間閾值來(lái)進(jìn)行用戶的會(huì)話識(shí)別;文獻(xiàn)[12]中提到對(duì)根據(jù)網(wǎng)頁(yè)訪問(wèn)時(shí)間閾值生成的會(huì)話候選集進(jìn)行二次識(shí)別可以提高識(shí)別效率。
但是不同的用戶會(huì)有不同的興趣和習(xí)慣,這樣的差異也將會(huì)導(dǎo)致訪問(wèn)時(shí)間的不同,上述這幾種方法并沒(méi)有考慮到這個(gè)層面。因此He等[13]考慮到用戶差異性提出了一種動(dòng)態(tài)調(diào)整訪問(wèn)時(shí)間閾值的算法,引入調(diào)整因子,即當(dāng)有新頁(yè)面加入當(dāng)前會(huì)話便重新計(jì)算時(shí)間閾值的方法。同樣地,Sengottuvelan等[14]基于此提出通過(guò)計(jì)算用戶會(huì)話中的平均間隔時(shí)間動(dòng)態(tài)調(diào)整該用戶的時(shí)間閾值。
綜上所述,DAITS算法是基于相鄰請(qǐng)求時(shí)長(zhǎng)并在兼顧頁(yè)面差異性和用戶差異性的同時(shí),考慮在兩者間加入合適的權(quán)重因子,探究權(quán)重因子對(duì)會(huì)話識(shí)別的影響程度。
數(shù)據(jù)預(yù)處理中首先需要進(jìn)行數(shù)據(jù)清理,無(wú)論對(duì)何種形式的數(shù)據(jù)進(jìn)行分析的過(guò)程中,清洗服務(wù)器中不相關(guān)數(shù)據(jù)這一技術(shù)對(duì)整個(gè)數(shù)據(jù)分析有著重要的作用。也就是說(shuō),只有當(dāng)服務(wù)器中的數(shù)據(jù)能夠準(zhǔn)確地反映用戶真實(shí)訪問(wèn)網(wǎng)站的情況時(shí),經(jīng)過(guò)挖掘得到的結(jié)果才具有可靠性。刪除與挖掘算法無(wú)關(guān)的數(shù)據(jù)包括:1)刪除圖片、音頻、腳本和樣式等多媒體文件,保留html文件;2)刪除狀態(tài)碼不為200的記錄;3)刪除請(qǐng)求方式不為get的記錄;4)清洗除用戶IP地址、訪問(wèn)時(shí)間和請(qǐng)求資源與算法不相關(guān)的屬性記錄。
用戶識(shí)別需要從日志中的每一條記錄識(shí)別出相對(duì)應(yīng)的用戶?;谖墨I(xiàn)[15],按照三種標(biāo)準(zhǔn)來(lái)識(shí)別用戶:1)新的IP地址視為新用戶;2)相同IP地址,但是訪問(wèn)軟件不同,或不同操作系統(tǒng),或者其他的不同版本的軟件均視為新用戶;3)當(dāng)相同IP地址訪問(wèn)的網(wǎng)址之間沒(méi)有拓?fù)潢P(guān)聯(lián)時(shí)視為新用戶。
會(huì)話被認(rèn)為是一個(gè)用戶進(jìn)入站點(diǎn)時(shí)刻至他離開時(shí)刻止所請(qǐng)求的一系列鏈接的結(jié)合。會(huì)話識(shí)別是在用戶識(shí)別之后,把每個(gè)用戶在一段時(shí)間內(nèi)的訪問(wèn)序列進(jìn)行分解,從而得到相應(yīng)的會(huì)話。會(huì)話是指同一用戶在一次瀏覽過(guò)程中連續(xù)請(qǐng)求的頁(yè)面序列,它代表了用戶對(duì)服務(wù)器的一次有效訪問(wèn)。
用戶會(huì)話是一個(gè)三元組〈sessionID,userID,RS〉。其中:sessionID(sessionIdentification)表示會(huì)話標(biāo)識(shí);userID(userIdentification)表示用戶標(biāo)識(shí);RS(RequestsSet)表示和用戶在一段時(shí)內(nèi)請(qǐng)求記錄的頁(yè)面集合,RS包含用戶請(qǐng)求頁(yè)面標(biāo)識(shí)符(PageIdentification,PID)和請(qǐng)求時(shí)間t。用戶會(huì)話序列S表示為:
S=〈sessionID,userID,{(PID1,t1),(PID2,t2),…,
(PIDn,tn)}〉
(1)
對(duì)于上述提到的基于時(shí)間的兩類會(huì)話識(shí)別方法,在以會(huì)話時(shí)長(zhǎng)為劃分方法中,設(shè)定整個(gè)會(huì)話時(shí)長(zhǎng):
Time[k]-Time[i]≤T
(2)
其中T為設(shè)定的時(shí)間閾值。
在以相鄰請(qǐng)求時(shí)長(zhǎng)為依據(jù)的方法中,根據(jù)判斷相鄰兩次請(qǐng)求的時(shí)間是否超過(guò)這一閾值確定同一用戶相鄰兩次的請(qǐng)求是否屬于同一會(huì)話:
Time[t]-Time[t-1]≤ΔT
(3)
其中ΔT為設(shè)定的時(shí)間間隔閾值。
路徑補(bǔ)充是對(duì)識(shí)別出的用戶會(huì)話進(jìn)行優(yōu)化的步驟,目的是使其更加準(zhǔn)確地描述用戶的瀏覽請(qǐng)求。由于緩存導(dǎo)致頁(yè)面缺失的問(wèn)題,借助站點(diǎn)信息構(gòu)建完整的路徑。通??梢圆捎镁W(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和用戶的訪問(wèn)順序進(jìn)行路徑補(bǔ)充。
DAITS算法是基于大數(shù)據(jù)平臺(tái)的頁(yè)面訪問(wèn)時(shí)間和用戶訪問(wèn)時(shí)間閾值的會(huì)話識(shí)別算法。一方面由于每個(gè)用戶存在個(gè)體差異性,如用戶網(wǎng)絡(luò)速度、閱讀速度、上網(wǎng)習(xí)慣等一系列因素會(huì)導(dǎo)致不同的用戶會(huì)話時(shí)間是不相同的。但是,如果針對(duì)同一個(gè)用戶來(lái)講其所屬的網(wǎng)絡(luò)環(huán)境、個(gè)人興趣及習(xí)慣等因素對(duì)不同用戶來(lái)說(shuō)是相對(duì)穩(wěn)定的。另一方面除去用戶個(gè)體差異對(duì)會(huì)話閾值的影響,會(huì)話閾值與頁(yè)面內(nèi)容及站點(diǎn)結(jié)構(gòu)也是有關(guān)系的。也就是說(shuō)同一個(gè)用戶瀏覽不同的頁(yè)面所需的時(shí)間也是不相同的。所以此算法將同時(shí)考慮頁(yè)面內(nèi)容和用戶差異性并在兩者間加入合適的權(quán)重,探究權(quán)重因子對(duì)會(huì)話識(shí)別精確率和查全率的影響。
通常使用頁(yè)面的鏈入數(shù)和鏈出數(shù)來(lái)衡量頁(yè)面的重要程度。令L1表示鏈入數(shù)即鏈接到某頁(yè)面的頁(yè)面?zhèn)€數(shù),L0表示鏈出數(shù)即某頁(yè)面包含的鏈接個(gè)數(shù),S表示頁(yè)面大小。鏈接內(nèi)容比RLCR的計(jì)算公式表示為:
RLCR=(L1+L0)/S
(4)
一般情況下,一個(gè)頁(yè)面的鏈入比鏈出重要,根據(jù)文獻(xiàn)[13]對(duì)它們賦予不同的權(quán)值。將公式調(diào)整為:
RLCR=(0.7L1+0.3L0)/(L1+L0)
(5)
為了將RLCR值用于對(duì)頁(yè)面訪問(wèn)時(shí)間閾值δ′的調(diào)整,需要將RLCR值映射到區(qū)間(0,1)內(nèi),采用如下方式進(jìn)行映射,β為RLCR值對(duì)閾值δ′的影響因子:
β=1-exp(RLCR)
(6)
根據(jù)文獻(xiàn)[10],α為平滑系數(shù),α取1.2為經(jīng)驗(yàn)值,t為頁(yè)面的實(shí)際訪問(wèn)時(shí)間。綜合上述的調(diào)整過(guò)程,頁(yè)面訪問(wèn)時(shí)間閾值δ′表達(dá)式為:
δ′=αt(1+β)
(7)
由于用戶閱讀習(xí)慣、閱讀速度等不同會(huì)導(dǎo)致不同的用戶訪問(wèn)頁(yè)面的時(shí)間不同。一般來(lái)講,閱讀速度慢的用戶被識(shí)別的會(huì)話個(gè)數(shù)會(huì)更多。因此,本文提出的這種動(dòng)態(tài)調(diào)整時(shí)間間隔閾值的方法所設(shè)定的時(shí)間閾值并不是固定的。對(duì)同一用戶進(jìn)行會(huì)話識(shí)別時(shí),只需要關(guān)注那些時(shí)間間隔較大的記錄。
設(shè)t0為初始的頁(yè)面時(shí)間閾值,tnew代表將新頁(yè)面添加到當(dāng)前會(huì)話中的時(shí)間閾值。平均時(shí)間t′表達(dá)式為:
t′=(t0+tnew)/2
(8)
為了將這種調(diào)整同樣適用于其他頁(yè)面,定義調(diào)整因子η表達(dá)式為:
η=(t′-t0)/t0=(tnew-t0)/(2t0)
(9)
將調(diào)整因子適用于所有頁(yè)面,δ0表示上次調(diào)整后的時(shí)間閾值,則調(diào)整后的用戶訪問(wèn)時(shí)間閾值δ"表達(dá)式為:
δ"=δ0(1+η)=(δ0(tnew+t0)/(2t0)
(10)
當(dāng)有新的請(qǐng)求記錄加入到當(dāng)前會(huì)話中就按照權(quán)重公式重新對(duì)時(shí)間閾值進(jìn)行調(diào)整。設(shè)置時(shí)間間隔閾值δ的公式為:
δ=aδ′+(1-a)δ"
(11)
其中系數(shù)a表示兩時(shí)間閾值間的權(quán)重因子。
經(jīng)過(guò)數(shù)據(jù)清理和用戶識(shí)別后進(jìn)行會(huì)話識(shí)別。由于在之前清洗日志數(shù)據(jù)的同時(shí)將日志記錄按照用戶排序,而且相同的用戶按照訪問(wèn)時(shí)間遞增排序。如果相鄰請(qǐng)求的用戶不同,則認(rèn)為前一個(gè)請(qǐng)求記錄屬于前一個(gè)會(huì)話且該會(huì)話已結(jié)束,后一個(gè)請(qǐng)求記錄添加到新會(huì)話中。對(duì)于相同用戶的相鄰請(qǐng)求記錄,首先按照頁(yè)面訪問(wèn)時(shí)間閾值的定義計(jì)算每個(gè)頁(yè)面初始的時(shí)間閾值,然后根據(jù)相鄰請(qǐng)求時(shí)長(zhǎng)是否滿足訪問(wèn)時(shí)間需不大于當(dāng)前時(shí)間閾值這一條件來(lái)判斷是否將其劃分到同一會(huì)話中,同時(shí)滿足時(shí)間閾值調(diào)整條件即當(dāng)前訪問(wèn)時(shí)間超過(guò)較大間隔時(shí)間則需要根據(jù)用戶訪問(wèn)時(shí)間閾值和設(shè)置權(quán)重公式動(dòng)態(tài)調(diào)整當(dāng)前時(shí)間間隔閾值。集合Γ={δ1,δ2,…,δn}表示頁(yè)面時(shí)間閾值;H={h1,h2,…,hm}集合表示某一用戶請(qǐng)求記錄的集合;S={S1,S2,…,Sk}表示生成的會(huì)話集合。DAITS步驟如下:
1)計(jì)算初始的頁(yè)面時(shí)間閾值δ′并初始化集合Γ。
2)從集合H中取出請(qǐng)求hi,如果hi為空則取出下一請(qǐng)求繼續(xù)進(jìn)行下面的判斷,否則進(jìn)行下一步。
3)計(jì)算請(qǐng)求hi的訪問(wèn)時(shí)間tnew,如果tnew≤δj,則將記錄劃分到當(dāng)前會(huì)話Sc中并進(jìn)行下一步;否則將記錄劃分到新的會(huì)話Sc+1中,更新集合Γ并取出下一請(qǐng)求繼續(xù)進(jìn)行判斷。
4)如果tnew滿足時(shí)間閾值調(diào)整的條件,則按照用戶訪問(wèn)時(shí)間閾值和設(shè)置權(quán)重公式對(duì)集合Γ更新并跳轉(zhuǎn)到步驟2)取出下一請(qǐng)求繼續(xù)進(jìn)行判斷;不滿足調(diào)整條件直接跳轉(zhuǎn)到步驟2)取出下一請(qǐng)求進(jìn)行判斷。
由于在清洗日志數(shù)據(jù)的同時(shí)已經(jīng)將日志記錄按照用戶排序,算法需要將每條記錄取出與上一條記錄進(jìn)行比較判斷,所以該算法時(shí)間復(fù)雜度為O(n),其中n為用戶日志訪問(wèn)記錄長(zhǎng)度。DAITS算法流程如圖1所示。
圖1 DAITS算法流程Fig. 1 Flow chart of DAITS
實(shí)驗(yàn)數(shù)據(jù)集采用美國(guó)國(guó)家航空航天局(National Aeronautics and Space Administration, NASA)的Web服務(wù)器日志。它作為公開的數(shù)據(jù)集具有易獲取性,可供任何人學(xué)習(xí)和研究; 而且該數(shù)據(jù)集的真實(shí)可靠性已被許多專業(yè)研究人員認(rèn)可。該數(shù)據(jù)集記錄了1995年7月— 8月兩個(gè)月的訪問(wèn)日志記錄。由于日志文件數(shù)量非常之大,因此選擇每個(gè)月份中的一天來(lái)進(jìn)行測(cè)試本文算法。
本文DAITS算法將與最常用的基于會(huì)話時(shí)長(zhǎng)(固定閾值30 min)[6]、基于相鄰請(qǐng)求時(shí)長(zhǎng)(固定閾值10 min)[9]、基于時(shí)間間隔[10]和動(dòng)態(tài)調(diào)整訪問(wèn)時(shí)間閾值[13]這四種算法進(jìn)行對(duì)比,并探究本文算法中權(quán)重因子對(duì)精確率和查全率的影響。
DAITS算法將引入精確率和查全率作為評(píng)判指標(biāo)。令A(yù)表示真實(shí)的會(huì)話個(gè)數(shù),通過(guò)人工標(biāo)識(shí)得出;B表示通過(guò)會(huì)話識(shí)別算法識(shí)別出的會(huì)話個(gè)數(shù);A∩B表示上述兩者共同的部分,即通過(guò)算法識(shí)別出的真實(shí)會(huì)話個(gè)數(shù), 則算法的精確率和查全率計(jì)算公式如下:
precision=(A∩B)/B
(12)
recall=(A∩B)/A
(13)
在第一組實(shí)驗(yàn)中,由于7月12日前后訪問(wèn)請(qǐng)求數(shù)量較平穩(wěn)同時(shí)也比較接近整個(gè)月日平均訪問(wèn)量,具有一定典型性。所以本文將對(duì)該天的日志進(jìn)行分析。7月12日這一天共有92 536條訪問(wèn)記錄,經(jīng)清洗后有19 637條記錄。本文算法中平滑系數(shù)α取值1.2,較大間隔時(shí)間為15 min,A=4 594,不同權(quán)重因子下會(huì)話識(shí)別情況如圖2所示。
從圖2可看出:權(quán)重因子a=0.6時(shí)精確率和查全率最高; 當(dāng)進(jìn)一步精確權(quán)重因子取值時(shí),發(fā)現(xiàn)在a=0.6附近波動(dòng),算法識(shí)別出的會(huì)話個(gè)數(shù)并沒(méi)有明顯地改變。當(dāng)權(quán)重因子a=0.6時(shí),比較五種會(huì)話識(shí)別算法的識(shí)別結(jié)果如表1所示。
在第二組實(shí)驗(yàn)中,用同樣的原理選取8月10日這天的日志記錄。這一天共有61 248條訪問(wèn)記錄,經(jīng)數(shù)據(jù)清洗后有13 169條記錄,A=3 743。比較五種會(huì)話識(shí)別算法的識(shí)別結(jié)果如表2所示。
圖2 不同權(quán)重因子下的會(huì)話精確率和查全率Fig. 2 Precision and recall under different weighting factors表1 第一組實(shí)驗(yàn)下五種算法的比較Tab. 1 Comparison of five algorithms in first group experiment
算法BA∩B精確率/%查全率/%基于會(huì)話時(shí)長(zhǎng)[6]4748357575.2977.82基于相鄰請(qǐng)求時(shí)長(zhǎng)[9]5240401276.5687.33基于時(shí)間間隔[10]5165406078.6188.38動(dòng)態(tài)調(diào)整訪問(wèn)時(shí)間閾值[13]4995414282.9290.16DAITS算法4890420185.9191.45
表2 第二組實(shí)驗(yàn)下五種算法的比較Tab. 2 Comparison of five algorithms in second group experiment
實(shí)驗(yàn)結(jié)果表明,本文DAITS算法提出的加入合適權(quán)重因子的動(dòng)態(tài)調(diào)整時(shí)間間隔閾值的方法比傳統(tǒng)使用固定閾值的方法在精確率和查全率上分別提高了14.8%和13.2%,比已有的動(dòng)態(tài)調(diào)整閾值的方法在精確率和查全率上分別提高了6.2%和3.2%。這也意味著使用這種算法識(shí)別會(huì)話將更有效率,有利于之后的會(huì)話序列建模工作,為大數(shù)據(jù)平臺(tái)的異常檢測(cè)提供更有意義的支持。
本文所提出的會(huì)話識(shí)別DAITS算法在一定程度上有助于提高會(huì)話識(shí)別的效率,其核心原理是基于用戶相鄰請(qǐng)求動(dòng)態(tài)調(diào)整時(shí)間間隔閾值,能在大數(shù)據(jù)平臺(tái)的異常檢測(cè)分析過(guò)程中提供可靠的支撐。不足之處在于僅使用一個(gè)時(shí)間維度還是難以模擬出用戶真實(shí)的網(wǎng)絡(luò)行為。在模擬用戶會(huì)話真實(shí)網(wǎng)絡(luò)行為這一方面有進(jìn)一步提升的空間,需要更多的探討與研究,這將是下一步需要開展的工作。
References)
[1] QIN C Y, LIAO C. Session identification based on linked referrers and Web log indexing[J]. Computer Systems Science & Engineering, 2015, 30(2): 141-154.
[2] 周愛(ài)武, 程博, 李孫長(zhǎng), 等. Web日志挖掘中的會(huì)話識(shí)別方法[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2010, 31(5): 936-938. (ZHOU A W, CHENG B, LI S Z, et al. Method of session identification in Web log mining[J]. Computer Engineering & Design, 2010, 31(5): 936-935.)
[3] SADAGOPAN N, LI J. Characterizing typical and atypical user sessions in clickstreams[C]// WWW 2008: Proceedings of the 17th International Conference on World Wide Web. New York: ACM, 2008: 885-894.
[4] 盧先寧. Web日志挖掘數(shù)據(jù)預(yù)處理算法研究、實(shí)現(xiàn)及應(yīng)用[D]. 北京: 北京郵電大學(xué), 2013. (LU X N. Research, implementation and application of Web log mining data preprocessing algorithm [D]. Beijing: Beijing University of Posts and Telecommunications, 2013.)
[5] ARUN P, IYAKUTTI K. Ontology generation from session data for Web personalization[J]. International Journal of Advanced Networking & Applications, 2010, 1(4): 241-245.
[6] FERNANDEZ F M H, PONNUSAMY R. Data preprocessing and cleansing in Web log on ontology for enhanced decision making[J]. Indian Journal of Science & Technology, 2016, 9(10): 1-9.
[7] JONES R, KLINKNER K L. Beyond the session timeout: automatic hierarchical segmentation of search topics in query logs[C]// Proceedings of the 17th ACM Conference on Information and Knowledge Management. New York: ACM, 2008: 699-708.
[8] NEELIMA G, RODDA S. Predicting user behavior through sessions using the Web log mining[C]// Proceedings of the 2016 International Conference on Advances in Human Machine Interaction. Piscataway, NJ: IEEE, 2016: 1-5.
[9] SPILIOPOULOU M, MOBASHER B, BERENDT B, et al. A framework for the evaluation of session reconstruction heuristics in Web-usage analysis[J]. INFORMS Journal on Computing, 2003, 15(2): 171-190.
[10] 殷賢亮, 張為. Web使用挖掘中的一種改進(jìn)的會(huì)話識(shí)別方法[J]. 華中科技大學(xué)學(xué)報(bào) (自然科學(xué)版), 2006, 34(7): 33-35. (YIN X L, ZHANG W. An improved method for session identification in Web usage mining[J]. Journal of Huazhong University of Science and Technology (Natural Science Edition), 2006, 34(7): 33-35.)
[11] 方元康, 胡學(xué)鋼, 夏啟壽.Web日志預(yù)處理中優(yōu)化的會(huì)話識(shí)別方法[J]. 計(jì)算機(jī)工程, 2009, 35(7): 49-51. (FANG Y K, HU X G, XIA Q S. Improved method for session identification in Web log preprocessing[J]. Computer Engineering, 2009, 35(7): 49-51.)
[12] FANG Y, HUANG Z. An improved algorithm for session identification on Web log[C]// WISM 2010: Proceedings of the 2010 International Conference on Web Information Systems and Mining. Berlin: Springer, 2010: 53-60.
[13] HE X H, WANG Q. Dynamic timeout-based a session identification algorithm[C]// Proceedings of the 2011 International Conference on Electric Information and Control Engineering. Piscataway, NJ: IEEE, 2011: 346-349.
[14] SENGOTTUVELAN P, LOKESHKUMAR R, GOPALAKRISHNAN T. An improved session identification approach in Web log mining for Web personalization[J]. Journal of Internet Technology, 2015, 18(4): 1-7.
[15] YUNG C. Mining massive Web log data of an official tourism Web site as a step towards big data analysis in tourism[C]// ASE BD&SI 2015: Proceedings of the 2015 ASE Big Data & Social Informatics. New York: ACM, 2015: Article No. 62.
This work is partially supported by the Key Project of Fujian Scientific and Technolgical Plan (2016H6007), the City School Cooperation Project of Fuzhou (2016-G-40).
ZENGLing, born in 1993, M. S. candidate. Her research interests include machine learning.
XIAORuliang, born in 1966, Ph. D., professor. His research interests include Web intelligent recommendation system, software engineering, system virtualization.
Sessionidentificationalgorithmbasedondynamictimethresholdofadjacentrequests
ZENG Ling1,2, XIAO Ruliang1,2*
(1.FacultyofSoftware,FujianNormalUniversity,FuzhouFujian350117,China;2.FujianProvincialEngineeringResearchCenterofPublicServiceBigDataMiningandApplication,FuzhouFujian350117,China)
Focusing on the issue of improving the efficiency of session sequence modeling in the anomaly detection analysis of big data platform, a session identification algorithm based on Dynamic Adjustive Interval Time threShold of adjacent requests (DAITS) was proposed. Firstly, the factor of website pages and the average factor of users access time to the page were combined. Then, the appropriate weighting factor was used to dynamically adjust the time threshold. Finally, the session was divided according to whether the time threshold was exceeded. The experimental results show that compared with the traditional methods of using fixed thresholds, the precision of session identification was increased by 14.8% and the recall was increased by 13.2%; compared with the existing methods with dynamic adjustive thresholds, the precision of session identification was increased by 6.2% and the recall was increased by 3.2%.
anomaly detection; session identification; session sequence; adjacent request; dynamic time threshold
2017- 05- 19;
2017- 07- 28。
福建省科技計(jì)劃重大項(xiàng)目(2016H6007);福州市市校合作項(xiàng)目(2016-G-40)。
曾令(1993—),女,湖北孝感人,碩士研究生,主要研究方向:機(jī)器學(xué)習(xí); 肖如良(1966—),男,湖南婁底人,教授,博士,CCF高級(jí)會(huì)員,主要研究方向:Web智能推薦系統(tǒng)、軟件工程、系統(tǒng)虛擬化。
1001- 9081(2017)11- 3335- 04
10.11772/j.issn.1001- 9081.2017.11.3335
(*通信作者電子郵箱xiaoruliang@163.com)
TP311.1
A