宋丹
[摘要]本文通過對互聯(lián)網(wǎng)時(shí)代背景下數(shù)據(jù)挖掘技術(shù)的應(yīng)用展開分析,包括對其概念,基本分析方法以及數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)的預(yù)處理方式等內(nèi)容,希望能給相關(guān)工作人員提供幫助。
[關(guān)鍵詞]互聯(lián)網(wǎng);數(shù)據(jù);挖掘;技術(shù)
近年來,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展使得更多的用戶能夠充分利用互聯(lián)網(wǎng)來獲取信息,真正實(shí)現(xiàn)不出門便知天下事,大數(shù)據(jù)挖掘技術(shù)是從多個(gè)數(shù)據(jù)中存在一些不完整的應(yīng)用中,以及較為簡單的應(yīng)用程序中隨機(jī)抽取的,而這些被抽取的數(shù)據(jù)是客觀存在的,并不是人為發(fā)現(xiàn)的。由于單個(gè)WEB智能性的缺乏,使得很多用戶只能依靠導(dǎo)航進(jìn)行信息篩選,這種情況下會使結(jié)果的準(zhǔn)確性和針對性降低,同時(shí),由于數(shù)據(jù)挖掘技術(shù)的完善和深化,使得網(wǎng)站對于系統(tǒng)性能分析的能力有一定程度提高,從而能夠滿足現(xiàn)代互聯(lián)網(wǎng)用戶的使用要求。
一、數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘最早出現(xiàn)于20世紀(jì)80年代,作為一門新興學(xué)科來說還沒有得到廣泛用戶的認(rèn)可。從技術(shù)角度來看,數(shù)據(jù)挖掘針對的是較為復(fù)雜而且無規(guī)律的數(shù)據(jù)群體,而從商業(yè)化角度來看,數(shù)據(jù)挖掘是指在龐大的數(shù)據(jù)庫中找出信息的規(guī)律性,并進(jìn)行信息轉(zhuǎn)化分析,提取有利于商業(yè)決策的信息,通常數(shù)據(jù)挖掘系統(tǒng)包含以下幾方面內(nèi)容:用戶圖形界面接口,數(shù)據(jù)挖掘引擎,數(shù)據(jù)庫,模式評估,知識儲備庫,數(shù)據(jù)基地等。其中數(shù)據(jù)庫中包含了大量的數(shù)據(jù)和信息,而這些數(shù)據(jù)對于廣大的用戶來說有較大的吸引力;知識儲存庫是一個(gè)較為簡單的應(yīng)用程序,該程序能夠?qū)崿F(xiàn)知識的評價(jià)和進(jìn)一步探索,進(jìn)而確定總體模式的意義所在;數(shù)據(jù)挖掘引擎是數(shù)據(jù)挖掘系統(tǒng)中重要的內(nèi)容,進(jìn)而能夠?qū)崿F(xiàn)對數(shù)據(jù)特征,價(jià)值,關(guān)聯(lián)等方面的分類;模式的評估主要是對數(shù)據(jù)進(jìn)行評價(jià)時(shí)能夠應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行相關(guān)聯(lián),而把數(shù)據(jù)挖掘技術(shù)全面應(yīng)用到系統(tǒng)中;模型的進(jìn)口是用戶圖形界面接口,這一環(huán)節(jié)能夠便于用戶使用模型,同時(shí)能夠利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)信息的快速查詢。具體來看,通常WEB服務(wù)器每天都會更新日志文件,在一些流量消耗較大的網(wǎng)站中,這些日文件往往要消耗更多的流量,因此為了能夠減少不必要的流量消耗,可以充分應(yīng)用數(shù)據(jù)挖掘技術(shù)來分析處理這些日志文件,對于一些簡單的網(wǎng)站來說,能夠幫助分析WEB日志文件就可以了,但對于一些較大的網(wǎng)站來說,一個(gè)網(wǎng)站往往是由多個(gè)甚至上百個(gè)WEB服務(wù)器組成來實(shí)現(xiàn)對外服務(wù)的,在分析這些日志時(shí),需要采取分布式的數(shù)據(jù)挖掘技術(shù)??偠灾?,對于長期產(chǎn)生大量數(shù)據(jù)日志文件的網(wǎng)站來說,可以通過數(shù)據(jù)挖掘技術(shù)進(jìn)行數(shù)據(jù)篩選。
二、數(shù)據(jù)挖掘技術(shù)的分析方法
數(shù)據(jù)分析是數(shù)據(jù)挖掘過程中最為重要的環(huán)節(jié),只有選擇有效的計(jì)算方式才能完成信息數(shù)據(jù)挖掘工作,其中,常用有三種數(shù)據(jù)分析方法:第一種是聚類分析,能夠?qū)⑽锢韺ο蠡蛘叱橄髮ο筮M(jìn)行分類整合,將具有相似特征的對象進(jìn)行深入分析,最終目標(biāo)是能夠利用詳細(xì)的方法做到數(shù)據(jù)分類。聚類分析可以說是對事物規(guī)律的分析,實(shí)現(xiàn)對各個(gè)領(lǐng)域的智能化學(xué)習(xí),可以將聚類分析分為兩種:硬聚類和模糊聚類,前者表示能夠?qū)⒎治鰧ο髣澐值阶顬榻咏念悇e中,而后者是通過取值范圍來進(jìn)行對象分析,劃分,甚至可能會出現(xiàn)某一對象存在多個(gè)類別的情況;第二種數(shù)據(jù)分析方法是分類和預(yù)測,分類顧名思義是針對無排序規(guī)律的標(biāo)號進(jìn)行的分類環(huán)節(jié),而預(yù)測是將一些連續(xù)值的函數(shù)模型進(jìn)行預(yù)測,其中對于數(shù)據(jù)挖掘技術(shù)來說,分類是基礎(chǔ)數(shù)據(jù)挖掘的特征,能夠通過分類表現(xiàn)出來,進(jìn)而將各個(gè)類別的屬性進(jìn)行劃分,當(dāng)前常用的計(jì)算方法有粗糙集,遺傳算法,決策樹等。此外,預(yù)測是在已知的情況下對未來發(fā)展規(guī)律進(jìn)行有效預(yù)測,目前比較常用的是回歸分析,時(shí)間序列法等;第三種是關(guān)聯(lián)分析法,眾所周知的蝴蝶效應(yīng)是指自然界的一次微小變動可能會導(dǎo)致另一個(gè)大事件的發(fā)生,而關(guān)聯(lián)分析是在該規(guī)律的基礎(chǔ)上完成的,一個(gè)事件和另外一個(gè)事件之間存在一定的關(guān)聯(lián)性和依賴性,針對這種規(guī)律性我們展開有效預(yù)測,比如日常所使用的購物籃就是通過這種關(guān)聯(lián)分析完成的,人們?nèi)粘Y徫镞^程中,我們通過對購物籃中物品的管理規(guī)律進(jìn)行分析,能夠及時(shí)掌握顧客的購買習(xí)慣和特點(diǎn),然后根據(jù)這些數(shù)據(jù)制定營銷方案,通過多種實(shí)踐證明,關(guān)聯(lián)分析法是十分有效的。
三、數(shù)據(jù)的預(yù)處理
數(shù)據(jù)的預(yù)處理是針對網(wǎng)絡(luò)日志中數(shù)據(jù)進(jìn)行二次加工,在實(shí)際加工過程中能夠保存數(shù)據(jù)的原始性。挖掘算法是將數(shù)據(jù)的結(jié)構(gòu)和規(guī)則進(jìn)行篩選。具體的結(jié)構(gòu)如下所示:WEB日志、數(shù)據(jù)預(yù)處理、確定挖掘算法、實(shí)現(xiàn)數(shù)據(jù)挖掘、模式設(shè)置,在對日志進(jìn)行數(shù)據(jù)挖掘前需要優(yōu)先處理部分?jǐn)?shù)據(jù),其中包括數(shù)據(jù)變更,用戶識別,會話識別,路徑補(bǔ)充等。首先在針對數(shù)據(jù)的縮減中,常見的WEB日志數(shù)據(jù)格式有:用戶訪問日期、時(shí)間,IP地址,字節(jié)數(shù)量,網(wǎng)頁狀態(tài)等,而由于WEB日志挖掘,其針對用戶行為模式,而常常容易忽略一些沒有請求顯示的界面,比如帶有JPG,GIF等格式的后綴名,這種情況下會對剩余的篩選信息相關(guān)性進(jìn)行更深層次的挖掘。在用戶識別過程中,用戶通常會在系統(tǒng)中設(shè)置防火墻,因此,日志中的信息記錄真實(shí)度不高,這種情況下會使用戶識別工作復(fù)雜,使用啟發(fā)式的規(guī)則能夠有效幫助完成用戶的識別工作,具體存在兩種規(guī)則:首先,系統(tǒng)會假設(shè)用戶的IP地址相同,如果代理的游覽器操作系統(tǒng)出現(xiàn)變化時(shí),則表示為不同的用戶;其次第二種規(guī)則也是同樣假設(shè)用戶的IP地址相同,如果鏈接頁面同游覽過的頁面沒有相關(guān)性,則代表了不同的用戶。從會話識別上來看,最終是為了將用戶的訪問記錄進(jìn)行有效劃分而形成的單個(gè)會話,并將其作為用戶單位,其中如果會話時(shí)間超過限定范圍,則系統(tǒng)會默認(rèn)開始新的會話。從路徑補(bǔ)充上來看,為了能夠減少網(wǎng)絡(luò)輸入量,很多游覽器會采用對已訪問的頁面進(jìn)行緩存,而這種情況下用戶在執(zhí)行返回命令時(shí),系統(tǒng)會顯示出緩存的頁面信息,而WEB服務(wù)器無法對訪問信息進(jìn)行確定,而對PostLOG表中的refer進(jìn)行檢查時(shí)能夠完成確定頁面的工作,但是如果用戶的訪問記錄中包含多個(gè)頁面鏈接,則系統(tǒng)會優(yōu)先選擇距離時(shí)間較近的鏈接。上述這些方法都是互聯(lián)網(wǎng)日志挖掘數(shù)據(jù)預(yù)處理的一些常用手段,主要是能夠使數(shù)據(jù)經(jīng)過預(yù)處理之后更加完整,為之后數(shù)據(jù)挖掘提供基礎(chǔ),對于經(jīng)過預(yù)處理之后的數(shù)據(jù)信息可以進(jìn)行用戶識別游覽行為的序列模式。
對于一些具有復(fù)雜結(jié)構(gòu)的分布式互聯(lián)網(wǎng)日志挖掘過程中,這些互聯(lián)網(wǎng)服務(wù)器的結(jié)構(gòu)如同大型門戶網(wǎng)站的結(jié)構(gòu),擁有多個(gè)互聯(lián)網(wǎng)服務(wù)器日志文件,分別儲存在不同的服務(wù)器上,這種分布式結(jié)構(gòu)通常會采用多代理技術(shù)進(jìn)行解決。代理最初源于分布式人工智能領(lǐng)域,之后被用于其他計(jì)算機(jī)領(lǐng)域中,是指在一定的運(yùn)行環(huán)境下能夠?qū)崿F(xiàn)自主運(yùn)行,包含承諾,信念,意圖等精神,使其具有反應(yīng)性、能動性、社會性等特點(diǎn)。多代理就是通過多個(gè)代理互相協(xié)作完成復(fù)雜目標(biāo)的,雖然相比單代理來說,在解決實(shí)際問題方面的能力較強(qiáng),而且從數(shù)據(jù)分布和計(jì)算過程來看,是可以實(shí)現(xiàn)異步并行的。將多代理分布數(shù)據(jù)挖掘技術(shù)應(yīng)用于互聯(lián)網(wǎng)日志挖掘系統(tǒng)中,主要是基于它的三重體系結(jié)構(gòu)包括:訪問層,代理層和互聯(lián)網(wǎng)服務(wù)器層,其中用戶層包括不同用戶有不同的操作權(quán)限,通常用戶只能進(jìn)行信息查詢,而代理層則可以實(shí)現(xiàn)監(jiān)控系統(tǒng)以及配置代理的功能,互聯(lián)網(wǎng)服務(wù)層就是由多個(gè)互聯(lián)網(wǎng)服務(wù)器組成的,每個(gè)服務(wù)器提供了相應(yīng)的日志文件,并通過接口能夠?qū)崿F(xiàn)與代理層的數(shù)據(jù)交互,代理層是作為用戶層和服務(wù)器層之間的橋梁,能夠幫助有效解決分布式速度和異構(gòu)性問題,確保數(shù)據(jù)完整性。在互聯(lián)網(wǎng)中廣泛應(yīng)用代理技術(shù)能夠有效對多個(gè)異構(gòu)服務(wù)器實(shí)現(xiàn)數(shù)據(jù)分析和處理,對于數(shù)據(jù)的預(yù)處理和數(shù)據(jù)挖掘算法等是與簡單結(jié)構(gòu)的日志挖掘一致的。
四、數(shù)據(jù)挖掘的應(yīng)用及面臨的挑戰(zhàn)
數(shù)據(jù)挖掘技術(shù)面對的較多情況下是數(shù)據(jù)庫,這樣一來能夠大大提高信息檢索效率,然而在數(shù)據(jù)挖掘技術(shù)應(yīng)用過程中也存在一定的局限性。數(shù)據(jù)挖掘技術(shù)在進(jìn)行數(shù)據(jù)分析處理過程中所使用的方法有限,一般情況下只能應(yīng)用于分析數(shù)值型的數(shù)據(jù),而且數(shù)據(jù)內(nèi)容形式較為簡單,而且還無法支持文本文件,圖片等無結(jié)構(gòu)和無數(shù)據(jù)形式的數(shù)據(jù)挖掘工作。一般數(shù)據(jù)挖掘技術(shù)通常是要進(jìn)行數(shù)據(jù)和信息的交互,但是在互聯(lián)網(wǎng)中應(yīng)用數(shù)據(jù)挖掘技術(shù)很難讓用戶參與數(shù)據(jù)篩選中,因而工作人員自身的能力以及經(jīng)驗(yàn)對于數(shù)據(jù)挖掘效率有直接的影響,很多應(yīng)用程序內(nèi)容是用戶在應(yīng)用過程中發(fā)現(xiàn)并分析的,因此,要求在互聯(lián)網(wǎng)中應(yīng)用數(shù)據(jù)挖掘技術(shù)挖掘信息時(shí),不但要分析數(shù)字,分析符號的能力,還需要對一些圖片,語言進(jìn)行理解。伴隨知識量信息量的增多,人工分析和處理信息效率會大大降低,而且很容易被新的知識取代,因此在不斷進(jìn)行知識保護(hù)的同時(shí),還要及時(shí)更新計(jì)算方法,當(dāng)前更新知識的方法包括維護(hù)關(guān)聯(lián)準(zhǔn)則的增量算法。除此之外,由于當(dāng)前數(shù)據(jù)挖掘系統(tǒng)還不能廣泛地在眾多的系統(tǒng)平臺上應(yīng)用,而一些常見的應(yīng)用程序也只限于在PC客戶端使用,大多數(shù)是針對大型主機(jī)的,除此之外,還有一些個(gè)別是針對用戶所使用的。
五、小結(jié)
處于互聯(lián)網(wǎng)時(shí)代背景下,人們的生活和工作已經(jīng)離不開互聯(lián)網(wǎng),為了能夠讓用戶在使用互聯(lián)網(wǎng)過程中獲得更好的體驗(yàn),相關(guān)技術(shù)部門應(yīng)當(dāng)對用戶的行為進(jìn)行正確掌握。同時(shí),隨著數(shù)據(jù)管理的優(yōu)化以及檢索技術(shù)的發(fā)展,在未來應(yīng)用數(shù)據(jù)挖掘技術(shù)將能夠更好地為互聯(lián)網(wǎng)和用戶提供優(yōu)質(zhì)服務(wù)。