王曉艷
摘 要 隨著我國信息技術(shù)的不斷發(fā)展,Web挖掘技術(shù)被廣泛應(yīng)用,為此,文章對Web挖掘技術(shù)進行分析,主要從Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web訪問信息挖掘三方面展開論述。
關(guān)鍵詞 Web數(shù)據(jù)挖掘;技術(shù)模型;具體解析
中圖分類號:TP393 文獻標(biāo)識碼:A 文章編號:1671-7597(2014)03-0055-01
Web框架下的數(shù)據(jù)挖掘,主要經(jīng)由對數(shù)據(jù)挖掘類技術(shù)的現(xiàn)實利用,從網(wǎng)絡(luò)供應(yīng)的服務(wù),以及現(xiàn)有的網(wǎng)絡(luò)文檔中,發(fā)覺并提煉信息。數(shù)據(jù)挖掘含有的對象不同,可以將現(xiàn)有的Web挖掘,分為三個類別:Web框架下的內(nèi)容挖掘、Web框架下的信息挖掘、Web帶有的結(jié)構(gòu)挖掘。
1 新穎的內(nèi)容挖掘
伴隨信息技術(shù)延展,Web框架下的數(shù)據(jù)類別也在遞增,從本源層級上來講,主要涵蓋了圖像類、文本類、聲音類、元數(shù)據(jù)類、視頻類等。在不同類別的數(shù)據(jù)以內(nèi)進行挖掘,就構(gòu)造出了多媒體屬性的數(shù)據(jù)挖掘。
1) Web框架下的文本挖掘。數(shù)據(jù)挖掘,應(yīng)指代在很不完備的、數(shù)目偏多的、很含糊的、帶有雜聲的、帶有隨機特性的數(shù)據(jù)內(nèi),將其中潛藏著的各類別信息及關(guān)聯(lián)知識,予以提煉。若數(shù)據(jù)挖掘的目標(biāo)對象,只歸屬于文本,便構(gòu)造出文本屬性的數(shù)據(jù)挖掘。挖掘?qū)ο螅w著半結(jié)構(gòu)類、非結(jié)構(gòu)類、結(jié)構(gòu)化框架下的數(shù)據(jù);而非結(jié)構(gòu)化屬性的數(shù)據(jù),是側(cè)重的挖掘成分。
在IR這一領(lǐng)域中,文檔采納了空間向量模型這一獨有的形式,空間配有的向量,便歸屬于文檔。對文檔含有的特征集,予以提煉時,常常會多遍掃描,而獲取到特征向量,其現(xiàn)有維數(shù)非常高,這就增添了必備的處理時段。所以,在沒能影響到現(xiàn)有匹配結(jié)果及關(guān)聯(lián)分類的根基上,需要對原有的特征子集,予以選取。選取時,先對某個特有函數(shù),創(chuàng)設(shè)構(gòu)造,然后對這一子集中含有的特征進行評判,將評判價值偏高的那些特征,選取出來,歸結(jié)成特征子集。常常見到的評價函數(shù),歸屬于交叉熵等。
對文本類別的數(shù)據(jù)去挖掘時,所接納的模型質(zhì)量類評價方法,和慣用的挖掘方法很近似,分類算法之內(nèi),樸素貝葉斯這一類別的算法,很常見。評判現(xiàn)有的模型質(zhì)量,主要涵蓋著分類帶有的準(zhǔn)確率、分類帶有的正確率、慣用的信息估值。
中文框架下的信息編碼,是偏復(fù)雜的,這一類別的編碼,在Web內(nèi),較為常見的,歸屬于BIG5屬性的編碼、GB類別的碼、HZ類別的碼等。對帶有中文類碼的HTML,采納數(shù)據(jù)挖掘,要對這一類別的編碼標(biāo)準(zhǔn)予以辨識,并更替成帶有統(tǒng)一性的慣用指標(biāo),然后才可挖掘。
2)對Web框架下多媒體挖掘,予以解析。在數(shù)據(jù)挖掘內(nèi),多媒體屬性的挖掘,是一個凸顯出來的挖掘領(lǐng)域,它從多媒體屬性的數(shù)據(jù)庫內(nèi),提煉出潛藏著的知識。多媒體屬性的數(shù)據(jù)挖掘,帶有廣義性,涵蓋著對聲音、多樣的視頻以及各類別圖像的挖掘,同時涵蓋著文本類數(shù)據(jù)挖掘。
進行多媒體屬性的數(shù)據(jù)挖掘,要先凝練得來必備的信息,然后對慣用的挖掘方式,予以挖掘。對網(wǎng)頁中潛藏著的多媒體類別數(shù)據(jù),凝練屬性時,要對HTML類別的標(biāo)簽信息充分利用。
2 Web框架下的結(jié)構(gòu)挖掘
這種構(gòu)架,被當(dāng)成Web,因為它沒能由HTML類別的頁面,單純堆積而構(gòu)造出來,而是在Web含有的頁面間,有著各類別的關(guān)系,而能在現(xiàn)有的Web之間,架設(shè)出橋梁,因此歸屬于超鏈。超鏈能對現(xiàn)有的Web類頁面關(guān)聯(lián),選取出適宜的表征形式,如引用類的關(guān)系和繼承類的關(guān)系等。但是對于現(xiàn)有的Web框架下搜索工具,不會顧及到Web結(jié)構(gòu),仍然把這種Web,當(dāng)成獨立框架下文檔的集中。Web現(xiàn)有的結(jié)構(gòu)挖掘,是經(jīng)由對引用解析類技術(shù)與服務(wù)類技術(shù)的可行利用,對Web框架下的結(jié)構(gòu)銜接進行分析,將其中可用的所有模式,予以提煉。進行這一類別的結(jié)構(gòu)挖掘時,其潛藏著的結(jié)構(gòu)對象,既可以是現(xiàn)有的Web頁面構(gòu)架,也可以是現(xiàn)有Web頁面搭配的超鏈。前者含有針對性,帶有特定的應(yīng)用層級內(nèi)目的,而后者存在著普遍價值。
Web框架下的結(jié)構(gòu)挖掘,把Web當(dāng)成了獨有的有向圖,Web含有的頁面,當(dāng)成頂點,而圖含有的邊,歸屬于超鏈。然后經(jīng)由對圖論的現(xiàn)實利用,對Web框架下拓撲結(jié)構(gòu)去解析。常常見到的算法,歸屬于發(fā)覺相似頁面、發(fā)覺虛擬社區(qū)、分出頁面類別、發(fā)覺地理位置。結(jié)構(gòu)挖掘算法,通??煞殖鰞深悾活悮w屬于查詢無關(guān),一類歸屬于查詢相關(guān)。采用查詢相關(guān)這一算法時,需要對各類別的查詢,進行超鏈解析,獲取到一次值的精準(zhǔn)指派;接納查詢獨立框架下的算法時,要對各類別的文檔,去進行一次值的精準(zhǔn)指派。
3 Web框架下的信息挖掘
對現(xiàn)有的交易及關(guān)聯(lián)商務(wù),都是經(jīng)由Web去予以落實。因此,在各類別的服務(wù)器方,會產(chǎn)出數(shù)目偏多的數(shù)據(jù),它們由服務(wù)器所產(chǎn)出,并存留在服務(wù)器配有的日志文件內(nèi),另外,還會產(chǎn)出很多數(shù)目的用戶信息,如注冊類的信息。對這些數(shù)據(jù)解析以后,可以讓現(xiàn)有的商家,更好地明晰客戶信息,從而對現(xiàn)有市場以及現(xiàn)有商品,進行更精準(zhǔn)的決策;對于供應(yīng)網(wǎng)絡(luò)類服務(wù)的人員,可以整合起總括的站點,以便供應(yīng)出帶有個性化的新服務(wù)。
Web框架下信息挖掘,帶有如下特性:當(dāng)用戶訪問到既有網(wǎng)絡(luò),可對用戶現(xiàn)有的活動及關(guān)聯(lián)行為,予以推測。挖掘方法可分出以下兩類:
原始數(shù)據(jù),經(jīng)由網(wǎng)絡(luò)服務(wù)器搭配的日志文件,選用獨有的處理方法,對其進行歸整,然后再去挖掘。
把網(wǎng)絡(luò)服務(wù)類日志,現(xiàn)有的文件,經(jīng)由圖表去展示,然后去挖掘。通常情形之下,只要對原始屬性的數(shù)據(jù),予以處理后,便可對舊有的數(shù)據(jù)挖掘,予以采納,以便獲取到挖掘目的。
數(shù)據(jù)清除流程終結(jié)以后,制備出事務(wù)標(biāo)識類模塊,對登錄項含有的日志,分出邏輯類別。采用這樣的事務(wù)標(biāo)識,是為了讓各類別的用戶,都能產(chǎn)出帶有一定含義的聚類。因此,這種事務(wù)標(biāo)識含有的目的在于,將總括的大事務(wù)進行歸整,以便分出幾個分支屬性的小事務(wù)。在這一過程中,可以分解出多樣步驟,或者是接納合并擴展這樣的形式,從而產(chǎn)出最適宜的事務(wù)。
4 結(jié)束語
Web框架下的數(shù)據(jù)挖掘,是新產(chǎn)出的技術(shù),關(guān)涉到各類別的多樣技術(shù),正處于初始時段中。國內(nèi)對這一層級進行的研究,數(shù)目還是偏少,對于Web含有的中文信息的關(guān)聯(lián)挖掘技術(shù),沒能制備出完善方案。但是,對Web框架下數(shù)據(jù)挖掘技術(shù)現(xiàn)有的研究,具有明顯的實用價值和商業(yè)價值。
參考文獻
[1]薛鴻民.Web數(shù)據(jù)挖掘技術(shù)研究[J].現(xiàn)代電子技術(shù),2006(08).
[2]李亞哲,李雅莉.Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)系統(tǒng)中的應(yīng)用[J].硅谷,2011(01).
[3]趙志升,羅德林,李海英.數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J].河北北方學(xué)院學(xué)報(自然科學(xué)版),2006(06).endprint