基于行為模式進(jìn)行網(wǎng)絡(luò)搜索信息過(guò)濾

2010-05-11 06:01:44田學(xué)志

中國(guó)新技術(shù)新產(chǎn)品 2010年17期

賀維劉彬田學(xué)志

（1、黑龍江農(nóng)業(yè)工程職業(yè)學(xué)院，黑龍江哈爾濱 150000 2、泰山學(xué)院，山東泰安 271000）

引言

隨著互聯(lián)網(wǎng)普及，網(wǎng)絡(luò)搜索成為一種最快捷、最有效的信息獲得手段，用戶可以通過(guò)登錄網(wǎng)絡(luò)搜索平臺(tái)，鍵入查詢關(guān)鍵字搜索和收集需要的信息。在享受網(wǎng)絡(luò)搜索技術(shù)便利的同時(shí)，搜索結(jié)果中的大量垃圾信息也給用戶帶來(lái)極大的不便，用戶經(jīng)常需要大量點(diǎn)擊搜索結(jié)果來(lái)獲得有效信息[1]。

利用行為模式技術(shù)，搜索平臺(tái)通過(guò)對(duì)垃圾信息統(tǒng)計(jì)出的不同行為特征，對(duì)搜索結(jié)果信息進(jìn)行過(guò)濾，來(lái)增強(qiáng)信息搜索的準(zhǔn)確率。

1 網(wǎng)絡(luò)搜索引擎技術(shù)

1.1 搜索器

衡量搜索引擎的一條很重要的標(biāo)準(zhǔn)，就是搜索到信息的海量性。為了實(shí)現(xiàn)這一條標(biāo)準(zhǔn)，通常需要一種強(qiáng)大的搜索器作為支撐，一般稱為為“網(wǎng)絡(luò)蜘蛛”。

“網(wǎng)絡(luò)蜘蛛”即Web Spider，是通過(guò)網(wǎng)頁(yè)的鏈接地址來(lái)尋找網(wǎng)頁(yè)，從網(wǎng)站的某一個(gè)頁(yè)面開始，讀取網(wǎng)頁(yè)的內(nèi)容，找到在網(wǎng)頁(yè)中的其它鏈接地址，然后通過(guò)這些鏈接地址尋找下一個(gè)網(wǎng)頁(yè)，這樣循環(huán)下去，直到把這個(gè)網(wǎng)站所有的網(wǎng)頁(yè)都抓取完為止。在抓取網(wǎng)頁(yè)的時(shí)候，“網(wǎng)絡(luò)蜘蛛”一般有兩種策略深度優(yōu)先、廣度優(yōu)先。通過(guò)內(nèi)容提取技術(shù)獲取網(wǎng)頁(yè)上文本信息[2]。

1.2 搜索結(jié)果中垃圾信息

在用戶通過(guò)定義的關(guān)鍵字實(shí)施信息搜索時(shí)，經(jīng)常會(huì)獲得大量的搜索結(jié)果，從這些海量信息中提取有效信息經(jīng)常會(huì)浪費(fèi)用戶大量的時(shí)間和精力。對(duì)于用戶來(lái)說(shuō)，沒(méi)有利用價(jià)值的信息可以認(rèn)為是無(wú)效搜索信息，而在這其中還存在很大一部分由于某些網(wǎng)站為增加點(diǎn)擊率而故意篡改信息產(chǎn)生的垃圾信息。

搜索引擎Inktomi認(rèn)為是垃圾信息的主要內(nèi)容為:隱藏的、欺騙性的、以及與網(wǎng)頁(yè)內(nèi)容不相關(guān)的文字；META標(biāo)簽中的內(nèi)容并非網(wǎng)頁(yè)內(nèi)容的真實(shí)描述；沒(méi)有明確的目的有意設(shè)計(jì)重新指向的URL；利用程序使得在搜索結(jié)果中出現(xiàn)大量同樣的網(wǎng)頁(yè)；有意設(shè)置讓人誤解的鏈接；并不反映網(wǎng)站真實(shí)內(nèi)容的入門網(wǎng)頁(yè)或者隱藏的網(wǎng)頁(yè)；自動(dòng)產(chǎn)生大量無(wú)關(guān)的垃圾鏈接。

2 行為模式識(shí)別技術(shù)實(shí)施信息過(guò)濾

2.1 行為模式識(shí)別技術(shù)

行為模式是從大量實(shí)際行為中概括出來(lái)作為行為的理論抽象、基本框架或標(biāo)準(zhǔn)[3]。行為模式識(shí)別技術(shù)的思想是通過(guò)基于對(duì)大量信息樣本進(jìn)行的統(tǒng)計(jì)、分析和計(jì)算，建立行為模式數(shù)學(xué)模型，利用這種具有極高行為特征的模型，對(duì)新的信息進(jìn)行分析判定[4]。

2.2 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)中挖掘出可能有潛在價(jià)值的信息的技術(shù)。這些信息是可能有潛在價(jià)值的，支持決策，可以為企業(yè)帶來(lái)利益，或者為科學(xué)研究尋找突破口[5]。

對(duì)于垃圾信息行為模式進(jìn)行信息挖掘，主要是針對(duì)相關(guān)WEB信息的數(shù)據(jù)挖掘。主要包含WEB內(nèi)容挖掘，WEB結(jié)構(gòu)挖掘，WEB用法挖掘。

WEB內(nèi)容挖掘:針對(duì)垃圾信息WEB的內(nèi)容、數(shù)據(jù)、文檔發(fā)現(xiàn)共同信息，從資源查詢角度挖掘非結(jié)構(gòu)化的文檔。

WEB結(jié)構(gòu)挖掘:Web結(jié)構(gòu)挖掘的對(duì)象是垃圾信息WEB的超連接，即對(duì)Web文檔的結(jié)構(gòu)進(jìn)行挖掘。對(duì)于給定的Web文檔集合，應(yīng)該能夠通過(guò)算法發(fā)現(xiàn)他們之間連接情況的有用信息，文檔之間的超連接反映了文檔之間的包含、引用或者從屬關(guān)系，引用文檔對(duì)被引用文檔的說(shuō)明往往更客觀、更概括、更準(zhǔn)確。

WEB用法挖掘:Web使用記錄挖掘，對(duì)垃圾信息WEB使用記錄數(shù)據(jù)除了服務(wù)器的日志記錄外還包括代理服務(wù)器日志、瀏覽器端日志、注冊(cè)信息、用戶會(huì)話信息、Cookie中的信息、用戶查詢、鼠標(biāo)點(diǎn)擊流等一切用戶與站點(diǎn)之間可能的交互記錄。來(lái)發(fā)現(xiàn)用戶訪問(wèn)Web頁(yè)面的模式，分析垃圾信息WEB的規(guī)律。

2.3 主元分析

它是一種對(duì)數(shù)據(jù)進(jìn)行分析的技術(shù)，最重要的應(yīng)用是對(duì)原有數(shù)據(jù)進(jìn)行簡(jiǎn)化。正如它的名字——主元分析，這種方法可以有效的找出數(shù)據(jù)中最“主要”的元素和結(jié)構(gòu)，去除噪音和冗余，將原有的復(fù)雜數(shù)據(jù)降維，揭示隱藏在復(fù)雜數(shù)據(jù)背后的簡(jiǎn)單結(jié)構(gòu)。它的優(yōu)點(diǎn)是簡(jiǎn)單，而且無(wú)參數(shù)限制，可以方便的應(yīng)用與各個(gè)場(chǎng)合[6]。利用主元分析技術(shù)對(duì)于垃圾信息的不同行為模式，利用應(yīng)用線形代數(shù)知識(shí)進(jìn)行科學(xué)求解，最大程度去掉冗余和干擾，找到垃圾信息的主要行為模式。

2.4 基于行為模式的垃圾過(guò)濾模型

通過(guò)行為模式識(shí)別技術(shù)對(duì)網(wǎng)絡(luò)搜索結(jié)果中的垃圾信息進(jìn)行過(guò)濾，其思想是對(duì)大量垃圾信息樣本進(jìn)行分析，建立垃圾信息行為特征模型，利用這個(gè)特征模型對(duì)搜索的結(jié)果信息進(jìn)行分析、判斷，過(guò)濾其中的垃圾信息。整個(gè)垃圾信息過(guò)濾模型，基于信息——知識(shí)——智能理論指導(dǎo)，采用數(shù)據(jù)挖掘方法提取垃圾信息的行為規(guī)則，從而建立垃圾信息過(guò)濾模型。信息表示事物狀態(tài)變化方式，知識(shí)表示事物狀態(tài)變化規(guī)律，智能表示根據(jù)已知事物變化規(guī)律指定對(duì)未知事物檢測(cè)的規(guī)則。

智能模型建立步驟:

首先大量收集不同搜索結(jié)果中包含的垃圾信息；根據(jù)Inktomi對(duì)垃圾信息定義對(duì)搜索的信息進(jìn)行分類整理，并進(jìn)行垃圾信息預(yù)處理，通過(guò)數(shù)據(jù)格式和內(nèi)容調(diào)整使數(shù)據(jù)更符合數(shù)據(jù)挖掘的需要；根據(jù)數(shù)據(jù)挖掘算法對(duì)垃圾信息行為模式進(jìn)行挖掘；利用主元分析理論，對(duì)垃圾信息的行為特征進(jìn)行計(jì)算分析，找到數(shù)據(jù)中最主要的元素和結(jié)構(gòu)；將垃圾信息的主要行為進(jìn)行知識(shí)表示；從生成的知識(shí)中生成求解問(wèn)題的策略和規(guī)則；利用生成的策略和規(guī)則建立垃圾信息過(guò)濾模型，從而解決所面對(duì)的實(shí)際問(wèn)題。

建立模型需要解決的關(guān)鍵問(wèn)題:

垃圾信息的收集是否全面，能否采集到準(zhǔn)確，真實(shí)的數(shù)據(jù)來(lái)是研究基礎(chǔ)；垃圾信息中得到的數(shù)據(jù)適應(yīng)性，是否能對(duì)這一類垃圾信息真實(shí)全面反應(yīng)；對(duì)垃圾信息的行為模式進(jìn)行數(shù)據(jù)挖掘時(shí)采用的算法；提取垃圾信息各種行為中的主要元素的方法；對(duì)垃圾信息的行為模式特征的分析，產(chǎn)生垃圾信息過(guò)濾的規(guī)則集。

3 信息過(guò)濾系統(tǒng)

如圖1所示，為信息過(guò)濾系統(tǒng)結(jié)構(gòu)圖，在原有的網(wǎng)絡(luò)搜索引擎系統(tǒng)中，通過(guò)將文本索引中包含的索引信息發(fā)送給過(guò)濾服務(wù)器，通過(guò)索引信息中鏈接查詢相關(guān)WEB，分析該WEB的行為特征，與垃圾信息行為特征庫(kù)中不同類型的垃圾信息的行為特征進(jìn)行比較，清理掉被判定為垃圾信息的搜索結(jié)果信息，將正常行為信息存入索引數(shù)據(jù)庫(kù)。

圖1 信息過(guò)濾系統(tǒng)

其中，過(guò)濾服務(wù)器需要完成4方面的工作，包括信息采樣、行為解析、特征比較、信息過(guò)濾。信息采樣:提取文本索引中的信息，包括鏈接，文本信息等信息。行為解析:對(duì)不同信息進(jìn)行分析，提取主要行為特征。特征比較:將不同WEB中信息的行為特征與垃圾信息的行為特征進(jìn)行比較。信息過(guò)濾:過(guò)濾到與垃圾信息的行為特征相同的信息。

4 信息過(guò)濾系統(tǒng)的特點(diǎn)

提高搜索的準(zhǔn)確性:由于垃圾信息和正常信息在特征上存在很多差別，利用行為模式識(shí)別技術(shù)實(shí)現(xiàn)信息過(guò)濾可提高信息搜索的準(zhǔn)確性。系統(tǒng)部署方便:對(duì)于文本索引中的信息，進(jìn)行信息過(guò)濾，不改變?cè)芯W(wǎng)絡(luò)搜索引擎結(jié)構(gòu)，相對(duì)獨(dú)立，易于升級(jí)維護(hù)。搜索結(jié)果相對(duì)公平:由于過(guò)濾系統(tǒng)相對(duì)獨(dú)立，可由第三方開發(fā)商設(shè)計(jì)指定，避免網(wǎng)絡(luò)搜索提供商出于自身利益等考慮而為用戶提供的搜索結(jié)果。節(jié)省用戶信息搜索時(shí)間:由于垃圾信息減少，節(jié)省了用戶需要大量打開不同鏈接查詢信息的時(shí)間。先進(jìn)的過(guò)濾技術(shù):傳統(tǒng)采用內(nèi)容關(guān)鍵字過(guò)濾時(shí)，由于某些網(wǎng)站隨意修改關(guān)鍵詞內(nèi)容，這樣原有的詞庫(kù)不能找到匹配的關(guān)鍵詞，從而無(wú)法過(guò)濾垃圾信息，而行為模式識(shí)別技術(shù)從垃圾信息的特征行為進(jìn)行判定，即使進(jìn)行了關(guān)鍵詞內(nèi)容修改仍可以判定垃圾信息。

5 總結(jié)

搜索結(jié)果中的垃圾信息，對(duì)于用戶和搜索引擎自身都帶來(lái)了極大的負(fù)面影響，傳統(tǒng)的信息過(guò)濾技術(shù)已經(jīng)不能滿足對(duì)垃圾信息的過(guò)濾，通過(guò)先進(jìn)的行為模式識(shí)別技術(shù)來(lái)設(shè)計(jì)過(guò)濾系統(tǒng)，可以增加垃圾信息過(guò)濾的準(zhǔn)確性，提高搜索結(jié)果的正確性，從而滿足用戶對(duì)信息獲得的要求。

[1]黃曉斌，邱明輝，網(wǎng)絡(luò)信息過(guò)濾系統(tǒng)研究，情報(bào)學(xué)報(bào)，2004.6(23).

[2]金益，基于網(wǎng)絡(luò)蜘蛛原理的搜索引擎技術(shù)剖析，電腦學(xué)習(xí)，2007.10(5).

[3]J.Michael Reed，Recognition Behavior Based Problems in Species Conservation，ANN.ZOOL.FENNICL，2004.10.

[4]Xuan Zhang， Jianyi Liu， Yaolong Zhang，Cong Wang，Spam Behavior Recognition Based on Session Layer Data Mining，F(xiàn)uzzy Systems and Knowledge Discovery，2006.10.

[5]Andy Tseng Ilias Petrounias，A Complete Framwork for Web Mining，IEEE，2003.7.

[6]Lan Jolliffe，Principal Component Analysis，Encyclopedia of Statistics in Behavioral Science 2005.10.