• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于行為模式進(jìn)行網(wǎng)絡(luò)搜索信息過(guò)濾

      2010-05-11 06:01:44田學(xué)志
      關(guān)鍵詞:模式識(shí)別網(wǎng)頁(yè)文檔

      賀 維 劉 彬 田學(xué)志

      (1、黑龍江農(nóng)業(yè)工程職業(yè)學(xué)院,黑龍江 哈爾濱 150000 2、泰山學(xué)院,山東 泰安 271000)

      引言

      隨著互聯(lián)網(wǎng)普及,網(wǎng)絡(luò)搜索成為一種最快捷、最有效的信息獲得手段,用戶可以通過(guò)登錄網(wǎng)絡(luò)搜索平臺(tái),鍵入查詢關(guān)鍵字搜索和收集需要的信息。在享受網(wǎng)絡(luò)搜索技術(shù)便利的同時(shí),搜索結(jié)果中的大量垃圾信息也給用戶帶來(lái)極大的不便,用戶經(jīng)常需要大量點(diǎn)擊搜索結(jié)果來(lái)獲得有效信息[1]。

      利用行為模式技術(shù),搜索平臺(tái)通過(guò)對(duì)垃圾信息統(tǒng)計(jì)出的不同行為特征,對(duì)搜索結(jié)果信息進(jìn)行過(guò)濾,來(lái)增強(qiáng)信息搜索的準(zhǔn)確率。

      1 網(wǎng)絡(luò)搜索引擎技術(shù)

      1.1 搜索器

      衡量搜索引擎的一條很重要的標(biāo)準(zhǔn),就是搜索到信息的海量性。為了實(shí)現(xiàn)這一條標(biāo)準(zhǔn),通常需要一種強(qiáng)大的搜索器作為支撐,一般稱為為“網(wǎng)絡(luò)蜘蛛”。

      “網(wǎng)絡(luò)蜘蛛”即Web Spider,是通過(guò)網(wǎng)頁(yè)的鏈接地址來(lái)尋找網(wǎng)頁(yè),從網(wǎng)站的某一個(gè)頁(yè)面開始,讀取網(wǎng)頁(yè)的內(nèi)容,找到在網(wǎng)頁(yè)中的其它鏈接地址,然后通過(guò)這些鏈接地址尋找下一個(gè)網(wǎng)頁(yè),這樣循環(huán)下去,直到把這個(gè)網(wǎng)站所有的網(wǎng)頁(yè)都抓取完為止。在抓取網(wǎng)頁(yè)的時(shí)候,“網(wǎng)絡(luò)蜘蛛”一般有兩種策略深度優(yōu)先、廣度優(yōu)先。通過(guò)內(nèi)容提取技術(shù)獲取網(wǎng)頁(yè)上文本信息[2]。

      1.2 搜索結(jié)果中垃圾信息

      在用戶通過(guò)定義的關(guān)鍵字實(shí)施信息搜索時(shí),經(jīng)常會(huì)獲得大量的搜索結(jié)果,從這些海量信息中提取有效信息經(jīng)常會(huì)浪費(fèi)用戶大量的時(shí)間和精力。對(duì)于用戶來(lái)說(shuō),沒(méi)有利用價(jià)值的信息可以認(rèn)為是無(wú)效搜索信息,而在這其中還存在很大一部分由于某些網(wǎng)站為增加點(diǎn)擊率而故意篡改信息產(chǎn)生的垃圾信息。

      搜索引擎Inktomi認(rèn)為是垃圾信息的主要內(nèi)容為:隱藏的、欺騙性的、以及與網(wǎng)頁(yè)內(nèi)容不相關(guān)的文字;META標(biāo)簽中的內(nèi)容并非網(wǎng)頁(yè)內(nèi)容的真實(shí)描述;沒(méi)有明確的目的有意設(shè)計(jì)重新指向的URL;利用程序使得在搜索結(jié)果中出現(xiàn)大量同樣的網(wǎng)頁(yè);有意設(shè)置讓人誤解的鏈接;并不反映網(wǎng)站真實(shí)內(nèi)容的入門網(wǎng)頁(yè)或者隱藏的網(wǎng)頁(yè);自動(dòng)產(chǎn)生大量無(wú)關(guān)的垃圾鏈接。

      2 行為模式識(shí)別技術(shù)實(shí)施信息過(guò)濾

      2.1 行為模式識(shí)別技術(shù)

      行為模式是從大量實(shí)際行為中概括出來(lái)作為行為的理論抽象、基本框架或標(biāo)準(zhǔn)[3]。行為模式識(shí)別技術(shù)的思想是通過(guò)基于對(duì)大量信息樣本進(jìn)行的統(tǒng)計(jì)、分析和計(jì)算,建立行為模式數(shù)學(xué)模型,利用這種具有極高行為特征的模型,對(duì)新的信息進(jìn)行分析判定[4]。

      2.2 數(shù)據(jù)挖掘

      數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)中挖掘出可能有潛在價(jià)值的信息的技術(shù)。這些信息是可能有潛在價(jià)值的,支持決策,可以為企業(yè)帶來(lái)利益,或者為科學(xué)研究尋找突破口[5]。

      對(duì)于垃圾信息行為模式進(jìn)行信息挖掘,主要是針對(duì)相關(guān)WEB信息的數(shù)據(jù)挖掘。主要包含WEB內(nèi)容挖掘,WEB結(jié)構(gòu)挖掘,WEB用法挖掘。

      WEB內(nèi)容挖掘:針對(duì)垃圾信息WEB的內(nèi)容、數(shù)據(jù)、文檔發(fā)現(xiàn)共同信息,從資源查詢角度挖掘非結(jié)構(gòu)化的文檔。

      WEB結(jié)構(gòu)挖掘:Web結(jié)構(gòu)挖掘的對(duì)象是垃圾信息WEB的超連接,即對(duì)Web文檔的結(jié)構(gòu)進(jìn)行挖掘。對(duì)于給定的Web文檔集合,應(yīng)該能夠通過(guò)算法發(fā)現(xiàn)他們之間連接情況的有用信息,文檔之間的超連接反映了文檔之間的包含、引用或者從屬關(guān)系,引用文檔對(duì)被引用文檔的說(shuō)明往往更客觀、更概括、更準(zhǔn)確。

      WEB用法挖掘:Web使用記錄挖掘,對(duì)垃圾信息WEB使用記錄數(shù)據(jù)除了服務(wù)器的日志記錄外還包括代理服務(wù)器日志、瀏覽器端日志、注冊(cè)信息、用戶會(huì)話信息、Cookie中的信息、用戶查詢、鼠標(biāo)點(diǎn)擊流等一切用戶與站點(diǎn)之間可能的交互記錄。來(lái)發(fā)現(xiàn)用戶訪問(wèn)Web頁(yè)面的模式,分析垃圾信息WEB的規(guī)律。

      2.3 主元分析

      它是一種對(duì)數(shù)據(jù)進(jìn)行分析的技術(shù),最重要的應(yīng)用是對(duì)原有數(shù)據(jù)進(jìn)行簡(jiǎn)化。正如它的名字——主元分析,這種方法可以有效的找出數(shù)據(jù)中最“主要”的元素和結(jié)構(gòu),去除噪音和冗余,將原有的復(fù)雜數(shù)據(jù)降維,揭示隱藏在復(fù)雜數(shù)據(jù)背后的簡(jiǎn)單結(jié)構(gòu)。它的優(yōu)點(diǎn)是簡(jiǎn)單,而且無(wú)參數(shù)限制,可以方便的應(yīng)用與各個(gè)場(chǎng)合[6]。利用主元分析技術(shù)對(duì)于垃圾信息的不同行為模式,利用應(yīng)用線形代數(shù)知識(shí)進(jìn)行科學(xué)求解,最大程度去掉冗余和干擾,找到垃圾信息的主要行為模式。

      2.4 基于行為模式的垃圾過(guò)濾模型

      通過(guò)行為模式識(shí)別技術(shù)對(duì)網(wǎng)絡(luò)搜索結(jié)果中的垃圾信息進(jìn)行過(guò)濾,其思想是對(duì)大量垃圾信息樣本進(jìn)行分析,建立垃圾信息行為特征模型,利用這個(gè)特征模型對(duì)搜索的結(jié)果信息進(jìn)行分析、判斷,過(guò)濾其中的垃圾信息。整個(gè)垃圾信息過(guò)濾模型,基于信息——知識(shí)——智能理論指導(dǎo),采用數(shù)據(jù)挖掘方法提取垃圾信息的行為規(guī)則,從而建立垃圾信息過(guò)濾模型。信息表示事物狀態(tài)變化方式,知識(shí)表示事物狀態(tài)變化規(guī)律,智能表示根據(jù)已知事物變化規(guī)律指定對(duì)未知事物檢測(cè)的規(guī)則。

      智能模型建立步驟:

      首先大量收集不同搜索結(jié)果中包含的垃圾信息;根據(jù)Inktomi對(duì)垃圾信息定義對(duì)搜索的信息進(jìn)行分類整理,并進(jìn)行垃圾信息預(yù)處理,通過(guò)數(shù)據(jù)格式和內(nèi)容調(diào)整使數(shù)據(jù)更符合數(shù)據(jù)挖掘的需要;根據(jù)數(shù)據(jù)挖掘算法對(duì)垃圾信息行為模式進(jìn)行挖掘;利用主元分析理論,對(duì)垃圾信息的行為特征進(jìn)行計(jì)算分析,找到數(shù)據(jù)中最主要的元素和結(jié)構(gòu);將垃圾信息的主要行為進(jìn)行知識(shí)表示;從生成的知識(shí)中生成求解問(wèn)題的策略和規(guī)則;利用生成的策略和規(guī)則建立垃圾信息過(guò)濾模型,從而解決所面對(duì)的實(shí)際問(wèn)題。

      建立模型需要解決的關(guān)鍵問(wèn)題:

      垃圾信息的收集是否全面,能否采集到準(zhǔn)確,真實(shí)的數(shù)據(jù)來(lái)是研究基礎(chǔ);垃圾信息中得到的數(shù)據(jù)適應(yīng)性,是否能對(duì)這一類垃圾信息真實(shí)全面反應(yīng);對(duì)垃圾信息的行為模式進(jìn)行數(shù)據(jù)挖掘時(shí)采用的算法;提取垃圾信息各種行為中的主要元素的方法;對(duì)垃圾信息的行為模式特征的分析,產(chǎn)生垃圾信息過(guò)濾的規(guī)則集。

      3 信息過(guò)濾系統(tǒng)

      如圖1所示,為信息過(guò)濾系統(tǒng)結(jié)構(gòu)圖,在原有的網(wǎng)絡(luò)搜索引擎系統(tǒng)中,通過(guò)將文本索引中包含的索引信息發(fā)送給過(guò)濾服務(wù)器,通過(guò)索引信息中鏈接查詢相關(guān)WEB,分析該WEB的行為特征,與垃圾信息行為特征庫(kù)中不同類型的垃圾信息的行為特征進(jìn)行比較,清理掉被判定為垃圾信息的搜索結(jié)果信息,將正常行為信息存入索引數(shù)據(jù)庫(kù)。

      圖1 信息過(guò)濾系統(tǒng)

      其中,過(guò)濾服務(wù)器需要完成4方面的工作,包括信息采樣、行為解析、特征比較、信息過(guò)濾。信息采樣:提取文本索引中的信息,包括鏈接,文本信息等信息。行為解析:對(duì)不同信息進(jìn)行分析,提取主要行為特征。特征比較:將不同WEB中信息的行為特征與垃圾信息的行為特征進(jìn)行比較。信息過(guò)濾:過(guò)濾到與垃圾信息的行為特征相同的信息。

      4 信息過(guò)濾系統(tǒng)的特點(diǎn)

      提高搜索的準(zhǔn)確性:由于垃圾信息和正常信息在特征上存在很多差別,利用行為模式識(shí)別技術(shù)實(shí)現(xiàn)信息過(guò)濾可提高信息搜索的準(zhǔn)確性。系統(tǒng)部署方便:對(duì)于文本索引中的信息,進(jìn)行信息過(guò)濾,不改變?cè)芯W(wǎng)絡(luò)搜索引擎結(jié)構(gòu),相對(duì)獨(dú)立,易于升級(jí)維護(hù)。搜索結(jié)果相對(duì)公平:由于過(guò)濾系統(tǒng)相對(duì)獨(dú)立,可由第三方開發(fā)商設(shè)計(jì)指定,避免網(wǎng)絡(luò)搜索提供商出于自身利益等考慮而為用戶提供的搜索結(jié)果。節(jié)省用戶信息搜索時(shí)間:由于垃圾信息減少,節(jié)省了用戶需要大量打開不同鏈接查詢信息的時(shí)間。先進(jìn)的過(guò)濾技術(shù):傳統(tǒng)采用內(nèi)容關(guān)鍵字過(guò)濾時(shí),由于某些網(wǎng)站隨意修改關(guān)鍵詞內(nèi)容,這樣原有的詞庫(kù)不能找到匹配的關(guān)鍵詞,從而無(wú)法過(guò)濾垃圾信息,而行為模式識(shí)別技術(shù)從垃圾信息的特征行為進(jìn)行判定,即使進(jìn)行了關(guān)鍵詞內(nèi)容修改仍可以判定垃圾信息。

      5 總結(jié)

      搜索結(jié)果中的垃圾信息,對(duì)于用戶和搜索引擎自身都帶來(lái)了極大的負(fù)面影響,傳統(tǒng)的信息過(guò)濾技術(shù)已經(jīng)不能滿足對(duì)垃圾信息的過(guò)濾,通過(guò)先進(jìn)的行為模式識(shí)別技術(shù)來(lái)設(shè)計(jì)過(guò)濾系統(tǒng),可以增加垃圾信息過(guò)濾的準(zhǔn)確性,提高搜索結(jié)果的正確性,從而滿足用戶對(duì)信息獲得的要求。

      [1]黃曉斌,邱明輝,網(wǎng)絡(luò)信息過(guò)濾系統(tǒng)研究,情報(bào)學(xué)報(bào),2004.6(23).

      [2]金益,基于網(wǎng)絡(luò)蜘蛛原理的搜索引擎技術(shù)剖析,電腦學(xué)習(xí),2007.10(5).

      [3]J.Michael Reed,Recognition Behavior Based Problems in Species Conservation,ANN.ZOOL.FENNICL,2004.10.

      [4]Xuan Zhang, Jianyi Liu, Yaolong Zhang,Cong Wang,Spam Behavior Recognition Based on Session Layer Data Mining,F(xiàn)uzzy Systems and Knowledge Discovery,2006.10.

      [5]Andy Tseng Ilias Petrounias,A Complete Framwork for Web Mining,IEEE,2003.7.

      [6]Lan Jolliffe,Principal Component Analysis,Encyclopedia of Statistics in Behavioral Science 2005.10.

      猜你喜歡
      模式識(shí)別網(wǎng)頁(yè)文檔
      有人一聲不吭向你扔了個(gè)文檔
      基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
      電子制作(2018年10期)2018-08-04 03:24:38
      基于URL和網(wǎng)頁(yè)類型的網(wǎng)頁(yè)信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      淺談模式識(shí)別在圖像識(shí)別中的應(yīng)用
      第四屆亞洲模式識(shí)別會(huì)議
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      第3屆亞洲模式識(shí)別會(huì)議
      10個(gè)必知的網(wǎng)頁(yè)設(shè)計(jì)術(shù)語(yǔ)
      新干县| 漾濞| 始兴县| 大同县| 忻城县| 竹山县| 宕昌县| 启东市| 舒兰市| 望谟县| 将乐县| 长沙市| 门头沟区| 郯城县| 新绛县| 诏安县| 鄂托克前旗| 名山县| 芜湖市| 马龙县| 彭州市| 安图县| 西乡县| 江孜县| 新竹县| 长春市| 玛多县| 海宁市| 孝义市| 盖州市| 两当县| 香河县| 威海市| 大姚县| 临桂县| 枣阳市| 仙游县| 嘉峪关市| 三门峡市| 上饶市| 东安县|