• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      爬蟲技術(shù)在WAP網(wǎng)站內(nèi)容監(jiān)測中的應(yīng)用

      2010-04-17 01:52:10鄒一心范海平
      電信科學(xué) 2010年1期
      關(guān)鍵詞:爬蟲管理器違規(guī)

      鄒一心,范海平

      (1.中國電信上海研究院 上海 200122;2.北京微智信業(yè)科技有限公司 北京 100080)

      爬蟲技術(shù)在WAP網(wǎng)站內(nèi)容監(jiān)測中的應(yīng)用

      鄒一心1,范海平2

      (1.中國電信上海研究院 上海 200122;2.北京微智信業(yè)科技有限公司 北京 100080)

      本文提出了一種WAP網(wǎng)站內(nèi)容監(jiān)測的網(wǎng)絡(luò)爬蟲系統(tǒng),該系統(tǒng)可以自動遍歷WAP網(wǎng)站,并且對網(wǎng)頁進行規(guī)范性檢查,網(wǎng)頁內(nèi)容進行違規(guī)檢查。

      WAP網(wǎng)站;內(nèi)容監(jiān)測;網(wǎng)絡(luò)爬蟲;WML

      1 引言

      為了規(guī)范WAP服務(wù)提供商(SP)的行為和業(yè)務(wù)內(nèi)容,確保增值業(yè)務(wù)的服務(wù)質(zhì)量,為手機用戶提供一個安全、監(jiān)控的業(yè)務(wù)環(huán)境,需要對WAP網(wǎng)站的內(nèi)容和業(yè)務(wù)邏輯進行自動監(jiān)測和核查。如果僅依靠人工手動的檢查和審核WAP網(wǎng)站,不僅檢查的成本高而且效率低下。本文提出了一種WAP網(wǎng)站內(nèi)容監(jiān)測的網(wǎng)絡(luò)爬蟲系統(tǒng),通過該系統(tǒng)可以自動遍歷整個WAP網(wǎng)站,下載每個WAP網(wǎng)頁,并且進行相應(yīng)的網(wǎng)頁規(guī)范性檢查和內(nèi)容違規(guī)檢查,當發(fā)現(xiàn)網(wǎng)頁不規(guī)范或者含有違規(guī)內(nèi)容的時候,可以把錯誤和違規(guī)記錄到數(shù)據(jù)庫中,審查人員可以通過內(nèi)容監(jiān)測平臺查看檢查結(jié)果,及時通知SP對其WAP網(wǎng)站進行整改。

      2 網(wǎng)絡(luò)爬蟲系統(tǒng)架構(gòu)

      2.1 網(wǎng)絡(luò)爬蟲的簡介

      網(wǎng)絡(luò)爬蟲(crawler)是一個自動采集網(wǎng)頁的程序,它從一個或者若干個初始網(wǎng)頁的URL開始,獲取初始網(wǎng)頁的URL,在抓取網(wǎng)頁的過程中,不斷地從當前網(wǎng)頁上抽取新的URL添加到抓取隊列中,直到滿足一定的停止條件。網(wǎng)絡(luò)爬蟲通過周期性地自動編譯給定的WAP網(wǎng)站,檢查網(wǎng)站的內(nèi)容,從而避免了手工檢查的種種不便。

      2.2 工作流程

      網(wǎng)絡(luò)爬蟲遍歷網(wǎng)站的過程可以分解為三個部分,如圖1所示。

      (1)網(wǎng)頁的抓??;

      (2)網(wǎng)頁的分析;

      (3)網(wǎng)頁中新鏈接的提取。

      網(wǎng)頁的抓取過程如下:網(wǎng)絡(luò)爬蟲先向WAP網(wǎng)站服務(wù)器發(fā)送一個HTTP請求,然后從服務(wù)器接收一個HTTP響應(yīng)。如果成功獲取網(wǎng)頁,則網(wǎng)頁的內(nèi)容包含在這個HTTP響應(yīng)中。因此網(wǎng)頁的抓取過程就是一個基于HTTP的客戶端與服務(wù)器之間的交互過程。

      當網(wǎng)絡(luò)爬蟲成功獲取網(wǎng)頁后,就要對該網(wǎng)頁進行分析。目前WAP網(wǎng)頁有兩個格式:一種是基于WAP 1.X的WML格式;另一種是基于WAP 2.0的XHTML格式。這兩種格式的網(wǎng)頁都是XML文檔,因此可以使用DOM解析器來解析WAP網(wǎng)頁,提取網(wǎng)頁中的鏈接和文本內(nèi)容,把提取的新鏈接添加到URL隊列中進行遍歷,同時進行網(wǎng)頁規(guī)范性檢查和違規(guī)檢查。

      2.3 系統(tǒng)架構(gòu)

      網(wǎng)絡(luò)爬蟲系統(tǒng)主要有內(nèi)容監(jiān)測管理平臺、任務(wù)管理器、網(wǎng)頁采集器、網(wǎng)頁內(nèi)容分析器、URL管理器幾部分組成,如圖2所示。通過內(nèi)容監(jiān)測平臺,工作人員可以將SP提供的WAP網(wǎng)站入口URL加入到任務(wù)隊列中。任務(wù)管理器從數(shù)據(jù)庫中讀取入口URL,使用不同的遍歷策略控制各個網(wǎng)頁采集器對網(wǎng)站進行遍歷。采集的網(wǎng)頁內(nèi)容提交給網(wǎng)頁內(nèi)容分析器進行處理,從網(wǎng)頁中提取新的鏈接,并且檢查網(wǎng)頁的規(guī)范性和合法性。

      3 網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計和實現(xiàn)

      3.1 網(wǎng)頁采集器的設(shè)計

      在網(wǎng)絡(luò)爬蟲系統(tǒng)中,網(wǎng)頁采集器負責通過HTTP與WAP內(nèi)容服務(wù)器進行交互,獲取網(wǎng)頁內(nèi)容。如果通過無線網(wǎng)絡(luò)獲取一個WAP網(wǎng)頁,必須經(jīng)過WAP網(wǎng)關(guān)才能得到WAP內(nèi)容服務(wù)器中的網(wǎng)頁。WAP網(wǎng)關(guān)的作用是把WAP協(xié)議的請求轉(zhuǎn)換為HTTP請求,并且對內(nèi)容進行編解碼。因此,可以通過模擬WAP網(wǎng)關(guān)與內(nèi)容服務(wù)器之間的交互來獲取相應(yīng)的WAP頁面。

      3.2 URL管理器的設(shè)計

      URL管理器從任務(wù)管理器接收入口網(wǎng)址和遍歷策略保存到URL列表中。為了保證整個遍歷過程的完整性,避免重復(fù)采集同一個網(wǎng)頁,URL管理器需要具有URL去重功能,即判斷新發(fā)現(xiàn)的URL是否在URL池中存在。

      3.3 任務(wù)管理器的設(shè)計

      任務(wù)管理器負責從數(shù)據(jù)庫的任務(wù)表中讀取任務(wù)記錄,然后把任務(wù)的網(wǎng)站入口地址和遍歷的策略發(fā)送給URL管理器。此外,它還負責把網(wǎng)頁內(nèi)容分析器檢查出的網(wǎng)頁違規(guī)信息保存到數(shù)據(jù)庫,提供內(nèi)容監(jiān)測平臺展現(xiàn)給工作人員。

      3.4 網(wǎng)頁內(nèi)容分析器的設(shè)計

      網(wǎng)頁內(nèi)容分析器使用DOM解析器對網(wǎng)頁進行解析,提取出網(wǎng)頁中的鏈接和內(nèi)容進行如下處理:

      (1)從網(wǎng)頁中提取的新鏈接發(fā)送給URL管理器添加到URL列表中;

      (2)對于網(wǎng)頁內(nèi)容進行規(guī)范性檢查(是否包括運營商信息,是否含有交叉鏈接等);

      (3)對于網(wǎng)頁的文字內(nèi)容使用多關(guān)鍵詞匹配技術(shù)進行違規(guī)檢查;

      (4)對于圖片使用涉黃圖片識別技術(shù)進行違規(guī)檢查;

      檢查出的違規(guī)和不規(guī)范的網(wǎng)頁記錄發(fā)送給任務(wù)管理器保存到數(shù)據(jù)庫中。

      4 實驗與分析

      網(wǎng)絡(luò)爬蟲系統(tǒng)在實際使用中可以很好地完成WAP網(wǎng)站的監(jiān)測和核查任務(wù)。我們對300個WAP網(wǎng)站進行站內(nèi)遍歷,并且同時進行規(guī)范性和內(nèi)容檢查。

      站內(nèi)遍歷時,分別使用1~16個爬蟲進行網(wǎng)頁采集,每次采集的文件數(shù)目大約為10 000個左右,文件平均大小為 1.8 KB,結(jié)果見表 1。

      進行監(jiān)測和核查時,為了盡量減少對內(nèi)容服務(wù)器的負荷,不需要使用太多的爬蟲線程的數(shù)目,一般2~4個就可以了,即使是使用單線程采集也足夠完成內(nèi)容監(jiān)測任務(wù)。

      表1 實驗結(jié)果

      5 結(jié)束語

      為了對SP提供的WAP網(wǎng)站進行有效的監(jiān)管,采用人工手動方式檢查WAP網(wǎng)站會面臨審核成本高和效率低的雙重壓力。本文提出了一種WAP網(wǎng)站內(nèi)容監(jiān)測的網(wǎng)絡(luò)爬蟲系統(tǒng),該系統(tǒng)可以自動遍歷WAP網(wǎng)站,并且對下載的WAP網(wǎng)頁進行規(guī)范性和違規(guī)檢查,用戶通過內(nèi)容監(jiān)測平臺查看違規(guī)的網(wǎng)頁,通知SP對其WAP網(wǎng)站進行處理和整改,可以為用戶提供一個安全、監(jiān)控的業(yè)務(wù)環(huán)境。本文的創(chuàng)新點在于通過使用網(wǎng)絡(luò)爬蟲技術(shù)可以有效地對SP提供的WAP網(wǎng)站進行自動審核,極大地提高了WAP網(wǎng)站的監(jiān)測效率。

      2010-07-14)

      猜你喜歡
      爬蟲管理器違規(guī)
      利用網(wǎng)絡(luò)爬蟲技術(shù)驗證房地產(chǎn)灰犀牛之說
      違規(guī)借調(diào)的多重“算計”
      “啄木鳥”專吃“違規(guī)蟲”
      基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
      應(yīng)急狀態(tài)啟動磁盤管理器
      Windows文件緩沖處理技術(shù)概述
      違規(guī)試放存放 爆炸5死1傷
      勞動保護(2018年5期)2018-06-05 02:12:09
      利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
      電子測試(2018年1期)2018-04-18 11:53:04
      大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
      電子制作(2017年9期)2017-04-17 03:00:46
      違規(guī)逆行之后
      七台河市| 探索| 乌兰察布市| 佛学| 若羌县| 宁陵县| 扶余县| 肥西县| 巴塘县| 武隆县| 明星| 奉节县| 教育| 浮梁县| 平江县| 柏乡县| 东丰县| 龙江县| 资兴市| 肥东县| 庆阳市| 鄂尔多斯市| 板桥市| 额济纳旗| 明光市| 灯塔市| 昆山市| 许昌市| 光山县| 施秉县| 扬州市| 理塘县| 西贡区| 上蔡县| 江孜县| 巧家县| 珲春市| 潍坊市| 保定市| 福泉市| 鹤岗市|