• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    搜索引擎中的網(wǎng)絡(luò)爬蟲搜索對策分析

    2018-05-14 09:06:08魏茂
    絲路視野 2018年12期
    關(guān)鍵詞:網(wǎng)絡(luò)爬蟲搜索引擎對策

    【摘要】進入互聯(lián)網(wǎng)時代之后,網(wǎng)絡(luò)融入到了現(xiàn)代人生活的各個方面,而搜索引擎之運用為人們的工作、學(xué)習與生活帶來了非常大的好處。因此,實施對基于搜索引擎的網(wǎng)絡(luò)爬蟲技術(shù)的探究,對進一步提高搜索引擎的效率來說很有必要。本文在闡述網(wǎng)絡(luò)爬蟲原理的基礎(chǔ)上,列舉了網(wǎng)絡(luò)爬蟲的基本類別,并提出了搜索引擎中應(yīng)用網(wǎng)絡(luò)爬蟲搜索的主要對策。

    【關(guān)鍵詞】搜索引擎;網(wǎng)絡(luò)爬蟲;對策

    隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,網(wǎng)絡(luò)為人們提供了極大的便利。然而,因為網(wǎng)絡(luò)中的信息非常分散和無序,因此極難被充分運用。怎樣在網(wǎng)絡(luò)這一信息大海中迅速而又精準地找到最有效的信息,是用戶們迫切需要解決的問題,而搜索引擎的產(chǎn)生很好地破解了該難題。搜索引擎主要是運用諸多網(wǎng)絡(luò)站點中的信息,便于為用戶們找到需要的信息。在搜索引擎當中,網(wǎng)絡(luò)爬蟲發(fā)揮了非常大的作用,是引擎全部數(shù)據(jù)之源頭。爬蟲設(shè)計之優(yōu)劣將直接影響到引擎系統(tǒng)內(nèi)容的豐富性與更新的及時性。

    一、網(wǎng)絡(luò)爬蟲原理闡述

    所謂網(wǎng)絡(luò)爬蟲,是指一種能夠自動提取相關(guān)網(wǎng)頁的程序,能夠為搜索引擎從網(wǎng)絡(luò)中下載所需要的網(wǎng)頁,也是搜索引擎中極為重要的構(gòu)成部份。爬蟲從一個或者數(shù)個初始網(wǎng)頁URL上起步,再分析這一URL的源文件,從而提取到新網(wǎng)頁的鏈接,其后再運用新鏈接去找別的新鏈接,如此循環(huán)往復(fù),一直到抓取與分析完全部網(wǎng)頁。這可以說是一種理想的狀態(tài),然而事實上不可能抓取到網(wǎng)絡(luò)中的全部網(wǎng)頁。依據(jù)一項統(tǒng)計,最優(yōu)秀的搜索引擎只能夠抓取到40%的網(wǎng)頁。原因是網(wǎng)絡(luò)爬蟲的抓取技術(shù)還存在著瓶頸,難以顧及到全部網(wǎng)頁。同時,存儲技術(shù)也存在一定的問題。依據(jù)每一網(wǎng)頁平均為20K來計算,100億個網(wǎng)頁的規(guī)模為大小就是20萬G,目前的存儲技術(shù)還無法達到。

    二、網(wǎng)絡(luò)爬蟲的基本類別

    一是通用爬蟲。其爬取的范圍太大,而且對于爬取的順序要求比較低,但對爬取的速度以及存儲空間的要求相對較高。二是限定爬蟲。主要是一種能夠爬取使用者有興趣的某類網(wǎng)頁的程序。它并不需要爬取全部網(wǎng)頁,只要爬取部分特定網(wǎng)頁即可。工作原理是運用樸素貝葉斯法來訓(xùn)練文本分類器,其后使用該分類器以指導(dǎo)爬蟲之偏好,在諸多爬蟲隊列中為用戶選出其最有興趣的那部分網(wǎng)頁。三是主題爬蟲。先明確一個或者多個不同的主題,再依據(jù)相關(guān)分析算法過濾出和主題沒有關(guān)系的URL,并保留和主題存在關(guān)聯(lián)的URL,并且把其放進等待隊列之中,其后再用搜索策略從諸多等待的隊列當中選取下一個需要進行抓取的URL,并且循環(huán)操作,一直到達成停止條件為止。

    三、搜索引擎中應(yīng)用網(wǎng)絡(luò)爬蟲搜索的主要對策

    運用網(wǎng)絡(luò)爬蟲,應(yīng)當盡量搜集和主題有關(guān)的網(wǎng)頁,并且減少下載沒有關(guān)聯(lián)的網(wǎng)頁。主題爬蟲和通用爬蟲比較起來,尚需解決如何進行主題描述與定義、如何判斷網(wǎng)頁內(nèi)容和主題的關(guān)聯(lián)、如何判斷鏈接的重要性以及如何提升爬蟲資源的覆蓋率等。下面,從四個方面對實施網(wǎng)絡(luò)爬蟲搜索的主要對策進行討論。

    一是選擇合適的主題集。在網(wǎng)絡(luò)爬蟲之中,為了進行科學(xué)的剪枝與過濾,應(yīng)當對主題加以定義或者描述,從而明確采集之方向。主題集之優(yōu)劣將直接影響到最后的成效。主題既可以是某些關(guān)鍵詞,也可以是某種自然語言。使用者可立足于定制主題對此進行深入描述。

    二是提取所需Web信息。自采集起點起,網(wǎng)絡(luò)爬蟲即開始爬取Web中的相關(guān)信息資源,運用相關(guān)Web協(xié)議自動爬取各個站點的相關(guān)信息。為了能夠更好地獲取相關(guān)信息,爬蟲系統(tǒng)當中主要是運用多線程形式來提取其中的Web信息。

    三是對頁面進行預(yù)處理,實現(xiàn)主題爬蟲所抓取Web頁面的規(guī)范化,主要涵蓋了對頁面語法的闡述,對頁面實施去噪等,從中可以提取到網(wǎng)頁當中的各類有效信息,其后再判定網(wǎng)頁信息主題具有的相關(guān)性,過濾和主題沒有關(guān)聯(lián)的頁面,以增加爬蟲獲取主題信息的精準性。因為HTML網(wǎng)頁的內(nèi)容可從正文、標題、標記信息以及鏈接信息等諸多方面加以體現(xiàn)。所以,在提取網(wǎng)頁信息時只需要提取以上特征信息即可。在讀取頁面過程中,應(yīng)當找到標記,并把標記中間內(nèi)容當中的全部標記加以去除,以獲取頁面的正文,而標記為的內(nèi)容即為網(wǎng)頁標題,其顯示于標題欄之中。即便提取出來的URL能夠通過主題相關(guān)性的判定,所提取到的頁面內(nèi)容和設(shè)定主題之間可能也會有比較大的差距。因此,在提取頁面以后還需對頁面信息加以判別,并且刪除和主題沒有關(guān)聯(lián)的頁面。</p><p>四是對鏈接進行過濾。要進一步提升對主題Web信息提取的速率以及精確性,系統(tǒng)應(yīng)當對采集到的UI實施URL與主題之間的關(guān)系判定。鏈接過濾中最為常用的算法為EPR算法。應(yīng)當在鏈接關(guān)系的前提下增加有關(guān)主題之權(quán)重,再引入鏈接網(wǎng)頁主題所具有的權(quán)重,如此一來,就產(chǎn)生了EPR算法。</p><p>四、結(jié)語</p><p>總之,網(wǎng)絡(luò)爬蟲技術(shù)的應(yīng)用,為搜索引擎的發(fā)展打下了良好基礎(chǔ)。但是,隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,現(xiàn)代人對搜索引擎所具有的需求愈來愈大,信息檢索服務(wù)朝著個性化與規(guī)范化、精細化的趨向加以發(fā)展,自然也就對網(wǎng)絡(luò)爬蟲的深化設(shè)計提出了新的要求。鑒于網(wǎng)絡(luò)爬蟲具備了重復(fù)性的特點,所以怎樣實現(xiàn)頁面動態(tài)變化之規(guī)律和原來的搜索統(tǒng)計結(jié)果的密切結(jié)合,以提升爬取工作的效率,值得下一步繼續(xù)深入加以探究。</p><p>參考文獻</p><p>[1]楊文剛,韓海濤.大數(shù)據(jù)背景下基于主題網(wǎng)絡(luò)爬蟲的檔案信息采集[J].蘭臺世界,2015(20).</p><p>[2]盛亞如,魏振鋼,劉蒙.基于主題網(wǎng)絡(luò)爬蟲的信息數(shù)據(jù)采集方法的研究與應(yīng)用[J].電子技術(shù)與軟件工程,2016(07).</p><p>[3]祁忠琪,呂曉聰.基于網(wǎng)絡(luò)爬蟲的搜狐網(wǎng)新聞搜索引擎系統(tǒng)的實現(xiàn)[J].數(shù)字通信世界,2017(07).</p><p>作者簡介:魏茂(1980.11—),男,漢族,四川梓潼人,學(xué)士,講師,研究方向:可視化和人工智能方向。

    猜你喜歡
    網(wǎng)絡(luò)爬蟲搜索引擎對策
    診錯因 知對策
    對策
    面對新高考的選擇、困惑及對策
    防治“老慢支”有對策
    煉鐵廠鐵量網(wǎng)頁數(shù)據(jù)獲取系統(tǒng)的設(shè)計與實現(xiàn)
    基于社會網(wǎng)絡(luò)分析的權(quán)威網(wǎng)頁挖掘研究
    主題搜索引擎中網(wǎng)絡(luò)爬蟲的實現(xiàn)研究
    淺析如何應(yīng)對網(wǎng)絡(luò)爬蟲流量
    中國市場(2016年23期)2016-07-05 04:35:08
    網(wǎng)絡(luò)搜索引擎亟待規(guī)范
    基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
    博野县| 旬邑县| 神木县| 遂川县| 沁源县| 肥西县| 汕尾市| 漾濞| 天峻县| 铜川市| 安图县| 浦江县| 登封市| 白银市| 交口县| 延庆县| 鄱阳县| 郧西县| 惠州市| 武穴市| 都兰县| 德化县| 屯门区| 浏阳市| 延津县| 广河县| 晋宁县| 顺昌县| 昌邑市| 东乌珠穆沁旗| 广西| 嘉荫县| 屯昌县| 余江县| 胶州市| 石楼县| 邵东县| 韩城市| 秀山| 琼中| 乌兰浩特市|