• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      聊聊死鏈對(duì)網(wǎng)站的影響

      2015-04-16 13:05:21范春
      關(guān)鍵詞:爬蟲蜘蛛百度

      ■范春

      聊聊死鏈對(duì)網(wǎng)站的影響

      ■范春

      大量死鏈對(duì)搜索引擎來講,有什么影響?

      1、很多站都避免不了存在死鏈接,但死鏈率過高,會(huì)影響搜索引擎對(duì)網(wǎng)站的評(píng)分。

      2、搜索引擎對(duì)每個(gè)網(wǎng)站每天抓取的頻次是限額的,若網(wǎng)站存在大量死鏈,會(huì)浪費(fèi)掉抓取配額并影響正常頁面的抓取。

      3、過多死鏈對(duì)網(wǎng)站用戶來講也是體驗(yàn)不好的表現(xiàn)。

      百度站長工具中有一個(gè)抓取異常,那么這個(gè)工具里面的異常數(shù)據(jù)是如何產(chǎn)生的呢?

      1、網(wǎng)站內(nèi)部添加了錯(cuò)誤的內(nèi)部鏈接

      編輯失誤或者程序員大意讓頁面產(chǎn)生了不存在的頁面。

      2、網(wǎng)站短暫無法訪問

      因?yàn)榉?wù)器、空間或程序問題導(dǎo)致網(wǎng)站短暫無法訪問,產(chǎn)生大量返回碼為5開頭的服務(wù)器錯(cuò)誤頁面。

      3、外部鏈接錯(cuò)誤

      用戶或者站長在站外發(fā)布了錯(cuò)誤URL,蜘蛛爬取后產(chǎn)生錯(cuò)誤頁面;別的網(wǎng)站復(fù)制或采集了你們含有錯(cuò)誤鏈接的頁面;有些垃圾網(wǎng)站自動(dòng)生成的靜態(tài)搜索結(jié)果頁。

      4、爬蟲提取了不完整的URL

      個(gè)別爬蟲在提取頁面URL的時(shí)候,只提取部分URL或者把正常的URL后面的文字或字符也提取進(jìn)去了。

      5、網(wǎng)站改版

      網(wǎng)站改版過程中老頁面直接刪除并沒有301跳轉(zhuǎn)到對(duì)應(yīng)頁面,或者實(shí)行301跳轉(zhuǎn)后依然部分老頁面無法訪問。

      6、管理員刪除頁面

      網(wǎng)站管理員刪除被黑、廣告、過時(shí)、被灌水頁面導(dǎo)致很多死鏈接。

      7、過時(shí)或交易完畢頁面

      下架商品、過期信息

      出現(xiàn)了了上述情況,我們?cè)撊绾稳ソ鉀Q?

      1、修復(fù)錯(cuò)誤頁面

      抓取異常中的很多錯(cuò)誤頁面是因?yàn)槌绦騿T大意或者我們程序問題導(dǎo)致的,本應(yīng)該是正常頁面,因?yàn)槭д`導(dǎo)致無法訪問,對(duì)于此類頁面,第一時(shí)間進(jìn)行修復(fù)。

      2、提交死鏈接

      但必定很多錯(cuò)誤頁面是本不應(yīng)該存在的,那么我們要想辦法獲取此類頁面URL,獲取方式主要有三種:

      (1)百度站長工具--抓取異常--找不到的頁面--復(fù)制數(shù)據(jù)[修正:此處死鏈不需我們提交了,百度站長工具自動(dòng)提交死鏈];

      (2)管理員在刪除頁面的時(shí)候手動(dòng)或者程序自動(dòng)保存被刪頁面URL;

      (3)使用相關(guān)爬蟲軟件,爬取整站獲取死鏈,如Xenu。

      然后將上述數(shù)據(jù)合并并刪除重復(fù)項(xiàng)(excel表格中能實(shí)現(xiàn)刪重,wps表格更容易操作),然后再復(fù)制所有URL通過HTTP狀態(tài)批量查詢工具查詢下,剔除掉非404返回碼頁面。

      然后整理上面處理好的數(shù)據(jù)粘貼到網(wǎng)站根目錄中的一個(gè)文檔中,再把文檔地址提交到百度站長工具--網(wǎng)頁抓取--死鏈提交--添加新數(shù)據(jù)--填寫死鏈文件地址。

      3、在robots中屏蔽抓取

      若大量的錯(cuò)誤URL存在一定的規(guī)律,可以在robots文件中寫一個(gè)規(guī)則禁止蜘蛛抓取此類鏈接,但前提一定要照顧好正常頁面,避免屏蔽規(guī)則誤傷正常頁面,比如你的網(wǎng)站全部是靜態(tài)URL,那么如果錯(cuò)誤鏈接中含有?的話,規(guī)則寫成Disallow:/*?*,如果錯(cuò)誤鏈接中有/id...html的話,規(guī)則寫成Disallow:/*...*。

      robots文件添加完規(guī)則后,一定要去百度站長的robots工具進(jìn)行校驗(yàn),將指定的錯(cuò)誤頁面放進(jìn)去,看看是否封禁成功,再把正常的頁面放進(jìn)去看看是否被誤封。

      提示:

      1、在百度站長工具中提交死鏈前,一定要確保提交的死鏈數(shù)據(jù)不存在活鏈接。一旦存在活鏈,會(huì)顯示提交失敗導(dǎo)致無法刪除。

      2、由于很多網(wǎng)站程序問題,很多打不開的頁面返回碼并非404,這是一個(gè)大問題,比如明明是打不開的頁面返回碼是301、200、500,如果是200的話,會(huì)導(dǎo)致網(wǎng)站中出現(xiàn)不同URL獲取相同內(nèi)容。比如我的一個(gè)站,社區(qū)的帖子刪除后,返回碼卻是500,后期發(fā)現(xiàn)了,立馬進(jìn)行了處理。大家盡量找出所有錯(cuò)誤URL格式,并設(shè)置HTTP狀態(tài)碼為404。

      3、把所有的錯(cuò)誤頁面找到后,一定要尋找此類頁面URL相同特征,并且和正常頁面的特征有區(qū)分,寫對(duì)應(yīng)規(guī)則到robots文件中,禁止蜘蛛抓取,就算你已經(jīng)在站長工具中提交了死鏈,也建議robots封禁抓取。

      4、robots只能解決蜘蛛不再抓取此類頁面,但解決不了已經(jīng)收錄頁面的快照刪除問題,若你的網(wǎng)站被黑,刪除了被黑頁面,除了robots封禁被黑頁面外,還應(yīng)該將這些頁面提交死鏈。提交死鏈?zhǔn)莿h除被黑頁面快照的最快辦法。

      猜你喜歡
      爬蟲蜘蛛百度
      利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
      基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
      Robust adaptive UKF based on SVR for inertial based integrated navigation
      小蜘蛛凍僵了,它在哪兒呢?
      利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
      百度年度熱搜榜
      蜘蛛
      大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
      電子制作(2017年9期)2017-04-17 03:00:46
      百度遭投行下調(diào)評(píng)級(jí)
      大蜘蛛
      铜陵市| 丰原市| 麦盖提县| 板桥市| 株洲县| 信宜市| 饶河县| 南乐县| 临夏市| 西吉县| 鸡西市| 安泽县| 无极县| 仙游县| 民丰县| 浦城县| 江达县| 华宁县| 五台县| 吉水县| 九龙县| 尉犁县| 郎溪县| 阿瓦提县| 嘉兴市| 三原县| 耒阳市| 潮州市| 资讯 | 塔城市| 阜康市| 息烽县| 凤城市| 崇文区| 寿宁县| 个旧市| 承德县| 上林县| 旬邑县| 壤塘县| 礼泉县|