• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于網(wǎng)絡(luò)爬蟲的導(dǎo)航深度服務(wù)信息自動(dòng)采集

      2015-03-28 06:10:48陳睿嘉康志忠張衛(wèi)濤
      測(cè)繪工程 2015年1期
      關(guān)鍵詞:字符串爬蟲名稱

      陳睿嘉,康志忠,張衛(wèi)濤

      (1.中國地質(zhì)大學(xué) 土地科學(xué)技術(shù)學(xué)院,北京100083;2.廣東瑞圖萬方科技股份有限公司,廣東 佛山528305)

      基于位置的服務(wù)(location based services,LBS)是集GIS技術(shù)、定位技術(shù)、通信技術(shù)、網(wǎng)絡(luò)技術(shù)等為一體的能提供多種形式服務(wù)的以位置信息為核心的信息服務(wù)框架[1]。如今,傳統(tǒng)地圖服務(wù)日漸無法跟上生活服務(wù)需求,楊小晴等提出將樓盤信息通過Google Map融合發(fā)布為地圖服務(wù)[2]。隨著互聯(lián)網(wǎng)發(fā)展,網(wǎng)絡(luò)中包含大量實(shí)時(shí)地理信息,互聯(lián)網(wǎng)環(huán)境下的地理信息Web服務(wù)搜索引擎已成為當(dāng)前的一個(gè)研究熱點(diǎn)[3]。主題爬蟲應(yīng)用策略作為地理信息搜索引擎應(yīng)用的核心和基礎(chǔ),是研究的重點(diǎn)之一。Refractions Research、GIDB、Skylab Mobile Systems等均基于Google API開發(fā)了支持OGC(Open GIS Consortiu m)標(biāo)準(zhǔn)的 Web地圖服務(wù)(Web Map Service,WMS)爬蟲[4];Li等根據(jù) 主題特征計(jì)算URL(Universal Resource Locator)及頁面的權(quán)重以優(yōu)化提取隊(duì)列[4];武昊等提出了一種基于主題相關(guān)度的地理信息Web服務(wù)爬蟲策略[5];張春菊等提出基于網(wǎng)絡(luò)爬蟲的地名數(shù)據(jù)庫維護(hù)方法[6];苗海等利用開源爬蟲NWeb Crawler定制正則表達(dá)式設(shè)計(jì)一種基于相似聚類算法的垂直搜索引擎

      本文基于傳統(tǒng)地理信息爬蟲在專題垂直搜索應(yīng)用中的不足,提出一種基于主題爬蟲設(shè)計(jì)思想,自動(dòng)采集各服務(wù)信息網(wǎng)站提供的POI深度服務(wù)信息的方法。

      1 深度服務(wù)信息定義及結(jié)構(gòu)

      導(dǎo)航興趣點(diǎn)(POI)是指在導(dǎo)航地圖中可以用查詢的方法檢索的信息關(guān)注點(diǎn),泛指一切可以抽象為點(diǎn)的地理對(duì)象,在導(dǎo)航地圖中以入口點(diǎn)或位置點(diǎn)的方式給出。POI結(jié)合導(dǎo)航功能的實(shí)現(xiàn),主要記錄內(nèi)容包括檢索點(diǎn)的絕對(duì)位置坐標(biāo)、所屬行政區(qū)劃編碼、名稱信息、地址信息、電話信息、類型編碼、對(duì)象唯一標(biāo)識(shí)碼、所對(duì)應(yīng)道路路網(wǎng)弧段ID號(hào)、點(diǎn)關(guān)系類型、顯示等級(jí)等相對(duì)長時(shí)間不會(huì)變動(dòng)的內(nèi)容。網(wǎng)絡(luò)中存在大量服務(wù)網(wǎng)站平臺(tái)發(fā)布與維護(hù)POI實(shí)時(shí)服務(wù)信息,如:時(shí)光網(wǎng)發(fā)布電影院當(dāng)天上映電影信息、中票在線發(fā)布劇場(chǎng)近期演出信息、去哪網(wǎng)發(fā)布酒店房間信息等,其最快更新頻率一般情況下為1 d。

      本文定義深度服務(wù)信息繼承POI結(jié)構(gòu),以天為周期從網(wǎng)絡(luò)抓取實(shí)時(shí)發(fā)布的服務(wù)信息,并獲取本地時(shí)間作為抓取日期字段,生成深度服務(wù)信息點(diǎn)特征入庫,其內(nèi)容如表1所示。

      表1 深度服務(wù)信息數(shù)據(jù)結(jié)構(gòu)

      本文內(nèi)容主要研究網(wǎng)絡(luò)信息抓取方法以及網(wǎng)絡(luò)信息與POI點(diǎn)匹配方法。

      2 深度服務(wù)信息自動(dòng)采集

      深度服務(wù)信息自動(dòng)采集流程如圖1所示。采集方法流程分為以下3步:

      1)根據(jù)原地圖矢量數(shù)據(jù)對(duì)POI的分類編碼檢索某一類POI點(diǎn)(如電影院)名稱、地址、經(jīng)緯度等數(shù)據(jù)按定義結(jié)構(gòu)生成深度服務(wù)信息點(diǎn),服務(wù)信息字段空缺。

      圖1 深度服務(wù)信息采集算法

      2)使用網(wǎng)絡(luò)爬蟲獲取該類主站下(如時(shí)光網(wǎng))發(fā)布服務(wù)信息的服務(wù)地點(diǎn)URL;并通過DOM技術(shù)[6]解析、提取每個(gè)URL中服務(wù)地點(diǎn)的名稱、地址及服務(wù)信息。

      3)對(duì)步驟1)中得到的每一深度服務(wù)信息點(diǎn)中的name、address字段依次與步驟2)中獲取的每個(gè)URL對(duì)應(yīng)的名稱、地址分別計(jì)算字符串相似度,選擇最優(yōu)URL頁面的深度服務(wù)信息填入當(dāng)前空缺服務(wù)信息字段,使用算法分別為編輯距離(Levenshtein距離)[8]和最大公共子序列(Longest Common Subsequence,LCS)[8]。

      2.1 網(wǎng)絡(luò)爬蟲設(shè)計(jì)

      網(wǎng)絡(luò)爬蟲是搜索引擎的重要組成部分,其基本原理是從一些“種子”站點(diǎn)出發(fā),通過HTTP等協(xié)議請(qǐng)求并獲取網(wǎng)頁資源,分析頁面內(nèi)容并提取鏈接,以循環(huán)迭代的方式訪問整個(gè)網(wǎng)絡(luò)[5]。主題網(wǎng)絡(luò)爬蟲根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留主題相關(guān)的鏈接并將其放入待抓取的URL隊(duì)列中;然后根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁URL,并重復(fù)上述過程,直到達(dá)到系統(tǒng)的某一條件時(shí)停止[9]。本文設(shè)計(jì)的爬蟲采用廣度優(yōu)先策略,參考基于相似聚類算法的垂直搜索引擎中正則表達(dá)式的應(yīng)用[7],設(shè)計(jì)了兩個(gè)正則表達(dá)式,分別用于過濾外鏈與匹配目標(biāo)URL。

      URL是代表網(wǎng)頁地址的字符串,所需要的某一類服務(wù)地點(diǎn)URL具有相似的結(jié)構(gòu)。正則表達(dá)式正是用來描述或者匹配一系列符合某個(gè)句法規(guī)則的字符串的單個(gè)字符串,可用于識(shí)別相似的字符串結(jié)構(gòu)。以時(shí)光網(wǎng)為例,可以將表達(dá)式1設(shè)計(jì)為:“http://.*mti me.*”,即匹配包含“mti me”的 URL。對(duì)目標(biāo)URL進(jìn)行抽樣分析,如:新華國際影城大鐘寺店 URL 為 http://theater.mti me.co m/China_Beijing_Haidian/3129/,耀萊國際影城 URL為http://theater.mti me.com/China_Beijing_Haidian/2486/???將 表 達(dá) 式 2 設(shè) 計(jì) 為:“http://t heater.mti me.com/China_Beijing_[A-Z]?[a-z]+/[\d]+/”。提取出所有相似結(jié)構(gòu)的URL后,可使用網(wǎng)頁文本解析方法提取名稱、地址和服務(wù)信息。

      2.2 網(wǎng)頁文本解析

      網(wǎng)頁文本解析與提取通過DOM技術(shù)[6]實(shí)現(xiàn)。URL頁面通常是HT ML格式文本。HT ML(Hyper Text Markup Language)是超文本標(biāo)記語言,其基本思想是用描述標(biāo)記來提供描述文檔結(jié)構(gòu)的附加信息[10]。

      DOM技術(shù)是當(dāng)前用于解析HT ML網(wǎng)頁最常用的技術(shù),根據(jù)網(wǎng)頁結(jié)構(gòu)標(biāo)記將文本解析為樹形結(jié)構(gòu),形成以HT ML為根節(jié)點(diǎn)的結(jié)構(gòu)明晰、層次好的DOM標(biāo)記樹,樹中的每個(gè)節(jié)點(diǎn)由網(wǎng)頁中的所有標(biāo)記屬性對(duì)構(gòu)成,如圖2所示。

      圖2 DOM樹形結(jié)構(gòu)

      由于同一網(wǎng)站發(fā)布不同地點(diǎn)服務(wù)信息的網(wǎng)頁結(jié)構(gòu)一致,地點(diǎn)名稱、地址和服務(wù)信息存在于DOM樹某一固定葉子節(jié)點(diǎn)上。如國中票在線家大劇院主頁中一段源代碼:

      “<li class=“ticket_list_tu fl”>

      <a href= “http://www.chinaticket.co m/view/9958.ht ml”target=“_blank”title=“中國國家芭蕾舞團(tuán)《大紅燈籠高高掛》”class=“ticket_list_title”>中國國家芭蕾舞團(tuán)《大紅燈籠高高掛》</a>

      <span> 時(shí) 間:2013.01.18 - 2013.01.19     票價(jià):100.00元 -680.00元</span>

      </li>”

      顯然,只需從屬性為“ticket_list_t u fl”、標(biāo)簽為“<li>”的節(jié)點(diǎn)中提取完整語句,過濾標(biāo)簽符號(hào)。該地點(diǎn)的名稱、地址也可在其他葉子節(jié)點(diǎn)中獲得。

      2.3 基于目標(biāo)網(wǎng)頁名稱、地址的相關(guān)度計(jì)算方法

      Li等、武昊等、張春菊等以及苗海等設(shè)計(jì)的專題爬蟲對(duì)主題字符串進(jìn)行分詞,構(gòu)建向量空間模型,并利用TF-IDF算法計(jì)算網(wǎng)頁文本內(nèi)容與主題相似度[4-7]。向量空間模型法依賴于分詞詞庫的構(gòu)建,而TF-IDF向量定權(quán)法需要對(duì)網(wǎng)頁文本進(jìn)行大量取樣,整體復(fù)雜度較大。本文設(shè)計(jì)提取網(wǎng)頁對(duì)應(yīng)地點(diǎn)名稱、地址字符串計(jì)算與主題點(diǎn)特征相似度的方法,并對(duì)LCS算法計(jì)算地址相似度過程進(jìn)行改進(jìn)。

      在專題垂直搜索應(yīng)用中,目標(biāo)網(wǎng)頁內(nèi)容之間的差異相比傳統(tǒng)主題搜索具有更明顯的規(guī)律,其差異性主要表現(xiàn)在地點(diǎn)位置描述部分,即地點(diǎn)的名稱、地址字符串,可通過網(wǎng)頁中的名稱、地址與POI的名稱、地址相似程度判定該網(wǎng)頁服務(wù)信息與POI點(diǎn)的相關(guān)程度:將繼承自POI主體的name與address字段對(duì)每個(gè)URL文本中解析得到的名稱、地址字符串分別計(jì)算名稱相似度與地址相似度,并取兩者均值作為當(dāng)前點(diǎn)特征與當(dāng)前URL相關(guān)度,從URL列表中選擇相關(guān)度最大者作為最優(yōu)匹配結(jié)果,并將其解析得到的服務(wù)信息作為點(diǎn)特征服務(wù)信息字段。但若當(dāng)前特征點(diǎn)表示的地點(diǎn)在URL列表中不存在,將會(huì)選擇與之相似度最大的錯(cuò)誤頁面作為匹配結(jié)果,對(duì)此可設(shè)定一閾值,若結(jié)果大于閾值則匹配成功,否則放棄匹配。通過實(shí)驗(yàn)驗(yàn)證,閾值設(shè)定在0.5時(shí)就可得到正確結(jié)果。

      字符串相似度尋找兩個(gè)字符串的公共子串,利用公共子串的長度根據(jù)相應(yīng)的公式來衡量兩個(gè)字符串的相似程度。字符串相似度在很多領(lǐng)域都有廣泛的應(yīng)用,如在抄襲檢測(cè)系統(tǒng)、自動(dòng)評(píng)分系統(tǒng)、防代碼剽竊系統(tǒng)、數(shù)據(jù)清洗、網(wǎng)頁搜索和DNA序列匹配等。目前,字符串相似度度量算法有很多,如編輯距離算法(Levenshtein Distance)、最長公共子串算法(LCS,Longest Co mmon Subsequence)、Heckel算法、貪心字符串匹配算法(Greedy String Tiling,GST)及 RKR-GST算法(Running Karp-Rabin Greedy String Tiling,RKR-GST)等[10]。本文名稱的相似度使用編輯距離計(jì)算,地址相似度使用最大公共子序列計(jì)算,并針對(duì)地址相似度計(jì)算過程做出改進(jìn)。

      2.3.1 編輯距離計(jì)算名稱相似度

      編輯距離是用來計(jì)算從原字符串轉(zhuǎn)換到目標(biāo)字符串所需要的最少的插入、刪除和替換的數(shù)目。該算法能對(duì)順序匹配進(jìn)行有效查找,可準(zhǔn)確識(shí)別地點(diǎn)名稱描述相似程度。編輯距離算法步驟如下[8]:

      1)得到字符串1長度m,字符串2長度n,如果m=0,則編輯距離為n;如果n=0,則編輯距離為m。

      2)構(gòu)造一個(gè)(m+1)×(n+1)大小矩陣 Distance,矩陣第1行依次賦值為0,1,2,…,m,第1列依次賦值為0,1,2,…,n。

      3)對(duì)矩陣從左到右,每一列從上到下依次計(jì)算:設(shè)i為矩陣行號(hào),j為矩陣列號(hào),0≤i≤m,0≤j≤n,若字符串1第i個(gè)字符與字符串2第j個(gè)字符相同,按式(1)計(jì)算;若字符串1第i個(gè)字符與字符串2第j個(gè)字符不相同,則按式(2)計(jì)算。

      4)最后計(jì)算矩陣右下角的值即為兩字符串編輯距離,并通過式(3)計(jì)算相似度為

      然而,由于大量存在同商家分店,如:“新華國際影城大興店”與“新華國際影城良鄉(xiāng)店”相似度極高,卻不表示同一地點(diǎn),加入地址相似度作為參考,可提高匹配準(zhǔn)確度。

      2.3.2 最大公共子序列計(jì)算地址相似度

      地址匹配包括精確匹配和模糊匹配。當(dāng)?shù)刂沸畔⒈磉_(dá)符合編碼規(guī)則標(biāo)準(zhǔn)時(shí),直接將地址進(jìn)行標(biāo)準(zhǔn)化處理,處理成地址數(shù)據(jù)庫中表達(dá)的標(biāo)準(zhǔn)格式,從而實(shí)現(xiàn)與地址數(shù)據(jù)庫的精確匹配。當(dāng)?shù)刂沸畔⒈磉_(dá)不符合編碼規(guī)則標(biāo)準(zhǔn)時(shí),采用模糊匹配進(jìn)行處理[1]。

      而張春菊、唐旭日等使用條件隨機(jī)場(chǎng)模型(CRF)將地址識(shí)別為“北京市;東城區(qū);北三環(huán)東路;36號(hào)”的模式,分別對(duì)每一部分匹配[6,11]。此方法的準(zhǔn)確性依賴于完善的地名詞庫。本文通過改進(jìn)LCS算法計(jì)算地址相似度。

      最長公共子序列算法是將兩個(gè)給定字符串分別刪去零個(gè)或多個(gè)字符,但不改變剩余字符的順序后得到的長度最長的相同字符序列。其算法的運(yùn)行步驟如下[8]:

      1)得到字符串1長度m,字符串2長度n,如果m=0,n=0,則LCS為0。

      2)若m,n都不為0,構(gòu)造一個(gè)(m+1)×(n+1)大小矩陣LCS,將其第1行第1列的值置0。

      3)初始化矩陣LCS,設(shè)i為矩陣行號(hào),j為矩陣列號(hào),0≤i≤m,0≤j≤n,若字符串1第i個(gè)字符與字符串2第j個(gè)字符相同,則使LCSi,j=1,否則使LCSi,j=0。

      4)對(duì)矩陣從上到下,每一行從左到右依次計(jì)算:若字符串1第i個(gè)字符與字符串2第j個(gè)字符相 同,且 LCSi-1,j= LCSi-1,j-1,則 使 LCS i,j=LCSi,j-1,否則使 LCSi,j=Max(LCSi-1,j,LCSi,j-1),矩陣中最大值即為最大公共子序列。

      按LCS計(jì)算相似度原始方法,可按式(4)[8]計(jì)算相似度為

      可按此方法計(jì)算“北三環(huán)東路36號(hào)”與“北京市東城區(qū)北三環(huán)東路36號(hào)環(huán)球貿(mào)易中心E座B1/F1/F3”相似度僅為53%,但這兩種描述表達(dá)的是同一個(gè)地點(diǎn),極大影響了匹配準(zhǔn)確度。本文針對(duì)這一特征改進(jìn)LCS計(jì)算地址相似度方法,如式(5)所示。

      由此計(jì)算以上兩地址相似度為100%,有效地提高了地址相似度計(jì)算準(zhǔn)確度,最終通過取名稱、地址相似度均值,作為穩(wěn)健的匹配依據(jù)。

      3 實(shí)驗(yàn)與分析

      本文通過以上方法流程設(shè)計(jì)了基于網(wǎng)絡(luò)爬蟲的導(dǎo)航深度服務(wù)信息自動(dòng)采集系統(tǒng)原型,以北京市部分區(qū)域的導(dǎo)航地圖數(shù)據(jù)為POI數(shù)據(jù)來源,分別從時(shí) 光 網(wǎng) http://theater.mti me.com/China_Beijing/、中票在線htt p://www.chinaticket.co m/beijing/venue.ht ml中抓取電影信息與劇目信息為實(shí)驗(yàn),在Windows 7操作系統(tǒng)下使用java語言實(shí)現(xiàn),具有良好的可移植性。

      3.1 POI信息檢索

      通過SQL語言檢索導(dǎo)出基礎(chǔ)POI數(shù)據(jù)ID、Name、Type、X、Y字段內(nèi)容。獲取北京市150家電影院、136家劇場(chǎng)。圖3、圖4分別為電影院、劇場(chǎng)部分檢索結(jié)果。

      圖3 電影院POI數(shù)據(jù)

      圖4 劇場(chǎng)POI數(shù)據(jù)

      3.2 網(wǎng)絡(luò)爬蟲結(jié)果

      檢索POI數(shù)據(jù)的同時(shí),爬蟲開始抓取電影院主頁與劇場(chǎng)主頁URL。理論上只要爬行一定的深度就可得到所有主頁URL,為兼顧效率與數(shù)量,以爬行兩層為實(shí)驗(yàn),在時(shí)光網(wǎng)與中票在線中分別抓取到匹配以下兩正則表達(dá)式:“http://t heater.mti me.co m/China_Beijing_[A-Z]?[a-z]+/[\d]+/”、“http://www.chinaticket.co m/beijing/venue/[\d]+.ht ml”的URL列表,包括46個(gè)電影院主頁與70個(gè)劇場(chǎng)主頁,如圖5、圖6所示。

      圖5 電影院爬蟲結(jié)果

      3.3 網(wǎng)頁文本解析

      根據(jù)網(wǎng)頁文本解析模塊解析每個(gè)URL,圖7、圖8分別為圖5、圖6中第1個(gè)URL解析、提取名稱、地址、服務(wù)信息內(nèi)容與實(shí)際網(wǎng)頁顯示結(jié)果對(duì)比,證明了網(wǎng)頁文本解析方法的準(zhǔn)確性。圖7表示的網(wǎng)頁雖然包含了第2天的電影信息,但隱藏在其包含的另一 URL中,“http://theater.mti me.co m/Chi-na_Beijing_Daxing 3062?d=20130421 不影響 當(dāng)天抓取結(jié)果。

      圖6 劇場(chǎng)爬蟲結(jié)果

      圖7 電影院解析結(jié)果

      圖8 劇場(chǎng)解析結(jié)果

      3.4 基于目標(biāo)網(wǎng)頁名稱、地址的相關(guān)度計(jì)算結(jié)果

      根據(jù)基于目標(biāo)網(wǎng)頁名稱、地址的相關(guān)度計(jì)算方法對(duì)每個(gè)點(diǎn)特征與所有URL計(jì)算相關(guān)度,并匹配一最佳URL。圖9為“新華國際影城大興店”與URL相關(guān)度計(jì)算結(jié)果,其對(duì)應(yīng)POI點(diǎn)的name、address字段分別為“新華國際影城大興店”、“大興區(qū)黃村東大街”,左邊為每個(gè)URL解析得到的名稱、地址,右邊表達(dá)式表示“(名稱相似度+地址相似度)/2=相關(guān)度”。

      設(shè)定閾值為0.5以下時(shí),可能得到錯(cuò)誤匹配結(jié)果,如圖10所示,但若所取閾值越大,得到的匹配結(jié)果越少,可能舍棄了正確的匹配結(jié)果。圖11為相關(guān)度閾值為0.5時(shí)電影院、劇場(chǎng)對(duì)應(yīng)POI與其相關(guān)度最大的URL名稱、地址對(duì)比,結(jié)果全部正確。

      圖9 相似度計(jì)算結(jié)果

      圖10 閾值為0.4時(shí)錯(cuò)誤匹配結(jié)果

      圖11 電影院、劇場(chǎng)匹配結(jié)果

      3.5 入庫及更新

      最終,按以上相關(guān)度匹配結(jié)果依次將解析URL得到的服務(wù)信息作為匹配點(diǎn)特征的深度服務(wù)信息字段并入庫,并且以天為周期采集、更新。單次入庫結(jié)果如圖12所示,圖13為5月29日至31日對(duì)新華國際影城大興店連續(xù)3 d采集的服務(wù)信息結(jié)果。

      圖12 入庫結(jié)果

      圖13 連續(xù)采集結(jié)果

      4 結(jié) 論

      互聯(lián)網(wǎng)逐漸成為日常生活獲取信息的主要來源,搜索引擎以及爬蟲技術(shù)則是從互聯(lián)網(wǎng)上快速獲取深度服務(wù)信息的捷徑。本文通過實(shí)驗(yàn)取得了較好的結(jié)果,從理論、實(shí)驗(yàn)上證明了方法的準(zhǔn)確性和廣泛適用性。而采集得到的深度服務(wù)信息不但可以直接提供給用戶,更可以結(jié)合路徑規(guī)劃、實(shí)時(shí)交通信息等提供深度決策服務(wù),如:附近最便宜的旅館、附近可趕上的電影等。

      為了更快速、高效地獲取網(wǎng)絡(luò)信息,爬蟲性能優(yōu)化也是爬蟲技術(shù)的研究重點(diǎn)。本文爬蟲設(shè)計(jì)仍有較大性能優(yōu)化空間,甚至可以直接基于Nutch、Heritrix等成熟開源爬蟲進(jìn)行二次開發(fā)。

      [1] 李清泉,楊必勝,鄭年波.時(shí)空一體化GIS-T數(shù)據(jù)模型與應(yīng)用方法[J].武漢大學(xué)學(xué)報(bào):信息科學(xué)版,2007,32(11):1034-1041.

      [2] 楊小晴,羅畏,黃文嘉.基于Google Map的樓盤信息發(fā)布系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].測(cè)繪工程,2011,20(2):49-52.

      [3] 白玉琪,楊崇?。臻g信息搜索引擎研究[J].中國礦業(yè)大學(xué)學(xué)報(bào),2004,33(1):90-94.

      [4] LI W W,YANG C W,YANG C J.An active crawler for discovering geospatial Web services and their distribution patter n–A case study of OGC Web Map Ser vice[J].Inter national Jour nal of Geographical Infor mation Science,2010,24(8):1127-1147.

      [5] 武昊,廖安平,何超英,等.基于主題相關(guān)度的地理信息Web服務(wù)爬蟲研究[J].地理與地理信息科學(xué),2012,28(2):27-30.

      [6] 張春菊,張雪英,朱少楠,等.基于網(wǎng)絡(luò)爬蟲的地名數(shù)據(jù)庫維護(hù)方法研究[J].地球信息科學(xué)學(xué)報(bào),2011,13(4):492-499.

      [7] 苗海,張仰森,岳明.基于聚類算法的垂直搜索引擎技術(shù)研究[J].北京信息科技大學(xué)學(xué)報(bào),2013,28(1):41-44.

      [8] 牛永潔,張成.多種字符串相似度算法的比較研究[J].計(jì)算機(jī)與數(shù)字工程,2012,40(3):14-17.

      [9] 劉金紅,陸余良.主題網(wǎng)絡(luò)爬蟲研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2007,24(10):26-29,47.

      [10]王志琪,王永成.HT ML文件的文本信息預(yù)處理技術(shù)[J].計(jì)算機(jī)工程,2006,32(5):46-48,67.

      [11]唐旭日,陳小荷,張雪英.中文文本的地名解析方法研究[J].武漢大學(xué)學(xué)報(bào):信息科學(xué)版,2010,35(8):930-935,982.

      猜你喜歡
      字符串爬蟲名稱
      利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
      基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
      利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
      大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
      電子制作(2017年9期)2017-04-17 03:00:46
      滬港通一周成交概況
      滬港通一周成交概況
      滬港通一周成交概況
      滬港通一周成交概況
      一種新的基于對(duì)稱性的字符串相似性處理算法
      依據(jù)字符串匹配的中文分詞模型研究
      吴川市| 玉田县| 福泉市| 广河县| 巴青县| 安丘市| 汤阴县| 尖扎县| 昌邑市| 巴彦县| 湘阴县| 元江| 萝北县| 南充市| 宁夏| 广州市| 云霄县| 岳池县| 温泉县| 金湖县| 平原县| 剑河县| 武强县| 太湖县| 扶沟县| 合江县| 江孜县| 德钦县| 额敏县| 阜城县| 招远市| 黎川县| 惠安县| 福鼎市| 当涂县| 霸州市| 文化| 新营市| 汉源县| 昌乐县| 新余市|