劉丹 葉子青 周舒 唐瑤 粟妮 張璐妮
(北京郵電大學(xué),北京海淀 100876)
信息爬取工具M(jìn)etaSeeker的介紹及其在微博中的應(yīng)用
劉丹 葉子青 周舒 唐瑤 粟妮 張璐妮
(北京郵電大學(xué),北京海淀 100876)
移動(dòng)互聯(lián)網(wǎng)為微博的發(fā)展帶來(lái)了契機(jī),如何深入理解微博用戶的行為,從而利用好微博平臺(tái),這是政府相關(guān)管理機(jī)構(gòu)和網(wǎng)絡(luò)營(yíng)銷企業(yè)共同關(guān)注的問(wèn)題。從海量的微博數(shù)據(jù)中提取有用的數(shù)據(jù)就要依賴于網(wǎng)絡(luò)爬蟲技術(shù),而選擇合適的爬蟲技術(shù)可以使我們的研究簡(jiǎn)便且有效率。
微博;網(wǎng)絡(luò)爬蟲;爬蟲工具
目前來(lái)說(shuō),微博已經(jīng)成為了一種新型社交的重要媒介,以其實(shí)現(xiàn)了移動(dòng)終端與互聯(lián)網(wǎng)的無(wú)縫連接,以及易用、隨意、即時(shí)、傳播快等特點(diǎn),在不到三年的時(shí)間內(nèi)已發(fā)展成為重要的分享工具和自媒體傳播平臺(tái),成為人們網(wǎng)上生活的重要組成部分。在使用微博的過(guò)程中,一條微博的評(píng)論量與轉(zhuǎn)發(fā)量會(huì)與什么因素相關(guān)引起了我們興趣,故而希望通過(guò)捕捉大量的數(shù)據(jù),進(jìn)行實(shí)證分析,來(lái)確定評(píng)論量與轉(zhuǎn)發(fā)量的影響因素及其關(guān)系。本項(xiàng)研究是基于網(wǎng)絡(luò)爬蟲工具M(jìn)etaSeeker完成的,在眾多爬蟲工具中選擇MetaSeeker是由于其可以在web頁(yè)面的語(yǔ)義結(jié)構(gòu)進(jìn)行描述,輸出適合計(jì)算機(jī)自動(dòng)處理的描述文件和指令文件,且能夠持續(xù)地、大批量地提取web信息,輸出帶有語(yǔ)義結(jié)構(gòu)元數(shù)據(jù)的信息提取結(jié)果文件,可以高效地為信息服務(wù)系統(tǒng)補(bǔ)充內(nèi)容。
網(wǎng)絡(luò)爬蟲技術(shù)是通過(guò)專門的工具實(shí)現(xiàn)對(duì)海量網(wǎng)絡(luò)數(shù)據(jù)的提取、挖掘。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)即意味著財(cái)富,生活中的很多信息感知和采集終端提供了海量的數(shù)據(jù),借助大數(shù)據(jù),使我們感知和看待世界的方法發(fā)生了改變,不再像過(guò)去那樣憑借直覺(jué)和經(jīng)驗(yàn)得出結(jié)論,而是基于大量的數(shù)據(jù)分析。但從海量的數(shù)據(jù)中如何提取有價(jià)值的信息,還需要專門的爬蟲技術(shù)。網(wǎng)絡(luò)爬蟲是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序,它為搜索引擎從Web上下載網(wǎng)頁(yè),是搜索引擎的重要組成部分,通用網(wǎng)絡(luò)爬蟲從一個(gè)或若干個(gè)初始網(wǎng)頁(yè)的URL開始,獲得初始網(wǎng)頁(yè)的URL列表;在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當(dāng)前頁(yè)面上抽取新的URL放入待爬行隊(duì)列,直到滿足系統(tǒng)的停止條件[1]。
目前相關(guān)的爬蟲軟件較多,比如MetaSeeker爬蟲工具軟件包、多可網(wǎng)絡(luò)爬蟲、LoalaSam網(wǎng)絡(luò)爬蟲等。由于微博信息目前并沒(méi)有一個(gè)成型的數(shù)據(jù)庫(kù),必須從網(wǎng)頁(yè)中逐個(gè)抓取。實(shí)現(xiàn)方式主要有兩種,一種是基于python等編程語(yǔ)言實(shí)現(xiàn),另一種是采用MetaSeeker等數(shù)據(jù)采集工具包進(jìn)行實(shí)現(xiàn)。
Python是一種基于面向?qū)ο?,且功能超?qiáng)的編程語(yǔ)言。Python是開放源代碼的軟件之一。用戶可以自由發(fā)布軟件的拷貝,閱讀原代碼,對(duì)它改動(dòng)以用于新的軟件。Python還具有龐大的標(biāo)準(zhǔn)庫(kù),可以處理各種工作,Python語(yǔ)言編寫網(wǎng)絡(luò)爬蟲可用于在線微博用戶的行為數(shù)據(jù)的抓取。
MetaSeeker是一個(gè)WEB網(wǎng)頁(yè)抓取、數(shù)據(jù)抽取和頁(yè)面信息提取工具包,能夠按照用戶的指導(dǎo),從web頁(yè)面上篩選出需要的信息,并輸出含有語(yǔ)義結(jié)構(gòu)的提取結(jié)果文件(XML文件),metaseeker解決了一個(gè)關(guān)鍵問(wèn)題:將無(wú)結(jié)構(gòu)的web頁(yè)面信息轉(zhuǎn)換成有結(jié)構(gòu)的適用于機(jī)器處理的信息,可應(yīng)用于專業(yè)搜索、mashup和web數(shù)據(jù)挖掘領(lǐng)域。
與phyton相比,metaseeker不需要設(shè)計(jì)采集規(guī)則,因此實(shí)現(xiàn)較為簡(jiǎn)單。此外,在數(shù)據(jù)采集的后期,由于新浪微博API接口對(duì)采集數(shù)據(jù)量的限制,無(wú)法繼續(xù)通過(guò)python軟件抓取數(shù)據(jù)。因此,本研究數(shù)據(jù)采集通過(guò)metaseeker來(lái)搜集。
(1)MetaSeeker的數(shù)據(jù)采集流程包括三步:①確定目標(biāo)網(wǎng)址,制定相關(guān)抓取規(guī)則;②使用Metastudio定義抓取規(guī)則,創(chuàng)建線索,上載數(shù)據(jù);③使用datascraper提取數(shù)據(jù)。
(2)關(guān)于抓取時(shí)間的設(shè)定:微博平臺(tái)的信息傳播具有迅速、實(shí)時(shí)性強(qiáng)的特點(diǎn),雖然這種實(shí)時(shí)性為微博營(yíng)銷帶來(lái)了及時(shí)互動(dòng)、迅速反饋的優(yōu)勢(shì),但另一方面,這種實(shí)時(shí)性卻會(huì)導(dǎo)致微博平臺(tái)各類信息更新快,而用戶的接收量有限,基于人的習(xí)慣動(dòng)力學(xué)行為[2][3]用戶的注意力主要會(huì)集中新近發(fā)布的微博上,從而導(dǎo)致前期發(fā)布的微博內(nèi)容會(huì)很快的被湮沒(méi),從而降低其影響力。根據(jù)以上微博平臺(tái)數(shù)據(jù)時(shí)間的特點(diǎn),推斷至多在微博發(fā)布7天之后此條微博便會(huì)失去其時(shí)效性。因此我們重點(diǎn)關(guān)注新浪微博熱門搜索榜上的微博和一周之內(nèi)的熱門微博,從中抓取數(shù)據(jù)并進(jìn)行分析。
(3)關(guān)于數(shù)據(jù)抓取內(nèi)容的設(shè)定:微博雖然內(nèi)容簡(jiǎn)短在140個(gè)字以內(nèi),但就是因?yàn)樽謹(jǐn)?shù)的限制,所以微博通過(guò)很多機(jī)制進(jìn)行表意壓縮。根據(jù)對(duì)新浪微博內(nèi)容的分析發(fā)現(xiàn),無(wú)論是微博正文內(nèi)容、被轉(zhuǎn)發(fā)內(nèi)容、圖片、鏈接或是評(píng)論轉(zhuǎn)發(fā)量,都是可能對(duì)企業(yè)微博營(yíng)銷有效性研究起到重要作用的指標(biāo)和變量,因此在數(shù)據(jù)抓取階段,將會(huì)把每條微博的全部?jī)?nèi)容抓取下來(lái),以備后續(xù)分析。
(1)打開MetaStudio,在地址欄輸入要采集數(shù)據(jù)的地址;
(2)建立整理箱;
(3)設(shè)置反向選擇;
(4)設(shè)置多實(shí)例采集規(guī)則:選中整理箱;
(5)當(dāng)樣例復(fù)制品映射兩次都做好之后,就可以點(diǎn)擊工具條上的schema按鈕,啟動(dòng)上載過(guò)程,觀察工作流文件;
(6)轉(zhuǎn)到Clue Editor工作臺(tái);
①點(diǎn)擊newClue按鈕,創(chuàng)建一個(gè)線索
②點(diǎn)擊Marker類型,設(shè)定為記號(hào)線索,“下一頁(yè)”字樣就是記號(hào)
③指定為線內(nèi)線索類型。
(7)再次點(diǎn)擊工具條上的schema按鈕,啟動(dòng)上載過(guò)程,觀察工作流文件;
(8)打開DataScraper,輸入相應(yīng)的主題名,找到相關(guān)提取線索,進(jìn)行提取即可。
通過(guò)由MetaSeeker爬取的微博數(shù)據(jù)的分析,可以深入理解微博用戶的行為,從而利用好微博平臺(tái),這是政府相關(guān)管理機(jī)構(gòu)和網(wǎng)絡(luò)營(yíng)銷企業(yè)共同關(guān)注的問(wèn)題。
[1]于娟,劉強(qiáng).主題網(wǎng)絡(luò)爬蟲研究綜述[J].計(jì)算機(jī)應(yīng)用研究, 2007,24(10).
[2]Frank M C,Goldwater S,Griffiths T L,et al.Modeling HumanPerformance in Statistical Word Segmentation[J]. Cognition,2010,117(2):107-25.
[3]JiaoY,Liu Y,Wang J,et al.Model for Human Dynamics Based on Habit[J].Chinese Science Bulletin,2010,55(24): 2744-2749.
Introduction of Information Crawling Tool“Metaseeker”and Its Application in Weibo
LIU Dan,YE Zi-qing,ZHOU Shu,TANG Yao,SU Ni,ZHANG Lu-ni
(Beijing University of Posts and Telecommunication,Beijing 100876,China)
Mobile Internet has brought an opportunity for the development of micro-blog(Weibo).Now it is the common concern of government administration and Internet enterprise to understand micro-blog users’behavior,so as to make good use of micro-blog platform.To extract useful data from the mass of micro-blog data largely depends on web crawler technology.Appropriate choice of crawler technology enables simple and efficient study.
micro-blog;web crawler;crawler-like tool
TN971
A
1008-1739(2015)10-72-2
定稿日期:2015-04-26
受北京郵電大學(xué)大學(xué)生創(chuàng)新研究基金資助(基金號(hào):500050024)