面向微博爬蟲系統(tǒng)的分析

2013-08-15 00:48:29王艷閣

河南科技 2013年4期

王艷閣

(中原工學(xué)院計算機(jī)學(xué)院，河南鄭州 450000)

1 背景和意義

互聯(lián)網(wǎng)傳播信息的快速傳播，因此微博給人們的工作、生活帶來了方便，但同時也給虛假信息和網(wǎng)絡(luò)暴力的迅速傳播等惡意、違法行為提供了滋生的溫床。即使公眾媒體和信息管理部門一直呼吁廣大網(wǎng)民規(guī)范自己的上網(wǎng)行為，維持網(wǎng)絡(luò)秩序，但是被有些人別有用心的傳播、制造網(wǎng)絡(luò)謠言，形成非理性非合法的網(wǎng)絡(luò)輿論氛圍，危害正常的生活、社會秩序。因此，不能僅僅依靠于網(wǎng)民的自律行為，需要網(wǎng)絡(luò)信息監(jiān)管部門對網(wǎng)絡(luò)言論進(jìn)行管理和監(jiān)控，對網(wǎng)絡(luò)的輿情進(jìn)行研究和分析，完善網(wǎng)絡(luò)輿情監(jiān)控管理機(jī)制，培育高雅文明、開放成熟的正確輿論。

目前的互聯(lián)網(wǎng)世界已經(jīng)進(jìn)入到了自媒體時代，而這其中不可不提的一個關(guān)鍵詞便是微博。作為互聯(lián)網(wǎng)2.0時代最重要發(fā)明之一，它不僅僅把傳統(tǒng)媒體從紙上變到了電子媒介上，更重要的是它徹底改變了傳播的路徑。在這個微博時代，人人都是記者和編輯，每一個人都可以在遇到新聞突發(fā)事件的時候，進(jìn)行新聞的采集和傳播。微博使廣大人民群眾參政議政有了更好的渠道和平臺，這是好的一面。但同時我們也應(yīng)該看到其另一面，社會中的人素質(zhì)有高低，認(rèn)識社會、判斷社會的能力也有高低，不同階層的人、不同素質(zhì)修養(yǎng)的人，都會利用微博做事情，而做出來的事情就會有著不同的效果，這就使得微博容易滋生大量的輿情輿論信息，這些信息一旦引發(fā)了不合常理的群體行為，將導(dǎo)致社會正常生活受到嚴(yán)重不良影響。因此，如何在大量信息中查找、瀏覽有用的輿情資訊，進(jìn)行分析判斷、以有效的地控制和規(guī)范網(wǎng)絡(luò)信息的傳播是亟需研究解決的問題。

2 研究現(xiàn)狀

目前智能挖掘的運用和機(jī)器學(xué)習(xí)識別是網(wǎng)絡(luò)輿情系統(tǒng)的核心，用來挖掘分析網(wǎng)絡(luò)上的大量的時刻變化的網(wǎng)絡(luò)輿情信息。處理在人工技術(shù)手段下無法解決對大量、時刻變化網(wǎng)絡(luò)內(nèi)容的及時監(jiān)控和管理。常用關(guān)鍵技術(shù)如下：

第一是項智能的無需人為干預(yù)、自動獲取互聯(lián)網(wǎng)信息的數(shù)據(jù)挖掘和信息搜索技術(shù)。以前的網(wǎng)絡(luò)爬蟲從一個或若干初始網(wǎng)絡(luò)的URL開始，獲得初始網(wǎng)絡(luò)上的URL，在爬取網(wǎng)絡(luò)的時候中，不停的從當(dāng)前網(wǎng)絡(luò)上抓取新的URL放入隊列，一直到滿足系統(tǒng)的部分停止條件為止。全部被其抓取的網(wǎng)絡(luò)將會自動被系統(tǒng)保存，以判斷抓取的頁面是列表頁還是內(nèi)容頁。如果是列表頁，則調(diào)用相應(yīng)的列表頁模板進(jìn)行分析研究，新的URL添加到未下載URL隊列中，等待下載;如果是內(nèi)容頁，則把它寫入文件。

第二是信息提取與檢索。對于網(wǎng)絡(luò)爬蟲抓取的大量信息，用前期的檢索引擎并且把自然與然分析技術(shù)和數(shù)據(jù)攫取技術(shù)結(jié)合起來進(jìn)行對信息的提取。內(nèi)存中存取的數(shù)據(jù)是爬蟲在爬取目錄下采集的，這些數(shù)據(jù)是爬蟲定期搜索獲取的。保存頁面中的有價值的信息，并且把頁面中的征文和標(biāo)題部分驚醒區(qū)別的技術(shù)是，網(wǎng)頁站點智能抓取技術(shù)。調(diào)用有用的插件把內(nèi)容提取出來是分析線程的主要任務(wù)，按照相應(yīng)的表達(dá)式所表達(dá)的意思，按照一定的周期把數(shù)據(jù)存入到文件中。

第三是自動摘要的形成，也就是機(jī)器通過智能的方法把文檔自動形成摘要的過程和技術(shù)方法。這種方法是提取信息的重要手段，同時在提取的過程中這種技術(shù)綜合了機(jī)器識別和挖掘數(shù)據(jù)技術(shù)。這種方法有基于理解和基于統(tǒng)計這兩種方式，基于理解的文摘是根據(jù)線索詞詞頻、詞典、句子和詞的統(tǒng)計方法進(jìn)行模式匹配提取摘要;而基于統(tǒng)計的方式則是利用語義句法、語義知識等知識，在對文章的內(nèi)容進(jìn)行理解的基礎(chǔ)上提取摘要。

第四是主題追蹤與檢測。這種技術(shù)追蹤一些目標(biāo)主題的的各種信息以及與之有關(guān)的信息片段。

以上4中技術(shù)就可以滿足當(dāng)前的熱點事件的追蹤、專題特別報道、新事物的快速識別等。主題檢測是從各個信息集合的片段中檢測出新的主題，并且是實時在線的。

3 研究目標(biāo)

微博輿情系統(tǒng)是微博最為監(jiān)控的主題，與比較重要的主題論壇信息進(jìn)行對比分析，從而掌握網(wǎng)絡(luò)輿情的發(fā)展的新動向。話題聚類、數(shù)據(jù)采集和微博輿情預(yù)測是微博淤青監(jiān)控的主要部分，第一數(shù)據(jù)采集的內(nèi)容主要是使用爬蟲自動收集頁面信息。爬蟲模塊是網(wǎng)頁站點信息采集的重要工具，它的作用是非常重要的，也是網(wǎng)絡(luò)微博最初數(shù)據(jù)的獲取來源。為了給用戶制定相應(yīng)的爬行策略，爬蟲模塊提供一定的抓取任務(wù)和爬蟲的運行方法，從而對網(wǎng)站頁面的信息抓取達(dá)到給用戶方便快捷的操作平臺。微博輿情系統(tǒng)采用的是聚焦式網(wǎng)絡(luò)爬蟲。傳統(tǒng)網(wǎng)絡(luò)爬蟲和聚焦網(wǎng)絡(luò)爬蟲的區(qū)別在于，通過配置敏感信息規(guī)則和系統(tǒng)自學(xué)習(xí)功能，根據(jù)系統(tǒng)事先定義的與輿情相關(guān)的敏感關(guān)鍵詞集合，如何剔除無關(guān)的搜索信息過濾掉不符用戶定制的主題主題，是頁面算法的重要功能實現(xiàn)，除了實現(xiàn)以上功能外，還要把有用的數(shù)據(jù)信息、有效地鏈接信息等用戶需要的數(shù)據(jù)采集到放到URL隊列中。微博爬蟲的基本方法就是按照原定的抓取策略，確保與主題有關(guān)的信息多爬行、多下載，并分析計算下一個將要被獲取的連接于用戶定義主題的關(guān)系度，盡最大可能少的下載無用頁面。

與通用網(wǎng)絡(luò)爬蟲相比，微博爬蟲的研究目標(biāo)是以下三個方面：(1)如何描述或定義抓取網(wǎng)頁目標(biāo)。(2)怎樣排列待爬行URL的具體次序。微博爬蟲根據(jù)已經(jīng)下載頁面的相關(guān)聯(lián)程度度，怎樣將頁面放到優(yōu)先級隊列中是根據(jù)該頁面的子頁面與用戶定義的相關(guān)度來決定的。有了用戶定義的相關(guān)度，微博爬蟲的爬行策略就不再是簡單的深度或者廣度優(yōu)先了，而是根據(jù)相關(guān)度的大小，最先訪問相關(guān)度大的網(wǎng)頁連接。(3)怎樣判斷一個網(wǎng)頁是否和策略有關(guān)系。挖取數(shù)據(jù)技術(shù)可以實現(xiàn)應(yīng)經(jīng)在隊列等爬行的連接和已經(jīng)獲取的網(wǎng)頁并且可以獲取具體的信息內(nèi)容。因此，主體不同的爬蟲之間的主要區(qū)別二就是目前爬行頁面的主題相關(guān)度。

4 研究內(nèi)容及創(chuàng)新點

4.1 研究內(nèi)容

微博爬蟲抓取策略是聚焦式定向抓取，根據(jù)需要對相應(yīng)的網(wǎng)頁或者論壇的信息進(jìn)行獲取，所以域名或者網(wǎng)站的條件需要過濾，并且條件還需要特定的設(shè)置。如baidu.com就可以設(shè)置成過濾條件，那么爬蟲收集網(wǎng)頁信息的時候就只會收集百度的網(wǎng)頁信息。對網(wǎng)站過濾、關(guān)鍵詞過濾、搜索工具過濾和最初連接的個數(shù)過濾等是聚焦式爬蟲的工作方式。用戶指定的網(wǎng)頁在全網(wǎng)的連接站點進(jìn)行抓取。但是聚焦式爬蟲的回應(yīng)是在前期完善的搜索平臺上進(jìn)行操作，如在百度或者谷歌上面來獲取一些鏈接并和本主題關(guān)系度較大。在爬行的時候首先從常用的搜索引擎中獲得一些網(wǎng)站鏈接，然后從中開始抓取，抓取的時候也是相關(guān)度越來越高，直到和用戶定義的條件滿足為止，到達(dá)最深的爬行度的時候才結(jié)束本次爬行過程。為了提高爬行的精度，微博爬蟲采用先對與用戶定義相關(guān)的頁面進(jìn)行連接，而不像普通爬蟲那樣對所有的頁面的進(jìn)行爬行，對用戶的相關(guān)度進(jìn)行分析后再處理，這樣爬行的精度就很自然的提高了，同時爬行的結(jié)果也與用戶與期待的結(jié)果相關(guān)的也大，達(dá)到了雙優(yōu)的結(jié)果，即使有少數(shù)遺漏了，也能讓大部分的用戶滿意。從以上可以看出如何分析用戶提出定義的主題的相關(guān)度是本微博爬蟲的關(guān)鍵技術(shù)，對用戶提出的關(guān)鍵詞進(jìn)行分析是實現(xiàn)的最簡單的方法，再深一步的話就可以對主題所提到的概念和語義的分析，達(dá)到這一層次是比較精深的。

怎么對用戶定義的關(guān)鍵詞的主題相關(guān)度分析呢，大概的主要思路下面具體闡述：第一要確定用戶提出的關(guān)鍵詞，這個關(guān)鍵詞要有一定的權(quán)重還要能夠代表受限制的領(lǐng)域。第二利用空間向量的模型算法，來算出頁面的相關(guān)程度，從而確定主題的相關(guān)度的取舍與用戶定義主題相關(guān)度大的網(wǎng)絡(luò)頁面。普通爬蟲是概念和主題爬蟲的基礎(chǔ)，兩者都是在普通爬蟲功能上進(jìn)行擴(kuò)充，在整個基于概念和基于關(guān)鍵詞的主題爬蟲系統(tǒng)全是以普通爬蟲作為基礎(chǔ)，而在這基礎(chǔ)上進(jìn)行功能上的擴(kuò)充，主題分析相關(guān)度，優(yōu)化中子模塊，主題確立模塊，排序模塊就是頁面處理的整個過程。兩種方法的主要不同之處在于的怎么表示。其系統(tǒng)工作具體流程如下：第一爬行模塊搜索網(wǎng)絡(luò)頁面;第二爬行模塊對所爬取的網(wǎng)頁進(jìn)行分析，調(diào)用相關(guān)的算法模塊;第三根據(jù)檢測的結(jié)果對不同的結(jié)果進(jìn)行分析研究;第四對正在數(shù)據(jù)庫里等待處理的網(wǎng)絡(luò)連接進(jìn)行調(diào)用返回到第一步，一直到?jīng)]有新的網(wǎng)絡(luò)連接;第五爬取的響應(yīng)網(wǎng)頁結(jié)果進(jìn)行排序。做為輿情監(jiān)控控系統(tǒng)的重要組成部分，微博爬蟲和通用的網(wǎng)絡(luò)爬蟲類似，也需要遵守普通爬蟲的基本原則，如穩(wěn)定性、活動性、爬行時要遵守Robots協(xié)議等。

由于微博輿情監(jiān)控系統(tǒng)的特殊需要，微博爬蟲部分的設(shè)計和通用網(wǎng)絡(luò)爬蟲相比有很大區(qū)別。對整個網(wǎng)絡(luò)內(nèi)容信息進(jìn)行抓取時通用爬蟲的的工作策略，深度和廣度策略都要用到。每一次完成抓取內(nèi)容，爬蟲都需要廣泛的撒網(wǎng)，范圍很大，同時也需要相對較長的時間和資源。聚焦抓取和定向抓取是爬蟲常用的策略，但是在具體的實施過程中要選擇既效率高又節(jié)省資源的方法對各種和主題相關(guān)的網(wǎng)頁進(jìn)行收集獲取，這也是輿情監(jiān)控系統(tǒng)重要功能體現(xiàn)。聚焦爬蟲為了避免資源浪費，采取了只對與用戶定制主題相關(guān)的資源進(jìn)行獲取，實現(xiàn)的方法是通過計算向量空間模型實現(xiàn)的，在最短的時間內(nèi)完成信息的獲取，并且工作范圍還比較小，這就是定向抓取的方式。通過網(wǎng)頁的連接信息能夠查詢到所屬的歸屬地，也可以判斷出這個網(wǎng)頁是否和具體的某個微博關(guān)系度比較大。用戶只關(guān)心與自己定義主題有關(guān)的信息，所以僅連接本微博相關(guān)度大的連接。用關(guān)鍵詞的范圍比較和語義擴(kuò)展來實現(xiàn)微博爬蟲的靈活性。為了不丟棄和用戶定義的主題的信息，可以通過提高判斷關(guān)鍵詞和識別的比較的方法。為了減輕微博爬蟲爬行負(fù)擔(dān)，爬蟲一般會設(shè)法減少爬取網(wǎng)頁的相關(guān)數(shù)目。用戶可以通過設(shè)置一定的爬行策略來滿足抓取時的特殊需要，如設(shè)置限定的爬蟲的爬取范圍或者利用關(guān)鍵詞實現(xiàn)高速獲取信息等，省掉了抓取無關(guān)網(wǎng)頁的大量時間。

4.2 創(chuàng)新點

第一，快速抓取網(wǎng)絡(luò)時刻更新的大量內(nèi)容，網(wǎng)絡(luò)頁面的更新也需要爬蟲定時的回訪原來爬行過的頁面站點，從而確保最新的焦點話題能夠能夠在整個輿情監(jiān)控系統(tǒng)中快速獲取。微博爬蟲的工作效率和多次抓取有著重要的關(guān)系，尤其是多次爬去的效率和范圍。增量式抓取和周期性抓取策略是網(wǎng)站頁面抓取的重要手段，為了保證網(wǎng)頁信息的時效性采取對多個網(wǎng)頁定期性的爬取，同時根據(jù)爬去的周期性采取不同的爬行策略，對于和主題相關(guān)度比較大的網(wǎng)頁重點抓取。

第二，在微博爬取過程中在一定時間內(nèi)是爬行模塊是比較固定的，它的目錄機(jī)構(gòu)要遵循一定的命名規(guī)則，所以很明顯的區(qū)別與其他的模塊。例如新浪微博等微博中不相同模塊就可以通過域名來區(qū)別出來，也就可以利用這樣來給爬取的文檔分類保存，不同的微博模塊可以采用不同的爬取策略，例如對變化比較快，比較大的模塊可以設(shè)置多次的爬行策略，而對于變化速度比較慢的模塊可以減少爬行次數(shù)，從而提高了爬行的效率。當(dāng)然要實現(xiàn)以上的策略，需要有智能的識別系統(tǒng)來識別微薄的更新速度和時間，也對不同的網(wǎng)絡(luò)連接是指不同的抓取策略。

［1]PJianpingZeng，PShiyong Zhang，Chengrong Wu，PJianfengXiePredictive Modelfor Internet Public Opinion.Proceedings of the Fourth International Conference onFuzzy Systems and Knowledge Discovery(FSKD 2007).2007，Vol.3：7-11。

［2]姜勝洪.網(wǎng)絡(luò)輿情熱點的形成與發(fā)展、現(xiàn)狀及輿論引導(dǎo)［J].理論月刊，2008，(4)

［3]張旭，張振江，劉云.BBS輿情系統(tǒng)爬蟲模塊的研究［J].鐵路計算機(jī)應(yīng)用2010(12)18-21

［4]劉金紅，陸余良.主題網(wǎng)絡(luò)爬蟲研究綜述［J].計算機(jī)應(yīng)用研究.2007(10)26-29.

［5]A.Rungsawang，N.Angkawattanawit.Learnable topic—sp'ecificweb crawler［J].Journal ofNetwork and Computer Applica—tions.2005(28)：97—11

［6]邁克塞沃爾.鏈接分析：信息科學(xué)的研究方法［M].孫建軍，李江，張煦，等.南京：東南大學(xué)出版社，2009：15.