王艷閣
(中原工學(xué)院 計算機(jī)學(xué)院,河南 鄭州 450000)
互聯(lián)網(wǎng)傳播信息的快速傳播,因此微博給人們的工作、生活帶來了方便,但同時也給虛假信息和網(wǎng)絡(luò)暴力的迅速傳播等惡意、違法行為提供了滋生的溫床。即使公眾媒體和信息管理部門一直呼吁廣大網(wǎng)民規(guī)范自己的上網(wǎng)行為,維持網(wǎng)絡(luò)秩序,但是被有些人別有用心的傳播、制造網(wǎng)絡(luò)謠言,形成非理性非合法的網(wǎng)絡(luò)輿論氛圍,危害正常的生活、社會秩序。因此,不能僅僅依靠于網(wǎng)民的自律行為,需要網(wǎng)絡(luò)信息監(jiān)管部門對網(wǎng)絡(luò)言論進(jìn)行管理和監(jiān)控,對網(wǎng)絡(luò)的輿情進(jìn)行研究和分析,完善網(wǎng)絡(luò)輿情監(jiān)控管理機(jī)制,培育高雅文明、開放成熟的正確輿論。
目前的互聯(lián)網(wǎng)世界已經(jīng)進(jìn)入到了自媒體時代,而這其中不可不提的一個關(guān)鍵詞便是微博。作為互聯(lián)網(wǎng)2.0時代最重要發(fā)明之一,它不僅僅把傳統(tǒng)媒體從紙上變到了電子媒介上,更重要的是它徹底改變了傳播的路徑。在這個微博時代,人人都是記者和編輯,每一個人都可以在遇到新聞突發(fā)事件的時候,進(jìn)行新聞的采集和傳播。微博使廣大人民群眾參政議政有了更好的渠道和平臺,這是好的一面。但同時我們也應(yīng)該看到其另一面,社會中的人素質(zhì)有高低,認(rèn)識社會、判斷社會的能力也有高低,不同階層的人、不同素質(zhì)修養(yǎng)的人,都會利用微博做事情,而做出來的事情就會有著不同的效果,這就使得微博容易滋生大量的輿情輿論信息,這些信息一旦引發(fā)了不合常理的群體行為,將導(dǎo)致社會正常生活受到嚴(yán)重不良影響。因此,如何在大量信息中查找、瀏覽有用的輿情資訊,進(jìn)行分析判斷、以有效的地控制和規(guī)范網(wǎng)絡(luò)信息的傳播是亟需研究解決的問題。
目前智能挖掘的運用和機(jī)器學(xué)習(xí)識別是網(wǎng)絡(luò)輿情系統(tǒng)的核心,用來挖掘分析網(wǎng)絡(luò)上的大量的時刻變化的網(wǎng)絡(luò)輿情信息。處理在人工技術(shù)手段下無法解決對大量、時刻變化網(wǎng)絡(luò)內(nèi)容的及時監(jiān)控和管理。常用關(guān)鍵技術(shù)如下:
第一是項智能的無需人為干預(yù)、自動獲取互聯(lián)網(wǎng)信息的數(shù)據(jù)挖掘和信息搜索技術(shù)。以前的網(wǎng)絡(luò)爬蟲從一個或若干初始網(wǎng)絡(luò)的URL開始,獲得初始網(wǎng)絡(luò)上的URL,在爬取網(wǎng)絡(luò)的時候中,不停的從當(dāng)前網(wǎng)絡(luò)上抓取新的URL放入隊列,一直到滿足系統(tǒng)的部分停止條件為止。全部被其抓取的網(wǎng)絡(luò)將會自動被系統(tǒng)保存,以判斷抓取的頁面是列表頁還是內(nèi)容頁。如果是列表頁,則調(diào)用相應(yīng)的列表頁模板進(jìn)行分析研究,新的URL添加到未下載URL隊列中,等待下載;如果是內(nèi)容頁,則把它寫入文件。
第二是信息提取與檢索。對于網(wǎng)絡(luò)爬蟲抓取的大量信息,用前期的檢索引擎并且把自然與然分析技術(shù)和數(shù)據(jù)攫取技術(shù)結(jié)合起來進(jìn)行對信息的提取。內(nèi)存中存取的數(shù)據(jù)是爬蟲在爬取目錄下采集的,這些數(shù)據(jù)是爬蟲定期搜索獲取的。保存頁面中的有價值的信息,并且把頁面中的征文和標(biāo)題部分驚醒區(qū)別的技術(shù)是,網(wǎng)頁站點智能抓取技術(shù)。調(diào)用有用的插件把內(nèi)容提取出來是分析線程的主要任務(wù),按照相應(yīng)的表達(dá)式所表達(dá)的意思,按照一定的周期把數(shù)據(jù)存入到文件中。
第三是自動摘要的形成,也就是機(jī)器通過智能的方法把文檔自動形成摘要的過程和技術(shù)方法。這種方法是提取信息的重要手段,同時在提取的過程中這種技術(shù)綜合了機(jī)器識別和挖掘數(shù)據(jù)技術(shù)。這種方法有基于理解和基于統(tǒng)計這兩種方式,基于理解的文摘是根據(jù)線索詞詞頻、詞典、句子和詞的統(tǒng)計方法進(jìn)行模式匹配提取摘要;而基于統(tǒng)計的方式則是利用語義句法、語義知識等知識,在對文章的內(nèi)容進(jìn)行理解的基礎(chǔ)上提取摘要。
第四是主題追蹤與檢測。這種技術(shù)追蹤一些目標(biāo)主題的的各種信息以及與之有關(guān)的信息片段。
以上4中技術(shù)就可以滿足當(dāng)前的熱點事件的追蹤、專題特別報道、新事物的快速識別等。主題檢測是從各個信息集合的片段中檢測出新的主題,并且是實時在線的。
微博輿情系統(tǒng)是微博最為監(jiān)控的主題,與比較重要的主題論壇信息進(jìn)行對比分析,從而掌握網(wǎng)絡(luò)輿情的發(fā)展的新動向。話題聚類、數(shù)據(jù)采集和微博輿情預(yù)測是微博淤青監(jiān)控的主要部分,第一數(shù)據(jù)采集的內(nèi)容主要是使用爬蟲自動收集頁面信息。爬蟲模塊是網(wǎng)頁站點信息采集的重要工具,它的作用是非常重要的,也是網(wǎng)絡(luò)微博最初數(shù)據(jù)的獲取來源。為了給用戶制定相應(yīng)的爬行策略,爬蟲模塊提供一定的抓取任務(wù)和爬蟲的運行方法,從而對網(wǎng)站頁面的信息抓取達(dá)到給用戶方便快捷的操作平臺。微博輿情系統(tǒng)采用的是聚焦式網(wǎng)絡(luò)爬蟲。傳統(tǒng)網(wǎng)絡(luò)爬蟲和聚焦網(wǎng)絡(luò)爬蟲的區(qū)別在于,通過配置敏感信息規(guī)則和系統(tǒng)自學(xué)習(xí)功能,根據(jù)系統(tǒng)事先定義的與輿情相關(guān)的敏感關(guān)鍵詞集合,如何剔除無關(guān)的搜索信息過濾掉不符用戶定制的主題主題,是頁面算法的重要功能實現(xiàn),除了實現(xiàn)以上功能外,還要把有用的數(shù)據(jù)信息、有效地鏈接信息等用戶需要的數(shù)據(jù)采集到放到URL隊列中。微博爬蟲的基本方法就是按照原定的抓取策略,確保與主題有關(guān)的信息多爬行、多下載,并分析計算下一個將要被獲取的連接于用戶定義主題的關(guān)系度,盡最大可能少的下載無用頁面。
與通用網(wǎng)絡(luò)爬蟲相比,微博爬蟲的研究目標(biāo)是以下三個方面:(1)如何描述或定義抓取網(wǎng)頁目標(biāo)。(2)怎樣排列待爬行URL的具體次序。微博爬蟲根據(jù)已經(jīng)下載頁面的相關(guān)聯(lián)程度度,怎樣將頁面放到優(yōu)先級隊列中是根據(jù)該頁面的子頁面與用戶定義的相關(guān)度來決定的。有了用戶定義的相關(guān)度,微博爬蟲的爬行策略就不再是簡單的深度或者廣度優(yōu)先了,而是根據(jù)相關(guān)度的大小,最先訪問相關(guān)度大的網(wǎng)頁連接。(3)怎樣判斷一個網(wǎng)頁是否和策略有關(guān)系。挖取數(shù)據(jù)技術(shù)可以實現(xiàn)應(yīng)經(jīng)在隊列等爬行的連接和已經(jīng)獲取的網(wǎng)頁并且可以獲取具體的信息內(nèi)容。因此,主體不同的爬蟲之間的主要區(qū)別二就是目前爬行頁面的主題相關(guān)度。
微博爬蟲抓取策略是聚焦式定向抓取,根據(jù)需要對相應(yīng)的網(wǎng)頁或者論壇的信息進(jìn)行獲取,所以域名或者網(wǎng)站的條件需要過濾,并且條件還需要特定的設(shè)置。如baidu.com就可以設(shè)置成過濾條件,那么爬蟲收集網(wǎng)頁信息的時候就只會收集百度的網(wǎng)頁信息。對網(wǎng)站過濾、關(guān)鍵詞過濾、搜索工具過濾和最初連接的個數(shù)過濾等是聚焦式爬蟲的工作方式。用戶指定的網(wǎng)頁在全網(wǎng)的連接站點進(jìn)行抓取。但是聚焦式爬蟲的回應(yīng)是在前期完善的搜索平臺上進(jìn)行操作,如在百度或者谷歌上面來獲取一些鏈接并和本主題關(guān)系度較大。在爬行的時候首先從常用的搜索引擎中獲得一些網(wǎng)站鏈接,然后從中開始抓取,抓取的時候也是相關(guān)度越來越高,直到和用戶定義的條件滿足為止,到達(dá)最深的爬行度的時候才結(jié)束本次爬行過程。為了提高爬行的精度,微博爬蟲采用先對與用戶定義相關(guān)的頁面進(jìn)行連接,而不像普通爬蟲那樣對所有的頁面的進(jìn)行爬行,對用戶的相關(guān)度進(jìn)行分析后再處理,這樣爬行的精度就很自然的提高了,同時爬行的結(jié)果也與用戶與期待的結(jié)果相關(guān)的也大,達(dá)到了雙優(yōu)的結(jié)果,即使有少數(shù)遺漏了,也能讓大部分的用戶滿意。從以上可以看出如何分析用戶提出定義的主題的相關(guān)度是本微博爬蟲的關(guān)鍵技術(shù),對用戶提出的關(guān)鍵詞進(jìn)行分析是實現(xiàn)的最簡單的方法,再深一步的話就可以對主題所提到的概念和語義的分析,達(dá)到這一層次是比較精深的。
怎么對用戶定義的關(guān)鍵詞的主題相關(guān)度分析呢,大概的主要思路下面具體闡述:第一要確定用戶提出的關(guān)鍵詞,這個關(guān)鍵詞要有一定的權(quán)重還要能夠代表受限制的領(lǐng)域。第二利用空間向量的模型算法,來算出頁面的相關(guān)程度,從而確定主題的相關(guān)度的取舍與用戶定義主題相關(guān)度大的網(wǎng)絡(luò)頁面。普通爬蟲是概念和主題爬蟲的基礎(chǔ),兩者都是在普通爬蟲功能上進(jìn)行擴(kuò)充,在整個基于概念和基于關(guān)鍵詞的主題爬蟲系統(tǒng)全是以普通爬蟲作為基礎(chǔ),而在這基礎(chǔ)上進(jìn)行功能上的擴(kuò)充,主題分析相關(guān)度,優(yōu)化中子模塊,主題確立模塊,排序模塊就是頁面處理的整個過程。兩種方法的主要不同之處在于的怎么表示。其系統(tǒng)工作具體流程如下:第一爬行模塊搜索網(wǎng)絡(luò)頁面;第二爬行模塊對所爬取的網(wǎng)頁進(jìn)行分析,調(diào)用相關(guān)的算法模塊;第三根據(jù)檢測的結(jié)果對不同的結(jié)果進(jìn)行分析研究;第四對正在數(shù)據(jù)庫里等待處理的網(wǎng)絡(luò)連接進(jìn)行調(diào)用返回到第一步,一直到?jīng)]有新的網(wǎng)絡(luò)連接;第五爬取的響應(yīng)網(wǎng)頁結(jié)果進(jìn)行排序。做為輿情監(jiān)控控系統(tǒng)的重要組成部分,微博爬蟲和通用的網(wǎng)絡(luò)爬蟲類似,也需要遵守普通爬蟲的基本原則,如穩(wěn)定性、活動性、爬行時要遵守Robots協(xié)議等。
由于微博輿情監(jiān)控系統(tǒng)的特殊需要,微博爬蟲部分的設(shè)計和通用網(wǎng)絡(luò)爬蟲相比有很大區(qū)別。對整個網(wǎng)絡(luò)內(nèi)容信息進(jìn)行抓取時通用爬蟲的的工作策略,深度和廣度策略都要用到。每一次完成抓取內(nèi)容,爬蟲都需要廣泛的撒網(wǎng),范圍很大,同時也需要相對較長的時間和資源。聚焦抓取和定向抓取是爬蟲常用的策略,但是在具體的實施過程中要選擇既效率高又節(jié)省資源的方法對各種和主題相關(guān)的網(wǎng)頁進(jìn)行收集獲取,這也是輿情監(jiān)控系統(tǒng)重要功能體現(xiàn)。聚焦爬蟲為了避免資源浪費,采取了只對與用戶定制主題相關(guān)的資源進(jìn)行獲取,實現(xiàn)的方法是通過計算向量空間模型實現(xiàn)的,在最短的時間內(nèi)完成信息的獲取,并且工作范圍還比較小,這就是定向抓取的方式。通過網(wǎng)頁的連接信息能夠查詢到所屬的歸屬地,也可以判斷出這個網(wǎng)頁是否和具體的某個微博關(guān)系度比較大。用戶只關(guān)心與自己定義主題有關(guān)的信息,所以僅連接本微博相關(guān)度大的連接。用關(guān)鍵詞的范圍比較和語義擴(kuò)展來實現(xiàn)微博爬蟲的靈活性。為了不丟棄和用戶定義的主題的信息,可以通過提高判斷關(guān)鍵詞和識別的比較的方法。為了減輕微博爬蟲爬行負(fù)擔(dān),爬蟲一般會設(shè)法減少爬取網(wǎng)頁的相關(guān)數(shù)目。用戶可以通過設(shè)置一定的爬行策略來滿足抓取時的特殊需要,如設(shè)置限定的爬蟲的爬取范圍或者利用關(guān)鍵詞實現(xiàn)高速獲取信息等,省掉了抓取無關(guān)網(wǎng)頁的大量時間。
第一,快速抓取網(wǎng)絡(luò)時刻更新的大量內(nèi)容,網(wǎng)絡(luò)頁面的更新也需要爬蟲定時的回訪原來爬行過的頁面站點,從而確保最新的焦點話題能夠能夠在整個輿情監(jiān)控系統(tǒng)中快速獲取。微博爬蟲的工作效率和多次抓取有著重要的關(guān)系,尤其是多次爬去的效率和范圍。增量式抓取和周期性抓取策略是網(wǎng)站頁面抓取的重要手段,為了保證網(wǎng)頁信息的時效性采取對多個網(wǎng)頁定期性的爬取,同時根據(jù)爬去的周期性采取不同的爬行策略,對于和主題相關(guān)度比較大的網(wǎng)頁重點抓取。
第二,在微博爬取過程中在一定時間內(nèi)是爬行模塊是比較固定的,它的目錄機(jī)構(gòu)要遵循一定的命名規(guī)則,所以很明顯的區(qū)別與其他的模塊。例如新浪微博等微博中不相同模塊就可以通過域名來區(qū)別出來,也就可以利用這樣來給爬取的文檔分類保存,不同的微博模塊可以采用不同的爬取策略,例如對變化比較快,比較大的模塊可以設(shè)置多次的爬行策略,而對于變化速度比較慢的模塊可以減少爬行次數(shù),從而提高了爬行的效率。當(dāng)然要實現(xiàn)以上的策略,需要有智能的識別系統(tǒng)來識別微薄的更新速度和時間,也對不同的網(wǎng)絡(luò)連接是指不同的抓取策略。
[1]PJianpingZeng,PShiyong Zhang,Chengrong Wu,PJianfengXiePredictive Modelfor Internet Public Opinion.Proceedings of the Fourth International Conference onFuzzy Systems and Knowledge Discovery(FSKD 2007).2007,Vol.3:7-11。
[2]姜勝洪.網(wǎng)絡(luò)輿情熱點的形成與發(fā)展、現(xiàn)狀及輿論引導(dǎo)[J].理論月刊,2008,(4)
[3]張旭,張振江,劉云.BBS輿情系統(tǒng)爬蟲模塊的研究[J].鐵路計算機(jī)應(yīng)用2010(12)18-21
[4]劉金紅,陸余良.主題網(wǎng)絡(luò)爬蟲研究綜述[J].計算機(jī)應(yīng)用研究.2007(10)26-29.
[5]A.Rungsawang,N.Angkawattanawit.Learnable topic—sp'ecificweb crawler[J].Journal ofNetwork and Computer Applica—tions.2005(28):97—11
[6]邁克塞沃爾.鏈接分析:信息科學(xué)的研究方法[M].孫建軍,李江,張煦,等.南京:東南大學(xué)出版社,2009:15.