摘 要:互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,使得其在當(dāng)今社會(huì)中承載傳遞的信息日趨增大,在給人們的生活帶來方便的同時(shí),也給相關(guān)領(lǐng)域的網(wǎng)絡(luò)輿情管理工作帶來了一定壓力。爬蟲技術(shù)是互聯(lián)網(wǎng)搜索引擎通過一定的指令性程序,對網(wǎng)頁進(jìn)行信息提取技術(shù),是當(dāng)前有針對性地進(jìn)行輿情的基礎(chǔ)要素。以網(wǎng)絡(luò)爬蟲技術(shù)在輿情分析中的應(yīng)用為中心展開討論,介紹了互聯(lián)網(wǎng)輿情檢索技術(shù)的基本構(gòu)成,分析了爬蟲技術(shù)的特點(diǎn),提出了優(yōu)化網(wǎng)絡(luò)爬蟲技術(shù)的相關(guān)方案,同時(shí)通過實(shí)例進(jìn)行了驗(yàn)證,具有一定的借鑒價(jià)值。
關(guān)鍵詞:網(wǎng)絡(luò)輿情;網(wǎng)絡(luò)爬蟲;網(wǎng)絡(luò)資源;爬蟲測速;主題更改
中圖分類號(hào):TP391.3
21世紀(jì)是信息科學(xué)技術(shù)飛速發(fā)展的世紀(jì),互聯(lián)網(wǎng)在生活中的應(yīng)用越來越廣泛,尤其是隨著智能手機(jī)逐漸普遍,人們能夠通過移動(dòng)互聯(lián)網(wǎng)更加便捷地獲得外部資訊。網(wǎng)絡(luò)輿情是當(dāng)前網(wǎng)民們針對熱點(diǎn)社會(huì)事件以及社會(huì)政治經(jīng)濟(jì)狀況等內(nèi)容反映出的態(tài)度總和?!肮苤懈Q豹,時(shí)見一斑”,可以說網(wǎng)絡(luò)輿情就是當(dāng)前社會(huì)現(xiàn)狀的放大鏡,針對這些態(tài)度思想及政治傾向的社會(huì)輿論信息的收集整合,是分析社會(huì)動(dòng)向、研究人民需求的重要手段。
互聯(lián)網(wǎng)引擎搜索技術(shù)并未完全成熟,在很多具體環(huán)節(jié)仍舊存在著缺點(diǎn),嚴(yán)重制約著網(wǎng)絡(luò)輿情監(jiān)測工作的全面展開。傳統(tǒng)的網(wǎng)絡(luò)爬蟲技術(shù)在進(jìn)行網(wǎng)絡(luò)信息的獲取時(shí),對其內(nèi)容的處理精確性和不足,存在著無用信息過多和部分關(guān)鍵信息缺失的情況。因而,針對網(wǎng)絡(luò)爬蟲技術(shù)進(jìn)行研究,提出更為有效的優(yōu)化措施是一項(xiàng)十分必要的工作。
1 互聯(lián)網(wǎng)輿情檢索技術(shù)
現(xiàn)階段建設(shè)的網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)基本涵蓋了所有互聯(lián)網(wǎng)領(lǐng)域的基本技術(shù),是一項(xiàng)復(fù)雜而龐大工程。但從系統(tǒng)的功能實(shí)現(xiàn)上看,輿情監(jiān)測系統(tǒng)的關(guān)鍵技術(shù)是由互聯(lián)網(wǎng)信息采集技術(shù)和文本信息抽取技術(shù)構(gòu)成的。
1.1 互聯(lián)網(wǎng)信息采集技術(shù)簡介
作為互聯(lián)網(wǎng)搜索引擎獲得信息的基本技術(shù),信息采集技術(shù)的實(shí)現(xiàn)方法包括元搜索和網(wǎng)絡(luò)爬蟲兩種模式。這也是當(dāng)前網(wǎng)絡(luò)輿情監(jiān)測信息獲得的主要途徑。
所謂元搜索技術(shù),就是在檢索過程中將多個(gè)網(wǎng)絡(luò)搜索引擎以串聯(lián)的方式運(yùn)行,監(jiān)測方提交的搜索條件被初步處理后,分送給這些串行的搜索引擎,由其各自完成對相應(yīng)數(shù)據(jù)庫信息的檢索工作,在獲得初步搜索結(jié)果后,再將這部分信息進(jìn)行二次加工,通過去重、排序、過濾等方式完成冗余信息的處理。元搜索技術(shù)在檢索信息全面性方面要明顯優(yōu)于單搜索引擎技術(shù)。同時(shí),元搜索技術(shù)在進(jìn)行信息檢索時(shí)并不需要對所有互聯(lián)網(wǎng)信息進(jìn)行搜索,具有明顯的效率優(yōu)勢。
1.2 網(wǎng)頁信息抽取及預(yù)處理技術(shù)
作為網(wǎng)絡(luò)信息獲取的最終步驟,對檢索程序獲得的網(wǎng)頁信息進(jìn)行抽取和預(yù)處理是搜索信息全面的重要影響因素。所謂網(wǎng)頁信息抽取及預(yù)處理技術(shù)是將網(wǎng)絡(luò)信息中包含的自然語言根據(jù)檢索條件進(jìn)行提取,從中獲得需要的實(shí)體、關(guān)系、事件等要素,最終并用易于理解接受的規(guī)范化形式對結(jié)果進(jìn)行記錄和展示?,F(xiàn)階段一個(gè)成熟的互聯(lián)網(wǎng)網(wǎng)站,其頁面通常包括導(dǎo)航欄、正文標(biāo)題、正文內(nèi)容、相關(guān)鏈接、推廣信息、版權(quán)公告等。而在這些內(nèi)容中,真正吸引用戶的是正文標(biāo)題和正文內(nèi)容,也就是切合用戶需求的主體信息。在獲取網(wǎng)絡(luò)信息的過程中盡量獲得這些主體內(nèi)容,對其他次要信息進(jìn)行選擇性忽略正是網(wǎng)頁信息抽取及預(yù)處理技術(shù)重要的功能。
2 輿情監(jiān)測網(wǎng)絡(luò)爬蟲技術(shù)簡介
作為當(dāng)前重要的互聯(lián)網(wǎng)信息采集技術(shù),網(wǎng)絡(luò)爬蟲(We-bCrawler)技術(shù)在實(shí)際應(yīng)用中收到了較好的效果。當(dāng)前各領(lǐng)域構(gòu)件的輿情采集系統(tǒng)中廣泛采用的是Heritrix網(wǎng)絡(luò)爬蟲,這一開源程序允許用戶的自主修改移植。Heritrix主要有三大部件:范圍部件、邊界部件、處理器鏈。其中,范圍部件控制抓取的URL入隊(duì)過程;邊界部件則對選定的URL的收集情況進(jìn)行監(jiān)測,進(jìn)而選擇下一個(gè)URL,排除已處理URL;處理器鏈則可視為URL處理器,其工作結(jié)果會(huì)反饋給邊界部件。
網(wǎng)絡(luò)爬蟲的工作流程是從未訪問URL隊(duì)列中選取目標(biāo)并開始爬行,通過URL的指向作用,引導(dǎo)程序識(shí)別目標(biāo)網(wǎng)頁,通過事先認(rèn)可的網(wǎng)絡(luò)協(xié)議將網(wǎng)頁內(nèi)容爬取抽取出來,然后解析內(nèi)容其中包括目標(biāo)網(wǎng)頁內(nèi)的新URL,并將這部分URL添加進(jìn)未訪問列表,完成爬取后獲取的內(nèi)容存放到本地網(wǎng)頁庫內(nèi)。
3 提高網(wǎng)絡(luò)爬蟲在輿情監(jiān)測應(yīng)用水平的措施
網(wǎng)絡(luò)爬蟲的本質(zhì)是能夠使實(shí)現(xiàn)網(wǎng)絡(luò)信息自動(dòng)提取代碼程序,是網(wǎng)絡(luò)搜索引擎功能的主要實(shí)現(xiàn)手段。網(wǎng)絡(luò)爬蟲包括通用爬蟲和面向主題爬蟲兩種,當(dāng)前網(wǎng)絡(luò)輿情監(jiān)測使用的面向主題網(wǎng)絡(luò)爬蟲程序,會(huì)通過網(wǎng)頁分析算法對非設(shè)定主題鏈接進(jìn)行排除過濾,提高了搜索的精確性。當(dāng)前,網(wǎng)絡(luò)輿情監(jiān)測中的面向主題爬蟲技術(shù)的主要研究對象的行業(yè)領(lǐng)域的URL搜索策略問題。
3.1 改善爬蟲網(wǎng)絡(luò)利用率的解決方案
網(wǎng)絡(luò)爬蟲的利用率是當(dāng)下輿情監(jiān)測工作的重要限制因素,高效的爬蟲利用能夠更為便捷地獲得全面而準(zhǔn)確的信息。
為了準(zhǔn)確掌握爬蟲工作的效率,我們在爬蟲中加入測速的方法,對爬蟲抓取速度進(jìn)行監(jiān)測和工作特征數(shù)據(jù)進(jìn)行分析。根據(jù)監(jiān)測結(jié)果,在抓取速度較慢的階段,采取相應(yīng)措施進(jìn)行修正,保證程序?qū)W(wǎng)路資源的高效利用。這一解決方案的具體實(shí)現(xiàn)步驟如下:
(1)爬蟲抓取速度監(jiān)控。抓取速度是進(jìn)行衡量信息獲取水平的重要衡量因素,影響爬蟲的網(wǎng)頁抓取速度主要有兩個(gè)因素,分別是抓取頁面的大小和抓取這些頁面所耗費(fèi)的時(shí)間。因而,可以根據(jù)基本的換算關(guān)系定義網(wǎng)絡(luò)爬蟲抓取速度B:B=PT,式中:T為爬蟲進(jìn)行抓取的時(shí)間間隔;P代表該時(shí)間間隔內(nèi)抓取頁面的大小。
(2)爬行策略更改。40%正常水平的抓取速度是十分低效的,這時(shí)必須采取相應(yīng)的措施進(jìn)行解決。常見的措施主要包括:減少爬蟲的線程數(shù);暫停當(dāng)前爬蟲的運(yùn)行,選擇適當(dāng)?shù)臅r(shí)間繼續(xù)爬行;更換爬行網(wǎng)站。
3.2 改善爬蟲主題覆蓋率的解決方案
當(dāng)前的社會(huì)熱點(diǎn)層出不窮,具有一定的突然性,同時(shí)在人們的討論和交流中會(huì)進(jìn)一步發(fā)酵,產(chǎn)生的信息量很大。為了保證網(wǎng)絡(luò)輿情監(jiān)測工作的順利進(jìn)行,就要求爬蟲程序具有較高的抓取的覆蓋率。另外,在進(jìn)行網(wǎng)頁內(nèi)容的抓取過程中,爬蟲程序需要執(zhí)行網(wǎng)頁與主題相關(guān)度的計(jì)算,會(huì)影響爬行速度。所以在進(jìn)行網(wǎng)絡(luò)爬蟲抓取優(yōu)化時(shí),通常會(huì)使用在傳統(tǒng)爬蟲中加入主題更改模塊的形式,即保證了抓取速度的同時(shí)也提高了主題覆蓋率。
3.3 系統(tǒng)設(shè)計(jì)與測試
通過以上分析可知,提高爬蟲系統(tǒng)工作效率的關(guān)鍵是在其內(nèi)部添加測速模塊和主體更改模塊,由此可完成設(shè)計(jì)方案的優(yōu)化。該爬蟲在傳統(tǒng)爬蟲的基礎(chǔ)上添加了爬蟲測速模塊和主題更改模塊。
4 結(jié)束語
網(wǎng)絡(luò)爬蟲技術(shù)是當(dāng)前輿情監(jiān)測系統(tǒng)中使用的重要技術(shù),在網(wǎng)頁內(nèi)容獲取方面發(fā)揮了重要作用。限制這一技術(shù)進(jìn)一步發(fā)揮作用的主要原因是爬蟲程序的網(wǎng)絡(luò)資源利用率的問題。同時(shí),網(wǎng)絡(luò)輿情監(jiān)測檢索突發(fā)性和大數(shù)據(jù)性特征,要求爬蟲抓取信息的過程更為迅速,主體覆蓋面也要更廣。本文通過在傳統(tǒng)爬蟲中加入了爬蟲測速監(jiān)控模塊和主題更改模塊的形式,進(jìn)行了抓取速度和覆蓋率的監(jiān)測實(shí)驗(yàn),其結(jié)果表明,這一優(yōu)化方案有效提高了爬蟲程序的執(zhí)行效率和信息獲得的全面性,是一種值得認(rèn)可的檢索技術(shù)。
參考文獻(xiàn):
[1]王桂梅.主題網(wǎng)絡(luò)爬蟲關(guān)鍵技術(shù)研究[D].哈爾濱工業(yè)大學(xué),2009.
[2]周巍巍.網(wǎng)絡(luò)爬蟲網(wǎng)頁庫智能更新策略分析與研究[J].電腦知識(shí)與技術(shù),2010(31).
作者單位:湖南民族職業(yè)學(xué)院,湖南岳陽 414000