• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    網(wǎng)絡(luò)輿情分析系統(tǒng)信息清理的研究

    2009-07-16 09:33:54呂洪波姚錦峰
    新媒體研究 2009年8期
    關(guān)鍵詞:信息采集

    呂洪波 姚錦峰 梁 飛

    [摘要]信息采集是網(wǎng)絡(luò)輿情分析系統(tǒng)中最主要的步驟之一,搜索引擎在網(wǎng)絡(luò)上搜索主題相關(guān)信息時(shí),不可避免的會(huì)產(chǎn)生相當(dāng)數(shù)量的與主題無(wú)關(guān)信息。將這些無(wú)關(guān)信息清理掉,對(duì)提高話題抽取和情感分析的效率和精度意義重大,能夠加快整個(gè)系統(tǒng)分析速度和準(zhǔn)確度。提出信息清理的必要性,在系統(tǒng)中將信息清理和中文采詞結(jié)合起來(lái),提高系統(tǒng)運(yùn)行效率和準(zhǔn)確度。

    [關(guān)鍵詞]網(wǎng)絡(luò)輿情分析 信息采集 中文分詞 信息清理

    中圖分類號(hào):TP3文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1671-7597(2009)0420070-01

    一、引言

    公眾關(guān)于現(xiàn)實(shí)社會(huì)以及社會(huì)中的各種現(xiàn)象、問(wèn)題所持有的信念態(tài)度及觀點(diǎn)和(或)情緒的總和稱之為輿情。輿情可以通過(guò)多種方式、多種媒介表示和表達(dá)出來(lái)。其中,通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)和通信網(wǎng)絡(luò),是當(dāng)前最重要的方式之一。這就是所謂網(wǎng)絡(luò)輿情[1-3]。在互聯(lián)網(wǎng)上,網(wǎng)民針對(duì)那些關(guān)系到自身利益或者是自己所關(guān)心的各種公共事務(wù),包括突發(fā)事件、社會(huì)熱點(diǎn)問(wèn)題、政府決策、公眾人物言行等等,比在現(xiàn)實(shí)世界中會(huì)更積極地發(fā)言,這是有益的一面。但由于歷史的原因,我國(guó)曾長(zhǎng)期處于封閉狀態(tài),容易受到外來(lái)思想文化的沖擊,這是有害的一面。我國(guó)當(dāng)前所面臨的網(wǎng)絡(luò)輿情分析與預(yù)警的形勢(shì)極其嚴(yán)峻,政府及相關(guān)管理者亟需對(duì)處于“未然態(tài)”的輿情信息進(jìn)行挖掘與分析,把握處理危機(jī)事件的最佳時(shí)機(jī)。

    因此,必須利用現(xiàn)代信息技術(shù)對(duì)網(wǎng)絡(luò)輿情予以分析,從而進(jìn)行控制和引導(dǎo)。由于網(wǎng)上的信息量十分巨大,僅依靠人工的方法難以應(yīng)對(duì)網(wǎng)上海量信息的收集和處理,需要加強(qiáng)相關(guān)信息技術(shù)的研究,形成一套自動(dòng)化的網(wǎng)絡(luò)輿情分析系統(tǒng)。及時(shí)應(yīng)對(duì)網(wǎng)絡(luò)輿情,由被動(dòng)防堵,化為主動(dòng)梳理、引導(dǎo)。系統(tǒng)中的信息采集一步中,不可避免地會(huì)有相當(dāng)數(shù)量與主題無(wú)關(guān)的信息被采集到,從而影響到后面分析的速度和準(zhǔn)確度,所以應(yīng)該將其清除。本文主要闡述對(duì)無(wú)關(guān)信息的清理,提高后面分析的速度與準(zhǔn)確度。

    二、信息處理

    (一)信息采集系統(tǒng)

    信息采集是通過(guò)搜索引擎實(shí)現(xiàn)的。搜索引擎(searchEngine)是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序搜集互聯(lián)網(wǎng)上的信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù)的系統(tǒng)。搜索引擎的搜索過(guò)程一般包括3個(gè)步驟:

    本系統(tǒng)采用Win web Crawer v2.0 Final。它是強(qiáng)大的網(wǎng)站抓取工具,可從網(wǎng)站、網(wǎng)頁(yè)目錄、搜索結(jié)果、文件的URL清單中抓取URL的Meta 標(biāo)簽(標(biāo)題,描述,關(guān)鍵字);標(biāo)簽間的純文本;頁(yè)面大??;最后修改日期值等信息。高速,多因子,準(zhǔn)確抓取-直接存儲(chǔ)數(shù)據(jù)到磁盤(pán)文件。程序有無(wú)數(shù)過(guò)濾器來(lái)限制進(jìn)程,例如URL過(guò)濾器,文本過(guò)濾器,數(shù)據(jù)過(guò)濾器,域過(guò)濾器,數(shù)據(jù)修改等等。它允許用戶選擇重建等級(jí),激活信息,超時(shí)限制,代理支持等許多其它功能。將主題句輸入進(jìn)行搜索,得到的結(jié)果依次存入數(shù)據(jù)庫(kù)中。

    (二)中文分詞模塊

    眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開(kāi),而中文是以字為單位,句子中所有的字連起來(lái)才能描述一個(gè)意思。例如,英文句子"I am a student",用中文則為:"我是一個(gè)學(xué)生"。計(jì)算機(jī)可以很簡(jiǎn)單通過(guò)空格知道"student"是一個(gè)單詞,但是不能很容易明白「學(xué)」、「生」兩個(gè)字合起來(lái)才表示一個(gè)詞。把中文的漢字序列切分成有意義的詞,就是中文分詞。

    中國(guó)科學(xué)院計(jì)算技術(shù)研究所在多年研究基礎(chǔ)上,耗時(shí)一年研制出了基于多層隱馬模型的漢語(yǔ)詞法分析系統(tǒng) ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System),該系統(tǒng)的功能有:中文分詞;詞性標(biāo)注;未登錄詞識(shí)別。ICTCLAS被中外媒體廣泛地報(bào)道,國(guó)內(nèi)很多免費(fèi)的中文分詞模塊都或多或少的參考過(guò)ICTCLAS的代碼。

    本系統(tǒng)的中文分詞模塊就是基于ICTCLAS,能對(duì)中文句子進(jìn)行分詞和詞形標(biāo)注。如圖1。

    (三)信息處理模塊

    通過(guò)Win web Crawer v2.0 Final搜索到的信息會(huì)有大量與主題無(wú)關(guān)??梢酝ㄟ^(guò)相應(yīng)的標(biāo)題和用于搜索的主題句,將這些用于下一步分析的標(biāo)簽間的純文本清除。具體過(guò)程為:將用于搜索的主題句通過(guò)中文分詞程序,保留名詞、動(dòng)詞和詞組,再將采集到的每篇文章的標(biāo)題依次從數(shù)據(jù)庫(kù)中調(diào)出,通過(guò)中文分詞程序,將名詞、動(dòng)詞和詞組分別與主題句中得到的進(jìn)行比較,如果找不到相同的就采用VC程序?qū)⑵鋸臄?shù)據(jù)庫(kù)中刪除,從而去除了大量無(wú)關(guān)的信息[4-6]。

    三、試驗(yàn)結(jié)果

    (一)實(shí)驗(yàn)環(huán)境

    由于數(shù)據(jù)量不是很大(小于10萬(wàn)條),所以使用一般的PC作為服務(wù)器。CPU使用Intel(R)Pentium(R)D2.80GHz(雙核),內(nèi)存大小為1GB,操作系統(tǒng)使用W in-dowsXP Professional SP2,數(shù)據(jù)庫(kù)為SQL Server2000。

    (二)性能分析

    實(shí)驗(yàn)結(jié)果見(jiàn)表1。表1的說(shuō)明:N信息源個(gè)數(shù);EN清除后信息源個(gè)數(shù);MN清除掉的信息源;個(gè)數(shù)V平均每秒處理的個(gè)數(shù);包括信息的數(shù)據(jù)庫(kù)存儲(chǔ)。

    由實(shí)驗(yàn)結(jié)果可見(jiàn),使用該方法可以有效的清除大量無(wú)關(guān)信息,處理速度較快,能夠完成網(wǎng)絡(luò)輿情分析系統(tǒng)對(duì)該模塊的要求。

    四、結(jié)束語(yǔ)

    信息采集中得到的無(wú)關(guān)信息不但會(huì)占用空間還會(huì)影響后面分析的速度與精度,為了提高話題抽取和情感分析的效率與精度,有必要把這些無(wú)關(guān)的信息清理掉。每次采集得到的無(wú)關(guān)信息的多少都會(huì)不同,經(jīng)過(guò)信息清理得到的效果也不相同。通過(guò)信息清理去除了大量無(wú)關(guān)信息,提高了后面分析的速度與準(zhǔn)確度,信息清理工作是成功的。

    參考文獻(xiàn):

    [1]王來(lái)華,輿情研究概論:理論、方法和現(xiàn)實(shí)熱點(diǎn),天津:天津社會(huì)科學(xué)院,2003.9(1).

    [2]陳力丹,輿論學(xué)輿論導(dǎo)向研究[M].北京:中國(guó)廣播電視出版社,1999:10-11.

    [3]王來(lái)華、劉毅,中國(guó)2004年輿情研究綜述[J].新華文摘,2005(18).

    [4]Introuduction to Programming with C++:Comprehensive Version.

    [5]Sartaj Sahni.Data Structures,Algorithms,and Applications in C++Publisher: Silicon Press;2 edition (August 31,2004).

    [6]Vapnik V.Statistical Learning Theory .Wiley, 1998.

    猜你喜歡
    信息采集
    基于Internet的網(wǎng)絡(luò)化交通信息采集系統(tǒng)
    科學(xué)家(2016年3期)2016-12-30 00:03:25
    Windows下網(wǎng)絡(luò)空間主機(jī)節(jié)點(diǎn)信息采集
    如何提高卷煙零售市場(chǎng)信息采集的有效性
    計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)在信息工程中的應(yīng)用
    電力信息采集系統(tǒng)中對(duì)載波現(xiàn)場(chǎng)測(cè)試儀的應(yīng)用
    水文信息采集網(wǎng)絡(luò)受工程影響的分析
    用電信息采集系統(tǒng)安全防護(hù)
    無(wú)線傳感器網(wǎng)絡(luò)在農(nóng)田溫濕度信息采集中的應(yīng)用
    科技視界(2016年9期)2016-04-26 09:33:08
    電力用戶用電信息采集系統(tǒng)應(yīng)用及效益分析
    淺析計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)在電子信息工程中的實(shí)踐
    兴安县| 西昌市| 聂荣县| 安乡县| 武夷山市| 锦州市| 苍南县| 买车| 枣阳市| 大方县| 嘉峪关市| 锦州市| 上蔡县| 岑巩县| 出国| 诏安县| 莱州市| 清流县| 罗源县| 永泰县| 静安区| 丰台区| 宣威市| 宜良县| 喀喇沁旗| 介休市| 宁城县| 永善县| 哈尔滨市| 陇川县| 大冶市| 万源市| 祁阳县| 左权县| 页游| 灌云县| 崇州市| 廉江市| 会同县| 丰县| 巴林右旗|