• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      微博地震謠言監(jiān)測系統(tǒng)

      2012-04-02 00:05:04
      地震科學(xué)進展 2012年6期
      關(guān)鍵詞:配置文件關(guān)鍵字知識庫

      程 志

      (福建省地震局,福州 350003)

      據(jù)有關(guān)部門測算,一次廣泛的地震謠言事件所造成的損失,不亞于一次中等強度的地震。自 2008年汶川大地震以來,我國曾發(fā)生多起地震謠傳事件,每次都帶來了較大的社會危害。由于互聯(lián)網(wǎng)在信息傳播上的優(yōu)勢,互聯(lián)網(wǎng)媒體經(jīng)常是地震謠言的滋生源。特別是新出現(xiàn)的微博平臺,由于其極大降低了個體對社會發(fā)布和傳播信息的成本,它已成為最主要的網(wǎng)絡(luò)謠言傳播平臺。針對這種情況,本文提出一種面向新浪微博的地震謠言監(jiān)測系統(tǒng),通過對該微博平臺的實時檢測,實現(xiàn)及時發(fā)現(xiàn)新出現(xiàn)的地震謠言的目的。

      1 原理分析

      微博地震謠言監(jiān)測系統(tǒng)的運行過程主要包括疑似謠言信息的捕捉、進一步甄別和告警3個步驟。

      (1)疑似謠言信息的捕捉:由于新浪微博平臺提供了獨立的微博搜索引擎,通過它可以抓取含有指定關(guān)鍵字的微博內(nèi)容。因此,在此基礎(chǔ)上設(shè)計定制的網(wǎng)絡(luò)爬蟲程序定期對微博搜索引擎指定關(guān)鍵字頁面進行網(wǎng)頁數(shù)據(jù)挖掘,對照之前的挖掘記錄排除冗余結(jié)果即可獲得最新的疑似信息,疑似信息以XML格式提交給下一步驟。

      (2)疑似信息的進一步甄別:使用干擾信息的過濾和高危信息匹配兩種策略相結(jié)合的方式實現(xiàn)甄別。干擾信息和高危信息均通過與知識庫匹配判定。知識庫里保存兩類信息特征,一是常見的干擾信息的特征,以分詞組形式保存,例如,以“地震”為關(guān)鍵字捕捉到的疑似信息里如果包含“官場地震”、“娛樂圈地震”等分詞,則判定為干擾信息予以排除;另一種是高危謠言的特征,以正則表達式的形式保存,以福州為例,如果疑似信息里一句話中按照先后順序包含“預(yù)測”,“福州”,“將發(fā)生”,“級地震”等詞,即可判定為是地震謠言。

      (3)告警:系統(tǒng)接駁短信網(wǎng)關(guān),發(fā)現(xiàn)地震謠言后將相關(guān)人員的手機發(fā)送告警短信。

      2 系統(tǒng)結(jié)構(gòu)

      系統(tǒng)主要由6個軟件模塊及配置文件、挖掘規(guī)則文件、知識庫(數(shù)據(jù)庫)構(gòu)成。①下載模塊:定時提交特定關(guān)鍵字對應(yīng)的URL提交給新浪微博搜索引擎,下載對應(yīng)的HTML頁面文件。下載的時間間隔和關(guān)鍵字列表記錄在配置文件中。②HTML解析器:將下載到的HTML文件解析成內(nèi)存中的數(shù)據(jù)對象。③HTML數(shù)據(jù)挖掘模塊:根據(jù)挖掘規(guī)則文件從HTML解析器生成的數(shù)據(jù)對象提取微博列表,包括每一條微博的發(fā)布者名稱,帳號,微博正文等信息,并保存至一個XML對象中。挖掘規(guī)則文件記錄了下載到的HTML頁面中關(guān)鍵的HTML元素與要生成的XML對象中的元素的映射關(guān)系。④干擾信息過濾模塊:分析HTML數(shù)據(jù)挖掘模塊生成的XML中的微博條目,根據(jù)分詞庫獲得微博正文包含的分詞集,與知識庫中常見干擾信息包含的分詞進行匹配從而過濾干擾信息。⑤高危信息檢測模塊:將經(jīng)干擾信息過濾模塊處理后的XML對象中的微博正文進行分句,將分句與知識庫中高危信息的正則表達式進行匹配,產(chǎn)生判定結(jié)果提交給報警模塊。⑥報警模塊:編輯報警信息,并發(fā)送給配置文件中記錄的手機號碼。該模塊一端接駁短信網(wǎng)關(guān)API,另一端對高危信息檢測模塊提供寫入接口。

      系統(tǒng)程序部分使用Visual C#語言編寫,數(shù)據(jù)庫為My SQL,使用開源的HTML Parser組件作為HTML解析器。另外,在我局之前為其他項目開發(fā)的HTML頁面數(shù)據(jù)挖掘組件XBPicker中的大部分代碼被復(fù)用至本系統(tǒng)中HTML數(shù)據(jù)挖掘模塊中。

      3 結(jié)論

      2012年3月至4月間,系統(tǒng)累計試運行了20天,設(shè)定的監(jiān)控地區(qū)為福建,系統(tǒng)共捕捉到65條謠言信息,其中僅一條為誤報警。該系統(tǒng)首次實現(xiàn)了對新浪微博平臺的地震謠言監(jiān)測功能,具有首創(chuàng)意義。系統(tǒng)具有簡單易用,檢測精度較高,實時性好的特點,將地震謠言被發(fā)布至被檢測到的時間間隔縮短到幾分鐘以內(nèi),具有較高的實用價值。

      猜你喜歡
      配置文件關(guān)鍵字知識庫
      提示用戶配置文件錯誤 這樣解決
      履職盡責求實效 真抓實干勇作為——十個關(guān)鍵字,盤點江蘇統(tǒng)戰(zhàn)的2021
      華人時刊(2022年1期)2022-04-26 13:39:28
      搭建簡單的Kubernetes集群
      互不干涉混用Chromium Edge
      成功避開“關(guān)鍵字”
      基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機設(shè)計中的應(yīng)用
      忘記ESXi主機root密碼怎么辦
      高速公路信息系統(tǒng)維護知識庫的建立和應(yīng)用
      基于Drupal發(fā)布學(xué)者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
      圖書館研究(2015年5期)2015-12-07 04:05:48
      基于用戶反饋的關(guān)系數(shù)據(jù)庫關(guān)鍵字查詢系統(tǒng)
      寿宁县| 长岛县| 高陵县| 宁蒗| 屯门区| 扶余县| 白沙| 本溪| 资兴市| 浦东新区| 正镶白旗| 西乌珠穆沁旗| 揭阳市| 宝应县| 淮阳县| 乌兰县| 垦利县| 沁阳市| 锦州市| 池州市| 牟定县| 萨嘎县| 随州市| 惠州市| 西乌珠穆沁旗| 贡嘎县| 望江县| 贵德县| 比如县| 镇雄县| 历史| 株洲县| 广宗县| 特克斯县| 柘城县| 泰顺县| 萝北县| 湘潭县| 土默特左旗| 东乡县| 翁牛特旗|