李欣
〔摘 要〕大數(shù)據(jù)環(huán)境下,突發(fā)事件的危機(jī)數(shù)據(jù)來(lái)源復(fù)雜多樣,通過(guò)使用詞語(yǔ)相似度計(jì)算和Folksonomy自由標(biāo)記語(yǔ)言,把多模態(tài)的危機(jī)信息轉(zhuǎn)化成基于內(nèi)容特征項(xiàng)集合的單一情報(bào)信息源,建立危機(jī)信息采集萃取的整合組織模型。整合模型包括3個(gè)部分:危機(jī)信息內(nèi)容特征項(xiàng)集的提取、RDF資源的統(tǒng)一描述存儲(chǔ)和文本內(nèi)容特征域的聚類(lèi)劃分。通過(guò)整合聚類(lèi)危機(jī)信息源,從而實(shí)現(xiàn)不同危機(jī)信息源載體的規(guī)范化整合與組織,為危機(jī)的應(yīng)急管理提供統(tǒng)一化的情報(bào)信息數(shù)據(jù)源。積極發(fā)揮情報(bào)效用,為突發(fā)事件的應(yīng)急管理提供案例分析和情報(bào)預(yù)警。
〔關(guān)鍵詞〕多模態(tài)信息;相似度計(jì)算;Folksonomy;RDF;文本聚類(lèi)
〔中圖分類(lèi)號(hào)〕G250.73 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2016)12-0036-04
〔Abstract〕In a BIG DATA environment,the source of the crisis is complex,by using word similarity computation and network users free marking technology,the paper transfed the multimodal crisis information into a single information source,and an integrated model for the extraction of crisis information was established.The integrative course included three processes:collect information and extract features;describe and storage metadata;divide the feature domain.Realizing the integration of different sources of information sources,the paper provided a uniform information platform for emergency response of the crisis,to provide case analysis and intelligence warning.
〔Key words〕multimodal data;similarity computation;Folksonomy;RDF;text clustering
隨著2015年“8.12”天津港的爆炸事件,應(yīng)對(duì)突發(fā)事件的公共危機(jī)安全問(wèn)題愈發(fā)受到了全社會(huì)的強(qiáng)烈關(guān)注。回顧近幾年的公共安全突發(fā)事件[1],既有諸如“汶川”大地震的地質(zhì)自然災(zāi)害,也有諸如“H7N9”禽流感的公共衛(wèi)生事件。在網(wǎng)絡(luò)化和信息化飛速發(fā)展的大數(shù)據(jù)環(huán)境下,面對(duì)諸如此類(lèi)的公共安全突發(fā)事件,危機(jī)信息的呈現(xiàn)方式和載體形態(tài)逐漸多樣化,采集的信息樣本除了傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)外,還有半結(jié)構(gòu)化的文本數(shù)據(jù)和非結(jié)構(gòu)化的圖像數(shù)據(jù)。海量的多模態(tài)危機(jī)信息使管理決策部門(mén)迷失在信息的洪流中,給危機(jī)管理應(yīng)對(duì)過(guò)程的預(yù)警機(jī)制和應(yīng)急處理帶來(lái)了巨大障礙,如何把形態(tài)各異的不同載體形式的海量危機(jī)信息進(jìn)行統(tǒng)一標(biāo)準(zhǔn)和規(guī)范的整合與組織,為危機(jī)應(yīng)對(duì)提供情報(bào)支持,是應(yīng)對(duì)公共危機(jī)預(yù)警機(jī)制的重要環(huán)節(jié),并受到了國(guó)內(nèi)情報(bào)學(xué)領(lǐng)域?qū)<业母叨汝P(guān)注和積極探索。
畢玉青通過(guò)分析發(fā)現(xiàn)信息化社會(huì)中公共危機(jī)載體形態(tài)呈現(xiàn)出規(guī)模海量、影響廣泛、未知性強(qiáng)、分散與集中相結(jié)合的大數(shù)據(jù)特質(zhì),提出應(yīng)對(duì)危機(jī)管理的政府管理建議,從而提高危機(jī)應(yīng)對(duì)的有效性[2]。
熊楓從傳統(tǒng)政府危機(jī)信息管理中存在的問(wèn)題出發(fā),結(jié)合當(dāng)前大數(shù)據(jù)時(shí)代的到來(lái)給政府危機(jī)信息管理帶來(lái)的契機(jī),進(jìn)而深入探討大數(shù)據(jù)時(shí)代政府有效管理危機(jī)信息,以彌補(bǔ)傳統(tǒng)危機(jī)信息管理之不足的策略[3]。
武漢大學(xué)的李陽(yáng)等通過(guò)分析大數(shù)據(jù)環(huán)境下的突發(fā)事件應(yīng)急決策情報(bào)需求,提升應(yīng)急決策情報(bào)支持能力,探索一種新的應(yīng)急決策情報(bào)支持架構(gòu)——以情報(bào)工程化為主導(dǎo)、情報(bào)平行化為支撐的“兩融合”應(yīng)急決策情報(bào)服務(wù)模式[4]。
吳春玉從政府決策過(guò)程入手,在分析不同決策過(guò)程信息需求的基礎(chǔ)上,選定政府決策信息源,借鑒信息資源庫(kù)的建設(shè)方法,構(gòu)建政府決策信息采集模型[5]。
通過(guò)筆者對(duì)當(dāng)前危機(jī)信息的相關(guān)文獻(xiàn)整理研究后發(fā)現(xiàn),危機(jī)情報(bào)的應(yīng)急處理基本上都是圍繞大數(shù)據(jù)環(huán)境下的情報(bào)需求,從研究作用機(jī)理入手,構(gòu)建危機(jī)應(yīng)對(duì)管理模型。本文通過(guò)理論研究和實(shí)例分析,使用詞語(yǔ)相似度計(jì)算和Folksonomy自由標(biāo)記語(yǔ)言,通過(guò)定量和定性相結(jié)合的分析手段,整合海量數(shù)據(jù)下不同載體形態(tài)的危機(jī)信息數(shù)據(jù),按照統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范進(jìn)行存儲(chǔ),把多模態(tài)的危機(jī)信息轉(zhuǎn)化成單一的情報(bào)信息源,聚類(lèi)劃分文本內(nèi)容特征域集,從而為危機(jī)管理中的決策部門(mén)提供精準(zhǔn)的危機(jī)情報(bào)。
1 TF.IDF、Folksonomy、RDF的概念及其模型
1.1 TF.IDF的概念及定義
著名的信息檢索系統(tǒng)Smart中提出過(guò)一套詞語(yǔ)權(quán)重的計(jì)算方法,這種度量詞語(yǔ)在文檔中反復(fù)出現(xiàn)程度的形式化指標(biāo)稱(chēng)為T(mén)F.IDF。TF.IDF是信息檢索領(lǐng)域常用的方法[6],計(jì)算詞語(yǔ)的TF.IDF權(quán)重值,權(quán)重得分高的詞語(yǔ)就是文本文檔的主題詞和關(guān)鍵特征詞。
TF.IDF的定義如下:
定義1:假定文檔集中有N篇文檔,詞項(xiàng)i在ni篇文檔中出現(xiàn),并且fij為詞項(xiàng)i在文檔j中出現(xiàn)的次數(shù),詞項(xiàng)i在文檔j中的TF.IDF得分計(jì)算公式如下:
TFij.IDFi=(fij/maxkfkj)log2(N/ni)
TF是詞項(xiàng)頻率,是指詞項(xiàng)在文檔中出現(xiàn)次數(shù)和文檔中所有詞項(xiàng)出現(xiàn)的最大次數(shù)的比值,那么文檔中出現(xiàn)次數(shù)最多的詞項(xiàng)的TF值是1,文檔中其余詞項(xiàng)的頻率都小于1;IDF是逆文檔頻率。
1.2 Folksonomy的概念及模型
隨著WEB2.0的興起,淡化了信息提供者和信息使用者之間的界限[7],網(wǎng)絡(luò)用戶(hù)越來(lái)越多的參與到資源的組織和共享中去。用戶(hù)通過(guò)自己的主觀認(rèn)知和對(duì)資源的理解程度,對(duì)網(wǎng)絡(luò)共享資源進(jìn)行標(biāo)記和整理,使得資源更加具體化并便于檢索。從而形成了一種嶄新的文獻(xiàn)分類(lèi)方法——自由分類(lèi)法,即Folksonomy標(biāo)記語(yǔ)言。
Folksonomy包含資源、標(biāo)簽和用戶(hù)3個(gè)屬性,基于Folksonomy的自由分類(lèi)法是通過(guò)鼓勵(lì)網(wǎng)絡(luò)用戶(hù)的興趣愛(ài)好,針對(duì)網(wǎng)絡(luò)資源標(biāo)記標(biāo)簽的過(guò)程。譬如網(wǎng)絡(luò)用戶(hù)A和網(wǎng)絡(luò)用戶(hù)B,針對(duì)共享資源S1和S2,都標(biāo)記了自己的標(biāo)簽Label1、Labe2、Labe3、Labe4。Folksonomy模型如圖1所示。
1.3 RDF的概念與定義
資源描述框架(RDF)是面向語(yǔ)義Web的標(biāo)準(zhǔn)框架,是語(yǔ)義關(guān)聯(lián)數(shù)據(jù)模型的重要組成部分,語(yǔ)義網(wǎng)的基本特征是面向文本所表示的數(shù)據(jù),實(shí)現(xiàn)計(jì)算機(jī)自主閱讀和理解的網(wǎng)絡(luò)化搜索模式。語(yǔ)義網(wǎng)通過(guò)使用RDF資源描述框架直接進(jìn)行深度的資源描述,RDF以標(biāo)準(zhǔn)的XML形式表達(dá),提供一種表述、交換和利用元數(shù)據(jù)的框架[8]。
RDF的定義如下:
定義2:RDF通常采用三元組(R,D,F(xiàn))的資源描述框架來(lái)描述信息資源或數(shù)據(jù)對(duì)象,其中R是表示資源信息或者數(shù)據(jù)對(duì)象的本身。di∈D={d1,d2,……dm}(i≤m),D是表示資源的m個(gè)屬性,或者是事物的某些特性。fi∈F={f1,f2,……fm}(i≤m),F(xiàn)表示資源的每個(gè)屬性相對(duì)應(yīng)的鍵值等具體內(nèi)容。
2 多模態(tài)危機(jī)信息的組織整合模型研究
網(wǎng)絡(luò)泛在環(huán)境下,突發(fā)事件的危機(jī)數(shù)據(jù)來(lái)源復(fù)雜多樣,因此采集獲得的信息具有多元性和不確定性。危機(jī)信息的來(lái)源包括諸如危機(jī)管理平臺(tái)以及遙感監(jiān)控平臺(tái)等途徑,危機(jī)管理平臺(tái)記錄和收集了大量的文本類(lèi)型數(shù)據(jù)集,而遙感監(jiān)控平臺(tái)則記錄了大量的圖像類(lèi)型數(shù)據(jù)集。危機(jī)數(shù)據(jù)的組織整理是獲得危機(jī)情報(bào)的基礎(chǔ)工作,危機(jī)信息的組織整合過(guò)程包括數(shù)據(jù)集合內(nèi)容特征項(xiàng)集的提取、信息的RDF資源描述存儲(chǔ)和文本內(nèi)容特征域的聚類(lèi)劃分3個(gè)階段。危機(jī)信息的組織整合模型如圖2所示。
2.1 內(nèi)容特征項(xiàng)的提取
針對(duì)收集整理過(guò)程中生成的文本和圖像數(shù)據(jù)載體信息,需要通過(guò)使用文本表示語(yǔ)言和網(wǎng)絡(luò)用戶(hù)自由標(biāo)記的途徑,把不同模態(tài)的危機(jī)信息源轉(zhuǎn)化成計(jì)算機(jī)可以理解和閱讀的單一的自然語(yǔ)言信息源,即通過(guò)文本數(shù)據(jù)和圖像數(shù)據(jù)的語(yǔ)義降維模式,把多模態(tài)的信息源轉(zhuǎn)化成基于內(nèi)容特征項(xiàng)的詞語(yǔ)集合表示。
2.2 元數(shù)據(jù)的統(tǒng)一存儲(chǔ)
危機(jī)信息經(jīng)過(guò)特征項(xiàng)的提取后,通過(guò)使用基于語(yǔ)義分析的RDF本體語(yǔ)言來(lái)描述危機(jī)信息的屬性和概念,生成危機(jī)信息的資源描述框架,從而進(jìn)行更深層次的資源信息組織。根據(jù)語(yǔ)義網(wǎng)技術(shù)RDF三元組的定義,重新進(jìn)行深度的描述和整理,使非結(jié)構(gòu)化的數(shù)據(jù)有序化、結(jié)構(gòu)化和整體化,從而為危機(jī)信息數(shù)據(jù)的采集和萃取整合提供數(shù)據(jù)級(jí)的保障基礎(chǔ)。
2.3 文本內(nèi)容特征域的聚類(lèi)劃分
經(jīng)過(guò)信息的整理和特征項(xiàng)集的采集提取之后,形成了以?xún)?nèi)容特征項(xiàng)集作為標(biāo)識(shí)的詞語(yǔ)集合。為了聚類(lèi)發(fā)現(xiàn)已經(jīng)存儲(chǔ)的信息特征項(xiàng)集,通過(guò)采用計(jì)算詞語(yǔ)集合的文本相似度距離來(lái)進(jìn)行聚類(lèi)計(jì)算,把規(guī)范化的信息集進(jìn)行自組織分類(lèi),從而為危機(jī)信息的預(yù)警分析提供相同類(lèi)型的案例。
3 多模態(tài)危機(jī)信息的內(nèi)容特征項(xiàng)提取
公共危機(jī)信息采集的數(shù)據(jù)主要來(lái)源有兩種:一種來(lái)源途徑是危機(jī)管理平臺(tái)通過(guò)采集網(wǎng)絡(luò)社交網(wǎng)站的輿論信息而形成的文本數(shù)據(jù);另外一種來(lái)源途徑就是通過(guò)城市攝像頭等傳感設(shè)備采集到的圖像數(shù)據(jù)格式。由于文本文檔和圖像文檔都是不屬于結(jié)構(gòu)化的數(shù)據(jù)形態(tài),為了使計(jì)算機(jī)能夠識(shí)別和存儲(chǔ)采集的危機(jī)信息,需要通過(guò)使用詞語(yǔ)相似度計(jì)算和Folksonomy自由標(biāo)記語(yǔ)言,轉(zhuǎn)換成基于內(nèi)容特征項(xiàng)的詞語(yǔ)集合。
3.1 文本數(shù)據(jù)的內(nèi)容特征項(xiàng)提取
文本載體類(lèi)型的數(shù)據(jù)信息組織和存儲(chǔ),需要對(duì)文本文檔的內(nèi)容進(jìn)行字詞切分處理后,從文字中抽取能代表文檔內(nèi)容特征和彰顯文檔主題特征的關(guān)鍵詞。把獲得的關(guān)鍵詞作為文檔的項(xiàng)特征集合表示,使用文本內(nèi)容的項(xiàng)特征集來(lái)描述相應(yīng)的文本文檔。描述主題的特征詞的提取可以通過(guò)計(jì)算詞語(yǔ)在文檔中的重要程度來(lái)形式化表示,TF.IDF是信息檢索中常見(jiàn)的形式化表示模型。
TF.IDF模型是測(cè)度詞語(yǔ)在文本中重要程度的量化表示。其中TF是通過(guò)統(tǒng)計(jì)學(xué)的知識(shí)來(lái)衡量詞語(yǔ)的重要性,是詞語(yǔ)項(xiàng)在本文檔中的出現(xiàn)頻率,與詞語(yǔ)在文檔中出現(xiàn)次數(shù)成正比。IDF是逆文檔頻率,是樣本集合中文檔總數(shù)與出現(xiàn)詞語(yǔ)項(xiàng)文檔數(shù)的比值的對(duì)數(shù),與詞語(yǔ)項(xiàng)在樣本集合中出現(xiàn)的次數(shù)成反比,TF.IDF模型通過(guò)測(cè)度TF和IDF的乘積,通過(guò)抑制單純的詞語(yǔ)頻率度量方法,調(diào)整TF權(quán)值,可以有效的區(qū)分不同文檔。
通過(guò)計(jì)算詞語(yǔ)的TF.IDF權(quán)重值,選擇TF.IDF計(jì)算得分最高的m個(gè)詞語(yǔ)作為文本文檔的特征詞項(xiàng),從而把文本載體型數(shù)據(jù)描述成m個(gè)詞語(yǔ)項(xiàng)的集合進(jìn)行信息存儲(chǔ)。
文本載體型數(shù)據(jù)的內(nèi)容特征項(xiàng)提取算法如下:
輸入:N篇文檔
輸出:N個(gè)集合,每個(gè)集合包含m個(gè)詞語(yǔ)
Begin
Step1.使用2-shingling算法進(jìn)行字詞的切分處理
Step2.調(diào)用停用詞表刪除文檔中的停用詞
Step3.計(jì)算詞語(yǔ)文檔中的TF.IDF權(quán)重,選擇權(quán)重最大的m個(gè)詞語(yǔ)作為文本的特征詞項(xiàng)
Repeat Step1,Step2,Step3
Until所有文檔處理完畢;
文本數(shù)據(jù)的內(nèi)容特征項(xiàng)提取,即是通過(guò)使用詞語(yǔ)相似度計(jì)算的表示算法,使用特征詞語(yǔ)集合來(lái)表示文本內(nèi)容,從而把獲取的危機(jī)信息文本載體型數(shù)據(jù)進(jìn)行結(jié)構(gòu)化的統(tǒng)一表示和存儲(chǔ)。
3.2 圖像數(shù)據(jù)的內(nèi)容特征項(xiàng)提取
圖像數(shù)據(jù)的計(jì)算機(jī)存儲(chǔ)是以圖像的像素?cái)?shù)組來(lái)構(gòu)成,我們可以計(jì)算圖像像素的平均數(shù)目等簡(jiǎn)單屬性,但是無(wú)法給出任何圖像特征的內(nèi)容項(xiàng)。但是自由標(biāo)記語(yǔ)言使得我們對(duì)圖像內(nèi)容的辨認(rèn)和識(shí)別有了可能性,F(xiàn)olksonomy的自由標(biāo)記語(yǔ)言允許和鼓勵(lì)用戶(hù)對(duì)網(wǎng)絡(luò)上導(dǎo)航發(fā)布的圖像信息數(shù)據(jù)庫(kù)進(jìn)行標(biāo)記,因此針對(duì)圖像數(shù)據(jù)的存儲(chǔ)可以通過(guò)采用用戶(hù)自由標(biāo)記的關(guān)鍵詞Tag項(xiàng)作為其內(nèi)容特征的識(shí)別方法,使非結(jié)構(gòu)化的圖像載體類(lèi)文件可以通過(guò)結(jié)構(gòu)化的數(shù)據(jù)表示。
大數(shù)據(jù)環(huán)境下,F(xiàn)olksonomy中海量的用戶(hù)參與資源信息的標(biāo)記為我們確定圖像的特征詞項(xiàng)提供了數(shù)據(jù)基礎(chǔ),偶爾的錯(cuò)誤標(biāo)記也不會(huì)對(duì)該圖像內(nèi)容屬性造成大的影響。自由標(biāo)記語(yǔ)言統(tǒng)計(jì)圖像的用戶(hù)標(biāo)簽頻次,通過(guò)可視化技術(shù)使資源的標(biāo)簽按照頻次多少進(jìn)行上浮和下沉,然后選擇標(biāo)引頻次最高的關(guān)鍵詞作為該圖像的特征詞項(xiàng),從而完成圖像載體形態(tài)數(shù)據(jù)的結(jié)構(gòu)化表示過(guò)程。
圖像數(shù)據(jù)的內(nèi)容特征項(xiàng)提取算法如下:
輸入:N個(gè)圖像
輸出:N個(gè)集合,每個(gè)集合包含m個(gè)詞語(yǔ)
Begin
Step1.計(jì)算圖像的所有標(biāo)記詞語(yǔ)的頻率次數(shù)
Step2.選擇頻率次數(shù)最高的m個(gè)詞語(yǔ)作為文本文檔的特征詞項(xiàng)
Repeat Step1,Step2
Until所有圖像處理完畢;
根據(jù)圖像數(shù)據(jù)表示的處理算法,把獲取的危機(jī)信息圖像格式數(shù)據(jù)進(jìn)行文本表示,把圖像數(shù)據(jù)的用戶(hù)標(biāo)記進(jìn)行頻次統(tǒng)計(jì),提取對(duì)應(yīng)的關(guān)鍵詞項(xiàng)集合。
3.3 特征項(xiàng)集的RDF描述存儲(chǔ)
文本文檔格式和圖像格式的危機(jī)信息數(shù)據(jù)經(jīng)過(guò)提取代表內(nèi)容特征的詞語(yǔ)集合進(jìn)行表示,萃取后的詞語(yǔ)集合不但能夠代表相應(yīng)的數(shù)據(jù)源特征,而且能夠把不同的數(shù)據(jù)來(lái)源進(jìn)行歸一化處理,轉(zhuǎn)換成能夠被計(jì)算機(jī)識(shí)別存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù)。
基于語(yǔ)義網(wǎng)關(guān)聯(lián)數(shù)據(jù)挖掘算法的出現(xiàn)讓突發(fā)事件應(yīng)對(duì)相關(guān)的危機(jī)全數(shù)據(jù)采集成為可能。語(yǔ)義網(wǎng)是新一代的互聯(lián)網(wǎng)核心,語(yǔ)義關(guān)聯(lián)數(shù)據(jù)模型是指基于語(yǔ)義關(guān)聯(lián)的數(shù)據(jù)表達(dá)和結(jié)構(gòu)組織模型,該模型不但包含資源信息,同時(shí)也包含信息之間異構(gòu)的語(yǔ)義結(jié)構(gòu)。從而進(jìn)行更深層次的資源信息組織,為危機(jī)數(shù)據(jù)的聚類(lèi)計(jì)算提供基礎(chǔ)條件。
危機(jī)信息中的資源描述框架中,R是危機(jī)信息來(lái)源,D是危機(jī)信息的內(nèi)容特征屬性,F(xiàn)是能夠表示該危機(jī)內(nèi)容特征的屬性值,即特征項(xiàng)的集合。使用RDF三元組來(lái)表示和描述歸一化處理后的危機(jī)數(shù)據(jù),可以更深層次的揭示危機(jī)信息的內(nèi)容特征屬性,同時(shí)是非結(jié)構(gòu)化的危機(jī)數(shù)據(jù)有序化。危機(jī)信息的元數(shù)據(jù)的RDF/XML表述如下:
〈?xml version=″1.0″?〉
〈rdf:RDF
xmlns:rdf=http:∥www.w3.org/1999/02/22-rdf-syntax-ns#
xmlns:dc=″WB000002″〉
〈rdf:Description〉
〈dc:feature〉
〈rdf:Bag〉
〈rdf:li〉關(guān)鍵詞1〈/rdf:li〉
〈rdf:li〉關(guān)鍵詞2〈/rdf:li〉
〈rdf:li〉關(guān)鍵詞3〈/rdf:li〉
〈/rdf:Bag〉
〈/dc:feature〉
〈/rdf:Description〉
〈/rdf:RDF〉
危機(jī)信息的特征詞項(xiàng)集合通過(guò)上述的RDF語(yǔ)義關(guān)聯(lián)結(jié)構(gòu)來(lái)描述和存儲(chǔ),把非結(jié)構(gòu)化的多種數(shù)據(jù)存在形式轉(zhuǎn)換成統(tǒng)一的、計(jì)算機(jī)可以識(shí)別的語(yǔ)義結(jié)構(gòu)表示,為危機(jī)信息的聚類(lèi)分析和情報(bào)預(yù)警提供數(shù)據(jù)級(jí)的基礎(chǔ)保障。
4 基于Map-Reduce的危機(jī)信息聚類(lèi)研究
公共危機(jī)信息經(jīng)過(guò)采集后,形成了以?xún)?nèi)容項(xiàng)為特征的詞語(yǔ)集合,因此可以通過(guò)采用計(jì)算不同詞語(yǔ)集合之間的相似度距離來(lái)進(jìn)行聚類(lèi)計(jì)算,把采集的公共危機(jī)進(jìn)行自組織分類(lèi),自動(dòng)聚類(lèi)已經(jīng)存儲(chǔ)的危機(jī)信息特征項(xiàng)集合,發(fā)現(xiàn)該危機(jī)的類(lèi)型并建立危機(jī)模型,從而在危機(jī)預(yù)警期間為危機(jī)的管理決策部門(mén)提供相同類(lèi)型的分析案例和預(yù)警方案,提高突發(fā)危機(jī)事件的應(yīng)急處理能力。
本文詞語(yǔ)集合之間的組織分類(lèi)采用距離計(jì)算中的Jaccard距離度量。給定詞語(yǔ)集合A和詞語(yǔ)集合B,那么詞語(yǔ)集合A和詞語(yǔ)集合B的距離計(jì)算公式如下:
Jaccard(A,B)=1-SIM(A,B)(1)
SIM(A,B)=A∩B/A∪B(2)
假定詞語(yǔ)集合A={關(guān)鍵詞1;關(guān)鍵詞2;關(guān)鍵詞3;關(guān)鍵詞4}和詞語(yǔ)集合B={關(guān)鍵詞1;關(guān)鍵詞2;關(guān)鍵詞3;關(guān)鍵詞5},因此集合A和集合B的并集共有5個(gè)關(guān)鍵詞語(yǔ),集合A和集合B的交集是3個(gè)相同關(guān)鍵詞,由公式(1)、(2)可知,詞語(yǔ)集合A和詞語(yǔ)集合B的距離Jaccard(A,B)=1-3/5=0.4,假定給定的距離閾值是0.5,距離閾值可以根據(jù)分類(lèi)的實(shí)際效果進(jìn)行設(shè)定。由于Jaccard(A,B)<0.5,因此詞語(yǔ)集合A和詞語(yǔ)集合B是相似度高的詞語(yǔ)集合,即詞語(yǔ)集合A和詞語(yǔ)集合B所表示的危機(jī)信息被認(rèn)定是屬于同一類(lèi)型的危機(jī)。如果兩個(gè)詞語(yǔ)集合的Jaccard距離大于給定的距離閾值,就表明這個(gè)詞語(yǔ)集合相似度比較低,那么這兩個(gè)詞語(yǔ)集合所表示的危機(jī)信息則不會(huì)被計(jì)算機(jī)認(rèn)定為同一類(lèi)型。通過(guò)計(jì)算危機(jī)信息的詞語(yǔ)集合Jaccard距離,可以很容易的把危機(jī)信息進(jìn)行類(lèi)別劃分,從而在危機(jī)預(yù)警過(guò)程中匹配同類(lèi)型的預(yù)警案例。
在網(wǎng)絡(luò)泛在環(huán)境下,通過(guò)各種渠道獲得的危機(jī)信息是單個(gè)人和單臺(tái)機(jī)器無(wú)法計(jì)算和處理的。面對(duì)海量的數(shù)據(jù),分布式的高效存儲(chǔ)系統(tǒng)具有高度的容錯(cuò)性和并發(fā)性,是處理海量數(shù)據(jù)的基礎(chǔ)條件,同時(shí)分布式的高效處理系統(tǒng)就更加顯得非常重要。Map-Reduce是非常強(qiáng)大的分布式計(jì)算方法,通過(guò)使用Map-Reduce計(jì)算模式的投影算法能滿足非關(guān)系型危機(jī)數(shù)據(jù)的分布處理需要,支撐起組分異質(zhì)型數(shù)據(jù)的融合處理,從而滿足海量數(shù)據(jù)的同步計(jì)算和分布處理,保障大數(shù)據(jù)環(huán)境下海量危機(jī)信息數(shù)據(jù)的分類(lèi)組織,為危機(jī)的預(yù)警管理提供情報(bào)支持。
5 結(jié)束語(yǔ)
針對(duì)危機(jī)信息中常見(jiàn)的兩種存在形式,本文通過(guò)使用詞語(yǔ)相似度計(jì)算和Folksonomy自由標(biāo)記語(yǔ)言,把不同模態(tài)的危機(jī)信息源轉(zhuǎn)化成單一的基于內(nèi)容特征項(xiàng)的詞語(yǔ)集合。然后通過(guò)使用基于語(yǔ)義分析的RDF本體語(yǔ)言來(lái)描述危機(jī)信息的屬性和概念,生成危機(jī)信息的資源描述框架,聚類(lèi)劃分文本內(nèi)容特征域集,把規(guī)范化的信息資源進(jìn)行自組織分類(lèi),從而進(jìn)行更深層次的資源信息組織和整合,為危機(jī)信息的預(yù)警分析提供相同類(lèi)型的案例。但是還要加強(qiáng)其他信息情報(bào)機(jī)構(gòu)的參與和縱向合作[9],為危機(jī)管理中的決策部門(mén)提供精準(zhǔn)的危機(jī)情報(bào),從而積極發(fā)揮情報(bào)效用,為突發(fā)事件的應(yīng)急管理進(jìn)行案例分析和情報(bào)預(yù)警。
參考文獻(xiàn)
[1]鄭紅玲.突發(fā)事件應(yīng)急管理面臨的挑戰(zhàn)及對(duì)策[J].領(lǐng)導(dǎo)科學(xué),2010,29:55-56.
[2]畢玉青.基于大數(shù)據(jù)視野下的地方政府公共危機(jī)管理研究[J].現(xiàn)代經(jīng)濟(jì)信息,2016,(2):141,143.
[3]熊楓.基于大數(shù)據(jù)時(shí)代的政府危機(jī)信息管理研究[J].蘭州學(xué)刊,2015,(5):193-197.
[4]李陽(yáng),李綱.工程化與平行化的融合:大數(shù)據(jù)時(shí)代下的應(yīng)急決策情報(bào)服務(wù)構(gòu)思[J].圖書(shū)情報(bào)知識(shí),2016,(3):4-14.
[5]吳春玉.政府決策信息采集模型研究[J].情報(bào)科學(xué),2006,(3):373-376.
[6]覃世安,李法運(yùn).文本分類(lèi)中TF-IDF方法的改進(jìn)研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2013,(10):27-30.
[7]余本功,顧佳偉.基于Folksonomy和RDF的信息組織與表示[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2014,(11):24-30.
[8]馬張華.信息組織(第3版)[M].北京:清華大學(xué)出版社,2008:53-77.
[9]宋丹,高峰.美國(guó)自然災(zāi)害應(yīng)急管理情報(bào)服務(wù)案例分析及其啟示[J].圖書(shū)情報(bào)工作,2012,20:79-84.
(責(zé)任編輯:孫國(guó)雷)