彭 冰工人日報(bào)社,吉林長春 130022
一種新聞事件演化建模方法研究
彭冰
工人日報(bào)社,吉林長春130022
摘要事件演化關(guān)系模型是一個科學(xué)的新聞事件演化建模方法,它有利于準(zhǔn)確發(fā)掘新聞話題中各子事件之間存在的潛在關(guān)系。其具體方法是利用事件的內(nèi)容相似性、時間關(guān)系、命名實(shí)體以及關(guān)聯(lián)信息構(gòu)建新聞演化關(guān)系模型。本文通過具體的建模實(shí)驗(yàn),對該方法的可行性進(jìn)行了探析。
關(guān)鍵詞新聞事件;演化;建模方法
新聞報(bào)道中,一個新聞話題不僅僅是單一事件的報(bào)道,它還具有一個完整的時間演化結(jié)構(gòu)。而從新聞話題中掌握各個子事件的演化脈絡(luò)也并不是一件容易的事情。構(gòu)建事件演化關(guān)系模型,基于新聞事件的多層次特性,通過計(jì)算機(jī)技術(shù)發(fā)掘事件之間存在的演化關(guān)系,是本文對新聞事件演化建模的研究方向。
一個完整的新聞事件演化方式可以是由一個事件分裂成多個事件,也可能是多個事件相融合并合成一個事件,還可能是由單一的一個事件演變發(fā)展成另一個單一事件。確定新聞事件之間存在演化關(guān)系,應(yīng)滿足兩個條件:事件發(fā)生的時間具有先后關(guān)系;事件內(nèi)容之間相互關(guān)聯(lián),其中,事件發(fā)生的時間所構(gòu)成的先后關(guān)系,表示該事件的演化方向。
在對新聞事件演化進(jìn)行研究前,應(yīng)該收集新聞話題,并生成新聞事件集,事件集中統(tǒng)一新聞話題的報(bào)道應(yīng)為兩篇以上篇。本文主要對事件演化關(guān)系建模方法進(jìn)行研究,基于避免出現(xiàn)報(bào)道聚類誤差的原因,新聞話題的收集采取人工方式進(jìn)行,最終生成事件集。
就計(jì)算目標(biāo)來說,文本中的特征關(guān)聯(lián)度和互信息相似度較高,模糊匹配策略可以用于計(jì)算事件命名實(shí)體間的關(guān)聯(lián)度,當(dāng)相同的命名實(shí)體都在一個事件中有出現(xiàn),則稱之為一次關(guān)聯(lián)。因此,本文把在一個文本中共同出現(xiàn)兩個不同特征的概率進(jìn)行替換,替換對象是它們在一個完整事件集中共同出現(xiàn)的事件個數(shù),對特征在事件中的權(quán)重值進(jìn)行計(jì)算,具體公式為:
其中,w(fA)表示特征fA在事件A中權(quán)重;rela(fA,fB)表示事件A中特征fA與事件B中特征fB的關(guān)聯(lián)度;cooc(fA,fB)表示特征fA與fB共同出現(xiàn)的事件個數(shù);表示特征fA出現(xiàn)的事件數(shù);sioc(fA)表示特征fA單獨(dú)出現(xiàn)的事件數(shù)。
4.1 實(shí)驗(yàn)資料
實(shí)驗(yàn)資料是利用網(wǎng)絡(luò)從中國新聞網(wǎng)中采集的2009 年2月22日至4月22日關(guān)于山西2009年“2·22屯蘭礦難”的相關(guān)報(bào)道,共計(jì)682篇。本研究對這一新聞話題所涉及的各個事件進(jìn)行匯總,共158篇報(bào)道,構(gòu)成8個事件,見表1。
表1 2009年山西“2·22屯蘭礦難”話題涉及事件
以表1中的事件發(fā)生的時間為基礎(chǔ),由相關(guān)專家小組,分析并構(gòu)建出具體的事件演化關(guān)系,同時對演化關(guān)系的正確性和完整性進(jìn)行驗(yàn)證。
4.2 實(shí)驗(yàn)結(jié)果分析
本文中演化關(guān)系模型的主要對象是新聞事件的相似性、新聞事件命名實(shí)體特征關(guān)聯(lián)度(CS*FA),參與比較的關(guān)系模型有:CS模型、CS*DF模型以及事件內(nèi)容相似性模型。計(jì)算演化關(guān)系模型中不同閾值λ下的召回率、準(zhǔn)確率,事件演化關(guān)系模型的系統(tǒng)性能隨著實(shí)體特征關(guān)聯(lián)度、新聞報(bào)道接近度的增加而增加,CS*FA關(guān)系模型表現(xiàn)最為明顯,具體如圖1所示。
本文提出的事件關(guān)系建模方法中,在進(jìn)行自動的演化關(guān)系探測時,當(dāng)λ為0.04時,分別有正確演化關(guān)系線10條,錯誤演化關(guān)系線3條,丟失的演化關(guān)系線6條,如圖2所示。
現(xiàn)代社會中,網(wǎng)絡(luò)上的新聞事件報(bào)道數(shù)量巨大,為了能夠及時、準(zhǔn)確地了解新聞事件的來由與發(fā)展歷程,本文基于事件的內(nèi)容相似性、時間關(guān)系、命名實(shí)體以及關(guān)聯(lián)信息構(gòu)建新聞演化關(guān)系模型。本文所研究的事件演化關(guān)系建模方法,可以將同一新聞話題中各事件之間的潛在演化發(fā)展脈絡(luò)良好呈現(xiàn)出來。
參考文獻(xiàn)
[1]張輝,李國輝,徐新文,等.詞網(wǎng)絡(luò)的新聞事件關(guān)聯(lián)建模[J].國防科技大學(xué)學(xué)報(bào),2014,4:169-176.
[2]張凱.新聞演化規(guī)律的動力學(xué)與可視化——以三個典型新聞事件為例[J].新聞與傳播研究,2014,02:80-99,128.
[3]蔣華.演化優(yōu)化與演化建模方法及其應(yīng)用研究[D].武漢大學(xué),2013.
[4]王偉,趙東巖.中文新聞事件本體建模與自動擴(kuò)充[J].計(jì)算機(jī)工程與科學(xué),2012,4:171-176.
作者簡介:彭冰,主任記者,工作單位:工人日報(bào)社,研究方向:新聞傳播,現(xiàn)當(dāng)代文學(xué)等
中圖分類號G2
文獻(xiàn)標(biāo)識碼A
文章編號1674-6708(2015)141-0013-02