徐建民,張 猛,吳樹芳
(1.河北大學(xué)數(shù)學(xué)與計算機(jī)學(xué)院,河北保定071002;2.河北大學(xué)管理學(xué)院,河北保定071002)
相似度是反映兩個或多個實體間相似程度,尋找事物聯(lián)系的一種方法,它被應(yīng)用于自然語言處理、信息檢索、機(jī)器翻譯、人工智能等多個領(lǐng)域。最近幾年來在TDT領(lǐng)域以事件為單元的事件本體[1]的研究正在興起,事件間聯(lián)系對事件本體的構(gòu)建起著重要的作用,上海大學(xué)的單建芳等人提出了事件相似度的概念。
傳統(tǒng)的事件相似度計算主要基于事件要素計算,常用的要素包括動作、對象、時間、環(huán)境、斷言和語言表現(xiàn)六要素,其計算方法為:分別對六要素進(jìn)行相似度計算,然后線性組合得到兩事件的相似度[2]。但該方法在TDT領(lǐng)域存在不足之處,即它只孤立地考慮了事件內(nèi)容,從事件內(nèi)容上判斷相似與否,沒有考慮事件與事件之間的聯(lián)系,在TDT領(lǐng)域同一話題下的兩事件有著屬于同一話題的屬性。為了彌補(bǔ)傳統(tǒng)方法的不足,論文根據(jù)模板知識對傳統(tǒng)方法進(jìn)行了改進(jìn),提出了一種新的基于話題的事件相似度計算方法,該方法融合了事件內(nèi)容相似度、事件與話題相似度、事件時間相似度。并引入了參數(shù)α,β,γ,ε分配權(quán)重進(jìn)行線性組合[3],得到最終的事件相似度。實驗結(jié)果表明,與傳統(tǒng)事件相似度計算方法相比,論文提出的方法能更準(zhǔn)確地判斷出同一話題下事件的相似性。
以下是論文涉及的幾個基本概念:
定義1 話題是指一個種子事件或活動,以及所有與之直接相關(guān)的事件或活動[4]。
定義2 事件是指由某些原因、條件引起,發(fā)生在特定時間特定地點的一系列相關(guān)報道或文檔[4]。事件包含若干要素,其中時間要素是區(qū)分不同事件的重要參考依據(jù)[5]。其組織構(gòu)成如圖1所示。
定義3 事件模板是指表示事件的向量,由許多事件要素術(shù)語和權(quán)重對組成。表示形式為knowm={(term1,weight1),(term2,weight2),,(termn,weightn)}。
定義4 事件時間分為區(qū)間時間和時刻時間。區(qū)間時間是一個時間區(qū)間[t1,t2],其中t1為最早報道該事件的時間,t2為報道該事件最近的文檔時間。時刻時間即瞬時時間,是一個時間點。一般情況下t表示時刻時間,T=[t1,t2]表示區(qū)間時間。
定義5 話題模板是指表示話題的向量,同事件模板一樣,是由許多術(shù)語和權(quán)重對組成。表示形式為topic={(term1,weight1),(term2,weight2),,(termn,weightn)}。
定義6 話題標(biāo)記說明了該事件所屬的話題。即同一話題下的事件有著相同的話題標(biāo)記值,不同話題下的事件話題標(biāo)記值不同。
本文實驗討論的數(shù)據(jù)是新聞?wù)Z料,新聞報道通常包含如下信息:何人、何時、何地、何因、何事等[6]。首先通過詞頻的方法提取報道要素術(shù)語(時間要素單獨提?。缓髲奶崛〉膱蟮佬畔⑿g(shù)語中獲得事件要素術(shù)語和表示話題的術(shù)語,具體如下所示:
(1)報道術(shù)語提取與權(quán)重計算
對每篇報道按照分詞系統(tǒng)進(jìn)行分詞統(tǒng)計詞頻,運用式(1)計算每個術(shù)語的權(quán)重,并依據(jù)頻度大小獲得前20個術(shù)語來表示此報道
式中:wij——術(shù)語termj在報道si中的權(quán)重,freqij——術(shù)語termj在報道si中出現(xiàn)的頻度,Nbegin——該術(shù)語在報道si開頭出現(xiàn)的頻度,Nend——該術(shù)語在報道si結(jié)尾中出現(xiàn)的頻度,Ntitle——該術(shù)語在報道si標(biāo)題中出現(xiàn)的頻度,∑freqij——報道si中所有術(shù)語的頻度之和。處在文本不同位置的術(shù)語其表達(dá)能力不同,經(jīng)驗值給定Nbegin、Nend、Ntitle的系數(shù)分別為0.5、0.5、1。
(2)事件要素術(shù)語提取與權(quán)重計算
如圖1所示每個事件由多個報道組成,本文采用向量空間模型,用事件模板表示事件。本文在提取事件要素術(shù)語時,采用前k條的原則:即把事件下每篇報道已選的術(shù)語重新組織起來,構(gòu)成事件術(shù)語庫,對該庫中的所有術(shù)語按照權(quán)重進(jìn)行排序(重復(fù)的術(shù)語權(quán)重相加),取前k(經(jīng)驗值給定為20)個術(shù)語組成的模板knowm來描述其所屬事件E,即
模板knowm中的術(shù)語term的權(quán)重計算主要采用均值的方法[7],公式如下
式中:weightj——術(shù)語termj在事件中的權(quán)重,wij——術(shù)語termj在事件下報道si中的權(quán)重,ne——事件中報道的總數(shù)量。
(3)話題要素術(shù)語提取與權(quán)重計算
本文用話題模板表示話題。話題模板的術(shù)語提取同樣采用前k條的原則:首先把話題下的每篇報道中已抽取的術(shù)語提取出來構(gòu)建成話題術(shù)語庫T={term1,term2,…termr},對該庫中的所有術(shù)語按照權(quán)重進(jìn)行排序(重復(fù)的術(shù)語權(quán)重相加),取前k(經(jīng)驗值給定為20)個術(shù)語組成的集合Kx來描述其所屬話題topic,即
集合Kx中的術(shù)語term的權(quán)重計算主要采用均值的方法,公式如下
式中:weightj——術(shù)語termj在話題中的權(quán)重,wij——術(shù)語termj在話題下報道si中的權(quán)重,nT——話題中報道的總數(shù)量。
傳統(tǒng)的事件相似度計算將內(nèi)容要素分別按照語義相似度、語法相似度、詞語序列相似度采用不同公式進(jìn)行計算,本文利用事件模板計算事件內(nèi)容相似度,并在此基礎(chǔ)上融合了事件和話題的相似度。具體如下:
傳統(tǒng)的事件相似度計算時,將事件內(nèi)容要素分成動作要素、對象要素、時間要素、環(huán)境要素、語言表現(xiàn)要素和斷言要素[2]。分別采用不同的相似性函數(shù)進(jìn)行相似度計算,最后線性組合,合理分配權(quán)重得到最終的事件相似度值。
本文提出的新事件相似度計算方法需要計算事件的內(nèi)容相似度、事件和話題的相似度、事件的時間相似度。
2.2.1 事件的內(nèi)容相似度
定義7 事件內(nèi)容相似度是指兩事件模板向量采用余弦公式對兩事件進(jìn)行的相似度計算。即兩事件E1,E2分別為
事件內(nèi)容相似度為
2.2.2 事件與話題的相似度
定義8 事件與話題的相似度,即事件模板向量與話題模板向量采用相似性函數(shù)進(jìn)行的相似性計算。
兩事件模板向量在采用余弦公式計算相似度時,公式中的∑(weightt1,e1*weightt1,e2)[8]部分表示相同術(shù)語的權(quán)重相乘再求和,而同一話題下的兩事件還有一共同的屬性------屬于同一話題,本文通過話題模板體現(xiàn)。兩事件模板中不同的術(shù)語權(quán)重不相乘,但這些不同的術(shù)語可能在話題模板中出現(xiàn),也就是說兩事件模板向量與話題模板向量有著必然的聯(lián)系。我們通過計算話題模板向量與事件模板向量的相似度來表達(dá)這種關(guān)系,體現(xiàn)兩事件模板向量中不同術(shù)語所起的作用。
事件E1與話題的相似度計算為
事件E2與話題的相似度計算為
Sim(topic,e1)表示話題模板向量與事件E1模板向量的相似度,Sim(topic,e2)表示話題模板向量與事件E2模板向量的相似度。表示話題模板向量的模,表示話題模板的大小。ti∈topic∩knowm表示詞ti是話題模板與事件模板共同的元素。
2.2.3 事件的時間相似度
考慮到時間因素的重要性,文章在計算事件相似度時融入了時間因素。本文在計算事件相似度時,將其融入到相似度計算中。兩事件的時間關(guān)系和時間相似度有如下八種關(guān)系,根據(jù)事件E1的事件類別不同可分別用t1、t、T1表示事件時間,同樣E2用t2、T、T2表示事件時間。
(1)當(dāng)t1=t2時,Sim-time=1;
(2)當(dāng)t1≠t2時,Sim-time=0;
(3)當(dāng)t∈T時,Sim-time=
(5)當(dāng)T1=T2時,Sim-time=1;
(6)當(dāng)T1T2時,Sim-time=
(7)當(dāng)0<T1∩T2<min{T1,T2}時,Sim-time=
(8)當(dāng)T1∩T2=0時,Sim-time=0。
2.2.4 基于話題的事件相似度計算
本文在計算事件相似度時,將事件內(nèi)容相似度、事件與話題相似度、事件時間相似度分為兩組考慮。第一組:分別計算事件內(nèi)容相似度、兩事件與話題的相似度,權(quán)重因子為α、β、γ。第二組:考慮事件的時間相似度,權(quán)重因子為ε。則同一話題下的兩事件的相似度計算如下
鑒于事件內(nèi)容相似度、事件與話題相似度、事件時間相似度對最終相似度都有不同程度的影響,我們約定4個因子滿足如下關(guān)系:①α+β+γ+ε=1;②α=β<γ>ε;③ε=0.1。權(quán)值的具體設(shè)定根據(jù)環(huán)境由用戶設(shè)定,且權(quán)值的取值與事件的話題標(biāo)記有關(guān)系。因為當(dāng)兩事件的話題標(biāo)記不相同時,表示兩事件不屬于同一話題,α和β取值只能為零,這時式(7)為傳統(tǒng)計算方法。本文實驗則通過計算同一話題下兩事件的相似度,來比較兩種方法的優(yōu)略。
本文實驗采用的測試集是從新浪網(wǎng)上搜集的600篇新聞報道,主要包括了釣魚島、食品安全、交通事故、十一國慶4個話題,其中釣魚島話題下包含有經(jīng)濟(jì)影響、軍事反應(yīng)、日本將釣魚島國有化、游行4個事件,食品安全話題下包含有地溝油、老酸奶、牛奶、蘇丹紅4個事件,交通事故話題下包含有826交通事故、十一高速交通事故、溫州動車3個事件,十一國慶話題下包含有高速擁堵、華山捅人、長城人海3個事件。4個話題中的每個事件包含約40篇新聞報道。針對以上4個話題,論文實驗主要分為兩個部分:第一部分,設(shè)定參數(shù)α,β,γ,ε取值,并在不同取值時計算新方法的事件相似度值,同時用傳統(tǒng)方法計算事件相似度值;第二部分,兩種方法同時與專家給定的相似度值比較。
表1給出了實驗中用到的α,β,γ,ε幾種組合方式,4個參數(shù)的確定滿足論文給出的基本假設(shè)。
表1 α,β,γ,ε取值
表2為選取的十組事件在α取不同值時,用新方法計算得到的事件相似度及均值,表中的十組事件為同一話題下的事件對,均為相似事件。本文提出的方法只在計算同一話題下的兩事件相似度時與傳統(tǒng)方法比有優(yōu)勢。不屬于同一話題的兩事件,新舊兩種方法計算結(jié)果一樣。
表2 新方法事件相似度
當(dāng)α=0時β=0、γ=0.9、ε=0.1,式(7)為Sim(e1,e2)=γSim-con(e1,e2)+εSim-time,是傳統(tǒng)計算方法,表3是以上十組事件用傳統(tǒng)方法計算的結(jié)果。
表3 傳統(tǒng)方法事件相似度
表4中給出了專家定義的事件相似度值。
表4 相似度方法比較
從表2和表3中可以看出在計算同一話題的事件相似度時新方法計算的結(jié)果比舊方法要高一些,高的多少由α,β,γ,ε決定。
從表4中數(shù)據(jù)可以看出當(dāng)計算同一話題的事件相似度時新方法在α,β,γ,ε取值適當(dāng)時與專家的客觀評價更接近。說明新方法更能準(zhǔn)確的判斷出同一話題下的兩事件相似性。
本文抓住同一話題下的兩事件屬于一個共同話題這個特點,對傳統(tǒng)的事件相似性計算方法進(jìn)行了改進(jìn)。引用模板知識,提取事件要素術(shù)語,計算兩事件的相似度。并通過計算兩事件與話題的相似度彌補(bǔ)傳統(tǒng)方法存在的不足。計算過程中引入了參數(shù)α,β,γ,ε,分別對兩事件內(nèi)容相似度、兩事件與話題相似度、事件時間相似度進(jìn)行權(quán)衡,根據(jù)不同環(huán)境取不同值。實驗結(jié)果驗證了本文提出方法的正確性。但仍有不足之處,將來的工作主要集中在采用不同的相似性函數(shù)或距離函數(shù)計算相似度,綜合比較找出最適合的相似性函數(shù)或距離函數(shù)[9]。并采用多向量的事件表示模型,利用支持向量機(jī)的方法整合計算事件內(nèi)容相似度,且采用線性組合的方法得到最終的相似度[10]。
[1]Liu Zongtian,Huang Meili.An event ontology research[J].Computer Science,2009,36(11):189-192.
[2]Shan Jianfang,Liu Zongtian,Zhou Wen.Event similarity calculation[J].Microcomputer System,2010,31(4):731-734.
[3]Wang Zhenyu,Wu Zeheng,Tang Yuanhua.Topic detection based on vector and quadratic clustering[J].Computer Engineering and Design,2012,33(8):3214-3218.
[4]Chen Xuechang,Han Jiazhen,Wei Guiying.Topic detection and tracking pilot study[J].China Management Informationization,2011,14(9):56-58.
[5]Zhang Kuo,Li Juanzi,Wu Gang.New event detection based on indexing-tree and named entity[C]//SIGIR 2007 Proceedings,2007:215-222.
[6]Xue Xiaofei,Zhang Yongkui,Ren Xiaodong.A new event detection method research based on the factors of news[J].Journal of Computer Applications,2008,28(11):2975-2978.
[7]Zhao Hua,Zhao Tiejun,Zhang Zhu,et al.Topic detection research based on content analysis[J].Journal of Harbin Institute of Technology,2006,38(10):1740-1743.
[8]Ling Song,Jun Ma,Li Lian,Zhijun Zhang.Comprehensive document similarity computing research[J].Computer Engineering and Applications,2006,42(30):160-163.
[9]Zhang Yu,Liu Yudong,Ji Zhao.Measurement method of vector similarity[J].Technical Acoustics,2009,28(4):532-536.
[10]Zhang Xiaoyan,Wang Ting.The news topic representation model and study of correlation tracking technique[D].Doctoral Dissertation of National University of Defense Technology,2010:1-121.