微博中的開放域事件抽取

2016-09-08 10:30:39陳簫簫

計算機應(yīng)用與軟件 2016年8期

關(guān)鍵詞：博文命名類別

陳簫簫　劉　波

(北京工業(yè)大學(xué)計算機學(xué)院　北京 100124)

微博中的開放域事件抽取

陳簫簫劉波

(北京工業(yè)大學(xué)計算機學(xué)院北京 100124)

隨著互聯(lián)網(wǎng)的快速發(fā)展，網(wǎng)絡(luò)信息的事件抽取已然成為研究熱點。針對微博中的開放域事件抽取問題進行深入研究，實現(xiàn)一個事件抽取和分類系統(tǒng)。主要通過序列標(biāo)記方法提取微博語句中的命名實體和事件短語表征相應(yīng)事件，利用非監(jiān)督分類方法對事件進行分類，將每個日期下各類別的事件根據(jù)重要性排序之后，以日歷的形式展現(xiàn)出來。其中，運用條件隨機場模型完成事件抽取中的序列標(biāo)記任務(wù)，非監(jiān)督分類方法選用了LDA主題模型。實驗證明方法有效可行，命名實體識別和事件短語抽取均取得較高的準(zhǔn)確率和召回率。

事件抽取條件隨機場文本分類LDA模型

0　引　言

隨著互聯(lián)網(wǎng)和通信產(chǎn)業(yè)的快速發(fā)展，微博、微信等以短文本為主的網(wǎng)絡(luò)平臺已成為實時信息的重要來源。以微博為例，它是一個基于關(guān)系的信息分享、傳播以及獲取的平臺，用戶可以隨時隨地發(fā)布信息，實現(xiàn)即時分享。近年來，微博平臺發(fā)展迅猛，在熱點事件的報導(dǎo)和傳播方面占據(jù)主導(dǎo)地位，針對微博文本的事件抽取研究受到越來越多的關(guān)注。

早期對于事件抽取的研究[1]主要側(cè)重于在新聞文本中提取結(jié)構(gòu)化的事件。新聞文本用詞較為規(guī)范，具有清晰的語法結(jié)構(gòu)，針對這類文本的事件抽取具有較高的準(zhǔn)確率。微博與新聞等正式文體相比，語言趨于口語化、文本內(nèi)容多而雜，含于其中的事件涉及生活的各個領(lǐng)域。傳統(tǒng)的事件抽取研究大多集中在某一特定領(lǐng)域，對于領(lǐng)域多樣化、事件類別不可預(yù)先定義的微博文本來說是不夠完備的。上述原因?qū)е聦ξ⒉┻M行事件抽取時，采用針對普通文本的方法難以奏效。

近年來，針對微博的開放域事件抽取吸引了國內(nèi)外學(xué)者的目光。Benson[2]使用遠程監(jiān)督的方法訓(xùn)練了一個關(guān)系提取器，可根據(jù)微博用戶發(fā)布的信息檢測出公眾人物舉辦的活動和場地。Morgan等人[3]提出了一種基于最大熵的主題分類方法用于跟蹤、檢測微博中的話題信息。路榮等人[1]針對中文微博，通過主題模型和文本聚類的方法檢測出微博中的新聞話題。

本文根據(jù)微博文本的特點，對中文微博中的事件抽取問題進行了深入研究，并實現(xiàn)了一個開放域事件抽取和分類系統(tǒng)，即微博-日歷系統(tǒng)。該系統(tǒng)可在海量微博數(shù)據(jù)中提取出每個日期下具有新聞價值的熱點事件，并以日歷的形式展示出來。本文主要工作是提取表征事件的四元組(命名實體，事件短語，時間，事件類型)，工作流程如圖1所示，大致如下：首先獲取微博文本進行預(yù)處理，用序列標(biāo)記方法抽取出微博中的命名實體、事件短語，同時基于微博的發(fā)布時間計算出事件的發(fā)生時間，然后利用非監(jiān)督學(xué)習(xí)方法對事件進行分類，最后量化命名實體和日期之間的關(guān)聯(lián)程度，將每個日期下的事件按照重要性排序。本文針對開放域的事件抽取和分類方法突破了傳統(tǒng)方法只能針對特定領(lǐng)域的局限性。運用序列標(biāo)記方法對微博這類新興文本進行熱點事件抽取的研究具有一定創(chuàng)新性和參考性。通過對微博文本的時間處理，將熱點事件按照它們的發(fā)生時間以日歷形式展現(xiàn)具有創(chuàng)新性。此外，本文實現(xiàn)的微博-日歷系統(tǒng)具有一定實用價值。

圖1　微博-日歷系統(tǒng)流程圖

1　事件抽取

事件抽取之前需要對獲取的微博文本進行簡單的預(yù)處理工作。文本預(yù)處理主要包括兩個方面：過濾無效信息、分詞及詞性標(biāo)注。其中，過濾無效信息是指去除微博中無意義的文字內(nèi)容或符號，例如字數(shù)極少的微博和一些URL、特殊字符、表情符號等。這些內(nèi)容通常不涉及熱點事件，且會增加文本噪聲，因此，在預(yù)處理過程中先將這部分信息去除。由于中文文本沒有空格之類的字符來標(biāo)志一個詞語的結(jié)束，所以需要進行分詞和詞性標(biāo)注工作，便于下一步的語義分析。本文借用了ICTCLAS系統(tǒng)[5]實現(xiàn)分詞，該系統(tǒng)是由中國科學(xué)院計算技術(shù)研究所研制出的漢語詞法分析系統(tǒng)，具有良好的分詞效果且支持詞性標(biāo)注。

本文中事件抽取是指在微博文本中提取結(jié)構(gòu)化的事件信息。根據(jù)漢語的語言特點，許多詞語往往不涉及事件相關(guān)信息，我們可以用幾個比較關(guān)鍵的詞語來概括相應(yīng)事件，即對任意一條微博文本，提取出語句中的命名實體和事件短語來表征所述事件。為此，我們需要進行命名實體識別和事件短語抽取兩個步驟。

1.1命名實體識別

命名實體識別是指識別出文本中具有特定意義的專有名詞，在本文的研究中,識別范圍主要包括人名、地名和機構(gòu)名。目前，英文微博的命名實體識別研究[6]已取得一定成果，與英文相比，中文命名實體識別更加繁瑣復(fù)雜。主要體現(xiàn)在以下幾個方面：

(1)缺乏區(qū)別于非命名實體的特征標(biāo)志。單詞首字母大寫是識別英文命名實體的一個重要依據(jù)，而中文命名實體不具有類似特征。(2)命名實體之間可能存在相互包含的現(xiàn)象。某些社會機構(gòu)名稱中可能含有人名、地名，這種現(xiàn)象也會降低識別效果。(3)英語單詞之間存在空格將其分開，而中文詞語并沒有類似的邊界標(biāo)志，所以中文命名實體識別還會受到分詞效果的影響。即中文分詞系統(tǒng)的分詞結(jié)果是否可靠，會直接影響系統(tǒng)識別的準(zhǔn)確率。(4)在中文命名實體識別中，有些詞語首次出現(xiàn)后會采用縮寫形式，例如“中國科學(xué)院”的縮寫形式為“中科院”?？s寫中大多省略了指示實體詞類型的關(guān)鍵信息，這給中文命名實體識別工作帶來了較大困難。

雖然具有一定難度，但在中文命名實體識別領(lǐng)域也找到了較為有效的方法。目前常用的識別方法包括基于規(guī)則的識別方法和基于統(tǒng)計的識別方法。基于規(guī)則的命名實體識別方法，主要是將詞法規(guī)則、語法規(guī)則甚至語義規(guī)則通過人工添加的方式加入到識別過程中以提高命名實體識別的質(zhì)量。一般來說，基于規(guī)則的方法實現(xiàn)比較簡單，能夠達到一個比較高的準(zhǔn)確率。但是這種方法的識別效果在很大程度上取決于規(guī)則的完備性和合理性，對規(guī)則制定者的要求比較高，通常需要經(jīng)驗豐富的專家才能完成，而且設(shè)計規(guī)則需要耗費大量的人力和物力。

隨著語料庫內(nèi)容的不斷豐富，基于統(tǒng)計的命名實體識別方法受到更多的關(guān)注。該方法可以通過訓(xùn)練標(biāo)注語料獲取對命名實體識別有幫助的相關(guān)知識，利用這些知識對未標(biāo)注的數(shù)據(jù)進行結(jié)果預(yù)測，識別出其中的人名、地名和機構(gòu)名。與基于規(guī)則的方法相比，基于統(tǒng)計的方法需要對語料進行標(biāo)注訓(xùn)練，這個過程不要求精深的語言學(xué)知識，并且可以在較短時間內(nèi)完成，因而得到廣泛應(yīng)用?；谏鲜鲈颍疚牟捎昧嘶诮y(tǒng)計的方法來完成命名實體識別任務(wù)。

1.2提取事件短語

微博語句中的關(guān)鍵性詞語可以高度概括所述事件的主要內(nèi)容，搭起了事件框架。命名實體可以充當(dāng)事件的主語部分，除此之外還需要提取補充事件具體內(nèi)容的詞語，這類詞語就是本文所述的事件短語?，F(xiàn)有事件短語的提取方法同樣包括基于規(guī)則的方法和基于統(tǒng)計的方法。在命名實體識別部分，我們已就這兩種方法進行了比較，再加上微博文本往往包含一些網(wǎng)絡(luò)用語，詞語具有非正式性，已有的基于規(guī)則方法難以奏效，因此，我們統(tǒng)一使用基于統(tǒng)計的方法進行事件短語提取和命名實體識別的工作。

目前，基于統(tǒng)計方法的模型主要包括支持向量機、隱馬爾可夫模型、最大熵馬爾可夫模型和條件隨機場模型等。支持向量機主要針對兩類分類問題，在高維空間中尋找一個超平面把類別分割開來，以保證最小的分類錯誤率。隱馬爾可夫模型是一種產(chǎn)生式模型，常被應(yīng)用于序列標(biāo)記任務(wù)中。但該模型假設(shè)觀察值之間是嚴(yán)格獨立的，這一假設(shè)前提使得模型無法使用較為復(fù)雜的特征，在事件抽取問題上是不夠完善的。最大熵馬爾可夫模型克服了隱馬爾可夫模型嚴(yán)格的獨立假設(shè)，允許狀態(tài)轉(zhuǎn)移概率依賴于序列中非獨立的特征，從而將上下文信息引入到模型的學(xué)習(xí)和識別過程中，提高了識別效果。不過，由于該模型是在每個觀察結(jié)點上判斷輸出標(biāo)記，有可能陷入局部最優(yōu)，易導(dǎo)致標(biāo)記偏置問題。

相比之下，條件隨機場模型同樣不需要隱馬爾可夫模型所要求的嚴(yán)格獨立假設(shè)，且該模型對狀態(tài)序列進行全局計算的特點避免了最大熵馬爾可夫模型的標(biāo)記偏置問題，在信息抽取領(lǐng)域表現(xiàn)出較好性能。提取命名實體和事件短語本身是比較典型的序列標(biāo)記問題，再加上微博文本的特殊性，綜合考慮，本文采取了序列標(biāo)記的方法[7]提取命名實體和事件短語，使用的訓(xùn)練和推理模型為條件隨機場模型。

1.3條件隨機場

條件隨機場CRFs(Conditional Random Fields)模型是由Lafferty等人在最大熵模型和隱馬爾可夫模型的基礎(chǔ)上提出的一種判別式模型。該模型在給定觀察序列的情況下，對整個序列的聯(lián)合概率統(tǒng)一建模，重點解決序列化標(biāo)記的問題。

如圖2所示，隨機變量X代表數(shù)據(jù)序列，變量Y是與之對應(yīng)的標(biāo)記序列，p(Y|X)表示在給定數(shù)據(jù)序列X的條件下，標(biāo)記序列為Y的條件概率。設(shè)G=(V,E)是一個無向圖，Y={Yv|v∈V}是以G中節(jié)點v為索引的隨機變量構(gòu)成的集合。在給定X的條件下，如果每個隨機變量Yv服從馬爾可夫?qū)傩?，即在給定X和Yv以外的所有隨機變量Yw的條件下，隨機變量Yv滿足條件概率p(Yv|X,Yw,w≠v)=p(Yv|X,Yw,w～v)，(w～v表示w和v是圖G中的相鄰節(jié)點)，則(X,Y)構(gòu)成一個條件隨機場[8]。CRFs是無向圖模型，其最簡單的形式是鏈?zhǔn)紺RFs，即模型中各個節(jié)點之間構(gòu)成線性結(jié)構(gòu)。

圖2　鏈?zhǔn)紺RFs模型圖

對于本文的事件抽取問題，可以用鏈?zhǔn)綏l件隨機場進行訓(xùn)練和推理，標(biāo)記出屬于命名實體和事件短語的詞語來表征文本事件。假設(shè)X={X1,X2,…,Xn}是微博文本詞語構(gòu)成的觀察序列，設(shè)與之對應(yīng)的標(biāo)記序列為Y={Y1,Y2,…,Yn}。集合Y中的元素為實體類型的標(biāo)注符號。根據(jù)條件隨機場的基本理論，標(biāo)記序列的條件概率與模型的勢函數(shù)成正比，即：

p(Y|X,λ)∝

(1)

其中，tj(Yi-1,Yi,X)是觀察序列和標(biāo)記序列在i-1到i時刻的特征轉(zhuǎn)移函數(shù)；Sk(Yi,X)是整個觀察序列和標(biāo)記序列在i時刻的狀態(tài)特征函數(shù)。兩個特征函數(shù)可以統(tǒng)一為二值函數(shù)fj(Yi-1,Yi,X)，函數(shù)值可以通過i時刻所有觀察值的特征結(jié)合其對應(yīng)的標(biāo)記結(jié)果來獲得。統(tǒng)一特征函數(shù)并將勢函數(shù)的乘積歸一化，可得標(biāo)記序列Y的條件概率：

(2)

其中Z(X)為歸一化因子；參數(shù)λ的取值可在模型訓(xùn)練中采用極大似然估計獲得。

本文中，鏈?zhǔn)綏l件隨機場的推理過程就是對于微博語料庫中各微博文本組成的觀測序列X和訓(xùn)練產(chǎn)生的模型參數(shù)λ，找到一個與之對應(yīng)的最優(yōu)標(biāo)記序列Y，使得Y能夠準(zhǔn)確標(biāo)注其中的命名實體和事件短語。求得最優(yōu)標(biāo)記序列的過程可以轉(zhuǎn)化為求取概率函數(shù)p(Y|X,λ)的最大值問題。我們可以利用維特比算法遞歸求得Y*=argmaxp(Y|X)，此時Y*即為后驗概率最大的序列標(biāo)記Y。至此，可以得出微博文本中的命名實體和事件短語，完成事件抽取任務(wù)。

1.4特征選擇

確定模型的訓(xùn)練和推理過程之后，我們需要選擇與之對應(yīng)的文本特征。特征的選取具有至關(guān)重要的作用，它們決定著模型的特征函數(shù)，對結(jié)果的正確率和召回率都有很大影響。如果選取的特征集過大，不僅會影響模型訓(xùn)練和預(yù)測的效率，還可能發(fā)生過擬合現(xiàn)象；如果選取的特征集過小，會降低模型識別的準(zhǔn)確率和召回率。本文利用條件隨機場的特點，在進行事件抽取時不僅利用當(dāng)前詞的特征，還充分利用了上下文的統(tǒng)計信息作為特征，達到了良好的效果。

當(dāng)前詞的特征包括詞形特征、詞性特征和所處的位置特征等。詞形特征主要是指構(gòu)成該詞的字符串及其長度，是詞的基本特征。例如，命名實體大多包含兩個以上字符，很少出現(xiàn)一個字的人名、地名和機構(gòu)名，顯然，字符串的長度在一定程度上影響實體和短語的識別。詞性是信息抽取中一個常用且有效的特征信息。命名實體和事件短語大多為名詞和動詞，極少含有形容詞、量詞和代詞等其他詞性的詞語，這在很大程度上縮小了標(biāo)記任務(wù)的求解空間。同時詞性特征也能夠涵蓋一定的語法信息，有助于提高實體和短語識別的準(zhǔn)確度。位置特征是指該詞相對句子而言所處的位置，一般來說，命名實體位于句首的概率大于在句中或句尾的概率，這一特征對于命名實體識別也具有極為重要的作用。

僅憑當(dāng)前詞自身的特征不足以準(zhǔn)確識別命名實體和事件短語，還需加入詞語的上下文特征。該特征指的是包括當(dāng)前詞和其前后若干個詞在內(nèi)的一個觀察窗口(W-n,…,W0,…,Wn)。理論上來說，窗口范圍越大，可利用的上下文信息越多。但如果窗口過大，除了嚴(yán)重降低運行效率、浪費大量資源之外，還會產(chǎn)生過擬合現(xiàn)象；而如果窗口過小，就不能獲取足夠多的有用信息。本文將觀察窗口的大小設(shè)置為5，實驗證明該值對于實體詞識別任務(wù)能夠獲得較好效果。

為利于條件隨機場模型的訓(xùn)練和推理，本文為當(dāng)前詞特征和上下文特征定義了一個的特征模板，具體含義如表1所示。

表1　CRFs模型特征模板

考慮到分詞的原因，人名、地名、機構(gòu)名和事件短語這四類實體詞可能被切分為多個部分，例如當(dāng)前詞可能位于實體的開始(B)、內(nèi)部(I)和實體外(O)三個位置。所以本文定義了一個基于實體位置的標(biāo)記集合來標(biāo)識當(dāng)前詞的實體類型，具體標(biāo)記及其含義如表2所示。

表2　實體類型標(biāo)注集合

條件隨機場模型可對文本特征進行線性組合，構(gòu)成較為復(fù)雜的特征來表示非線性的上下文信息。同時，問題的特征空間會隨之增大，但并非所有的特征都是有用的，選擇出冗余少、代表性高的特征對模型的訓(xùn)練和應(yīng)用來說是非常有必要的。本文使用了基于計數(shù)的特征選擇方法，即在樣本訓(xùn)練的過程中統(tǒng)計各個特征的出現(xiàn)次數(shù)，選擇次數(shù)較高的特征作為模型特征集。

2　事件分類

傳統(tǒng)的文本分類方法主要是利用向量空間模型表示文本，根據(jù)相似性計算的量化結(jié)果決定文本類別。但由于微博這類短文本包含的詞語較少，具有嚴(yán)重的數(shù)據(jù)稀疏性問題，使得對微博文本進行分類學(xué)習(xí)的復(fù)雜性加大。此外，對于微博中的事件分類來說，有監(jiān)督的或半監(jiān)督的分類方法存在很多問題：微博是包含多個領(lǐng)域的開放性文本，對于涉及的事件類別是很難明確界定的；監(jiān)督或半監(jiān)督的分類方法，大多需要人工標(biāo)注事件類別，這會帶來較大的工作量，再加上某些類別出現(xiàn)的頻率較低，即使標(biāo)注了很大的數(shù)據(jù)集也不可能把所有的類別都包含進來；對于一篇新聞文本來說，它的內(nèi)容大多是圍繞一個主題敘述的，但微博文本較之更為隨意，往往融合多個事件類別?；谏鲜鲈?，本文采用了一種針對開放域文本的無監(jiān)督分類方法，即基于潛在狄利克雷分布的LDA(Latent Dirichlet Allocation)主題模型，通過聚類的方法實現(xiàn)微博文本中主要事件的類別劃分。下面簡單介紹一下LDA主題模型的原理以及本文中的微博文本聚類算法。

2.1LDA模型

LDA模型是由Blei等人在概率潛在語義分析模型(PLSA)的基礎(chǔ)上，運用超參數(shù)和隱變量來模擬文檔生成過程的產(chǎn)生式模型[9]。PLSA模型在較大程度上依賴于模型訓(xùn)練時所使用的數(shù)據(jù)集，特別是模型在文檔層面上沒有描述概率，先驗概率的求解只建立在已有訓(xùn)練集，易導(dǎo)致過擬合現(xiàn)象。相比之下，LDA模型采用了一個服從狄利克雷分布的K維隱含隨機變量來描述文檔的主題概率，模擬文檔集的產(chǎn)生過程，克服了PLSA模型的缺點，在文本分類、情感分析等方面具有廣泛應(yīng)用。

圖3　LDA主題模型

根據(jù)LDA主題模型的原理，我們把包含于微博語句中的事件信息看作是若干類別的混合分布，每一個事件類別對應(yīng)事件實體詞的概率分布。例如“加油”一詞可能出現(xiàn)在體育類別的文本中，也可能出現(xiàn)在“汶川加油”這樣的社會事件中。我們把兩個類別type看作潛變量，有type～Mult(θ)，相應(yīng)的詞語word也對應(yīng)一個多項分布，即word～Mult(φ)。對于一個由M篇微博文本組成的語料庫，假設(shè)它所包含的事件類別個數(shù)為K，LDA模型假設(shè)該語料庫的生成過程概括為以下步驟:

(2) 對于第m篇微博文本，確定它所包含的詞語個數(shù)，即文本的長度N，N～Poiss(ζ)；

(4) 對第m篇微博文本中的第n個詞語：

(5) 將步驟(4)重復(fù)N次，就生成微博文本m；

(6) 對于語料庫中的每一篇微博文本，重復(fù)步驟(2)-(5)，完成整個微博語料庫的生成。

(3)

(4)

(5)

2.2微博文本聚類

由LDA模型的原理和產(chǎn)生過程可看出，該模型完全適用于本文針對開放域的微博文本分類任務(wù)。利用LDA模型對微博語料庫進行訓(xùn)練和推理，可完成事件類別的劃分。模型的訓(xùn)練過程主要是求解模型參數(shù)θ和φ的取值。對于本文的微博語料庫，LDA模型的訓(xùn)練流程如下：

(1) 隨機初始化：對每條微博語句中的每個詞語word，隨機賦予一個類別編號type；

(2) 重新掃描語料庫，對每個詞語word重新采樣它的類別，在語料中進行更新；

(3) 重復(fù)步驟(2)直到吉布斯采樣收斂；

(4) 統(tǒng)計語料庫信息，得到type-word共現(xiàn)頻率矩陣。根據(jù)該矩陣，可得出參數(shù)θ和φ的值。

(1) 隨機初始化：對當(dāng)前文本中的每個詞語word，隨機賦予一個類別編號type；

(2) 重新掃描當(dāng)前文本，對每個詞語word重新采樣它的類別；

(3) 重復(fù)步驟(2)直到吉布斯采樣收斂；

3　時間處理和事件排序

通常，微博中許多關(guān)于時間的描述均指向同一日期[10]，比如對于同一時間的描述有“下周二”“2月3日”等表達方式，基于微博的發(fā)布時間，它們可能都是指2015年2月3日這一天。為了解決時間表達式的一致性，本文采用了構(gòu)建正則表達式的方法匹配字符串中的時間信息。識別文本中的時間表達式之后，再將它們在基準(zhǔn)時間的基礎(chǔ)上轉(zhuǎn)化為標(biāo)準(zhǔn)日期格式。例如對于在2014年12月15日發(fā)布的微博信息“后天下午我們將要召開會議”,處理之后的形式為：2014年12月17日下午，我們將要召開會議。這樣就把微博中的事件更加準(zhǔn)確的劃分到具體的時間下，避免了將其他日期下的熱點事件誤認為是今天發(fā)生主要事件。

事件抽取和時間處理之后，需要根據(jù)事件的重要性進行排序。在之前的事件排序研究中，通常根據(jù)詞頻來量化事件的重要程度，但是微博中的高頻詞匯往往是涉及人們?nèi)粘Ｉ畹脑~語，與之相對應(yīng)的事件大多不是我們想要的。針對此問題，我們采用的方法是量化類別下命名實體和日期之間的關(guān)聯(lián)強度來決定事件的排名順序[12]。本文認為，每天都發(fā)生的、涉及人們?nèi)粘Ｉ畹氖录匾暂^低，比如事件信息“北京市晚間晴”，可能每天都會出現(xiàn)在微博中，但它不屬于熱點事件；相反，其他日期下很少或沒有出現(xiàn)過的事件重要性較高，例如“昌都發(fā)生地震”，這是比較罕見、突發(fā)性高的事件，相比之下具有更高的重要性。根據(jù)以上原則，本文使用了基于似然比統(tǒng)計量的函數(shù)來量化事件的重要程度。對于任一給定的命名實體e和日期d，統(tǒng)計函數(shù)值的計算公式如下：

(6)

其中，Oe,d表示命名實體為e且發(fā)生日期為d的事件總數(shù)；Oe,d表示命名實體為e，但發(fā)生日期不為d的事件總數(shù)。相似的，Ee,d表示在e和d相互獨立的條件下，包含命名實體e或發(fā)生日期為d的事件總數(shù)，以此類推其他符號的含義。值得注意的是，在統(tǒng)計包含同一命名實體的事件數(shù)量時，本文加入了類別信息的判斷，即對于同一命名實體，如果聚類產(chǎn)生的類別標(biāo)簽相同，則該實體的統(tǒng)計比重會增大，標(biāo)志著與之相對應(yīng)的事件具有更高的重要性。例如對于兩條微博文本：a)北京市于今天召開國際會議，多位領(lǐng)導(dǎo)人出席；b)北京市天氣多云，晚間會有雷陣雨。以上兩個語句的命名實體均為“北京市”，但是事件所屬的類別大不相同，由此可見，事件類別對于事件重要程度的判斷具有極大影響。

4　實驗與評估

本文所用的文本數(shù)據(jù)主要來源于新浪微博，通過該平臺提供的開放接口分時段獲取了2013年8月11日至2013年8月13日的公共微博。由于微博開放平臺規(guī)定了每次獲取微博的條數(shù)和抓取頻率，本文數(shù)據(jù)集的大小受到了一定程度的限制。去除數(shù)據(jù)集中的無效微博之后，保留了24 257條微博文本作為本文實驗的語料庫。

在時間抽取階段，筆者在語料庫中選取了800條微博文本作為條件隨機場模型的訓(xùn)練集。首先根據(jù)本文1.4節(jié)所述的特征選擇方法，統(tǒng)計訓(xùn)練集的各類文本特征，然后手工標(biāo)記每個微博詞語的實體類型，具體標(biāo)記符號參照表2所列的標(biāo)記集合。利用上述統(tǒng)計信息和標(biāo)記數(shù)據(jù)完成條件隨機場的訓(xùn)練，然后推理得出所有文本的事件信息。筆者在模型訓(xùn)練集之外的數(shù)據(jù)中，隨機選用了500條微博文本作為模型的測試集。對于測試集中的數(shù)據(jù)同樣進行了手工標(biāo)注命名實體和事件短語的工作，然后將系統(tǒng)的處理結(jié)果與手工標(biāo)注集合相比較得到事件抽取的準(zhǔn)確率和召回率，具體數(shù)據(jù)如表3所示。實驗證明，本文所用方法對于命名實體識別和事件短語抽取均取得較好效果。

表3　事件抽取的準(zhǔn)確率和召回率

在對微博文本進行事件聚類的過程中， LDA主題模型的訓(xùn)練和推理過程是在一個假設(shè)條件下完成的，即假定事件類別個數(shù)K及Dirichlet先驗分布參數(shù)α和β這三個變量值已知。實際上，上述參數(shù)值是需要人為設(shè)定的。經(jīng)交叉驗證發(fā)現(xiàn)，當(dāng)K=50、α=1、β=0.1時，模型能夠達到較好的聚類效果。一般意義上，事件的類別標(biāo)簽應(yīng)該是諸如運動、政治、經(jīng)濟等類型的文本詞語，但是通過LDA主題模型得出的是類別的數(shù)字化表示。實際上，我們可根據(jù)主題模型的統(tǒng)計結(jié)果把類別編號轉(zhuǎn)化為系統(tǒng)所需的文本類別標(biāo)簽。即通過觀察每個類別下的高頻詞匯判斷它的所屬領(lǐng)域。通過對實驗數(shù)據(jù)的觀察，本文賦予數(shù)據(jù)集的文本類別有科技、體育、政治、教育等15個類別標(biāo)簽。對于不易區(qū)分所屬領(lǐng)域的類別，統(tǒng)一劃至“其他”類別中。

表4　微博-日歷系統(tǒng)結(jié)果展示

注：日歷中事件的展示次序為命名實體：事件短語；事件類別；受分詞影響，事件短語包含多個詞語

表4為本文微博-日歷系統(tǒng)基于現(xiàn)有語料庫的部分處理結(jié)果，主要展示了2013年8月11日、12日的主要事件及其類別信息。每個日期下，我們根據(jù)式(6)所定義的統(tǒng)計函數(shù)來對事件進行排序，選取函數(shù)值最高的事件以日歷的形式展示，展示內(nèi)容包括事件的命名實體、事件短語和事件類別。對于每條微博文本，它的處理過程如下：假設(shè)某微博用戶在2013年8月12日發(fā)布了一條微博：昨晚林丹贏了，他又一次奪取了世錦賽冠軍！該文本經(jīng)條件隨機場訓(xùn)練和推理之后，得出的命名實體為“林丹”，事件短語為“奪取，冠軍”。因為微博中包含時間相關(guān)的詞語“昨晚”，基于時間處理規(guī)則，在微博發(fā)布時間的基礎(chǔ)上對日期減1，得出事件的發(fā)生時間為2013年8月11日。通過LDA模型聚類發(fā)現(xiàn)其所屬類別下主題詞大多涉及體育，因此將其劃分為“體育”類別。最后用統(tǒng)計函數(shù)計算該事件的重要性并排序。雖然本系統(tǒng)存在數(shù)據(jù)集較小、時間處理有誤差等缺陷，但處理結(jié)果大體呈現(xiàn)出各個日期下的主要事件，證明了本文所述方法的可行性。此外，本系統(tǒng)也可應(yīng)用于大規(guī)模微博數(shù)據(jù)集的事件提取工作，具有一定的實用價值。

5　結(jié)　語

本文主要通過序列標(biāo)記的方法提取出微博文本中的主要事件，并采用針對開放域文本的非監(jiān)督機器學(xué)習(xí)方法進行了事件分類，實驗結(jié)果基本令人滿意。在識別命名實體和抽取事件短語的過程中，雖然處理結(jié)果達到了較高的準(zhǔn)確率和召回率，但是對于某些地名和部分機構(gòu)名稱的識別效果不太理想，在進一步研究中會對該部分進行改進工作。此外，在使用主題模型進行文本聚類工作之后，本實驗得出的最終事件類別標(biāo)簽是在人工干預(yù)的情況下完成的，這一方法同樣具有不足之處。在未來的研究工作中會對此問題進行更加深入的研究，希望能找到一種自動標(biāo)注文本類別標(biāo)簽的機器學(xué)習(xí)方法來改善系統(tǒng)。

[1] Allan J, Papka R, Lavrenko V. On-line new event detection and tracking[C]//Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 1998:37-45.

[2] Benson E, Haghighi A, Barzilay R. Event discovery in social media feeds[C]//Annual Meeting of the Association for Computational Linguistics, 2011:389-398.

[3] Lin J, Snow R, Morgan W. Smoothing Techniques for Adaptive Online Language Models: Topic Tracking in Tweet Streams[C]//Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining, 2011:422-429.

[4] 路榮,項亮,劉明榮.基于隱主題分析和文本聚類的微博客新聞話題發(fā)現(xiàn)[J].模式識別與人工智能, 2012, 25(3): 382-387.

[5] Zhang Huaping, Yu Hongkui,Xiong Deyi, et al. HMM-based Chinese Lexical Analyzer ICTCLAS[C]//Proceeding 2nd SIGHAN workshop affiliated with 41th ACL, Sapporo Japan, July 2003:184-187.

[6] Ritter A, Clark S, Etzioni O, Named entity recognition in tweets: An experimental study[C]//Conference on Empirical Methods in Natural Language Processing,2011:45-51.

[7] Gimpel K, Schneider N,O’Connor B,et al.Part-of-speech tagging for twitter: Annotation, features, and experiments[C]//Annual Meeting of the Association for Computational Linguistics,2011:42-47.

[8] Lafferty J D, McCallum A, Pereira F C N. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]//International Conference on Machine Learning, 2001:282-289.

[9] Blei D, Ng A, Jordan M. Latent Dirichlet allocation[J]. Journal of Machine Learning Research, 2003: 3,993-1022.

[10] Finkel J R, Grenager T, Manning C. Incorporating non-local information into information extraction systems by gibbs sampling[C]//Annual Meeting of the Association for Computational Linguistics, 2005.

[11] Mani I, Wilson G. Robust temporal processing of news[C]//Annual Meeting of the Association for Computational Linguistics, 2000.

[12] Ritter A, Mausam, Etzioni O, et al. Open domain event extraction from twitter[C]//Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining,2012:1104-1112.

EXTRACTING OPEN DOMAIN EVENTS IN MICROBLOGS

Chen XiaoxiaoLiu Bo

(CollegeofComputerScience,BeijingUniversityofTechnology,Beijing100124,China)

With the rapid development of Internet, the extraction of network information events has been the focus of the study. We thoroughly studied the extraction issue of open domain events in microblogs, and implemented a system of event extraction and categorisation. We characterised the corresponding events by the named entities and event-referring phrases in microblogging sentences mainly extracted with sequence-labelling method, and used the unsupervised categorisation method to classify events. After sorting the events of various categories in every date according to their significances, we displayed them in the form of calendar. In it, we used the conditional random fields to complete the sequence labelling tasks of the event extraction, for unsupervised method we chose the LDA topic model. Experiments prove that the method is effective and feasible. Both the named entity recognition and event-referring phrases extraction achieve high accuracy and recall rates.

Event extractionConditional random fieldsText categorisationLatent Dirichlet allocation (LDA) model

2015-03-26。國家自然科學(xué)基金項目(61005001)。陳簫簫，碩士生，主研領(lǐng)域：自然語言處理，機器學(xué)習(xí)。劉波，副教授。

TP3

10.3969/j.issn.1000-386x.2016.08.004

微博中的開放域事件抽取

0 引 言

1 事件抽取

2 事件分類

3 時間處理和事件排序

4 實驗與評估

5 結(jié) 語

0　引　言

1　事件抽取

2　事件分類

3　時間處理和事件排序

4　實驗與評估

5　結(jié)　語