趙旭劍等
摘要:新聞話題抽取對于話題模型構建以及新聞話題挖掘具有重要的研究意義和應用價值。傳統(tǒng)的方法僅僅通過提取關鍵詞包來表示話題,缺乏完整的話題語義信息描述。針對該問題,本文從話題事件要素入手,建立話題語義模型,利用淺層語法特征抽取話題語義信息。實驗結果表明,本文算法能有效提取新聞話題要素,抽取結果具有一定的語義表達能力。
關鍵詞:話題語義信息; 話題抽??; 事件要素; Text Rank
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2015)14-0176-03
Abstract:News topic extraction is of great significance and value for topic model construction and news topic discovery. The traditional methods only extract the key words to express the topic and lack the complete topic semantic information description. Aiming at this issue, this paper starts study in the view of the event elements, and builds the topic semantic model, so as to extracts the topic semantic information by using shallow syntax features. The experiment results show that the proposed method can extract the news topic information effectively and the output has certain semantic expression ability.
Key words:topic semantic information; topic extraction; event elements; Text Rank
隨著網絡的高速發(fā)展,不僅網民呈現(xiàn)爆炸式增長,而且導致信息量也大幅度的增長,這為我們帶來了很多好處,在搜集信息的時候我們能夠很快地找到大量的相關信息,但是同時也帶來了很大的麻煩,那就是信息量過大,我們怎么樣才能夠快速找到對我們有價值的信息成為當前計算機領域的熱點問題。顯然,通過對信息進行語義化的重組和表達,形成便于人們理解的語義信息將是解決這一難題的關鍵技術。網絡新聞作為互聯(lián)網數(shù)據的重要組成部分,越來越體現(xiàn)出對于社會大眾的影響力,日益趕超傳統(tǒng)媒體新聞,成為人們獲取社會資訊的主要方式。面對大量的新聞事件,如何快速有效的從中獲取有價值的語義信息,意義重大,也逐漸成為Web數(shù)據挖掘的研究熱點。已有的研究方法[1,2]僅通過提取關鍵詞來表示話題,缺乏對話題語義的分析以及事件要素的提取,以關鍵詞包構成的新聞話題挖掘結果大大影響用戶對新聞事件的理解。針對該問題,本文提出一種針對網絡新聞的話題語義信息抽取方法,從話題事件要素入手,建立話題語義模型,利用淺層語法特征抽取話題語義信息。實驗結果表明,本文算法能有效提取新聞話題要素,抽取結果具有一定的話題語義表達能力。
1 話題語義模型
幾乎所有致力于新聞學研究或者新聞報道寫作的人們都沿用了Mott[3]提出的新聞5Ws(Who、What、When、Where、Why)要素學說作為新聞結構的基本準則從不同角度挖掘新聞話題的具體含義。中文網絡新聞作為新聞題材的一個分支,其結構也應滿足5Ws準則。這樣的五元素結構可以完整地表示新聞話題而不受限于新聞格式或者語言,日益成為當前主流的新聞表示結構?;趯?00篇中文新聞網頁的分析統(tǒng)計,我們發(fā)現(xiàn)分別有98%、100%、72.67%、84.83%和37.33%的新聞包含Who、What、Where、When和Why元素,Who、What、Where和When四個元素相對Why具有更大的比重。同時,我們注意到新聞用戶使用新聞搜索引擎時,查詢的關鍵詞也主要來源于Who、What、Where和When四類元素,說明這四類元素在話題表達上更具有代表性。
同時,針對新聞標題,我們進行了中文分詞和詞性標注,得到如表1所示的統(tǒng)計結果。從表格數(shù)據不難發(fā)現(xiàn)新聞核心四元素主要集中來源于五類詞語,即名詞、動詞、非謂語形容詞、時態(tài)詞以及數(shù)詞。因此,對于標注后的結果我們只需要關注以上五類詞語,在細化抽取對象的同時排除助詞、連詞等噪聲詞語對于話題抽取的干擾。
2 話題信息提取
根據第二節(jié)中關于話題模型的討論,本文對網絡新聞進行中文詞性標注和命名實體識別,選取具有話題語義特征的關鍵詞作為話題模型元素,同時采用Text Rank模型[4]計算話題特征權重,根據閾值設置提取關鍵詞構成新聞話題語義信息。
2.1 詞性標注與命名實體識別
中文分詞是將漢字序列切分成詞序列,對于輸入句子的詞序列,模型給句子中的每個詞標注一個詞性標記。因為在漢語中,詞是承載語義的最基本的單元,分詞成了是包括信息檢索、文本分類、情感分析等多項中文自然語言處理任務的基礎。詞性標注是給句子中每個詞一個詞性類別的任務。這里的詞性類別可能是名詞、動詞、形容詞或其他。針對本文的話題模型,我們主要選擇五類詞語,即名詞、動詞、非謂語形容詞、時態(tài)詞以及數(shù)詞。命名實體(Named Entity,NE)[5]是文本中基本的信息單位,是文本中的固有名稱、縮寫及其他唯一標志,是正確理解文本的基礎。狹義地講,可以把命名實體分為人名、地名、組織名等。廣義地講,命名實體還可以包括時間表達式,數(shù)值表達式等,在各種應用領域,還可以根據具體的需要定義其他類型的命名實體,例如,在某個具體應用中,可能需要把住址、電子信箱、電話號碼、會議名稱等作為命名實體。簡單來說實體識別即識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。與詞性標注相同,我們通過命名實體識別篩選具有話題語義特征的關鍵詞。
2.2 話題語義特征抽取
新聞報道的核心思想(話題)是由文中的詞項來體現(xiàn)。通過詞語間的語義關系分析,找出最能代表該新聞核心內容的特征詞項。為了彌補傳統(tǒng)方法(TF-IDF模型)只計算文中詞語詞頻而沒有考慮詞項之間語義關系的不足,本文通過構建詞項間的Text Rank模型[4],分析多文檔間詞項的語義關系,抽取出有效關鍵詞。
Text Rank與Google提出的Page Rank非常類似,它本質是在以詞匯作為頂點、詞之間關聯(lián)作為帶權或無權,有向或無向邊的圖上進行random walk的過程[6]。Text Rank模型表示為一個帶權有向圖G=(V,E),由點集合V和邊集合E組成,E是V×V的子集,圖中兩點i,j之間的權重為Wji。對于一個給定的點Vi,In(Vi)為指向該點的點集合,Out(Vi)為點Vi指向的點集合。點Vi的分數(shù)定義為:
[WS(Vi)=(1-d)+d*Vj∈In(Vi)wjiVk∈Out(Vj)wjkWS(Vj)]
其中,d為阻尼因數(shù),取值范圍為0到1,代表從圖中某一特定點指向其他任一點的概率。在使用Text Rank算法計算圖中點的分數(shù)時,需要給圖中的點指定任意的初值并遞歸計算知道某個詞語分數(shù)收斂,收斂后每個點都獲得一個分數(shù),代表該點在圖中的重要性。需要注意,點的最后分數(shù)不受給定初值的影響,點的初值只影響該算法達到收斂的迭代次數(shù)。根據基于圖排序算法的基本理論,可以在具有語義關系的詞語之間連線構建Text Rank模型。根據詞語之間的相互“投票”,遞歸計算詞語分數(shù),選擇分數(shù)較大的詞語為重要詞語,其中不和任何詞語有連線的詞語為孤立點。
構建Text Rank模型是根據待選關鍵詞詞語之間的語義相似關系大小來決定是否在兩個詞語之間建立邊。因此,Text Rank圖是帶權無向圖,邊的權重為兩個詞語之間的關聯(lián)度,通過詞語間的投票遞歸計算出權重,關鍵詞的選取按分數(shù)序列從高到低選擇,選取范圍可以根據需要設置。
3 實驗結果與分析
為了評測本文算法的有效性,我們利用從網易爬取的500篇新聞進行話題語義信息抽取算法的實驗分析。對抽取結果本文結合搜狗地圖,以可視化的方式進行展示,為用戶帶來一種全新的新聞瀏覽體驗。
3.1 話題語義信息抽取結果
因為一個新聞事件中可能存在多個人名、地名、名詞和動詞,如何確定將那些人名、地名、名詞和動詞作為一個事件的事件要素,這就需要對事件要素進行權重計算,利用Text Rank算法算出眾多事件要素的權重,進行篩選,得出最核心的事件要素作為一個新聞話題的關鍵詞。實驗中將得到的關鍵詞如圖1所示。
3.2 抽取結果可視化展示
我們調用搜狗地圖,對事件地點進行定位,通過比較事件要素的權重大小可以獲得事件地點,然后添加事件描述(即新聞事件的標題,時間以及抽取下來的其他話題要素),對事件進行可視化展示。如圖2所示,在圖中我們可以清晰地看到有三個地方做了位置標記(金昌市、白銀市、太原),這三個地方分別是從三個話題中抽取出來的話題地點,而每個話題中可能有多個地點,但是它們的權重都是不同的,所以通過比較權重很容易確定時間的發(fā)生地點。其他的話題要素也是通過比較它們的權重得出的。
如圖2所示,當鼠標點擊地理位置時,就會出現(xiàn)關于該地方最近發(fā)生的新聞事件內容摘要,該內容摘要正是新聞話題語義信息提取結果整理后的文字表達。
參考文獻:
[1] 羅凌, 陳毅東, 曹茂元. 微博觀點句識別的話題影響研究[J]. 電腦知識與技術,2014,01:123-127.
[2] 談成訪, 汪材印. 基于LDA模型的新聞話題分類研究[J]. 電腦知識與技術,2014(16):3795-3797.
[3] Mott F L. Trends in Newspaper Content[J]. Annals of the American Academy of Political and Social Science, 1942, 219: 60-65.
[4] 陳宏,陳偉. 基于突發(fā)特征分析的事件檢測[J]. 計算機應用研究, 2011, 28(1): 117-120.
[5] 向曉雯. 基于條件隨機場的中文命名實體識別[D]. 廈門大學, 2006.
[6] Pearson, K. The Problem of the Random Walk[J]. Nature. 1905, 72:294.