• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于雙向量模型的話題跟蹤

      2016-04-07 05:59:55劉海娟劉文展
      無(wú)線電工程 2016年2期

      劉海娟,劉文展

      (中國(guó)電子科技集團(tuán)公司第五十四研究所,河北 石家莊 050081)

      ?

      基于雙向量模型的話題跟蹤

      劉海娟,劉文展

      (中國(guó)電子科技集團(tuán)公司第五十四研究所,河北 石家莊 050081)

      摘要針對(duì)話題跟蹤任務(wù)及話題自身的特點(diǎn),研究了面向該任務(wù)的文本表示技術(shù),通過(guò)對(duì)文本表示技術(shù)的研究來(lái)提高話題跟蹤系統(tǒng)的跟蹤性能。通過(guò)分析報(bào)道文本的內(nèi)容特點(diǎn),提出了采用雙向量來(lái)表示報(bào)道文本,將文本中的命名實(shí)體進(jìn)行了單獨(dú)處理。對(duì)命名實(shí)體識(shí)別技術(shù)進(jìn)行了簡(jiǎn)要介紹,詳細(xì)描述了基于雙向量模型的話題跟蹤系統(tǒng)的構(gòu)建。實(shí)驗(yàn)結(jié)果表明,在話題跟蹤中,雙向量的文本示方法比單向量的文本表示方法更準(zhǔn)確。

      關(guān)鍵詞話題跟蹤;雙向量模型;命名實(shí)體;文本表示

      Topic Tracking Based on Double Vector Model

      LIU Hai-juan,LIU Wen-zhan

      (The54thResearchInstituteofCETC,ShijiazhuangHebei050081,China)

      AbstractIn view of the characteristics of topic and topic tracking task,this paper studies the task-oriented text representation technology for improving the tracking performance of topic tracking system.By analyzing the content characteristics of story text,this paper presents a method of representing story text by using double vectors,that is,the named entities in the story form a separate vector.The named entity identification technology is introduced briefly,and the constitution of topic tracking system based on double-vector model is described in detail.The experiment results show that,in topic tracking system,the text representation method of double-vector is more exact than that of single-vector.

      Key wordstopic tracking;double-vector model;named entity;text representation

      0引言

      隨著信息傳播手段的進(jìn)步,尤其是互聯(lián)網(wǎng)的出現(xiàn),信息急劇膨脹。在這種情況下,如何快捷準(zhǔn)確地獲取感興趣的信息成為人們關(guān)注的焦點(diǎn)。由于網(wǎng)絡(luò)信息量太大,與一個(gè)事件話題相關(guān)的信息往往孤立地分散在不同的時(shí)間段和不同的地方。僅僅通過(guò)這些孤立的信息,人們對(duì)某些事件難以做到全面地把握。因此,人們迫切地希望擁有一種工具,能夠自動(dòng)把與特定事件話題相關(guān)的信息匯總組織供人查閱。話題識(shí)別與跟蹤(Topic Detection and Tracking,TDT)技術(shù)就是在這種情況下產(chǎn)生的。話題跟蹤(Topic Tracking)任務(wù)是TDT的一個(gè)子任務(wù),它的目的是監(jiān)控新聞信息報(bào)道(Story)流識(shí)別出與預(yù)先給定的幾個(gè)新聞報(bào)道所表述的話題相關(guān)的后續(xù)報(bào)道[1,2]。話題跟蹤能夠幫助人們把分散的信息有效地匯集并組織起來(lái),從整體上了解一個(gè)話題的全部細(xì)節(jié)[3]。

      在話題跟蹤系統(tǒng)中,要有效跟蹤出屬于同一話題的后繼報(bào)道,必須尋找出真正具有代表性的特征。本文把報(bào)道文本中的特征劃分為2種類型:命名實(shí)體NE和非命名實(shí)體N。命名實(shí)體主要包括人名、地名、機(jī)構(gòu)名和時(shí)間等。從直覺(jué)上來(lái)看,當(dāng)報(bào)道2個(gè)不同的火車事故時(shí),事故所發(fā)生的時(shí)間、地點(diǎn)以及涉及到的人物會(huì)有比較大的區(qū)分能力。但由于命名實(shí)體在文本中出現(xiàn)的頻率一般都比較低,采用傳統(tǒng)的單向量表示文本,往往會(huì)使得命名實(shí)體所表達(dá)的信息被其他無(wú)關(guān)緊要的高頻信息淹沒(méi)掉。

      本文采用了雙向量來(lái)表示報(bào)道文本,該策略的基本思想是對(duì)報(bào)道文本中的命名實(shí)體單獨(dú)處理,使其單獨(dú)組成一個(gè)向量,文本中的非命名實(shí)體組成另外一個(gè)向量。在跟蹤過(guò)程中,使用2個(gè)向量來(lái)計(jì)算已知話題和每個(gè)到來(lái)報(bào)道的相似度,得到2個(gè)相似度SimNE和SimN,再將2個(gè)相似度加權(quán)求和,得到最終的已知話題和報(bào)道的相似度Sim。

      1命名實(shí)體識(shí)別

      命名實(shí)體識(shí)別最初是在MUC-6(Message Understanding Conference)上作為一個(gè)子任務(wù)提出的[4]。命名實(shí)體識(shí)別任務(wù)主要是要識(shí)別出文本中的專有名詞和有意義的數(shù)量短語(yǔ)并加以歸類[5]。命名實(shí)體識(shí)別的方法主要分為2大類:基于規(guī)則(Rule-based)的方法和基于統(tǒng)計(jì)(Statistic-based)的方法[6,7]。本文在實(shí)驗(yàn)中是以分詞后的詞性標(biāo)注為依據(jù)來(lái)進(jìn)行命名實(shí)體識(shí)別的,主要識(shí)別了時(shí)間、人名、地名和機(jī)構(gòu)名。只把這4種類型的詞認(rèn)為是命名實(shí)體NE,其余的詞都被認(rèn)為是非命名實(shí)體N。

      其中,時(shí)間信息代表了事件發(fā)生的背景,對(duì)于話題跟蹤來(lái)說(shuō),是一個(gè)非常重要的信息。在分詞和詞性標(biāo)注結(jié)果中,時(shí)間特征是由連續(xù)的詞性標(biāo)記為“/t”的特征來(lái)表示的[8]。因此,可以將2個(gè)或多個(gè)連續(xù)的詞性標(biāo)記為“/t”的特征合并,實(shí)現(xiàn)時(shí)間特征的識(shí)別。如:“新華社/nt 伊朗/ns 11月/t 6日/t 電/n”,識(shí)別出來(lái)的時(shí)間特征為:“11月6日”。

      在分詞和詞性標(biāo)注結(jié)果中,姓和名都是用詞性標(biāo)記“/nr”來(lái)表示的[9],且姓和名分別進(jìn)行標(biāo)記。因此,可以將2個(gè)或多個(gè)連續(xù)的詞性標(biāo)記為“/nr”的詞合并,實(shí)現(xiàn)人名實(shí)體特征的識(shí)別。如:“山崎/nr 龍/nr 一郎/nr”,識(shí)別出來(lái)的人名特征為“山崎龍一郎”。在對(duì)人名識(shí)別時(shí),還有一種情況是指代關(guān)系,需要將詞還原[10]。在新聞報(bào)道的敘述中,主要的事件角色特征詞往往出現(xiàn)很少的次數(shù),有的甚至只出現(xiàn)一次,更多的是利用指代詞對(duì)該特征進(jìn)行引用。下面舉例來(lái)說(shuō)明本文對(duì)人名指代關(guān)系的處理方法。“王/nr 岳山/nr 目前/t 強(qiáng)調(diào)/v…………,/w 王/nr 主任/n 還/c 表示/v……………”,對(duì)于“王/nr 主任/n”這樣的格式,表達(dá)得很明顯,同樣指的是“王岳山”,如果單獨(dú)將“王”作為人名特征提取出來(lái),由于兩者字面上的表現(xiàn)不同,系統(tǒng)會(huì)將其作為2個(gè)不同的人名來(lái)處理。很顯然,這樣會(huì)丟失一些信息,因此,需要對(duì)“王/nr”進(jìn)行還原。本文采用的方法是將特征提取出來(lái)后,按照音標(biāo)將其進(jìn)行排序。上面的句子特征經(jīng)過(guò)排序后就成為:表示(1)強(qiáng)調(diào)(1)王(1)王岳山(1)主任(1),然后將“王”還原成“王岳山”,結(jié)果就成為:表示(1)強(qiáng)調(diào)(1)王岳山(2)主任(1)。從而就實(shí)現(xiàn)了人名實(shí)體特征的識(shí)別。其中,括號(hào)內(nèi)的數(shù)字表示特征在當(dāng)前句子中出現(xiàn)的次數(shù)。

      同人名一樣,地名和機(jī)構(gòu)名也是2個(gè)重要的信息,在分詞結(jié)果的詞性標(biāo)注中地名信息是由“/ns”來(lái)標(biāo)記的,機(jī)構(gòu)名是由“/nt”來(lái)標(biāo)記的。按照詞性標(biāo)注進(jìn)行的命名實(shí)體識(shí)別雖然不是太準(zhǔn)確,但其在實(shí)驗(yàn)中也取得了一定的效果。

      2系統(tǒng)構(gòu)建

      所謂的雙向量模型就是將文本D用命名實(shí)體向量和非命名實(shí)體向量2個(gè)向量來(lái)表示。

      2.1話題的雙向量模型

      在話題跟蹤任務(wù)中,話題T和報(bào)道S都可看作文本,使用雙向量表示。在對(duì)話題構(gòu)建雙向量模型時(shí),需要先對(duì)訓(xùn)練樣本中Nt篇報(bào)道文本分別建雙向量模型,得到Nt個(gè)雙向量模型,即

      式中,1≤i≤Nt,wneij(1≤j≤m)和wnih(1≤h≤k)分別表示命名實(shí)體fnej和非命名實(shí)體fnh在第i篇報(bào)道文本中的權(quán)重,m表示從訓(xùn)練樣本中識(shí)別出來(lái)的命名實(shí)體特征的數(shù)目,k表示從訓(xùn)練樣本中選擇的非命名實(shí)體特征的數(shù)目;最后,利用中心向量空間模型構(gòu)建得到話題的雙向量模型為:

      2.2雙向量模型跟蹤系統(tǒng)的構(gòu)建

      為了驗(yàn)證雙向量模型在話題跟蹤任務(wù)中的有效性,構(gòu)建了基于雙向量模型的話題跟蹤系統(tǒng)。由上幾節(jié)可知,在構(gòu)建雙向量模型時(shí),其中最關(guān)鍵的一步是命名實(shí)體識(shí)別,命名實(shí)體識(shí)別的好壞會(huì)直接影響到話題跟蹤系統(tǒng)的性能。系統(tǒng)的具體構(gòu)建步驟如下:

      文本預(yù)處理:首先對(duì)訓(xùn)練樣本中的報(bào)道進(jìn)行分詞、特征選擇、命名實(shí)體識(shí)別等預(yù)處理;最后,利用中心向量空間模型將已知話題表示為雙向量。

      相似度計(jì)算:對(duì)每個(gè)到來(lái)的報(bào)道進(jìn)行雙向量表示,采用如下公式計(jì)算已知話題和每個(gè)到來(lái)的報(bào)道的相似度:

      Sim(S,T)=Sim(SNE,TNE)+αSim(SN,TN)。

      式中,Sim(SNE,TNE)表示已知話題的命名實(shí)體和后來(lái)報(bào)道的命名實(shí)體之間的相似度;Sim(SN,TN)表示已知話題的非命名實(shí)體和后來(lái)報(bào)道的非命名實(shí)體之間的相似度;α(0<α<1)為加權(quán)系數(shù),用來(lái)實(shí)現(xiàn)命名實(shí)體和非命名實(shí)體的合理組合。

      話題跟蹤:對(duì)于每個(gè)到來(lái)的報(bào)道S,利用相似度計(jì)算公式來(lái)計(jì)算它與已知話題T的相似度Sim(S,T)[11],按照相似度大小降序排列,顯示跟蹤出來(lái)的新聞報(bào)道?;陔p向量的話題跟蹤過(guò)程圖如圖1所示。

      圖1 基于雙向量的話題跟蹤過(guò)程

      3實(shí)驗(yàn)說(shuō)明及結(jié)果分析

      3.1實(shí)驗(yàn)語(yǔ)料

      實(shí)驗(yàn)所使用的語(yǔ)料是一個(gè)含有2 124篇新聞報(bào)道文本的文本集合。該文本集合由基礎(chǔ)文本和話題文本2部分組成,基礎(chǔ)文本部分包含1 987篇文本,這些文本是在數(shù)據(jù)庫(kù)-慧科新聞上下載得到的;話題文本部分包含137篇文本,它們分別屬于25個(gè)話題,這些話題新聞報(bào)道文本是從新浪網(wǎng)站的專題新聞下載獲取的。

      3.2評(píng)測(cè)機(jī)制

      在話題識(shí)別與跟蹤領(lǐng)域,對(duì)一個(gè)系統(tǒng)性能的評(píng)價(jià)主要使用歸一化識(shí)別代價(jià)(CDet)Norm這一指標(biāo)。計(jì)算如下[12]:

      式中,CDet為系統(tǒng)的錯(cuò)誤識(shí)別代價(jià),其計(jì)算如下:

      CDet=CMiss*PMiss*Ptarget+CFA*PFA*Pnon-target。

      式中,CMiss和CFA分別為漏報(bào)和誤報(bào)的代價(jià),它們的值通常是根據(jù)應(yīng)用預(yù)先給定。目前,大多數(shù)TDT評(píng)測(cè)任務(wù)中它們分別取1和0.1,即認(rèn)為漏報(bào)的代價(jià)要高得多;Ptarget是一個(gè)先驗(yàn)的目標(biāo)出現(xiàn)概率,表示關(guān)于某個(gè)話題的新聞報(bào)道出現(xiàn)的可能性;Pnon-target=1-Ptarget,它們的值通常也根據(jù)具體的應(yīng)用給出,在TDT評(píng)測(cè)任務(wù)中Ptarget=0.02;Pnon-target=0.98;PMiss和PFA分別是系統(tǒng)跟蹤的漏報(bào)率和誤報(bào)率,漏報(bào)率是指系統(tǒng)沒(méi)有跟蹤出來(lái)的關(guān)于某個(gè)話題的新聞報(bào)道的數(shù)目與語(yǔ)料庫(kù)中描述該話題的新聞報(bào)道總數(shù)之比,而誤報(bào)率是指系統(tǒng)對(duì)某一話題判斷錯(cuò)誤的新聞報(bào)道的數(shù)目與語(yǔ)料庫(kù)中沒(méi)有描述該話題的新聞報(bào)道的總數(shù)之比[13]。

      3.3加權(quán)系數(shù)的選取

      加權(quán)系數(shù)α(0<α<1)是話題的非命名實(shí)體向量與每個(gè)到來(lái)的報(bào)道的非命名實(shí)體向量之間的相似度的加權(quán)值,它是用來(lái)實(shí)現(xiàn)命名實(shí)體向量和非命名實(shí)體向量的合理組合的。α取值的不同對(duì)采用雙向量模型的話題跟蹤系統(tǒng)的性能有很大影響。實(shí)驗(yàn)中,考察了α取0.05~0.9值時(shí)話題跟蹤系統(tǒng)性能的變化情況,以0.05為間隔。實(shí)驗(yàn)結(jié)果如圖2所示。

      圖2 α的不同取值對(duì)跟蹤系統(tǒng)性能的影響

      從圖2不難看出,當(dāng)α取0.15時(shí),基于雙向量的話題跟蹤系統(tǒng)的性能最好,系統(tǒng)的歸一化識(shí)別代價(jià)為0.217 58。隨著α的增大,非命名實(shí)體的比重加大,系統(tǒng)的歸一化識(shí)別代價(jià)也呈上升趨勢(shì),這表明在報(bào)道文本中命名實(shí)體比非命名實(shí)體更具有代表性,對(duì)不同的話題具有較大的區(qū)分能力。

      3.4結(jié)果分析

      由于用戶耐心閱讀文檔的最大限額是20篇,所以通過(guò)考察前20篇的跟蹤結(jié)果來(lái)評(píng)估跟蹤系統(tǒng)性能的好壞。本章選取跟蹤結(jié)果前n(n=2、5、8、10、15、20)篇計(jì)算出相應(yīng)的基于單向量與基于雙向量的話題跟蹤系統(tǒng)的歸一化識(shí)別代價(jià)。構(gòu)建的話題跟蹤系統(tǒng)是以向量空間模型為基礎(chǔ)。實(shí)驗(yàn)結(jié)果如圖3所示。

      圖3 系統(tǒng)性能比較

      從圖3中可以看出,當(dāng)參考文檔分別取2、5、8、10、15、20時(shí),基于雙向量的跟蹤系統(tǒng)的歸一化識(shí)別代價(jià)都小于基于單向量的跟蹤系統(tǒng)的歸一化識(shí)別代價(jià)。隨著參考文檔的增多,2個(gè)系統(tǒng)的歸一化識(shí)別代價(jià)的差值越來(lái)越大。當(dāng)參考文檔取20時(shí),基于雙向量的跟蹤系統(tǒng)的歸一化識(shí)別代價(jià)為0.217 58,而基于單向量的跟蹤系統(tǒng)的歸一化識(shí)別代價(jià)為0.438 05,采用雙向量模型使得話題跟蹤系統(tǒng)的性能提高了50.3%。總的來(lái)說(shuō),圖3表明了基于雙向量的話題跟蹤系統(tǒng)的性能要好于基于單向量的話題跟蹤系統(tǒng)的性能。換言之,在話題跟蹤中,雙向量的文本示方法比單向量的文本表示方法更準(zhǔn)確。

      4結(jié)束語(yǔ)

      基于雙向量模型的話題跟蹤,能夠突出報(bào)道文本的內(nèi)容信息,大大提高了跟蹤系統(tǒng)的性能。但是由于在進(jìn)行命名實(shí)體識(shí)別時(shí)是根據(jù)分詞后的詞性標(biāo)注來(lái)進(jìn)行識(shí)別提取的,會(huì)使得識(shí)別出來(lái)的命名實(shí)體很不準(zhǔn)確,而且會(huì)導(dǎo)致有些命名實(shí)體識(shí)別不出來(lái)。雙向量模型的優(yōu)點(diǎn)就不能充分體現(xiàn)出來(lái)。

      目前,話題跟蹤研究領(lǐng)域使用的模型還都是在信息檢索模型的基礎(chǔ)上,通過(guò)調(diào)整某些參數(shù)來(lái)使這些技術(shù)更適合于話題跟蹤。但是話題跟蹤有其自身的特點(diǎn),如面向話題和基于時(shí)間等,僅僅利用現(xiàn)有信息檢索的方法來(lái)進(jìn)一步提升話題跟蹤系統(tǒng)的性能是很有限的,今后將尋求一些新的直接面向話題跟蹤的方法,使話題跟蹤系統(tǒng)的性能得到一個(gè)質(zhì)的提升。

      參考文獻(xiàn)

      [1]SUNDHEIM B M.Named Entity Task Definition[J].Version 2.1.In:Proc of the Sixth Message Understanding Conf.,1995,31(5):319-332.

      [2]陳勇,張佳驥,吳立德,等.基于數(shù)據(jù)挖掘的面向話題搜索引擎研究[J].無(wú)線電通信技術(shù),2011,27(5):38-40.

      [3]李保利,俞士汶.話題識(shí)別與跟蹤研究[J] .計(jì)算機(jī)工程與應(yīng)用,2003,39(17):6-10.

      [4]YANG Yi-ming,CARBONELL J,BROWN R,et al.

      Learning Approaches for Detecting and Tracking News Events [J].IEEE Intelligent Systems:Special Issue on Applications of Intelligent Information Retrieval,1999,14(4):32-43.

      [5]駱衛(wèi)華,劉群,程學(xué)旗.話題檢測(cè)與跟蹤技術(shù)的研究[C]∥ 哈爾濱:語(yǔ)言計(jì)算與基于內(nèi)容的文本處理,全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議,2003.

      [6]ALLAN J.Topic Detection and Tracking:Event-based Information Organization [M].USA:Kluwer Academic Publishers,2002,1-16.

      [7]WAYNE C.Multilingual Topic Detection and Tracking:Successful Research Enabled by Corpora and Evaluation[C]∥Language Resources and Evaluation Conference(LREC),2000:1487-1494.

      [8]譚應(yīng)偉,莫倩.基于Web的有監(jiān)督自適應(yīng)話題跟蹤系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].鄭州大學(xué)學(xué)報(bào),2007,39(2):25-29.

      [9]周強(qiáng),段慧明.現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)加工中的切詞與詞性標(biāo)注處理[J].中國(guó)計(jì)算機(jī)報(bào),1994,21(1):85-87.

      [10]張鵬飛,李赟,劉建毅,等.基于相對(duì)詞頻的文本特征選擇方法[J].計(jì)算機(jī)應(yīng)用研究,2005(4):23-26.

      [11]張學(xué)亮,陳金勇,陳勇.基于Hadoop云計(jì)算平臺(tái)的海量文本處理研究[J].無(wú)線電通信技術(shù),2014,40(1):54-57.

      [12]黃萱菁,夏迎炬,吳立德.基于向量空間模型的文本過(guò)濾系統(tǒng)[J].軟件學(xué)報(bào),2003,14(3):435-442.

      [13]陳勇.一種目標(biāo)行為序列模式的數(shù)據(jù)挖掘方法[J].無(wú)線電通信技術(shù),2015,41(2):79-81.

      劉海娟女,(1981—),碩士研究生。主要研究方向:信號(hào)與信息處理。

      劉文展男,(1983—),碩士研究生。主要研究方向:地圖學(xué)與地理信息系統(tǒng)。

      作者簡(jiǎn)介

      中圖分類號(hào)TP311

      文獻(xiàn)標(biāo)識(shí)碼A

      文章編號(hào)1003-3106(2016)02-0027-04

      收稿日期:2015-11-23

      doi:10.3969/j.issn.1003-3106.2016.02.07

      引用格式:劉海娟,劉文展.基于雙向量模型的話題跟蹤[J].無(wú)線電工程,2016,46(2):27-30.

      青浦区| 梨树县| 白水县| 卓尼县| 腾冲县| 化隆| 聂拉木县| 仪陇县| 建水县| 靖远县| 军事| 邵阳市| 永修县| 炎陵县| 武隆县| 上饶市| 毕节市| 怀化市| 上饶市| 固原市| 石屏县| 舒兰市| 凭祥市| 山阳县| 西安市| 德格县| 淳安县| 汉源县| 三河市| 肇庆市| 喀喇沁旗| 宜兰县| 贞丰县| 龙海市| 台江县| 收藏| 平山县| 若羌县| 玉树县| 嘉荫县| 丰原市|