• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于主題與語(yǔ)義的對(duì)話語(yǔ)料關(guān)鍵詞抽取方法

      2018-12-13 09:06:00黃青松劉利軍李帥彬馮旭鵬
      關(guān)鍵詞:語(yǔ)料語(yǔ)義權(quán)重

      胡 遷 黃青松,2 劉利軍* 李帥彬 馮旭鵬

      1(昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院 云南 昆明 650500)2(昆明理工大學(xué)云南省計(jì)算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室 云南 昆明 650500)3(昆明理工大學(xué)教育技術(shù)與網(wǎng)絡(luò)中心 云南 昆明 650500)

      0 引 言

      關(guān)鍵詞有助于提高文本分類、信息檢索等自然語(yǔ)言處理任務(wù)的性能。近年來(lái),隨著即時(shí)聊天、網(wǎng)購(gòu)咨詢、自動(dòng)問(wèn)答系統(tǒng)等社交網(wǎng)絡(luò)的迅猛發(fā)展,積累了大量的對(duì)話特性文檔,對(duì)話記錄隱含了人們聊天的情景和目的,反映了對(duì)話者的興趣。從對(duì)話中抽取關(guān)鍵詞可以用來(lái)總結(jié)、組織、檢索對(duì)話內(nèi)容,也可被用于用戶個(gè)人服務(wù)、廣告推薦等。相較于傳統(tǒng)長(zhǎng)文本,這類數(shù)據(jù)具有對(duì)話性、短文本、結(jié)構(gòu)松散等特點(diǎn),導(dǎo)致關(guān)鍵詞難以遴選[1]。因此,對(duì)話文本的特性給關(guān)鍵詞抽取帶來(lái)了挑戰(zhàn)和意義。

      1 相關(guān)工作

      傳統(tǒng)關(guān)鍵詞抽取主要集中在網(wǎng)頁(yè)檢索、科技文獻(xiàn)和文本文檔等領(lǐng)域,方法主要分為有監(jiān)督方法和無(wú)監(jiān)督方法。有監(jiān)督方法采用人工標(biāo)注的關(guān)鍵詞文檔訓(xùn)練分類器得到關(guān)鍵詞。Neuyen等[2]針對(duì)論文,利用論文的結(jié)構(gòu)信息、詞性、詞語(yǔ)后綴等特征,提高了關(guān)鍵詞分類器性能。Meng等[3]基于神經(jīng)網(wǎng)絡(luò)的編碼解碼預(yù)測(cè)模型來(lái)生成關(guān)鍵詞,文中用循環(huán)神經(jīng)網(wǎng)絡(luò)模型結(jié)合注意力和重復(fù)機(jī)制來(lái)訓(xùn)練模型,模型解決以往方法只選擇文中出現(xiàn)的詞作為關(guān)鍵詞和不能捕獲文檔真正的語(yǔ)義含義的問(wèn)題。有監(jiān)督方法缺點(diǎn):需要標(biāo)注關(guān)鍵詞。無(wú)監(jiān)督方法主要計(jì)算詞的顯著性權(quán)值,然后排序推薦。Mihalcea等[4]提出基于圖的排序算法TextRank。該方法將文檔中詞的共現(xiàn)關(guān)系構(gòu)造詞匯圖,然后計(jì)算各個(gè)節(jié)點(diǎn)的權(quán)重得到關(guān)鍵詞。Liu等[5]從隱含主題的角度出發(fā),通過(guò)在Wikipedia語(yǔ)料上進(jìn)行主題模型訓(xùn)練,將候選詞與文檔的主題層相似度作為該詞的顯著性權(quán)值。在此基礎(chǔ)上,在偏置PageRank方法中引入隱含主題的權(quán)重,提出了Topic PageRank方法,該方法效果優(yōu)于只利用LDA的方法和基于TF-IDF的方法,這驗(yàn)證了在基于圖排序的關(guān)鍵短語(yǔ)抽取算法中引入文檔主題的可行性。文獻(xiàn)[6-7]計(jì)算詞語(yǔ)義相似度構(gòu)建詞匯鏈,然后結(jié)合詞頻或主題信息進(jìn)行關(guān)鍵詞抽取,但方法受到知識(shí)庫(kù)的限制。由于對(duì)話文本特點(diǎn),采用傳統(tǒng)的關(guān)鍵詞抽取方法是否有效值得懷疑。

      對(duì)話語(yǔ)料的關(guān)鍵詞抽取文獻(xiàn)研究較少。劉銘等[8]針對(duì)會(huì)議記錄,提出了兩種無(wú)監(jiān)督的關(guān)鍵詞抽取算法。在TF-IDF框架下,加入詞性過(guò)濾、詞聚類和句子重要性得分提取關(guān)鍵詞。同時(shí)研究基于圖的迭代方法,分別考慮了詞與詞、詞與句子的圖類型得到詞的權(quán)重,句子與句子、句子與詞的圖類型得到句子的權(quán)重。實(shí)驗(yàn)結(jié)果表明簡(jiǎn)單的TFIDF方法優(yōu)于基于圖的方法,而且詞性的過(guò)濾和句子重要性得分有助于關(guān)鍵詞抽取。結(jié)果還表明基于共現(xiàn)詞聚類的聚類方法對(duì)結(jié)果沒(méi)有明顯幫助,因?yàn)楣铂F(xiàn)的聚類沒(méi)有拾取詞的語(yǔ)義相似性。Song等[9]針對(duì)英語(yǔ)和韓語(yǔ)會(huì)議記錄提出了實(shí)時(shí)關(guān)鍵詞抽取方法,方法主要基于圖,考慮歷史句子中與當(dāng)前句子相關(guān)性,以及遺忘曲線跟新歷史句子生成的圖來(lái)得到當(dāng)前句子的關(guān)鍵詞。但圖邊權(quán)重利用是否在窗口中共現(xiàn)置為1或0,沒(méi)有考慮詞間的語(yǔ)義關(guān)系。Liu等[10]針對(duì)會(huì)議記錄提出一種有監(jiān)督的關(guān)鍵詞抽取方法,其考慮對(duì)話數(shù)據(jù)特點(diǎn),利用最大熵分類器決定某個(gè)一元詞是否為關(guān)鍵詞,同時(shí)考慮了二元詞的擴(kuò)展。缺點(diǎn)是需要標(biāo)注關(guān)鍵詞訓(xùn)練分類器。對(duì)話語(yǔ)料中標(biāo)注好關(guān)鍵詞的文檔很匱乏。Chen等[11]針對(duì)課程講座語(yǔ)料提出了兩步法提取關(guān)鍵詞,首先利用PLSA模型計(jì)算候選詞語(yǔ)的主題一致性和重要性(TCS),方法結(jié)合目標(biāo)文檔、按詞搜索的文檔和維基文檔綜合計(jì)算候選詞的TCS。其次,根據(jù)詞語(yǔ)的TCS排序,前M個(gè)作為正樣本,其他作為負(fù)樣本,然后結(jié)合詞的頻率、語(yǔ)義等特征訓(xùn)練SVM分類器。Yeh等[12]利用語(yǔ)義分析分好主題類文檔來(lái)訓(xùn)練LDA模型,實(shí)驗(yàn)表明LDA模型比SVM模型有更高的準(zhǔn)確率。訓(xùn)練模型時(shí)如何找辨識(shí)度高的詞是關(guān)鍵。PLas等[13]針對(duì)對(duì)話研究考慮語(yǔ)義,他們采用兩種詞典資源:EDR和WordNet來(lái)計(jì)算詞間的語(yǔ)義相似性抽取關(guān)鍵詞,并同時(shí)對(duì)比了兩種詞典的效果,但方法受詞典限制。Noh[14]根據(jù)詞語(yǔ)的維基百科語(yǔ)義信息,計(jì)算詞語(yǔ)與本句和全部句子的語(yǔ)義相似性,抽取與對(duì)話語(yǔ)義更相關(guān)的詞語(yǔ)。文獻(xiàn)[15]首先利用LSA獲取語(yǔ)義信息,然后對(duì)對(duì)話文本進(jìn)行分割,最后得到摘要。李天彩等[16]針對(duì)短文本信息流提出新的用戶建模方法。首先將用戶發(fā)表內(nèi)容合并,然后將內(nèi)容分割為固定長(zhǎng)度的詞鏈,在分割處添加用戶名構(gòu)造上下文關(guān)系,最后結(jié)合外部數(shù)據(jù),使用Skip-gram模型進(jìn)行訓(xùn)練得到用戶的向量表示。將和用戶向量最相似的詞語(yǔ)作為用戶標(biāo)簽。房冠南[1]提出一種針對(duì)對(duì)話語(yǔ)料的自動(dòng)標(biāo)簽推薦方法,該方法在TF-IDF基礎(chǔ)上,考慮對(duì)話者權(quán)重(對(duì)話者說(shuō)出的句子數(shù)占整個(gè)對(duì)話包含句子的比重,對(duì)話者說(shuō)出的次數(shù)占整個(gè)對(duì)話包含詞數(shù)的比重,對(duì)話者說(shuō)出的實(shí)詞數(shù)占整個(gè)對(duì)話的實(shí)詞數(shù))、句子重要程度和句子長(zhǎng)度等因素,進(jìn)行關(guān)鍵詞抽取,然后通過(guò)規(guī)則擴(kuò)展二元關(guān)鍵詞,最后在同一尺度下排序得到top-n關(guān)鍵詞進(jìn)行標(biāo)簽推薦。方法實(shí)驗(yàn)證明了TFIDF,POS過(guò)濾、基于實(shí)詞的對(duì)話者權(quán)重、句子重要、句子長(zhǎng)度五種因素對(duì)關(guān)鍵詞抽取有用。同時(shí)文中指出所提方法的缺點(diǎn)是抽取關(guān)鍵詞僅僅考慮詞頻、未考慮詞的語(yǔ)義關(guān)聯(lián)。

      綜上所述,本文所提方法聚焦語(yǔ)義和主題信息,結(jié)合詞語(yǔ)義聚類、詞性權(quán)重、句子主題相關(guān)性等多權(quán)重來(lái)抽取關(guān)鍵詞,簡(jiǎn)稱KSeL方法。最后,TFIDF方法和KSel得到的關(guān)鍵詞作為節(jié)點(diǎn),基于語(yǔ)義建立圖,通過(guò)圖迭代得到最終的關(guān)鍵詞,簡(jiǎn)稱為GKSeL方法。

      2 對(duì)話語(yǔ)料的標(biāo)簽生成方法

      本文所提方法的流程圖如圖1所示。首先,對(duì)中文語(yǔ)料和對(duì)話語(yǔ)料進(jìn)行預(yù)處理、訓(xùn)練得到詞向量和主題模型。其次,計(jì)算給定文檔句子的主題相關(guān)度,詞與所有句子的相似度,得到詞與文檔語(yǔ)義相似度權(quán)重。然后,用詞的詞性權(quán)重、詞的語(yǔ)義相似度、詞語(yǔ)義聚類權(quán)值結(jié)合得到基于語(yǔ)義方法(KSeL)的候選關(guān)鍵詞。最后,嘗試將KSeL所得關(guān)鍵詞與TFIDF關(guān)鍵詞利用基于圖的方法進(jìn)行混合篩選(簡(jiǎn)稱GKSel方法),期望結(jié)合語(yǔ)義和詞頻得到關(guān)鍵詞。

      圖1 基于語(yǔ)義與主題的用戶標(biāo)簽生成方法

      2.1 對(duì)話表示

      對(duì)話語(yǔ)料含有很多語(yǔ)氣詞和符號(hào),為了提高實(shí)驗(yàn)的效率和精度需要做分詞和去停用詞等預(yù)處理工作。為了方便理解,先給出文中所用的定義。

      定義1(詞的向量表示)W={d1,d2,…,dn},其中n表示詞的向量維度,每個(gè)詞的維度相同,di表示詞對(duì)應(yīng)i維上的值。

      定義2(會(huì)話表示)DL={s1,s2,…,sm},其中m表示對(duì)話中句子的個(gè)數(shù),不同對(duì)話文本含有的句子的個(gè)數(shù)不一定相同,si表示文中第i個(gè)句子。

      定義3(主題表示)T={t1,t2,…,tk},其中ti表示組成主題的詞,k表示詞的個(gè)數(shù),ti表示主題第i個(gè)詞。

      定義4(句子表示)S={w1,w2,…,wm},其中m表示句子的個(gè)數(shù),不同句子含有詞的個(gè)數(shù)不一定相同,wi表示文中第i個(gè)詞。

      2.2 句子的主題相似性權(quán)重

      Yunseok Noh[14]闡述含有信息的語(yǔ)句很大程度上與主題相關(guān),反之沒(méi)有信息的語(yǔ)句包含的詞多是無(wú)意義或習(xí)慣性詞語(yǔ),文獻(xiàn)[8,17]都表明重要的句子通常包含關(guān)鍵詞,關(guān)鍵詞也經(jīng)常出現(xiàn)在重要句子中。因此考慮句子的主題權(quán)重,首先通過(guò)訓(xùn)練的主題模型得到給定對(duì)話文檔的主題T={t1,t2,…,tk},然后,計(jì)算文檔中每個(gè)句子S={w1,w2,…,wm}與主題T的相似度。相似度WeightSi計(jì)算如下:

      (1)

      2.3 詞與句子的相似度

      如果一個(gè)詞的語(yǔ)義與對(duì)話語(yǔ)句的語(yǔ)義越相似,則該詞越能夠代表該句子表示的語(yǔ)義信息,文獻(xiàn)[14]利用ESA表示詞的語(yǔ)義信息,然后基于此計(jì)算詞的局部權(quán)重和全局權(quán)重。由此,方法考慮詞語(yǔ)與文本中所有句子的相似,得到詞的全局相似值作為詞的語(yǔ)義權(quán)重。詞與句子的相似性WeightWi計(jì)算如下:

      (2)

      式中:w1代表候選關(guān)鍵詞,w2i代表含有m個(gè)詞的句子中的第i個(gè)詞。詞與句子相似度高,但句子與對(duì)話主題不相關(guān),則詞不能很好地代表對(duì)話內(nèi)容。因此,考慮詞語(yǔ)與句子相似性的同時(shí)需要考慮句子的主題關(guān)聯(lián)性。句子與主題關(guān)聯(lián)性越高,則句子越能夠代表主題。最終得到候選關(guān)鍵詞的語(yǔ)義相似度值WDscore計(jì)算如下:

      (3)

      式中:m表示對(duì)話文本含有的句子的個(gè)數(shù),WeightWi和WeightSi分別由式(1)-式(2)求得,即WeightSi代表句子i與主題的相似權(quán)重,WeightWi候選關(guān)鍵詞與句子i的語(yǔ)義相似度。

      2.4 詞的語(yǔ)義聚類重要度

      對(duì)話過(guò)程中可能會(huì)反復(fù)提到某個(gè)詞來(lái)強(qiáng)調(diào)意圖,同時(shí),會(huì)話可能用不同的詞代表相似的意思,對(duì)話所含詞語(yǔ)中,如果某幾個(gè)或多個(gè)詞語(yǔ)相似,至少說(shuō)明文本中涉及該類信息。所以本文方法根據(jù)詞的語(yǔ)義相似度進(jìn)行聚類,根據(jù)得到的類中詞語(yǔ)的個(gè)數(shù)占文本總詞數(shù)作為該類詞的語(yǔ)義聚類權(quán)重。本文采用文獻(xiàn)[18]中的快速聚類方法,該方法假設(shè)聚類中心周圍都是密度比其低的點(diǎn),同時(shí)類中這些點(diǎn)距離該聚類中心的距離相比于其他聚類中心最近,對(duì)于每個(gè)數(shù)據(jù)點(diǎn)i,需要計(jì)算兩個(gè)量:局部密度ρi和高于i點(diǎn)密度的最小距離δi。

      局部密度定義如下:

      (4)

      當(dāng)χ<0時(shí);χ(x)=1,否則等于0。這里dc是一個(gè)截?cái)嗑嚯x,這里選擇比較魯棒性,因此算法中dc定義為文中所有點(diǎn)的相互距離由小到大排列占總數(shù)2%的位置的詞間距離。最小距離定義如下:

      (5)

      比i點(diǎn)密度高的所有點(diǎn)中,與i點(diǎn)距離最近的點(diǎn)的距離表示為δi,對(duì)于最大密度的點(diǎn)其δi為所有點(diǎn)之間距離的最大值。然后給定兩δmin和ρmin,同時(shí)大于這兩個(gè)數(shù)的點(diǎn)作為聚類中心點(diǎn)。確定聚類中心后,剩下的點(diǎn)的標(biāo)簽按照以下原則分配:當(dāng)前點(diǎn)的類別標(biāo)簽和高于當(dāng)前點(diǎn)密度的最近點(diǎn)的標(biāo)簽一致。據(jù)此得到候選詞w的聚類權(quán)重ClusterW如下:

      (6)

      式中:num1是候選詞所屬類中詞語(yǔ)的數(shù)目,num是所有候選詞數(shù)目,同一聚類中所有詞擁有相同的語(yǔ)義聚類重要度。

      2.5 詞性權(quán)重

      文獻(xiàn)[1,8,10]通過(guò)詞性過(guò)濾只保留動(dòng)詞、名詞、形容詞作為候選詞,其實(shí)驗(yàn)表明這種過(guò)濾對(duì)關(guān)鍵詞抽取有幫助,所以,方法考慮詞性的權(quán)重PosWeight,采用文獻(xiàn)[19]中定義的不同詞性的權(quán)重值,如:動(dòng)詞為0.3,形容詞為0.5,副詞為0.3,名詞為0.8等,其他詞性重要度請(qǐng)參考文獻(xiàn)。

      本文方法考慮詞性權(quán)重、詞語(yǔ)義聚類權(quán)重(得分)、詞的語(yǔ)義相似度權(quán)重(得分),最終得到詞權(quán)重Wscore計(jì)算如下:

      Wscore=PosWeight×(ClusterW+WDscore)

      (7)

      上文公式中詞間距distance()和dij采用余弦距離公式,根據(jù)文獻(xiàn)[20]詞語(yǔ)可以由一堆實(shí)數(shù)的向量形式表示語(yǔ)義信息,本文詞向量采用Skip-gram方法得到,如W1{x1,x2,…,xn},W2{x1,x2,…,xn},則詞間距離計(jì)算公式如下:

      (8)

      2.6 基于圖的篩選

      文獻(xiàn)[8]的實(shí)驗(yàn)結(jié)果表明基于TF-IDF方法抽取關(guān)鍵詞優(yōu)于基于圖的方法,圖中邊權(quán)重主要考慮TF-IDF。本文主要考慮語(yǔ)義抽取關(guān)鍵詞。但是,因?yàn)槿藗儗?duì)關(guān)鍵詞理解有不同的認(rèn)知,基于語(yǔ)義的關(guān)鍵詞概括性可能不如基于頻率抽取的關(guān)鍵詞,反之依然。所以,考慮將兩種方法的抽取的關(guān)鍵詞混合,然后基于圖的迭代計(jì)算詞的權(quán)重,最后選出TopN個(gè)詞,期望能綜合利用到詞的語(yǔ)義和頻率信息。

      本文中用G=(V,E)代表混合候選詞語(yǔ)構(gòu)成的圖,V代表詞語(yǔ)節(jié)點(diǎn),E是邊的集合,對(duì)于每個(gè)節(jié)點(diǎn)vi,In(vi)代表指向它的節(jié)點(diǎn)集合,Out(vi)代表節(jié)點(diǎn)vi指向的節(jié)點(diǎn)集合。權(quán)重Wij代表節(jié)點(diǎn)間邊的權(quán)重。Wij計(jì)算如下:

      (9)

      distance(vi,vj)由式(8)得到,Wij為0表示兩詞無(wú)邊鏈接,節(jié)點(diǎn)vi的最終權(quán)重計(jì)算公式如下所示:

      (10)

      式中:d取0.85。S(Vi)的初始值定義為:如果該點(diǎn)的詞語(yǔ)同時(shí)出現(xiàn)在TF-IDF和所提方法中為2,否則為1。權(quán)重計(jì)算是個(gè)迭代過(guò)程,直至收斂或達(dá)到一定迭代次數(shù)停止,最后選取權(quán)重最高的N個(gè)詞。

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)和預(yù)處理

      實(shí)驗(yàn)使用的數(shù)據(jù)集來(lái)自訪談節(jié)目的對(duì)話,試驗(yàn)前對(duì)語(yǔ)料進(jìn)行分詞、去停用、清洗特殊符號(hào)等預(yù)處理工作,盡可能地使其包含一個(gè)主題。我們招募了8名學(xué)生進(jìn)行人工標(biāo)注,兩人一組標(biāo)注相同的對(duì)話,共標(biāo)注了1 000個(gè)對(duì)話,每個(gè)人的對(duì)話標(biāo)注的標(biāo)簽不少于5個(gè),標(biāo)注者可以任意選擇他們認(rèn)為重要的詞作為關(guān)鍵詞。

      訪談對(duì)話示例如圖2所示。

      圖2 訪談對(duì)話示例

      人工標(biāo)注對(duì)話的例子如表1所示。

      表1 對(duì)話標(biāo)注例子

      不同的標(biāo)注者看待問(wèn)題的角度不同,所以對(duì)于詞的重要程度的認(rèn)識(shí)也不相同,導(dǎo)致標(biāo)注的關(guān)鍵詞不一致。我們抽樣200個(gè)對(duì)話來(lái)計(jì)算不同標(biāo)注者的一致性,人工標(biāo)注分析采用嚴(yán)格匹配的方式,兩個(gè)標(biāo)注者對(duì)于同一對(duì)話的一致率是32%。

      3.2 實(shí)驗(yàn)結(jié)果分析

      為了比較算法的性能,我們使用TFIDF和基于圖的TextRank方法作為對(duì)比方法。表2中列出了針對(duì)同一段對(duì)話,四種方法抽取的關(guān)鍵詞示例。

      表2 不同方法關(guān)鍵詞抽取結(jié)果

      根據(jù)抽取關(guān)鍵詞結(jié)果比較,KSeL闡述的對(duì)話主題更完善,TFIDF的闡述缺少主題,表達(dá)不夠清楚,KSeL和TFIDF同時(shí)出現(xiàn)了“錢”和“房子”兩個(gè)關(guān)鍵詞,說(shuō)明對(duì)話很大程度上與房子和錢有關(guān),TFIDF可以理解演員之間買賣房子等,KSeL可以理解為魯豫王凱倆人討論畢業(yè)和房子的故事,同時(shí)牽涉錢的問(wèn)題,對(duì)原話表達(dá)更全面清楚。TextRank和KSeL比較抽取結(jié)果雖然很多相似,但結(jié)合原對(duì)話分析,TextRank缺少了“畢業(yè)”、“坎兒”、“日子”等描述生活狀態(tài)的詞,多了一些“覺(jué)得”、“沒(méi)有”、“想到”等模糊詞語(yǔ)。GKSeL是由TFIDF和KSeL得到,可以看出IFIDF方法中“借錢”、“供”、“月”排到了前面,表達(dá)了“房子”,“月供”,“借錢”,“坎兒”的連貫性,與KSeL相比描述的信息更具體深入。

      本文采用兩種評(píng)價(jià)方法的性能,第一種采用文獻(xiàn)[1]中的自動(dòng)評(píng)價(jià)方法,如下所示:

      Top-K準(zhǔn)確率:k個(gè)抽取關(guān)鍵詞中至少有一個(gè)正確的文檔占全部的關(guān)鍵詞比例。

      精確度:抽取的正確關(guān)鍵詞占所有抽取的關(guān)鍵詞的比率。

      準(zhǔn)確率:抽取的正確關(guān)鍵詞占人工標(biāo)注關(guān)鍵詞的比例(召回率)。

      圖3顯示了三種方法的Top-K,精確度和準(zhǔn)確率。從圖3(a)中可以看出,GKSeL在top-1時(shí)的準(zhǔn)確率達(dá)到了48.23%,TextRank和TFIDF準(zhǔn)確率分別為39.35%和43.32%,隨著標(biāo)簽個(gè)數(shù)的增加,Top-K準(zhǔn)確率的性能有所提高;從圖中看出,方法GKSeL對(duì)于5個(gè)關(guān)鍵詞的準(zhǔn)確率達(dá)到75.12%。圖3(b)顯示了關(guān)鍵詞個(gè)數(shù)從1增加到5時(shí),精確度隨關(guān)鍵詞個(gè)數(shù)變化,GKSeL最高精確度48.56%。顯示了召回率的變化情況,隨著關(guān)鍵詞個(gè)數(shù)的增加GKSeL的召回率不斷增加,最低召回率為21%。從圖中得出方法的性能優(yōu)于TFIDF和TextRank。

      (a) Top-K準(zhǔn)確率

      (b) 精確度-召回率圖3 不同方法在對(duì)話數(shù)據(jù)上的性能

      第二種方法采用文獻(xiàn)[1,8]拒絕率評(píng)價(jià),拒絕率代表有多少抽取的關(guān)鍵詞是不可以被人接受的。由于人工標(biāo)注的不一致性,我們需要質(zhì)疑,Top-K等是否適合用來(lái)評(píng)價(jià)抽取關(guān)鍵詞方法的性能。所以本文在少量語(yǔ)料上,采用拒絕率進(jìn)行人工評(píng)測(cè)。我們選取100個(gè)對(duì)話,給2個(gè)人提供方法抽取的關(guān)鍵詞,并讓其標(biāo)注不能反映對(duì)話內(nèi)容的關(guān)鍵詞,然后測(cè)量出每個(gè)標(biāo)注者和方法的拒絕率。結(jié)果如表3所示。

      表3 不同方法人工拒絕率

      從表3中,可以看出,人工標(biāo)注的拒絕率最低,因?yàn)槿四軌蚋宄乩斫鈱?duì)話內(nèi)容,但不同的人具有不同的出發(fā)點(diǎn),所以拒絕率不同,但符合預(yù)期。GKSel的人工拒絕率低于TFIDF和TextRank方法,人工拒絕率的測(cè)評(píng)結(jié)果同樣證明了我們所提方法的有效性。

      4 結(jié) 語(yǔ)

      本文提出了一種面向中文對(duì)話語(yǔ)料的自動(dòng)關(guān)鍵詞抽取方法。該方法利用語(yǔ)義和主題信息,結(jié)合詞的語(yǔ)義聚類、詞性權(quán)重、句子主題相關(guān)性等多權(quán)重來(lái)抽取關(guān)鍵詞。最后,結(jié)合TFIDF方法得到的關(guān)鍵詞建立以詞為節(jié)點(diǎn)的圖,基于圖迭代方法得到最終關(guān)鍵詞。方法考慮語(yǔ)義基礎(chǔ)上兼顧頻率,同時(shí)利用自動(dòng)評(píng)價(jià)和人工評(píng)價(jià)檢驗(yàn)方法的性能。實(shí)驗(yàn)結(jié)果顯示,所提方法優(yōu)于TFIDF和TextRank方法,證明了本文所提方法的有效性。

      本文從實(shí)驗(yàn)數(shù)據(jù)上說(shuō)明了方法的可行性,但人工標(biāo)注的不一致性和抽取關(guān)鍵詞的準(zhǔn)確率有很大關(guān)系。另一方面,所抽取的詞仍然比較單一,雖然文獻(xiàn)[1,10]考慮了二元擴(kuò)展,但基于模板,比較簡(jiǎn)單。未來(lái)希望可以結(jié)合神經(jīng)網(wǎng)絡(luò)訓(xùn)練語(yǔ)義的優(yōu)點(diǎn)來(lái)得到文中未出現(xiàn)詞且符合人們習(xí)慣的詞語(yǔ)。因此,未來(lái)將考慮未現(xiàn)詞和短語(yǔ)方面的研究。

      猜你喜歡
      語(yǔ)料語(yǔ)義權(quán)重
      權(quán)重常思“浮名輕”
      語(yǔ)言與語(yǔ)義
      為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
      基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      認(rèn)知范疇模糊與語(yǔ)義模糊
      《苗防備覽》中的湘西語(yǔ)料
      國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
      运城市| 宜川县| 永康市| 神农架林区| 岐山县| 台南县| 策勒县| 葫芦岛市| 永定县| 夏津县| 化州市| 马龙县| 巩留县| 西城区| 慈溪市| 康平县| 永顺县| 沿河| 临潭县| 宜兰县| 宕昌县| 纳雍县| 梅州市| 莱西市| 绥化市| 军事| 罗甸县| 武宣县| 万安县| 洪洞县| 延长县| 宝山区| 康马县| 平原县| 眉山市| 鹤岗市| 阿图什市| 石阡县| 大连市| 灵宝市| 哈密市|