• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      引入詞性標(biāo)記的基于語境相似度的詞義消歧

      2018-09-18 09:18:54孟禹光周俏麗張桂平蔡?hào)|風(fēng)
      中文信息學(xué)報(bào) 2018年8期
      關(guān)鍵詞:消歧實(shí)詞語料

      孟禹光, 周俏麗, 張桂平, 蔡?hào)|風(fēng)

      (沈陽航空航天大學(xué) 人機(jī)智能中心, 沈陽 遼寧110136)

      0 引言

      確定文本中某單詞的實(shí)際含義,即詞義消歧,簡(jiǎn)稱WSD,是自然語言處理領(lǐng)域中歷史久遠(yuǎn)的問題,有著廣泛的應(yīng)用。目前可分為有監(jiān)督方法、無監(jiān)督方法和基于知識(shí)的三類方法。雖然已發(fā)表的有監(jiān)督詞義消歧系統(tǒng)在提供特定語義的大規(guī)模訓(xùn)練語料時(shí)有很好的表現(xiàn),但缺乏大規(guī)模標(biāo)注語料是其存在的主要問題。使用預(yù)訓(xùn)練的詞向量可以在一定程度上解決這個(gè)問題。因?yàn)槭褂妙A(yù)先在大規(guī)模語料上訓(xùn)練的詞向量,包含了較多的語義語法信息,用它來訓(xùn)練有監(jiān)督系統(tǒng),會(huì)使性能得到提升。而想要對(duì)句中的詞義做推斷,目標(biāo)詞和目標(biāo)詞的語境都需要清楚地表示出來。我們將語境定義為從一個(gè)句子中去掉目標(biāo)詞之后剩余的部分。為了更好地計(jì)算語境相似度,語境也需要以向量的形式進(jìn)行表示。

      在此前的消歧任務(wù)中[1],語境只是簡(jiǎn)單地對(duì)目標(biāo)詞在一定窗口內(nèi)的詞向量求和或者加權(quán)平均來表示。但是由于目標(biāo)詞和其整體語境之間具有的內(nèi)在聯(lián)系,使用這種方法預(yù)訓(xùn)練的詞向量所包含的信息十分有限。而想要對(duì)句中的詞義做推斷,目標(biāo)詞和目標(biāo)詞的語境向量都需要包含整個(gè)句子的信息。目前很多消歧系統(tǒng)共同的缺點(diǎn)是不包含語序信息。而長短期記憶網(wǎng)絡(luò)(LSTM),尤其是雙向長短期記憶網(wǎng)絡(luò)(BLSTM),克服了以上缺點(diǎn),可以對(duì)目標(biāo)詞周圍的所有詞進(jìn)行建模,并將語序考慮進(jìn)去。然而目前BLSTM模型都將一個(gè)詞的不同詞性,看做一個(gè)詞來進(jìn)行建模,顯然不是十分正確的,因?yàn)橥粋€(gè)詞如果詞性不同會(huì)有不同的含義。

      本文提出的方法是在訓(xùn)練之前,把詞性加入到語料中,在訓(xùn)練的過程中把不同詞性區(qū)分出來。把同一個(gè)詞的不同詞性,映射到語義空間的不同位置,可以更好地提取語境中所包含的信息。本文對(duì)三種不同的詞性特征加入方法進(jìn)行實(shí)驗(yàn),即細(xì)分類詞性特征、粗分類詞性特征和只用實(shí)詞的詞性特征。通過實(shí)驗(yàn)找到了一種最為合適的詞性特征引入方法,得到的消歧準(zhǔn)確率在2004年的SE-3(Senseval-3 lexical sample dataset)測(cè)試集上達(dá)到了75.3%,并在SemEval-13和SemEval-15測(cè)試集上對(duì)比了加入詞性前后系統(tǒng)的消歧效果,加入詞性之后,消歧性能均有所提升。

      本文結(jié)構(gòu)安排如下: 第一部分介紹相關(guān)工作;第二部分介紹模型;第三部分介紹實(shí)驗(yàn)設(shè)置;第四部分討論實(shí)驗(yàn)結(jié)果;第五部分總結(jié)并介紹未來工作。

      1 相關(guān)工作

      一般來說,有監(jiān)督的詞義消歧方法比其他詞義消歧算法效果更好,但是需要更大的訓(xùn)練集以達(dá)到這種效果,而獲得大的訓(xùn)練集代價(jià)很大。本文證明,不需要使用大量的訓(xùn)練語料也可以達(dá)到很好的消歧效果。

      使用大規(guī)模語料訓(xùn)練的詞向量可以在一定程度上彌補(bǔ)有監(jiān)督詞義消歧對(duì)訓(xùn)練集要求過高的缺點(diǎn)。詞向量能夠在緊湊低維空間表示中包含詞的語義語法信息,在很多NLP任務(wù)中都得到了很好的應(yīng)用。在詞向量研究中最具有代表性的就是Word2vec[2]和GloVe[3]。而這些技術(shù)的主要目的是在低維空間中對(duì)詞的語義、語法信息進(jìn)行表達(dá),還沒有對(duì)句子及語境中包含的信息進(jìn)行低維表示。

      最近幾年,用神經(jīng)網(wǎng)絡(luò)訓(xùn)練詞向量并建立語言模型,在情感分析、機(jī)器翻譯和其他的自然語言應(yīng)用中都取得了很大發(fā)展。對(duì)于詞義消歧而言,Rothe和Schütze[4]將詞向量擴(kuò)展到了語義向量,并用語義向量作為特征訓(xùn)練了一個(gè)支持向量機(jī)分類器[5]。就像詞向量一樣,語境也可以以向量的形式表示,研究發(fā)現(xiàn),在計(jì)算句子相似度[6]、詞義消歧[1]、詞義歸納[7]、詞匯替換[8]、句子補(bǔ)全[9]等任務(wù)中,語境的向量表示取得了較好的效果,但他們的語境只是簡(jiǎn)單地對(duì)目標(biāo)詞一定窗口內(nèi)的詞向量求和或者加權(quán)平均來表示,起到的作用有限。

      2016年Google[10]使用LSTM進(jìn)行消歧,使用了1 000億詞新聞?wù)Z料訓(xùn)練模型,在SemEval-2015測(cè)試集上達(dá)到了最好的消歧效果,它的消歧方法是使用一個(gè)詞的語境預(yù)測(cè)目標(biāo)詞來進(jìn)行消歧。LSTM模型是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型,在1997年由Hochreiter 和Schmidhuber[11]提出,它可以使RNN在對(duì)序列建模時(shí)更好地提取長距離信息。但是單向LSTM只能提取句子中位于目標(biāo)詞之前的信息。而語境向量模型(Context2vec)[12]使用了BLSTM訓(xùn)練,僅用了20億詞的語料作訓(xùn)練就在SemEval-2015測(cè)試集上達(dá)到了比Google的單向LSTM模型消歧高0.1%[13]的結(jié)果,它的目的是訓(xùn)練詞向量和語境向量,利用得到的語境向量和詞向量進(jìn)行消歧,而且可以在其他的語言任務(wù)中得到較好的應(yīng)用,從某種方面來說,BLSTM的性能更好。BLSTM[14]每個(gè)時(shí)刻的狀態(tài)都包含了兩個(gè)LSTM的狀態(tài),一個(gè)從左到右,另一個(gè)反之。這就意味著一個(gè)狀態(tài)既可以包含前面的詞的信息,也可以包含后面詞的信息,在很多情況下,這對(duì)選擇一個(gè)詞的語義是非常必要的。本文中,通過向Context2vec中加入詞性特征,進(jìn)而訓(xùn)練得到語境向量,這種語境向量可以很好地提取語境中的語義語法信息。在得到的語境向量基礎(chǔ)上,使用簡(jiǎn)單的k近鄰算法進(jìn)行消歧,實(shí)驗(yàn)證明本文的詞義消歧系統(tǒng)不需要大量的訓(xùn)練語料,也可以達(dá)到很好的效果。

      2 Context2vec

      2.1 模型綜述

      Context2vec可以對(duì)目標(biāo)詞的語境進(jìn)行學(xué)習(xí),得到一個(gè)獨(dú)立于特定任務(wù)的向量表示。這種模型基于Word2vec的連續(xù)詞袋模型(CBOW)(圖1),圖中左側(cè)計(jì)算目標(biāo)詞submitted的語境向量,僅考慮目標(biāo)詞周圍一定大小窗口內(nèi)的詞,paper被忽略了,將John和a的詞向量進(jìn)行簡(jiǎn)單的加權(quán)平均得到submitted的語境向量,將右側(cè)的目標(biāo)詞向量與得到的目標(biāo)詞的語境向量輸入目標(biāo)函數(shù),訓(xùn)練模型。Context2vec用更有效的BLSTM替代了原來模型中固定窗口內(nèi)詞向量取平均的建模方式,如圖2所示。

      雖然兩個(gè)模型的本質(zhì)都是同時(shí)在低維空間學(xué)習(xí)語境和目標(biāo)詞的表示,但基于BLSTM的Context2vec可以更好地提取句子語境中的本源信息。

      圖1 Word2vec模型

      圖2 加入詞性的Context2vec模型

      圖2左側(cè)說明Context2vec是如何表示句子語境的。使用BLSTM循環(huán)神經(jīng)網(wǎng)絡(luò),將句中的詞從左到右輸入一個(gè)LSTM,另一個(gè)從右到左進(jìn)行輸入。這兩個(gè)網(wǎng)絡(luò)的參數(shù)是完全獨(dú)立的,包括一個(gè)從左至右和一個(gè)從右至左的語境向量。為表示句子中目標(biāo)詞的語境( John_NP [submitted_VV] a_DT paper_NN ) ,首先將LSTM輸出的左—右語境John_NP的向量表示和右—左語境a_DT paper_NN的向量表示拼接,這樣做的目的是獲得目標(biāo)詞語境中的相關(guān)信息。下一步將拼接后的向量輸入到多層感知機(jī)中,就可以將兩個(gè)方向的語境向量有機(jī)融合。將此層的輸出作為目標(biāo)詞的句子語境表示。同時(shí),目標(biāo)詞用它自己的向量表示(圖2右側(cè)),它的維度和句子語境向量的維度相同。我們注意到Context2vec和Word2vec模型之間的唯一的差別是Word2vec模型是將目標(biāo)詞的語境表示為周圍一定窗口內(nèi)語境詞的簡(jiǎn)單平均,而使用了BLSTM的Context2vec則將整句話有機(jī)結(jié)合起來表示語境,不僅考慮了距離遠(yuǎn)一些的詞,還考慮到了語序信息。

      Word2vec模型在內(nèi)部使用語境建模,并將目標(biāo)詞的向量表示作為主要輸出,Context2vec更關(guān)注語境的表示。Context2vec通過給目標(biāo)詞和目標(biāo)詞的語境指定相似的向量來進(jìn)行建模。這就間接地導(dǎo)致了給具有相似句子語境的目標(biāo)詞指定了相似的詞向量,相反地,給相似目標(biāo)詞的語境也指定了相似的向量表示。

      2.2 語境向量計(jì)算公式

      我們使用Context2vec[12]來得到一個(gè)句子級(jí)別的語境表示。lLS表示從左到右讀取句子的LSTM,rLS表示從右到左讀取句子的LSTM。給定一個(gè)有n個(gè)詞(w)的句子(w1:n),那么目標(biāo)詞wi的語境就可以表示為兩個(gè)向量的連接,如式(1)所示。

      其中l(wèi)1:i-1和rn:i+1分別表示句中從左向右和從右向左輸入到lLS和rLS中的詞向量。下一步,對(duì)左右兩側(cè)語境表示的拼接輸入到以下非線性函數(shù),如式(2)所示。

      其中MLP代表多層感知機(jī),ReLU是修正線性單元激活函數(shù),而Lj(x) =Wjx+bj是一個(gè)全連接線性操作。則在句中位置i處的單詞的語境表示定義如式(3)所示。

      將目標(biāo)詞和語境向量用相同維度的向量表示。模型訓(xùn)練使用Word2vec中所用的負(fù)采樣方法。

      2.3 特征選擇

      詞性是一種很重要的語義語法信息,由于本文訓(xùn)練的Context2vec所使用的ukWaC[15]語料提供詞性標(biāo)注版本,我們直接在詞的后面用下劃線將詞和詞性結(jié)合,將其看作一個(gè)詞,輸入到Context2vec模型中進(jìn)行訓(xùn)練,這樣所得到的詞向量,就會(huì)將同一個(gè)詞的不同詞性區(qū)分開。

      圖3 加入詞性后,語義空間中的點(diǎn)的變化

      從圖3中可以發(fā)現(xiàn),在加入詞性之前,plane的動(dòng)詞原型、名詞單數(shù)和形容詞三種用法,都通過plane一個(gè)點(diǎn)表示,將三種不同的語義語法信息看作同一個(gè)點(diǎn),顯然是不合理的,這種情況在各種語言,尤其是英文中非常普遍。在加入詞性之后,可以將不同的詞性分別建模,plane的形容詞(plane_JJ)、名詞單數(shù)(plane_NN)、動(dòng)詞原型(plane_VV)等含義都在空間中重新分配了屬于自己語義的點(diǎn)。通過這種方式,更好地捕捉語義語法信息,避免了語義上的混淆。

      為了證明詞性在Context2vec中的作用,我們還對(duì)三種不同的詞性標(biāo)注方式分別進(jìn)行了實(shí)驗(yàn): 細(xì)分類詞性標(biāo)記、粗分類詞性標(biāo)記、單獨(dú)用實(shí)詞的詞性標(biāo)記。從中選擇最好的詞性特征加入方式。

      2.4 模型說明

      由于在模型的訓(xùn)練過程中要求語境和目標(biāo)詞更加接近,所以可以用一個(gè)語境向量求出和它余弦相似度最大的詞向量,得到可以填補(bǔ)到空缺位置的詞。得到的詞越符合語義語法,說明模型訓(xùn)練得越好,和消歧準(zhǔn)確率一樣可以判斷一個(gè)模型的好壞,用這種指標(biāo)和準(zhǔn)確率一起作為衡量模型質(zhì)量的參考。

      Context2vec在提出之時(shí)作者用k=1的近鄰法消歧,得到了較好的效果,在實(shí)驗(yàn)過程中發(fā)現(xiàn),使用k=1做開發(fā)集的實(shí)驗(yàn),并不能完全說明模型的好壞。為了說明k值的選取過程,我們列出了加入詞性前后在不同訓(xùn)練輪數(shù)e下得到的模型對(duì)給定語境的預(yù)測(cè)詞,同時(shí)將模型在SE-3進(jìn)行消歧達(dá)到的準(zhǔn)確率進(jìn)行對(duì)比(表1)。

      如表1所示,對(duì)比2、4號(hào)相同訓(xùn)練輪數(shù)下加入詞性前后的消歧準(zhǔn)確率及預(yù)測(cè)詞,雖然2號(hào)的消歧準(zhǔn)確率高于4號(hào),但是2號(hào)預(yù)測(cè)的目標(biāo)詞并不如4號(hào)預(yù)測(cè)的符合語義語法。同樣對(duì)比1、3號(hào)結(jié)果,1號(hào)的消歧準(zhǔn)確率雖然低于3號(hào),但是預(yù)測(cè)的詞比3號(hào)的更符合語義語法。這是由于表中使用k=1的k近鄰法消歧得到的準(zhǔn)確率,并不能完全說明模型的好壞,不能將其作為絕對(duì)的評(píng)價(jià)標(biāo)準(zhǔn)。我們對(duì)不同k值進(jìn)行了測(cè)試,結(jié)果發(fā)現(xiàn)在給定模型的情況下,

      表1 語境的預(yù)測(cè)詞和SE-3測(cè)試集消歧結(jié)果

      用k=5的k近鄰法進(jìn)行消歧,效果最好。因此本篇文章中,取k=5的k近鄰算法進(jìn)行消歧做對(duì)比實(shí)驗(yàn)。

      3 實(shí)驗(yàn)

      Context2vec模型可以訓(xùn)練得到高質(zhì)量的語境向量和詞向量,在多種自然語言處理任務(wù)中都有很好的應(yīng)用。用于詞義消歧也取得了較好的效果,為了測(cè)試加入詞性特征后訓(xùn)練的模型的性能,進(jìn)行了以下實(shí)驗(yàn)。

      3.1 Context2vec訓(xùn)練語料

      我們使用20億詞的ukWaC語料[15]的詞性標(biāo)注版本來訓(xùn)練模型,詞性由TreeTagger自動(dòng)標(biāo)注,此工具的標(biāo)注準(zhǔn)確率約為95%,并將詞性和詞結(jié)合在一起,例如,apple我們將其寫成了apple_NN構(gòu)成一個(gè)新的詞。這樣可以將詞性信息加入模型一同訓(xùn)練。用得到的模型求目標(biāo)詞的語境向量,就包含了這些詞性信息。為加速訓(xùn)練過程,且方便和baseline實(shí)驗(yàn)作對(duì)比,并沒有使用句子長度大于64的句子,這使得語料規(guī)模減小了10%。將所有的詞都小寫化并且把出現(xiàn)次數(shù)少于最小詞頻t的詞看作未登錄詞,其中t取了不同的數(shù)值,做對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)證明不同的最小詞頻對(duì)實(shí)驗(yàn)結(jié)果有一定影響。

      3.2 消歧方法

      使用Python中的Chainer[16]工具包訓(xùn)練模型,用Adam[17]進(jìn)行優(yōu)化。為加速訓(xùn)練過程,使用了mini-batch訓(xùn)練,這樣每次就只會(huì)將相同長度的句子加入同一個(gè)小的訓(xùn)練過程。

      3.2.1 有監(jiān)督詞義消歧

      Context2vec可以生成給定語境的語境向量,利用這些語境向量進(jìn)行消歧,需要標(biāo)注好語義的目標(biāo)詞的例句集合作為訓(xùn)練集。在消歧過程中,首先將訓(xùn)練集中包含目標(biāo)詞的多個(gè)例句的語境輸入,得到每個(gè)語義若干例句的語境向量,然后計(jì)算待消歧句語境向量和這些語境向量的余弦相似度,將與待消歧句語境向量相似度最高的語境向量所對(duì)應(yīng)的語義作為目標(biāo)詞的語義,得到消歧結(jié)果。

      我們用的是2004年的Senseval-3 lexical sample dataset作為標(biāo)注詞義消歧數(shù)據(jù)集,其中包含了 7 860個(gè)訓(xùn)練樣本、57個(gè)目標(biāo)詞和3 944個(gè)測(cè)試樣本。

      在參數(shù)調(diào)優(yōu)過程中,使用了留一法進(jìn)行交叉驗(yàn)證,在訓(xùn)練出Context2vec模型之后,假如某個(gè)詞在訓(xùn)練集中有N個(gè)樣本,每次從訓(xùn)練集取出一個(gè)句子作為測(cè)試樣本,其他N-1個(gè)樣本作為訓(xùn)練樣本,使用有監(jiān)督詞義消歧對(duì)測(cè)試樣本進(jìn)行消歧,對(duì)訓(xùn)練集中的7 860個(gè)句子進(jìn)行以上操作,就得到了開發(fā)集的消歧結(jié)果。測(cè)試集是官方評(píng)測(cè)提供的,與開發(fā)集和訓(xùn)練集是完全獨(dú)立的數(shù)據(jù)集。

      還使用SemEval-13 task 12 和 SemEval-15 task 13兩個(gè)公開評(píng)測(cè)集測(cè)試消歧準(zhǔn)確率,目的是用最新的測(cè)試集驗(yàn)證這種方法的效果,這兩個(gè)任務(wù)均為詞義消歧任務(wù),但是只提供了測(cè)試集,所以我們使用標(biāo)記的SemCor和SemCor+OMSTI(One million sense-tagged instances)[18]中的例句作為訓(xùn)練集,其中SemEval-13共有621個(gè)目標(biāo)詞、1 442個(gè)測(cè)試樣本。SemEval-15共有451個(gè)目標(biāo)詞、924個(gè)測(cè)試樣本。

      3.2.2 消歧流程

      在消歧之前,使用非詞性標(biāo)注語料和詞性標(biāo)注語料分別訓(xùn)練兩個(gè)語境向量模型,記為M、MP。其中M用于未加詞性特征的句子消歧,MP用于加入詞性特征的句子消歧。

      對(duì)于待消歧句Sen: Sodalities have an important role in 【activating】 laity for what are judged to be religious goals both personally and socially .

      加入詞性特征后句子為SenP: Sodalities_NN have an important_JJ role_NN in 【activating_VV】 laity_NN for what are judged_VV to be religious_JJ goals_NN both personally_RB and socially_RB .

      對(duì)應(yīng)的語境向量分別為V、VP,目標(biāo)詞在【】中,此目標(biāo)詞有五個(gè)不同的語義S1、S2、S3、S4、S5,各語義對(duì)應(yīng)解釋如下:

      S1:to initiate action in; make active.

      S2:in chemistry, to make more reactive, as by heating.

      S3:to assign (a military unit) to active status.

      S4:in physics, to cause radioactive properties in (a substance).

      S5:to cause decomposition in (sewage) by aerating.

      訓(xùn)練集包含了此目標(biāo)詞的228個(gè)例句,由于官方給出的語義粒度過小,具有某些重疊,每個(gè)例句對(duì)應(yīng)1或2個(gè)語義,若對(duì)應(yīng)兩個(gè)語義,則每個(gè)語義的權(quán)重為0.5,否則為1,將例句語境輸入到語境向量模型M、MP中得到每個(gè)例句的語境向量,通過語境向量之間的余弦相似度,并應(yīng)用k=5的k近鄰法,分別得到與Sen、SenP語境最接近的五個(gè)例句,如表2所示。

      表2 與待消歧句語境最接近的例句和語義

      表2中,通過計(jì)算句子的語境向量之間的相似度,能夠得到與待消歧句語境接近的例句,而這些例句是標(biāo)記好的,通過這些例句對(duì)應(yīng)的語義出現(xiàn)的次數(shù)及權(quán)重,加權(quán)求和得到每個(gè)語義的打分:

      Sen: Score(S1)=1.5、Score(S2)=3.0、Score(S3)=0.5、Score(S4)=0、Score(S5)=0

      SenP: Score(S1)=2.5、Score(S2)=1.0、Score(S3)=1.5、Score(S4)=0、Score(S5)=0

      根據(jù)得到的打分,加入詞性前選擇的語義為S2,加入詞性后選擇的語義為S1,顯然加入詞性通過計(jì)算語境相似度,我們得到了正確的語義。

      4 實(shí)驗(yàn)結(jié)果

      為找出最有效的詞性特征引入方法,本文使用了三種不同的詞性標(biāo)注方式訓(xùn)練模型: 細(xì)分類詞性標(biāo)記、粗分類詞性標(biāo)記和單獨(dú)用實(shí)詞的詞性標(biāo)記。

      實(shí)驗(yàn)中所使用的模型參數(shù)如表3所示。我們每次的最小取樣數(shù)是850,在ukWaC語料訓(xùn)練一輪的時(shí)間大約是24小時(shí)。

      表3 模型參數(shù)

      4.1 細(xì)分類詞性標(biāo)記

      使用TreeTagger標(biāo)注的ukWaC語料,進(jìn)行訓(xùn)練。找到在開發(fā)集中消歧效果最好的模型用來測(cè)試,開發(fā)集在最小詞頻t=100,訓(xùn)練輪數(shù)e不同時(shí)對(duì)應(yīng)的結(jié)果如表4所示。

      表4 細(xì)分類詞性標(biāo)記下的開發(fā)集結(jié)果

      序號(hào)3所訓(xùn)練的模型最好,與加入詞性前效果最好的模型作對(duì)比,結(jié)果如表5所示。

      表5 細(xì)分類詞性標(biāo)記下的語境預(yù)測(cè)詞和消歧結(jié)果對(duì)比

      由表5中的結(jié)果對(duì)比可以發(fā)現(xiàn),雖然1號(hào)的消歧準(zhǔn)確率高于2號(hào),但是它語境預(yù)測(cè)的目標(biāo)詞并不十分符合語義,甚至是語法(加入詞性后,可以將詞性一同預(yù)測(cè)出來,為了方便對(duì)比,此處并不列出)。而加入詞性之后,可以看到2號(hào)可以較好地預(yù)測(cè)出目標(biāo)詞。說明詞性的加入,還是對(duì)模型起到了較好的作用。雖然加入詞性后,語境預(yù)測(cè)詞的效果較好,但是在詞義消歧任務(wù)上的準(zhǔn)確率并沒有達(dá)到加入詞性之前的效果,究其原因可能是因?yàn)槲覀兯褂玫腡reeTagger的詞性標(biāo)記種類(表6)過多。

      表6 細(xì)分類詞性標(biāo)記

      由表6的詞性標(biāo)記方式可以發(fā)現(xiàn),其中一個(gè)詞的同一詞性的不同時(shí)態(tài)也會(huì)有不同的標(biāo)記,而這顯然是沒有必要的,這導(dǎo)致詞表過大,降低了訓(xùn)練模型的效率,也影響了詞性標(biāo)注的準(zhǔn)確率,進(jìn)一步也影響了消歧的準(zhǔn)確率。

      4.2 粗分類詞性標(biāo)記

      由于細(xì)分類的詞性標(biāo)記準(zhǔn)確率的影響,消歧效果并沒有得到提升。改用表7中的詞性映射方式,對(duì)同一類簡(jiǎn)單詞性不再進(jìn)行區(qū)分。

      根據(jù)語言學(xué)知識(shí),并沒有將TreeTagger中的助動(dòng)詞進(jìn)行映射,因?yàn)槟承┲鷦?dòng)詞對(duì)應(yīng)的實(shí)意動(dòng)詞已經(jīng)映射為了VV,而助動(dòng)詞沒有映射,就可以將其區(qū)分開。

      表7 粗分類詞性標(biāo)記

      為了使詞表和加入詞性之前盡量一致,把原始Context2vec中沒有用到的低頻詞都替換為,為了保證訓(xùn)練速率,在此基礎(chǔ)上取最小詞頻t=50和t=100,把此方法在開發(fā)上得到最好結(jié)果的模型用于測(cè)試,并與其他詞性標(biāo)注方式訓(xùn)練的模型的消歧結(jié)果和語境預(yù)測(cè)詞作對(duì)比 ,開發(fā)集結(jié)果如表8所示。

      表8 粗分類詞性標(biāo)記的開發(fā)集結(jié)果

      選取開發(fā)集表現(xiàn)最好的模型作測(cè)試,結(jié)果如表9所示。

      表9 粗分類詞性標(biāo)記下的語境的預(yù)測(cè)詞和消歧結(jié)果對(duì)比

      對(duì)表9的結(jié)果進(jìn)行對(duì)比,發(fā)現(xiàn)加入粗分類的詞性標(biāo)記后,3號(hào)并沒有達(dá)到1號(hào)的消歧效果,只是語境預(yù)測(cè)詞更符合語義語法。而根據(jù)2號(hào)和3號(hào)的結(jié)果對(duì)比,消歧準(zhǔn)確率和語境預(yù)測(cè)詞都十分接近。這是因?yàn)閮煞N詞性標(biāo)記方式都對(duì)虛詞進(jìn)行了標(biāo)注。對(duì)訓(xùn)練語料進(jìn)行檢查發(fā)現(xiàn),其中有些本該標(biāo)注為DT的that標(biāo)注成了IN,本該標(biāo)注成IN的upon標(biāo)注成了RP。這種虛詞雖然數(shù)量有限,但是每一個(gè)虛詞在訓(xùn)練語料中出現(xiàn)的頻率都很高,一般用來構(gòu)成句子框架,這些詞如果標(biāo)注錯(cuò)誤,對(duì)語義空間所造成的影響更大。

      4.3 實(shí)詞的詞性標(biāo)記

      基于4.1節(jié)和4.2節(jié)的實(shí)驗(yàn)結(jié)果,決定只使用實(shí)詞對(duì)訓(xùn)練語料進(jìn)行標(biāo)注。實(shí)詞,有實(shí)在意義,在句子中能獨(dú)立承擔(dān)句子成分。我們選擇了幾種對(duì)語義影響較大的實(shí)詞,而代詞和數(shù)詞也屬于實(shí)詞,但是它們一般只具有單一詞性,而且不同詞性表達(dá)的語義也是相同的。其他的虛詞不再進(jìn)行標(biāo)注,如表10所示。

      表10 實(shí)詞的詞性標(biāo)記

      表10列出的兩種實(shí)詞標(biāo)記方式,分別取名為實(shí)詞標(biāo)記1和實(shí)詞標(biāo)記2。它們的區(qū)別僅在于是否將名詞細(xì)分為普通名詞(NN)和專有名詞(NP)。這是因?yàn)?,某些普通名詞同時(shí)還有專有名詞的含義,如plane既有普通名詞飛機(jī),又有專有名詞作為人名的作用。同時(shí)在實(shí)驗(yàn)中我們發(fā)現(xiàn),有些在命名實(shí)體中出現(xiàn)的普通名詞,TreeTagger工具將其標(biāo)記為了NP。到底是應(yīng)該將所有的名詞都標(biāo)記為NN還是將NN和NP區(qū)分標(biāo)記能達(dá)到更好的消歧效果,我們需要通過實(shí)驗(yàn)來進(jìn)行判斷。

      為保證訓(xùn)練速度和詞表大小,將實(shí)詞標(biāo)記2實(shí)驗(yàn)中的最小詞頻t取10,將實(shí)詞標(biāo)記1中的最小詞頻t取50,此時(shí)詞表大小均為22萬左右,訓(xùn)練效率接近。若實(shí)詞標(biāo)記2取t=50,則詞表大小為19萬,會(huì)相比t=10減少3萬低頻詞,我們還對(duì)取相同的t值(100)訓(xùn)練的模型的消歧結(jié)果進(jìn)行了對(duì)比,此時(shí)實(shí)詞標(biāo)記1詞表大小為19萬,實(shí)詞標(biāo)記2詞表大小為17萬。實(shí)詞標(biāo)記1下的開發(fā)集結(jié)果如表11所示,實(shí)詞標(biāo)記2下的開發(fā)集結(jié)果如表12所示。

      表11 實(shí)詞標(biāo)記1下的開發(fā)集結(jié)果

      表12 實(shí)詞標(biāo)記2下的開發(fā)集結(jié)果

      從表12可以看出,用實(shí)詞標(biāo)記2標(biāo)注的訓(xùn)練語料所訓(xùn)練的模型效果普遍高于實(shí)詞標(biāo)記1。對(duì)于表12中的9、10號(hào)實(shí)驗(yàn)結(jié)果準(zhǔn)確率突然降低的現(xiàn)象,在Context2vec達(dá)到最優(yōu)點(diǎn)之后均會(huì)出現(xiàn)這種過擬合現(xiàn)象,由于此時(shí)參數(shù)t取10,相比t取50而言,詞表中包含了三萬個(gè)出現(xiàn)頻率高于10低于50的低頻詞,導(dǎo)致這種現(xiàn)象過早地出現(xiàn)。因?yàn)槊麑?shí)體中的普通名詞數(shù)量遠(yuǎn)遠(yuǎn)高于有專有名詞含義的普通名詞。如: 在訓(xùn)練語料中,如果將名詞細(xì)分為NP和NN,會(huì)出現(xiàn)Valley_NP Park_NP,Web_NP Author_NP Dr._NP Walton_NP等詞語,其中的人名雖然被區(qū)分出來,但是也將本應(yīng)屬于普通名詞范疇的詞標(biāo)記為了專有名詞,把原本語義空間中的一個(gè)點(diǎn)強(qiáng)行劃分為了兩個(gè)點(diǎn),導(dǎo)致了消歧效果的降低。

      把此方法得到的最好模型與其他詞性標(biāo)注方式得到的最好模型的消歧結(jié)果和語境預(yù)測(cè)詞作對(duì)比,如表13所示。

      表13 實(shí)詞標(biāo)記2下的語境的預(yù)測(cè)詞和消歧結(jié)果對(duì)比

      續(xù)表

      由表13的結(jié)果可以看出,序號(hào)4不管在預(yù)測(cè)詞還是消歧效果上,都要好于之前三種方法訓(xùn)練的模型。通過兩種指標(biāo)的對(duì)比,我們可以得出結(jié)論: 使用實(shí)詞標(biāo)記2標(biāo)注的訓(xùn)練語料訓(xùn)練Context2vec模型,模型性能得到了提升。

      以上的結(jié)果都是用單一的k值得到的結(jié)果進(jìn)行對(duì)比,不一定具有代表性。為了進(jìn)一步說明結(jié)果所具有的代表性,我們將序號(hào)4得到的模型和序號(hào)1模型使用不同的k值(1~10)進(jìn)行消歧得到的結(jié)果進(jìn)行對(duì)比,通過對(duì)比發(fā)現(xiàn),在不同的k值下,消歧效果基本都有所提升,符合我們之前得到的結(jié)論。

      我們還和在SE-3做過消歧的其他系統(tǒng)進(jìn)行了比較,結(jié)果如表14所示。

      表14 不同系統(tǒng)在SE-3測(cè)試集的結(jié)果/%

      從表14可以看出,最好的結(jié)果是由Ando[19]達(dá)到的,他使用了一種交替結(jié)構(gòu)優(yōu)化的半監(jiān)督方法,過程十分繁瑣。而我們比它提升了1.2%,且方法簡(jiǎn)單很多,僅僅需要在模型訓(xùn)練好之后,應(yīng)用一次k近鄰算法。而第二好的結(jié)果由Rothe 和Schutze[4]達(dá)到,他們通過向已有的系統(tǒng)中加入詞向量特征達(dá)到此結(jié)果,他們的主要目的是訓(xùn)練詞義向量,沒有對(duì)詞義消歧做過于深入的研究,因此沒有達(dá)到超過Ando的消歧效果。SE-3評(píng)測(cè)的前兩名結(jié)果分別為2004 Grozea、2004 Strapparava。2006年達(dá)到了74.1%準(zhǔn)確率之后,除了2015年達(dá)到了較好的效果之外,一直沒有超過Ando的消歧系統(tǒng)。2016 Melamud 提出的Context2vec模型使用k=1的k近鄰法得到的結(jié)果為72.8%,這是因?yàn)镸elamud 提出的Context2vec在多種自然語言處理任務(wù)中都能得到較好的應(yīng)用,沒有單獨(dú)對(duì)詞義消歧進(jìn)行深入研究,我們將Context2vec在消歧上的應(yīng)用進(jìn)行了擴(kuò)展,Ours-1是我們用未加詞性的Context2vec模型通過開發(fā)集選取參數(shù)k,取參數(shù)k=5時(shí)消歧效果最好,可以達(dá)到74.8%,Ours-2在Ours-1的基礎(chǔ)上加入了詞性特征,選取同樣的k值,可以看出,加入詞性特征之后,消歧準(zhǔn)確率提高了0.5%。

      在這一部分,我們使用了三種不同的詞性標(biāo)記方式來標(biāo)注訓(xùn)練語料并訓(xùn)練模型。其中前兩種無法達(dá)到未加詞性之前的效果,分析原因是虛詞在訓(xùn)練語料中出現(xiàn)次數(shù)很多,它們是組成句子框架的主要成分,它們的詞性標(biāo)記錯(cuò)誤會(huì)給建模帶來更大的影響,而且這些詞的不同詞性表示的語義往往是相同的。而實(shí)詞標(biāo)記2得到了比不加詞性更好的效果。

      我們還在其他的測(cè)試集中對(duì)此方法進(jìn)行了驗(yàn)證,如SemEval-13 task 12 和 SemEval-15 task 13,由于此任務(wù)沒有提供每個(gè)消歧詞的例句,我們使用標(biāo)記的SemCor和SemCor+OMSTI(One million sense-tagged instances)[18]中的例句作為訓(xùn)練語料進(jìn)行消歧。而Raganato[20]使用Context2vec和其他系統(tǒng)使用相同的訓(xùn)練語料進(jìn)行了比較,其中Context2vec在多個(gè)公開評(píng)測(cè)集中均取得了非常好的消歧效果。我們使用了與之相同的訓(xùn)練語料,但是由于參數(shù)不同的原因,無法達(dá)到和Raganato相同的準(zhǔn)確率。我們使用自己的參數(shù),進(jìn)行了對(duì)比實(shí)驗(yàn)。只對(duì)加入實(shí)詞標(biāo)記方法2的詞性特征前后的消歧結(jié)果進(jìn)行對(duì)比。結(jié)果如表15所示。

      表15 加入詞性前后消歧結(jié)果對(duì)比

      由表15中的結(jié)果我們可以發(fā)現(xiàn),相比加入詞性之前,使用我們的方法加入詞性特征的消歧效果在兩個(gè)公開的測(cè)試集上也都得到了提升。其中SemEval-13和SemEval-15測(cè)試結(jié)果分別提升了0.4%和0.3%。提升效果不明顯的原因主要有兩個(gè),首先每個(gè)目標(biāo)詞對(duì)應(yīng)的例句數(shù)量較少,其次是詞性標(biāo)注的準(zhǔn)確率限制了這種方法的作用。

      5 結(jié)束語

      我們通過實(shí)驗(yàn),提出了一種將詞性特征加入到Context2vec中建模的方法,更好地對(duì)語義進(jìn)行建模,在消歧任務(wù)中達(dá)到了更好的效果,其中最好的結(jié)果已經(jīng)比未加詞性之前提高了0.5%,并在多個(gè)國際公開評(píng)測(cè)集中有所提升。虛詞和代詞在句子中出現(xiàn)頻率很高,它們的詞性標(biāo)注準(zhǔn)確率對(duì) Context2vec是否能在語義空間上正確建模起著至關(guān)重要的作用。而且虛詞的不同詞性語義是基本相同的,不需要在語義空間中分配多個(gè)點(diǎn)進(jìn)行建模。由于詞性標(biāo)注的準(zhǔn)確率無法達(dá)到100%,而且同一詞性之間的細(xì)分準(zhǔn)確率更低,限制了這種方法的作用。這種語境相似度消歧的方法依賴?yán)涞馁|(zhì)量和數(shù)量,可以考慮使用標(biāo)簽擴(kuò)展(LP)算法對(duì)例句進(jìn)行擴(kuò)展。

      猜你喜歡
      消歧實(shí)詞語料
      基于關(guān)聯(lián)圖和文本相似度的實(shí)體消歧技術(shù)研究*
      基于半監(jiān)督集成學(xué)習(xí)的詞義消歧
      文言文實(shí)詞詞義推斷的基本策略
      文言實(shí)詞50例
      文言實(shí)詞推斷法
      藏文歷史文獻(xiàn)識(shí)別過程中藏文自由虛詞的自動(dòng)識(shí)別及消歧算法的研究
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語料
      國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
      若羌县| 延安市| 新竹市| 会宁县| 德江县| 将乐县| 柳林县| 汶川县| 溧阳市| 上虞市| 万荣县| 永州市| 蒙城县| 齐齐哈尔市| 高碑店市| 大竹县| 天津市| 依兰县| 卢湾区| 东乡族自治县| 乌兰浩特市| 双鸭山市| 阳原县| 特克斯县| 金川县| 偏关县| 固阳县| 阿克陶县| 什邡市| 霍邱县| 新兴县| 广水市| 鹰潭市| 花莲市| 友谊县| 永仁县| 敖汉旗| 绥芬河市| 永丰县| 德钦县| 桦川县|