• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      《同義詞詞林》的嵌入表示與應(yīng)用評(píng)估

      2018-12-06 03:37:34段宇光俞士汶
      關(guān)鍵詞:義素詞義語料庫(kù)

      段宇光,劉 揚(yáng),俞士汶

      (1.北京大學(xué)計(jì)算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,2.北京大學(xué)元培學(xué)院,3.北京大學(xué)計(jì)算語言學(xué)研究所,北京 100871)

      在機(jī)器智能時(shí)代,自然語言的理解和分析具有重要價(jià)值.在實(shí)現(xiàn)途徑上,大體分為基于知識(shí)庫(kù)的理性方法和基于語料庫(kù)的經(jīng)驗(yàn)方法.在理性方法方面,《同義詞詞林》(以下簡(jiǎn)稱《詞林》)作為漢語知識(shí)庫(kù)的一個(gè)典范代表,由語言學(xué)家對(duì)漢語中的詞進(jìn)行劃分、歸類,形成語義上的層級(jí)結(jié)構(gòu),在詞義相似度計(jì)算[1-3]、實(shí)體關(guān)系抽取[4-5]、語義角色標(biāo)注[6]、文本分類[7]等多種任務(wù)或應(yīng)用中有廣泛影響;在經(jīng)驗(yàn)方法方面,建立在語料統(tǒng)計(jì)分析上的分布式表示也在不斷發(fā)展,早期基于詞共現(xiàn)矩陣獲得詞嵌入表示[8-10],后來通過前饋神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)詞嵌入的方法成為主流[11],并廣泛應(yīng)用于自然語言處理的多種任務(wù)或應(yīng)用[12-14].

      基于知識(shí)庫(kù)的理性方法,解釋性強(qiáng),但一般情況下需要針對(duì)不同任務(wù)設(shè)計(jì)不同算法,在不同領(lǐng)域間的適用性較差.而基于語料庫(kù)的經(jīng)驗(yàn)方法,往往采用無監(jiān)督訓(xùn)練,自動(dòng)化程度高,獲得的詞向量可以適用于多種任務(wù).因此,如何將兩者的優(yōu)勢(shì)結(jié)合起來,采用經(jīng)驗(yàn)方法在知識(shí)庫(kù)中自動(dòng)地提取詞義信息,最大程度地重復(fù)使用已有的人類專家知識(shí),獲得適用于多種任務(wù)的嵌入表示,是一個(gè)較新的研究課題.

      此前,有研究者注意到將理性知識(shí)注入以改善嵌入表示的潛在需求,挖掘WordNet圖結(jié)構(gòu)中簡(jiǎn)化的鄰接關(guān)系信息[15]或者參照多部詞典的釋義條目信息[16],以此作為訓(xùn)練內(nèi)容來獲得詞嵌入表示;也有人關(guān)注如何由已有的詞嵌入表示獲得義素嵌入表示和同義詞集嵌入表示[17],以及通過建立詞嵌入表示到同義詞集的映射來提高詞向量的解釋性[18];另有一些工作希望在語料庫(kù)訓(xùn)練中加入詞義、句法知識(shí)以獲得更有效的詞嵌入表示[19];或者采用隨機(jī)游走(random walk)方法利用知識(shí)庫(kù)構(gòu)建偽語料,再通過神經(jīng)網(wǎng)絡(luò)訓(xùn)練獲得詞嵌入表示[20].這些方法大多是在基于真語料庫(kù)訓(xùn)練詞向量,部分地加入或聯(lián)結(jié)了知識(shí)庫(kù)中的詞義、句法知識(shí).之后鄰接關(guān)系信息及隨機(jī)游走方法對(duì)此有所改進(jìn),不再依賴于真語料庫(kù)的預(yù)訓(xùn)練,但在利用知識(shí)庫(kù)知識(shí)構(gòu)建嵌入表示或構(gòu)建偽語料時(shí)采用了相對(duì)間接、繁瑣的手段,其生成過程較為復(fù)雜.除此之外,針對(duì)一般的知識(shí)庫(kù)資源,目前也沒有相對(duì)直接的應(yīng)對(duì)策略和解決方法.

      本研究使用哈爾濱工業(yè)大學(xué)研發(fā)的《詞林》擴(kuò)展版(http:∥www.ltp-cloud.com/download)為知識(shí)本體,提出并展示基于知識(shí)庫(kù)訓(xùn)練嵌入表示的偽句式構(gòu)造方法.根據(jù)《詞林》詞義編碼的層級(jí)結(jié)構(gòu),將其擴(kuò)展為詞義描述式并構(gòu)造3類偽句式:義素編碼句式、義素編碼擴(kuò)展句式、詞編碼句式,以此生成符合理性知識(shí)分布規(guī)律的不同的偽語料庫(kù),在此基礎(chǔ)上使用word2vec訓(xùn)練義素向量及詞向量;考察不同訓(xùn)練模型、不同窗口大小在不同偽語料庫(kù)上的訓(xùn)練效果,并將獲得的向量分別應(yīng)用于詞義合成、類比推理和詞義相似度計(jì)算等自然語言處理任務(wù)上.

      1 研究基礎(chǔ)與任務(wù)簡(jiǎn)介

      1.1 《詞林》知識(shí)表示

      《詞林》是由梅家駒編撰的漢語同義詞或相關(guān)詞的劃分、歸類詞庫(kù)[21],經(jīng)哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心擴(kuò)展后,目前共包含77 343個(gè)詞、90 102個(gè)義項(xiàng),這些義項(xiàng)被分為12個(gè)大類、95個(gè)中類、1 428個(gè)小類、4 026個(gè)詞群和17 797個(gè)原子詞群.其大類編碼為1位大寫英文字母,中類編碼在之后加1位小寫英文字母,小類編碼在之后加2位十進(jìn)制整數(shù),詞群編碼在之后加1位大寫英文字母,原子詞群編碼在之后加2位十進(jìn)制整數(shù)并附1位符號(hào)對(duì)分類結(jié)果作特別說明;符號(hào)“=”代表該詞群內(nèi)的不同詞為同義詞,“#”代表該詞群內(nèi)的不同詞為相關(guān)詞,“@”代表該詞群內(nèi)只有一個(gè)詞.例如,原子詞群編碼“Aa01A01=”代表具有特定義項(xiàng)的同義詞集{人,士,人物,…}.《詞林》結(jié)構(gòu)與編碼如圖1所示.在下文中,以詞義編碼來泛指以上各類編碼.

      圖1 《詞林》結(jié)構(gòu)示意圖

      1.2 分布式語義與分布式表示

      分布式語義是一種數(shù)據(jù)驅(qū)動(dòng)的語義分析,旨在對(duì)語料中的語義相似性進(jìn)行量化和歸類,它基于Harris[22]提出的著名的分布式假設(shè),即“上下文相似的詞,其語義也相似”.

      在此基礎(chǔ)上,Hinton等[23]提出了詞的分布式表示,又稱嵌入表示(embedded representation),其思想源于如下認(rèn)知看法:詞義或稱概念可以通過刻畫它的各種屬性來高效表示,而這些屬性又同時(shí)與多個(gè)概念相關(guān)聯(lián),因此,一個(gè)概念可以通過這些屬性的激活狀態(tài)來表示.這種表示方法顯著區(qū)別于傳統(tǒng)的獨(dú)熱表示(one-hot representation).在形式上,獨(dú)熱表示使用向量的一個(gè)維度來表示不同的詞,嵌入表示則用低維、稠密的實(shí)數(shù)向量來表示所有的詞,如表1所示.嵌入表示將詞之間的語義關(guān)聯(lián)進(jìn)行了適當(dāng)?shù)木幋a,使近義詞在大多數(shù)維度上都相近,因而比獨(dú)熱表示有更強(qiáng)的表達(dá)能力.比如,即使只使用二值表示(即將每一維的取值限定為0或1),長(zhǎng)度為n的獨(dú)熱表示只能表示n個(gè)不同的概念,而嵌入表示則可以表示2n個(gè)不同的概念[24].

      表1 獨(dú)熱表示與嵌入表示對(duì)比

      1.3 詞義合成任務(wù)

      語義合成一直是自然語言理解關(guān)注的重點(diǎn),使用有限單位組合出無限的含義,這是人類可以有效交流的重要原因[25].基于此,不少研究者致力于使用神經(jīng)網(wǎng)絡(luò)訓(xùn)得的詞向量合成表示短語、句子等更大語言單位的向量[14,26-28].但是,建立在神經(jīng)網(wǎng)絡(luò)模型上的語義合成不易捕獲和解釋,這仍是計(jì)算和認(rèn)知科學(xué)中反復(fù)探討的一個(gè)未解難題[29-30].

      此前,有關(guān)語義合成的研究大多將注意力放在詞以上的語言單位上,鮮有學(xué)者關(guān)注更基本的語言層級(jí)上的語義合成問題.事實(shí)上,詞并不是語言中的基本意義單位,文獻(xiàn)[31]中指出,語言中的一個(gè)基本語義單位是義位,相當(dāng)于詞的一個(gè)義項(xiàng)表達(dá),通過分解義位可以進(jìn)一步得到最小的義素單位.比如,男人=“人”ד男性”ד成年”[32],其中,“人”、“男性”、“成年”都是最小的義素單位.基于此,本研究提出一種由詞以下單位進(jìn)行詞義合成的任務(wù),即由義素向量合成詞向量的測(cè)試.在本研究中,將以《詞林》為例衡量該任務(wù),其測(cè)試集由《詞林》中的所有詞及其詞義編碼構(gòu)成.

      1.4 類比推理任務(wù)

      類比推理任務(wù)由Mikolov等[33]提出,目的在于用詞向量來預(yù)測(cè)句法和語義的關(guān)聯(lián)性.比如,一個(gè)標(biāo)準(zhǔn)的表述形式如“男人∶女人∷父親∶wi”,在理想狀態(tài)下,詞wi的詞向量V可通過“男人”“女人”“父親”的詞向量的加、減運(yùn)算得到,即V(wi)=V(女人)-V(男人)+V(父親).在類比推理任務(wù)中,人工預(yù)先給定wi的理想答案,計(jì)算給定詞的詞向量與理想詞向量的夾角余弦,以此評(píng)價(jià)詞嵌入的實(shí)際效果.

      Chen等[34]給出了類比推理任務(wù)集(https:∥github.com/Leonard-Xu/CWE),其中包含3種類型,共計(jì)953組推理,包括:首都與國(guó)家506組,州/省與城市175組,親屬關(guān)系272組.在《詞林》中,實(shí)際包含該任務(wù)集中的921組,包括:首都與國(guó)家506組,州/省與城市175組,親屬關(guān)系240組.

      1.5 詞義相似度計(jì)算任務(wù)

      詞義相似度計(jì)算是同義詞檢測(cè)、歧義消解、信息抽取等任務(wù)或應(yīng)用的基礎(chǔ),其計(jì)算方法分為2種[35]:一種是利用語料進(jìn)行統(tǒng)計(jì)分析,將詞頻及分布等情況作為詞義相似度計(jì)算的依據(jù)[36],其結(jié)果依賴于選取的語料庫(kù)[37],目前常用神經(jīng)網(wǎng)絡(luò)模型獲得詞向量,并依據(jù)夾角余弦計(jì)算詞義相似度;另一種方法是通過發(fā)掘知識(shí)庫(kù)中概念之間的共性與差異性,以此來評(píng)估詞義相似度[38],包括基于路徑、特征、信息內(nèi)容和利用概念注釋等不同方法[39].

      漢語中,常用的詞義相似度計(jì)算任務(wù)集包括MC30(https:∥github.com/huyingxi/Synonyms/blob/master/VALUATION.md)和wordsim297(https:∥github.com/thunlp/SE-WRL/blob/master/datasets/wordsim-297.txt).測(cè)試者使用計(jì)算模型對(duì)測(cè)試集中限定的詞對(duì)進(jìn)行相似度評(píng)分,并與人工判定標(biāo)準(zhǔn)做比較,通常使用皮爾森相關(guān)系數(shù)r,對(duì)模型方法的有效性進(jìn)行評(píng)價(jià).

      2 《詞林》的嵌入表示方法

      2.1 《詞林》結(jié)構(gòu)的調(diào)整

      在《詞林》層級(jí)結(jié)構(gòu)中,每一層上的詞義編碼并沒有明確標(biāo)出詞義的分類特征與取值.但是,在描寫詞義時(shí),每增加一層編碼,客觀上都會(huì)對(duì)意義表達(dá)產(chǎn)生進(jìn)一步的約束和限定.因此,可以將每層新增的編碼信息視為構(gòu)成詞義的一個(gè)新增義素,而低層的詞義編碼中,則包含了此上各層的義素信息.換言之,每個(gè)詞義可以等價(jià)于一組義素的組合.此外,在《詞林》中,所有的詞都分布在葉子節(jié)點(diǎn)上,其詞義描寫程度一樣,但這并不符合語言事實(shí).實(shí)際上,每個(gè)詞的語義顆粒度不同,顆粒度大的應(yīng)位于較高層節(jié)點(diǎn),而顆粒度小的應(yīng)位于較低層節(jié)點(diǎn).基于以上看法,對(duì)《詞林》結(jié)構(gòu)進(jìn)行調(diào)整.

      考慮到位于群首的詞往往能表征該原子詞群的一般含義,其代表程度較高,顆粒度也較大,按如下方法進(jìn)行《詞林》結(jié)構(gòu)的調(diào)整:由下至上,依次將低層中每個(gè)編碼對(duì)應(yīng)的首詞匯集起來并掛在上一層的父節(jié)點(diǎn)下,從而使高層編碼也有對(duì)應(yīng)的詞集,并通過高層詞集中的所有詞的共性來反映特定編碼的義素信息.最終不同抽象程度的詞均獲得了不同的語義顆粒度描寫.整理后的《詞林》結(jié)構(gòu)如圖2所示.

      圖2 調(diào)整后的《詞林》結(jié)構(gòu)示意圖

      2.2 基于《詞林》的偽句式構(gòu)造

      神經(jīng)網(wǎng)絡(luò)訓(xùn)練依據(jù)詞在上下文中的分布信息來捕捉詞義,因此,使用該方法在《詞林》中提取詞義,就需要依據(jù)其中的知識(shí)描述來構(gòu)造上下文分布合理的偽句子和偽語料庫(kù).

      整理后的《詞林》層級(jí)結(jié)構(gòu)中共有23 570個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)代表的概念都不相同.利用每個(gè)詞的詞義編碼信息構(gòu)造3類偽句式,即:義素編碼句式、義素編碼擴(kuò)展句式、詞編碼句式.由于《詞林》中的詞義編碼代表了該層上的概念含義,在造句時(shí),依照層級(jí)結(jié)構(gòu)確定編碼和詞的距離具有分布合理性,適合用word2vec模型來訓(xùn)練義素向量及詞向量.3類偽句式的定義如下,相應(yīng)的示例如表2所示.

      表2 《詞林》中不同句式示例

      1) 義素編碼句式:根據(jù)義素的編碼構(gòu)造偽句式,每個(gè)詞的所有祖先節(jié)點(diǎn)編碼構(gòu)成代表該詞義的義素組合,依據(jù)祖先節(jié)點(diǎn)在層級(jí)結(jié)構(gòu)中與該詞的距離,確定該祖先節(jié)點(diǎn)編碼在句中與該詞的距離.句式呈回文數(shù)形,詞前后均有5個(gè)編碼,如果編碼不足5個(gè),則將距離該詞最近的編碼復(fù)制多次進(jìn)行占位處理.這樣的造句方式,保證句長(zhǎng)固定且前后對(duì)稱,同時(shí)滿足連續(xù)詞袋(CBOW)方法和跳字(Skip-Gram)方法對(duì)窗口詞形式的要求.

      2) 義素編碼擴(kuò)展句式:依據(jù)不同的詞義相似度計(jì)算方法,預(yù)先對(duì)每個(gè)詞篩選出和該詞相似度達(dá)到特定閾值的近義詞集,并將義素編碼句式中的詞依次代換為其近義詞集中的其他詞,以此擴(kuò)大偽語料庫(kù)的規(guī)模.這種句式實(shí)質(zhì)上是借助已有的理性方法,提升近義詞在偽語料庫(kù)中的分布相似度,從而使依據(jù)分布信息訓(xùn)得的詞向量能夠析取近義詞.本研究中采用田久樂等[1]的、呂立輝等[2]、朱新華等[3]提出的詞義相似度計(jì)算方法 .比如“人”的近義詞集,如果采用田久樂等[1]的算法,在特定的相似度閾值設(shè)定下,則包括{人,士,人物,人士,人氏,人選,人類,生人,全人類,人口,口,食指,翁}等詞.

      3) 詞編碼句式:將義素編碼句式中的每個(gè)義素編碼替換為該編碼詞集中的所有詞.在這種句式假定下,每個(gè)義素編碼代表的義素信息可以通過該編碼詞集中的所有詞的共性反映出來,也由此代表了該義素信息.這種句式的句長(zhǎng)不固定,但前后依然對(duì)稱.

      2.3 《詞林》的嵌入表示訓(xùn)練

      Word2vec 模型基于上下文對(duì)詞進(jìn)行概率預(yù)測(cè),包括CBOW和Skip-Gram方法,它可以從大量無標(biāo)的語料庫(kù)中學(xué)習(xí)詞的嵌入表示.其中,CBOW根據(jù)當(dāng)前詞wi上下文的詞向量表示求和或平均后,直接預(yù)測(cè)wi;而Skip-Gram則與CBOW對(duì)稱,使用當(dāng)前wi預(yù)測(cè)其上下文中的每一個(gè)詞.

      本研究利用gensim自然語言處理庫(kù)中的word2vec模塊(https:∥github.com/RaRe-Technologies/gensim),使用CBOW和Skip-Gram方法在3種偽語料庫(kù)上進(jìn)行平行訓(xùn)練,完全不借助于任何其他真語料庫(kù),并考察不同窗口詞大小對(duì)訓(xùn)練結(jié)果的影響.

      值得注意的是,在構(gòu)造義素編碼句式和義素編碼擴(kuò)展句式時(shí),《詞林》中各層的詞義編碼在偽語料庫(kù)中都有分布,并且與詞的出現(xiàn)形成合理的分布關(guān)系,經(jīng)過word2vec模型訓(xùn)練,可以同時(shí)獲得針對(duì)《詞林》嵌入表示的義素向量和詞向量.并且本研究也在中文維基百科語料(https:∥dumps.wikimedia.org)上訓(xùn)練詞向量,用于相關(guān)任務(wù)的效果對(duì)比與驗(yàn)證.

      3 嵌入表示結(jié)果的應(yīng)用評(píng)估

      3.1 詞義合成任務(wù)評(píng)估

      由于《詞林》的詞義編碼中包含了各層的義素信息,詞義等價(jià)于一組義素的組合,理論上,可以將一個(gè)詞的詞向量替換成一組義素向量的歸一化求和結(jié)果,以此考察義素向量在詞義合成任務(wù)上的表現(xiàn).在本研究中,采取如下公式來計(jì)算義素合成的詞向量:

      其中,w1為所要計(jì)算的詞,si為與詞義相關(guān)的義素,V(x)為義素向量或詞向量,αi為權(quán)重參數(shù).權(quán)重參數(shù)按義素所處的層級(jí)位置,采用等比遞減或等比遞增等不同方法,即:αi+1=0.5αi或αi+1=2αi.

      通過計(jì)算義素向量合成的詞向量和原詞向量的余弦相似度,可以評(píng)價(jià)詞義合成任務(wù)的有效性.由于多義詞有多種義素編碼表達(dá)式,進(jìn)而生成多種義素合成的詞向量,在任務(wù)評(píng)估時(shí),對(duì)每個(gè)詞對(duì),需取得和原詞向量余弦相似度最高的一組義素合成的詞向量.在該任務(wù)上,本研究使用CBOW和Skip-Gram方法在不同句式、不同窗口詞大小下的訓(xùn)練結(jié)果如表3所示.

      其中,擴(kuò)展句式取αi+1=0.5αi和αi+1=2αi兩種權(quán)重分配中得分較高的一種,最優(yōu)模型均采用αi+1=0.5αi. 依據(jù)3種相似度計(jì)算算法的不同特點(diǎn),擴(kuò)展句式的相似度閾值ρ分別定為:ρ[1]=0.89,ρ[2]=0.65,ρ[3]=0.84,訓(xùn)練中迭代次數(shù)為5,詞向量維度為300,最小詞頻為0,其他參數(shù)取默認(rèn)值.

      從實(shí)驗(yàn)結(jié)果可以看出,Skip-Gram訓(xùn)練效果普遍優(yōu)于CBOW,較合適的窗口大小為3~4.使用義素編碼句式效果最優(yōu),達(dá)到95.84%,表明義素信息實(shí)現(xiàn)了成功注入,可以有效地用義素合成的詞向量來表征原詞向量.這也說明《詞林》對(duì)詞義的分層描述具有一定的合理性,生成的偽句子在分布上依然保持了這種性質(zhì),經(jīng)訓(xùn)練獲得的義素向量和原詞向量之間存在合成關(guān)系.在加入了理性算法后,合成效果反而有所下降,可能原因是擴(kuò)展的句子采用了近義詞,給語料帶來了噪音,這也反過來說明理性算法與知識(shí)確實(shí)被注入進(jìn)去了.

      總體來說,《詞林》知識(shí)的采用,在語義合成任務(wù)上具有顯著優(yōu)勢(shì).

      3.2 類比推理任務(wù)評(píng)估

      對(duì)于類比推理任務(wù),使用CBOW和Skip-Gram方法在不同句式、不同窗口詞大小下訓(xùn)練得到的結(jié)果如表4所示.

      其中,擴(kuò)展句式取αi+1=0.5αi,擴(kuò)展句式的相似度閾值ρ同上,訓(xùn)練模型參數(shù)同上,維基百科語料訓(xùn)練中的最低詞頻為3,其他模型參數(shù)和偽語料庫(kù)相同.

      可以看出,Skip-Gram效果更好,最佳句式為義素編碼句式,使用該句式的義素合成的詞向量成績(jī)達(dá)到94.37%,其效果明顯優(yōu)于原詞向量.該結(jié)果進(jìn)一步說明,《詞林》知識(shí)的采用,可以有效實(shí)現(xiàn)詞義合成,并將義素合成的詞向量應(yīng)用于其他任務(wù)上.在模型參數(shù)相同的條件下,在偽語料庫(kù)上訓(xùn)得的詞向量的效果優(yōu)于在維基百科上訓(xùn)得的詞向量.可能原因在于:與詞單位相比,知識(shí)庫(kù)中的義素單位不存在歧義,且有不重不漏的特性;此外,《詞林》中的詞義描述式格式整齊,在此基礎(chǔ)上生成的偽句式分布具有規(guī)范性,句式生成過程中可以人為地控制信息分布,減少噪音,而語料庫(kù)往往帶有無法消解的歧義和噪音問題.

      總體來說,使用新方法獲得的《詞林》嵌入表示在類比推理任務(wù)上具有顯著優(yōu)勢(shì),且普遍優(yōu)于Chen等[34]報(bào)道的72.99%的最好效果.

      3.3 詞義相似度計(jì)算任務(wù)評(píng)估

      對(duì)于詞義相似度計(jì)算任務(wù),上述不同來源的詞向量在MC30、wordsim297測(cè)試集上的相似度評(píng)分,以及與人工判定標(biāo)準(zhǔn)比較的皮爾森相關(guān)系數(shù)r評(píng)分,分別如表5和表6所示.

      表3 詞義合成任務(wù)評(píng)估:義素合成的詞向量與原詞向量的余弦相似度

      注:表中3~7表示窗口詞大小,*分別表示采用相應(yīng)文獻(xiàn)中的詞義相似度計(jì)算方法進(jìn)行計(jì)算,下同.

      表4 類比推理任務(wù)評(píng)估:推理詞向量與標(biāo)準(zhǔn)詞向量的余弦相似度

      表5 MC30詞義相似度計(jì)算任務(wù)評(píng)估:r

      其中,擴(kuò)展句式取αi+1=2αi,擴(kuò)展句式的相似度閾值ρ同上,訓(xùn)練模型參數(shù)同上,維基百科語料訓(xùn)練的模型參數(shù)同上.《詞林》中包含wordsim297中的277個(gè)詞對(duì),最后評(píng)分以這277個(gè)詞對(duì)為標(biāo)準(zhǔn),受最低詞頻限制,維基百科訓(xùn)練結(jié)果中僅包括wordsim297中的 277個(gè)詞對(duì),表6中相應(yīng)為這277個(gè)詞對(duì)上的得分.

      在詞義相似度的計(jì)算任務(wù)上Skip-Gram效果更好,最佳窗口大小是7.義素合成的詞向量比原詞向量的表現(xiàn)要好,再次證明應(yīng)用《詞林》中的詞義合成性可以提高相關(guān)任務(wù)的性能.加入理性算法的擴(kuò)展句式后進(jìn)一步提升了其性能,其中,r最高的是加入了田久樂等[1]提出的相似度計(jì)算算法,其義素合成的詞向量達(dá)到了84.95%,表明理性方法在訓(xùn)練過程中被成功注入,在近義詞的嵌入表示中得到了體現(xiàn).考查初始的理性方法,文獻(xiàn)[1-3]中的詞義相似度計(jì)算方法在MC30上的r分別為49.39%,74.03%和79.24%,在wordsim297上的r分別為35.53%,34.11%和42.22%,新方法獲得的《詞林》嵌入表示的效果普遍更好,優(yōu)于傳統(tǒng)的知識(shí)庫(kù)理性方法并可能接近《詞林》知識(shí)表示的能力上限.

      和維基百科訓(xùn)練結(jié)果相比,在迭代次數(shù)等模型參數(shù)相同的情況下,新方法獲得的《詞林》嵌入表示在MC30測(cè)試集上超過了維基百科,而在wordsim297上則落后于維基百科.此外,有意思的是,和MC30相比,wordsim297上理性方法計(jì)算得到的結(jié)果與新方法得到的結(jié)果都表現(xiàn)出隨迭代次數(shù)大致相同的下降趨勢(shì),這或許與MC30選詞特殊及樣本過小等因素有關(guān).

      表6 wordsim297詞義相似度計(jì)算任務(wù):r

      總體來說,在詞義相似度計(jì)算任務(wù)上,語料庫(kù)上的訓(xùn)練結(jié)果更加穩(wěn)定.《詞林》嵌入表示在wordsim297上表現(xiàn)不佳,有可能是因?yàn)椤对~林》知識(shí)表示與數(shù)據(jù)本身存在先天的局限性,比如在顆粒度表達(dá)問題或者語義分類不合理等.

      4 結(jié)論及展望

      本研究以《詞林》為知識(shí)本體,提出并展示了基于知識(shí)庫(kù)訓(xùn)練嵌入表示的偽句式構(gòu)造方法,考察不同訓(xùn)練模型、不同窗口大小在不同偽語料庫(kù)上的表現(xiàn),并分別應(yīng)用于詞義合成、類比推理和詞義相似度計(jì)算等自然語言處理任務(wù)上.實(shí)驗(yàn)結(jié)果表明,新獲得的義素向量及詞向量資源CiLin2Vec在不同任務(wù)上都取得了進(jìn)展或突破.其中,在詞義合成和類比推理任務(wù)上表現(xiàn)突出,準(zhǔn)確率達(dá)到90%以上,顯示該方法在應(yīng)用上的巨大潛力.本研究也將《詞林》的CiLin2Vec嵌入表示資源發(fā)布在網(wǎng)絡(luò)上(https:∥github.com/ariaduan/CiLin2Vec),以方便科研和業(yè)界驗(yàn)證、使用、推廣.

      在性質(zhì)上,該方法有效復(fù)用已有的知識(shí)庫(kù)資源,利用句式構(gòu)造控制向嵌入表示中注入的理性知識(shí),并借鑒已有的計(jì)算方法進(jìn)行預(yù)處理,發(fā)掘理性知識(shí)和計(jì)算方法結(jié)合的最優(yōu)方式,這些做法易于理解,有很強(qiáng)的解釋性;該方法在訓(xùn)練過程中完全不使用真語料庫(kù),基于知識(shí)庫(kù)生成偽語料的方式更加直接、簡(jiǎn)便,降低了獲得嵌入表示的復(fù)雜度,極大地縮短了訓(xùn)練周期.

      在未來,針對(duì)其他各類知識(shí)庫(kù),希望探究該方法的通用模型與一般特征,考察知識(shí)庫(kù)上訓(xùn)得的詞向量與語料庫(kù)上訓(xùn)得的詞向量的聯(lián)合應(yīng)用,并由此形成對(duì)不同資源的知識(shí)表示及數(shù)據(jù)特點(diǎn)的評(píng)價(jià).這些觀點(diǎn)和方法,也將支持用于描述漢語語素及構(gòu)詞意義的北京大學(xué)《漢語概念詞典》的研究與開發(fā).

      猜你喜歡
      義素詞義語料庫(kù)
      西夏語“頭項(xiàng)”詞義考
      西夏研究(2020年1期)2020-04-01 11:54:26
      《語料庫(kù)翻譯文體學(xué)》評(píng)介
      詞義辨別小妙招——看圖辨詞
      義素分析法
      把課文的優(yōu)美表達(dá)存進(jìn)語料庫(kù)
      基于JAVAEE的維吾爾中介語語料庫(kù)開發(fā)與實(shí)現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      字意與詞義
      語言與翻譯(2014年3期)2014-07-12 10:31:59
      俄語“笑”類動(dòng)詞的語義成分分析
      色彩義素類型略說
      《詩(shī)經(jīng)》詞義考辨二則
      绍兴县| 新乐市| 肃宁县| 望城县| 江油市| 固始县| 玛曲县| 盐亭县| 肥城市| 九龙城区| 托克逊县| 离岛区| 托里县| 聂拉木县| 重庆市| 鄂温| 望谟县| 潜江市| 申扎县| 仪陇县| 湘潭市| 乐亭县| 洛南县| 电白县| 金堂县| 安吉县| 焉耆| 琼中| 百色市| 枣阳市| 西华县| 淮南市| 花莲县| 临颍县| 长汀县| 博湖县| 奉新县| 白银市| 抚顺县| 永寿县| 四子王旗|