• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于詞模式嵌入的詞語(yǔ)上下位關(guān)系分類(lèi)

      2019-01-29 05:48:12孫佳偉李正華陳文亮張民
      關(guān)鍵詞:語(yǔ)料短語(yǔ)詞語(yǔ)

      孫佳偉 李正華 陳文亮 張民

      蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 蘇州 215006; ? 通信作者, E-mail: zhli13@suda.edu.cn

      語(yǔ)料庫(kù)是自然語(yǔ)言處理任務(wù)的重要數(shù)據(jù)資源之一。上下位關(guān)系是部分語(yǔ)料庫(kù)的基本框架, 如WordNet 和 HowNet。這些由人工構(gòu)造的語(yǔ)料資源準(zhǔn)確、清晰, 是進(jìn)行文本、語(yǔ)言研究的主要數(shù)據(jù)來(lái)源。然而, 大型的語(yǔ)料庫(kù)資源具有明顯的缺點(diǎn): 1)維護(hù)和更新需要耗費(fèi)大量的人力資源; 2)語(yǔ)料庫(kù)的范圍和領(lǐng)域都非常狹小和固定[1]。因此, 迫切需要研究能夠自動(dòng)獲取上下位關(guān)系的方法。

      上下位關(guān)系分類(lèi)(hypernym relation classification)是對(duì)給定的名詞詞語(yǔ)對(duì)<x,y>進(jìn)行自動(dòng)分類(lèi)的自然語(yǔ)言處理技術(shù)。比如, 將詞語(yǔ)對(duì)<狗, 動(dòng)物>判斷為具有上下位關(guān)系的詞對(duì), 判斷<花朵, 蜜蜂>不具有上下位關(guān)系。上下位關(guān)系分類(lèi)不僅能夠支持更高層次的自然語(yǔ)言處理任務(wù), 如句法分析以及抽象語(yǔ)義表示, 而且在信息處理領(lǐng)域也有廣泛的應(yīng)用價(jià)值, 如在語(yǔ)料的屬性詞層次構(gòu)建中, 可用于判斷層次關(guān)系。

      本文研究基于漢語(yǔ)的上下位關(guān)系分類(lèi)方法, 并提出一種新的詞模式, 構(gòu)建融合詞模型。研究目標(biāo)在于提高基于模式方法的召回率, 降低模式匹配的難度。在融合詞模型中, 詞模式更容易匹配, 能夠在短語(yǔ)模式基礎(chǔ)上大幅度地提高基于模式方法的召回率, 從而提高關(guān)系分類(lèi)的 F1 值。在詞模式保留上下文信息的基礎(chǔ)上, 本文還結(jié)合詞嵌入的語(yǔ)義信息, 構(gòu)建詞模式嵌入模型。目前, 尚沒(méi)有公開(kāi)的、大型的中文上下位數(shù)據(jù)庫(kù)。本文提出上下位關(guān)系數(shù)據(jù)構(gòu)建方法, 數(shù)據(jù)構(gòu)建主要根據(jù)同義詞詞林與NLPCC-2017 測(cè)評(píng)數(shù)據(jù), 添加部分人工構(gòu)建工作。本文構(gòu)建了 12000 個(gè)詞語(yǔ)對(duì)的漢語(yǔ)上下位數(shù)據(jù)庫(kù)。

      1 相關(guān)工作

      1.1 語(yǔ)料庫(kù)構(gòu)建

      在英語(yǔ)數(shù)據(jù)中, WordNet 是目前最重要、涉及范圍最廣、最常用的自然語(yǔ)言系統(tǒng)數(shù)據(jù)集, 該數(shù)據(jù)集分為名詞、副詞、形容詞和動(dòng)詞 4 組不同且互不干擾的詞語(yǔ)網(wǎng)絡(luò)。其中, 名詞網(wǎng)絡(luò)主要通過(guò)上下位關(guān)系連接。WordNet 提供接口軟件, 方便查詢(xún)及應(yīng)用。除英文外, WordNet 還有其他語(yǔ)言部分(如EuroNet), 但數(shù)據(jù)規(guī)模遠(yuǎn)小于英語(yǔ)的規(guī)模, 不足以進(jìn)行研究。在荷蘭語(yǔ)中, Sang 等[2]使用 EuroNet 的數(shù)據(jù),但是由于數(shù)據(jù)規(guī)模太小, 他們采用 Snow 等[3]的方法, 抽取出更多的上下位詞語(yǔ)對(duì)。目前, 比較成熟的具有上下位關(guān)系的中文數(shù)據(jù)庫(kù)有HowNet和同義詞詞林等。

      目前, 大部分有關(guān)上下位關(guān)系的研究都是基于英文的, 其他語(yǔ)言的研究與語(yǔ)料庫(kù)資源較少。漢語(yǔ)上下位關(guān)系的語(yǔ)料庫(kù)規(guī)模也遠(yuǎn)遠(yuǎn)不及英文語(yǔ)料庫(kù)。目前, 針對(duì)漢語(yǔ)上下位的研究有劉磊等[4]提出的基于“是一個(gè)”模式獲取下位詞概念的方法。

      1.2 上下位關(guān)系挖掘方法研究

      進(jìn)行上下位關(guān)系分類(lèi)的方法主要有兩種: 基于模式的方法和基于詞嵌入的方法。

      基于模式的方法也稱(chēng)為基于路徑的方法(pathbased method)。給定詞語(yǔ)對(duì)<x,y>, 比如<狗, 動(dòng)物>, 在“狗是一種動(dòng)物”一句中, 詞語(yǔ)對(duì)之間的短語(yǔ)信息為“是一種”?!笆且环N”是一個(gè)具有明顯的上下位關(guān)系的模式, 也可以稱(chēng)為詞語(yǔ)對(duì)之間的路徑。這種詞語(yǔ)對(duì)之間的短語(yǔ)信息稱(chēng)為模式(路徑), 利用模式進(jìn)行上下位關(guān)系分類(lèi)的方法就是基于模式的方法。該方法最早由 Hearst[5]提出, 主要是在詞語(yǔ)對(duì)同時(shí)出現(xiàn)在許多語(yǔ)句中時(shí), 將不同語(yǔ)句提供的詞語(yǔ)對(duì)之間的短語(yǔ)信息構(gòu)成集合, 通過(guò)集合來(lái)判斷對(duì)應(yīng)的詞語(yǔ)對(duì)的關(guān)系。Hearst[5]提供了幾個(gè)具有明顯的上下位信息的模式, 比如: 是一種(is a/an)、例如(such as)、和其他(and other/ or other)等等。除短語(yǔ)信息外, 依存路徑也可以當(dāng)做模式。Snow 等[3]將詞語(yǔ)對(duì)用它們之間依存路徑的集合來(lái)表示, 在此基礎(chǔ)上進(jìn)行上下位關(guān)系分類(lèi)。使用基于模式的方法會(huì)構(gòu)建一個(gè)巨大的模式特征空間, 而語(yǔ)言表達(dá)的多樣性和模式的可變性使得特征空間十分稀疏。比如, “狗是一種活潑的動(dòng)物”、“貓是一種可愛(ài)的動(dòng)物”, 都包含“是一種”, 但是不同的修飾詞語(yǔ)導(dǎo)致被識(shí)別為兩個(gè)不同的模式。修飾語(yǔ)的使用讓模式更難以匹配。為解決這個(gè)問(wèn)題, Nakashole 等[6]構(gòu)建 PATTY模型, 將模式中的詞語(yǔ)用詞性來(lái)代替。

      在基于詞嵌入的方法(又稱(chēng)為基于分布的方法)中, 詞語(yǔ)對(duì)被離散化地表示為向量(embedding), 通過(guò)兩個(gè)詞向量之間的運(yùn)算來(lái)判斷詞語(yǔ)對(duì)是否為上下位關(guān)系。Lin[7]最早采用基于分布的方法進(jìn)行上下位關(guān)系的判斷。Kotlerman 等[8]提出另外一種基于分布的方法, 他們假設(shè)基于下位詞的上下文是上位詞的上下文的子集。但是, 基于分布的方法有一個(gè)明顯的缺點(diǎn), 就是訓(xùn)練出來(lái)的分布式向量?jī)H保留詞語(yǔ)的語(yǔ)境信息, 不包含字典等重要的、準(zhǔn)確的先驗(yàn)知識(shí)。

      目前, 在眾多方法中, 最優(yōu)的基于模式方法的效果比基于分布方法差一些, 主要是由于基于模式的方法要求詞語(yǔ)對(duì)出現(xiàn)在同一個(gè)句子中[1], 并且模式要進(jìn)行匹配, 限制了該方法的召回率。

      2 基于模式的上下位關(guān)系分類(lèi)方法

      本文構(gòu)建一個(gè)基于短語(yǔ)模式與詞模式的上下位關(guān)系分類(lèi)系統(tǒng), 如圖 1 所示。首先通過(guò)語(yǔ)料抽取詞語(yǔ)之間的模式, 然后將其應(yīng)用在關(guān)系分類(lèi)模型上。關(guān)鍵步驟是在抽取短語(yǔ)模式的基礎(chǔ)上, 添加詞模式的使用。通常情況下, 與短語(yǔ)模式相比, 詞模式更容易抽取與匹配, 且具有更細(xì)化的文本信息。因此,本文從一個(gè)大規(guī)模的語(yǔ)料中抽取并構(gòu)建詞語(yǔ)的短語(yǔ)模式與詞模式空間, 利用模式空間將詞語(yǔ)的模式集合轉(zhuǎn)化為向量, 使用最大熵算法得到融合詞模型(lexical-word pattern model)。

      2.1 短語(yǔ)模式

      短語(yǔ)模式是用于處理上下位關(guān)系分類(lèi)任務(wù)的一種常見(jiàn)模式, 能夠有效地體現(xiàn)詞語(yǔ)在句子中的關(guān)系。本文采用 Sang 等[2]提出的短語(yǔ)模式抽取方法。為了使短語(yǔ)模式更好地保留句子的信息, 在模式抽取之前, 語(yǔ)料需要經(jīng)過(guò)分句、分詞與詞性標(biāo)注這 3個(gè)句法分析步驟。本文將3種標(biāo)點(diǎn)(。? ! )視為斷句的標(biāo)記。

      短語(yǔ)模式指在句子中, 兩個(gè)指定名詞之間的詞長(zhǎng)度不超過(guò) 5 的短語(yǔ)[3]。在句子“蘋(píng)果是一種水果”中, 詞語(yǔ)對(duì)<水果, 蘋(píng)果>之間的短語(yǔ)“是 一 種”是詞長(zhǎng)度為 3 的短語(yǔ)模式。當(dāng)句子不同時(shí)包含詞語(yǔ)對(duì)中的兩個(gè)詞時(shí), 詞語(yǔ)對(duì)無(wú)法從該句子中抽取短語(yǔ)模式。

      圖1 上下位關(guān)系分類(lèi)系流程Fig.1 Flow chart of hypernym relation classificcation

      基于短語(yǔ)模式的分類(lèi)方法需要構(gòu)建模式空間。抽取出詞語(yǔ)對(duì)在語(yǔ)料中的短語(yǔ)模式集合, 由所有的短語(yǔ)集合構(gòu)成模式空間。下面給出兩個(gè)詞語(yǔ)對(duì)的樣例, 其中例1 為具有上下位關(guān)系的詞語(yǔ)對(duì)<水果, 蘋(píng)果>的句子, 短語(yǔ)模式集合為{“這一 種”, “是 一種”, “中”};例2 為具有有非上下位詞語(yǔ)對(duì)<水果,人>的句子, 模式短語(yǔ)集合為{“對(duì)”, “不 愛(ài) 吃”}, 雖然例2 第 3 句中包含“水果”和“人”兩個(gè)詞語(yǔ), 但是分詞之后并沒(méi)有單獨(dú)的名詞“人”出現(xiàn), 所以在這句話中沒(méi)有詞語(yǔ)對(duì)<水果, 人>的短語(yǔ)模式。由此, 上下位關(guān)系分類(lèi)可以根據(jù)上下文信息進(jìn)行估計(jì)與推理。

      例11)我 只 喜歡蘋(píng)果這 一 種水果。

      2)蘋(píng)果是 一 種水果。

      3)水果中蘋(píng)果產(chǎn)量 最高 。

      例21)多 吃水果對(duì)人的 身體 有 好處 。

      2)很多人不 愛(ài) 吃水果。

      3)一 種水果叫人參果 。

      2.2 詞模式

      基于模式的上下位關(guān)系識(shí)別是將模式轉(zhuǎn)化為特征向量的關(guān)系分類(lèi)任務(wù)。目前, 基于模式的識(shí)別方法召回率普遍較低[7]。研究表明, 使用短語(yǔ)模式作為特征, 能有效地進(jìn)行上下位關(guān)系分類(lèi), 但是存在明顯的不足[2]: 1)語(yǔ)料規(guī)模決定短語(yǔ)模式空間的大小, 對(duì)實(shí)驗(yàn)產(chǎn)生較大影響; 2)受修飾語(yǔ)、定語(yǔ)和語(yǔ)言習(xí)慣的影響, 相同含義的短語(yǔ)模式能夠相似, 但很難相同。要提高基于模式方法的召回率, 就需要擴(kuò)大模式空間、降低模式匹配難度。。

      本文提出一種優(yōu)化的詞模式, 將短語(yǔ)模式中的每一個(gè)詞都單獨(dú)作為一個(gè)特征。根據(jù)短語(yǔ)模式不同但相似這一特點(diǎn), 本文采用詞模式作為優(yōu)化模式。例3 中, 上下位詞語(yǔ)對(duì)<蘋(píng)果, 水果>和<動(dòng)物, 狗>的短語(yǔ)模式分別為“是 一 種 健康 的”以及“是 一種 活潑 的”。

      例31)蘋(píng)果是 一 種 健康 的水果。

      2)狗是 一 種 活潑 的動(dòng)物。

      例3 中, 兩個(gè)短語(yǔ)模式表達(dá)了相同的意思, 但是不同的修飾詞使得短語(yǔ)模式無(wú)法匹配。雖然這兩種模式整體上無(wú)法匹配, 但是模式內(nèi)的的詞語(yǔ)大部分是一樣的?;谏鲜隼?本文提出詞模式的概念,嘗試以詞作為模式的基本單位, 以期提高模式的匹 配度。詞模式是將短語(yǔ)模式中的每一個(gè)詞都獨(dú)立出來(lái),作為一種模式。不同于短語(yǔ)模式體現(xiàn)詞語(yǔ)在句 子中關(guān)系這一觀點(diǎn), 本文認(rèn)為詞語(yǔ)之間的每一個(gè)中間詞都分別體現(xiàn)詞語(yǔ)之間的的關(guān)系。

      詞語(yǔ)對(duì)<水果, 蘋(píng)果>和<動(dòng)物, 狗>在例3 中的的短語(yǔ)模式與詞模式如表 1 所示。在短語(yǔ)模式情況下,兩個(gè)詞語(yǔ)對(duì)分別只有一個(gè)短語(yǔ)模式, 且不相同。然而,在詞模式情況下, 兩個(gè)詞語(yǔ)對(duì)的模式集合長(zhǎng)度為 5, 且主要詞模式都是相同的, 兩種集合的重疊 程度有 4/5。

      詞模式不僅能夠提高模式匹配度以及方法召回率,也能夠擴(kuò)大模式空間,減少語(yǔ)料規(guī)模對(duì)實(shí)驗(yàn)結(jié)果的影響。所以, 本文在短語(yǔ)模式的基礎(chǔ)上添加了詞模式。

      表1 詞語(yǔ)對(duì)短語(yǔ)模式與詞模式Table 1 Lexical patterns and word patterns for word pairs

      本文利用給定的模式構(gòu)建特征空間, 并利用特征空間將詞語(yǔ)對(duì)的模式集合向量化, 將詞語(yǔ)對(duì)對(duì)應(yīng)的特征向量輸入分類(lèi)器, 對(duì)給定的詞語(yǔ)對(duì)進(jìn)行關(guān)系分類(lèi)。這種模式的優(yōu)化方法可以降低模式匹配的難度, 從而提高方法的召回率, 使得 F1 值也有明顯的提升。

      3 基于詞模式嵌入表示的上下位關(guān)系分類(lèi)方法

      在 2.2 節(jié)提出的詞模式基礎(chǔ)上, 本文構(gòu)建基于詞模式嵌入表示的上下位關(guān)系分類(lèi)系統(tǒng)。首先, 根據(jù)大規(guī)模語(yǔ)料獲取詞嵌入[9], 在該語(yǔ)料基礎(chǔ)上獲取詞語(yǔ)對(duì)的詞模式。然后, 根據(jù)詞語(yǔ)的詞嵌入及所有詞模式的詞嵌入, 使用簡(jiǎn)單前饋神經(jīng)網(wǎng)絡(luò)構(gòu)造詞融合詞模式嵌入模型(word pattern embedding model,WP-EMB)。在此情況下, 本文提出的 WP-EMB 模型不僅充分地利用了語(yǔ)句的上下文信息, 也利用了詞語(yǔ)的語(yǔ)義信息。

      3.1 詞嵌入

      基于模式的方法是利用上下文信息對(duì)詞語(yǔ)對(duì)進(jìn)行上下位關(guān)系分類(lèi), 存在較明顯的缺點(diǎn): 1)需要詞語(yǔ)對(duì)作為獨(dú)立名詞, 同時(shí)出現(xiàn)在同一個(gè)句子中; 2)當(dāng)詞語(yǔ)對(duì)比較少見(jiàn)時(shí), 詞語(yǔ)對(duì)甚至可能沒(méi)有上下文信息, 無(wú)法進(jìn)行基于模式的分類(lèi); 3)僅利用上下文信息, 卻無(wú)法使用詞的語(yǔ)義信息[1]。這些缺點(diǎn)限制了基于模式方法的召回率。

      與基于模式方法不同, 基于詞嵌入表示的上下位關(guān)系分類(lèi)方法利用詞嵌入來(lái)表示詞語(yǔ)的信息[8,10]。詞嵌入表示既包含詞語(yǔ)的上下文信息, 也在很大程度上表示詞的語(yǔ)義。這一特點(diǎn)使得基于詞嵌入的方法有較高的召回率。目前, 在基于詞嵌入的方法中,詞語(yǔ)對(duì)<x,y>通常用特征向量表示。Roller 等[11]與 Baroni 等[12]分別用來(lái)表示詞語(yǔ)對(duì)。

      由于短語(yǔ)模式具有長(zhǎng)度較長(zhǎng)、包含多個(gè)詞語(yǔ)等特點(diǎn), 目前還難以從整體上將短語(yǔ)模式轉(zhuǎn)變成詞嵌入形式, 基于模式的方法還無(wú)法利用語(yǔ)義信息。

      3.2 詞模式的嵌入

      本文提出在基于詞模式方法的基礎(chǔ)上添加詞嵌入, 該方法結(jié)合詞模式的上下文信息, 也利用了詞語(yǔ)的語(yǔ)義信息。通常情況下, 基于模式的方法難以添加詞嵌入, 2.2 節(jié)中提出的詞模式是添加詞嵌入的基礎(chǔ)。

      首先, 采用與 Baroni 等[12]相同的組合方法來(lái)表示詞語(yǔ)對(duì)的含義。此外, 通過(guò)詞模式嵌入來(lái)進(jìn)一步利用上下文信息。不同詞語(yǔ)對(duì)的詞模式集合大小不一致, 采用的向量拼接方法產(chǎn)生的詞模式特征向量維度也不一致, 其中,為詞語(yǔ)對(duì)的詞模式i的詞嵌入表示。

      為了獲取詞模式集合的特征向量, 并保持特征向量的維度一致, 本文采用對(duì)所有詞模式嵌入池化結(jié)果做拼接的方法, 計(jì)算過(guò)程如式(1)~(4)所示。

      基于以上得到的詞模式特征向量表示, 本文將詞語(yǔ)對(duì)的詞嵌入和詞模式特征向量相拼接, 將最終拼接的特征向量作為詞語(yǔ)對(duì)的表示:

      其中,表示詞語(yǔ)對(duì)的最終特征向量。此方法能夠同時(shí)利用詞語(yǔ)的語(yǔ)義信息與上下文信息, 進(jìn)行上下位關(guān)系分類(lèi)。

      本文提出的詞語(yǔ)對(duì)的最終特征向量既保留了模式的上下文信息, 也獲取了詞語(yǔ)本身的語(yǔ)義信息。在此基礎(chǔ)上, 本文將最終特征向量輸入一個(gè)簡(jiǎn)單的前饋神經(jīng)網(wǎng)絡(luò), 構(gòu)建一個(gè)詞融合詞模式嵌入模型WP-EMB。

      3.3 詞模式嵌入模型

      本文構(gòu)建的詞模式嵌入的上下位關(guān)系分類(lèi)模式采用雙層前向神經(jīng)網(wǎng)絡(luò), 結(jié)構(gòu)如圖 2 所示。使用softmax計(jì)算類(lèi)別概率:

      其中,W為模型參數(shù),是一個(gè)兩維的概率向量。詞語(yǔ)對(duì)僅在[1]> 0.5 時(shí)被分類(lèi)為上下位關(guān)系詞語(yǔ)對(duì)。

      在輸入層, 詞語(yǔ)對(duì)被映射為最終特征向作為神經(jīng)網(wǎng)絡(luò)的輸入。在隱層, 神經(jīng)元數(shù)量為 100,采用 sigmoid 激活函數(shù)來(lái)提高神經(jīng)網(wǎng)絡(luò)的非線性建模能力。在輸出層, 采用 softmax 計(jì)算詞語(yǔ)對(duì)被分類(lèi)為上下位詞語(yǔ)與非上下詞語(yǔ)對(duì)的分值。

      圖2 基于詞模式嵌入的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.2 Architecture of model based on word pattern embedding

      4 漢語(yǔ)上下位數(shù)據(jù)據(jù)標(biāo)注

      由于目目前沒(méi)有公開(kāi)、大型的上下位數(shù)據(jù)庫(kù)資源, 為了完成實(shí)驗(yàn), 本文構(gòu)建一個(gè)由約 4200 個(gè)上下位詞對(duì)、8500 個(gè)非上下位詞語(yǔ)對(duì)構(gòu)成的數(shù)據(jù)庫(kù)。

      Snow 等[3]提供一種主流的方法來(lái)構(gòu)建詞庫(kù)。根據(jù)現(xiàn)有數(shù)據(jù)訓(xùn)練出分類(lèi)器, 從語(yǔ)料中爬取出現(xiàn)在同一個(gè)句子中的名詞語(yǔ)對(duì)作為測(cè)試集。用之前訓(xùn)練好的分類(lèi)器對(duì)測(cè)試集進(jìn)行分類(lèi), 之后再加以人工檢查, 檢查后的數(shù)據(jù)可以繼續(xù)加入詞庫(kù)。這個(gè)方法較難用于中文語(yǔ)料, 因?yàn)橹形臎](méi)有英文的詞根變化,所以在詞性標(biāo)注這一步, 很多修飾詞或前綴詞會(huì)被標(biāo)注為名詞, 會(huì)出現(xiàn)一句話中有超過(guò) 5 個(gè)名詞的現(xiàn)象。所以, 本文沒(méi)有采取這種方法。

      本文構(gòu)建的上下位詞語(yǔ)對(duì)約有4200 個(gè), 有3 個(gè)來(lái)源。

      1)從同義詞林和HowNet中爬取可能具有上下位關(guān)系的 20000 對(duì)詞語(yǔ)對(duì), 然后通過(guò)人工檢查,最終保留 2300 對(duì)上下位詞語(yǔ)對(duì)。

      2)人工構(gòu)建詞類(lèi), 包括動(dòng)物、植物、家電、國(guó)家、城市、建筑、方言、樂(lè)器、節(jié)日、木材、學(xué)學(xué)科和職業(yè)等,上位詞為以以上概括的的詞語(yǔ), 下位位詞為常見(jiàn)的該該類(lèi)事物。比比如, 節(jié)日的下位詞為清清明、春節(jié)、端午午、中秋節(jié)等等, 樂(lè)器的下位位詞為鋼琴、、小提琴、豎笛笛、二胡等。

      3)NLPPCC-2017 的測(cè)測(cè)評(píng)任務(wù)涉及及包括上下位位在內(nèi)的 4 種關(guān)系, 主辦方公公開(kāi)了用于評(píng)評(píng)價(jià)的 2000 對(duì)對(duì)詞語(yǔ)對(duì), 其中有有500對(duì)為上上下位詞語(yǔ)對(duì)對(duì)。

      非下位詞有 8500 個(gè), 主要有兩個(gè)來(lái)源。

      1)NLPCC--2017 公開(kāi)評(píng)價(jià)數(shù)據(jù)的 500 個(gè)部分整 體的名詞語(yǔ)對(duì)。

      2)在上述第 2 條中, 采用大類(lèi)錯(cuò)開(kāi)和并列下位詞構(gòu)造的詞語(yǔ)對(duì)。比如, 所有節(jié)日的下位詞與樂(lè)器 這一詞構(gòu)成非上下位詞語(yǔ)對(duì), 如<端午, 樂(lè)器>和<中秋節(jié), 樂(lè)器>; 所有大類(lèi)的下位詞并列, 如節(jié)日的兩個(gè)下位詞<端午, 中秋節(jié)>, 國(guó)家的兩個(gè)下位詞<中國(guó), 古巴>,等等。再對(duì)構(gòu)造出的詞語(yǔ)對(duì)進(jìn)行人 工檢查, 保留需要數(shù)目的非上下位詞語(yǔ)對(duì)即可。

      5 實(shí)驗(yàn)與結(jié)果分析

      5.1 實(shí)驗(yàn)語(yǔ)料

      為了進(jìn)行對(duì)比, 本文將 Sang 等[2]的的基于短語(yǔ)模式的方法在漢語(yǔ)的語(yǔ)料與數(shù)據(jù)上進(jìn)行實(shí)驗(yàn)。本文需要大量的無(wú)標(biāo)注語(yǔ)料進(jìn)行模式抽取與詞嵌入訓(xùn)練,無(wú)標(biāo)注語(yǔ)料主要為百度百科和 BCC 語(yǔ)料庫(kù)。百度百科語(yǔ)料包含目前百度百科中的所有詞條信息及其對(duì)應(yīng)的網(wǎng)頁(yè)數(shù)據(jù)。BCC 語(yǔ)料是由北京語(yǔ)言大學(xué)構(gòu) 建的語(yǔ)料平臺(tái),可以根據(jù)需要進(jìn)行語(yǔ)料查詢(xún)和保留。BCC 語(yǔ)料包括報(bào)刊、文學(xué)、科技和古漢語(yǔ)等多領(lǐng)域語(yǔ)料, 是可以全面地反映當(dāng)今社會(huì)語(yǔ)言生活的大規(guī)模語(yǔ)料庫(kù)。各語(yǔ)料的基本情況見(jiàn)表2。

      表2 數(shù)據(jù)規(guī)模及語(yǔ)料信息Table 2 Details of corpus for hypernym datasets

      本文主要依據(jù) BCC 語(yǔ)料來(lái)抽取短語(yǔ)模式與詞模式。部分上下位和非上下位詞語(yǔ)對(duì)在 BCC 語(yǔ)料中沒(méi)有匹配的語(yǔ)句, 這些沒(méi)有相關(guān)語(yǔ)句的詞語(yǔ)對(duì)會(huì)被直接分類(lèi)為非上下位, 影響模型的分類(lèi)效果。在此情況下, 本文也基于百度百科的語(yǔ)料進(jìn)行同樣的實(shí)驗(yàn)。本文采用精確率(P)、召回率(R)和 F1 值作為評(píng)價(jià)模型分類(lèi)效果的指標(biāo)。

      5.2 融合詞模型

      基于短語(yǔ)模式和詞模式, 本文進(jìn)行實(shí)驗(yàn)的特征有如下幾種。1)短語(yǔ)模式(lexical pattern, LP): 詞語(yǔ)對(duì)在句子之間、詞長(zhǎng)度不超過(guò) 5 的短語(yǔ)。2)詞模式(word pattern, WP): 詞語(yǔ)對(duì)在句子之間、長(zhǎng)度不超過(guò) 5 的短語(yǔ)模式中的每一個(gè)詞。3)詞模式頻率 (word frequency pattern, WFP): 由于詞模式非常容易匹配,使得詞模式出現(xiàn)的頻率較高。為了利用詞模式的頻率信息, 采用桶方法統(tǒng)計(jì)詞模式出現(xiàn)次數(shù), 將次數(shù)分入不均勻的桶。對(duì)于每一個(gè)詞模式及其出現(xiàn)次數(shù), 構(gòu)建 6 個(gè)桶, 分別為 1~5, 6~10, 11~20, 21~50, 51~100 和≥101。給定詞語(yǔ)對(duì), 當(dāng)詞模式“是”出現(xiàn)次數(shù)為23 時(shí), “是 21~50”對(duì)應(yīng)的特征值為 1, 其余桶值為0。

      采用最大熵作為分類(lèi)模型, 分別在 BCC 語(yǔ)料和百科語(yǔ)料進(jìn)行對(duì)比實(shí)驗(yàn)。基線實(shí)驗(yàn)為基于 LP 的短語(yǔ)模式模型, 本文提出基于 LP 和 WP、基于 LP 和WFP、基于 LP, WP 和 WFP 的 3 種融合詞模型與基于 WP 的詞模型。根據(jù)上述評(píng)價(jià)指標(biāo), 不同特征情況下各模型的正確率和召回率見(jiàn)表3。

      從表 3 可以看出, 在 BCC 語(yǔ)料中, 當(dāng)模式中添加詞模式時(shí), 模型得到的 F1 最高值為 75.15%; 在百度百科語(yǔ)料中, 在短語(yǔ)模式中添加詞模式時(shí), 模型得到的 F1 最高值為 82.46%。根據(jù) McNemar 顯著性檢測(cè), 模型之間的差距(p< 0.05)證明詞模式為基于模式的上下位關(guān)系分類(lèi)方法的性能帶來(lái)可靠性的提高。

      表3 基于模式方法對(duì)比實(shí)驗(yàn)結(jié)果Table 3 Performance of different models on two corpuses

      與已有工作相比, 文本提出的融合詞模型的性能明顯優(yōu)于 Sang 等[2]提出的基于短語(yǔ)模式的模型,說(shuō)明模式匹配度高的重要性。詞模式能夠有效地降低模式匹配的難度, 提高模式匹配率, 從而提高基于模式方法的召回率。

      5.3 詞模式嵌入模型

      為了確定最佳的分類(lèi)模型, 本文以基于單層bilinear 的詞嵌入模型為基線實(shí)驗(yàn)。對(duì)比實(shí)驗(yàn)分別為基于單層 bilinear 的詞融合模式嵌入模型、基于linear 的詞模式嵌入模型與基于 linear 的詞融合詞模式嵌入模型。每個(gè)模型的輸入與計(jì)算方式如表 4所示。

      根據(jù)表 5 中基于單層 bilinear 的詞嵌入模型與基于 linear 的詞模式嵌入模型的實(shí)驗(yàn)結(jié)果, 可以看出模式代表的上下文信息與詞嵌入代表的語(yǔ)義信息都是上下位關(guān)系分類(lèi)的重要信息。本文設(shè)計(jì)的詞融合詞嵌入模型在百度百科語(yǔ)料上的 F1 值為 95.36%,與只利用詞嵌入或詞模式的方法相比, 得到的 F1值高, 因?yàn)榫C合利用了詞語(yǔ)對(duì)的上下文信息與語(yǔ)義信息, 提高了上下位關(guān)系識(shí)別的精確率與召回率,也能夠解決基于模式方法中部分詞語(yǔ)對(duì)沒(méi)有模式、無(wú)法進(jìn)行分類(lèi)的問(wèn)題。

      在表 5 中, 基于 BCC 語(yǔ)料的實(shí)驗(yàn)結(jié)果普遍比基于百度百科語(yǔ)料的結(jié)果好。因?yàn)?BCC 語(yǔ)料比百度百科語(yǔ)料規(guī)模小, 部分非上下位詞語(yǔ)對(duì)沒(méi)有模式。在基于模式的模型中, 不具有模式信息的非上下位詞語(yǔ)對(duì)可以被直接分類(lèi)正確, 而在詞模式嵌入模型中, 需真實(shí)分類(lèi)的詞語(yǔ)對(duì)數(shù)量較小。詞語(yǔ)對(duì)沒(méi)有模式時(shí), 也說(shuō)明詞語(yǔ)對(duì)之間的關(guān)系較遠(yuǎn), 也是一種上下文信息。由此可見(jiàn), 語(yǔ)料的規(guī)模對(duì)實(shí)驗(yàn)結(jié)果也有影響。

      表4 模型輸入與計(jì)算Table 4 Input and calculation of models

      表5 詞模式嵌入實(shí)驗(yàn)結(jié)果Table 5 Performance of pattern embedding model

      通過(guò)比較不同模型的 F1 值, 說(shuō)明語(yǔ)義信息與上下文信息對(duì)上下位關(guān)系分類(lèi)都有重要的影響。實(shí)驗(yàn)結(jié)果表明, 本文提出的詞嵌入模型能夠利用上下文信息與語(yǔ)義信息, 進(jìn)而提高模型分類(lèi)的性能。

      6 總結(jié)與展望

      本文在短語(yǔ)模式基礎(chǔ)上提出詞模式, 降低模式的匹配難度。在基于短語(yǔ)模式與詞模式的融合詞模型中, 模型的召回率得到提高, 模式更為簡(jiǎn)潔高效。在詞模式基礎(chǔ)上, 本文結(jié)合詞嵌入的語(yǔ)義信息, 構(gòu)建了詞融合詞模式嵌入模型。實(shí)驗(yàn)結(jié)果表明, 本文方法能夠有效地進(jìn)行上下位詞語(yǔ)對(duì)關(guān)系分類(lèi), 效果超過(guò)基于短語(yǔ)模式的方法。

      未來(lái)工作中, 我們將從 3 個(gè)方面進(jìn)一步優(yōu)化上下位關(guān)系識(shí)別的模型: 在詞模式向量的基礎(chǔ)上, 提高詞模式特征向量的代表性; 構(gòu)建一個(gè)能夠從文本中自動(dòng)挖掘上下位關(guān)系詞語(yǔ)對(duì)的方法; 利用依存信息來(lái)提高模式的有效性。

      猜你喜歡
      語(yǔ)料短語(yǔ)詞語(yǔ)
      容易混淆的詞語(yǔ)
      找詞語(yǔ)
      詞語(yǔ)欣賞
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      一枚詞語(yǔ)一門(mén)靜
      《苗防備覽》中的湘西語(yǔ)料
      國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類(lèi)型與收集方法
      都江堰市| 屯留县| 安远县| 太原市| 图们市| 福鼎市| 楚雄市| 车致| 隆昌县| 广南县| 措美县| 永德县| 太仓市| 彰化市| 磐石市| 枝江市| 宁明县| 鹤岗市| 泽州县| 雷山县| 个旧市| 遂川县| 陇南市| 蓝山县| 策勒县| 郯城县| 中西区| 清远市| 大竹县| 陈巴尔虎旗| 宜春市| 普宁市| 邹城市| 甘南县| 盐城市| 交口县| 麦盖提县| 外汇| 兴宁市| 宝清县| 凌海市|