• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    計(jì)算語(yǔ)言學(xué)中的重要術(shù)語(yǔ)

    2020-07-04 02:22:05陸曉蕾王凡柯
    中國(guó)科技術(shù)語(yǔ) 2020年3期
    關(guān)鍵詞:自然語(yǔ)言處理

    陸曉蕾 王凡柯

    摘 要:過去幾年,自然語(yǔ)言處理(NLP)技術(shù)飛速發(fā)展,文本表征成了計(jì)算語(yǔ)言學(xué)的核心。其中,分布式詞向量表征在語(yǔ)義表達(dá)方面展現(xiàn)出巨大的潛力與應(yīng)用效果。文章從語(yǔ)言學(xué)理論基礎(chǔ)出發(fā),介紹了計(jì)算語(yǔ)言學(xué)的重要術(shù)語(yǔ)——詞向量。探討了詞向量的兩種表示方式:離散式與分布式;介紹了詞向量在語(yǔ)義變遷等歷時(shí)語(yǔ)言學(xué)領(lǐng)域的應(yīng)用。在此基礎(chǔ)上,指出詞向量語(yǔ)義計(jì)算法存在的局限性,并總結(jié)了兩種詞義消歧方法:無(wú)監(jiān)督與基于知識(shí)庫(kù)。最后,文章提出大規(guī)模知識(shí)庫(kù)與詞向量的結(jié)合可能是未來(lái)文本表征研究的重要方向之一。

    關(guān)鍵詞:自然語(yǔ)言處理;文本表征;詞向量

    中圖分類號(hào):H083;TP391.1文獻(xiàn)標(biāo)識(shí)碼:ADOI:10.3969/j.issn.1673-8578.2020.03.004

    Abstract: This article focuses on the study of word embedding, a feature-learning technique in natural language processing that maps words or phrases to low-dimensional vectors. Beginning with the linguistic theories concerning contextual similarities — “distributional hypothesis” and “context of situation”, this article introduces two ways of numerical representation of text: one-hot and distributed representation. In addition, this article presents statistical-based language models (such as co-occurrence matrix and singular value decomposition) as well as neural network language models (NNLM, such as continuous bag-of-words and skip-gram). This article also analyzes how word embedding can be applied to the study of word-sense disambiguation and diachronic linguistics.

    Keywords: natural language processing;text representation;word embedding

    收稿日期:2020-01-02修回日期:2020-05-17

    基金項(xiàng)目:教育部人文社科基金青年項(xiàng)目“‘一帶一路戰(zhàn)略下涉外法律機(jī)器翻譯云平臺(tái)的構(gòu)建及應(yīng)用研究”(18YJCZH117);福建省中青年教師教育科研項(xiàng)目“基于語(yǔ)料庫(kù)的法律英語(yǔ)教學(xué)云平臺(tái)的構(gòu)建”(JZ180061);中央高?;究蒲许?xiàng)目“基于語(yǔ)義模型的機(jī)器翻譯研究”(20720191053)

    作者簡(jiǎn)介:陸曉蕾(1988—),女,博士,廈門大學(xué)助理教授,主要研究方向?yàn)橛?jì)算語(yǔ)言學(xué)。通信方式:luxiaolei@xmu.edu.cn。

    引 言

    隨著人工智能與大數(shù)據(jù)研究的興起,自然語(yǔ)言處理(natural language processing,NLP)作為一門集語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)于一體的跨學(xué)科研究,獲得了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。自然語(yǔ)言處理的前提是文本表示(representation),即如何將人類符號(hào)化的文本轉(zhuǎn)換成計(jì)算機(jī)所能“理解”的表征形式。早期的自然語(yǔ)言表征主要采用離散表示。近年來(lái),隨著深度學(xué)習(xí)的不斷發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的分布式詞向量技術(shù)在對(duì)海量語(yǔ)料進(jìn)行算法訓(xùn)練的基礎(chǔ)上,將符號(hào)化的句詞嵌入到低維的稠密向量空間中,在解析句法與分析語(yǔ)義等方面都顯示出強(qiáng)大的潛力與應(yīng)用效果。

    本文述介了詞向量的概念、訓(xùn)練及應(yīng)用,厘定了這一重要術(shù)語(yǔ),以期為傳統(tǒng)語(yǔ)言學(xué)者了解計(jì)算語(yǔ)言學(xué),使用詞向量進(jìn)行相關(guān)研究提供參考。

    一 詞向量概念:詞的表征

    作為表達(dá)語(yǔ)義的基本單位之一,詞是自然語(yǔ)言處理的主要對(duì)象。詞向量的基本概念便是將人類符號(hào)化的詞進(jìn)行數(shù)值或向量化表征。目前的詞表征方式主要有離散式和分布式兩種。

    1.離散表示(one-hot representation)

    傳統(tǒng)的基于規(guī)則的統(tǒng)計(jì)方法通常將詞用離散的方式表示。這種方法把每個(gè)詞表示為一個(gè)長(zhǎng)向量①,這個(gè)向量的維度由詞表②大小確定,并且該向量中只有一個(gè)維度的值為1,其余維度的值都為0。例如,一個(gè)語(yǔ)料庫(kù)A中有三個(gè)文本,如下:

    文本1: never trouble trouble until trouble troubles you.

    文本2: trouble never sleeps.

    文本3: trouble is a friend.

    那么,該語(yǔ)料庫(kù)的詞表便由[never, trouble, until, you, sleep, is, a, friend]八個(gè)單詞組成。每個(gè)單詞可以分別表示成一個(gè)維度為八的向量,根據(jù)單詞在詞表中所處的位置來(lái)計(jì)算,具體如下:{“never”: [1 0 0 0 0 0 0 0]}、{“trouble”: [0 1 0 0 0 0 0 0]}、……、{“a”: [0 0 0 0 0 0 0 1 0]}、{“friend”: [0 0 0 0 0 0 0 0 1]}??梢园l(fā)現(xiàn),隨著語(yǔ)料庫(kù)的變大,詞表也隨之增大,每個(gè)詞維度也會(huì)不斷變大,每個(gè)詞都將成為被大量0所包圍的1。因此,這種稀疏的表示方式又被形象地稱為“獨(dú)熱表示”。離散表示相互獨(dú)立地表示每個(gè)詞,忽略了詞與詞在句子中的相關(guān)性,這與傳統(tǒng)統(tǒng)計(jì)語(yǔ)言學(xué)中的樸素貝葉斯假設(shè)③不謀而合。然而,越來(lái)越多的實(shí)踐表明,離散表示存在兩大缺陷。首先是“語(yǔ)義鴻溝”現(xiàn)象,由于獨(dú)熱表示假定詞的意義和語(yǔ)法是互相獨(dú)立的,這種獨(dú)立性顯然是不適合詞匯語(yǔ)義的比較運(yùn)算,也不符合基本的語(yǔ)言學(xué)常識(shí),因此,整篇文本中容易出現(xiàn)語(yǔ)義斷層現(xiàn)象。例如我們知道“端午節(jié)”與“粽子”是有聯(lián)系的——端午節(jié)通常應(yīng)該吃粽子。但是這兩個(gè)詞對(duì)應(yīng)的離散向量是正交的,其余弦相關(guān)度為0,表示兩者在相似度上沒有任何關(guān)系。其次是“維度災(zāi)難”,隨著詞表規(guī)模的增加(視語(yǔ)料大小,一般會(huì)達(dá)到十萬(wàn)以上),詞向量的維度也會(huì)隨之變大,向量中的0也會(huì)越來(lái)越多,這種維度的激增會(huì)使得數(shù)據(jù)過于稀疏,計(jì)算量陡增,并對(duì)計(jì)算機(jī)的硬件和運(yùn)算能力提出更高的要求。

    2.分布式表示(distributed representation)

    為解決離散表示的兩大局限性,機(jī)器需要通過分布式表示來(lái)獲得低維度、具有語(yǔ)義表達(dá)能力的詞向量[1-2]。分布式詞向量表征的核心思路是通過大量的上下文語(yǔ)料與算法學(xué)習(xí),使得計(jì)算機(jī)能夠自動(dòng)構(gòu)建上下文與目標(biāo)詞之間的映射關(guān)系。其主要思想是詞與上下文信息可以單獨(dú)構(gòu)成一個(gè)可行的語(yǔ)義向量,這種假設(shè)具有深刻的語(yǔ)言學(xué)理論根源。澤利格·哈里斯(Zellig S. Harris)提出分布假說(shuō)(distributional hypothesis)[3],認(rèn)為分布相似的詞,其語(yǔ)義也相似,這成為早期詞向量表征的理論淵源之一。倫敦學(xué)派奠基人弗斯(John Rupert Firth)繼承并發(fā)揚(yáng)了人類學(xué)家布羅尼斯拉夫·馬林諾夫斯基(Bronislaw Malinowski)的“情景語(yǔ)境”(context of situation)理論,提出語(yǔ)境對(duì)詞義的重要作用[4],為詞向量的分布式表示與語(yǔ)義計(jì)算提供了思想基礎(chǔ)。在分布假說(shuō)與情景理論的基礎(chǔ)上,詞向量通過神經(jīng)網(wǎng)絡(luò)對(duì)上下文,以及上下文和目標(biāo)詞之間的關(guān)系進(jìn)行語(yǔ)言建模,自動(dòng)抽取特征,從而表達(dá)相對(duì)復(fù)雜的語(yǔ)義關(guān)系并進(jìn)行語(yǔ)義計(jì)算。

    分布式表示一般有兩種方法:基于統(tǒng)計(jì)學(xué)和基于神經(jīng)網(wǎng)絡(luò)(詳見后文)。早期,分布式詞向量的獲取主要通過統(tǒng)計(jì)學(xué)算法,包括共現(xiàn)矩陣、奇異值分解等。近年來(lái),隨著深度學(xué)習(xí)技術(shù)的不斷成熟,神經(jīng)網(wǎng)絡(luò)開始被用于訓(xùn)練分布式詞向量,取代了早期的統(tǒng)計(jì)方法。目前分布式詞向量通常特指基于神經(jīng)網(wǎng)絡(luò)獲取的低維度詞向量。分布式表示通過統(tǒng)計(jì)或神經(jīng)網(wǎng)絡(luò)的方法構(gòu)建語(yǔ)言模型并獲取詞向量,具體方法為利用詞和上下文的關(guān)系,通過算法將原本離散式的詞向量嵌入到一個(gè)低維度的連續(xù)向量空間中,最終把詞表達(dá)成一個(gè)固定長(zhǎng)度④的短向量。因此,這種表示方法也被稱為“詞嵌入”(word embedding)。此外,根據(jù)分布假設(shè),詞嵌入利用上下文與目標(biāo)詞的聯(lián)合訓(xùn)練,可以獲取詞語(yǔ)的某種語(yǔ)義表達(dá)。例如,通過Python程序引入Word2Vec包并加載訓(xùn)練好的60維詞向量模型,獲得的詞嵌入的形式如下:

    二 詞向量訓(xùn)練:基于統(tǒng)計(jì)與神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型

    訓(xùn)練詞向量時(shí),一般會(huì)使用不同類別的語(yǔ)言模型。訓(xùn)練詞向量的語(yǔ)言模型主要有兩種:基于統(tǒng)計(jì)的語(yǔ)言模型和基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型。

    1.基于統(tǒng)計(jì)的語(yǔ)言模型

    (1)共現(xiàn)矩陣(co-occurrence matrix)

    與離散表示不同,共現(xiàn)矩陣通過統(tǒng)計(jì)詞表中單詞共同出現(xiàn)的次數(shù),以單詞周圍(可以設(shè)置上下文窗口大?。┏霈F(xiàn)的詞頻作為目標(biāo)詞的向量表示。表1是語(yǔ)料庫(kù)A的共現(xiàn)矩陣單詞統(tǒng)計(jì)結(jié)果,上下文窗口長(zhǎng)度取2,共現(xiàn)詞匯為(never,trouble)、(trouble,trouble)、(trouble,until)……,以此類推。

    可以發(fā)現(xiàn):never與trouble共同出現(xiàn)的頻次為

    2,與until共同出現(xiàn)的頻次為0;這樣,經(jīng)過統(tǒng)計(jì)語(yǔ)料庫(kù)A中的所有文本單詞,“never”的詞向量可以表示為[0 2 0 0 0 0 0 0],以此類推,“trouble”可以表示為[2 2 2 1 0 1 0 0]。我們可以發(fā)現(xiàn),基于詞頻統(tǒng)計(jì)結(jié)果的共現(xiàn)矩陣沒有忽視語(yǔ)義關(guān)系,這在一定程度上緩和了“語(yǔ)義鴻溝”的問題,但是由于共現(xiàn)矩陣的維數(shù)等于詞表的詞匯總數(shù),因此,矩陣依然十分稀疏,“維度災(zāi)難”和計(jì)算量大的問題仍然存在。

    (2) 奇異值分解(singular value decomposition, SVD)

    共現(xiàn)矩陣的“維度災(zāi)難”與數(shù)據(jù)稀疏等問題,可以通過降低向量維度來(lái)解決,即通過算法將共現(xiàn)矩陣降成低維度的稠密(dense)矩陣。奇異值分解是目前使用最為廣泛的一種矩陣分解方法,可以將多維的復(fù)雜矩陣M分解成矩陣U、Σ、VT的乘積,如M=UΣVT。根據(jù)奇異值的大小截取矩陣U后獲取U′作為降維矩陣,再經(jīng)過歸一化后得到詞語(yǔ)的詞向量。共現(xiàn)矩陣經(jīng)過奇異值分解后變?yōu)榈途S度的稠密矩陣,該矩陣可使得語(yǔ)義相近的詞在向量空間上相近,有時(shí)甚至能夠反映詞與詞之間的線性關(guān)系。然而,奇異值分解算法基于簡(jiǎn)單的矩陣變換,可解釋性不強(qiáng);同時(shí),由于截?cái)嗖僮?,向量表示可能?huì)丟失一些重要信息;另外,奇異值分解算法的計(jì)算量隨語(yǔ)料庫(kù)與詞典的增長(zhǎng)而急劇擴(kuò)展,新加入的詞會(huì)導(dǎo)致統(tǒng)計(jì)結(jié)果發(fā)生變化,矩陣必須重新統(tǒng)計(jì)和計(jì)算。

    2.基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型

    傳統(tǒng)的詞向量模型主要基于統(tǒng)計(jì)學(xué),由于近年來(lái)人工智能的快速發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型愈加成熟。Xu和Alex最早利用神經(jīng)網(wǎng)絡(luò)構(gòu)建二元(bigram⑤)語(yǔ)言模型的方法訓(xùn)練詞向量[6]。Bengio等提出了一種三層神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型[2]。該模型不需要人工標(biāo)注語(yǔ)料,主要根據(jù)上文語(yǔ)境預(yù)測(cè)下一個(gè)詞,能夠從單語(yǔ)語(yǔ)料庫(kù)中自動(dòng)獲取豐富的語(yǔ)義信息。該模型的提出為著名的Word2Vec的誕生提供了堅(jiān)實(shí)的算法理論基礎(chǔ)。

    Word2Vec是一款開源詞向量工具包[7],該工具包在算法理論上參考了Bengio設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)模型,在處理大規(guī)模、超大規(guī)模的語(yǔ)料時(shí),可以簡(jiǎn)單并且高效地獲取高精度的詞向量,在學(xué)術(shù)界和業(yè)界都獲得了廣泛的關(guān)注。Word2vec的實(shí)現(xiàn)主要有連續(xù)詞袋模型(continuous bag-of-words,CBOW)和跳躍元語(yǔ)法模型(skip-gram)兩種算法(圖1)。

    (1) 連續(xù)詞袋模型(continuous bag-of-words,CBOW)

    連續(xù)詞袋模型的核心思想是利用目標(biāo)詞的上下文來(lái)預(yù)測(cè)目標(biāo)詞出現(xiàn)的概率。該模型主要通過將文本視為一個(gè)詞集合來(lái)訓(xùn)練語(yǔ)言模型,在運(yùn)算過程中,主要考慮目標(biāo)詞周圍出現(xiàn)的單詞,忽略其詞序和語(yǔ)法。因其思路類似將文字裝入袋子中,這種模型也被稱為“詞袋模型”[3]。連續(xù)詞袋模型運(yùn)算/運(yùn)行的具體步驟為:將目標(biāo)詞的上下文若干個(gè)詞對(duì)應(yīng)的離散詞向量輸入模型,輸出詞表中所有詞出現(xiàn)的概率,再通過哈夫曼樹⑥查找目標(biāo)詞并通過BP算法⑦更新網(wǎng)絡(luò)參數(shù)使輸出為目標(biāo)詞的概率最大化,最終將神經(jīng)網(wǎng)絡(luò)中的參數(shù)作為目標(biāo)詞的詞向量。如圖1(a)所示,輸入為he、walked、the、bank四個(gè)詞的離散詞向量,輸出為目標(biāo)詞to的詞向量。為了使得輸出為to的概率最大,連續(xù)詞袋模型通過BP算法不斷更新神經(jīng)網(wǎng)絡(luò)參數(shù)Θ1和Θ2。經(jīng)過多次迭代運(yùn)算后,模型最終收斂并將運(yùn)算參數(shù)(Θ1)作為單詞“to”的理想詞向量。

    (2) 跳躍元語(yǔ)法模型(skip-gram)

    跳躍元語(yǔ)法模型和詞袋模型的思路相反:利用特定詞語(yǔ)來(lái)預(yù)測(cè)其上下文。該模型接受指定詞的離散詞向量,輸出該詞所對(duì)應(yīng)的上下文詞向量,并且通過BP算法更新網(wǎng)絡(luò)參數(shù)。如圖1(b)所示,輸入為特定詞to的離散向量,輸出為其上下文he、walked、the、bank四個(gè)詞的離散向量。同樣,為了實(shí)現(xiàn)模型輸出這四個(gè)詞的(即目標(biāo)詞的上下文)概率最大化,skip-gram通過BP算法更新Θ1和Θ2,并在多次迭代運(yùn)算后,模型最終收斂并將獲得運(yùn)算參數(shù)(Θ1)作為單詞“to”的理想詞向量。

    三 詞向量應(yīng)用:語(yǔ)義計(jì)算、消歧與變遷

    1. 語(yǔ)義計(jì)算和語(yǔ)義消歧

    基于詞的分布式表征以及連續(xù)詞袋模型/跳躍元語(yǔ)法模型等神經(jīng)網(wǎng)絡(luò)模型得出的詞向量,可以用于語(yǔ)義計(jì)算和語(yǔ)義消歧。傳統(tǒng)語(yǔ)義計(jì)算和語(yǔ)義消歧主要采用語(yǔ)法結(jié)構(gòu)分析和人工標(biāo)注等消歧方法,過程復(fù)雜,人工量大。詞向量技術(shù)主要通過計(jì)算機(jī)自主學(xué)習(xí)來(lái)達(dá)到消歧目的,大幅度減少了人工的投入。

    (1)語(yǔ)義(相關(guān)度)計(jì)算

    語(yǔ)義計(jì)算,即詞語(yǔ)間的距離計(jì)算,主要用于反映語(yǔ)義相關(guān)度。語(yǔ)料經(jīng)過神經(jīng)網(wǎng)絡(luò)模型運(yùn)算向量化后,構(gòu)成了可計(jì)算的多維向量空間。每個(gè)詞在該空間內(nèi)都可以表示為多維度的向量。語(yǔ)義計(jì)算主要的方法有兩種:①通過語(yǔ)義詞典(如著名的WordNet和HowNet等),把有關(guān)詞語(yǔ)的概念或意義組織在一個(gè)基于語(yǔ)義的樹形結(jié)構(gòu)中,通過計(jì)算其節(jié)點(diǎn)(詞)間的距離來(lái)反映語(yǔ)義的遠(yuǎn)近;②通過提取詞語(yǔ)上下文信息,運(yùn)用統(tǒng)計(jì)的方法進(jìn)行自動(dòng)計(jì)算?;谠~向量空間模型的語(yǔ)義計(jì)算屬于后者。其中,利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練的詞向量技術(shù)將文本表示為低維空間向量,通過計(jì)算向量夾角(如余弦相似度)的方式來(lái)獲取詞語(yǔ)的語(yǔ)義相關(guān)度。相似度取值一般為0~1。

    表2是基于跳躍元語(yǔ)法模型獲取的與“語(yǔ)言學(xué)”相近的詞,通過引入Word2Vec包,加載預(yù)訓(xùn)練的60維詞向量模型,獲得的結(jié)果按照語(yǔ)義相關(guān)度大小排序如下:

    通過跳躍元語(yǔ)法模型訓(xùn)練出詞向量后,通過類似聚類的相關(guān)度計(jì)算,可以快速(毫秒級(jí))獲取與指定詞匯語(yǔ)義相關(guān)的詞匯。結(jié)果顯示,“語(yǔ)言文學(xué)”“語(yǔ)義學(xué)”等與“語(yǔ)言學(xué)”的相關(guān)度較高,在空間位置上較為接近;“竺可楨”“分配律”等與“語(yǔ)言學(xué)”的相關(guān)度較低。這類語(yǔ)義計(jì)算對(duì)于語(yǔ)義聚類以及語(yǔ)義挖掘有一定的價(jià)值。值得注意的是,分布式詞向量技術(shù)對(duì)語(yǔ)料的依賴程度較高,因此,需要精選語(yǔ)料進(jìn)行大規(guī)模學(xué)習(xí)以實(shí)現(xiàn)偏差最小化。

    通過計(jì)算向量相關(guān)度,基于詞向量的自然語(yǔ)言處理技術(shù)能夠從海量的語(yǔ)料中快速獲取詞語(yǔ)語(yǔ)義的相對(duì)位置,并查找出與之相似的詞。多維的詞向量經(jīng)過降維后,可以在二維平面上清晰地看出語(yǔ)義關(guān)系。例如,圖2中,在詞匯關(guān)系類比中,king與man之間的距離和queen與woman之間的相對(duì)位置非常接近。在句法類比中,slow-slower-slowest三詞之間的相對(duì)距離和fast-faster-fastest以及l(fā)ong-longer-longest等的相對(duì)位置也十分相似。

    以上可以發(fā)現(xiàn)詞向量在語(yǔ)義相關(guān)度計(jì)算與句法分析上可以做到定量分析與可視化,這對(duì)語(yǔ)義挖掘具有十分重要的應(yīng)用價(jià)值。

    (2)語(yǔ)義消歧

    詞向量技術(shù)雖然可以表征語(yǔ)義,然而在面對(duì)多義詞的時(shí)候,單個(gè)向量很難表達(dá)詞語(yǔ)的多個(gè)意義,依然存在詞義模糊以及“多義消失”(meaning conflation)等問題。因此,在使用詞向量時(shí),需要考慮歧義對(duì)結(jié)果的影響。傳統(tǒng)的語(yǔ)義消歧主要通過語(yǔ)法結(jié)構(gòu)[9],建立特定領(lǐng)域的語(yǔ)義庫(kù)以減少語(yǔ)義數(shù)[10],通過人工標(biāo)注的語(yǔ)料學(xué)習(xí)消歧規(guī)則建立詞匯專家系統(tǒng)[11]等,大多依賴人工建立的語(yǔ)義網(wǎng)絡(luò)與語(yǔ)義角色。在深度學(xué)習(xí)領(lǐng)域,消歧主要根據(jù)目標(biāo)詞的上下文信息來(lái)進(jìn)行。目前,語(yǔ)義消歧方法基本上可以分為兩類:無(wú)監(jiān)督式和基于知識(shí)庫(kù)的方式。無(wú)監(jiān)督的方式直接從文本語(yǔ)料中學(xué)習(xí)意義,而基于知識(shí)庫(kù)的方式則在計(jì)算機(jī)深度學(xué)習(xí)的基礎(chǔ)上,利用人類專家制作的外部語(yǔ)言知識(shí)庫(kù)作為意義來(lái)源,將機(jī)器學(xué)習(xí)與專家知識(shí)相結(jié)合。前者可解釋性較差,后者融合專家歸納整理的知識(shí)庫(kù),解釋性較好,但也因受限于知識(shí)庫(kù),對(duì)知識(shí)庫(kù)以外的詞匯和意義泛化性不足。

    1) 無(wú)監(jiān)督消歧

    無(wú)監(jiān)督的方式主要有語(yǔ)境聚類式[12]、混合式[13]和語(yǔ)篇主題嵌入式[14]等方法。語(yǔ)境聚類式(clustering-based)消歧的主要思想是通過收集單詞出現(xiàn)的語(yǔ)境,利用聚類算法對(duì)其詞義進(jìn)行自動(dòng)分類。混合式(joint-training)消歧主要通過在訓(xùn)練的過程中加入詞義比對(duì)更新模式,自動(dòng)生成詞義組來(lái)實(shí)現(xiàn)。語(yǔ)篇主題嵌入式主要通過在局部信息(local context)的基礎(chǔ)上引入全局信息(global context)來(lái)實(shí)現(xiàn)消歧。相對(duì)而言,語(yǔ)篇主題嵌入的方法能夠獲得更為精準(zhǔn)的語(yǔ)義消歧效果。

    在詞向量訓(xùn)練過程中,一般不考慮整個(gè)篇章,僅利用句子上下文幾個(gè)窗口的詞提供的信息來(lái)訓(xùn)練模型。然而,有些具有歧義的詞義無(wú)法僅憑單句上下文幾個(gè)詞的信息來(lái)判斷。如圖3的英文句子“he walks to the bank”中,bank可以被理解為“銀行”或者“河岸”。此時(shí),語(yǔ)篇主題嵌入式消歧會(huì)在詞向量訓(xùn)練中加入全局信息和“多種詞義原型”(multiple word prototypes),具體如下:

    第一,全局信息模型將整個(gè)篇章的詞向量做加權(quán)平均(weighted average,權(quán)重是tf-idf)計(jì)算后作為全局語(yǔ)義向量(global semantic vector),再和正常訓(xùn)練的局部語(yǔ)義向量相加,這樣訓(xùn)練出來(lái)的加強(qiáng)型詞向量能更好地捕捉語(yǔ)義信息。例如,篇章里出現(xiàn)的諸如river、play、shore、water等詞,可以使得當(dāng)前bank的語(yǔ)義為“河岸”的概率大大提升。

    第二,使用多個(gè)詞向量代表多義詞。通過對(duì)上下文的詞向量進(jìn)行加權(quán)平均(代表目標(biāo)詞語(yǔ)義)后進(jìn)行K均值聚類,根據(jù)聚類結(jié)果作為目標(biāo)詞的意義類別,如bank1、bank2和bank3。顯然,這種方式將詞根據(jù)語(yǔ)義的不同來(lái)分別訓(xùn)練詞向量,在某種程度上突破了多義消失的問題。然而,調(diào)查發(fā)現(xiàn)這種方法的效果強(qiáng)烈依賴于聚類算法的可靠性,也不可避免地存在誤差。

    2) 基于知識(shí)的方法

    所謂基于知識(shí)的方法,即在詞向量的訓(xùn)練過程中,加入其他結(jié)構(gòu)化的知識(shí)作為監(jiān)督。隨著以WordNet與HowNet為代表的語(yǔ)言知識(shí)庫(kù)的不斷完善,基于其網(wǎng)絡(luò)結(jié)構(gòu)的圖模型方法也逐漸用于語(yǔ)義消歧中。監(jiān)督學(xué)習(xí)借助有標(biāo)注的訓(xùn)練語(yǔ)料,在特定領(lǐng)域已經(jīng)獲得了較好的消歧性能。

    Yu等在訓(xùn)練連續(xù)詞袋模型的同時(shí),引入PPDB數(shù)據(jù)庫(kù)⑧和WordNet等外部知識(shí),抽取語(yǔ)義相似詞對(duì)作為約束條件,使得對(duì)應(yīng)的詞向量能夠?qū)W習(xí)到這些詞義相似的信息[15]。Bian等在連續(xù)詞袋模型中加入詞的形態(tài)、句法和語(yǔ)義信息[16]。Nguyen等在跳躍元語(yǔ)法模型基礎(chǔ)上加入詞匯對(duì)比信息共同訓(xùn)練,使得訓(xùn)練得到的詞向量能有效識(shí)別同義詞和反義詞[17]。Niu等將HowNet知識(shí)融入詞向量連續(xù)詞袋模型與跳躍元語(yǔ)法模型中,訓(xùn)練詞義的最基本粒度——義原(sememe)⑨,在訓(xùn)練過程中加入上下文–單詞–意義–義原的聯(lián)合訓(xùn)練,有效地提升詞向量表達(dá)多義詞的效果[18]。

    以上,無(wú)監(jiān)督消歧單純依靠語(yǔ)料挖掘意義,極大地減少了人工的投入,而基于知識(shí)的方式則引入了外部語(yǔ)料知識(shí),有效地克服了因缺乏足夠信息導(dǎo)致的語(yǔ)義不完整等困難。

    2. 語(yǔ)義變遷

    詞匯作為語(yǔ)言的基本單位,其語(yǔ)義變遷是研究語(yǔ)言模型和反映社會(huì)歷史文化演變的重要手段。傳統(tǒng)的語(yǔ)義變遷研究主要通過從歷史文本中搜索目標(biāo)詞,統(tǒng)計(jì)詞匯的使用頻次,根據(jù)語(yǔ)言和歷史知識(shí)對(duì)其進(jìn)行人工描述。Michel等利用Google Books五百多萬(wàn)種出版物,建立語(yǔ)料庫(kù),通過詞頻統(tǒng)計(jì)研究人類文化的演變與特點(diǎn)[19]。Bamman等則通過觀測(cè)與目標(biāo)詞匯共現(xiàn)的其他詞匯的頻度變化來(lái)間接地探索詞匯語(yǔ)義變化[20]。Mihalcea等通過收集19—21世紀(jì)特定術(shù)語(yǔ)的使用變化來(lái)考察社會(huì)現(xiàn)象[21]。以上工作大多通過搜索和統(tǒng)計(jì)的方法,從海量的文獻(xiàn)中捕捉到了各個(gè)歷史時(shí)期的詞匯語(yǔ)義,費(fèi)時(shí)費(fèi)力,且難以直觀獲取語(yǔ)義內(nèi)涵。而詞向量表征將文本轉(zhuǎn)換為空間向量,用向量的夾角代表其語(yǔ)義相似度,能夠定量地從海量歷時(shí)文本中獲取語(yǔ)義相近的詞。通過研究詞匯的語(yǔ)義相近詞,能夠比較直觀地看出語(yǔ)義的歷時(shí)變化。

    劉知遠(yuǎn)等基于1950—2003年的《人民日?qǐng)?bào)》文本訓(xùn)練詞向量模型,對(duì)詞匯語(yǔ)義變化進(jìn)行了定量觀測(cè),探究了詞匯變化反映出來(lái)的社會(huì)變遷[22]。Hamilton等在多語(yǔ)言大規(guī)模語(yǔ)料庫(kù)的基礎(chǔ)上,利用Word2Vec的跳躍元語(yǔ)法模型建立歷時(shí)詞向量空間來(lái)揭示語(yǔ)義變遷規(guī)律[23]。如圖4a中,gay在20世紀(jì)初與tasteful、cheerful等詞匯在空間位置上較為接近,到了20世紀(jì)中葉,gay與witty、bright等詞的語(yǔ)義相關(guān)度高。到了20世紀(jì)末,gay與lesbian與homosexual等詞在語(yǔ)義計(jì)算上結(jié)果相近。圖4b顯示,隨著報(bào)紙、電視、廣播、網(wǎng)絡(luò)等多種媒體的興起,broadcast的相似詞也從19世紀(jì)中期的seed、sow等,逐漸演變?yōu)閚ewspapers、television、radio、bbc等。圖4c揭示了awful的語(yǔ)義從19世紀(jì)中期的solemn逐漸向terrible、appalling等演變的過程。Hamilton等通過動(dòng)態(tài)建模,將靜態(tài)的詞向量擴(kuò)展到動(dòng)態(tài)的時(shí)間序列場(chǎng)景中,定量地觀測(cè)與剖析了語(yǔ)義更迭與社會(huì)文化的變遷[23]。

    四 結(jié) 語(yǔ)

    本文深入探討了計(jì)算語(yǔ)言學(xué)中的重要術(shù)語(yǔ)——詞向量在表達(dá)語(yǔ)義方面的表現(xiàn),介紹了兩種詞向量表達(dá)的形式以及獲取方式,證明了詞向量技術(shù)為語(yǔ)義消歧與語(yǔ)義變遷等研究提供了定量手段,在語(yǔ)義表達(dá)方面顯示出強(qiáng)大的潛力與應(yīng)用效果。

    分布式詞向量模型是基于海量語(yǔ)料的監(jiān)督學(xué)習(xí),充分利用語(yǔ)料庫(kù)中詞的上下文相關(guān)信息,通過神經(jīng)網(wǎng)絡(luò)優(yōu)化訓(xùn)練語(yǔ)言模型,在此過程中獲得詞語(yǔ)的向量化形式。這種向量化的分布式表征以“情景語(yǔ)境”為理論基礎(chǔ),通過向量間的夾角余弦相似度來(lái)度量詞匯的相似度。但是,我們也發(fā)現(xiàn)現(xiàn)階段的詞向量?jī)H僅從海量的語(yǔ)料庫(kù)中學(xué)習(xí)到部分語(yǔ)義表達(dá),在其歧義性和不常用詞的弱表達(dá)上尚不盡人意,單從海量數(shù)據(jù)中學(xué)到的語(yǔ)義表達(dá)還是存在偏差。另外,詞向量對(duì)于訓(xùn)練語(yǔ)料庫(kù)中未出現(xiàn)的詞也很難去表達(dá)其語(yǔ)義。針對(duì)這種情況,本文認(rèn)為在文本以外,應(yīng)該引入更加強(qiáng)大的人類專家知識(shí)庫(kù)的支持,獲取更加強(qiáng)大的語(yǔ)義表達(dá)。為此,詞向量的研究,乃至整個(gè)自然語(yǔ)言處理系統(tǒng)需要探索數(shù)據(jù)與知識(shí)共同驅(qū)動(dòng)的方法,不斷完善語(yǔ)義表征算法,擴(kuò)充與優(yōu)化語(yǔ)言專家知識(shí)體系。

    注釋

    ① 這里的長(zhǎng)向量是維度較大的向量。在數(shù)學(xué)中,向量指具有大小和方向的量。它可以形象化地表示為帶箭頭的線段,空間數(shù)學(xué)可表達(dá)為[數(shù)值1,數(shù)值2,…,數(shù)值n]。

    ② 語(yǔ)料庫(kù)中的所有詞構(gòu)成一個(gè)詞表。

    ③ 樸素貝葉斯假設(shè)文本屬性之間是相互獨(dú)立的。

    ④ 一般為60/150/300維。

    ⑤ gram:粒度、元。N-gram表示多元,是計(jì)算機(jī)語(yǔ)言學(xué)和概率論領(lǐng)域內(nèi)的概念,是指給定的一段文本中多個(gè)連續(xù)單位的序列。N可以是任意正整數(shù),如unigram(N=1),bigram(N=2),trigram(N=3),以此類推。

    ⑥ 哈夫曼樹,又稱“最優(yōu)樹”,是一種數(shù)據(jù)壓縮與查找算法。

    ⑦ BP(back propagation)算法,即反向傳播算法,通過結(jié)果誤差的反向傳播來(lái)更新神經(jīng)網(wǎng)絡(luò)參數(shù),是深度學(xué)習(xí)的核心算法。

    ⑧ PPDB為一種基于農(nóng)藥特性的專業(yè)數(shù)據(jù)庫(kù)。

    ⑨ 義原在語(yǔ)言學(xué)中是指最小的不可再分的語(yǔ)義單位,知網(wǎng)(HowNet)是最著名的義原知識(shí)庫(kù)。

    參考文獻(xiàn)

    [1] Hinton G E. Learning Distributed Representations of Concepts[C/OL]. [2020-05-17].http://www.cs.toronto.edu/~hinton/absps/families.pdf.

    [2] Bengio Y, Ducharme R, Vincent P, et al. A Neural Probabilistic Language Model[J]. Journal of Machine Learning Research, 2003, 3: 1137-1155.

    [3] Harris Z S. Distributional Structure[J]. Word, 1954, 10(2-3): 146-162.

    [4] Firth J R. A Synopsis of Linguistic Theory, 1930—1955[J]. Studies in Linguistic Analysis, 1957,168-205.

    [5] Li S, Zhao Z, Hu R, et al. Analogical reasoning on Chinese morphological and semantic relations[C/OL]. [2020-05-17].https://arxiv.org/pdf/1805.06504.pdf.

    [6] Xu W, Rudnicky A. Can Artificial Neural Networks Learn Language Models?[C/OL]. [2020-05-17].https://kilthub.cmu.edu/articles/Can_Artificial_Neural_Networks_Learn_Language_Models_/6604016/files/12094409.pdf.

    [7] Mikolov T, Sutskever I, Chen K, et al. Distributed Representations of Words and Phrases and Their Compositionality[C/OL]. [2020-05-17].https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf.

    [8] Akhtar S S. Robust Representation Learning for Low Resource Languages[M]. INDIA: International Institute of Information Technology, 2018.

    [9] Reifler E. The Mechanical Determination of Meaning[J]. Readings in Machine Translation, 1955: 21-36.

    [10] Weaver W. Translation[J]. Machine Translation of Languages, 1955, 14: 15-23.

    [11] Weiss S F. Learning to disambiguate[J]. Information Storage and Retrieval, 1973, 9(1): 33-41.

    [12] Liu P, Qiu X, Huang X. Learning Context-sensitive Word Embeddings with Neural Tensor Skip-gram Model[C/OL]. [2020-05-17].https://www.aaai.org/ocs/index.php/IJCAI/IJCAI15/paper/viewFile/11398/10841.

    [13] Li J, Jurafsky D. Do Multi-sense Embeddings Improve Natural Language Understanding?[C/OL]. [2020-05-17]. https://arxiv.org/pdf/1506.01070.

    [14] Huang E H, Socher R, Manning C D, et al. Improving Word Representations Via Global Context and Multiple Word Prototypes [C/OL]. [2020-05-17].https://dl.acm.org/doi/pdf/10.5555/2390524.2390645?download=true.

    [15] Yu M, Dredze M. Improving Lexical Embeddings with Semantic Knowledge[C/OL]. [2020-05-17].https://www.aclweb.org/anthology/P14-2089.pdf.

    [16] Bian J, Gao B, Liu T Y. Knowledge-powered Deep Learning for Word Embedding[C/OL]. [2020-05-17].https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/5BECML20145D20Knowledge-Powered20Word20Embedding.pdf.

    [17] Nguyen K A, Walde S S, Vu N T. Integrating Distributional Lexical Contrast into Word Embeddings for Antonym-synonym Distinction [C/OL]. [2020-05-17].https://arxiv.org/pdf/1605.07766.pdf.

    [18] Niu Y, Xie R, Liu Z, et al. Improved Word Representation Learning with Sememes[C/OL]. [2020-05-17].https://www.aclweb.org/anthology/P17-1187.pdf.

    [19] Michel J B, Shen Y K, Aiden A P, et al. Quantitative Analysis of Culture Using Millions of Digitized Books[J]. Science, 2011, 331(6014): 176-182.

    [20] Bamman D, Crane G. Measuring Historical Word Sense Variation[C/OL]. [2020-05-17].https://dl.acm.org/doi/pdf/10.1145/1998076.1998078.

    [21] Mihalcea R, Nastase V. Word Epoch Disambiguation: Finding How Words Change Over Time[C/OL]. [2020-05-17].https://www.aclweb.org/anthology/P12-2051.pdf.

    [22] 劉知遠(yuǎn),劉揚(yáng),涂存超,等.詞匯語(yǔ)義變化與社會(huì)變遷定量觀測(cè)與分析[J].語(yǔ)言戰(zhàn)略研究,2016,1(6): 47-54.

    [23] Hamilton W L, Leskovec J, Jurafsky D. Diachronic Word Embeddings Reveal Statistical Laws of Semantic Change[C/OL]. [2020-05-17].https://arxiv.org/pdf/1605.09096.pdf.

    猜你喜歡
    自然語(yǔ)言處理
    基于LSTM自動(dòng)編碼機(jī)的短文本聚類方法
    自然語(yǔ)言處理與司法案例
    國(guó)外基于知識(shí)庫(kù)的問答系統(tǒng)相關(guān)研究進(jìn)展及其啟示
    基于依存句法的實(shí)體關(guān)系抽取
    基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
    面向機(jī)器人導(dǎo)航的漢語(yǔ)路徑自然語(yǔ)言組塊分析方法研究
    詞向量的語(yǔ)義學(xué)規(guī)范化
    漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
    HowNet在自然語(yǔ)言處理領(lǐng)域的研究現(xiàn)狀與分析
    科技視界(2016年5期)2016-02-22 11:41:39
    基于.NET的維哈柯多語(yǔ)種網(wǎng)上數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
    宁南县| 呼图壁县| 定陶县| 白沙| 铜山县| 琼海市| 玉树县| 秀山| 崇义县| 邵武市| 荥阳市| 常德市| 咸阳市| 二连浩特市| 镇雄县| 远安县| 上林县| 正蓝旗| 曲沃县| 富川| 汽车| 深泽县| 资源县| 隆昌县| 民权县| 农安县| 新巴尔虎右旗| 永昌县| 敖汉旗| 奎屯市| 进贤县| 兰西县| 新丰县| 普兰店市| 仁化县| 湛江市| 息烽县| 平原县| 成武县| 霍邱县| 四川省|