陳培,景麗萍
(北京交通大學 交通數(shù)據(jù)分析與挖掘北京市重點實驗室,北京 100044)
融合語義信息的矩陣分解詞向量學習模型
陳培,景麗萍
(北京交通大學 交通數(shù)據(jù)分析與挖掘北京市重點實驗室,北京 100044)
詞向量在自然語言處理中起著重要的作用,近年來受到越來越多研究者的關(guān)注。然而,傳統(tǒng)詞向量學習方法往往依賴于大量未經(jīng)標注的文本語料庫,卻忽略了單詞的語義信息如單詞間的語義關(guān)系。為了充分利用已有領(lǐng)域知識庫(包含豐富的詞語義信息),文中提出一種融合語義信息的詞向量學習方法(KbEMF),該方法在矩陣分解學習詞向量的模型上加入領(lǐng)域知識約束項,使得擁有強語義關(guān)系的詞對獲得的詞向量相對近似。在實際數(shù)據(jù)上進行的單詞類比推理任務(wù)和單詞相似度量任務(wù)結(jié)果表明,KbEMF比已有模型具有明顯的性能提升。
自然語言處理;詞向量;矩陣分解;語義信息;知識庫
詞向量是單詞在實數(shù)空間所表示的一個低維連續(xù)向量,它能夠同時捕獲單詞的語義信息和語法信息。近年來,詞向量已被廣泛地應(yīng)用于各種各樣的自然語言處理任務(wù)中[1-5],如命名實體識別、情感分析、機器翻譯等。在處理上述任務(wù)的過程中通常需要用到更大單位級別(如短語、句子、段落、篇章)的向量表示,這些向量則可以由詞向量組合獲得。因此學習優(yōu)質(zhì)的詞向量非常重要。
現(xiàn)有的詞向量學習方法是利用單詞的上下文信息預測該單詞含義,并且使上下文信息相似的單詞含義也相似,因此對應(yīng)的詞向量在空間距離上更靠近?,F(xiàn)有的詞向量學習方法大致可以分為基于神經(jīng)網(wǎng)絡(luò)學習詞向量和基于矩陣分解學習詞向量。基于神經(jīng)網(wǎng)絡(luò)學習詞向量是根據(jù)上下文與目標單詞之間的關(guān)系建立語言模型,通過訓練語言模型獲得詞向量[6-12]。但有效詞向量的獲取是建立在訓練大規(guī)模文本語料庫的基礎(chǔ)上,這無疑使計算成本很高。近年來提出的 CBOW和skip-gram模型[11]去除了神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中非線性隱層,使算法復雜度大大降低,并且也獲得了高效的詞向量。CBOW根據(jù)上下文預測目標單詞,skip-gram根據(jù)目標單詞預測上下文單詞。基于矩陣分解的詞向量學習模型[13-15]是通過分解從文本語料庫中提取的矩陣(如共現(xiàn)矩陣或由共現(xiàn)矩陣生成的PMI矩陣)得到低維連續(xù)的詞向量,并且文獻[13]和文獻[14]證明了矩陣分解的詞向量學習模型與skip-gram完全等價。
上述模型學習的詞向量已被有效地應(yīng)用于自然語言處理任務(wù)中,然而這些模型在學習詞向量的過程中僅使用了文本語料庫信息,卻忽略了單詞間的語義信息。一旦遇到下列情形很難保證所得詞向量的質(zhì)量:1)含義不同甚至完全相反的單詞(good/bad)往往出現(xiàn)在相似的上下文中,那么它們的詞向量必然十分相似,這明顯與現(xiàn)實世界相悖;2)對于兩個含義相似的單詞,其中一個出現(xiàn)在語料庫中的次數(shù)極少,另外一個卻頻繁出現(xiàn),或者它們出現(xiàn)在不同的上下文中,那么最終它們學得的詞向量會有很大差別;3)大量上下文噪音的存在使學得的詞向量不能準確反映出單詞間的真實關(guān)系,甚至會誤導整個詞向量的訓練過程。
為解決上述問題,本文考慮從領(lǐng)域知識庫提取語義信息并融入到詞向量學習的過程中。這會給詞向量的學習帶來下列優(yōu)勢。
首先,知識庫明確定義了單詞的語義關(guān)系(knife/fork都屬于餐具,animal/dog具有范疇包含關(guān)系等),引入這些語義關(guān)系約束詞向量的學習,使學到的詞向量具有更準確的關(guān)系。另外,相似單詞出現(xiàn)在不同的上下文中或者出現(xiàn)頻次存在較大差異帶來的詞向量偏差問題,都可以通過知識庫豐富的語義信息予以修正。再者,知識庫是各領(lǐng)域的權(quán)威專家構(gòu)建的,具有更高的可靠性。因此,引入語義信息約束詞向量的學習是很有必要的。
目前融合語義信息學習詞向量已有一些研究成果。Bian 等[16]利用單詞結(jié)構(gòu)信息、語法信息及語義信息學習詞向量,并取得了良好的效果。Xu等[17]分別給取自于知識庫的兩類知識信息(R-NET和C-NET)建立正則約束函數(shù),并將它們與skip-gram模型聯(lián)合學習詞向量,提出了RC-NET模型。Yu 等[18]將單詞間的語義相似信息融入到CBOW的學習過程中,提出了高質(zhì)量的詞向量聯(lián)合學習模型RCM。Liu 等[19]通過在訓練skip-gram模型過程中加入單詞相似性排序信息約束詞向量學習,提出了SWE模型,該模型通過單詞間的3種語義關(guān)系,即近反義關(guān)系、上下位關(guān)系及類別關(guān)系獲取單詞相似性排序信息。Faruqui 等[20]采用后處理的方式調(diào)整已經(jīng)預先訓練好的詞向量,提出了Retro模型,該模型可以利用任意知識庫信息調(diào)整由任意詞向量模型訓練好的詞向量,而無需重新訓練詞向量。
以上研究都是通過拓展神經(jīng)網(wǎng)絡(luò)詞向量學習模型構(gòu)建的。與之不同,本文提出的KbEMF模型是基于矩陣分解學習詞向量。該模型以Li 等[13]提出的EMF模型為框架加入領(lǐng)域知識約束項,使具有較強語義關(guān)系的詞對學習到的詞向量在實數(shù)空間中的距離更近,也就是更加近似。與Faruqui 等采用后處理方式調(diào)整訓練好的詞向量方式不同,KbEMF是一個同時利用語料庫和知識庫學習詞向量的聯(lián)合模型,并且在單詞類比推理和單詞相似度量兩個實驗任務(wù)中展示了它的優(yōu)越性。
KbEMF模型是通過擴展矩陣分解詞向量學習模型構(gòu)建的,本節(jié)介紹有關(guān)矩陣分解學習詞向量涉及的背景知識。
共現(xiàn)矩陣對于一個特定的訓練語料庫T,V是從該語料庫中提取的全部單詞生成的詞匯表,當上下文窗口設(shè)定為L時,對任意的wi∈V,它的上下文單詞為wi-L,…,wi-1,wi+1,…,wi+L,則共現(xiàn)矩陣X的每個元素值#(w,c)表示w和c的共現(xiàn)次數(shù),即上下文單詞c出現(xiàn)在目標單詞w上下文中的次數(shù),#(w)=∑c∈V#(w,c)表示出現(xiàn)在w上下文中全部c的次數(shù)。同樣地,#(c)=∑w∈V#(w,c)表示c作為上下文出現(xiàn)在語料庫中的次數(shù)。
EMF模型skip-gram模型學得的詞向量在多項自然語言處理任務(wù)中都取得了良好的表現(xiàn),卻沒有清晰的理論原理解釋。由此,EMF從表示學習的角度出發(fā),重新定義了skip-gram模型的目標函數(shù),將其精確地解釋為矩陣分解模型,把詞向量解釋為softmax損失下顯示詞向量dw關(guān)于表示字典C的一個隱表示,并直接顯式地證明了skip-gram就是分解詞共現(xiàn)矩陣學習詞向量的模型。這一證明為進一步推廣及拓展skip-gram提供了堅實理論基礎(chǔ)。EMF目標函數(shù)用(1)式表示:
2.1 提取語義信息并構(gòu)建語義矩陣
本文選擇WordNet做先驗知識庫。WordNet是一個覆蓋范圍較廣的英語詞匯語義網(wǎng),它把含義相同的單詞組織在同義詞集合中,每個同義詞集合都代表一個基本的語義概念,并且這些集合之間也由各種關(guān)系(例如整體部分關(guān)系、上下文關(guān)系)連接。
本文基于同義詞集合及集合間的關(guān)系詞構(gòu)建一個語義關(guān)系矩陣S∈V×V,它的每一個元素Sij=S(wi,wj)表示詞匯表V中第i個單詞wi與第j個單詞wj之間的語義相關(guān)性。如果Sij=0表示單詞wi與wj沒有語義相關(guān)性,反之Sij≠0則表示單詞wi與wj具有相關(guān)性。簡單起見,本文將語義關(guān)系矩陣S構(gòu)建成0-1矩陣,如果單詞wi與wj具有上述語義關(guān)系則令Sij=1,否則Sij=0。
2.2 構(gòu)建語義約束模型
tr(WTSrowW)+tr(WTScolW)-2tr(WTSW)=
tr(WT(Srow+Scol-2S)W)
最終所得語義約束模型為
式中:tr(·)表示矩陣的跡;Si表示語義矩陣S第i行全部元素值的加和,即S的第i行和;Sj表示語義矩陣S第j列全部元素值的加和,即S的第j列和;Srow表示以Si為對角元素值的對角矩陣,Scol表示以Sj為對角元素值的對角矩陣。
2.3 模型融合
將語義約束模型R與EMF相結(jié)合,得到融合語義信息的矩陣分解詞向量學習模型KbEMF:
式中γ是語義組合權(quán)重,表示語義約束模型在聯(lián)合模型中所占的比重大小。γ在詞向量學習過程中扮演相當重要的角色,該參數(shù)設(shè)置值過小時會弱化先驗知識對詞向量學習的影響,若過大則會破壞詞向量學習的通用性,無論哪種情況都不利于詞向量的學習。該模型目標在于最小化目標函數(shù)O,采用變量交替迭代策略求取最優(yōu)解。當γ=0時表示沒有融合語義信息,即為EMF模型。
2.4 模型求解
目標函數(shù),即式(3)不是關(guān)于C和W的聯(lián)合凸函數(shù),但卻是關(guān)于C或W的凸函數(shù),因此本文采用被廣泛應(yīng)用于矩陣分解的變量交替迭代優(yōu)化策略求取模型的最優(yōu)解。分別對C、W求偏導數(shù),得到
在一次循環(huán)中先對W迭代更新,直到目標函數(shù)O對W收斂為止,然后對C迭代更新,再次使目標函數(shù)O對C收斂,至此一次循環(huán)結(jié)束,依此循環(huán)下去直到最終目標函數(shù)關(guān)于C和W都收斂為止。
算法KbEMF算法的偽代碼
輸入共現(xiàn)矩陣X,語義關(guān)系矩陣S,學習率η,最大迭代次數(shù)K,k;
輸出WK,CK。
1)隨機初始化:W0,C0
2)fori= 1 toK,執(zhí)行
3)Wi=Wi-1
4)forj= 1 tok, 執(zhí)行
6)j=j+1
7)Ci=Ci-1
8)forj=1 tok, 執(zhí)行
10)j=j+1
11)i=i+1
本節(jié)主要展示融合語義信息后獲取的詞向量在單詞類比推理和單詞相似度量任務(wù)上的性能表現(xiàn)。首先介紹實驗數(shù)據(jù)集及實驗設(shè)置,然后分別描述每個實驗的任務(wù)和結(jié)果,并分析實驗結(jié)果。
3.1 數(shù)據(jù)集
本實驗選擇Enwik91作為訓練語料庫,經(jīng)過去除原始語料庫中HTML元數(shù)據(jù)、超鏈接等預處理操作后,得到一個詞匯量將近13億的訓練數(shù)據(jù)集。然后通過設(shè)置單詞過濾詞頻限制詞匯表的大小,把低于設(shè)定過濾詞頻的單詞剔除詞匯表,因此,不同過濾詞頻產(chǎn)生不同大小的詞匯表。
本實驗選用WordNet2作為知識庫,WordNet2有120 000同義詞集合,其中包含150 000單詞。本文借助JWI3從WordNet2中抽取單詞間的語義關(guān)系:同一個同義詞集合內(nèi)單詞對的同義關(guān)系,以及不同集合間單詞對的上下位關(guān)系。
不同的實驗任務(wù)所用的測試數(shù)據(jù)集也不相同。
在單詞類比推理任務(wù)中,本文使用的測試集為谷歌查詢數(shù)據(jù)集(Google query dataset4),該數(shù)據(jù)集包含19 544個問題,共14種關(guān)系類型,其中5種語義關(guān)系,9種語法關(guān)系。在單詞相似度量任務(wù)中,本文使用下列3個數(shù)據(jù)集:Luong 等[24]使用的稀有單詞,F(xiàn)inkelstein 等[25]使用的Wordsim-353 (WS353)數(shù)據(jù)集(RW),Huang等[6]發(fā)布的上下文單詞相似數(shù)據(jù)集(SCWS)。它們分別包含2003、2034、353個單詞對及相應(yīng)的人工標注的相似度分值。
3.2 實驗設(shè)置
下列實驗展示了由KbEMF獲取的詞向量在不同任務(wù)中的性能表現(xiàn)。為保持實驗效果的一致性,所有模型設(shè)置相同的參數(shù)。詞向量維數(shù)統(tǒng)一設(shè)置為200,學習率設(shè)置為6×10-7,上下文窗口為5,迭代次數(shù)設(shè)置為300。
另外,語義組合權(quán)重的大小也對實驗有重要影響。對于單詞類比推理和單詞相似度量任務(wù)本文均采取相同的實驗策略尋找最佳語義組合權(quán)重,下面以單詞類比推理任務(wù)為例詳細說明最佳語義組合權(quán)重找尋的實驗過程。設(shè)定γ∈[0.01,100],首先實驗γ=0.01,0.1,1,10,100的單詞推理正確率,如圖1 (b)所示,γ=0.01,0.1,1時KbEMF沒有提升實驗效果,因為語義信息所起作用太小;在γ=100時KbEMF實驗效果反而更差,這是過分強調(diào)語義信息破壞了詞向量的通用性;只有在γ=10時KbEMF效果較好,則最佳語義組合權(quán)重在γ=10附近的可能性最大。然后在γ∈[1,10]和γ∈[10,100]采取同樣的策略繼續(xù)尋找下去,最終會得到最佳組合權(quán)重。實驗結(jié)果表明,不同任務(wù)在不同詞頻下的最優(yōu)語義組合權(quán)重也不同。
3.3 單詞類比推理
給出一個問題a∶b∶∶c∶d,a、b、c、d各表示一個單詞其中d是未知的,類比推理任務(wù)的目標在于找到一個最合適的d使得a,b,c,d的詞向量滿足vec(d)與vec(b)-vec(a)+vec(c)的余弦距離最近。例如,語義推理Germary∶Berlin∶∶France∶d,則需要找出一個向量vec(d),使它與vec(Berlin)-vec(Germary)+vec(France)最近似,如果vec(d)對應(yīng)的d是Paris則推理正確。同理,又如語法推理quick:quickly∶∶slow∶d,如果找到d是slowly則推理正確。該實驗任務(wù)的評價指標是推理出單詞d的正確率,正確率越高,則KbEMF學得的詞向量越好。
本實驗評估了不同參數(shù)設(shè)置對KbEMF 模型影響,圖1是詞頻為6 000次時,分別改變模型中詞向量維度及語義組合權(quán)重所繪制的。
從圖1 (a)可以看出,詞向量維度小于200時,隨著詞向量維度增加單詞推理正確率在提升,詞向量維度在200~350之間實驗效果趨向于穩(wěn)定,因此在同時兼顧實驗速度與效果的情況下,本文選擇學習200維度的詞向量。
(a)向量維度
(b)語義組合權(quán)重圖1 KbEMF在不同向量維度和語義組合權(quán)重的正確率Fig.1 Performance when incorporating semantic knowledge related to word analogical reasoning for different vector sizes and semantic combination weights
圖1 (b)中隨著語義組合權(quán)重增大,單詞推理正確率在提升,繼續(xù)增大正確率反而減小,說明過大或過小的語義組合權(quán)重都不利于學習詞向量。從該實驗還可以看出,語義組合權(quán)重在[5,20]之間單詞推理正確率最高,詞向量在該任務(wù)中表現(xiàn)最優(yōu)。
圖2展示了在不同過濾詞頻下,KbEMF的單詞推理正確率均在不同程度上高于EMF,尤其在詞頻為3 500時效果最佳。對于不同詞頻,該實驗均設(shè)置語義組合權(quán)重γ=10,盡管該參數(shù)值在某些詞頻下不是最優(yōu)的,卻在一定程度上說明本文模型的普遍適用性。
圖2 不同過濾詞頻下EMF與KbEMF的正確率對比Fig.2 Performance of KbEMF compared to EMF for different word frequencies
下面通過將KbEMF與EMF、Retro(CBOW)、 Retro(Skip-gram)5、SWE進行比較來說明KbEMF的優(yōu)越性。Retro根據(jù)知識庫信息對預先訓練好的詞向量進行微調(diào),該模型的缺點在于無法在語料庫學習詞向量階段利用豐富的語義信息。雖然SWE同時利用了語義信息和語料庫信息學習詞向量,但該模型的基礎(chǔ)框架skip-gram只考慮了語料庫的局部共現(xiàn)信息。本文提出的KbEMF則克服了上述模型的弱點,同時利用語料信息和語義信息學習詞向量,并且它所分解的共現(xiàn)矩陣覆蓋了語料庫的全局共現(xiàn)信息。表1展示了詞頻為3 500時KbEMF與EMF、Retro(CBOW)、 Retro(Skip-gram)5、SWE的單詞推理正確率。
表1 KbEMF與其他方法的單詞推理正確率
表1中KbEMF對應(yīng)的單詞推理正確率最高,這說明該模型所獲取的詞向量質(zhì)量最優(yōu)。
3.4 單詞相似度量
單詞相似度量是評估詞向量優(yōu)劣的又一經(jīng)典實驗。該實驗把人工標注的詞對相似度作為詞對相似度的標準值,把計算得到的詞對向量余弦值作為詞對相似度的估計值,然后計算詞對相似度的標準值與估計值之間的斯皮爾曼相關(guān)系數(shù)(spearman correlation coefficient),并將它作為詞向量優(yōu)劣的評價指標。斯皮爾曼相關(guān)系數(shù)的值越高表明單詞對相似度的估計值與標準值越一致,學習的詞向量越好。
由于單詞相似度量希望相似度高或相關(guān)度高的詞對間彼此更靠近,語義信息的融入使具有強語義關(guān)系的詞對獲得更相似的詞向量。那么計算所得的關(guān)系詞對向量的余弦值越大,詞對相似度的標準值與估計值之間的斯皮爾曼相關(guān)系數(shù)就越高。
與單詞類比推理實驗過程類似,通過調(diào)整KbEMF模型參數(shù)(詞向量維度、語義組合權(quán)重以及單詞過濾詞頻),獲得單詞相似度量實驗中表現(xiàn)優(yōu)異的詞向量。
本實驗比較了KbEMF與SWE、Retro在單詞相似度量任務(wù)中的性能表現(xiàn),結(jié)果展示在表2中。由于不同數(shù)據(jù)集下最佳語義組合權(quán)重不同,該實驗針對數(shù)據(jù)集WS353/SCWS/RW分別設(shè)置語義組合權(quán)重為γ=1,γ=1,γ=15。
表2不同數(shù)據(jù)集下KbEMF與其他方法的斯皮爾曼相關(guān)系數(shù)
Table2SpearmancorrelationcoefficientsofKbEMFcomparedtootherapproachesondifferentdatasets
方法數(shù)據(jù)集WS353SCWSRWEMF0.79180.64740.6786Retro(CBOW)0.78160.66850.6071Retro(Skip?gram)0.69300.64490.7143SWE0.79650.65930.6429KbEMF0.79990.67400.7500
表2中KbEMF在上述3個數(shù)據(jù)集的斯皮爾曼相關(guān)系數(shù)均有所提升,因為KbEMF相比較Retro在語料庫學習詞向量階段就融入了語義知識庫信息,相較于SWE則運用了語料庫全局的共現(xiàn)信息,因此表現(xiàn)最好。尤其KbEMF在RW上的斯皮爾曼相關(guān)系數(shù)提升顯著,這說明語義知識庫信息的融入有助于改善學習稀有單詞的詞向量。
學習高效的詞向量對自然語言處理至關(guān)重要。僅依賴語料庫學習詞向量無法很好地體現(xiàn)單詞本身的含義及單詞間復雜的關(guān)系,因此本文通過從豐富的知識庫提取有價值的語義信息作為對單一依賴語料庫信息的約束監(jiān)督,提出了融合語義信息的矩陣分解詞向量學習模型,該模型大大改善了詞向量的質(zhì)量。在實驗中將Enwik9作為訓練文本語料庫并且將WordNet作為先驗知識庫,將學到的詞向量用于單詞相似度量和單詞類比推理兩項任務(wù)中,充分展示了本文模型的優(yōu)越性。
在后續(xù)的研究工作中,我們將繼續(xù)探索結(jié)合其他知識庫(如PPDB、WAN等),從中抽取更多類型的語義信息(如部分整體關(guān)系、多義詞等),進而定義不同更有針對性的語義約束模型,進一步改善詞向量。并將它們用于文本挖掘和自然語言處理任務(wù)中。
[1]TURIAN J, RATINOV L, BENGIO Y. Word representations: a simple and general method for semi-supervised learning[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Uppsala, Sweden, 2010: 384-394.
[2]LIU Y, LIU Z, CHUA T S, et al. Topical word embeddings[C]//Association for the Advancement of Artificial Intelligence. Austin Texas, USA, 2015: 2418-2424.
[3]MAAS A L, DALY R E, PHAM P T, et al. Learning word vectors for sentiment analysis[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics. Portland Oregon, USA, 2011: 142-150.
[4]DHILLON P, FOSTER D P, UNGAR L H. Multi-view learning of word embeddings via cca[C]//Advances in Neural Information Processing Systems. Granada, Spain,2011: 199-207.
[5]BANSAL M, GIMPEL K, LIVESCU K. Tailoring continuous word representations for dependency parsing[C]//Meeting of the Association for Computational Linguistics. Baltimore Maryland, USA, 2014: 809-815.
[6]HUANG E H, SOCHER R, MANNING C D, et al. Improving word representations via global context and multiple word prototypes[C]//Meeting of the Association for Computational Linguistics. Jeju Island, Korea, 2012: 873-882.
[7]MNIH A, HINTON G. Three new graphical models for statistical language modelling[C]//Proceedings of the 24th International Conference on Machine Learning. New York, USA, 2007: 641-648.
[8]MNIH A, HINTON G. A scalable hierarchical distributed language model[C]//Advances in Neural Information Processing Systems. Vancouver, Canada, 2008:1081-1088.
[9]BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model[J]. Journal of machine learning research, 2003, 3(02): 1137-1155.
[10]COLLOBERT R, WESTON J, BOTTOU L, et al. Natural language processing (almost) from scratch[J]. Journal of machine learning research, 2011, 12(8): 2493-2537.
[11]MIKOLOV T, CHEN K, CORRADO G, ET AL. Efficient estimation of word representations in vector space[C]//International Conference on Learning Representations. Scottsdale, USA,2013.
[12]BAIN J, Gao B, Liu T Y. Knowledge-powered deep learning for word embedding[C]//Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Springer, Berlin, Heidelberg, 2014: 132-148.
[13]LI Y, XU L, TIAN F, ET AL. Word embedding revisited: a new representation learning and explicit matrix factorization perspective[C]//International Conference on Artificial Intelligence. Buenos Aires, Argentina, 2015: 3650-3656.
[14]LEVY O, GOLDBERG Y. Neural word embedding as implicit matrix factorization[C]//Advances in Neural Information Processing Systems. Montreal Quebec, Canada, 2014: 2177-2185.
[15]PENNINGTON J, SOCHER R, MANNING C. Glove: global vectors for word representation[C]//Conference on Empirical Methods in Natural Language Processing. Doha, Qatar, 2014: 1532-1543.
[16]BIAN J, GAO B, LIU T Y. Knowledge-powered deep learning for word embedding[C]//Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Berlin, Germany, 2014: 132-148.
[17]XU C, BAI Y, BIAN J, et al. Rc-net: a general framework for incorporating knowledge into word representations[C]//Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management. Shanghai, China,2014: 1219-1228.
[18]YU M, DREDZE M. Improving lexical embeddings with semantic knowledge[C]//Meeting of the Association for Computational Linguistics. Baltimore Maryland, USA,2014: 545-550.
[19]LIU Q, JIANG H, WEI S, et al. Learning semantic word embeddings based on ordinal knowledge constraints[C]//The 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference of the Asian Federation of Natural Language Processing. Beijing, China, 2015: 1501-1511.
[20]FARUQUI M, DODGE J, JAUHAR S K, et al. Retrofitting word vectors to semantic lexicons[C]//The 2015 Conference of the North American Chapter of the Association for Computational Linguistics. Colorado, USA, 2015: 1606-1615.
[21]LEE D D, SEUNG H S. Algorithms for non-negative matrix factorization[C]//Advances in Neural Information Processing Systems.Vancouver, Canada, 2001: 556-562.
[22]MNIH A, SALAKHUTDINOV R. Probabilistic matrix factorization[C]//Advances in Neural Information Processing Systems. Vancouver, Canada, 2008: 1257-1264.
[23]SREBRO N, RENNIE J D M, JAAKKOLA T. Maximum-margin matrix factorization [J]. Advances in neural information processing systems, 2004, 37(2):1329-1336.
[24]LUONG T, SOCHER R, MANNING C D. Better word representations with recursive neural networks for morphology[C]//Seventeenth Conference on Computational Natural Language Learning. Sofia, Bulgaria,2013: 104-113.
[25]FINKELSTEIN R L. Placing search in context:the concept revisited[J]. ACM transactions on information systems, 2002, 20(1): 116-131.
陳培,女,1990年生,碩士研究生,主要研究方向為自然語言處理、情感分析。
景麗萍,女,1978年生,教授,博士,主要研究方向為數(shù)據(jù)挖掘、文本挖掘、生物信息學、企業(yè)智能。
Wordrepresentationlearningmodelusingmatrixfactorizationtoincorporatesemanticinformation
CHEN Pei, JING Liping
(Beijing Key Lab of Traffic Data Analysis and Mining, Beijing Jiaotong University, Beijing 100044, China)
Word representation plays an important role in natural language processing and has attracted a great deal of attention from many researchers due to its simplicity and effectiveness. However, traditional methods for learning word representations generally rely on a large amount of unlabeled training data, while neglecting the semantic information of words, such as the semantic relationship between words. To sufficiently utilize knowledge bases that contain rich semantic word information in existing fields, in this paper, we propose a word representation learning method that incorporates semantic information (KbEMF). In this method, we use matrix factorization to incorporate field knowledge constraint items into a learning word representation model, which identifies words with strong semantic relationships as being relatively approximate to the obtained word representations. The results of word analogy reasoning tasks and word similarity measurement tasks obtained using actual data show the performance of KbEMF to be superior to that of existing models.
natural language processing; word representation; matrix factorization; semantic information; knowledge base
10.11992/tis.201706012
http://kns.cnki.net/kcms/detail/23.1538.TP.20170831.1051.002.html
TP391
A
1673-4785(2017)05-0661-07
中文引用格式:陳培,景麗萍.融合語義信息的矩陣分解詞向量學習模型J.智能系統(tǒng)學報, 2017, 12(5): 661-667.
英文引用格式:CHENPei,JINGLiping.WordrepresentationlearningmodelusingmatrixfactorizationtoincorporatesemanticinformationJ.CAAItransactionsonintelligentsystems, 2017, 12(5): 661-667.
2017-06-06. < class="emphasis_bold">網(wǎng)絡(luò)出版日期
日期:2017-08-31.
國家自然科學基金項目(61370129,61375062,61632004);長江學者和創(chuàng)新團隊發(fā)展計劃資助項目(IRT201206).
景麗萍.E-mial: lpjing@bjtu.edu.cn.