袁書寒,向 陽
(同濟(jì)大學(xué) 電子與信息工程學(xué)院,上海 201804)
詞匯語義表示研究綜述
袁書寒,向 陽
(同濟(jì)大學(xué) 電子與信息工程學(xué)院,上海 201804)
構(gòu)建能夠表達(dá)語義特征的詞語表示形式是自然語言處理的關(guān)鍵問題。該文首先介紹了基于分布假設(shè)和基于預(yù)測(cè)模型的詞匯語義表示方法,并給出目前詞表示方法的評(píng)價(jià)指標(biāo);進(jìn)而介紹了基于詞匯表示所蘊(yùn)含的語義信息而產(chǎn)生的新應(yīng)用;最后,對(duì)詞匯語義表示研究的方法和目前面臨的問題進(jìn)行了分析和展望。
詞匯表示;語義;分布假設(shè);深度學(xué)習(xí)
語義是語言形式所要表達(dá)的內(nèi)在含義,體現(xiàn)了人對(duì)語言的反映和認(rèn)識(shí)。讓計(jì)算機(jī)理解自然語言的內(nèi)容是自然語言處理領(lǐng)域研究的最高目標(biāo)。由于自然語言具有模糊性、歧義性、復(fù)雜性等特點(diǎn)[1],使得計(jì)算機(jī)理解人類語言、了解其中語義十分困難。詞匯作為文本的基本組成單元,是自然語言處理研究的最小對(duì)象,建立適當(dāng)?shù)脑~匯語義表示方式是實(shí)現(xiàn)自然語言理解的基礎(chǔ)。
利用計(jì)算機(jī)實(shí)現(xiàn)詞匯的語義表示并不是表達(dá)抽象的語言語義,而是一種計(jì)算模型。但是,由于自然語言本身的復(fù)雜性,沒有一套完備的理論可用于指導(dǎo)詞匯語義的模型化;因此,不同的詞匯語義表示方法本質(zhì)是依據(jù)語言的特點(diǎn)構(gòu)建適合的模型,使得模型可以盡可能保持詞語語義的完整性。本文介紹了主要的詞匯語義表示方法,給出了詞匯語義表示的測(cè)評(píng)標(biāo)準(zhǔn),接著介紹了基于詞匯語義表示的新應(yīng)用,最后闡述了詞語語義表示的研究趨勢(shì)并展望了下一步工作。
煤礦機(jī)械工作環(huán)境較差,加劇了煤礦機(jī)械的磨損程度。煤礦企業(yè)因?yàn)闄C(jī)械磨損造成的損失無法計(jì)量。不僅有工作環(huán)境導(dǎo)致的機(jī)械磨損,還與我國(guó)和煤礦機(jī)械設(shè)計(jì)技術(shù)水平以及機(jī)械后續(xù)維修技術(shù)較為滯后有關(guān),機(jī)械抗磨技術(shù)上不完善,導(dǎo)致機(jī)械使用壽命較短。如何減少機(jī)械磨損,提高機(jī)械使用壽命,是煤礦機(jī)械設(shè)計(jì)中應(yīng)注意的問題,還有研究抗磨措施,提高機(jī)械使用效率,實(shí)現(xiàn)煤礦產(chǎn)量的提高,減少煤礦企業(yè)的經(jīng)濟(jì)損失等問題。
詞匯作為自然語言的基本單位,研究其語義表示形式旨在建立合適的詞語表示模型;目前,利用向量空間模型將詞語映射為語義空間中的向量,將詞語表示成計(jì)算機(jī)可操作的向量形式是詞匯語義表示的主要思路?;跇?gòu)建向量空間模型所采用的基本假設(shè)不同,詞匯語義表示方法可分為基于分布的表示方法和基于預(yù)測(cè)的表示方法。
2.1 基于分布的表示方法
燃油熱值與生物燃料中的氧含量具有線性關(guān)系,隨著含氧量的增加,熱值下降。十六烷值(CN值)是燃料自燃能力的無量綱指標(biāo),和燃油的著火延遲相關(guān)。高 CN值燃油在和空氣按比例充分混合前發(fā)生燃燒,導(dǎo)致不完全燃燒比例增加和碳煙排放量升高;CN值太低,發(fā)動(dòng)機(jī)可能發(fā)生失火、溫度過高、暖機(jī)時(shí)間過長(zhǎng)、不完全燃燒等現(xiàn)象。生物燃料一般具有較高的CN值,且隨著碳鏈長(zhǎng)度的增加而增大,從C10:0增加到C18:0,CN值升高將近一倍,不飽和度的增加會(huì)降低燃料的CN值。粘度和表面張力也是燃油的關(guān)鍵參數(shù),對(duì)燃油噴射的初次和二次霧化有著重要影響,也影響到燃油顆粒直徑和噴射距離[12]。
基于分布的表示方法源自詞的分布假設(shè)(Distributional Hypothesis),即詞的上下文內(nèi)容相似,則詞匯本身的含義也相似[2],利用詞—上下文共現(xiàn)次數(shù)刻畫詞匯語義,因此也稱作基于計(jì)數(shù)的方法。由于詞的上下文體現(xiàn)了詞匯的使用方式,而不同語義的詞匯其使用方式是不同的,因此利用分布假設(shè)實(shí)現(xiàn)的詞匯表示間接反映了詞的語義。該方法包括三個(gè)步驟: 1)選擇合適的刻畫詞匯語義的空間分布矩陣; 2)依據(jù)不同的權(quán)重計(jì)算方法給矩陣賦值; 3)對(duì)矩陣進(jìn)行降維。最終,降維后得到的矩陣即為詞匯語義表示矩陣,矩陣的每一行為詞的表示向量。
作為教師,可能都有一個(gè)體會(huì):凡是在學(xué)習(xí)上有濃厚的興趣,求知欲強(qiáng),積極主動(dòng)參與教育教學(xué)活動(dòng)的學(xué)生,他們的學(xué)習(xí)效率就高,成績(jī)也優(yōu)秀。這雖已成為廣大教師的共識(shí),但學(xué)生學(xué)習(xí)興趣不濃的問題依然存在。解決這一老生常談的問題,作為一名初中語文教師,我是從以下幾方面去努力的:
利用反向傳播算法更新遞歸神經(jīng)網(wǎng)絡(luò)的參數(shù)時(shí),假如輸入模型的時(shí)間序列過長(zhǎng),則會(huì)出現(xiàn)梯度消失問題(vanishing gradient problem)或梯度爆炸問題(exploding gradients problem)[21]。為了避免這些問題,學(xué)者提出一種新的遞歸神經(jīng)網(wǎng)絡(luò)(Long Short Term Memory,LSTM)[22-23],與經(jīng)典的遞歸神經(jīng)網(wǎng)絡(luò)不同,該模型設(shè)置記憶單元(Memory cell),該記憶單元在輸入、輸出和自鏈接層上增加輸入門(Input gate)、輸出門(Output gate)和忽略門(Forget gate),用于篩選記憶單元中需要保存或過濾的信息,因此適合訓(xùn)練輸入較長(zhǎng)時(shí)序的詞。利用該模型不僅可以得到詞匯的語義表示向量,還可以訓(xùn)練語句的表示[24]。
圖1 詞匯分布表示方式
雖然詞-上下文共現(xiàn)矩陣F中C?W,但當(dāng)面對(duì)大規(guī)模語料庫(kù)時(shí),矩陣F不可避免的面臨高維稀疏問題。因而,在得到原始的語義空間矩陣后,需要對(duì)矩陣進(jìn)行降維,以降低計(jì)算的復(fù)雜度。目前在詞語表示研究中主要應(yīng)用的降維方法包括主成分分析(Principle Component Analysis,PCA)[4]和獨(dú)立成分分析(Independent Component Analysis,ICA)[5]等。文獻(xiàn)[6]則改進(jìn)傳統(tǒng)PCA利用歐式距離判斷降維矩陣和原矩陣相似度的方法,基于Hellinger距離對(duì)矩陣進(jìn)行降維,由于Hellinger距離更適合度量離散數(shù)值,因此降維后的詞表示向量有更好的效果。
基于分布的詞匯語義表示方法以海量文本數(shù)據(jù)為基礎(chǔ),通過上下文分布的共現(xiàn)頻率描述詞匯的語義,利用該方法得到的詞匯語義表示向量在計(jì)算詞匯相似度上有較好的結(jié)果,但是利用上下文分布信息間接刻畫詞匯語義和詞匯的深層語義并不相同。因此,該方法得到的詞匯語義表示對(duì)類比推理等深層語義關(guān)系的發(fā)現(xiàn)并不理想。
2.2 基于預(yù)測(cè)的表示方法
傳統(tǒng)的基于多層神經(jīng)網(wǎng)絡(luò)計(jì)算詞表示向量,計(jì)算量較大,訓(xùn)練時(shí)間往往需要幾天甚至數(shù)周[14,25],因而在詞匯語義表示問題上,研究能夠較好表達(dá)詞匯語義的簡(jiǎn)單模型成為近兩年的研究重點(diǎn)。
近年來,伴隨著深度學(xué)習(xí)技術(shù)發(fā)展[8-10],表示學(xué)習(xí)(Representation Learning)或非監(jiān)督的特征學(xué)習(xí)(Unsupervised Feature Learning)成為自然語言處理領(lǐng)域重要的研究方向[11]。在詞匯語義表示研究中,特征學(xué)習(xí)的目的是通過非監(jiān)督的方法從大規(guī)模語料庫(kù)中自動(dòng)學(xué)習(xí)出詞匯的語義表示向量,進(jìn)而以詞向量為特征應(yīng)用于自然語言處理的各類監(jiān)督學(xué)習(xí)任務(wù)中。因此,具有良好語義特征的詞匯表示向量是后續(xù)任務(wù)的重要基礎(chǔ)。目前,基于預(yù)測(cè)的詞匯語義表示方法,依據(jù)神經(jīng)網(wǎng)絡(luò)模型的不同,可以分為基于前向神經(jīng)網(wǎng)絡(luò)的方法、基于遞歸神經(jīng)網(wǎng)絡(luò)的方法和基于淺層神經(jīng)網(wǎng)絡(luò)的方法等。
我國(guó)具備地質(zhì)條件復(fù)雜的特征,不同地區(qū)之間的氣候環(huán)境差異比較突出,也正是因?yàn)檫@一特征導(dǎo)致我國(guó)水旱災(zāi)害的影響性比較高,對(duì)于我國(guó)的工業(yè)、農(nóng)業(yè)生產(chǎn)以及人民群眾的生命財(cái)產(chǎn)安全形成了嚴(yán)重的影響。水文情報(bào)預(yù)報(bào)技術(shù)屬于防汛抗旱的有效技術(shù)支撐,但是其需要借助大量且復(fù)雜的技術(shù)設(shè)備,隨著各種技術(shù)的不斷發(fā)展近些年水文情況預(yù)報(bào)技術(shù)水平得到了質(zhì)的飛躍,但是仍然存在一定的改進(jìn)空間。對(duì)此,探討水文情況預(yù)報(bào)技術(shù)在防汛抗旱工作中的應(yīng)用與改進(jìn)措施具備顯著現(xiàn)實(shí)意義。
2.2.1 基于前向神經(jīng)網(wǎng)絡(luò)的方法
基于神經(jīng)網(wǎng)絡(luò)訓(xùn)練詞表示向量源自神經(jīng)網(wǎng)絡(luò)語言模型(Neural Network Language Model)[12]。語言模型的目的是為了訓(xùn)練語料庫(kù)中詞出現(xiàn)的聯(lián)合概率分布,以達(dá)到預(yù)測(cè)下一個(gè)出現(xiàn)的詞的目的。圖2為神經(jīng)網(wǎng)絡(luò)語言模型的結(jié)構(gòu)圖[12],其中Cwi為詞表示向量。
圖2 神經(jīng)網(wǎng)絡(luò)語言模型
在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)語言模型中,訓(xùn)練的目的是為了提高詞的聯(lián)合概率分布,但是由于利用反向傳播算法[13]可以更新詞匯表示向量。因此,在文獻(xiàn)[14]中,作者基于前向神經(jīng)網(wǎng)絡(luò)語言模型,先隨機(jī)初始化訓(xùn)練語料庫(kù)的詞向量表示,構(gòu)造詞典表示矩陣C∈RW*d,其中W為詞典中詞的個(gè)數(shù),d為詞向量的維度。模型定義滑動(dòng)窗口nwin構(gòu)建模型的輸入向量s=(Cwt-n+1,Cwt-n+2,…,Cwt-1)。為了無監(jiān)督的訓(xùn)練語料庫(kù)中詞表示向量,假設(shè)在語料庫(kù)中套用滑動(dòng)窗口產(chǎn)生的短句s為正例樣本,同時(shí)將滑動(dòng)窗口中的某個(gè)詞隨機(jī)替換為詞典中的任一詞所產(chǎn)生的錯(cuò)誤短句為負(fù)樣本。模型假設(shè)正例樣本的得分比負(fù)例樣本的得分高,例如,
fscore(我是中國(guó)人)>fscore(我大學(xué)中國(guó)人)
模型以式(1)所示的Hinge loss為目標(biāo)函數(shù),該目標(biāo)函數(shù)的目的是在正樣本和負(fù)樣本間構(gòu)造一個(gè)最大的分類邊界。
(1)
其中,S為訓(xùn)練語料庫(kù)中套用滑動(dòng)窗口后長(zhǎng)度為nwin的短句,W為詞典的集合,s為訓(xùn)練語料庫(kù)中的正例樣本,sw為負(fù)例樣本。
2.2.2 基于遞歸神經(jīng)網(wǎng)絡(luò)的方法
在骨盆修復(fù)儀中安裝有固定的氣囊,通過智能系統(tǒng)控制氣囊(如圖三),有節(jié)奏的加壓放松牽拉骨盆的擠壓,進(jìn)而改善骨盆寬度。隨著氣囊加壓,將骨盆及大腿部?jī)蓚?cè)的肌肉向里擠壓,這時(shí)臀部自然而然的上升。氣囊加壓作用于人體,通過外力促進(jìn)作用,模仿人手工的骨盆修復(fù)按摩,由外向里輕輕推壓,將骨盆修復(fù)到產(chǎn)婦生產(chǎn)前的狀態(tài)。確保修復(fù)的質(zhì)量與效果,滿足不同使用者的修復(fù)要求。
由于遞歸神經(jīng)網(wǎng)絡(luò)具有一定的時(shí)序性和記憶性,利用遞歸神經(jīng)網(wǎng)絡(luò)訓(xùn)練詞語的語義表示向量符合語言的形式。如圖3所示,不同于前向神經(jīng)網(wǎng)絡(luò),遞歸神經(jīng)網(wǎng)絡(luò)將語料庫(kù)中的每個(gè)詞,按順序逐個(gè)輸入模型中[15-16]。與前向神經(jīng)網(wǎng)絡(luò)類似,利用遞歸神經(jīng)網(wǎng)絡(luò)訓(xùn)練語言模型[15,17-19]通過隨時(shí)間演化的反向傳播算法(Backpropagation Through Time,BPTT)[20]更新模型的參數(shù)和輸入詞向量,得到詞匯語義表示向量。
圖3 遞歸神經(jīng)網(wǎng)絡(luò)
最基本的語義空間矩陣類型為詞—上下文共現(xiàn)矩陣F∈RW×C,其中W為語料庫(kù)中詞庫(kù)的大小,C為詞上下文特征的大小;矩陣的每一行Fw是詞w的向量表示,矩陣的每一列Fc表示上下文詞語。在確定矩陣F的行、列屬性后,需要對(duì)F各行各列的fij賦值;其中最簡(jiǎn)單的方法是給矩陣賦二元數(shù)值,即判斷詞wi的上下文窗口中是否出現(xiàn)詞cj,出現(xiàn)為1,不出現(xiàn)為0。另一種方式則如圖1所示,計(jì)算詞wi的上下文窗口中出現(xiàn)詞cj的次數(shù)作為fij的值[3]。目前,點(diǎn)互信息(Pointwise Mutual Information,PMI)[2]是計(jì)算詞—上下文共現(xiàn)矩陣值的常用方法,其基本思路是統(tǒng)計(jì)詞及其上下文詞在文本中同時(shí)出現(xiàn)的概率,如果概率越大,其相關(guān)性就越緊密,點(diǎn)互信息的值也就越大。
由此看來,肥料利用率、有機(jī)肥替代、減施增效等政策引導(dǎo),使高能耗的復(fù)合肥產(chǎn)業(yè)面臨轉(zhuǎn)型,其結(jié)果將導(dǎo)致復(fù)合肥進(jìn)入產(chǎn)業(yè)調(diào)整和行業(yè)“洗牌”,使鉀肥等上游原料企業(yè)經(jīng)受考驗(yàn)。
2.2.3 基于淺層神經(jīng)網(wǎng)絡(luò)的方法
基于預(yù)測(cè)的表示方法源自神經(jīng)網(wǎng)絡(luò)語言模型。語言模型的目的是在給定上文的情況下,預(yù)測(cè)下一個(gè)詞出現(xiàn)的概率。該方法基于人工神經(jīng)網(wǎng)絡(luò)的神經(jīng)元分布假設(shè)[7],將詞匯表示為一個(gè)低維實(shí)值向量,每一維看作詞的一個(gè)特征,這種詞語表示方法也稱作詞嵌入(Word Embeddings)。
(1) Word2vec模型
詞表示向量的類比推理能力是評(píng)價(jià)詞表示向量的另一個(gè)重要指標(biāo)。在文獻(xiàn)[26]給出的測(cè)試數(shù)據(jù)集中,每一個(gè)測(cè)試數(shù)據(jù)由(a,b)與(c,d)兩組詞對(duì)組成,表示為a:b→c:d的形式,解釋為“a類比于b正如c類比于d”。為了驗(yàn)證詞向量的類比能力,在給出a,b,c的情況下,以通過式(7)從訓(xùn)練的詞庫(kù)中準(zhǔn)確找出詞d*的正確率作為判斷詞表示向量在類比問題上質(zhì)量的標(biāo)準(zhǔn)。文獻(xiàn)[37]進(jìn)一步豐富原有測(cè)試數(shù)據(jù),公開了WordRep測(cè)試數(shù)據(jù)集,該數(shù)據(jù)集包含一千多萬條語義類比詞對(duì)和五千多萬條句法對(duì)比詞對(duì),利用該數(shù)據(jù)集可以測(cè)試詞表示向量在類比推理問題上的泛化能力。
3)附屬工程系統(tǒng)龐大。綜合管廊內(nèi)設(shè)置通風(fēng)、燃?xì)?、電力、排水等附屬工程系統(tǒng),由控制中心集中控制,實(shí)現(xiàn)全智能化運(yùn)行。另外還有一部分屬于開放式走道,作為日常人行通道。
(2)
圖4 word2vec模型
Skip-gram模型的目標(biāo)則是給定目標(biāo)詞wi預(yù)測(cè)上下文的詞wc。Skip-gram模型也可分為三層,輸入層為目標(biāo)詞的詞表示向量vwi,投影層為復(fù)制輸入層的詞表示向量vwi,輸出層則是給定目標(biāo)詞預(yù)層上下文詞的概率。
(3)
文獻(xiàn)[28]則進(jìn)一步證明基于負(fù)采樣方法訓(xùn)練Skip-gram模型得到的詞表示向量等價(jià)于利用Shifted PPMI構(gòu)建詞-上下文共現(xiàn)矩陣并對(duì)其SVD降維后得到的詞表示向量。這一發(fā)現(xiàn)說明兩類詞匯語義表示方法存在一定的聯(lián)系,也為解釋神經(jīng)網(wǎng)絡(luò)模型提供了思路。
(2) Log Bilinear模型
在計(jì)算匹配得分之后,模型以最大化式(6)為目標(biāo)函數(shù),利用Noise-Contrastive Estimation(NCE)[31]算法更新模型的參數(shù)θ=(C,vw.qw),得到詞的表示向量。
(6)
若將式(6)進(jìn)一步簡(jiǎn)化,不設(shè)置位置權(quán)重矩陣Ci和偏移量b,而是對(duì)上下文矩陣求平均,則模型簡(jiǎn)化為CBOW模型。
4.2 知識(shí)庫(kù)鏈接預(yù)測(cè)與關(guān)系挖掘
利用淺層神經(jīng)網(wǎng)絡(luò)訓(xùn)練詞匯表示向量不僅極大提高了模型的訓(xùn)練速度,在語義表示能力上也得到了改進(jìn)。這說明在詞匯表示問題上,深度學(xué)習(xí)模型并不是越復(fù)雜效果越好,直觀的想法,簡(jiǎn)單的模型往往能取得很好的結(jié)果。但是,同其他神經(jīng)網(wǎng)絡(luò)模型一樣,由于模型僅利用局部上下文作為輸入,缺乏對(duì)全局統(tǒng)計(jì)信息的利用,依然有進(jìn)一步改進(jìn)的空間。
對(duì)詞匯語義表示方法的研究近年來涌現(xiàn)大量出色的研究成果,在此不一一列舉。本節(jié)列舉的這些工作體現(xiàn)了詞匯表示在語義表達(dá)能力上的發(fā)展,說明了其重要性和生命力。
因?yàn)檎Z言本身具有模糊性和主觀性,對(duì)詞匯的解釋可以處于不同的立場(chǎng)和背景中,因而無法簡(jiǎn)單的判斷詞匯語義表示好或不好。由于目前沒有一個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集或評(píng)價(jià)指標(biāo)能夠直接判斷詞匯語義表示的質(zhì)量,因而,通常從不同的角度間接檢驗(yàn)詞匯表示向量語義表達(dá)的能力。常用的判斷詞語表示質(zhì)量的指標(biāo)包括: 詞語相似度計(jì)算、詞類比推理能力評(píng)價(jià)以及將詞語表示向量應(yīng)用于具體問題所帶來的結(jié)果變化。
3.1 詞匯相似度計(jì)算
詞匯表示的質(zhì)量可以通過計(jì)算詞之間的相似程度來判斷,好的詞匯表示方法能夠反映詞的相似程度。目前,余弦相似度是判斷兩個(gè)詞語表示向量相似程度的基本方法,余弦夾角反映兩個(gè)詞的距離遠(yuǎn)近。在計(jì)算訓(xùn)練得到的詞表示向量相似度之后,通過與人工標(biāo)注的詞語相似度數(shù)據(jù)集進(jìn)行比較,計(jì)算斯皮爾曼相關(guān)系數(shù)(Spearman’s rank correlation)[32],檢驗(yàn)詞匯相似度計(jì)算的準(zhǔn)確性。目前,廣泛使用的人工標(biāo)注詞語相似度的數(shù)據(jù)集有: WordSimilarity-353[33]、MEN[34]、SimLex-999[35]和RW(Rare Word)[36]等。其中,WordSimilarity-353和SimLex-999是最常見的測(cè)試數(shù)據(jù)集,其主要標(biāo)注了名詞、動(dòng)詞和形容詞間的相似度,而SimLex-999嚴(yán)格依據(jù)詞匯的詞義相似程度標(biāo)注分?jǐn)?shù),而不是詞間的相關(guān)性。例如,(clothes(衣服)—closet(衣櫥)),在WordSimilarity-353中標(biāo)記為8分,在SimLex-999中的評(píng)分為1.96。這也說明隨著詞匯語義表示研究的發(fā)展,詞匯表示模型逐漸能體現(xiàn)語義特征,對(duì)測(cè)試數(shù)據(jù)本身也提出了新的要求。
3.2 詞的類比推理
為了切實(shí)提高我院學(xué)生能力,本文根據(jù)我院物聯(lián)網(wǎng)工程專業(yè)教學(xué)現(xiàn)狀,從學(xué)生的實(shí)際情況出發(fā),結(jié)合CDIO教育理念,對(duì)《崗位技能實(shí)訓(xùn)》課程深入進(jìn)行教學(xué)改革。《崗位技能實(shí)訓(xùn)》課程是我校物聯(lián)網(wǎng)工程專業(yè)的核心課程,在學(xué)生學(xué)習(xí)大部分課程之后的第七學(xué)期開設(shè),以提高學(xué)生綜合運(yùn)用所學(xué)知識(shí)完成項(xiàng)目開發(fā)、培養(yǎng)學(xué)生之間的團(tuán)隊(duì)協(xié)作能力為主要目的;同時(shí)為了使學(xué)生能夠從學(xué)校到工作有一個(gè)適應(yīng)轉(zhuǎn)變的過程,該課程不適宜采用偏重理論教學(xué)、以教師為中心的方式,應(yīng)該以學(xué)生為主體、盡可能地為學(xué)生創(chuàng)造一個(gè)項(xiàng)目開發(fā)訓(xùn)練環(huán)境,增加實(shí)踐環(huán)節(jié),使其能系統(tǒng)化地分析運(yùn)用所學(xué)知識(shí)、與其她成員合作完成課程實(shí)訓(xùn)內(nèi)容。
Mikolov等人[26-27]提出的Word2vec模型由于其訓(xùn)練得到的詞向量有很好的語義特性得到廣泛的關(guān)注。如圖4所示,該模型包括連續(xù)詞袋模型(Continue Bag Of Words,CBOW)和Skip-gram模型兩種詞向量的訓(xùn)練方法。在Word2vec模型中,存在上下文詞表示矩陣MWc∈Rw*d和目標(biāo)詞表示矩陣MWi∈Rw*d。
(7)
3.3 其他應(yīng)用指標(biāo)
在前向神經(jīng)網(wǎng)絡(luò)語言模型中,模型需要定義一個(gè)固定的上下文窗口,該窗口大小確定了模型輸入或輸出的詞匯個(gè)數(shù);但是直觀上,語言是一種序列模型,語言本身具有一定延續(xù)性,因此需要一個(gè)能刻畫時(shí)序特征的模型表示語言的特性。
由于詞匯語義表示的目的是為了解決自然語言處理中的實(shí)際問題,因而可以將詞向量作為輸入,考察其對(duì)實(shí)際任務(wù)的影響,并依此評(píng)價(jià)詞匯表示的質(zhì)量。若通過詞向量對(duì)任務(wù)的結(jié)果有提升,則認(rèn)為詞向量本身質(zhì)量較高,反之亦然。目前,主要考察的自然語言處理任務(wù)有[6,14,38-41]: 詞義消歧(Word Sense Disambiguation,WSD)、詞性標(biāo)注(Part of Speech, POS)、命名實(shí)體識(shí)別(Name Entity Recognition,NER)、語義角色標(biāo)注(Semantic Role Labeling, SRL)、分塊(Chunking)和完成語句(Sentence Completion)等。該方式可以看作一種半監(jiān)督的學(xué)習(xí)機(jī)制,先利用大規(guī)模語料庫(kù)無監(jiān)督的訓(xùn)練詞表示向量,進(jìn)而將預(yù)訓(xùn)練得到的詞向量作為其他監(jiān)督學(xué)習(xí)問題的輸入,考察其對(duì)最終結(jié)果的影響,從而評(píng)價(jià)詞表示向量的質(zhì)量。
通過搭建各種測(cè)試場(chǎng)景進(jìn)行牽引供電系統(tǒng)供電能力測(cè)試。測(cè)試前,對(duì)車輛負(fù)載特征進(jìn)行分析,并聯(lián)合設(shè)計(jì)單位對(duì)牽引供電系統(tǒng)和車輛的負(fù)荷特性進(jìn)行分析,包括對(duì)牽引供電系統(tǒng)的各種運(yùn)行模式所對(duì)應(yīng)的負(fù)荷運(yùn)行進(jìn)行編排;重點(diǎn)對(duì)接觸網(wǎng)在不同運(yùn)行方式(雙邊供電、單邊供電、大雙邊供電)下的供電能力進(jìn)行檢驗(yàn),并記錄AW0(空載)、AW3(超載)等不同載荷列車的起動(dòng)電流波形;同時(shí)觀察牽引供電設(shè)備(DC 1 500 V開關(guān)柜及保護(hù)、鋼軌電位限制裝置等)是否發(fā)生誤動(dòng)作,以確保牽引供電系統(tǒng)的供電能力滿足標(biāo)準(zhǔn)及設(shè)計(jì)要求;復(fù)核設(shè)計(jì)單位關(guān)于運(yùn)營(yíng)過程中的負(fù)載狀態(tài),以確保線路安全運(yùn)營(yíng)。
詞語表示向量可以廣泛應(yīng)用于解決各類實(shí)際問題,除了可以應(yīng)用于3.3節(jié)中提到各類自然語言處理的任務(wù)中,基于詞表示向量本身所具有的語義表達(dá)能力,近兩年產(chǎn)生了新的應(yīng)用方向。
4.1 語義組合(Semantic Composition)
語義組合的目的是將簡(jiǎn)單的詞語進(jìn)行組合以表達(dá)復(fù)雜語句的語義,而整體語義可以看作是部分語義的組合函數(shù)。因此,語義組合是實(shí)現(xiàn)語義表示從詞匯級(jí)別向句子級(jí)別擴(kuò)展的重要手段。語義組合函數(shù)定義如式(8)所示。[42]
p=f(u,v,R,K)
(8)
其中,u,v表示待組合部分,R表示u,v間的關(guān)系,K表示用于語義組合的其他上下文知識(shí)。其中最簡(jiǎn)單的組合方式為線性組合[42],該方法定義基于加法p=u+v或乘法p=u·v的組合函數(shù)實(shí)現(xiàn)語義組合。但由于其無法體現(xiàn)詞語組合的順序,近年來基于遞歸自編碼(Recursive Auto-encoder)[43-44]和卷積神經(jīng)網(wǎng)絡(luò)[45-46]的非線性組合方法得到深入研究,并在同義語句判斷、情感分析等評(píng)價(jià)指標(biāo)中取得很好的結(jié)果,是未來重要的研究方法。
通過競(jìng)賽可以提高學(xué)生學(xué)習(xí)數(shù)學(xué)的信心。在競(jìng)賽當(dāng)中,共同體成員可以互相合作,溝通交流,這有助于共同體的長(zhǎng)久發(fā)展。對(duì)于在競(jìng)賽中獲獎(jiǎng)的教師團(tuán)隊(duì)來說,能增強(qiáng)他們的職業(yè)幸福感與工作積極性。
知識(shí)庫(kù)(Knowledge Base)中包含大量實(shí)體和實(shí)體間關(guān)系信息,是實(shí)現(xiàn)智能問答、知識(shí)推理的重要基礎(chǔ),但是現(xiàn)有的知識(shí)庫(kù)遠(yuǎn)不完整,如何豐富現(xiàn)有知識(shí)庫(kù)一直是學(xué)術(shù)界研究的熱點(diǎn)。由于詞向量具有較好的類比推理能力,因而有研究利用詞表示向量實(shí)現(xiàn)實(shí)體間的關(guān)系發(fā)現(xiàn)或鏈接預(yù)測(cè),從而達(dá)到知識(shí)庫(kù)完善的目的[47-54]。利用詞匯語義表示實(shí)現(xiàn)知識(shí)庫(kù)鏈接預(yù)測(cè)與關(guān)系挖掘的基本思路是將實(shí)體表示為對(duì)應(yīng)的詞匯表示向量,將實(shí)體間的關(guān)系看作詞匯間的某種映射關(guān)系,并利用現(xiàn)有的知識(shí)庫(kù)訓(xùn)練實(shí)體間的關(guān)系映射形式,從而實(shí)現(xiàn)鏈接預(yù)測(cè)與關(guān)系抽取?;谠~匯語義表示向量的鏈接預(yù)測(cè)與關(guān)系抽取在自然語言和結(jié)構(gòu)化的知識(shí)數(shù)據(jù)中建立了聯(lián)系,從而可以不再依賴于人工參與而極大豐富現(xiàn)有的知識(shí)庫(kù)。
從語言學(xué)角度分析,語言基礎(chǔ)知識(shí)由語音、詞匯、語法這三大要素構(gòu)成。這三大要素貫穿于二語學(xué)習(xí)的整個(gè)過程之中。當(dāng)二語學(xué)習(xí)者在語言學(xué)習(xí)過程中受到母語的影響時(shí)也往往表現(xiàn)在以下方面:
4.3 機(jī)器翻譯
詞匯語義表示還可以應(yīng)用于機(jī)器翻譯中。基于深度學(xué)習(xí)的機(jī)器翻譯模型[55-57]的基本思路是認(rèn)為對(duì)于訓(xùn)練語料中的原始語言Ss和目標(biāo)語言St,若兩種語言表達(dá)相同的意思則有相同的抽象特征表示,因而將輸入的原始語言詞序列編碼(encode)成其特征表示Rs,進(jìn)而對(duì)Rs解碼(decode)為目標(biāo)語言的詞語序列,若在訓(xùn)練過程中出現(xiàn)與目標(biāo)語言詞St中詞序列不匹配的情況,則更新模型的參數(shù)和詞表示向量。以詞匯語義表示為基礎(chǔ),利用深度學(xué)習(xí)模型實(shí)現(xiàn)機(jī)器翻譯不僅提高了翻譯的準(zhǔn)確性還減少了訓(xùn)練過程中的人工參與。
總體而言,針對(duì)詞匯語義表示的研究主要集中在兩方面: 1)提出新的模型,以提高詞匯語義表達(dá)能力; 2)針對(duì)實(shí)際應(yīng)用問題,在解決特定任務(wù)時(shí)構(gòu)建適合詞匯表示的新模型。除此之外,伴隨大數(shù)據(jù)時(shí)代的來臨,訓(xùn)練樣本呈現(xiàn)出海量多元異構(gòu)的特點(diǎn),該領(lǐng)域發(fā)展還有一些新的變化趨勢(shì)。
首先,在利用海量文本數(shù)據(jù)非監(jiān)督的訓(xùn)練詞匯語義表示向量的基礎(chǔ)上,結(jié)合外部知識(shí)資源以提高詞匯語義表示質(zhì)量得到越來越多的關(guān)注[58-60];WordNet、Freebase等知識(shí)資源,包含了自然語言上下文中沒有的語義信息,因此用該方法訓(xùn)練得到的詞表示向量具有更豐富的語義。充分利用現(xiàn)有的知識(shí)數(shù)據(jù)源,將更多的語義信息作為模型的輸入,是未來進(jìn)一步提高詞向量語義表達(dá)能力的重要手段。
其次,針對(duì)詞匯語義表示向量的訓(xùn)練不僅局限于文本數(shù)據(jù),而是結(jié)合圖像等數(shù)據(jù)源實(shí)現(xiàn)多模態(tài)(multi-modal)學(xué)習(xí),得到多模態(tài)的聯(lián)合特征表示,進(jìn)而實(shí)現(xiàn)圖像識(shí)別、圖像的文本描述生成[61-65];雖然詞匯表示向量并不是模型的訓(xùn)練目標(biāo),但是通過該模型得到的詞表示向量因?yàn)槿诤狭藞D像的信息,能同時(shí)捕捉文本和圖像的語義信息。詞匯的語義表示已經(jīng)不僅局限在自然語言處理領(lǐng)域,它還和圖像處理、語音識(shí)別等領(lǐng)域結(jié)合,推動(dòng)了其他應(yīng)用領(lǐng)域的發(fā)展。
此外,伴隨模型本身復(fù)雜度的提高,計(jì)算性能成為模型能否應(yīng)用于實(shí)際問題的關(guān)鍵。依賴于新的計(jì)算框架的提出和計(jì)算機(jī)自身的發(fā)展,目前在解決計(jì)算性能問題上主要有兩種思路: 1)利用Map-Reduce[66]框架,構(gòu)建大規(guī)模的分布式神經(jīng)網(wǎng)絡(luò)計(jì)算集群[67],提高模型的計(jì)算速度;2)利用GPU加速計(jì)算,由于深度學(xué)習(xí)屬于計(jì)算密集型模型,邏輯控制語句較少,利用GPU可以極大提高計(jì)算效率,已經(jīng)成為模型訓(xùn)練重要的技術(shù)手段[68-70]。
詞匯作為語言的基本單元,計(jì)算機(jī)能夠表示詞語、理解詞語含義是實(shí)現(xiàn)自然語言理解的重要基礎(chǔ)。詞語的表示可以歸結(jié)為兩大類: 基于分布的方法和基于預(yù)測(cè)的方法。基于分布的方法主要統(tǒng)計(jì)詞的上下文共現(xiàn)次數(shù),因而具有更好的統(tǒng)計(jì)意義和更快的訓(xùn)練速度,但是該方法得到的詞表示向量?jī)H捕捉詞之間的相關(guān)性;而基于預(yù)測(cè)的方法主要基于神經(jīng)網(wǎng)絡(luò)語言模型,該方法適合于大規(guī)模語料庫(kù),且得到的詞向量具有更好的類比、推理等能力;但是該方法訓(xùn)練時(shí)間相對(duì)較長(zhǎng)且沒有很好利用詞的統(tǒng)計(jì)信息。本文介紹了該領(lǐng)域近幾年國(guó)際上最新的研究成果,綜述了詞匯語義表示訓(xùn)練的各類模型和方法,常用的評(píng)價(jià)標(biāo)準(zhǔn)以及最新的應(yīng)用方向和發(fā)展趨勢(shì)。
(1)滿載緊急制動(dòng)減速:輸送機(jī)在緊急制動(dòng)過程中各處的膠帶張力均應(yīng)大于零,嚴(yán)防膠帶松弛、撒煤或疊帶事故。F1= 484.15 kN,F(xiàn)2= 285.2 kN ,F(xiàn)3=156 kN;
詞表示方法雖然是傳統(tǒng)的研究領(lǐng)域,但是伴隨著新方法的引入又產(chǎn)生了新的活力。目前已經(jīng)取得了一定的成果,但仍面臨著很多的挑戰(zhàn)。
組織結(jié)構(gòu)電鏡觀察結(jié)果如圖3。新鮮克氏原螯蝦的肌肉組織結(jié)構(gòu)緊密,組織間間隙較小。液體冷卻介質(zhì)急凍克氏原螯蝦肌肉組織與新鮮克氏原螯蝦的肌肉組織結(jié)構(gòu)類似,組織間間隙較小。這表明,在液體冷卻介質(zhì)急凍克氏原螯蝦過程中,水在肌肉細(xì)胞組織中沒有形成具有破壞性的冰晶體。而常規(guī)冷凍克氏原螯蝦的肌肉組織間隙大,這是由于水在肌肉細(xì)胞組織中形成了具有破壞性的冰晶體造成的。
1) 盡管實(shí)驗(yàn)顯示基于神經(jīng)網(wǎng)絡(luò)得到的詞表示向量比基于詞分布假設(shè)得到的詞表示向量要好[71],但是利用神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練詞表示向量的可解釋性有待進(jìn)一步研究,這其中包括神經(jīng)網(wǎng)絡(luò)模型本身的可解釋性以及訓(xùn)練得到的詞表示向量的可解釋性。
2) 目前對(duì)詞匯語義表示質(zhì)量的評(píng)價(jià)是通過其在相似、類比等問題上的表現(xiàn)間接的進(jìn)行評(píng)價(jià),缺乏明確直接的檢驗(yàn)詞表示語義的標(biāo)準(zhǔn),詞表示向量的質(zhì)量評(píng)估是一個(gè)重要的研究方向。
3) 由于構(gòu)建詞表示向量的方法大多基于詞的上下文,因此詞匯語義表示更傾向于表達(dá)詞的相關(guān)性,而不是詞義的相似性,與真實(shí)的語義更不同,構(gòu)建能表達(dá)語義的詞表示模型是詞語表示研究的最終目的。
關(guān)于什么是語義,如何通過計(jì)算機(jī)表達(dá)語義,目前學(xué)術(shù)界沒有定論?;谙蛄靠臻g的詞匯語義表示方法雖然是目前最有效的表達(dá)詞語特征的方式,但是依然有其局限性,能夠表達(dá)詞語語義的表示方法還需進(jìn)一步的探索和研究。
[1] 孫茂松, 劉挺, 姬東鴻, 等. 語言計(jì)算的重要國(guó)際前沿 [J]. 中文信息學(xué)報(bào), 2014, 28(1): 1-8.
[2] Turney P, Pantel P. From Frequency to Meaning?: Vector Space Models of Semantics [J]. Journal of Artificial Intelligence Research, 2010, 37: 141-188.
[3] Sahlgren M. The Word-Space Model: using distributional analysis to represent syntagmatic and paradigmatic relations between words in high-dimensional vector spaces [D]. Stockholm University, 2006.
[4] Bishop C M. Pattern Recognition and Machine Learning [M]. 2006.
[5] Vayrynen J J, Honkela T. Word Category Maps based on Emergent Features Created by ICA [J]. Proceedings of the STeP, 2004, 19: 173-185.
[6] Lebret R, Collobert R. Word Embeddings through Hellinger PCA [C]//Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics. 2014: 482-490.
[7] Hintor G E, Mcclelland J L, Rumelhart D E. Distributed representations [J]. Parallel Distributed Processing: Explorations in the Microstructure of Cognition, 1986, 1: 77-109.
[8] Hinton G E, Salakhutdinov R R. Reducing the Dimensionality of Data with Neural Networks [J]. Science, 2006, 313: 504-507.
[9] Bengio Y. Learning deep architectures for AI [J]. Foundations and Trends in Machine Learning, 2009, 2(1): 1-127.
[10] Bengio Y. Deep Learning of Representations: Looking Forward [C]//Proceedings of the International Conference on Statistical Language and Speech Processing. 2013: 1-37.
[11] Bengio Y, Courville A, Vincent P. Representation learning: A review and new perspectives [J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2013, 35(8): 1798-1828.
[12] Bengio Y, Ducharme R, Vincent P,et al. A Neural Probabilistic Language Model [J]. Journal of Machine Learning Research, 2003, 3: 1137-1155.
[13] Rojas R. The Backpropagation Algorithm [G]. Neural Networks - A Systematic Introduction, 1996.
[14] Collobert R, Weston J, Bottou L,et al. Natural Language Processing (almost) from Scratch [J]. Journal of Machine Learning Research, 2011(12): 2493-2537.
[15] Tomas M, Karafiat M, Burget L et al. Recurrent neural network based language model [C]//Proceedings of INTERSPEECH, 2010: 1045-1048.
[16] Sutskever I, Martens J, Hinton G. Generating Text with Recurrent Neural Networks [C]//Proceedings of the 28th International Conference on Machine Learning, 2011:1017-1024.
[17] Tomas M. Statistical Language Models based on Neural Networks [D]. Brno University of Technology, 2012.
[18] Yao K, Zweig G. Recurrent Neural Networks for Language Understanding [C]//Proceedings of INTERSPEECH, 2013: 2524-2528.
[19] Mikolov T, Kombrink S, Burget L,et al. Extensions of recurrent neural network language model [C]//Proceedings of ICASSP, 2011: 5528-5531.
[20] Boden M. A guide to recurrent neural networks and backpropagation [R]. 2002: 1-10.
[21] Bengio Y, Simard P, Frasconi P. Learning long-term dependencies with gradient descent is difficult [J]. Neural Networks, IEEE Transactions on, 1997, 5(2): 157-166.
[22] Hochreiter S, Schmidhuber J. Long short-term memory [J]. Neural computation, 1997, 9(8): 1735-1780.
[23] Graves Alex. Supervised Sequence Labelling with Recurrent Neural Networks [M]. 2012.
[24] Palangi H, Deng L, Shen Y等. Deep Sentence Embedding Using the Long Short Term Memory Network: Analysis and Application to Information Retrieval [J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2016, 24(4): 694-707.
[25] Turian J, Ratinov L, Bengio Y. Word representations?: A simple and general method for semi-supervised learning [C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, 2010: 384-394.
[26] Mikolov T, Corrado G, Chen K,et al. Efficient Estimation of Word Representations in Vector Space[C]//Proceedings of Workshop at ICLR, 2013.
[27] Mikolov T, Yin W, Zweig G. Linguistic regularities in continuous space word representations [C]//Proceedings of NAACL-HLT, 2013: 746-751.
[28] Omer L, Yoav G. Neural Word Embeddings as Implicit Matrix Factorization [C]//Proceedings of NIPS, 2014:2177-2185.
[29] Mnih A. A fast and simple algorithm for training neural probabilistic language models[C]//Proceedings of the 29th International Conference on Machine Learning. 2012.
[30] Mnih A, Kavukcuoglu K. Learning word embeddings efficiently with noise-contrastive estimation [C]//Proceedings of NIPS, 2013: 2265-2273.
[31] GUTMANN M U, HYV?RINEN A. Noise-contrastive Estimation of Unnormalized Statistical Models, with Applications to Natural Image Statistics[J]. J. Mach. Learn. Res., 2012, 13(1): 307-361.
[32] Spearman’s rank correlation coefficient[J]. Wikipedia, the free encyclopedia, .
[33] Finkelstein L, Gabrilovich E, Matias Y,et al. Placing Search in Context: The Concept Revisited [J]. ACM Trans. Inf. Syst., 2002, 20(1): 116-131.
[34] Bruni E, Boleda G, Baroni M,et al. Distributional Semantics in Technicolor [C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, 2012: 136-145.
[35] Hill F, Reichart R, Korhonen A. SimLex-999: Evaluating Semantic Models with (Genuine) Similarity Estimation [R], 2014.
[36] Luong M, Manning C D. Better Word Representations with Recursive Neural Networks for Morphology [C]//Proceedings of CoNLL, 2013: 104-113.
[37] Gao B, Bian J, Liu T-Y. WordRep: A Benchmark for Research on Learning Word Representations[J]. arXiv:1407.1640 [cs], 2014.
[38] Collobert R, Weston J. A Unified Architecture for Natural Language Processing?: Deep Neural Networks with Multitask Learning[C]//Proceedings of the 25th International Conference on Machine Learning, 2008: 160-167.
[39] Erk K, Mccarthy D, Gaylord N. Measuring Word Meaning in Context [J]. Computational Linguistics, 2013, 39(3): 511-554.
[40] Jacob A, Dan K. How much do word embeddings encode about syntax [C]//Proceedings of ACL, 2014:822-827.
[41] Zweig G, Burges C. The Microsoft Research Sentence Completion Challenge [R]. MSR-TR-2011-129, 2011.
[42] Mitchell J, Lapata M. Composition in Distributional Models of Semantics [J]. Cognitive Science, 2010, 34(8): 1388-1429.
[43] Socher R, Huval B, Manning D,et al. Semantic Compositionality through Recursive Matrix-Vector Spaces[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. 2012: 1201-1211.
[44] Scoher R, Perelygin A, Wu Y,et al. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank [C]//Proceedings of EMNLP, 2013: 1631-1642.
[45] Kalchbrenner N, Grefenstette E, Blunsom P. A Convolutional Neural Network for Modelling Sentences [C]//Proceedings of ACL, 2014: 655-665.
[46] Wenpeng Y, Hinrich S. Convolutional Neural Network for Paraphrase Identification [C]//Proceedings of NAACL, 2015: 901-911.
[47] Bordes A, Weston J, Collobert R,et al. Learning Structured Embeddings of Knowledge Bases[C]//Proceedings of the Twenty-Fifth AAAI Conference on Artificial Intelligence, 2011:301-306.
[48] Bordes A, Usunier N, Garcia A,et al. Translating Embeddings for Modeling Multi-relational Data [C]//Proceedings of NIPS, 2013: 2787-2795.
[49] Weston J, Bordes A, Yakhnenko O,et al. Connecting Language and Knowledge Bases with Embedding Models for Relation Extraction[C]//Proceedings of EMNLP, 2013: 1366-1371.
[50] Jason W. Embeddings for KB and text epresentation, extraction and question answering [R]. 2014.
[51] Ruiji F, Jiang G, Bing Q. Learning Semantic Hierarchies via Word Embeddings [C]//Proceedings of ACL, 2014: 1199-1209.
[52] Bordes A, Globot X, Weston J et al. Joint learning of words and meaning representations for open-text semantic parsing [C]//Proceedings of the International Conference on Artificial Intelligence and Statistics. 2012.
[53] Wang Z, Zhang J, Feng J et al. Knowledge Graph Embedding by Translating on Hyperplanes[C]//Proceedings of the AAAI. 2014.
[54] Garcia A, Bordes A, Usunier N et al. Combining Two and Three-Way Embeddings Models for Link Prediction in Knowledge Bases [J]. Journal of Artificial Intelligence Research. 2016, 55: 715-742
[55] Cho K, Van M, Bahdanau D et al. On the Properties of Neural Machine Translation: Encoder-Decoder Approaches[J]. arXiv:1409.1259 [cs, stat], 2014.
[56] Sutskever I, Vinyals O, Le V. Sequence to Sequence Learning with Neural Networks [C]//Proceedings of NIPS, 2014:310-3112.
[57] Cho K, Van M, Gulcehre C et al. Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation [C]//Proceedings of EMNLP, 2014: 1724--1734.
[58] Mo Y, Mark D. Improving Lexical Embeddings with Semantic Knowledge [C]//Proceedings of ACL, 2014: 545-550.
[59] Bain J, Gao B, LIU T-Y. Knowledge-Powered Deep Learning for Word Embedding[C]//Proceedings of ECML, 2014: 132-148.
[60] Omer L, Yoav G. Dependency-Based Word Embeddings [C]//Proceedings of ACL, 2014: 302-308.
[61] Bruni E, Baroni M. Multimodal Distributional Semantics [J]. Journal of Arti?cial Intelligence Research, 2014, 49: 1-47.
[62] Kiros R, Salakhutdinov R, Zemel R. Multimodal Neural Language Models[C]//Proceedings of ICML, 2014: 595-603.
[63] Kiros R, Salakhutdinov R, Zemel S. Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models [J]. TACL, 2015.
[64] Srivastava N, Salakhutdinov R. Multimodal Learning with Deep Boltzmann Machines [C]//Proceedings of NIPS, 2013.
[65] Vinyals O, Toshev A, Bengio S等. Show and Tell: A Neural Image Caption Generator[C]//Proceedings of CVPR, 2014: 3156-3164.
[66] Dean J, Ghemawat S. MapReduce: Simplified Data Processing on Large Clusters [J]. Commun. ACM, 2008, 51(1): 107-113.
[67] Dean J, Corrado G, Monga R,et al. Large Scale Distributed Deep Networks[C]//Proceedings of NIPS. 2012: 1223-1231.
[68] Collobert R, Kavukcuoglu K, Farabet C. Torch7: A Matlab-like Environment for Machine Learning [C]//Proceedings of NIPS Workshop, 2011.
[69] Jia Y, Shelhamer E, Donahue J,et al. Caffe: Convolutional Architecture for Fast Feature Embedding[C]//Proceedings of ACM international conference on Multimedia, 2014.
[70] Bastien F, Lamblin P, Pascanu R,et al. Theano: new features and speed improvements[M]. 2012.
[71] Baroni M, Dinu G, Kruszewski G. Don’t count, predict! A systematic comparison of context-counting vs. context-predicting semantic vectors [C]//Proceedings of the 52nd ACL. 2014: 238-247.
A Review on Lexical Semantic Representation
YUAN Shuhan, XIANG Yang
(School of Electronics and Information Engineering, Tongji University, Shanghai 201804, China)
Constructing the words representation which could express the semantic features is the key problem of Natural Language Processing. In this paper, we first introduce the lexical semantic representation based on the distributional hypothesis and prediction model, and describe the evaluations methods of words representation. Then we review the new applications based on the semantic information of words representation. Finally, we discuss the development directions and exiting problems of lexical semantic representation.
words representation; semantic; distributional hypothesis; deep learning
袁書寒(1987—),博士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z言處理、深度學(xué)習(xí)。E?mail:4e66@tongji.edu.cn向陽(1962—),博士,教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)檎Z義計(jì)算、云計(jì)算、管理信息系統(tǒng)。E?mail:shxiangyang@tongji.edu.cn
2015-06-03 定稿日期: 2015-08-31
國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(973計(jì)劃)(2014CB340404);上海市科委科研計(jì)劃項(xiàng)目(14511108002);國(guó)家自然科學(xué)基金(71171148,71571136);上海市科委基礎(chǔ)研究項(xiàng)目(16JC1403000)
1003-0077(2016)05-0001-08
TP391
A