• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于卷積網(wǎng)絡(luò)的句子語義相似性模型*

    2017-06-21 15:07:18黃江平姬東鴻
    關(guān)鍵詞:池化相似性語料

    黃江平 姬東鴻

    (武漢大學(xué) 計算機學(xué)院, 湖北 武漢 430072)

    基于卷積網(wǎng)絡(luò)的句子語義相似性模型*

    黃江平 姬東鴻

    (武漢大學(xué) 計算機學(xué)院, 湖北 武漢 430072)

    句子間語義相似性的計算已成為自然語言處理領(lǐng)域的重要研究內(nèi)容,如何有效地對句子建立語義模型已成為釋義識別、文本相似性計算、問答和文本蘊涵等自然語言處理應(yīng)用的基礎(chǔ)任務(wù).文中提出了一種并行的卷積神經(jīng)網(wǎng)絡(luò)模型,該模型的兩個卷積網(wǎng)絡(luò)不僅對句子對中的單個句子建立句子向量表示,還對句子經(jīng)卷積池化后的特征進行相似性度量,并獲得句子間的相似性特征.采用釋義識別及文本相似性兩項任務(wù)進行模型性能的實驗評測,結(jié)果顯示,該模型能夠較好地表示句子語義信息,其釋義識別F1值相比基準實驗提高了7.4個百分點,語義相似性評測的皮爾森相關(guān)系數(shù)比邏輯回歸方法有7.1個百分點的提高.

    卷積網(wǎng)絡(luò);釋義識別;句子模型; 語義相似性

    識別句子間的語義相似性已成為自然語言處理領(lǐng)域的重要研究內(nèi)容,如何有效地對句子建立語義模型已成為問答、釋義識別、文本蘊涵和文本分類等自然語言處理應(yīng)用的基礎(chǔ)任務(wù).

    為句子建立語義模型的目的就是分析和表示一個句子的語義信息,也是自然語言理解的基礎(chǔ).盡管在建立句子語義模型的過程中,很少僅針對單個句子進行分析,但句子中頻繁出現(xiàn)的用于表示句子的詞和n-gram卻被高度關(guān)注,因為句子模型相關(guān)的特征函數(shù)需要從這些詞和n-gram中抽取特征來表示句子[1].

    大量基于語義組合的方法已經(jīng)被用來表示句子的語義信息,在這些組合方法中,主要是把學(xué)習(xí)的詞匯語義向量進行代數(shù)操作生成句子向量[2- 3].而通過特定的句法關(guān)系[4]和特殊的詞匯類型學(xué)習(xí)組合函數(shù)[5]也被用來表示句子的語義內(nèi)容.盡管這些模型在相應(yīng)的任務(wù)上都取得了較好的效果,但它們都有一個共性就是基于神經(jīng)網(wǎng)絡(luò)進行語義組合.利用神經(jīng)網(wǎng)絡(luò)進行句子建模有很多優(yōu)勢,例如,可以通過句子中詞或者短語的上下文訓(xùn)練得到通用的詞或短語的向量表示,也可以通過監(jiān)督訓(xùn)練得到針對特定任務(wù)的神經(jīng)句子模型,此外還可以用神經(jīng)句子模型來生成句子表示進行句子分類[6]等.

    各種神經(jīng)句子模型已經(jīng)被用于句子表示[7],最常見的是神經(jīng)詞袋(NBoW)模型,這類模型包含一個映射層,其映射詞、子詞及n-gram到高維向量表示,而這些表示又通過諸如求和等操作進行逐個分量的聯(lián)合,聯(lián)合的句子向量再通過一個或多個全連接層進行分類.目前用于句子表示的主要有遞歸神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)模型.

    遞歸神經(jīng)網(wǎng)絡(luò)(RvNN)是常用來表示句子的一種模型,該模型以依存樹結(jié)構(gòu)作為輸入,樹中每個節(jié)點的左右子節(jié)點逐層進行聯(lián)合,每層的權(quán)重由樹中的所有節(jié)點共享,當計算到樹的根節(jié)點時,輸出句子的表示[8- 9].循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)作為遞歸神經(jīng)網(wǎng)絡(luò)的一種特殊情況,主要用于語言模型,當其被作為線性結(jié)構(gòu)時也可以用于對句子建模,當這種結(jié)構(gòu)計算到最后一個詞時,才能表示整個句子.然而這兩種模型最大的不足在于低階的特征會被直接用于與高階的特征進行聯(lián)合,例如當前詞會與先前表示的整個從句特征進行組合[10- 11].

    文中提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的句子語義模型,該模型能夠把變長的句子生成多個n-gram低階特征,再逐層抽取更高階的特征,避免了RvNN及RNN低階和高階特征直接組合的缺陷.把變長的輸入句子序列通過多層卷積、池化后,再把得到的高階特征通過全連接層來表示固定長度的句子語義向量.這樣通過在輸入句子上進行多重卷積和池化操作可以獲得輸入句子中各個短語之間的句法和語義關(guān)系.這種特征推導(dǎo)類似于一個句法分析樹,但又不是完全的句法關(guān)系,而是神經(jīng)網(wǎng)絡(luò)的內(nèi)部結(jié)構(gòu).因此文中提出的模型可以不依賴人工標記的特征并能應(yīng)用于多種語言的句子語義模型表示.最后在Sem-Eval-2015 Task1的Twitter釋義識別及句子語義相似性計算評測任務(wù)數(shù)據(jù)集[12]上對文中提出的模型進行了實驗驗證.

    1 卷積神經(jīng)網(wǎng)絡(luò)

    采用卷積神經(jīng)網(wǎng)絡(luò)的目的就是把句子映射到一個特征向量中.卷積神經(jīng)網(wǎng)絡(luò)主要由卷積、非線性函數(shù)和池化操作組成.在網(wǎng)絡(luò)的輸入端,首先把輸入的詞轉(zhuǎn)化為實值的特征向量,既可以采用one-hot方式也可以采用分布式學(xué)習(xí)的方法來表示這些詞向量,但采用分布式詞向量可以充分利用大規(guī)模未標注語料的語義信息.下面分別對模型中句子矩陣、卷積、池化方式以及激活函數(shù)進行介紹.

    1.1 句子矩陣

    該矩陣中的每一列i代表詞嵌入wi在句子中的位置.為了把句子中由詞嵌入表示的低階特征轉(zhuǎn)換為高階的語義特征,卷積神經(jīng)網(wǎng)絡(luò)需要對給定句子矩陣s進行一系列的卷積、非線性變換和池化操作才能得到更高階的特征表示.

    1.2 卷積

    這里以一維卷積為例,卷積就是權(quán)重向量m=Rm和一個輸入序列向量i的操作.向量m是卷積的過濾器,大小為m,文中把s作為一個輸入句子,而si∈R是句子中第i個詞對應(yīng)的單個特征值.其一維卷積的實質(zhì)是求向量m和句子矩陣s中的m-gram之間的點積,并得到一個新的序列c,

    (1)

    圖1 卷積示意圖

    圖2 卷積神經(jīng)網(wǎng)絡(luò)句子模型

    1.3 激活函數(shù)

    為了讓網(wǎng)絡(luò)學(xué)習(xí)一個非線性的決策邊界,每一個卷積網(wǎng)絡(luò)層的上面應(yīng)用了一個非線性的激活函數(shù),該激活函數(shù)應(yīng)用到前一層輸出的每一個元素.常見的激活函數(shù)有Sigmoid、雙曲正切函數(shù)Tanh以及ReLU[14],不同的激活函數(shù)會影響收斂速率及訓(xùn)練質(zhì)量.3個激活函數(shù)如式(2)-(4)所示.這里x′為輸入的變量.

    (2)

    (3)

    (4)

    ReLU函數(shù)最大的特點就是當x′<0時,ReLU為0,而當x′≥0時,ReLU為輸入值x′.由于ReLU通常比Tanh的效果好,且Tanh又優(yōu)于Sigmoid,因此文中的卷積模型選擇ReLU作為激活函數(shù).

    1.4 池化

    池化的目的是聚集信息并削減表示,常見的池化方式有最小、最大、平均、k-max、動態(tài)k-max等幾種方式.最大及平均池化操作都是把特征映射矩陣的一行或一個特征區(qū)域映射到單個值.平均池化及最大池化均有其不足,在平均池化中,所有的成分均被考慮.這種方式弱化了較強的激活值,對非線性激活函數(shù)Tanh影響強烈,因為非常正和負的激活成分會在該函數(shù)中相互抵消.盡管最大池化方式?jīng)]有平均池化方式的缺點,但它會導(dǎo)致訓(xùn)練集的強過擬合,這會在測試數(shù)據(jù)上有非常差的泛化.

    k-max池化操作能夠池化序列p中k個最活躍的特征,這些特征可能是與位置分隔的數(shù)字,但它保留了特征的階,盡管不對特定位置敏感,但這種方法能夠很好地識別出序列p中高度活躍的特征次數(shù).k-max池化方法常應(yīng)用于最頂層的卷積層,它保證了到全連接層的輸入獨立于輸入句子長度.

    為了能夠在卷積網(wǎng)絡(luò)的中間層平滑地抽取高階和長范圍特征,不適合使用固定的k-max池化操作方式.Kalchbrenner等[1]提出了一種動態(tài)k-max池化操作方法,這里的k不是一個固定值,而是句子長度s及網(wǎng)絡(luò)深度l的函數(shù),則參數(shù)k表示如下:

    (5)

    2 語義相似性

    給定一個句子對,句子卷積神經(jīng)網(wǎng)絡(luò)模型能夠并行地計算兩個句子的語義表示,一種最直接的方法是把兩個句子表示成向量后,利用傳統(tǒng)的相似性度量方法計算句子間的相似性.例如用歐氏距離公式(式(6))或余弦公式(式(7))計算相似性:

    (6)

    (7)

    式(6)和(7)中的sx和sy分別表示待計算相似性的兩個句子向量,而sxi和syj分別表示sx和sy中的元素.但這些并不是用于計算句子對相似性的最佳方法,因為在進行句子最終的向量表示時,會對生成的二維特征向量進行扁平化表示,不同的扁平化句子表示區(qū)域來自下層不同的內(nèi)容,包括過濾器的寬度、池化的類型等.而扁平化也會丟棄一些有用的用于相似性計算的組合信息.

    因此,為了克服語義信息丟失,在文中的語義相似性模型中,考慮了在句子表示過程中的相似性度量.即在文中提出的模型中,不僅采用了先前的句子向量表示,而且還在卷積池化的基礎(chǔ)上增加了相似性計算模塊.文中提出的模型如圖3所示.

    圖3 句子對相似性模型

    文中提出的模型在計算相似性特征表示這一層計算和比較了兩個句子在卷積池化后的相似性特征,即相似性特征表示層在句子卷積和池化后比較了兩個句子池化后的各個區(qū)域塊.然而,一個重要的考慮是如何選擇這些合適的區(qū)域用于相似性比較.雖然有多種用于聚集局部組合區(qū)域的方法,但在文中主要考慮了如下3個方面:

    (1)是否來自于卷積層相同的窗口大小;

    (2)是否來自于下層卷積層相同的過濾器;

    (3)是否來自于相同的池化層.

    同時,提出的模型不僅計算了兩個句子在卷積和池化后的相似性特征,同時保留了傳統(tǒng)卷積網(wǎng)絡(luò)的句子向量表示,這在全連接過程中比He等[15]提出的模型保留了更多的句子語義信息.

    由于卷積句子模型針對一個句子采用不同過濾器及池化方法,因此一個句子經(jīng)過卷積和池化后會產(chǎn)生多個特征映射,如圖3中的特征映射.對于一個句子矩陣s,生成特征映射的組塊方法如下:

    gdef=(Wsm,pool,s)

    (8)

    式中:Wsm為句子的卷積過濾器的窗口大小;pool為池化類型,pool∈{max,k-max,dk-max};g為生成的特征映射.這里采用了max、k-max及動態(tài)k-max(dk-max)3種池化方法.由于對句子進行卷積的特征過濾器采用了不同的類型和窗口大小,這里以filterG表示所有的卷積過濾器的集合,而filterGj表示集合中的第j個過濾器,則在句子經(jīng)過filterGj后,再經(jīng)池化后得到輸出o[j]:

    o[j]=poolt(outFiliterGj)

    (9)

    式中,outFiliterGj表示句子經(jīng)過filiterGj的輸出,o表示一個經(jīng)過poolt的各個過濾器向量.由于輸出o包含不同的卷積和池化信息,因此文中提出的相似性模型比較了上述3種條件中滿足其中至少兩種的區(qū)域.這里定義比較句子中兩個局部區(qū)域的方法:

    (10)

    這里u表示局部區(qū)域比較生成的特征,余弦距離按照兩個向量之間的角度來度量,而L2歐式距離比較了向量中各個元素之間的不同.

    給定兩個句子sx和sy,通過設(shè)置不同的窗口大小WSm及選擇不同的池化類型,生成不同的輸出塊,這里以ox和oy分別表示句子sx和sy輸出塊,再經(jīng)過u(ox,oy)后得到特征fea,對fea進行累加,得到句子ox和oy的結(jié)構(gòu)相似性特征feaxy.經(jīng)過相似性模型,得到了句子sx和sy的所有相似性特征,feaXY再通過全連接層把特征feaXY及sx和sy的卷積句子向量表示結(jié)合起來,形成最終的特征向量feaVec,對于該向量采用log-softmax計算句子對之間的語義相似性分值.

    3 實驗及分析

    3.1 數(shù)據(jù)集與評估方法

    文中采用SemEval-2015 Task 1的數(shù)據(jù)集進行各項實驗.該數(shù)據(jù)集是由Xu等[12]在2015年提出的一項SemEval評測任務(wù),該任務(wù)包含兩個子任務(wù):①給定兩個推特句子,判斷這兩個句子是否具有釋義,即是否表達了相同或者非常相近的意義;按照常見的釋義識別的評測方法,文中采用了準確率、召回率及F1值評估模型的性能;②根據(jù)兩個推特文本所表達的語義,給定一個介于[0,1]之間的一個數(shù)值,用于描述其相似性程度,其中0表示兩個句子無關(guān),而1表示語義相同,文中采用皮爾森相關(guān)系數(shù)來評測模型的語義相似性計算性能.

    數(shù)據(jù)集分為開發(fā)集、訓(xùn)練集和測試集3個部分,各個數(shù)據(jù)集的推特句子數(shù)見表1.表中的“釋義”表示兩個推特句子的語義基本相同,而“非釋義”則表示推特句子對表示的語義不同,“爭議”則表示兩個句子是否有釋義關(guān)系存在爭議.根據(jù)任務(wù)官方組織推薦,在訓(xùn)練和測試時不采用有爭議的句子對.

    表1 推特釋義語料統(tǒng)計

    為了驗證模型的性能,對開發(fā)集兩類關(guān)系及多種標注釋義類型都進行了評測.在語料釋義關(guān)系標注中,采用了亞馬遜的眾包平臺,即對于每個句子對有5個人進行是否有釋義的判斷投票,見表2.

    表2 釋義與得票數(shù)關(guān)系

    表2括號中的第1個數(shù)字是認為句子對具有釋義關(guān)系的票數(shù),第2個數(shù)字是認為句子對不具有釋義關(guān)系的票數(shù).從表2中可以觀察到,具有釋義關(guān)系的句子對至少需獲得3個人的投票,而非釋義句子對最多只有一個人認為有釋義關(guān)系,其余則為爭議句子對.

    3.2 開發(fā)集結(jié)果

    在現(xiàn)代建筑工程中,電氣工程設(shè)計的目的是為了滿足建筑內(nèi)部居民的實際需求,因此必須從廣大用戶的角度出發(fā),將建筑結(jié)構(gòu)和物業(yè)管理有機的結(jié)合起來。在具體設(shè)計過程中,為了保障建筑的各項功能能夠達到用戶的實際需求,必須要對建筑內(nèi)部的供電系統(tǒng)、照明系統(tǒng)、通信系統(tǒng)、排水系統(tǒng)等進行跟蹤檢測和控制,實現(xiàn)信息透明化,這就需要借助智能化技術(shù)來實現(xiàn)。例如,在空調(diào)器設(shè)計中,可以在設(shè)備所處的機房內(nèi)安設(shè)信息接收和處理系統(tǒng),將空調(diào)器的輸入和輸出接口和水位信號進行連接,這樣就可以通過智能化技術(shù)實現(xiàn)對空調(diào)器運行狀態(tài)的掌握。需要特別注意的是,為了方便后續(xù)的維護作業(yè),要在處理器接口的周圍留出三倍的空間。

    3.2.1 釋義識別

    由于推特句子非常短,從表1中可以統(tǒng)計得到的語料總共有18 762對句子,而訓(xùn)練集中只有13 063對句子.為了充分利用大規(guī)模的未標記語料,在詞向量學(xué)習(xí)時利用了外部的推特語料.在詞向量訓(xùn)練之前,爬取了74 471 663條、共803 146 910個詞的推特用于詞向量學(xué)習(xí),并在實驗過程中分別驗證了大規(guī)模未標記語料對實驗性能的影響.在訓(xùn)練詞向量時采用了兩種訓(xùn)練方法:一是僅使用訓(xùn)練語料進行詞向量學(xué)習(xí),二是采用訓(xùn)練語料加爬取的推特語料進行詞向量學(xué)習(xí).訓(xùn)練詞向量采用了word2vec[16- 17]工具,利用CBOW以及Skip-gram兩種方法分別訓(xùn)練了100、200、300、400維的向量進行實驗.

    首先在開發(fā)集上進行二元釋義識別實驗,實驗結(jié)果見表3所示.從表3中的實驗結(jié)果可以觀察到基于訓(xùn)練集+推特語料采用CBOW方法進行訓(xùn)練時,在向量選擇300維時達到較好的性能.但這里的向量維度可能介于200~400維之間,通過進一步的實驗發(fā)現(xiàn)當向量維度介于240~280時性能較為穩(wěn)定,因此筆者在后續(xù)實驗中選擇向量維度為250維,減少了模型訓(xùn)練時間.表中第1列表示訓(xùn)練向量的維度,第1個字母C表示采用CBOW方法,而S表示Skip-gram方法,數(shù)字表示向量維度.

    表3 語料及向量對釋義識別的影響

    Table 3 Influence of corpus and vector on paraphrase identification%

    為了驗證模型的釋義識別性能,在二分類的基礎(chǔ)上根據(jù)表2的關(guān)系進行了六分類,即進一步驗證模型在釋義識別中的細粒度性能.實驗結(jié)果見表4,其中列為答案標簽,行為預(yù)測結(jié)果.

    從表4中可以看出,文中提出的模型在非釋義方面效果要比釋義句子對的分類效果要好,而釋義句在一定的比例上向非釋義句子偏移,但每一類在

    表4 開發(fā)集細粒度釋義識別

    各自的類別中都占有較高的比例,下劃線部分表示正確的細粒度識別.從上表中也可以看出,數(shù)據(jù)在非釋義的比例上要遠高于釋義句子對的比例,這會在訓(xùn)練時由于數(shù)據(jù)比例的不平衡性導(dǎo)致釋義句子對會被識別為非釋義.通過上述開發(fā)集實驗,文中基于開發(fā)語料的模型參數(shù)選擇為向量維度為250維,向量訓(xùn)練模型為CBOW,寬卷積過濾器窗口選定為2、3、4,mini-batch大小為50,迭代次數(shù)為30.

    在測試時,選擇了4種基準實驗用于比較論文模型的性能,包括隨機打分方法,一種有監(jiān)督和一種無監(jiān)督方法以及一種神經(jīng)網(wǎng)絡(luò)方法.

    (1)隨機賦值方法,即對每個句子對的語義關(guān)系隨機給定一個[0,1]之間的一個實數(shù)值,并以0.5為閾值進行二元釋義判斷.

    (2)第2種基準實驗方法是監(jiān)督的邏輯回歸,這種方法采用簡單的n-gram重疊特征,但在微軟釋義語料上取得了非常好的效果[18].

    (3)第3種為無監(jiān)督方法,利用加權(quán)文本矩陣分解進行句子表示,該方法基于詞是否出現(xiàn)在句子的特性對句子建模,主要用于短文本[19].

    (4)第4種為標準的兩層神經(jīng)網(wǎng)絡(luò)分類器,主要利用翻譯、詞匯、句法和語義等特征[20].

    基于上述4種基準實驗,采用文中提出的模型得到最終的釋義識別實驗結(jié)果,如表5所示.

    表5 釋義識別實驗結(jié)果

    從表5可以觀察到文中提出的模型能夠取得較好的實驗效果,尤其是單獨使用feaXY特征時比采用聯(lián)合sx和sy的方法能取得更好的效果.當聯(lián)合3種特征向量時,與邏輯回歸方法相比,F(xiàn)1值提高了7.4個百分點;和無監(jiān)督方法相比,F(xiàn)1值提高了12.7個百分點;與標準的神經(jīng)網(wǎng)絡(luò)模型相比,F(xiàn)1值提高了1.2個百分點.

    3.2.2 語義相似性

    由于文中采用的語料在訓(xùn)練集和開發(fā)集中只標注了具有釋義的投票數(shù),因此無法直接量化句子間的語義相似性.而在任務(wù)的測試語料中又給出了每個句子對的語義相似性分值,即語義相同的句子對標記為1,語義完全無關(guān)的句子對分值標記為0,并按照步長為0.2的方式進行逐級打分.因此參照測試集語義分值標記的方法,在實驗中,把不同級別的句子對所對應(yīng)的語義量化為分值,但采用的方法與測試集的方法不同的是沒有用一個固定值,而是隨機選擇了一個區(qū)間分值.因此,對于訓(xùn)練和開發(fā)集語料中的句子對選擇了表6中語義值區(qū)間的一個隨機分值來表示其語義相似性.表6中的語義分值區(qū)間的策略為表示釋義和非釋義關(guān)系越明顯的句子對其語義值越靠近1和0,且區(qū)間范圍為0.1,其他句子對區(qū)間跨度為0.2.表中除1.0外,其余分值的取值范圍可取區(qū)間左邊值,但小于區(qū)間右邊值.這種分值區(qū)間定義方法盡可能與語料偏向非釋義保持一致.

    表6 投票數(shù)與對應(yīng)的語義分值

    按照表6對句子對的語義相似性打分,文中首先在開發(fā)集上采用皮爾森相關(guān)系數(shù)來進行模型語義相似性評測.采用了CBOW及Skip-gram模型訓(xùn)練詞向量,向量維度進一步細粒度設(shè)置為50、100、150、200、250、300、350、400、450、500維,得到的開發(fā)集實驗結(jié)果如圖4所示.

    從圖4中可以看出,當采用CBOW方法訓(xùn)練維度為250維的向量時,文中提出的模型在開發(fā)集上

    圖4 開發(fā)集語義相似性結(jié)果

    獲得最佳的語義相似性性能.因此模型選擇該維度向量進行測試集實驗,其他參數(shù)與釋義識別保持一致.根據(jù)選擇的開發(fā)集參數(shù),在測試集上的實驗結(jié)果見表7,采用的基準實驗與釋義識別相同.

    表7 語義相似性實驗結(jié)果

    從上表中可觀察到文中提出的方法在語義相似性上feaXY的效果比聯(lián)合sx和sy更好,當聯(lián)合3種特征向量時,比任務(wù)的最佳基準方法(邏輯回歸法)提高了7.1個百分點,與標準的神經(jīng)網(wǎng)絡(luò)模型相比,性能提升了1.9個百分點.

    3.3 錯誤分析

    對釋義識別及語義相似性兩部分實驗的結(jié)果進行分析,主要發(fā)現(xiàn)如下兩類錯誤:

    (1)推特中存在較多的非規(guī)范詞,例如“u”表示“you”,“4”表示“for”等,這會影響釋義識別及語義相似性判斷,這些詞將進行規(guī)范化處理[21].

    (2)模型對句子中的縮寫詞語義識別還需提高,例如表示第一季度的“Q1”與“inthefirstquarterofthisyear”由于長度相差較大,利用卷積模型不能有效地獲取上下文信息,下一步可以考慮探索循環(huán)神經(jīng)網(wǎng)絡(luò)與卷積網(wǎng)絡(luò)相結(jié)合的方法來解決該問題.

    4 結(jié)語

    文中提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的句子語義相似性計算模型,該模型不僅能夠獲得句子對中單個句子的語義表示,還能對每個句子對在經(jīng)卷積和池化后的特征區(qū)域計算相似性.這樣既獲得了單個句子的向量表示,又得到了句子對之間的相似性特征,在全連接層后,能夠得到句子對的向量表示.實驗結(jié)果表明,文中提出的模型能夠使釋義識別及語義相似性任務(wù)在基準方法上有較大的性能提升.鑒于推特語料的非規(guī)范詞比例較大及卷積網(wǎng)絡(luò)在上下文信息獲取方面的不足,對社會媒體內(nèi)容規(guī)范化及探索更好的上下文信息表示模型將是下一步研究的重要方向.

    [1] KALCHBRENNER N,GREFENSTETTE E,BLUNSOM P.A convolutional neural network for modelling sentences [C]∥Proceedings of the 52ndAnnual Meeting of the Association for Computational Linguistics.Baltimor: ACL,2014:655- 665.

    [2] JEFF M,MIRELLA L.Composition in distributional mo-dels of semantics [J].Cognitive Science,2010,34(8):1388- 1429.

    [3] WILLIAM B,MIRELLA L.A comparison of vector-based representations for semantic composition [C] ∥ Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning.Jeju Island: ACL,2012:546- 556.

    [4] FABIO M Z,IOANNIS K,F(xiàn)RANCESCA F,et al.Estimating linear models for compositional distributional semantics [C]∥Proceedings of the 23rdInternational Confe-rence on Computational Linguistics.Beijing:COLING,2010:1263- 1271.

    [5] DIMITRI K,MEHRNOOSH S.Prior disambiguation of word tensor for constructing sentence vectors [C]∥Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing.Seattle:ACL,2013:1590- 1601.

    [6] YOON K.Convolutional neural networks for sentence classification [C]∥Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing.Doha:ACL,2014:1746- 1751.

    [7] YOSHUA B,REJEAN D,PASCAL V,et al.A neural probabilistic language model [J].Journal of Machine Learning Research,2003,3(6):1137- 1155.

    [8] RICHARD S,CLIFF C-Y L,ANDREW Y N,et al.Parsing natural scenes and natural language with recursive neural networks [C]∥Proceedings of the 28thInternational Conference on Machine Learning.Washington:ICML,2011.

    [9] RICHARD S,Eric H H,JEFFREY P,et al.Dynamic pooling and unfolding recursive autoencoders for paraphrase detection [C]∥Proceedings of the Advances in Neural Information Processing Systems.Granada:NIPS,2011:801- 809.

    [10] KAI S T,RICHARD S,CHRISTOPHER D M.Improved semantic representations from tree- structured long short- term memory networks [C]∥Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics.Beijing:ACL,2015:1556- 1566.

    [11] CHO K,van Merrienboer B,Gulcehre C,et al.Learning phrase representations using RNN encoder-decoder for statistic machine translation [C]∥Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing.Doha:ACL,2014:1724- 1734.

    [12] XU W,CHRIS C-B,BILL D,et al.SemEval- 2015 task 1:paraphrase and semantic similarity in Twitter [C]∥Proceedings of the 9thInternational Workshop on Semantic Evaluation.Denver:ACL,2015:1- 11.

    [13] SEVERYN A,MOSCHITTI A.Learning to rank short text pairs with convolutional deep neural networks [C]∥Proceedings of the 38thInternational ACM SIGIR Confe-rence on Information Retrieval.Santiago:ACM,2015:373- 382.

    [14] ALEX K,ILYA S,Geoffrey E H.ImageNet classification with deep convolutional neural networks [C]∥Proceedings of the Advances in Neural Information Processing System.Lake Tahoe:NIPS 2012:1097- 1105.

    [15] HE H,KEVIN G,JIMMY L.Multi- perspective sentence similarity modeling with convolutional neural networks [C]∥Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing.Doha:ACL,2015:1576- 1586.

    [16] MIKOLOV T,SUTSKEVER I,CHEN K,et al.Distributed representations of words and phrases and their compositionality [C]∥Proceedings of the Advances in Neural Information Processing System.Tahoe:NIPS,2013:3111- 3119.

    [17] MIKOLOV T,YIH W-T,ZWEIG G.Linguistic regularities in continuous space word representations [C]∥Proceedings of the 2013 Conference of NAACL.Atlanta:ACL,2013:746- 751.

    [18] DAS D,SMITH N A.Paraphrase identification as probabilistic quasi-synchronous recognition [C]∥Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP.Suntec:ACL,2009:468- 476.

    [19] GUO W,DIAB M.Modeling sentences in the latent space [C]∥Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics.Jeju Island:ACL,2012:864- 872.

    [20] BERTERO D,F(xiàn)UNG P.HLTC- HKUST:a neural network paraphrase classifier using translation metrics,semantic roles and lexical similarity features [C]∥Proceedings of the 9th International Workshop on Semantic Evaluation (SemEval 2015).Denver:ACL,2015:23- 28.

    [21] QIAN T,ZHANG Y,ZHANG M,et al.A transition- based model for joint segmentation,POS- tagging and Normalization [C]∥Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing.Doha:ACL,2015:1837- 1846.

    Convolutional Network-Based Semantic Similarity Model of Sentences

    HUANGJiang-pingJIDong-hong

    (Computer School, Wuhan University, Wuhan 430072,Hubei,China)

    Computing the semantic similarity between two sentences is an important research issue in natural language processing field, and, constructing an effective semantic model of sentences is the core task of natural language processing for paraphrase identification, textual similarity computation, question/answer and textual entailment.In this paper, a parallel convolutional neural network model is proposed to represent sentences with fixed-length vectors, and a similarity layer is used to measure the similarity of sentence pairs.Then, two tasks, namely paraphrase identification and textual similarity test, are used to evaluate the performance of the proposed model.Experimental results show that the proposed model can capture sentence’s semantic information effectively; and that, in comparison with the state-of-the-art baseline, the proposed model improves theF1-score in paraphrase identification by 7.4 percentage points, while in comparison with the logistic regression method, it improves the Pearson correlation coefficient in semantic similarity by 7.1 percentage points.

    convolutional network; paraphrase identification; sentence model; semantic similarity

    2016- 06- 12

    國家自然科學(xué)基金重點項目(61133012);國家自然科學(xué)基金資助項目(61173062,61373108);國家社會科學(xué)基金重點項目(11&ZD189) Foundation items: Supported by the Key Program of National Natural Science Foundation of China(61133012),the National Natural Science Foundation of China(61173062,61373108) and the National Planning Office of Philosophy and Social Science(11&ZD189)

    黃江平(1985-),男,博士生,主要從事自然語言處理、機器學(xué)習(xí)研究.E-mail:hjp@whu.edu.cn

    1000- 565X(2017)03- 0068- 08

    TP 391

    10.3969/j.issn.1000-565X.2017.03.010

    猜你喜歡
    池化相似性語料
    基于緊湊型雙線性網(wǎng)絡(luò)的野生茵識別方法研究
    無線電工程(2024年8期)2024-09-16 00:00:00
    基于Sobel算子的池化算法設(shè)計
    一類上三角算子矩陣的相似性與酉相似性
    卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
    淺析當代中西方繪畫的相似性
    河北畫報(2020年8期)2020-10-27 02:54:20
    基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識別研究
    基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
    低滲透黏土中氯離子彌散作用離心模擬相似性
    華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
    《苗防備覽》中的湘西語料
    伊宁市| 宾川县| 南充市| 新龙县| 宜兰县| 红原县| 九龙城区| 虹口区| 拜城县| 卓尼县| 柏乡县| 博白县| 阿拉尔市| 定结县| 得荣县| 务川| 颍上县| 中牟县| 水富县| 淮安市| 宁津县| 高台县| 阿勒泰市| 柳州市| 呼图壁县| 黑水县| 麦盖提县| 客服| 晴隆县| 兴隆县| 炉霍县| 翁源县| 丹凤县| 佳木斯市| 灌阳县| 阜阳市| 永康市| 东山县| 隆子县| 宿州市| 固原市|