欒克鑫,杜新凱,孫承杰,劉秉權(quán),王曉龍
(1. 哈爾濱工業(yè)大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150000;2. 北京中科匯聯(lián)科技股份有限公司,北京 100085)
語義連貫性是文本可讀、準(zhǔn)確地表達(dá)語義和傳遞信息的必要條件。文本語義連貫也是讀者理解文本的基礎(chǔ)。
例“華羅庚教授是一位自學(xué)成才的著名的數(shù)學(xué)家。他14歲開始自學(xué)數(shù)學(xué),每天堅持自學(xué)10小時,從不間斷。1932年,22歲的華羅庚應(yīng)清華大學(xué)數(shù)學(xué)系系主任熊慶來的邀請,到清華大學(xué)工作?!?/p>
這段話能夠明確表達(dá)出華羅庚是一名數(shù)學(xué)家,以及他的早期經(jīng)歷。而語義連貫性差的段落則影響語義表達(dá),影響讀者理解。
例“1932年,22歲的華羅庚應(yīng)清華大學(xué)數(shù)學(xué)系系主任熊慶來的邀請,到清華大學(xué)工作。他14歲開始自學(xué)數(shù)學(xué),每天堅持自學(xué)10小時,從不間斷。華羅庚教授是一位自學(xué)成才的著名的數(shù)學(xué)家。”
上面的段落語義不連貫,不能很好地表述華羅庚的經(jīng)歷,影響讀者理解。
因此,語義連貫性是很多自然語言處理(natural language processing,NLP)任務(wù)(如多文檔自動文摘[1-3]、答案摘要[4])的核心問題,研究如何保持語義連貫性的方法對NLP具有重要意義。
通常,在一個文本段落中,這種語義的連貫性是通過句子的順序來保證的,句子之間的關(guān)系通過語法特征、語義特征來保證,比如在一個語義連貫的文本中,句子之間通過一些連詞(如: 因為……所以……,雖然……但是……等)及句子所表達(dá)的語義邏輯,來確定先后順序。然而,在多文檔自動文摘(或者答案摘要任務(wù))中,由于句子都是來自于不同的文本段落,無法利用句子在原文中的位置信息,只能通過語義關(guān)系來確定句子順序。因此通過確定語義關(guān)系確定句子順序來解決多文檔自動文摘及答案摘要任務(wù)中的語義連貫性問題是一種可行方法。
關(guān)于解決句子排序[5]問題,徐永東[6]提出了一種多文檔摘要中基于時間信息的句子排序方法,利用基于規(guī)則的時間信息抽取、語義計算及時序推理方法來解決句子排序問題。姚超[7]提出了一種基于內(nèi)聚度的多文檔文摘的句子排序方法,通過將相同話題的句子聚合到一起,避免話題中斷,改善文摘可讀性。
隨著深度學(xué)習(xí)的發(fā)展,很多深度學(xué)習(xí)的方法被引入到句子排序中,Chen[8]嘗試了基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNNs)[9],長短期記憶網(wǎng)絡(luò)(long short-term memory network, LSTM)[10]的句子排序方法,使用CNN、LSTM等模型判斷句子的前后句關(guān)系,并利用集束搜索(beam search)算法求解句子的最優(yōu)排序。Logeswaran[11]提出了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的句子排序方法,通過判斷句子在每個位置的可能性,求得最優(yōu)排序結(jié)果。Gong[12]提出了一種基于端到端的指針網(wǎng)絡(luò)的句子排序方法,通過端到端的指針網(wǎng)絡(luò)判斷每個位置上的句子的可能性,求得較優(yōu)排序結(jié)果??凳罎蒣13]提出了一種基于馬爾科夫隨機(jī)游走模型的句子排序方法。
句子排序任務(wù)輸入的句子集合來自于多個不同文檔,句子之間沒有明顯的連接詞,只能通過句子間語義邏輯關(guān)系進(jìn)行排序,為此本文將通過如下的兩個步驟完成句子排序任務(wù)。
(1) 求解句子間的邏輯關(guān)系;
(2) 利用集束搜索算法求解較優(yōu)的句子排序。
句子排序任務(wù)的核心任務(wù)是識別句子間的邏輯關(guān)系。本文首先將句子兩兩組合,形成句子對,例如,一個句子集合有三句話,(句1,句2,句3),將三個句子兩兩組合,并排除自身組合,形成六個句子對,如(句1,句2)、(句1,句3)、(句2,句1)等。將構(gòu)造的句子對輸入到模型中,通過模型得到輸出概率,判斷句子間邏輯關(guān)系。
注意力機(jī)制在機(jī)器翻譯和生成式短文本摘要領(lǐng)域有著廣泛的應(yīng)用,其主要優(yōu)點在于能夠有效地發(fā)掘句子間的內(nèi)在聯(lián)系。注意力機(jī)制的重點放在關(guān)鍵詞上,忽略其他無關(guān)詞匯,能夠有效發(fā)現(xiàn)前后兩句中詞與詞之間的關(guān)系。而詞與詞之間的關(guān)系是句子之間關(guān)系的基礎(chǔ),因此注意力機(jī)制能夠有利于捕捉句子間語義邏輯關(guān)系。本文將注意力機(jī)制引入句子排序模型,提升句子排序的效果。
本文主要貢獻(xiàn)如下:
(1) 提出了一個基于句子匹配(sentence matching)方法[14]的句子排序方法,結(jié)合句子匹配方法,尋找句子間的聯(lián)系,提升模型捕捉句子相關(guān)性的能力。
(2) 提出了基于靜態(tài)注意力(static attention)機(jī)制[15]的句子排序模型,結(jié)合靜態(tài)注意力機(jī)制,利用句子間詞與詞的聯(lián)系,提升模型捕捉句子間語義邏輯關(guān)系的能力。
(3) 提出了基于詞對齊注意力(word-by-word attention)機(jī)制[15]的句子排序模型,結(jié)合詞對齊注意力機(jī)制模型,動態(tài)更新句子間詞與詞之間的權(quán)重,捕捉詞與詞之間的聯(lián)系,提升捕捉句子間語義邏輯關(guān)系的能力。
(4) 提出了一種基于句內(nèi)注意力(inner-attention)機(jī)制[16]的句子排序方法,結(jié)合句內(nèi)注意力機(jī)制,利用句子內(nèi)的最重要信息,尋找句子間聯(lián)系,捕捉兩句子間的語義邏輯關(guān)系。
在答案融合及多文檔摘要任務(wù)中,候選句子是從多個不同文檔中抽取的,句子的順序無法利用其在文檔中的位置來或者顯式的連接詞進(jìn)行排列,只能通過句子間的邏輯關(guān)系進(jìn)行排序。因此,解決句子排序問題的主要方法就是挖掘句子之間的語義邏輯關(guān)系。s中包含n個無序句子s1,s2,s3,…,sn,句子排序的任務(wù)是將n個無序句子排序成有序的句子序列so1,so2,so3,…,son。son對應(yīng)的是排序后的句子。
本文將句子排序任務(wù)分成句子邏輯關(guān)系判斷和排序兩個部分。
(1) 句子邏輯關(guān)系判斷: 句子排序任務(wù)中,句子邏輯關(guān)系判斷可以轉(zhuǎn)化為判斷句子的前后關(guān)系。因此,本文建立模型計算句子si及sj的前后句關(guān)系概率score(s,o,i,j)。
(2) 排序: 本文使用集束搜索算法尋找較優(yōu)句子排序結(jié)果。句子排序任務(wù)的目標(biāo)函數(shù)如式(1)所示。
其中,score(s,o,i,j)是句子si及句子sj的前后關(guān)系的概率,s為句子集合,o為句子順序,目標(biāo)函數(shù)求解使Score(s,o)得分最大的句子順序。
接下來將分別介紹句子語義邏輯關(guān)系判別模型、特征提取方法及如何根據(jù)句子邏輯關(guān)系利用集束搜索算法實現(xiàn)句子排序。
句子語義邏輯關(guān)系判別模型如圖1所示。
圖1 句子語義邏輯關(guān)系判別模型
對于兩個句子的句子語義邏輯關(guān)系判別,本文將其看作一個二分類問題,即句子si與sj是語義邏輯的前后關(guān)系。本文將句子si與sj用預(yù)訓(xùn)練的詞向量進(jìn)行表示,然后通過特征提取層對兩個句子進(jìn)行特征提取,得到特征etra(si,sj),然后輸入到前饋神經(jīng)網(wǎng)絡(luò)中,得到兩句話的前后關(guān)系置信度pij。如果pij>0.5,就說明句子si在句子sj之前更合理,否則,句子si放在句子sj之后更合理。
句子si與sj的概率pij的計算公式如下:
其中,Wh∈RF×h,F為特征提取層得到的特征的維度,h為隱含層維度,bh∈Rh,Wp∈Rh×2,bp∈R2,φ為Relu激活函數(shù),?為Softmax激活函數(shù),損失函數(shù)采用交叉熵?fù)p失函數(shù)。模型的目標(biāo)函數(shù)如式(1)所示,其中score(s,o,i,j)=pij,表示句子si及sj的前后句關(guān)系概率,Score(s,o)為句子順序o下的總分?jǐn)?shù)。
圖1中特征提取是句子語義邏輯關(guān)系判斷的關(guān)鍵一步,其表示語義邏輯關(guān)系的能力關(guān)系到句子邏輯關(guān)系判斷的準(zhǔn)確性。為此,本文在本節(jié)中從句子匹配和注意力機(jī)制兩個角度進(jìn)行特征提取,并基于這些特征進(jìn)行句子語義邏輯關(guān)系的判斷。
1.3.1基于句子匹配的特征提取
Mou[14]提出了一種句子匹配方法(sentence matching),通過對提取的兩個句子特征進(jìn)行拼接、按位乘和按位減操作,得到組合特征。通過組合特征,句子匹配方法能夠有效地識別句子之前的相關(guān)性。而句子間的相關(guān)性是句子邏輯關(guān)系的一個很重要的影響因素,因此本文引入了句子匹配方法提升句子邏輯關(guān)系的判別能力,進(jìn)而提高句子排序效果。
基于句子匹配的特征提取方法如圖2所示。
圖2 基于句子匹配方法的特征提取方法
本文實現(xiàn)了基于句子匹配的特征提取方法,該方法利用LSTM對句子詞向量特征進(jìn)行特征提取,并用句子匹配方法對得到的LSTM特征進(jìn)行進(jìn)一步操作。LSTM全稱是長短時記憶網(wǎng)絡(luò),是一種用來處理時序問題的模型。通常的LSTM具有記憶塊c,c∈RL,其中L為LSTM的維度,LSTM還具有三個門輸入門i,i∈RL,輸出門o,o∈RL,以及遺忘門f,f∈RL。LSTM計算公式如式(4)~(6)所示。
其中WgT∈R(L+F)×4F,L為詞向量長度,bg∈R4F。σ為softmax激活函數(shù),φ為Relu激活函數(shù)。t=1,2,…,n,n為句子長度。句子匹配方法是一種句子特征處理方法,用來尋找句子間的關(guān)系,該方法對句子級別的特征S1、S2分別做三種操作:
(1) 特征向量按位相乘;
(2) 特征向量按位相減;
(3) 特征向量拼接。
將經(jīng)過上述三種操作得到的特征拼接到一起,得到最終特征。
如圖2所示,首先LSTM1和LSTM2分別對句子si及sj進(jìn)行特征提取,并用最后一個單詞的隱向量作為句子si和sj的特征。然后對句子級別特征S1、S2做上述三種操作,得到三種不同特征: (1) [S1,S2],(2)S1*S2,(3)S1-S2。對這三種特征進(jìn)行拼接,得到句子匹配的特征向量S=[ [S1,S2];S1*S2;S1-S2]。最后,將得到的特征S輸入到前饋神經(jīng)網(wǎng)絡(luò)中,得到前后句關(guān)系概率pij。
1.3.2基于靜態(tài)注意力機(jī)制的特征提取
注意力機(jī)制能夠?qū)蓚€句子中詞語之間的關(guān)系進(jìn)行建模,通過計算句1所有詞與句2每個詞之間的權(quán)重,從而發(fā)現(xiàn)不同句子中詞與詞的關(guān)系。兩個句子中詞語的關(guān)系有助于捕獲句子間的語義邏輯關(guān)系。為此,本文引入注意力機(jī)制提取句子特征,提升句子排序結(jié)果,增強(qiáng)模型的可視化能力和可解釋性。
靜態(tài)注意力機(jī)制是注意力機(jī)制中常用的模型之一,靜態(tài)注意力機(jī)制根據(jù)前句所有節(jié)點隱藏層的輸出及后句最終節(jié)點隱藏層的輸出計算得到特征。在句子排序任務(wù)中,靜態(tài)注意力機(jī)制能夠計算前后兩個句子中詞之間的關(guān)系,在一定程度上能夠增強(qiáng)模型捕捉句子語義邏輯關(guān)系的能力。
本文使用基于靜態(tài)注意力機(jī)制的序列-序列(sequence to sequence, seq2seq)模型對句子對si和sj進(jìn)行特征提取。在神經(jīng)機(jī)器翻譯模型中,序列-序列模型通常用來將某種語言的一個句子翻譯成另一種語言的一個句子,其一般由編碼器及解碼器組成。本文采用LSTM作為中編碼器及解碼器的構(gòu)成單元,首先通過編碼器將輸入句si映射成隱向量,然后結(jié)合靜態(tài)注意力機(jī)制,在解碼階段預(yù)測sj在si條件下的生成概率。從這個序列到序列映射過程中學(xué)習(xí)兩個句子si和sj語義邏輯關(guān)系特征。圖3是基于靜態(tài)注意力機(jī)制的特征提取模型。
圖3 基于靜態(tài)注意力機(jī)制的特征提取模型
基于靜態(tài)注意力機(jī)制的特征提取計算如式(7)~(10)所示。
其中Wy、Wh∈RFxF,eL∈RF,w∈RF,Wp、Wx∈RFxF。Wy、Wh、Wp、Wx、w、eL是隨機(jī)生成的可訓(xùn)練的向量矩陣。Y是編碼階段所有的隱藏層輸出,hn是解碼階段最后一個狀態(tài)的隱藏層輸出。r是由編碼階段及hn計算出的權(quán)重表示。h*是最終輸出的特征,最終將h*輸入到前饋神經(jīng)網(wǎng)絡(luò)中。
1.3.3基于詞對齊的注意力機(jī)制的特征提取
基于靜態(tài)注意力機(jī)制的特征提取在注意力特征計算階段,只計算編碼階段隱藏層輸出與解碼階段最終輸出,沒有考慮解碼階段所有節(jié)點輸出與編碼階段隱藏層輸出的關(guān)系。為了提升模型捕捉句子語義邏輯關(guān)系的能力,本文將詞對齊注意力機(jī)制引入模型中,詞對齊的注意力機(jī)制能計算編碼階段與解碼階段詞與詞的關(guān)系,提高模型捕捉語義邏輯關(guān)系的能力。
圖4 基于詞對齊注意力機(jī)制的特征提取模型
基于詞對齊的注意力機(jī)制的特征提取模型如圖4 所示,計算如式(11)~(14)所示。
其中,Wy、Wh、Wr∈RFxF,eL∈RF,w∈RF,Wp、Wx、Wt∈RFxF,Wy、Wh、Wr、Wt、w、eL是隨機(jī)生成的可訓(xùn)練的向量矩陣,用來計算注意力權(quán)重分布。Wp、Wx同樣是可訓(xùn)練的向量矩陣,用來計算最后的輸出。ht是解碼階段t階段的隱藏層輸出。rt-1是上一時間節(jié)點計算出的權(quán)重表示,h*是最終輸出的特征,然后將h*輸入到前饋神經(jīng)網(wǎng)中。
1.3.4基于句內(nèi)注意力機(jī)制的特征提取
Liu[16]提出了一種基于句內(nèi)注意力機(jī)制的方法,使用雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)(bidirectional long short-term memory, BiLSTM),提取句子級別的特征,將BiLSTM所有隱藏層輸出Y做均值池化(mean-pooling),得到Rmean,相當(dāng)于詞對齊注意力模型的解碼階段的最終輸出。Y與Rmean做attention計算,得到句子特征表示Si。前后兩個句子的句子特征Si、Sj做拼接、按位乘和按位減,最終得到輸出特征S。
本文嘗試將句內(nèi)注意力機(jī)制應(yīng)用到句子排序中,句內(nèi)注意力機(jī)制提取出的特征相較于LSTM特征能更好地保留核心信息,相較于基于句子匹配方法的特征提取,能夠更好地捕捉句子間的語義邏輯關(guān)系。與靜態(tài)注意力機(jī)制及詞對齊注意力機(jī)制的捕捉語義邏輯關(guān)系的方式不同,句內(nèi)注意力機(jī)制的核心是靜態(tài)注意力機(jī)制及句子匹配方法,通過靜態(tài)注意力機(jī)制更好地提取句子級別的特征,同時利用句子匹配方法捕捉句子邏輯關(guān)系。
基于句內(nèi)注意力機(jī)制的特征提取模型如圖5所示。
圖5 基于句內(nèi)注意力機(jī)制的特征提取模型
基于句內(nèi)注意力機(jī)制的特征提取如式(15)~(18)所示。
其中,Wy、Wh∈RF×F,eL∈RF,w∈RF,Wp、Wx∈RF×F。Wy、Wh、Wp、Wx、eL、w是隨機(jī)生成的可訓(xùn)練的向量矩陣。Y是編碼階段所有隱藏層的輸出,Rmean是Y做均值池化運算后的輸出。r是Y及Rmean計算出的權(quán)重表示,h*是最終注意力特征計算層的輸出。
在求解出所有句子間的語義邏輯關(guān)系后,本文使用集束搜索(beam search)算法求解最優(yōu)排序。 基于集束搜索的句子排序算法如算法1所示。
BeamSearch算法偽代碼#S為待排序句子集合#Beam用來記錄句子候選序列o以及得分score,Beam大小設(shè)置為NBeam=[[o=[s],score]forsinS]Foriinrange(step):#get_table獲取Beam中所有可能的序列已訪問的節(jié)點 Hash_table=get_table(Beam) New_beam=[] #生成候選排序,后繼節(jié)點不在Hash_table中 Foro,scoreinBeam: ForsinS: IfsnotinHash_table(o): New_o=o.a(chǎn)ppend(s) New_score=score+p(o[1],s) tmp=[New_o,New_score] New_beam.a(chǎn)ppend(tmp) #取New_beam中最好的N個候選生成新的Beam表 Beam=get_max(New_beam)算法1 基于集束搜索的句子排序算法
在本文中,通過捕捉句子間的邏輯關(guān)系來完成句子排序任務(wù)。因此本文建立的是二分類模型,本文利用句子在文章中的順序來生成訓(xùn)練數(shù)據(jù)(Si,Sj,p),即,如果句子Si和句子Sj在文章中是前后句關(guān)系,那么p=1,如果二者不是前后句關(guān)系,則p=0。訓(xùn)練數(shù)據(jù)的正負(fù)比例為1:1。
模型訓(xùn)練的目標(biāo)函數(shù)是交叉熵函數(shù),計算公式如式(19)所示。
其中pxi是模型輸出的前后句關(guān)系概率,θ是模型參數(shù)。
本文采用mini-batch隨機(jī)梯度下降的方法來訓(xùn)練本文的模型,同時在前饋神經(jīng)網(wǎng)絡(luò)每一層中加入batch normalization[17]加快訓(xùn)練速度,通過加入batch normalization可以使模型采用較大的學(xué)習(xí)率,加快模型訓(xùn)練速度。
本文對百度百科語料和新華社新聞?wù)Z料進(jìn)行了句子排序?qū)嶒?,來驗證本文提出的句子排序模型。本文從兩個數(shù)據(jù)集中抽取出句子數(shù)量大于2的段落作為語料并劃分為訓(xùn)練集與測試集。其中新華社語料多是事實的陳述,百度百科語料比較復(fù)雜,包含人物介紹、事物介紹、文言文、新聞和書籍介紹,比如莫言的作品介紹。本文將訓(xùn)練集中得到的句子對作為訓(xùn)練數(shù)據(jù),其中在原段落中為前后句關(guān)系的句子對作為正例,其他情況作為負(fù)例,正負(fù)例比例為1:1。
各個數(shù)據(jù)集篇章數(shù)量如表1所示。
表1 數(shù)據(jù)集篇章數(shù)量
各個數(shù)據(jù)集句子對數(shù)量如表2所示。
表2 數(shù)據(jù)集句子對數(shù)量
本文采用PMR準(zhǔn)則來評估模型, PMR計算如式(20)所示。
PMR評價準(zhǔn)則表示排序后的句子,如果在原來的位置上,則累加1,不在則累加0,最終除以句子總數(shù)。
dropout參數(shù)影響模型的泛化能力,句子長度通過統(tǒng)計句子的平均長度進(jìn)行設(shè)置。mini-batch影響模型的下降速度,同時在一定程度上影響模型結(jié)果。因為本文引入batch normalization,可以設(shè)置較大的學(xué)習(xí)率,增強(qiáng)模型的收斂速度。LSTM及雙向LSTM隱藏層維度與詞向量維度保持一致。
基線及各個方法的參數(shù)設(shè)置如下: dropout大小設(shè)置為0.5,輸入到模型中的句子長度保留30詞,對于長度不夠的句子進(jìn)行補(bǔ)0處理,對于過長的句子進(jìn)行截斷處理。mini-batch大小設(shè)置為64,學(xué)習(xí)率設(shè)置為0.3。在前饋神經(jīng)網(wǎng)終中每一層加入batch normalization進(jìn)行數(shù)據(jù)歸一化。詞向量長度為200,LSTM及雙向LSTM隱藏層長度為200,前饋神經(jīng)網(wǎng)絡(luò)隱藏層長度設(shè)置為100。
句子排序的實驗結(jié)果如表3所示。
表3 句子排序的實驗結(jié)果
表3中除了句子匹配方法在新華社語料上的排序結(jié)果,本文提出的句子排序模型(包括基于句子匹配方法和基于注意力機(jī)制的方法) 在句子排序任務(wù)中表現(xiàn)優(yōu)于基線方法,特別是基于詞對齊注意力機(jī)制和基于句內(nèi)注意力機(jī)制的模型。這些句子排序效果的提升主要是由于本文提出的句子排序模型有較強(qiáng)的捕捉句子語義邏輯關(guān)系的能力。句子匹配模型可以從句子層面描述句子之間的相關(guān)性,而基于注意力機(jī)制的句子排序模型則通過捕獲句子中詞語之間的相關(guān)關(guān)系。這兩種相關(guān)性信息是句子語義邏輯關(guān)系的兩個關(guān)鍵因素,因此引入這兩種特征能夠提升句子排序效果。
句子匹配方法在百度百科語料上的表現(xiàn)好于基線方法,但在新華社語料上比基線方法差。句子匹配方法捕捉句子語義邏輯關(guān)系的核心操作是按位乘、按位減、拼接,通過計算特征向量的差異性來捕捉句子語義邏輯關(guān)系。新華社語料多為事實陳述型語料,句子匹配方法不能很好地捕捉事實陳述型語料句子間的差異性。因此句子匹配方法在新華社語料上表現(xiàn)較差。
基于靜態(tài)注意力機(jī)制的句子排序方法,在新華社語料上比基線方法有了顯著提高,達(dá)到 41.49%,而在百度百科語料上的效果與基線方法相當(dāng)。百度百科含有大量噪聲,如文言文、詩詞歌賦等,靜態(tài)注意力機(jī)制不能很好地捕捉文言文、詩詞歌賦的語義邏輯關(guān)系,僅達(dá)到基線方法水平。
與Chen的基線方法相比,詞對齊和句內(nèi)注意力模型在新華社語料和百度百科語料上句子排序結(jié)果取得了4%~6%的PMR提升。詞對齊注意力模型可以識別兩個句子之間的詞與詞對齊關(guān)系,而這種詞與詞的對齊關(guān)系恰好是句子語義邏輯關(guān)系的一種表現(xiàn)形式,因此詞對齊注意力模型捕獲句子語義邏輯關(guān)系的能力更強(qiáng)。句內(nèi)注意力模型則是通過句內(nèi)注意力增強(qiáng)句子特征的語義表示能力,提高語義邏輯判斷的準(zhǔn)確性,從而實現(xiàn)了更好的句子排序。此外,詞對齊和句內(nèi)注意力模型的上述特點也使得其在不同數(shù)據(jù)集上的句子排序結(jié)果具有穩(wěn)定性(所謂模型穩(wěn)定性,就是在不同數(shù)據(jù)集上實驗結(jié)果都獲得了提高,并且提高的幅度相當(dāng))。
本文的主要貢獻(xiàn)是將句子匹配方法、靜態(tài)注意力機(jī)制、詞對齊注意力機(jī)制及句內(nèi)注意力機(jī)制引入句子排序任務(wù)中,捕捉句子間的語義邏輯關(guān)系,提升句子排序的準(zhǔn)確性,增強(qiáng)段落的可讀性。實驗證明注意力機(jī)制能夠更有效地提升句子排序效果。
本文的主要目的是探索句子匹配方法和注意力機(jī)制在句子排序中發(fā)揮的作用,為句子排序提供語義信息更強(qiáng)的特征。而將多種特征融合也是句子排序研究中的一個重要方面,在未來的工作中,我們將進(jìn)一步研究將句子匹配方法和注意力機(jī)制等多種特征融合在一起的方法,進(jìn)而更好地實現(xiàn)句子排序。
[1]韓永峰, 許旭陽, 李弼程,等. 基于事件抽取的網(wǎng)絡(luò)新聞多文檔自動摘要[J]. 中文信息學(xué)報, 2012, 26(1):58-66.
[2]劉平安. 基于HLDA模型的中文多文檔摘要技術(shù)研究[D]. 北京: 北京郵電大學(xué)碩士學(xué)位論文, 2012.
[3]Wang L, Raghavan H, Castelli V, et al. A sentence compression based framework to query-focused multi-document summarization[J]. aiXiv preprint arXiv: 1606.07548,2016.
[4]劉秉權(quán), 徐振, 劉峰,等. 面向問答社區(qū)的答案摘要方法研究綜述[J]. 中文信息學(xué)報, 2016, 30(1):1-8.
[5]Ferreira R, Cabral L D S, Freitas F, et al. A multi-document summarization system based on statistics and linguistic treatment[J]. Expert Systems with Applications, 2014, 41(13):5780-5787.
[6]徐永東, 王亞東, 劉楊,等. 多文檔文摘中基于時間信息的句子排序策略研究[J]. 中文信息學(xué)報, 2009, 23(4):27-33.
[7]姚超, 李生, 張姝,等. 基于內(nèi)聚度的多文檔文摘句子排序[C]. 中文信息處理前沿進(jìn)展 中國中文信息學(xué)會二十五周年學(xué)術(shù)會議,2006.
[8]Chen Xinchi, Qiu Xipeng, Huang Xuanjing. Neural sentence ordering. arXiv preprint arXiv:1607.06952,2016.
[9]Simard P Y, Steinkraus D, Platt J C. Best practices for convolutional neural networks applied to visual document analysis[C]//Proceedings of International Conference on Document Analysis and Recognition, IEEE, 2003: 958.
[10]Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural Computation, 1997,9(8): 1735-1780.
[11]Logeswaran L, Lee H, Radev D. Sentence ordering using recurrent neural networks[J]. arXiv preprint arXiv:1611.02654, 2016.
[12]Gong J, Chen X, Qiu X, et al. End-to-end neural sentence ordering using pointer network[J]. arXiv preprint arXiv:1611.04953, 2016.
[13]康世澤, 馬宏, 黃瑞陽. 一種基于神經(jīng)網(wǎng)絡(luò)模型的句子排序方法[J]. 中文信息學(xué)報, 2016, 30(5):195-202.
[14]Mou L, Men R, Li G, et al. Recognizing entailment and contradiction by tree-based convolution[J]. arXiv preprint, 2016.
[15]Rockt?aschel T, Grefenstette E, Hermann K M, et al. Reasoning about entailment with neural attention[J]. arXiv preprint arXiv: 1509.06664.
[16]Liu Y, Sun C, Lin L, et al. Learning natural language inference using bidirectional LSTM model and inner-attention[J]. arXiv preprint arXiv:1605.09090, 2016.
[17]Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[C]//Proceedings of International Conference on Machine Learning, 2015: 448-456.