張洪剛 李煥
(北京郵電大學(xué) 信息與通信工程學(xué)院, 北京 100876)
基于雙向長(zhǎng)短時(shí)記憶模型的中文分詞方法*
張洪剛 李煥
(北京郵電大學(xué) 信息與通信工程學(xué)院, 北京 100876)
中文分詞是中文自然語(yǔ)言處理中的關(guān)鍵基礎(chǔ)技術(shù)之一.目前,傳統(tǒng)分詞算法依賴于特征工程,而驗(yàn)證特征的有效性需要大量的工作.基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法的興起使得模型自動(dòng)學(xué)習(xí)特征成為可能.文中基于深度學(xué)習(xí)中的雙向長(zhǎng)短時(shí)記憶(BLSTM)神經(jīng)網(wǎng)絡(luò)模型對(duì)中文分詞進(jìn)行了研究.首先從大規(guī)模語(yǔ)料中學(xué)習(xí)中文字的語(yǔ)義向量,再將字向量應(yīng)用于BLSTM模型實(shí)現(xiàn)分詞,并在簡(jiǎn)體中文數(shù)據(jù)集(PKU、MSRA、CTB)和繁體中文數(shù)據(jù)集(HKCityU)等數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn).實(shí)驗(yàn)表明,在不依賴特征工程的情況下,基于BLSTM的中文分詞方法仍可取得很好的效果.
深度學(xué)習(xí);神經(jīng)網(wǎng)絡(luò);雙向長(zhǎng)短時(shí)記憶;中文分詞
中文分詞是中文自然語(yǔ)言處理中的關(guān)鍵基礎(chǔ)技術(shù)之一,是其他中文文本任務(wù)(如命名實(shí)體識(shí)別、句法分析、語(yǔ)義分析等)的前期關(guān)鍵處理環(huán)節(jié),其分詞的準(zhǔn)確性對(duì)中文自然語(yǔ)言處理尤為重要.
傳統(tǒng)機(jī)器學(xué)習(xí)方法在中文分詞領(lǐng)域取得了飛速發(fā)展,有著豐富的分詞算法,如最大正向匹配、最大逆向匹配、雙向匹配等基于詞典的方法.基于詞典的分詞算法針對(duì)輸入的中文句子,通過(guò)與詞典進(jìn)行對(duì)比,將輸入的中文句子分成單字或多字組成的詞,從而達(dá)到分詞的目的.然而,由于中文句子是連續(xù)的文字,存在大量的歧義和未登錄詞問題,嚴(yán)重影響最終的切分效果.
(1) 中文歧義識(shí)別.歧義是指同樣一個(gè)句子,有多種切分方法.中文歧義一般分為交集型歧義、覆蓋型歧義和真歧義.對(duì)于一個(gè)句子,必須根據(jù)上下文語(yǔ)境,才能得到正確的分詞結(jié)果.
(2) 未登錄詞識(shí)別問題.由于中文本身所具有的復(fù)雜性,不存在包含所有中文詞語(yǔ)的詞典,待切分語(yǔ)句中很有可能存在詞典中沒有收錄的詞,即未登錄詞.未登錄詞包含地名、人名等,嚴(yán)重影響了中文分詞的準(zhǔn)確率和效率.
傳統(tǒng)分詞方法依賴于詞典匹配,不能很好地解決中文歧義和未登錄詞問題.為解決這兩個(gè)關(guān)鍵問題,很多研究工作集中于基于字標(biāo)注的中文分詞方法.基于字標(biāo)注的中文分詞方法假設(shè)一個(gè)詞語(yǔ)內(nèi)部文本高內(nèi)聚,詞語(yǔ)的邊界與外部文字低耦合.通過(guò)統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法判斷詞邊界是當(dāng)前中文分詞的主流做法,主要使用序列標(biāo)注模型進(jìn)行BMES標(biāo)注.Xue[1]提出了基于HMM模型的字標(biāo)注分詞方法,劉群等[2]提出了基于層疊隱馬模型的漢語(yǔ)詞法分析方法,Peng等[3]提出了基于子分類的CRF模型進(jìn)行中文分詞.對(duì)于字標(biāo)注中文分詞方法的改進(jìn)包括設(shè)計(jì)更多高效的特征[4]和引入更多的標(biāo)簽選擇[5]以及將無(wú)監(jiān)督機(jī)器學(xué)習(xí)算法中使用的特征引入到有監(jiān)督方法中[6]等.然而,傳統(tǒng)機(jī)器學(xué)習(xí)算法依賴于人工設(shè)計(jì)的特征,而一個(gè)特征的有效性需要反復(fù)嘗試和驗(yàn)證.因此,中文分詞任務(wù)的特征工程是一個(gè)巨大的挑戰(zhàn).
近些年來(lái),隨著深度學(xué)習(xí)的興起,基于神經(jīng)網(wǎng)絡(luò)的模型被更多地運(yùn)用于自然語(yǔ)言處理領(lǐng)域,如詞性標(biāo)注、命名實(shí)體識(shí)別、情感分類等任務(wù).Collobert等[7]設(shè)計(jì)了SENNA系統(tǒng),利用神經(jīng)網(wǎng)絡(luò)解決了英文序列標(biāo)注問題;Zheng等[8]利用SENNA系統(tǒng)實(shí)現(xiàn)了中文分詞和詞性標(biāo)注,并提出一個(gè)感知機(jī)算法加速訓(xùn)練過(guò)程;Chen等[9]將門控遞歸神經(jīng)網(wǎng)絡(luò)(GRNN)運(yùn)用于中文分詞任務(wù)中,取得了很好的效果.研究表明,深度學(xué)習(xí)在避免了繁瑣的特征工程的情況下,在自然語(yǔ)言處理領(lǐng)域取得了巨大的成功.
但是,這些研究提出的方案和模型,并沒有充分挖掘神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理任務(wù)上的潛力.在中文分詞任務(wù)中,句子序列上下文依賴信息對(duì)中文分詞的準(zhǔn)確性起著重要的作用.而傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)只能利用句子序列的上文信息,無(wú)法利用未來(lái)信息.為了解決這個(gè)問題,文中提出一個(gè)基于雙向長(zhǎng)短時(shí)記憶(BLSTM)的神經(jīng)網(wǎng)絡(luò)模型,以有效利用序列數(shù)據(jù)中的上下文依賴信息.
中文分詞任務(wù)可以看成是基于單字的序列標(biāo)注任務(wù).與其他基于字的分詞方法相似,文中采用BMES標(biāo)注方式來(lái)對(duì)漢字進(jìn)行標(biāo)注.對(duì)于多字詞,詞語(yǔ)中的第一個(gè)漢字標(biāo)簽為B,中間字的標(biāo)簽為M,最后一個(gè)漢字標(biāo)簽為E;對(duì)于單字詞,其標(biāo)簽為S.
1.1 模型框架和流程
基于神經(jīng)網(wǎng)絡(luò)的序列標(biāo)注任務(wù)常用的模型框架主要由三部分構(gòu)成,第1部分利用詞向量(Word Embedding)技術(shù)將輸入的中文字符轉(zhuǎn)成一個(gè)向量矩陣,中間部分是典型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),最后一層是標(biāo)簽判別層,利用Softmax方法輸出句子序列的標(biāo)簽信息,具體模型框架如圖1所示.
對(duì)于一個(gè)長(zhǎng)度為n的句子c(1∶n),文中選取一個(gè)包括上下文和當(dāng)前字、長(zhǎng)度為ω的詞窗,其中上文和下文均為(ω-1)/2個(gè)字.圖中第1層輸入長(zhǎng)度為ω的原始文本,經(jīng)過(guò)第1層將每個(gè)字轉(zhuǎn)換成其相對(duì)應(yīng)的長(zhǎng)度為d的向量vi,將ω個(gè)向量組成ω×d的輸入矩陣x(t)作為神經(jīng)網(wǎng)絡(luò)的輸入層.從輸入層到隱藏層的函數(shù)為
z(t)=W1x(t)+b1
(1)
式中,W1表示輸入層到隱藏層的連接權(quán)值矩陣,b1為隱藏層的偏置參數(shù)矩陣.
圖1 中文分詞模型框架
h(t)=σ(z(t))
(2)
輸出層函數(shù)為
y(t)=W2h(t)+b2
(3)
式中,W2表示隱藏層到輸出層的權(quán)值矩陣,b2為輸出層的偏置參數(shù)矩陣,y(t)為當(dāng)前字被打上不同標(biāo)簽的概率.
筆者在這個(gè)框架的基礎(chǔ)上進(jìn)行改進(jìn),在中間神經(jīng)網(wǎng)絡(luò)部分引入BLSTM,其能夠有效利用句子序列中的上下文依賴信息.
1.2 相關(guān)原理介紹
1.2.1 詞向量
詞向量技術(shù)是將深度學(xué)習(xí)引入自然語(yǔ)言處理的核心技術(shù),該技術(shù)使用一個(gè)稠密的特征向量代替原來(lái)的one-hot稀疏向量來(lái)表示每個(gè)詞匯.研究表明,這種特征向量能夠很好地表示詞的語(yǔ)義和句法信息[10].
具體地,筆者使用訓(xùn)練語(yǔ)料集中包含的所有字單元建立一個(gè)大小為d×N的漢字字典矩陣D,其中d為每個(gè)字向量的長(zhǎng)度,N為字典的大小.漢字字典包含系統(tǒng)中可以處理的所有漢字和用于表示除這些漢字以外的其他字符(如數(shù)字、標(biāo)點(diǎn)、未登錄字等)的替代符號(hào).每個(gè)字都可以從字典中找到對(duì)應(yīng)的字向量來(lái)代替,輸入的句子可以由一個(gè)實(shí)值的矩陣表示.研究表明,使用大規(guī)模無(wú)監(jiān)督學(xué)習(xí)得到的字向量作為輸入矩陣的初始值比隨機(jī)初始化有著更優(yōu)的效果[11].
1.2.2 傳統(tǒng)RNN
傳統(tǒng)RNN的核心思想是在網(wǎng)絡(luò)隱藏層中增加節(jié)點(diǎn)間的互連.通過(guò)這種連接,隱藏層能夠保存并利用歷史信息來(lái)輔助處理當(dāng)前數(shù)據(jù),網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.
圖2 RNN網(wǎng)絡(luò)結(jié)構(gòu)示意圖
將RNN網(wǎng)絡(luò)按時(shí)間進(jìn)行展開的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示.
圖3 RNN展開結(jié)構(gòu)示意圖
圖中的每個(gè)節(jié)點(diǎn)表示在每個(gè)時(shí)刻RNN網(wǎng)絡(luò)的一層.w1表示輸入層到隱藏層的連接權(quán)值,w2表示從上一時(shí)刻隱藏層到當(dāng)前時(shí)刻隱藏層的連接權(quán)值,w3表示隱藏層到輸出層的權(quán)值.在RNN中,每一個(gè)時(shí)刻的權(quán)值都是共享的,當(dāng)前時(shí)刻的輸出依賴于上一時(shí)刻.
第t時(shí)刻隱藏層的輸出為
h(t)=g(Uh(t-1)+Wx(t)+b)
(4)
式中,U為RNN中輸入層到隱藏層的權(quán)值矩陣,W為隱藏層到輸出層的權(quán)值矩陣,x(t)為第t時(shí)刻的輸入,b為偏置參數(shù),g通常選用tanh函數(shù)作為激活函數(shù).模型的迭代過(guò)程從t=1時(shí)刻開始,隨著t的增長(zhǎng),迭代使用式(4)進(jìn)行計(jì)算.
1.2.3 雙向RNN
對(duì)自然語(yǔ)言處理領(lǐng)域的許多任務(wù)來(lái)說(shuō),未來(lái)的信息和歷史信息同樣重要.例如,在命名實(shí)體識(shí)別任務(wù)中,對(duì)于當(dāng)前詞的識(shí)別,在它之前和在它之后的詞語(yǔ)信息一樣重要.但是,傳統(tǒng)的RNN只能單向輸入序列信息,無(wú)法利用未來(lái)的信息.于是,Schuster等[12]提出了雙向RNN(BRNN),核心思想是將序列信息分兩個(gè)方向分別輸入模型中,模型使用兩個(gè)隱藏層分別保存兩個(gè)方向輸入數(shù)據(jù)的信息,并將相應(yīng)的輸出連接到相同的輸出層.BRNN的展開形式如圖4所示.
圖4 BRNN展開結(jié)構(gòu)示意圖
Fig.4 Schematic diagram of an unrolled bidirectional recurrent neural network
BRNN理論上可以讓模型在處理當(dāng)前數(shù)據(jù)的時(shí)候同時(shí)利用到整個(gè)序列的上下文信息.
1.2.4 LSTM
傳統(tǒng)的RNN展開后相當(dāng)于一個(gè)多層的神經(jīng)網(wǎng)絡(luò),當(dāng)層數(shù)過(guò)多時(shí)會(huì)導(dǎo)致參數(shù)訓(xùn)練的梯度消失問題,從而導(dǎo)致長(zhǎng)距離歷史信息損失.因此,傳統(tǒng)RNN在實(shí)際應(yīng)用時(shí),能夠利用的歷史信息非常有限.
為了彌補(bǔ)傳統(tǒng)RNN的缺陷,Hochreiter等[13]提出了LSTM,替代傳統(tǒng)RNN隱藏層中的RNN網(wǎng)絡(luò),用于解決RNN的梯度消失問題.LSTM單元結(jié)構(gòu)如圖5所示.
LSTM設(shè)計(jì)了記憶單元用于保存歷史信息.歷史信息分別受到輸入門、遺忘門、輸出門的控制.LSTM被成功應(yīng)用于多個(gè)自然語(yǔ)言處理任務(wù)中,如文本分類[14]、機(jī)器翻譯[15]、語(yǔ)言模型[16]等.
圖5 LSTM單元結(jié)構(gòu)示意圖
設(shè)h為L(zhǎng)STM的單元輸出,c為L(zhǎng)STM記憶單元的值,x為輸入的數(shù)據(jù).LSTM記憶單元的更新如下步驟所示:
(5)
(2) 在LSTM中,輸入門用于控制當(dāng)前數(shù)據(jù)對(duì)記憶單元的影響.設(shè)輸入門的狀態(tài)值為i(t),i(t)的計(jì)算除了受當(dāng)前輸入數(shù)據(jù)x(t)和上一時(shí)刻LSTM單元輸出值h(t-1)的影響之外,還受到上一時(shí)刻記憶單元值c(t-1)的影響,bi為偏置參數(shù),則有
i(t)=σ(Wxix(t)+Whih(t-1)+Wcic(t-1)+bi)
(6)
式中,σ取值范圍為(0,1).
(3) 遺忘門用于控制歷史信息對(duì)于當(dāng)前記憶單元狀態(tài)值的影響.設(shè)遺忘門的值為f(t),bf為偏置參數(shù),則有
f(t)=σ(Wxfx(t)+Whfh(t-1)+Wcfc(t-1)+bf)
(7)
(4) 設(shè)c(t)為當(dāng)前時(shí)刻記憶單元的狀態(tài)值,則有
(8)
(5) 設(shè)輸出門的輸出狀態(tài)值為o(t),用于控制記憶單元狀態(tài)值的輸出,bo為偏置參數(shù),則有
o(t)=σ(Wxox(t)+Whoh(t-1)+Wcoc(t-1)+bo)
(9)
(6)最后,LSTM單元的輸出計(jì)算公式為
h(t)=δ(o(t),tanh(c(t)))
(10)
LSTM通過(guò)輸入門、遺忘門和輸出門的設(shè)計(jì),使得LSTM具有保存、讀取和更新長(zhǎng)距離歷史信息的能力.
1.2.5BLSTM
BLSTM將BRNN和LSTM這兩種改進(jìn)的RNN模型組合在一起,在雙向RNN模型中使用LSTM記憶單元.BLSTM在多項(xiàng)自然語(yǔ)言處理任務(wù)中表現(xiàn)出色,如序列標(biāo)注[17]、手寫數(shù)字識(shí)別[18]、視頻字幕提取[19].BLSTM是文中重點(diǎn)研究的模型.
1.2.6Dropout
Dropout是一種防止神經(jīng)網(wǎng)絡(luò)模型過(guò)擬合的技術(shù),由Srivastava等[20]在2014年提出.Dropout在模型訓(xùn)練的時(shí)候,隨機(jī)選取一定比例p的隱藏節(jié)點(diǎn)不工作.不工作的節(jié)點(diǎn)對(duì)應(yīng)的權(quán)值在當(dāng)前訓(xùn)練中不更新.但是在模型使用時(shí),應(yīng)用所有的節(jié)點(diǎn),將網(wǎng)絡(luò)恢復(fù).Dropout技術(shù)可用于解決深度神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練過(guò)程中的過(guò)擬合問題,能有效降低錯(cuò)誤率,提升系統(tǒng)性能.
2.1 數(shù)據(jù)集與實(shí)驗(yàn)環(huán)境
文中選用了4種常見數(shù)據(jù)集(PKU、MSRA、CTB、HKCityU)進(jìn)行實(shí)驗(yàn).在實(shí)驗(yàn)過(guò)程中,將數(shù)據(jù)集的前90%作為訓(xùn)練集,后10%作為測(cè)試集.實(shí)驗(yàn)采用了分詞評(píng)測(cè)常用的P(準(zhǔn)確率)、R(召回率)和F(綜合指標(biāo)F 值)等評(píng)測(cè)指標(biāo).實(shí)驗(yàn)在內(nèi)存為8G的Linux系統(tǒng)上進(jìn)行,采用的編程語(yǔ)言為Python,并利用GPU對(duì)模型訓(xùn)練進(jìn)行加速.
2.2 實(shí)驗(yàn)結(jié)果
2.2.1 字向量長(zhǎng)度設(shè)置
文中采用word2vec方法[21],在大規(guī)模的無(wú)標(biāo)注語(yǔ)料上進(jìn)行字向量訓(xùn)練,將訓(xùn)練完成的字向量作為本次實(shí)驗(yàn)的詞向量.
字向量的長(zhǎng)度對(duì)中文分詞的速度和準(zhǔn)確度都起著至關(guān)重要的作用.文中采用不同長(zhǎng)度的字向量,基于BLSTM模型和PKU數(shù)據(jù)集進(jìn)行了第1步實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表1.
表1 不同長(zhǎng)度的字向量的BLSTM性能對(duì)比
Table 1 Performance of BLSTM with different embedding dimensions
字向量長(zhǎng)度P/%R/%F/%10092.391.992.112892.692.292.320095.194.694.830090.890.490.6
由實(shí)驗(yàn)結(jié)果可知,模型在字向量長(zhǎng)度為200時(shí),性能達(dá)到最優(yōu).當(dāng)字向量長(zhǎng)度大于200之后,模型變得更難訓(xùn)練且性能下降,說(shuō)明在將字向量應(yīng)用到中文分詞中時(shí),向量長(zhǎng)度不應(yīng)過(guò)大.
2.2.2 Dropout設(shè)置
Dropout可以防止神經(jīng)網(wǎng)絡(luò)模型過(guò)擬合.文中采用不同的Dropout 比例,在PKU數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果見表2.
表2 不同Dropout比例的BLSTM性能對(duì)比
由實(shí)驗(yàn)結(jié)果可知,當(dāng)Dropout比例為20%時(shí),模型性能達(dá)到最優(yōu),但并沒有顯著提升.當(dāng)Dropout 比例為50%時(shí),由于訓(xùn)練中不工作的節(jié)點(diǎn)過(guò)多,模型欠擬合,導(dǎo)致性能下降.
2.2.3 初始化方式設(shè)置
為了驗(yàn)證字向量初始化對(duì)中文分詞效果的影響,本實(shí)驗(yàn)對(duì)字向量初始化和隨機(jī)初始化這兩種初始化方式分別在PKU數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表3.
表3 不同初始化方式的BLSTM性能對(duì)比
由實(shí)驗(yàn)結(jié)果可知,使用訓(xùn)練好的字向量作為輸入矩陣的初始值相比隨機(jī)初始化,有著更優(yōu)的性能.
2.2.4 實(shí)驗(yàn)結(jié)果分析和比較
經(jīng)過(guò)上述3次實(shí)驗(yàn),文中采用長(zhǎng)度為200的字向量和20%的Dropout比例進(jìn)行實(shí)驗(yàn),并將實(shí)驗(yàn)結(jié)果與其他學(xué)者的實(shí)驗(yàn)結(jié)果進(jìn)行比較.各個(gè)模型的實(shí)驗(yàn)結(jié)果對(duì)見表4,和其他學(xué)者的實(shí)驗(yàn)結(jié)果對(duì)比見表5.
表4 BLSTM與BRNN、LSTM模型的性能對(duì)比
表5 BLSTM和其他學(xué)者的實(shí)驗(yàn)結(jié)果(F值)對(duì)比
表4列出了BLSTM、BRNN和LSTM等神經(jīng)網(wǎng)絡(luò)模型的實(shí)驗(yàn)結(jié)果(F值).對(duì)比表明,BLSTM模型在簡(jiǎn)體中文和繁體中文中都取得了很好的分詞效果;在相同的數(shù)據(jù)集上,BLSTM比LSTM、BRNN取得了更優(yōu)的實(shí)驗(yàn)結(jié)果.
表5列出了筆者與其他學(xué)者的實(shí)驗(yàn)結(jié)果.其中,Zhao等[22]基于CRF模型,提出了一個(gè)中文分詞系統(tǒng);Zhang等[23]采用基于詞的分詞算法,從整個(gè)詞中提取所需特征;Collobert等[7]提出了基于子分類的CRF模型進(jìn)行中文分詞,采用了大量的人工設(shè)計(jì)的特征;Sun等[24]從大量的無(wú)標(biāo)注語(yǔ)料中提取額外信息,從而進(jìn)行中文分詞.這些學(xué)者都采用了大量復(fù)雜的人工設(shè)計(jì)的特征.由表5可知,文中在沒有進(jìn)行特征工程的情況下,比這些傳統(tǒng)的方法取得了相近甚至更優(yōu)的實(shí)驗(yàn)結(jié)果,充分說(shuō)明了深度學(xué)習(xí)在中文分詞任務(wù)中的優(yōu)越性,也說(shuō)明了特征工程在分詞任務(wù)中的重要作用.
文中針對(duì)自然語(yǔ)言處理中的中文分詞任務(wù),基于BLSTM構(gòu)建了一個(gè)深度神經(jīng)網(wǎng)絡(luò)模型,能夠有效利用序列長(zhǎng)距離信息和序列上下文信息.模型在不依賴特征工程的情況下,利用字向量作為特征表示,在標(biāo)準(zhǔn)數(shù)據(jù)集上取得了很好的效果.實(shí)驗(yàn)表明,BLSTM是一種有效的中文分詞方法,具有無(wú)限的潛力.同時(shí),文中提出的模型也適用于其他序列標(biāo)注任務(wù).
盡管文中提出的模型在中文分詞任務(wù)中取得了很好的效果,但仍有需改進(jìn)的地方.比如,字向量的表示對(duì)模型的性能有著重要的影響,應(yīng)在更具一般性、更大規(guī)模的語(yǔ)料集上進(jìn)行無(wú)監(jiān)督學(xué)習(xí)來(lái)獲得更優(yōu)的字向量;文中提出的BLSTM模型是單層網(wǎng)絡(luò)結(jié)構(gòu),可以使用多層網(wǎng)絡(luò)來(lái)優(yōu)化模型;在預(yù)處理時(shí),可以利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行多模型組合使用,以提高模型的性能.這些改進(jìn)方法都有待進(jìn)一步的研究和探索.
[1] XUE N.Chinese word segmentation as character tagging [J].Computational Linguistics Chinese Language Processing,2003,8(1):29- 48.
[2] 劉群,張華平,俞鴻魁,等.基于層疊隱馬模型的漢語(yǔ)詞法分析 [J].計(jì)算機(jī)研究與發(fā)展,2004,41(8):1421- 1429. LIU Qun,ZHANG Hua- ping,YU Hong- kui,et al.Chinese lexical analysis using cascaded hidden Markov model [J].Journal of Computer Research and Development,2004,41(8):1421- 1429.
[3] PENG F,F(xiàn)ENG F,MCCALLUM A.Chinese segmentation and new word detection using conditional random fields [C]∥Proceedings of the 20th International Conference on Computational Linguistic.Geneva:Aossciation for Computational Linguistics,2004:562- 568.
[4] TANG B,WANG X,WANG X.Chinese word segmentation based on large margin methods [J].International Journal on Asian Language Processing,2009,19(2):55- 68.
[5] ZHAO H,LI M,LU B,et al. Effective tag set selection in Chinese word segmentation via conditional random field modeling [C]∥Proceedings of the 20th Pacific Asia Conference on Language Information and Computation.Wuhan:Chinese Information Processing Socienty of China,2006:87- 94.
[6] ZHAO H. Integrating unsupervised and supervised word segmentation:the role of goodness measures [J].Information Sciences,2011,181(1):163- 183.
[7] COLLOBERT R,WESTON J. A unified architecture for natural language processing:deep neural networks with multitask learning [C]∥Proceedings of the 25th International Conference on Machine Learning.Helsinki:International Machine Learning Society (IMLS),2008:160- 167.
[8] ZHENG X,CHEN H,XU T. Deep learning for Chinese word segmentation and POS tagging [C]∥Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing.Seattle:Association for Computational Linguistics,2013:647- 657.
[9] CHEN X,QIU X,ZHU C,et al.Gated recursive neural network for Chinese word segmentation [C]∥Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Confe-rence on Natural Language Processing.Beijing:Association for Computational Linguistics,2015:567- 572.
[10] COLLOBERT R,WESTON J,BOTTOU L,et al. Natural language processing (almost) from scratch [J]∥Journal of Machine Learning Research,2011,12(1):2493-2537.
[11] SANTOS C N,XIANG B,ZHOU B.Classifying relations by ranking with convolutional neural networks [C]∥Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing.Beijing:Association for Computational Linguistics,2015:626- 634.
[12] SCHUSTER M,PALIWAL K.Bidirectional recurrent neural networks [J].IEEE Transactions on Signal Processing,1997,45(11):2673- 2681.
[13] HOCHREITER S,SCHMIDHUBER J.Long short-term memory [J].Neural Computation,1997,9(8):1735- 1780.
[14] LIU P,QIU X,CHEN X,et al.Multi-timescale long short-term memory neural network for modelling sentences and documents [C]∥Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing.Lisbon:Association for Computational Linguistics,2015:2326- 2335.
[15] SUTSKEVER I,VINVALS O,LE Q V.Sequence to sequence learning with neural networks [J].Advances in Neural Information Processing Systems,2014,4:3104-3112.
[16] SUNDERMEYER M,SCHLüTER R,NEY H.LSTM neural networks for language modeling [C]∥Proceedings of 13th Annual Conference of the international Speech Communication Association.Portland:Interspeech,2012:194- 197.
[17] MA X,HOVY E. End- to- end sequence labeling via bi- directional lstm- cnns- crf [J].arXiv preprint arXiv∶1603.01354,2016.
[18] 商俊蓓. 基于雙向長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)的聯(lián)機(jī)手寫數(shù)字公式字符識(shí)別 [D].廣州:華南理工大學(xué),2015.
[19] WANG C,YANG H,BARTZ C,et al.Image captioning with deep bidirectional lstms [C]∥Proceedings of the 2016 ACM on Multimedia Conference.Amsterdam:Association for Computating Machinery,2016:988- 997.
[20] SRIVASTAVA N,HINTON G,KRIZHEVSKY A,et al.Dropout:a simple way to prevent neural networks from overfitting [J].The Journal of Machine Learning Research,2014,15(1):1929- 1958.
[21] MIKOLOV T,CHEN K,CORRADO G,et al.Efficient estimation of word representations in vector space [J].arXiv preprint arXiv:1301.3781,2013.
[22] ZHAO H,HUANG C,LI M,et al. An improved Chinese word segmentation system with conditional random field [C]∥Proceedings of the Fifth Sighan Workshop on Chinese Language Processing.Tianjin:Association for Computational Linguistics,2006:599- 605.
[23] ZHANG Y,CLARK S.Chinese segmentation with a word- based perceptron algorithm[C]∥Proceedings of the Meeting of the Association for Computational Linguistics.Prague:Association for Computational Linguistics,2007:840- 847.
[24] SUN W,XU J.Enhancing Chinese word segmentation using unlabeled data [C]∥Proceedings of Conference on Empirical Methods in Natural Language Processing.Edinburgh:A Meeting of Sigdat,A Special Interest Group of the ACL,2011:970- 979.
Chinese Word Segmentation Method on the Basis of Bidirectional Long-Short Term Memory Model
ZHANGHong-gangLIHuan
(School of Information and Communication Engineering, Beijing University of Posts and Telecommunications,Beijing 100876, China)
Chinese word segmentation is one of the fundamental technologies of Chinese natural language processing.At present,most conventional Chinese word segmentation methods rely on feature engineering,which requires intensive labor to verify the effectiveness. With the rapid development of deep learning, it becomes realistic to learn features automatically by using neural network.In this paper, on the basis of bidirectional long short-term memory (BLSTM) model,a novel Chinese word segmentation method is proposed.In this method,Chinese cha-racters are represented into embedding vectors from a large-scale corpus,and then the vectors are applied to BLSTM model for segmentation. It is found from the experiments without feature engineering that the proposed method is of high performance in Chinese word segmentation on simplified Chinese datasets(PKU, MSRA and CTB) and traditional Chinese dataset(HKCityU).
deep leaning;neural network;long-short term memory;Chinese word segmentation
2016- 12- 08
國(guó)家自然科學(xué)基金青年基金資助項(xiàng)目(61601042) Foundation item: Supported by the National Natural Science Foundation of China for Young Scientists(61601042)
張洪剛(1974-),男,副教授,主要從事模式識(shí)別研究.E-mail:zhhg@bupt.edu.cn
1000- 565X(2017)03- 0061- 07
TP 391
10.3969/j.issn.1000-565X.2017.03.009