袁里馳
(江西財(cái)經(jīng)大學(xué) 軟件與物聯(lián)網(wǎng)工程學(xué)院,江西 南昌,330013)
分詞的目的是將一個(gè)完整的句子切分成詞語級別。由于英語語句由不同的單詞組成,故其分詞可以依據(jù)單詞間的分界符來劃分,而中文語句的基本組成單位是字,無法像英語那樣依據(jù)分界符來劃分,因此,中文分詞相比于英語分詞更增加了一定的難度。中文分詞是其他中文信息處理應(yīng)用的基礎(chǔ),其結(jié)果直接影響機(jī)器翻譯、信息檢索、信息抽取等信息處理技術(shù)的正確率。近年來,中文分詞技術(shù)發(fā)展迅速,但由于自然語言使用復(fù)雜,中文分詞依然是信息處理的難點(diǎn)之一。
目前大多數(shù)分詞方法都將中文分詞作為一個(gè)序列標(biāo)注問題,常用的序列標(biāo)注方法有支持向量機(jī)(support vector machine, SVM)、最大熵模型(maximum entropy, ME)、隱馬爾可夫模型(hidden markov model, HMM)、條件隨機(jī)場(conditional random field, CRF)模型。隨著深度學(xué)習(xí)方法的發(fā)展,一些神經(jīng)網(wǎng)絡(luò)模型[1-5]也被成功應(yīng)用于中文分詞任務(wù)。ZHENG 等[6]提出了基于神經(jīng)網(wǎng)絡(luò)的中文分詞模型;CHEN 等[7]擴(kuò)展了長短時(shí)記憶(long short-term memory, LSTM)神經(jīng)網(wǎng)絡(luò)模型用于中文分詞,解決了傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型不能學(xué)習(xí)詞的長距離依賴關(guān)系的問題,取得了較好的分詞效果。ZHANG 等[8]提出了一種基于詞向量的分詞神經(jīng)網(wǎng)絡(luò)模型,將卷積神經(jīng)網(wǎng)絡(luò)和LSTM相結(jié)合,模型輸入端特征向量包含字符嵌入和預(yù)訓(xùn)練語料庫學(xué)習(xí)到的詞嵌入。研究表明LSTM神經(jīng)網(wǎng)絡(luò)模型在序列標(biāo)注任務(wù)中能取得不錯(cuò)的效果。HUANG 等[9]將雙向LSTM 和CRF 結(jié)合,在序列標(biāo)注任務(wù)中取得了較好的效果。雙向LSTM(BiLSTM)可以對目標(biāo)詞同時(shí)學(xué)習(xí)上下文信息,CRF 層可以通過學(xué)習(xí)訓(xùn)練得到句子級的標(biāo)簽信息。BLSTM-CRF模型具有較好的魯棒性,該模型對詞嵌入的依賴性更小。
所謂詞性標(biāo)注就是根據(jù)句子上下文中的信息給句中的每個(gè)詞一個(gè)正確的詞性標(biāo)記。詞性標(biāo)注是進(jìn)一步進(jìn)行自然語言處理的重要基礎(chǔ),是文本索引、文本分類、語言合成、語料庫加工等應(yīng)用領(lǐng)域的重要環(huán)節(jié)。因此,對詞性標(biāo)注的方法進(jìn)行研究具有重要意義?,F(xiàn)有的詞性標(biāo)注所采用的語言模型主要可以分為基于規(guī)則的方法和基于統(tǒng)計(jì)的方法[10-14]?;谝?guī)則的標(biāo)注系統(tǒng)與系統(tǒng)設(shè)計(jì)者的語言能力有關(guān),其中規(guī)則集直接體現(xiàn)了設(shè)計(jì)者的語言能力。然而,要對某一種語言的各種語言現(xiàn)象都構(gòu)造規(guī)則,是一項(xiàng)很艱難也很耗時(shí)的任務(wù)。基于統(tǒng)計(jì)的方法主要有最大熵模型、隱馬爾可夫模型、條件隨機(jī)場模型等。隱馬爾可夫模型是廣泛應(yīng)用于詞性標(biāo)注任務(wù)中效果較好的統(tǒng)計(jì)模型。針對隱馬爾可夫詞性標(biāo)注模型狀態(tài)輸出獨(dú)立同分布等與語言實(shí)際特性不夠協(xié)調(diào)的假設(shè),袁里馳[10]對隱馬爾可夫模型進(jìn)行改進(jìn),引入了馬爾可夫族模型(markov family model, MFM)。馬爾可夫族模型用條件獨(dú)立性假設(shè)取代了HMM模型的獨(dú)立性假設(shè),相對條件獨(dú)立性假設(shè),獨(dú)立性假設(shè)是過強(qiáng)假設(shè),因而,基于馬爾可夫族模型的語言模型更符合語言實(shí)際。將馬爾可夫族模型成功應(yīng)用于詞性標(biāo)注,用改進(jìn)的隱馬爾可夫模型進(jìn)行詞性標(biāo)注實(shí)驗(yàn),結(jié)果表明,在相同的測試條件下,馬爾可夫族模型明顯優(yōu)于隱馬爾可夫模型。
中文分詞和詞性標(biāo)注2個(gè)階段的處理方案是先進(jìn)行分詞再進(jìn)行詞性標(biāo)注或者分詞和詞性標(biāo)注一起進(jìn)行。傳統(tǒng)方法是分開處理這2個(gè)階段,但分詞的精度和詞性標(biāo)注的準(zhǔn)確度密切相關(guān),分詞產(chǎn)生的錯(cuò)誤可能會影響詞性標(biāo)注的準(zhǔn)確率。近年來,人們對分詞和詞性標(biāo)注聯(lián)合模型進(jìn)行了大量研究。使用聯(lián)合模型可以有效地降低錯(cuò)誤傳遞,并且有助于使用詞性標(biāo)注信息實(shí)現(xiàn)分詞,有機(jī)地將兩者結(jié)合起來,有利于消除歧義和提高分詞、詞性標(biāo)注任務(wù)的準(zhǔn)確率。本文提出一種基于雙向長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型、條件隨機(jī)場的中文分詞和詞性標(biāo)注聯(lián)合方法,該方法將馬爾可夫族模型(改進(jìn)的隱馬爾科夫模型) 或樹形概率(tree-like probability, TLP)的計(jì)算方法應(yīng)用到分詞、詞性標(biāo)簽推斷CRF 層的轉(zhuǎn)移概率計(jì)算中,大幅度提高了分詞和詞性標(biāo)注的準(zhǔn)確率。
統(tǒng)計(jì)標(biāo)注方法如隱馬爾可夫模型在計(jì)算每一輸入詞序列的最可能詞性標(biāo)注序列時(shí),既要考慮上下文,也要考慮二元或三元概率(這些參數(shù)可通過已標(biāo)注用于訓(xùn)練的語料估計(jì)得到)。目前,許多種語言都有人工標(biāo)注的訓(xùn)練語料,并且統(tǒng)計(jì)模型有很強(qiáng)的魯棒性,這些優(yōu)點(diǎn)使得統(tǒng)計(jì)方法成為當(dāng)前主流的詞性標(biāo)注方法?;陔[馬爾可夫模型的詞性標(biāo)注存在的不足有:為了達(dá)到很高的標(biāo)注準(zhǔn)確率,需要大量的訓(xùn)練語料;傳統(tǒng)的基于隱馬爾可夫模型的標(biāo)注方法沒有結(jié)合現(xiàn)有的語言知識。隱馬爾可夫模型在用于詞性標(biāo)注時(shí)作了3個(gè)基本假設(shè):1) 馬爾可夫性假設(shè);2) 不動(dòng)性假設(shè);3) 輸出獨(dú)立性假設(shè),即輸出(詞的出現(xiàn))概率僅與當(dāng)前狀態(tài)(詞性標(biāo)記)有關(guān)。但是這些假定尤其第三個(gè)假定太粗糙。本文引入一種統(tǒng)計(jì)模型,即馬爾可夫族模型[15](樹形概率是其簡化),假定一個(gè)詞出現(xiàn)的概率既與它的詞性標(biāo)記有關(guān),也與前面的詞有關(guān),但該詞的詞性標(biāo)記與該詞前面的詞關(guān)于該詞條件獨(dú)立(即在該詞已知條件下是獨(dú)立的)。在以上假設(shè)下,簡化馬爾可夫族模型,可成功用于詞性標(biāo)注。實(shí)驗(yàn)結(jié)果證明:在相同的測試條件下,基于馬爾可夫族模型的詞性標(biāo)注方法比常規(guī)的基于隱馬爾可夫模型的詞性標(biāo)注方法大大提高了標(biāo)注準(zhǔn)確率。
設(shè)T表示詞性,W表示詞,詞性標(biāo)注即為在已知輸入詞序列w1,n的條件下,尋找最大可能的詞性標(biāo)記序列T1,n的任務(wù):
假設(shè)任意一個(gè)詞的詞性標(biāo)記和該詞前面的詞關(guān)于該詞條件獨(dú)立(即在該詞已知的條件下獨(dú)立):
在上述假定下,可以利用馬爾可夫族模型進(jìn)行詞性標(biāo)注,為了簡單,假定隨機(jī)向量{wi,Ti}i≥1的成分變量{wi}i≥1、{Ti}i≥1都是2 階馬爾可夫鏈,即
得到詞性標(biāo)注模型后,要采用有效的算法求出在給定輸入條件下概率最大的詞性標(biāo)記序列。Viterbi算法是一種動(dòng)態(tài)編程的方法,能夠根據(jù)模型參數(shù)有效地計(jì)算出一給定詞序列w1, …,wn最可能產(chǎn)生的詞性標(biāo)記序列T1, …,Tn。計(jì)算過程如下。
將分詞和詞性標(biāo)注統(tǒng)一在一個(gè)聯(lián)合模型架構(gòu)中,可以有效地降低錯(cuò)誤傳遞,并且有助于使用詞性標(biāo)注信息實(shí)現(xiàn)分詞,有機(jī)地將兩者結(jié)合起來有利于消除歧義和提高分詞、詞性標(biāo)注任務(wù)的準(zhǔn)確率。
中文分詞、詞性標(biāo)注分別通過所屬標(biāo)注來判斷每個(gè)字符在詞語中的位置、詞語的詞性標(biāo)記。中文分詞常用的標(biāo)注集是{B,M,E,S},利用這四種標(biāo)注獲取詞語的邊界信息,其中B、M、E表示詞語的開頭、中間、結(jié)尾,S表示單字詞。本文中文分詞、詞性標(biāo)注聯(lián)合方法采用的標(biāo)注集是{B,M,E-T,S-T},其中T表示詞性。基于BiLSTMCRF 的分詞、詞性標(biāo)注聯(lián)合模型由字符嵌入層、BiLSTM層和CRF層3部分組成。
利用神經(jīng)網(wǎng)絡(luò)模型處理中文分詞、詞性標(biāo)注問題,首先需要將文本向量化表示,即使用一個(gè)特定維度的特征向量代表字符。字符向量可以刻畫字與字在語義和語法上的相關(guān)性,并且作為字符特征成為神經(jīng)網(wǎng)絡(luò)的輸入。
首先,用Word2Vec 算法[16]在中文維基百科語料庫中進(jìn)行訓(xùn)練,獲得d維字符向量,形成d×N的字符矩陣,其中N表示訓(xùn)練語料庫中有效字符個(gè)數(shù)。其次,對于句子中的每個(gè)字符xi,設(shè)置長度l=5(l的值可調(diào))的窗口,提取xi的上下文字符序列(xi-2,xi-1,xi,xi+1,xi+2)。對于窗口中的每個(gè)字符,從字符矩陣中查找得到相應(yīng)的向量。最后,為當(dāng)前字符xi構(gòu)建字符嵌入向量ei。
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)利用隱藏狀態(tài)來保存歷史信息,是解決序列標(biāo)注問題的一種有效方法。然而,由于梯度消失,RNN 不能很好地學(xué)習(xí)到詞的長距離依賴關(guān)系。長短期記憶網(wǎng)絡(luò)(LSTM)[17]在RNN 的基礎(chǔ)上引入記憶單元來記錄狀態(tài)信息,并通過輸入門、遺忘門和輸出門的門結(jié)構(gòu)來更新隱藏狀態(tài)和記憶單元。LSTM 網(wǎng)絡(luò)由LSTM 單元構(gòu)成,一個(gè)LSTM單元由輸入門、遺忘門、輸出門和細(xì)胞狀態(tài)構(gòu)成。輸入門控制細(xì)胞狀態(tài)加入新的信息量,遺忘門控制前一時(shí)刻細(xì)胞狀態(tài)被丟棄的信息,輸出門控制隱藏狀態(tài)的輸出。設(shè)t時(shí)刻的LSTM的工作流程可表示為:
式中:et表示t時(shí)刻的輸入向量;ht-1表示LSTM單元t-1時(shí)刻隱藏狀態(tài)的輸出;ct-1表示t-1時(shí)刻的細(xì)胞狀態(tài);it、ft、ot、ct分別代表輸入門、遺忘門、輸出門和細(xì)胞狀態(tài);σ(?)代表sigmoid函數(shù);⊙表示元素間的點(diǎn)積;Wi、Wf、Wo、為ht-1的權(quán)重矩陣;Ui、Uf、Uo、為et的權(quán)重矩陣;bi、bf、bo、為偏置向量。
LSTM的門機(jī)制使得模型可以捕捉長距離歷史信息。為了同時(shí)獲取上下文信息,采用雙向LSTM(BI-LSTM),如圖1所示。雙向LSTM[1]網(wǎng)絡(luò)有2個(gè)不同方向的并行層:前向?qū)雍秃笙驅(qū)印?個(gè)并行層分別從句子的前端和末端開始運(yùn)行,存儲了來自2個(gè)方向的句子信息,進(jìn)而提高分詞和詞性標(biāo)注性能。因此,BI-LSTM中的輸出(隱藏狀態(tài))ht可表示如下:
圖1 BiLSTM示意圖Fig. 1 Schematic diagram of BiLSTM
對于基于字符的中文分詞和詞性標(biāo)注任務(wù),需要考慮相鄰標(biāo)簽間的依賴關(guān)系。例如,B(開始)標(biāo)簽后面應(yīng)該跟一個(gè)M(中間)標(biāo)簽或者E-T(結(jié)束)標(biāo)簽,而一個(gè)M標(biāo)簽后面不能跟一個(gè)B標(biāo)簽或者S-T標(biāo)簽。因此,不是獨(dú)立地使用ht來做標(biāo)簽決策,而是使用條件隨機(jī)場來共同建模標(biāo)簽序列。條件隨機(jī)場是一種用來計(jì)算在給定輸入隨機(jī)變量時(shí),輸出隨機(jī)變量的條件概率的無向圖模型,它結(jié)合了最大熵模型和隱馬爾可夫模型的特征,具有表達(dá)長距離依賴性和交疊性特征的能力,能夠較好地解決標(biāo)注偏置等問題,因此,在自然語言處理領(lǐng)域有著廣泛的應(yīng)用。
給定句子X=(x1,x2,…,xn)和對應(yīng)的預(yù)測標(biāo)簽Y=(y1,y2,…,yn),yt?{B,M,E-T,S-T},其中,T表示詞性。預(yù)測標(biāo)簽Y=(y1,y2,…,yn)包含分詞信息和詞性標(biāo)注信息,可以分解為分詞標(biāo)簽Z=(z1,z2,…,zn),zt?{B,M,E,S}和分詞條件下的詞性標(biāo)注標(biāo)簽P(T1,T2,…,Tm|w1,w2,…,wm),其中,w1,w2,…,wm為給定句子X=(x1,x2,…,xn)在分詞標(biāo)簽序列Z=(z1,z2,…,zn)下的詞序列。
假設(shè)在給定詞序列條件下詞性標(biāo)注滿足馬爾可夫族模型(MFM),有下式成立:
對于給定句子X=(x1,x2,…,xn)和對應(yīng)的預(yù)測標(biāo)簽Y=(y1,y2,…,yn),預(yù)測評估分?jǐn)?shù)定義如下:
其中:Azi-1,zi為一個(gè)分詞標(biāo)簽轉(zhuǎn)換分?jǐn)?shù)矩陣的元素;BTk-1,Tk為一個(gè)詞性標(biāo)簽轉(zhuǎn)換分?jǐn)?shù)矩陣的元素;Qi,yi為字符xi在分詞和詞性聯(lián)合預(yù)測標(biāo)注yi上的得分。Qi定義如下:
其中:ht為BiLSTM 中t時(shí)刻輸入數(shù)據(jù)xt的隱藏狀態(tài);Ws為權(quán)值矩陣;bs為偏置向量。
假設(shè)在給定詞序列條件下詞性標(biāo)注滿足樹形概率(TLP),則有下式成立:
則對于給定句子X=(x1,x2,…,xn)和對應(yīng)的預(yù)測標(biāo)簽Y=(y1,y2,…,yn),預(yù)測評估分?jǐn)?shù)定義如下:
在CRF層,句子X被標(biāo)記為序列Y的可能性概率計(jì)算如下:
其中:YX表示給定句子X的所有可能標(biāo)簽序列的集合。
深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí),損失函數(shù)定義如式(19)所示。
其中:Ω(θ)是為了防止神經(jīng)網(wǎng)絡(luò)的過擬合而添加的正則項(xiàng)。
對于詞性標(biāo)注這種序列標(biāo)注任務(wù)來說,可以把輸入的文本看作是線性序列,文本中詞為序列的一個(gè)元素,每個(gè)元素的標(biāo)注在很大程度依賴于前面元素的信息。LSTM 隸屬于循環(huán)反饋神經(jīng)網(wǎng)絡(luò),它可以將文本中某一序列元素與某時(shí)刻模型的輸入對應(yīng)起來,利用隱層單元的記憶模塊,保存長間隔信息,對序列元素逐一標(biāo)注。將雙向LSTM 和CRF 結(jié)合應(yīng)用于單獨(dú)的詞性標(biāo)注任務(wù)中,同樣可取得很好的效果。
假設(shè)在給定詞序列條件下詞性標(biāo)注滿足馬爾可夫族模型,即對給定詞序列U=(w1,w2,…,wm)和對應(yīng)的預(yù)測詞性標(biāo)簽序列V=(T1,T2,…,Tm),預(yù)測評估分?jǐn)?shù)定義如下:
其中:代表詞wk在詞性預(yù)測標(biāo)注Tk上的得分。定義如下:
其中:hk為BiLSTM 中k時(shí)刻輸入詞wk的隱藏狀態(tài);Ws*為權(quán)值矩陣;b*s為偏置向量。
假設(shè)在給定詞序列條件下詞性標(biāo)注滿足樹形概率,即對給定詞序列U=(w1,w2,…,wm)和對應(yīng)的預(yù)測詞性標(biāo)簽序列V=(T1,T2,…,Tm),預(yù)測評估分?jǐn)?shù)定義如下:
本文模型的主要設(shè)置如下:隱藏層節(jié)點(diǎn)的維度設(shè)置為256,字向量和詞向量的維度都是128,增加維度并不能再提高效果。本文實(shí)驗(yàn)學(xué)習(xí)率取值0.001;實(shí)驗(yàn)采用Dropout 機(jī)制來防止神經(jīng)網(wǎng)絡(luò)過擬合,實(shí)驗(yàn)中Dropout設(shè)置為20%。
word2vcc 模型訓(xùn)練采用Skip-Gram 訓(xùn)練目標(biāo)。本文利用新浪微博語料和中文維基百科語料庫訓(xùn)練word2vec 字向量,利用中文維基百科語料訓(xùn)練詞向量,最終得到各個(gè)字的字向量和各個(gè)詞的詞向量。
詞性標(biāo)注實(shí)驗(yàn)采用的數(shù)據(jù)集為人民日報(bào)1998年上半年標(biāo)注語料(約700 萬個(gè)詞)和CTB8.0。其中,《人民日報(bào)》標(biāo)注語料是由北京大學(xué)計(jì)算語言學(xué)研究所和富士通研究開發(fā)中心有限公司共同制作的標(biāo)注語料庫,內(nèi)容涉及政治、經(jīng)濟(jì)、文藝、體育、報(bào)告文學(xué)等多種題材,該標(biāo)注語料對純文本語料進(jìn)行了詞語切分和詞性標(biāo)注,使用39 種詞性標(biāo)記;CTB8.0是賓州大學(xué)漢語樹庫中的語料庫,該語料庫是經(jīng)過分詞、詞性標(biāo)注和句法標(biāo)注的數(shù)據(jù)庫,按照句子內(nèi)部結(jié)構(gòu)形成句子樹,語料中共出現(xiàn)了32 種詞性標(biāo)記。實(shí)驗(yàn)中,語料庫將分割為訓(xùn)練集、開發(fā)集和測試集3部分,各集數(shù)量比例為7:1:2。采用標(biāo)注準(zhǔn)確率(Accuracy)評估詞性標(biāo)注性能,標(biāo)注準(zhǔn)確率是常用的評測指標(biāo),它表示已正確標(biāo)注詞性的詞語在所有待標(biāo)注詞性的全部詞語中所占的百分比。
針對相同的語料庫,分別采用HMM(隱馬爾科夫模型)、MFM(馬爾可夫族模型)、BiLSTMCRF-TLP(基于雙向長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型、條件隨機(jī)場模型、樹形概率)、BiLSTM-CRF-MFM(基于雙向長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型、條件隨機(jī)場模型、馬爾可夫族模型)進(jìn)行詞性標(biāo)注。表1 所示為不同方法的詞性標(biāo)注準(zhǔn)確率。
表1 不同方法的詞性標(biāo)注準(zhǔn)確率Table 1 Accuracy of different part-of-speech tagging method
從表1 可以看出:由于基于隱馬爾科夫模型(HMM)的詞性標(biāo)注方法計(jì)算過程只計(jì)算了詞性到詞的發(fā)射概率,而忽略了詞本身到詞性的發(fā)射概率,因此,會因?yàn)榘l(fā)射概率太小而被標(biāo)錯(cuò)詞性。在基于馬爾可夫族模型或樹形概率的詞性標(biāo)注中,當(dāng)前詞的詞性不但與前面詞的詞性有關(guān),而且與當(dāng)前詞本身有關(guān),因而,在相同測試條件下,基于馬爾可夫族模型或樹形概率的詞性標(biāo)注方法比常規(guī)的基于隱馬爾可夫模型的詞性標(biāo)注方法大大提高了標(biāo)注準(zhǔn)確率;LSTM神經(jīng)網(wǎng)絡(luò)模型解決了傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型不能學(xué)習(xí)詞的長距離依賴關(guān)系的問題,在詞性序列標(biāo)注任務(wù)中能取得不錯(cuò)的效果,基于BiLSTM-CRF 和馬爾可夫族模型(或樹形概率)的詞性標(biāo)注方法進(jìn)一步提高了標(biāo)注準(zhǔn)確率。由于CTB 的訓(xùn)練語料庫規(guī)模小于PKU 的訓(xùn)練語料庫規(guī)模,因而,采用相同的詞性標(biāo)注方法時(shí),CTB8.0語料庫的詞性標(biāo)注準(zhǔn)確率明顯比PKU語料庫的低。
分詞和詞性聯(lián)合標(biāo)注實(shí)驗(yàn)使用的實(shí)驗(yàn)語料為PKU、MSR 和CTB8(來自Chinese Treebank 8.0)。其中,PKU和CTB8與詞性標(biāo)注實(shí)驗(yàn)的相同,MSR是微軟亞洲研究院所提供的語料庫,其分詞特點(diǎn)是由大量的命名實(shí)體構(gòu)成的長單詞。
式(14)和(17)中的分詞標(biāo)簽轉(zhuǎn)換分?jǐn)?shù)矩陣A由語料集PKU、MSR 和CTB8 聯(lián)合訓(xùn)練得到,其他模型參數(shù)分別在語料集PKU、CTB8上單獨(dú)進(jìn)行訓(xùn)練。分詞性能采用召回率和精確率的調(diào)和平均值F1來評價(jià):
其中,精確率P為指預(yù)測正確的分詞數(shù)目與預(yù)測分詞數(shù)目的比值;召回率R為指預(yù)測正確的分詞數(shù)目與測試集中正確的分詞數(shù)目的比值。
應(yīng)用馬爾可夫族模型(MFM)、樹形概率(TLP)進(jìn)行詞性標(biāo)注,并結(jié)合雙向長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型(BiLSTM)和條件隨機(jī)場模型(CRF)提出了中文分詞和詞性標(biāo)注聯(lián)合方法BiLSTM-CRF-MFM 和BiLSTM-CRF-TLP。表2所示為不同語料集的分詞測試性能[18-19]。由表2可以看出:本文提出的分詞方法在基于字的BiLSTM-CRF 中文分詞模型基礎(chǔ)上,利用詞性標(biāo)注信息實(shí)現(xiàn)分詞,有機(jī)地將中文分詞和詞性標(biāo)注結(jié)合起來明顯提高了分詞效果;在中文分詞上,相比于BiLSTM-CRF 分詞模型和Switch-LSTMs 分詞模型,本文提出的BiLSTMCRF-MFM和BiLSTM-CRF-TLP方法分詞效果有大幅度提高,并且基于馬爾可夫族模型(MFM)、長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型和條件隨機(jī)場模型的中文分詞和詞性標(biāo)注聯(lián)合方法BiLSTM-CRF-MFM取得了最佳的效果。
表2 不同語料集的分詞測試性能Table 2 Word segmentation test results of different test sets
采用語料集PKU和CTB8,將本文中文分詞和詞性標(biāo)注聯(lián)合方法與文獻(xiàn)[20-21]中方法進(jìn)行比較,結(jié)果分別如表3[20]和表4[21]所示。
表3 不同方法在CTB語料集上的實(shí)驗(yàn)結(jié)果對比Table 3 Comparison of experimental results of different methods on the corpus CTB
表4 不同方法在PKU語料集上的實(shí)驗(yàn)結(jié)果對比Table 4 Comparison of experimental results of different methods on the corpus PKU
實(shí)驗(yàn)結(jié)果表明,中文分詞和詞性標(biāo)注聯(lián)合方法BiLSTM-CRF-MFM能同時(shí)大幅度提高分詞和詞性標(biāo)注效果。在基于馬爾可夫族模型的詞性標(biāo)注中,當(dāng)前詞的詞性不但與前面詞的詞性有關(guān),也與當(dāng)前詞本身有關(guān)。因而,在相同測試條件下,與常規(guī)的詞性標(biāo)注方法相比,基于馬爾可夫族模型的聯(lián)合標(biāo)注方法BiLSTM-CRF-MFM大大提高了詞性標(biāo)注準(zhǔn)確率。
1) 本文提出了結(jié)合BLSTM、CRF 和馬爾可夫族模型(MFM)或樹形概率(TLP)構(gòu)建的中文分詞和詞性標(biāo)注聯(lián)合方法。本文的中文分詞和詞性標(biāo)注聯(lián)合方法相比于BiLSTM-CRF 分詞模型能夠大幅度提高分詞的準(zhǔn)確率。
2) 使用聯(lián)合模型可以有效地降低錯(cuò)誤傳遞次數(shù),并且有助于使用詞性標(biāo)注信息實(shí)現(xiàn)分詞,有機(jī)地將兩者結(jié)合起來有利于消除歧義和提高分詞、詞性標(biāo)注任務(wù)的準(zhǔn)確率。