袁 里 馳
(江西財(cái)經(jīng)大學(xué) 軟件與物聯(lián)網(wǎng)工程學(xué)院,南昌 330013)
分詞是語(yǔ)言信息處理的重要基礎(chǔ)技術(shù)之一,其任務(wù)是把語(yǔ)言句子劃分為多個(gè)詞語(yǔ).英語(yǔ)句子由多個(gè)單詞構(gòu)成,所以分詞能夠利用單詞之間的分隔符進(jìn)行劃分.然而漢語(yǔ)句子的基本單位是字,不能像英文那樣按分隔符來分割,因而漢語(yǔ)的分詞比英語(yǔ)的分詞要困難得多.漢語(yǔ)分詞是許多漢語(yǔ)信息處理技術(shù)的根本,其正確率直接影響信息檢索、機(jī)器翻譯、信息抽取的結(jié)果.近段時(shí)間以來,漢語(yǔ)分詞技術(shù)進(jìn)展迅猛,然而因?yàn)樽匀徽Z(yǔ)言處理的復(fù)雜性,漢語(yǔ)分詞仍然是自然語(yǔ)言信息處理的困難之一.
當(dāng)前大部分的分詞算法都視漢語(yǔ)分詞為一個(gè)序列標(biāo)記任務(wù),主流的序列標(biāo)注算法有隱馬爾可夫模型(HMM)、最大熵模型(Maximum entropy)、支持向量機(jī)(SVM)和條件隨機(jī)場(chǎng)(CRF)模型.近年來,一些基于深度神經(jīng)網(wǎng)絡(luò)的漢語(yǔ)分詞方法[1-5]不斷被提出.Zhen等人[6]首次提出了利用深度神經(jīng)網(wǎng)絡(luò)模型的漢語(yǔ)分詞方法;Chen等人[7]擴(kuò)展了用于漢語(yǔ)分詞問題的長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型,解決了普通神經(jīng)網(wǎng)絡(luò)方法無(wú)法學(xué)習(xí)長(zhǎng)距離依存關(guān)系的缺陷,并在分詞中獲得了良好的結(jié)果.Zhang等人[8]引入了一種利用詞向量的神經(jīng)網(wǎng)絡(luò)分詞方法,該方法將長(zhǎng)短期記憶模型與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,算法輸入端的向量包括從預(yù)訓(xùn)練語(yǔ)料集中獲得的單詞嵌入和字符嵌入.結(jié)果表明,長(zhǎng)短期記憶模型在序列標(biāo)記問題中獲得了良好的結(jié)果.Huang等人[9]首次將條件隨機(jī)場(chǎng)模型與雙向長(zhǎng)短期記憶模型融合起來,在序列標(biāo)記問題中獲得了良好的效果.雙向長(zhǎng)短期記憶模型(BiLSTM)能夠同時(shí)學(xué)習(xí)目標(biāo)詞的上下文信息,而條件隨機(jī)場(chǎng)層能夠通過訓(xùn)練和學(xué)習(xí)獲得句子層的標(biāo)記信息.BiLSTM-CRF算法魯棒性好,對(duì)詞嵌入的依賴較小.然而上述方法不能表示多義詞.由于它們忽略了單詞的語(yǔ)義或上下文,只集中在單詞、字符或單詞之間的特征提取上,提取的只是一個(gè)缺少上下文信息的靜態(tài)單詞向量.針對(duì)上述缺陷,Google團(tuán)隊(duì)Jacob Devlin等人[22]引入了BERT (Bidirectional Encoder Representation from Transformers)語(yǔ)言模型來描述字符向量或詞向量.BERT是一種先進(jìn)的預(yù)訓(xùn)練字符向量或詞向量算法,改進(jìn)了向量模型的泛化性能,全面描繪了字符級(jí)、詞級(jí)、語(yǔ)句以至語(yǔ)句之間關(guān)系的特征,并且較好地表示了不同上下文中的語(yǔ)義和句法信息.近年來,張忠林等人[28]綜合注意力機(jī)制、卷積神經(jīng)網(wǎng)絡(luò)和條件隨機(jī)場(chǎng),提出了注意力卷積神經(jīng)網(wǎng)絡(luò)條件隨機(jī)場(chǎng)模型應(yīng)用于中文分詞.周慧等人[29]利用BIGRU-CRF模型,引入了一種基于Attention-BIGRU-CRF的分詞算法,該算法不但繼承了BIGRU模型能夠使用相鄰標(biāo)記之間的相關(guān)性和雙向上下文信息實(shí)施分詞,它還利用了BIGRU層的輸出和輸入之間的聯(lián)系,以大幅改進(jìn)分詞性能.
所謂詞性標(biāo)注就是根據(jù)句子上下文中的信息給句中的每個(gè)詞一個(gè)正確的詞性標(biāo)記.詞性標(biāo)記是進(jìn)一步自然語(yǔ)言處理的重要基礎(chǔ),在許多應(yīng)用領(lǐng)域,如文本索引、文本分類、語(yǔ)言合成、語(yǔ)料庫(kù)加工,詞性標(biāo)注都是一個(gè)重要環(huán)節(jié).因此詞性標(biāo)記的方法研究具有重要意義.當(dāng)前用于詞性標(biāo)記的語(yǔ)言模型包括統(tǒng)計(jì)模型[10-16]和規(guī)則模型.利用規(guī)則的標(biāo)注系統(tǒng)與系統(tǒng)設(shè)計(jì)者的語(yǔ)言能力有關(guān),其中規(guī)則集就直接體現(xiàn)了設(shè)計(jì)者的語(yǔ)言能力.不幸的是,要對(duì)某一種語(yǔ)言的各種語(yǔ)言現(xiàn)象都構(gòu)造規(guī)則的話,將是一項(xiàng)很艱難也很耗時(shí)的任務(wù).基于統(tǒng)計(jì)的方法相對(duì)比較主流,主要有最大熵模型(ME)、隱馬爾可夫模型(HMM)、條件隨機(jī)場(chǎng)(CRF)模型等.隱馬爾可夫模型是廣泛應(yīng)用于詞性標(biāo)注任務(wù)中效果較好的統(tǒng)計(jì)模型.針對(duì)隱馬爾可夫詞性標(biāo)記算法的輸出狀態(tài)獨(dú)立同分布等不合理假定,在改進(jìn)隱馬爾可夫算法的基礎(chǔ)上引進(jìn)了樹形概率[27]和馬爾可夫族算法[10].馬爾可夫族算法使用條件獨(dú)立假定代替了獨(dú)立假定,與條件獨(dú)立假定相比,獨(dú)立假定過于強(qiáng)烈,因此利用馬爾可夫族算法的語(yǔ)言模型更近似語(yǔ)言現(xiàn)實(shí).樹形概率計(jì)算方法[32]與隱馬爾可夫模型等鏈?zhǔn)礁怕视?jì)算方法的不同點(diǎn)在于鏈?zhǔn)礁怕视?jì)算方法里每個(gè)條件概率值都要與它前面的條件概率值相乘,但是在樹形的計(jì)算方式上,只把那些與它在同一條路徑上的條件概率值相乘,并且用根節(jié)點(diǎn)的條件概率值作為分母.在詞性標(biāo)記中成功運(yùn)用馬爾可夫族算法,詞性標(biāo)記實(shí)驗(yàn)數(shù)據(jù)證明,在相同測(cè)試情況下,馬爾可夫族算法顯著優(yōu)于隱馬爾可夫算法.
完成漢語(yǔ)分詞和詞性標(biāo)記兩個(gè)任務(wù)可以考慮兩種方法:先分詞再詞性標(biāo)記;分詞和詞性標(biāo)記同時(shí)實(shí)施.通常的算法是分別進(jìn)行這兩個(gè)任務(wù),然而詞性標(biāo)記的準(zhǔn)確性與分詞的準(zhǔn)確性緊密關(guān)聯(lián),分詞錯(cuò)誤也許會(huì)制約詞性標(biāo)記的準(zhǔn)確性.近年來,分詞和詞性標(biāo)注聯(lián)合模型方面的研究正大量涌現(xiàn).Xinxin Li等人[30]提出了一種用于漢語(yǔ)分詞和詞性標(biāo)記的神經(jīng)模型,該模型對(duì)每個(gè)字符使用基于字邊界的字符嵌入,并引入Transformer編碼器來捕獲序列中字符之間的長(zhǎng)距離關(guān)系,最終標(biāo)記序列由BiLST-CRF層預(yù)測(cè).Binbin Shen等人[31]首次將基于轉(zhuǎn)換的模型應(yīng)用于韻律結(jié)構(gòu)預(yù)測(cè),在ELECTRA編碼器的基礎(chǔ)上提出了一個(gè)簡(jiǎn)單但有效的聯(lián)合模型,該模型可以同時(shí)預(yù)測(cè)單詞邊界和詞性標(biāo)簽.聯(lián)合模型的使用能夠大幅減少錯(cuò)誤的傳播,也有益于利用詞性信息進(jìn)行分詞,將兩者緊密融合能夠幫助消除歧義和提升詞性標(biāo)記、分詞的準(zhǔn)確性.本文提出了一種基于BERT語(yǔ)言模型、雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型、條件隨機(jī)場(chǎng)的中文分詞和詞性標(biāo)注聯(lián)合方法,該方法將馬爾可夫族模型(改進(jìn)的隱馬爾科夫模型)或樹形概率的計(jì)算方法應(yīng)用到分詞、詞性標(biāo)簽推斷CRF層的轉(zhuǎn)移概率計(jì)算中,大幅度提高了分詞和詞性標(biāo)注的準(zhǔn)確率.
詞性標(biāo)記、漢語(yǔ)分詞是許多漢語(yǔ)信息處理技術(shù)的基礎(chǔ),其正確率直接影響信息檢索、機(jī)器翻譯、信息抽取的結(jié)果.將詞性標(biāo)記和分詞統(tǒng)一在一個(gè)聯(lián)合模型架構(gòu)中,能夠大幅減少錯(cuò)誤的傳播,也有益于利用詞性信息進(jìn)行分詞,將兩者緊密融合能夠幫助消除歧義和提升詞性標(biāo)記、分詞的準(zhǔn)確性.
漢語(yǔ)的詞性標(biāo)記和分詞一般被當(dāng)作是序列標(biāo)記任務(wù),每個(gè)字符在詞中的位置和詞的詞性標(biāo)記是由它們各自的標(biāo)記決定的.漢語(yǔ)分詞常用標(biāo)記符號(hào)為{B,M,E,S},使用這4個(gè)標(biāo)記來獲得單詞的邊界信息,其中B、M、E代表詞的開頭、中間、結(jié)尾,S表示單字詞.本文中文分詞、詞性標(biāo)注聯(lián)合方法采用的標(biāo)注符號(hào)是{B,M,E-tg,S-tg},其中tg表示詞性.基于BERT-BiLSTM-CRF的分詞、詞性標(biāo)注聯(lián)合算法由3部分構(gòu)成:字符嵌入層,BiLSTM層和CRF層.
長(zhǎng)期以來,語(yǔ)言模型的研究先后經(jīng)歷了one-hot、Word2Vec、ELMO、GPT和BERT.Word2Vec曾經(jīng)是語(yǔ)言信息處理中應(yīng)用最廣泛的詞向量訓(xùn)練模型,Word2Vec使得深度學(xué)習(xí)在語(yǔ)言信息處理中廣泛應(yīng)用,并且對(duì)語(yǔ)言信息處理的發(fā)展發(fā)揮了巨大作用.但Word2Vec自身是用于淺層結(jié)構(gòu)的詞向量訓(xùn)練模型,并且所獲語(yǔ)義信息受窗口大小的影響,因此,一些學(xué)者后來提出使用長(zhǎng)短時(shí)記憶(LSTM)語(yǔ)言模型對(duì)單詞向量進(jìn)行預(yù)訓(xùn)練,從而獲得長(zhǎng)距離依賴.普通的長(zhǎng)短時(shí)記憶模型僅能單向獲取信息.Peters[23]提出了語(yǔ)言嵌入模型(ELMo),ELMo模型某些程度上解決了僅能單向獲取信息的問題.ELMo是兩層雙向長(zhǎng)短時(shí)記憶結(jié)構(gòu),基于ELMo的語(yǔ)言模型能夠獲取句子左側(cè)和右側(cè)的上下文信息.此外,Radford[24]等人引入了GPT,GPT利用Transformer編碼器當(dāng)作預(yù)訓(xùn)練語(yǔ)言模型,并且可以在此基礎(chǔ)上微調(diào)下游語(yǔ)言信息處理任務(wù).與長(zhǎng)短時(shí)記憶模型相比,GPT語(yǔ)言模型的優(yōu)勢(shì)在于它能夠在更長(zhǎng)的距離上獲得語(yǔ)句上下文信息,然而它也是單向的.為了使用來自雙向的上下文信息,2018年,google團(tuán)隊(duì)Jacob Devlin等人引入了BERT預(yù)訓(xùn)練語(yǔ)言模型,該算法獲得了當(dāng)時(shí)11;類語(yǔ)言信息處理問題的最好性能.BERT模型使用雙向Transformer,其在所有層中的特征表示取決于左側(cè)和右側(cè)的上下文.該模型結(jié)合了其它模型的長(zhǎng)處,拋棄了它們的不足,并在隨后的語(yǔ)言信息處理的許多特定任務(wù)中取得了較佳的結(jié)果[25].
BERT語(yǔ)言模型使用雙向Transformer網(wǎng)絡(luò)模型作為編碼器,因此預(yù)測(cè)每個(gè)字符能夠雙向引用文本信息.模仿中國(guó)英文測(cè)試中的完形填空測(cè)試,隨機(jī)覆蓋一些輸入單詞,并通過句子中的其它單詞來推測(cè)被掩蓋的單詞.另外,句子級(jí)別的連續(xù)性推測(cè)任務(wù)被添加到模型訓(xùn)練之中[26].
應(yīng)用神經(jīng)網(wǎng)絡(luò)模型解決漢語(yǔ)分詞、詞性標(biāo)記任務(wù),我們需要用向量的方式來表達(dá)文本,并利用給定維度的特征矢量來表示字符.字符向量能夠描述字符之間的語(yǔ)法和語(yǔ)義相關(guān)性,作為字符特征輸入神經(jīng)網(wǎng)絡(luò).首先,以字符為單位分割語(yǔ)句,利用BERT模型預(yù)處理生成字符xi的含有上下文信息的字向量,得到d維字符向量,構(gòu)成d×N字符矩陣,這里N代表訓(xùn)練數(shù)據(jù)中有效字符的數(shù)量.其次,對(duì)語(yǔ)句中的每個(gè)字符xi,設(shè)置長(zhǎng)度為l=5的窗口(l的值是可改變的),獲取xi的上下文字符序列(xi-2,xi-1,xi,xi+1,xi+2).對(duì)每個(gè)在窗口中的字符,由字符矩陣查找獲得對(duì)應(yīng)的向量.最后構(gòu)造當(dāng)前字符xi的嵌入向量ei.
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是一種使用隱藏狀態(tài)存儲(chǔ)歷史信息來進(jìn)行序列標(biāo)記任務(wù)的成功模型.但是梯度消失使得RNN不能較好地處理遠(yuǎn)距離依賴問題.長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)[17]基于RNN模型引進(jìn)記憶單元記錄當(dāng)前狀態(tài)信息,利用輸入門、輸出門和遺忘門三類門結(jié)構(gòu)刷新記憶單元和隱藏狀態(tài).LSTM單元組成LSTM網(wǎng)絡(luò),一個(gè)LSTM單元由輸入門、輸出門、遺忘門和單元狀態(tài)組成.輸入門控制向單元狀態(tài)添加新信息,輸出門決定隱藏狀態(tài)的輸出,遺忘門決定前一時(shí)間單元狀態(tài)的丟棄信息.設(shè)et代表時(shí)刻t的輸入向量,ht-1代表LSTM單元在時(shí)刻t-1的隱藏狀態(tài)輸出,ct-1表示時(shí)刻t-1的細(xì)胞狀態(tài).LSTM在時(shí)間t的計(jì)算過程能夠表示為公式(1)~公式(6):
it=σ(Wiht-1+Uiet+bi)
(1)
ft=σ(Wfht-1+Ufet+bf)
(2)
ot=σ(Woht-1+Uoet+bo)
(3)
(4)
(5)
ht=ot⊙tanh(ct)
(6)
LSTM(長(zhǎng)短時(shí)記憶網(wǎng)絡(luò))利用門機(jī)制捕獲遠(yuǎn)距離的歷史信息.因?yàn)樾枰瑫r(shí)獲得上下文信息,選擇了雙向LSTM (BILSTM).雙向LSTM模型有兩個(gè)不一樣方向的并行層:向前層和向后層.這兩層從語(yǔ)句的前端和結(jié)尾分別運(yùn)行,從兩個(gè)方向存儲(chǔ)語(yǔ)句信息,從而提升了詞性標(biāo)記和分詞的性能.因此,BiLSTM模型中的輸出(隱藏狀態(tài))ht計(jì)算如下:
(7)
在基于字符的詞性標(biāo)記和漢語(yǔ)分詞問題中,必須考慮鄰接標(biāo)記之間的搭配關(guān)系.例如,B(開始)標(biāo)記后面應(yīng)當(dāng)為M(中間)標(biāo)記或E-tg(結(jié)束)標(biāo)記,而M標(biāo)記后面不可以是B標(biāo)記或S-tg標(biāo)記.因此,不能單獨(dú)使用ht^來做出標(biāo)記決策,而是利用條件隨機(jī)場(chǎng)以聯(lián)合建模標(biāo)記序列.條件隨機(jī)場(chǎng)模型是一種無(wú)向圖模型,用于計(jì)算輸入隨機(jī)變量給定時(shí)隨機(jī)變量輸出的條件概率.它融合了隱馬爾可夫模型和最大熵模型的特點(diǎn),擁有處理重疊特征和遠(yuǎn)距離依賴的能力,可以很好地處理標(biāo)記偏置問題,因而廣泛應(yīng)用于語(yǔ)言信息處理等領(lǐng)域.
給定句子X=(x1,x2,…,xn)和對(duì)應(yīng)的預(yù)測(cè)標(biāo)簽Y=(y1,y2,…,yn),yt∈{B,M,E-tg,S-tg},其中tg表示詞性.預(yù)測(cè)標(biāo)簽Y=(y1,y2,…,yn)包含分詞信息和詞性標(biāo)注信息,可以分解為分詞標(biāo)簽Z=(z1,z2,…,zn),zt∈{B,M,E,S}和分詞條件下的詞性標(biāo)注標(biāo)簽p(tg1,tg2,…,tgm|w1,w2,…,wm),其中w1,w2,…,wm為給定句子X=(x1,x2,…,xn)在分詞標(biāo)簽序列Z=(z1,z2,…,zn)下的詞序列.假設(shè)在給定詞序列條件下詞性標(biāo)注滿足馬爾可夫族模型(MFM)[10],即有下式成立:
(8)
對(duì)于給定句子X=(x1,x2,…,xn)和對(duì)應(yīng)的預(yù)測(cè)標(biāo)簽Y=(y1,y2,…,yn),預(yù)測(cè)評(píng)估分?jǐn)?shù)定義如下:
(9)
其中:A系一個(gè)分詞標(biāo)記轉(zhuǎn)換得分矩陣,Ai,j計(jì)算分詞標(biāo)記i到j(luò)的得分;B系詞性標(biāo)記轉(zhuǎn)變得分矩陣,Bk,l計(jì)算詞性標(biāo)記k到l的得分;Qi,yi計(jì)算字符xi在分詞和詞性聯(lián)合預(yù)測(cè)標(biāo)記yi上的得分.Qi定義如下:
Qi=Wsht+bs
(10)
其中:ht系BiLSTM模型中t時(shí)刻輸入數(shù)據(jù)xt對(duì)應(yīng)的隱藏狀態(tài);Ws系權(quán)值矩陣;bs系偏置向量.假設(shè)在給定詞序列條件下詞性標(biāo)注滿足樹形概率(TLP),即有下式成立:
(11)
則對(duì)于給定句子X=(x1,x2,…,xn)和對(duì)應(yīng)的預(yù)測(cè)標(biāo)簽Y=(y1,y2,…,yn),預(yù)測(cè)評(píng)估分?jǐn)?shù)定義如下:
(12)
在CRF層,語(yǔ)句X被標(biāo)記為序列Y的可能性概率計(jì)算如下:
(13)
深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí),損失函數(shù)定義如式(14)所示:
J(θ)=-∑ilog(P(Y|X))+αΩ(θ)
(14)
這里X和Y相應(yīng)是訓(xùn)練數(shù)據(jù)中的句子和對(duì)應(yīng)的標(biāo)注序列,Ω(θ)是為了防止神經(jīng)網(wǎng)絡(luò)的過擬合而添加的正則項(xiàng).
聯(lián)合學(xué)習(xí)模型流程圖如圖1所示.
圖1 聯(lián)合學(xué)習(xí)模型流程圖Fig.1 Flow chart of joint learning model
本文模型的主要設(shè)置如下:Transformer層數(shù)設(shè)置為12,隱藏層的維度設(shè)置為768,字向量的維度設(shè)置為128,增加維度并不能再提高效果.本文實(shí)驗(yàn)學(xué)習(xí)率取值0.001;實(shí)驗(yàn)采用了Dropout機(jī)制來防止神經(jīng)網(wǎng)絡(luò)過擬合,實(shí)驗(yàn)中Dropout設(shè)置為0.5.本文主要進(jìn)行了分詞和詞性聯(lián)合標(biāo)注實(shí)驗(yàn).
分詞和詞性聯(lián)合標(biāo)注實(shí)驗(yàn)使用的實(shí)驗(yàn)語(yǔ)料是PKU、MSR和CTB8(來自Chinese Treebank 8.0).PKU是由北大計(jì)算語(yǔ)言學(xué)研究所提供的語(yǔ)料庫(kù),該語(yǔ)料庫(kù)是對(duì)人民日?qǐng)?bào)1998年上半年的純文本語(yǔ)料進(jìn)行了詞語(yǔ)切分和詞性標(biāo)注制作而成的.該語(yǔ)料庫(kù)分詞的一個(gè)特征是姓和名要分離,組織機(jī)構(gòu)要直接在語(yǔ)法詞典中標(biāo)注出來,大多數(shù)短語(yǔ)詞在組合之前應(yīng)該被分割.MSR系微軟亞洲研究院開發(fā)的語(yǔ)料數(shù)據(jù)庫(kù),它的分詞特征是由比較多的命名實(shí)體組成的長(zhǎng)詞.賓夕法尼亞大學(xué)中文語(yǔ)法樹數(shù)據(jù)庫(kù)(CTB8)包含經(jīng)過詞性標(biāo)記、分詞、句法標(biāo)記的語(yǔ)料,根據(jù)語(yǔ)句的內(nèi)部結(jié)構(gòu)形成語(yǔ)法樹.
公式(9)、公式(12)中的分詞標(biāo)簽轉(zhuǎn)換分?jǐn)?shù)矩陣A由語(yǔ)料集PKU、MSR和CTB8聯(lián)合訓(xùn)練得到,其它模型參數(shù)分別在語(yǔ)料集PKU、CTB8上單獨(dú)進(jìn)行訓(xùn)練.分詞性能采取召回率、準(zhǔn)確率和綜合指數(shù)F1來評(píng)估:其中準(zhǔn)確率P表示推測(cè)正確的分詞個(gè)數(shù)與推測(cè)分詞個(gè)數(shù)的比值;召回率R表示推測(cè)正確的分詞個(gè)數(shù)與測(cè)試集中正確的分詞個(gè)數(shù)的比值;綜合指標(biāo)F1表示召回率和精確率的調(diào)和平均值:
(15)
實(shí)驗(yàn)結(jié)果表1列出了不同語(yǔ)料集的分詞測(cè)試性能.
表1 不同方法在不同數(shù)據(jù)測(cè)試集上分詞測(cè)試結(jié)果對(duì)比Table 1 Comparison of word segmentation test results of different methods on different test sets
本文應(yīng)用馬爾可夫族模型(MFM)、樹形概率(TLP)進(jìn)行詞性標(biāo)注,并結(jié)合BERT語(yǔ)言模型、雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型(BiLSTM)和條件隨機(jī)場(chǎng)模型(CRF)提出了中文分詞和詞性標(biāo)注聯(lián)合方法BERT-BiLSTM-CRF-MFM、BERT-BiLSTM-CRF-TLP.由表1分詞標(biāo)注結(jié)果中可以看出:本文提出的分詞方法在基于字的BiLSTM-CRF中文分詞模型基礎(chǔ)上,利用詞性標(biāo)注信息實(shí)現(xiàn)分詞,有機(jī)地將中文分詞和詞性標(biāo)注結(jié)合起來明顯提高了分詞性能;在中文分詞上,相比于BiLSTM-CRF分詞模型、Switch-LSTMs分詞模型,BERT-BiLSTM-CRF-MFM、BERT-BiLSTM-CRF-TLP方法分詞效果有大幅度的提高,并且基于馬爾可夫族模型(MFM)、BERT語(yǔ)言模型、長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型和條件隨機(jī)場(chǎng)模型的中文分詞和詞性標(biāo)注聯(lián)合方法BERT-BiLSTM-CRF-MFM取得了最佳的效果.
本文比較了幾種中文分詞和詞性標(biāo)注聯(lián)合方法分別在語(yǔ)料集PKU和CTB8上的實(shí)驗(yàn)結(jié)果,具體如表2、表3所示.
表3 不同方法在語(yǔ)料集PKU上的實(shí)驗(yàn)結(jié)果對(duì)比Table 3 Comparison of experimental results of different methods on the corpus PKU
實(shí)驗(yàn)結(jié)果表明,中文分詞和詞性標(biāo)注聯(lián)合方法BERT-BiLSTM-CRF-MFM能同時(shí)大幅度提高分詞和詞性標(biāo)注效果.在基于馬爾可夫族模型的詞性標(biāo)注中,目前詞的詞性不僅與前面一個(gè)詞的詞性關(guān)聯(lián),也與目前詞自身關(guān)聯(lián).故而在一樣的測(cè)試情況下,利用馬爾可夫族模型的聯(lián)合標(biāo)記模型BERT-BiLSTM-CRF-MFM比常規(guī)的詞性標(biāo)注方法大大提高了詞性標(biāo)注準(zhǔn)確率,這也驗(yàn)證了前面的假設(shè).
針對(duì)中文分詞、詞性標(biāo)注等序列標(biāo)注任務(wù),本文提出了結(jié)合BERT語(yǔ)言模型、BiLSTM、CRF和馬爾可夫族模型(MFM)或樹形概率(TLP)構(gòu)建的中文分詞和詞性標(biāo)記聯(lián)合算法.利用隱馬爾科夫模型的詞性標(biāo)記算法只利用到了詞性到詞的發(fā)射概率,弱化了詞對(duì)詞性的分布情況;而在利用樹形概率或馬爾可夫族模型的詞性標(biāo)記算法中,目前詞的詞性不僅和前一個(gè)詞的詞性關(guān)聯(lián),而且和目前詞自身關(guān)聯(lián).通常詞性標(biāo)記和漢語(yǔ)分詞是分別進(jìn)行這兩個(gè)任務(wù),然而詞性標(biāo)記的準(zhǔn)確性與分詞的準(zhǔn)確性緊密關(guān)聯(lián),分詞錯(cuò)誤也許會(huì)制約詞性標(biāo)記的準(zhǔn)確性.將詞性標(biāo)記和分詞統(tǒng)一在一個(gè)聯(lián)合模型架構(gòu)中,能夠大幅減少錯(cuò)誤的傳播,并有益于利用詞性信息進(jìn)行分詞,將兩者緊密結(jié)合能夠幫助消除歧義和提升詞性標(biāo)記、分詞的準(zhǔn)確性.