融合多種語言學(xué)特征的維吾爾語神經(jīng)網(wǎng)絡(luò)命名實(shí)體識(shí)別

2020-05-16 06:46:36楊雅婷蔣同海

計(jì)算機(jī)應(yīng)用與軟件 2020年5期

董瑞楊雅婷蔣同海

1(中國科學(xué)院新疆理化技術(shù)研究所新疆烏魯木齊 830011)2(新疆民族語音語言信息處理實(shí)驗(yàn)室新疆烏魯木齊 830011)3(中國科學(xué)院大學(xué) 北京 100049)

0 引言

隨著互聯(lián)網(wǎng)的普及和發(fā)展，網(wǎng)絡(luò)成為了每個(gè)人生活中不可缺少的部分，咨訊信息、新聞媒體、社交網(wǎng)絡(luò)充斥在每個(gè)人的身邊，維吾爾語文本信息增長飛快，因此維吾爾語自然語言處理研究變得越來越重要。命名實(shí)體識(shí)別是自然語言處理的基礎(chǔ)任務(wù)，命名實(shí)體識(shí)別任務(wù)是從自然語言文本中識(shí)別出具有特點(diǎn)屬性和意義的實(shí)體，并加以分類。隨著深度學(xué)習(xí)在自然語言處理中的深入研究，神經(jīng)網(wǎng)絡(luò)模型已經(jīng)開始應(yīng)用于命名實(shí)體識(shí)別，相對(duì)于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別，神經(jīng)網(wǎng)絡(luò)模型能夠減少人工選擇特征、人工構(gòu)建模板這個(gè)復(fù)雜的特征工程，并且取得了不錯(cuò)的效果。但是維吾爾語屬于阿爾泰語系突厥語族西匈語支，在語法結(jié)構(gòu)上屬于黏著語，單詞是由詞干附加若干詞綴構(gòu)詞，形態(tài)非常豐富。由于其豐富的形態(tài)特征，僅僅通過神經(jīng)網(wǎng)絡(luò)模型自動(dòng)提取的特征，無法獲得全面有效的文本表示。相對(duì)于僅使用神經(jīng)網(wǎng)絡(luò)模型自動(dòng)提取特征，本文提出的融合多種語言學(xué)特征的神經(jīng)網(wǎng)絡(luò)模型，在維吾爾語命名實(shí)體識(shí)別任務(wù)上取得了更好的識(shí)別效果。

1 相關(guān)工作

1991年Rau在第7屆IEEE人工智能應(yīng)用會(huì)議上提出命名實(shí)體的概念之后，信息理解會(huì)議(Message Understanding Conference,MUC)、內(nèi)容自動(dòng)提取(Automatic Content Extraction，ACE)的評(píng)測(cè)推動(dòng)著命名實(shí)體識(shí)別研究的發(fā)展。國家高技術(shù)研究發(fā)展計(jì)劃“中文信息處理與智能人機(jī)接口技術(shù)評(píng)測(cè)”以及SIGHAN(計(jì)算語言學(xué)協(xié)會(huì)特別興趣小組，研究中文自然語言處理)的BAKEOFF評(píng)測(cè)都對(duì)中文命名實(shí)體識(shí)別的發(fā)展起到了促進(jìn)的作用。

傳統(tǒng)的基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別算法，例如SVM、HMM、CRF，為了獲取更高的識(shí)別性能，需要進(jìn)行大量的特征工程，人工定義特征，生成特征模板，識(shí)別算法的成功與否和研究者設(shè)置的特征模板息息相關(guān)。通常這些人工挑選的特征都是和語言相關(guān)的。例如，對(duì)于英語來說，文本中的命名實(shí)體詞需要首字母大寫，這一特征就非常重要，但是對(duì)于漢字和維吾爾語字母沒有大寫特征，因此針對(duì)不同語種的命名實(shí)體識(shí)別任務(wù)，選擇合適的語言學(xué)特征就變得非常重要。

隨著深度學(xué)習(xí)在自然語言處理的深入研究，詞向量通常作為神經(jīng)網(wǎng)絡(luò)模型的輸入層，在不同自然語言處理任務(wù)中都能夠取得非常好的效果。詞向量是在無標(biāo)注大規(guī)模文本上無監(jiān)督訓(xùn)練獲取的，能夠表達(dá)部分語義信息和上下文關(guān)系。Collobert等[1]為了減少特征工程的工作量，使用CNN-CRF神經(jīng)網(wǎng)絡(luò)模型進(jìn)行命名實(shí)體識(shí)別任務(wù)，取得了不錯(cuò)的效果。Chiu等[2]在Bi-LSTM基礎(chǔ)上，聯(lián)合詞向量和CNN提取的字符特征作為輸入向量進(jìn)行命名實(shí)體識(shí)別，實(shí)驗(yàn)表明CNN提取的字符特征能夠更進(jìn)一步的豐富命名實(shí)體的文本表示。但是使用Bi-LSTM進(jìn)行命名實(shí)體識(shí)別時(shí)，輸出層通常使用Softmax作為激活函數(shù)，將命名實(shí)體識(shí)別任務(wù)看作一個(gè)文本分類任務(wù)，這樣做的前提假設(shè)是輸出類別之間相互獨(dú)立，但是命名實(shí)體識(shí)別輸出的實(shí)體類別標(biāo)簽是相互關(guān)聯(lián)的。例如某個(gè)單詞的輸出實(shí)體標(biāo)簽是I-LOC，那么它的上一個(gè)單詞一定是B-LOC或者I-LOC，而不能是B-ORG。為了解決輸出實(shí)體類別序列間的關(guān)系依賴問題，黃志恒等[3]提出了一種使用Bi-LSTM-CRF的網(wǎng)絡(luò)結(jié)構(gòu)，將Bi-LSTM的輸出向量連接到CRF層，取得了不錯(cuò)的效果，但是沒有加入CNN進(jìn)行字符特征提取。Ma等[4]在Bi-LSTM-CRF的基礎(chǔ)上，使用CNN提取每個(gè)單詞的字符特征，然后將字符特征和詞嵌入拼接在一起作為輸入向量，使用Bi-LSTM-CNN-CRF在CONLL2003數(shù)據(jù)集上取得了最優(yōu)的識(shí)別結(jié)果。

維吾爾命名實(shí)體識(shí)別研究開始比較晚，從基于規(guī)則的人名翻譯開始[5-7]，到使用規(guī)則和統(tǒng)計(jì)的方法進(jìn)行維吾爾語人名識(shí)別[8]，再到使用統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法進(jìn)行維吾爾語人名識(shí)別[9-10]，以及分別針對(duì)機(jī)構(gòu)名、地名、和數(shù)詞進(jìn)行識(shí)別[11-15]。大部分針對(duì)維吾爾語命名實(shí)體識(shí)別的研究者都使用條件隨機(jī)場(chǎng)作為序列標(biāo)注算法[16]。近期一些學(xué)者也開始使用神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行命名實(shí)體識(shí)別研究[17-18]，但是目前還沒有開放的數(shù)據(jù)集以及公開評(píng)測(cè)項(xiàng)目。

2 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

2.1 詞向量

文本使用Word2vec進(jìn)行維吾爾語詞向量的訓(xùn)練，訓(xùn)練語料為298萬句維吾爾語單語語料，共1 921 477個(gè)單詞。使用CBOW計(jì)算詞向量，詞特征窗口大小為8，最小詞頻為1，詳細(xì)內(nèi)容見表1。

表1 詞向量參數(shù)設(shè)置

2.2 CNN抽取字符特征

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是一種常用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。在自然語言處理中，常使用CNN來提取文本特征，并且有研究者發(fā)現(xiàn)，使用CNN抽取字符級(jí)特征，能夠很好地表示單詞的形態(tài)學(xué)特征。圖1為本文模型中抽取字符特征的網(wǎng)絡(luò)結(jié)構(gòu)，“suyimen”是拉丁維語“我喜歡”的意思。

圖1 CNN抽取字符特征

本文設(shè)置字符向量維數(shù)為30，并且進(jìn)行隨機(jī)初始化。每個(gè)單詞的最大字符長度為50，如果超過最大長度，就截取前50個(gè)字母，如果長度小于50，就使用Padding進(jìn)行補(bǔ)齊。通過卷積層和最大池化層，抽取單詞的字符特征表示向量。卷積核尺寸為30，卷積核長度為3。

2.3 語言學(xué)特征向量

維吾爾語屬于阿爾泰語系突厥語族西匈語支，在語法結(jié)構(gòu)上屬于黏著語，維吾爾單詞是由詞干附加若干詞綴構(gòu)成，有著豐富的形態(tài)學(xué)特征。由于這種復(fù)雜形態(tài)，CNN很難完全抽取所有的形態(tài)學(xué)特征，并且維吾爾語的每個(gè)詞綴還有自己的詞性特征。借鑒于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的維吾爾語命名實(shí)體識(shí)別研究，我們?cè)O(shè)計(jì)了一組維吾爾語語言學(xué)特征，見表2。

表2 語言學(xué)特征說明

例如拉丁維語單詞oquyalmidim(漢語意思：我不會(huì)讀)，切分成詞干附加詞綴的形式為：

oquyalmidim->oqu+yala+ma+d+im

其中：oqu是詞干，yala是第一個(gè)詞綴，ma是第二個(gè)詞綴，d是第三個(gè)詞綴，im是第四個(gè)詞綴，每個(gè)詞綴有不同的詞性。這個(gè)維吾爾語單詞的語言學(xué)特征就可以用表3表示。

表3 維吾爾語單詞語言學(xué)特征示例

設(shè)置每個(gè)語言學(xué)特征的向量維數(shù)為30，隨機(jī)初始化向量。

2.4 聯(lián)合向量表示

將詞向量、字符特征向量以及語言學(xué)特征向量級(jí)聯(lián)作為神經(jīng)網(wǎng)絡(luò)的輸入向量表示。假設(shè)Vword表示詞向量，Vchar表示字符特征向量，Vfi表示表2中的第i個(gè)語言學(xué)特征向量，整體輸入向量就可以表示為V=[Vword:Vchar:Vf1:…:Vf10]，結(jié)果如圖2所示。

圖2 聯(lián)合特征表示

2.5 Bi-LSTM

(1) LSTM。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)的網(wǎng)絡(luò)結(jié)構(gòu)在自然語言處理中得到了廣泛的應(yīng)用。對(duì)于命名實(shí)體任務(wù)來說，RNN的輸入層就是詞向量，輸出層就是命名實(shí)體類別序列。RNN網(wǎng)絡(luò)有一個(gè)很大的缺點(diǎn)就是長期依賴問題，對(duì)于過長的神經(jīng)網(wǎng)絡(luò)序列，很難保留很久之前的輸入信息。為了解決這個(gè)問題，Hochreither等設(shè)計(jì)了長短期記憶網(wǎng)絡(luò)(Long short term merroy,LSTM)，通過三個(gè)特殊的門結(jié)構(gòu)來控制輸入和輸出信息。圖3為一個(gè)LSTM單元的基本結(jié)構(gòu)。

圖3 LSTM單元基本結(jié)構(gòu)

LSTM更新公式如下：

it=σ(Wxixt+Whiht-1+Wcict-1+bi)

(1)

ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)

(2)

ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)

(3)

ot=σ(Wxoxt+Whoht-1+Wcoct-1+bo)

(4)

ht=ottanh(ct)

(5)

式中：σ是Sigmoid激活函數(shù)；i是輸入門；f是遺忘門；c是記憶單元；o是輸出門；h是隱層；tanh表示雙曲正切激活函數(shù)；W是權(quán)重矩陣，例如Wxi是輸入x到輸入門之間的權(quán)重矩陣，Whi是隱層到輸入門的權(quán)重矩陣，b是偏置向量。

2.6 CRF

條件隨機(jī)場(chǎng)(Conditional Random Fields,CRF) 是在給定一組輸入隨機(jī)變量條件下，另外一組輸出隨機(jī)變量的條件概率分布模型。使用Softmax激活函數(shù)作為輸出層的前提假設(shè)是輸出類別直接相互獨(dú)立，類別之間沒有約束。但是對(duì)于命名實(shí)體識(shí)別任務(wù)來說，輸出類別之間是有約束關(guān)系的。而CRF可以很好地對(duì)這種類別間關(guān)系進(jìn)行約束，因此使用CRF層和Bi-LSTM的輸出向量連接在一起進(jìn)行命名實(shí)體識(shí)別任務(wù)。

2.7 多特征融合的Bi-LSTM-CNN-CRF模型

將詞向量、字符特征以及語言學(xué)特征連接在一起作為輸入向量，將BLSTM的輸出向量和CRF層相連，構(gòu)成融多種合語言學(xué)特征的Bi-LSTM-CNN-CRF神經(jīng)網(wǎng)絡(luò)模型，整體結(jié)構(gòu)如圖4所示。

圖4 融合多語言學(xué)特征的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)

每一個(gè)輸入的維吾爾語單詞，將其詞向量和CNN提取的字符特征向量以及經(jīng)過形態(tài)學(xué)分析得到的語言學(xué)特征向量拼接到一起，作為Bi-LSTM網(wǎng)絡(luò)的輸入向量，最后再將Bi-LSTM的輸出向量和CRF層相連。

3 實(shí) 驗(yàn)

3.1 標(biāo)注規(guī)范

本文使用BIO標(biāo)注規(guī)范，命名實(shí)體類別包括三類：人名、機(jī)構(gòu)名和地名。具體定義如表4、表5所示。

表4 BIO標(biāo)注含義

表5 命名實(shí)體識(shí)別類別說明

3.2 訓(xùn)練語料

由于維吾爾語命名實(shí)體識(shí)別任務(wù)，沒有公開發(fā)布的標(biāo)注數(shù)據(jù)集，因此本文使用中科院新疆理化所標(biāo)注的維吾爾語命名實(shí)體識(shí)別語料。詳細(xì)信息如表6所示。

表6 訓(xùn)練語料說明

3.3 評(píng)測(cè)指標(biāo)

本文使用精確率P、召回率R、F1值來進(jìn)行評(píng)測(cè)。具體公式如下：

(6)

(7)

(8)

3.4 實(shí)驗(yàn)結(jié)果及分析

為了驗(yàn)證加入語言學(xué)特征是否能夠提高維吾爾語命名實(shí)體性能，本文進(jìn)行了多組對(duì)比實(shí)驗(yàn)，使用不添加任何語言學(xué)特征的Just_token作為基線系統(tǒng)。

(1) 實(shí)驗(yàn)一：分別使用每個(gè)語言學(xué)特征，將其添加到神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行對(duì)比，結(jié)果如表7所示。

表7 多種語言學(xué)特征對(duì)比實(shí)驗(yàn)結(jié)果 %

從實(shí)驗(yàn)結(jié)果看，對(duì)比不添加任何語言學(xué)特征直接使用Bi-LSTM-CNN-CRF，大部分添加的語言學(xué)特征的模型可以取得更好的識(shí)別結(jié)果，但是對(duì)于僅使用Pos4、suffix4這兩種語言學(xué)特征，識(shí)別結(jié)果并沒有基線系統(tǒng)高。為了確定這幾種語言學(xué)特征是否有效，進(jìn)一步進(jìn)行實(shí)驗(yàn)驗(yàn)證。

(2) 實(shí)驗(yàn)二：對(duì)于Pos4特征，為了確定這個(gè)語言學(xué)特征是否對(duì)維吾爾語命名實(shí)體識(shí)別有用，我們將Pos1-Pos4這四種特征同時(shí)添加到神經(jīng)網(wǎng)絡(luò)模型中，用來比較添加Pos4特征后，是否對(duì)整體命名實(shí)體識(shí)別任務(wù)有幫助，實(shí)驗(yàn)結(jié)果見表8。

表8 融合所有詞綴詞性特征對(duì)比 %

可以看出，在F1值上，添加全部的詞綴詞性特征有一定的提高，因此我們決定將Pos4特征加入整體的語言學(xué)特征中去。

(3) 實(shí)驗(yàn)三：Suffix1-Suffix4分別是每個(gè)維吾爾語單詞所附加的第一個(gè)到第四個(gè)詞綴特征，可以發(fā)現(xiàn)雖然使用CNN進(jìn)行字符特征提取能夠獲取一部分形態(tài)學(xué)特征，但是由于維吾爾語形態(tài)復(fù)雜，并不能獲取全部的形態(tài)學(xué)特征。通過表7可以看出Suffix1-Suffix3分別添加之后，識(shí)別結(jié)果都有一定的提升。Suffix4效果不好的原因經(jīng)過分析發(fā)現(xiàn)，測(cè)試集中共有20 242個(gè)單詞，包含4個(gè)詞綴的單詞只有1 086個(gè)，過于稀疏，對(duì)識(shí)別訓(xùn)練造成了負(fù)面影響。為了驗(yàn)證Suffix4是否對(duì)維吾爾語命名實(shí)體識(shí)別有負(fù)面影響，我們同時(shí)添加Suffix1-Suffix4這四個(gè)特征進(jìn)行對(duì)比實(shí)驗(yàn)，結(jié)果如表9所示。

表9 融合所有詞綴特征對(duì)比 %

通過表9可以發(fā)現(xiàn)，雖然單獨(dú)加入Suffix4沒有能夠提高識(shí)別率，但是同時(shí)添加四個(gè)詞綴特征，可以有效提高命名實(shí)體識(shí)別精度。

(4) 實(shí)驗(yàn)四：通過上述的實(shí)驗(yàn)可以看出，語言學(xué)特征能夠提高維吾爾語命名實(shí)體識(shí)別精度，因此，我們將加入所有的語言學(xué)特征，與實(shí)驗(yàn)二中加入Pos1-Pos4特征以及實(shí)驗(yàn)三中加入Suffix1-Suffix4特征進(jìn)行對(duì)比實(shí)驗(yàn)，結(jié)果如表10所示。

表10 融合所有語言學(xué)特征對(duì)比 %

實(shí)驗(yàn)結(jié)果表明，融合所有語言學(xué)特征后，相對(duì)于沒有添加語言學(xué)特征的Bi-LSTM-CNN-CRF模型，維吾爾語命名實(shí)體識(shí)別精度有著顯著提高，F(xiàn)1值提高了3.98%。同時(shí)，相對(duì)于僅添加了部分特征的，Pos1-Pos4以及Suffix1-Suffix4這兩種模型，全部的語言學(xué)特征可以取得最好的命名實(shí)體識(shí)別精度。

4 結(jié) 語

由于維吾爾語的復(fù)雜形態(tài)特性，僅僅使用字符級(jí)CNN網(wǎng)絡(luò)無法充分提取維吾爾語形態(tài)特征。本文提出了一種融合多種語言學(xué)特征的Bi-LSTM-CNN-CRF神經(jīng)網(wǎng)絡(luò)模型。通過整合詞向量、字符特征、多種語言學(xué)特征向量作為輸入向量，使用Bi-LSTM獲取上下文信息，使用CRF作為輸出層，約束輸出命名實(shí)體類別序列。

實(shí)驗(yàn)表明，本文提出的融合多種語言學(xué)特征的維吾爾語神經(jīng)網(wǎng)絡(luò)命名實(shí)體識(shí)別模型，可以彌補(bǔ)僅僅使用CNN提取字符特征無法充分獲取復(fù)雜形態(tài)特征的缺點(diǎn)，有效提升維吾爾語命名實(shí)體識(shí)別效果。

現(xiàn)有的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)還很難充分地自動(dòng)抽取復(fù)雜形態(tài)語言的形態(tài)特征以及其他語言學(xué)特征，下一步將設(shè)計(jì)新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，能夠更充分地自動(dòng)抽取維吾爾語語言特征，進(jìn)一步減少特征工程，并且提高維吾爾語命名實(shí)體識(shí)別精度。