• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合多種語言學(xué)特征的維吾爾語神經(jīng)網(wǎng)絡(luò)命名實(shí)體識(shí)別

      2020-05-16 06:46:36楊雅婷蔣同海
      關(guān)鍵詞:維吾爾語詞綴字符

      董 瑞 楊雅婷 蔣同海

      1(中國科學(xué)院新疆理化技術(shù)研究所 新疆 烏魯木齊 830011)2(新疆民族語音語言信息處理實(shí)驗(yàn)室 新疆 烏魯木齊 830011)3(中國科學(xué)院大學(xué) 北京 100049)

      0 引 言

      隨著互聯(lián)網(wǎng)的普及和發(fā)展,網(wǎng)絡(luò)成為了每個(gè)人生活中不可缺少的部分,咨訊信息、新聞媒體、社交網(wǎng)絡(luò)充斥在每個(gè)人的身邊,維吾爾語文本信息增長飛快,因此維吾爾語自然語言處理研究變得越來越重要。命名實(shí)體識(shí)別是自然語言處理的基礎(chǔ)任務(wù),命名實(shí)體識(shí)別任務(wù)是從自然語言文本中識(shí)別出具有特點(diǎn)屬性和意義的實(shí)體,并加以分類。隨著深度學(xué)習(xí)在自然語言處理中的深入研究,神經(jīng)網(wǎng)絡(luò)模型已經(jīng)開始應(yīng)用于命名實(shí)體識(shí)別,相對(duì)于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別,神經(jīng)網(wǎng)絡(luò)模型能夠減少人工選擇特征、人工構(gòu)建模板這個(gè)復(fù)雜的特征工程,并且取得了不錯(cuò)的效果。但是維吾爾語屬于阿爾泰語系突厥語族西匈語支,在語法結(jié)構(gòu)上屬于黏著語,單詞是由詞干附加若干詞綴構(gòu)詞,形態(tài)非常豐富。由于其豐富的形態(tài)特征,僅僅通過神經(jīng)網(wǎng)絡(luò)模型自動(dòng)提取的特征,無法獲得全面有效的文本表示。相對(duì)于僅使用神經(jīng)網(wǎng)絡(luò)模型自動(dòng)提取特征,本文提出的融合多種語言學(xué)特征的神經(jīng)網(wǎng)絡(luò)模型,在維吾爾語命名實(shí)體識(shí)別任務(wù)上取得了更好的識(shí)別效果。

      1 相關(guān)工作

      1991年Rau在第7屆IEEE人工智能應(yīng)用會(huì)議上提出命名實(shí)體的概念之后,信息理解會(huì)議(Message Understanding Conference,MUC)、內(nèi)容自動(dòng)提取(Automatic Content Extraction,ACE)的評(píng)測(cè)推動(dòng)著命名實(shí)體識(shí)別研究的發(fā)展。國家高技術(shù)研究發(fā)展計(jì)劃“中文信息處理與智能人機(jī)接口技術(shù)評(píng)測(cè)”以及SIGHAN(計(jì)算語言學(xué)協(xié)會(huì)特別興趣小組,研究中文自然語言處理)的BAKEOFF評(píng)測(cè)都對(duì)中文命名實(shí)體識(shí)別的發(fā)展起到了促進(jìn)的作用。

      傳統(tǒng)的基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別算法,例如SVM、HMM、CRF,為了獲取更高的識(shí)別性能,需要進(jìn)行大量的特征工程,人工定義特征,生成特征模板,識(shí)別算法的成功與否和研究者設(shè)置的特征模板息息相關(guān)。通常這些人工挑選的特征都是和語言相關(guān)的。例如,對(duì)于英語來說,文本中的命名實(shí)體詞需要首字母大寫,這一特征就非常重要,但是對(duì)于漢字和維吾爾語字母沒有大寫特征,因此針對(duì)不同語種的命名實(shí)體識(shí)別任務(wù),選擇合適的語言學(xué)特征就變得非常重要。

      隨著深度學(xué)習(xí)在自然語言處理的深入研究,詞向量通常作為神經(jīng)網(wǎng)絡(luò)模型的輸入層,在不同自然語言處理任務(wù)中都能夠取得非常好的效果。詞向量是在無標(biāo)注大規(guī)模文本上無監(jiān)督訓(xùn)練獲取的,能夠表達(dá)部分語義信息和上下文關(guān)系。Collobert等[1]為了減少特征工程的工作量,使用CNN-CRF神經(jīng)網(wǎng)絡(luò)模型進(jìn)行命名實(shí)體識(shí)別任務(wù),取得了不錯(cuò)的效果。Chiu等[2]在Bi-LSTM基礎(chǔ)上,聯(lián)合詞向量和CNN提取的字符特征作為輸入向量進(jìn)行命名實(shí)體識(shí)別,實(shí)驗(yàn)表明CNN提取的字符特征能夠更進(jìn)一步的豐富命名實(shí)體的文本表示。但是使用Bi-LSTM進(jìn)行命名實(shí)體識(shí)別時(shí),輸出層通常使用Softmax作為激活函數(shù),將命名實(shí)體識(shí)別任務(wù)看作一個(gè)文本分類任務(wù),這樣做的前提假設(shè)是輸出類別之間相互獨(dú)立,但是命名實(shí)體識(shí)別輸出的實(shí)體類別標(biāo)簽是相互關(guān)聯(lián)的。例如某個(gè)單詞的輸出實(shí)體標(biāo)簽是I-LOC,那么它的上一個(gè)單詞一定是B-LOC或者I-LOC,而不能是B-ORG。為了解決輸出實(shí)體類別序列間的關(guān)系依賴問題,黃志恒等[3]提出了一種使用Bi-LSTM-CRF的網(wǎng)絡(luò)結(jié)構(gòu),將Bi-LSTM的輸出向量連接到CRF層,取得了不錯(cuò)的效果,但是沒有加入CNN進(jìn)行字符特征提取。Ma等[4]在Bi-LSTM-CRF的基礎(chǔ)上,使用CNN提取每個(gè)單詞的字符特征,然后將字符特征和詞嵌入拼接在一起作為輸入向量,使用Bi-LSTM-CNN-CRF在CONLL2003數(shù)據(jù)集上取得了最優(yōu)的識(shí)別結(jié)果。

      維吾爾命名實(shí)體識(shí)別研究開始比較晚,從基于規(guī)則的人名翻譯開始[5-7],到使用規(guī)則和統(tǒng)計(jì)的方法進(jìn)行維吾爾語人名識(shí)別[8],再到使用統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法進(jìn)行維吾爾語人名識(shí)別[9-10],以及分別針對(duì)機(jī)構(gòu)名、地名、和數(shù)詞進(jìn)行識(shí)別[11-15]。大部分針對(duì)維吾爾語命名實(shí)體識(shí)別的研究者都使用條件隨機(jī)場(chǎng)作為序列標(biāo)注算法[16]。近期一些學(xué)者也開始使用神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行命名實(shí)體識(shí)別研究[17-18],但是目前還沒有開放的數(shù)據(jù)集以及公開評(píng)測(cè)項(xiàng)目。

      2 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

      2.1 詞向量

      文本使用Word2vec進(jìn)行維吾爾語詞向量的訓(xùn)練,訓(xùn)練語料為298萬句維吾爾語單語語料,共1 921 477個(gè)單詞。使用CBOW計(jì)算詞向量,詞特征窗口大小為8,最小詞頻為1,詳細(xì)內(nèi)容見表1。

      表1 詞向量參數(shù)設(shè)置

      2.2 CNN抽取字符特征

      卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是一種常用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。在自然語言處理中,常使用CNN來提取文本特征,并且有研究者發(fā)現(xiàn),使用CNN抽取字符級(jí)特征,能夠很好地表示單詞的形態(tài)學(xué)特征。圖1為本文模型中抽取字符特征的網(wǎng)絡(luò)結(jié)構(gòu),“suyimen”是拉丁維語“我喜歡”的意思。

      圖1 CNN抽取字符特征

      本文設(shè)置字符向量維數(shù)為30,并且進(jìn)行隨機(jī)初始化。每個(gè)單詞的最大字符長度為50,如果超過最大長度,就截取前50個(gè)字母,如果長度小于50,就使用Padding進(jìn)行補(bǔ)齊。通過卷積層和最大池化層,抽取單詞的字符特征表示向量。卷積核尺寸為30,卷積核長度為3。

      2.3 語言學(xué)特征向量

      維吾爾語屬于阿爾泰語系突厥語族西匈語支,在語法結(jié)構(gòu)上屬于黏著語,維吾爾單詞是由詞干附加若干詞綴構(gòu)成,有著豐富的形態(tài)學(xué)特征。由于這種復(fù)雜形態(tài),CNN很難完全抽取所有的形態(tài)學(xué)特征,并且維吾爾語的每個(gè)詞綴還有自己的詞性特征。借鑒于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的維吾爾語命名實(shí)體識(shí)別研究,我們?cè)O(shè)計(jì)了一組維吾爾語語言學(xué)特征,見表2。

      表2 語言學(xué)特征說明

      例如拉丁維語單詞oquyalmidim(漢語意思:我不會(huì)讀),切分成詞干附加詞綴的形式為:

      oquyalmidim->oqu+yala+ma+d+im

      其中:oqu是詞干,yala是第一個(gè)詞綴,ma是第二個(gè)詞綴,d是第三個(gè)詞綴,im是第四個(gè)詞綴,每個(gè)詞綴有不同的詞性。這個(gè)維吾爾語單詞的語言學(xué)特征就可以用表3表示。

      表3 維吾爾語單詞語言學(xué)特征示例

      設(shè)置每個(gè)語言學(xué)特征的向量維數(shù)為30,隨機(jī)初始化向量。

      2.4 聯(lián)合向量表示

      將詞向量、字符特征向量以及語言學(xué)特征向量級(jí)聯(lián)作為神經(jīng)網(wǎng)絡(luò)的輸入向量表示。假設(shè)Vword表示詞向量,Vchar表示字符特征向量,Vfi表示表2中的第i個(gè)語言學(xué)特征向量,整體輸入向量就可以表示為V=[Vword:Vchar:Vf1:…:Vf10],結(jié)果如圖2所示。

      圖2 聯(lián)合特征表示

      2.5 Bi-LSTM

      (1) LSTM。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)的網(wǎng)絡(luò)結(jié)構(gòu)在自然語言處理中得到了廣泛的應(yīng)用。對(duì)于命名實(shí)體任務(wù)來說,RNN的輸入層就是詞向量,輸出層就是命名實(shí)體類別序列。RNN網(wǎng)絡(luò)有一個(gè)很大的缺點(diǎn)就是長期依賴問題,對(duì)于過長的神經(jīng)網(wǎng)絡(luò)序列,很難保留很久之前的輸入信息。為了解決這個(gè)問題,Hochreither等設(shè)計(jì)了長短期記憶網(wǎng)絡(luò)(Long short term merroy,LSTM),通過三個(gè)特殊的門結(jié)構(gòu)來控制輸入和輸出信息。圖3為一個(gè)LSTM單元的基本結(jié)構(gòu)。

      圖3 LSTM單元基本結(jié)構(gòu)

      LSTM更新公式如下:

      it=σ(Wxixt+Whiht-1+Wcict-1+bi)

      (1)

      ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)

      (2)

      ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)

      (3)

      ot=σ(Wxoxt+Whoht-1+Wcoct-1+bo)

      (4)

      ht=ottanh(ct)

      (5)

      式中:σ是Sigmoid激活函數(shù);i是輸入門;f是遺忘門;c是記憶單元;o是輸出門;h是隱層;tanh表示雙曲正切激活函數(shù);W是權(quán)重矩陣,例如Wxi是輸入x到輸入門之間的權(quán)重矩陣,Whi是隱層到輸入門的權(quán)重矩陣,b是偏置向量。

      2.6 CRF

      條件隨機(jī)場(chǎng)(Conditional Random Fields,CRF) 是在給定一組輸入隨機(jī)變量條件下,另外一組輸出隨機(jī)變量的條件概率分布模型。使用Softmax激活函數(shù)作為輸出層的前提假設(shè)是輸出類別直接相互獨(dú)立,類別之間沒有約束。但是對(duì)于命名實(shí)體識(shí)別任務(wù)來說,輸出類別之間是有約束關(guān)系的。而CRF可以很好地對(duì)這種類別間關(guān)系進(jìn)行約束,因此使用CRF層和Bi-LSTM的輸出向量連接在一起進(jìn)行命名實(shí)體識(shí)別任務(wù)。

      2.7 多特征融合的Bi-LSTM-CNN-CRF模型

      將詞向量、字符特征以及語言學(xué)特征連接在一起作為輸入向量,將BLSTM的輸出向量和CRF層相連,構(gòu)成融多種合語言學(xué)特征的Bi-LSTM-CNN-CRF神經(jīng)網(wǎng)絡(luò)模型,整體結(jié)構(gòu)如圖4所示。

      圖4 融合多語言學(xué)特征的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)

      每一個(gè)輸入的維吾爾語單詞,將其詞向量和CNN提取的字符特征向量以及經(jīng)過形態(tài)學(xué)分析得到的語言學(xué)特征向量拼接到一起,作為Bi-LSTM網(wǎng)絡(luò)的輸入向量,最后再將Bi-LSTM的輸出向量和CRF層相連。

      3 實(shí) 驗(yàn)

      3.1 標(biāo)注規(guī)范

      本文使用BIO標(biāo)注規(guī)范,命名實(shí)體類別包括三類:人名、機(jī)構(gòu)名和地名。具體定義如表4、表5所示。

      表4 BIO標(biāo)注含義

      表5 命名實(shí)體識(shí)別類別說明

      3.2 訓(xùn)練語料

      由于維吾爾語命名實(shí)體識(shí)別任務(wù),沒有公開發(fā)布的標(biāo)注數(shù)據(jù)集,因此本文使用中科院新疆理化所標(biāo)注的維吾爾語命名實(shí)體識(shí)別語料。詳細(xì)信息如表6所示。

      表6 訓(xùn)練語料說明

      3.3 評(píng)測(cè)指標(biāo)

      本文使用精確率P、召回率R、F1值來進(jìn)行評(píng)測(cè)。具體公式如下:

      (6)

      (7)

      (8)

      3.4 實(shí)驗(yàn)結(jié)果及分析

      為了驗(yàn)證加入語言學(xué)特征是否能夠提高維吾爾語命名實(shí)體性能,本文進(jìn)行了多組對(duì)比實(shí)驗(yàn),使用不添加任何語言學(xué)特征的Just_token作為基線系統(tǒng)。

      (1) 實(shí)驗(yàn)一:分別使用每個(gè)語言學(xué)特征,將其添加到神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行對(duì)比,結(jié)果如表7所示。

      表7 多種語言學(xué)特征對(duì)比實(shí)驗(yàn)結(jié)果 %

      從實(shí)驗(yàn)結(jié)果看,對(duì)比不添加任何語言學(xué)特征直接使用Bi-LSTM-CNN-CRF,大部分添加的語言學(xué)特征的模型可以取得更好的識(shí)別結(jié)果,但是對(duì)于僅使用Pos4、suffix4這兩種語言學(xué)特征,識(shí)別結(jié)果并沒有基線系統(tǒng)高。為了確定這幾種語言學(xué)特征是否有效,進(jìn)一步進(jìn)行實(shí)驗(yàn)驗(yàn)證。

      (2) 實(shí)驗(yàn)二:對(duì)于Pos4特征,為了確定這個(gè)語言學(xué)特征是否對(duì)維吾爾語命名實(shí)體識(shí)別有用,我們將Pos1-Pos4這四種特征同時(shí)添加到神經(jīng)網(wǎng)絡(luò)模型中,用來比較添加Pos4特征后,是否對(duì)整體命名實(shí)體識(shí)別任務(wù)有幫助,實(shí)驗(yàn)結(jié)果見表8。

      表8 融合所有詞綴詞性特征對(duì)比 %

      可以看出,在F1值上,添加全部的詞綴詞性特征有一定的提高,因此我們決定將Pos4特征加入整體的語言學(xué)特征中去。

      (3) 實(shí)驗(yàn)三:Suffix1-Suffix4分別是每個(gè)維吾爾語單詞所附加的第一個(gè)到第四個(gè)詞綴特征,可以發(fā)現(xiàn)雖然使用CNN進(jìn)行字符特征提取能夠獲取一部分形態(tài)學(xué)特征,但是由于維吾爾語形態(tài)復(fù)雜,并不能獲取全部的形態(tài)學(xué)特征。通過表7可以看出Suffix1-Suffix3分別添加之后,識(shí)別結(jié)果都有一定的提升。Suffix4效果不好的原因經(jīng)過分析發(fā)現(xiàn),測(cè)試集中共有20 242個(gè)單詞,包含4個(gè)詞綴的單詞只有1 086個(gè),過于稀疏,對(duì)識(shí)別訓(xùn)練造成了負(fù)面影響。為了驗(yàn)證Suffix4是否對(duì)維吾爾語命名實(shí)體識(shí)別有負(fù)面影響,我們同時(shí)添加Suffix1-Suffix4這四個(gè)特征進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表9所示。

      表9 融合所有詞綴特征對(duì)比 %

      通過表9可以發(fā)現(xiàn),雖然單獨(dú)加入Suffix4沒有能夠提高識(shí)別率,但是同時(shí)添加四個(gè)詞綴特征,可以有效提高命名實(shí)體識(shí)別精度。

      (4) 實(shí)驗(yàn)四:通過上述的實(shí)驗(yàn)可以看出,語言學(xué)特征能夠提高維吾爾語命名實(shí)體識(shí)別精度,因此,我們將加入所有的語言學(xué)特征,與實(shí)驗(yàn)二中加入Pos1-Pos4特征以及實(shí)驗(yàn)三中加入Suffix1-Suffix4特征進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表10所示。

      表10 融合所有語言學(xué)特征對(duì)比 %

      實(shí)驗(yàn)結(jié)果表明,融合所有語言學(xué)特征后,相對(duì)于沒有添加語言學(xué)特征的Bi-LSTM-CNN-CRF模型,維吾爾語命名實(shí)體識(shí)別精度有著顯著提高,F(xiàn)1值提高了3.98%。同時(shí),相對(duì)于僅添加了部分特征的,Pos1-Pos4以及Suffix1-Suffix4這兩種模型,全部的語言學(xué)特征可以取得最好的命名實(shí)體識(shí)別精度。

      4 結(jié) 語

      由于維吾爾語的復(fù)雜形態(tài)特性,僅僅使用字符級(jí)CNN網(wǎng)絡(luò)無法充分提取維吾爾語形態(tài)特征。本文提出了一種融合多種語言學(xué)特征的Bi-LSTM-CNN-CRF神經(jīng)網(wǎng)絡(luò)模型。通過整合詞向量、字符特征、多種語言學(xué)特征向量作為輸入向量,使用Bi-LSTM獲取上下文信息,使用CRF作為輸出層,約束輸出命名實(shí)體類別序列。

      實(shí)驗(yàn)表明,本文提出的融合多種語言學(xué)特征的維吾爾語神經(jīng)網(wǎng)絡(luò)命名實(shí)體識(shí)別模型,可以彌補(bǔ)僅僅使用CNN提取字符特征無法充分獲取復(fù)雜形態(tài)特征的缺點(diǎn),有效提升維吾爾語命名實(shí)體識(shí)別效果。

      現(xiàn)有的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)還很難充分地自動(dòng)抽取復(fù)雜形態(tài)語言的形態(tài)特征以及其他語言學(xué)特征,下一步將設(shè)計(jì)新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),能夠更充分地自動(dòng)抽取維吾爾語語言特征,進(jìn)一步減少特征工程,并且提高維吾爾語命名實(shí)體識(shí)別精度。

      猜你喜歡
      維吾爾語詞綴字符
      尋找更強(qiáng)的字符映射管理器
      從網(wǎng)絡(luò)語“X精”看“精”的類詞綴化
      字符代表幾
      一種USB接口字符液晶控制器設(shè)計(jì)
      電子制作(2019年19期)2019-11-23 08:41:50
      消失的殖民村莊和神秘字符
      釋西夏語詞綴wji2
      西夏研究(2017年1期)2017-07-10 08:16:55
      統(tǒng)計(jì)與規(guī)則相結(jié)合的維吾爾語人名識(shí)別方法
      維吾爾語話題的韻律表現(xiàn)
      維吾爾語詞重音的形式判斷
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      現(xiàn)代維吾爾語中“-0wat-”的進(jìn)行體特征
      語言與翻譯(2014年3期)2014-07-12 10:32:09
      天镇县| 禹城市| 博乐市| 女性| 安义县| 南京市| 铜鼓县| 茶陵县| 东明县| 平远县| 千阳县| 永福县| 新化县| 临桂县| 怀化市| 平武县| 潼南县| 衡南县| 淮阳县| 保靖县| 宿州市| 开原市| 唐山市| 石泉县| 新丰县| 青铜峡市| 阿坝县| 泗水县| 石楼县| 平塘县| 当阳市| 绥化市| 巴青县| 霍邱县| 同德县| 麦盖提县| 凭祥市| 辽中县| 广汉市| 永清县| 襄樊市|