• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多神經(jīng)網(wǎng)絡(luò)協(xié)同訓(xùn)練的命名實(shí)體識別

      2020-04-29 10:55:14李業(yè)剛
      關(guān)鍵詞:分類器神經(jīng)網(wǎng)絡(luò)協(xié)同

      王 棟, 李業(yè)剛, 張 曉

      (山東理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 山東 淄博 255049)

      0 引 言

      命名實(shí)體識別(Named Entity Recongition,NER)是自然語言處理領(lǐng)域(Natural Language Processing,NLP)中經(jīng)常用到的實(shí)用性技術(shù),在事件抽取[1]、信息檢索[2]、情感分析[3]等許多任務(wù)中發(fā)揮著重要作用,旨在從文本數(shù)據(jù)中提取指定的實(shí)體信息。傳統(tǒng)的NER多采用機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)模型,該類模型需要依賴大量的特征工程和語言學(xué)規(guī)則。隨著信息時(shí)代的到來,存在于互聯(lián)網(wǎng)中的文本數(shù)據(jù)越來越多,此時(shí)采用傳統(tǒng)方法的NER技術(shù)處理如此巨大數(shù)據(jù)量的文本信息將會(huì)十分困難。近年來,深度學(xué)習(xí)技術(shù)(Deep Learning,DL)受到了研究者的廣泛關(guān)注,基于深度學(xué)習(xí)的NER技術(shù)取得了豐碩的成果,深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)模型可以有效地自動(dòng)捕獲序列文本中的詞級和字符級特征,避免了對特征工程的依賴和人工添加語言學(xué)規(guī)則,顯著地提高了NER的實(shí)用性。然而,基于深度學(xué)習(xí)的命名實(shí)體識別方法與統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法一樣,模型的訓(xùn)練需要大量的有標(biāo)記數(shù)據(jù),以確保識別精度的準(zhǔn)確性。但是有標(biāo)記數(shù)據(jù)需要人工進(jìn)行標(biāo)注,此過程必然會(huì)耗費(fèi)大量的相關(guān)成本。如果有標(biāo)記數(shù)據(jù)規(guī)模小,則難以獲得較高的識別精度。

      針對有標(biāo)記語料數(shù)據(jù)的匱乏,充分利用海量無標(biāo)記語料數(shù)據(jù),本文提出了一種多神經(jīng)網(wǎng)絡(luò)協(xié)同訓(xùn)練模型(Tri-training for Multiple Neural Network, TMNN)。首先采用3種不同的神經(jīng)網(wǎng)絡(luò)(LSTM網(wǎng)絡(luò),BLSTM網(wǎng)絡(luò),GRU網(wǎng)絡(luò))初始化為3種不同的NER識別模型,然后基于Tri-training算法,利用少量有標(biāo)記序列文本數(shù)據(jù)和大量無標(biāo)記序列文本數(shù)據(jù)對3種NER模型進(jìn)行協(xié)同訓(xùn)練,最后融合3種NER模型對文本數(shù)據(jù)進(jìn)行標(biāo)注。實(shí)驗(yàn)表明該模型在簡歷命名實(shí)體識別上取得了良好的效果。

      1 相關(guān)工作

      1.1 命名實(shí)體識別

      命名實(shí)體識別任務(wù)于1996年在MUC-6會(huì)議上首次提出,旨在識別出序列文本數(shù)據(jù)中的實(shí)體類信息。早期的研究者采用統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法對序列文本中的實(shí)體類數(shù)據(jù)進(jìn)行識別,此類方法需要研究者人工制定相應(yīng)的語言規(guī)則模板。目前,NER任務(wù)的研究贏得了眾多學(xué)者的青睞與重視。究其原因,一方面NER是自然語言處理的關(guān)鍵技術(shù),是信息提取和信息檢索的基礎(chǔ)。另一方面,隨著深度學(xué)習(xí)的不斷發(fā)展,將深度學(xué)習(xí)技術(shù)應(yīng)用在NER任務(wù)上,也已成為時(shí)下學(xué)界的研究重點(diǎn)。

      深度學(xué)習(xí)中的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)能夠捕捉句子的上下文信息,尤其適用于序列任務(wù)。隨后具有改進(jìn)結(jié)構(gòu)的長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)逐漸成為解決序列問題的主流方法,常見的基于深度學(xué)習(xí)的NER模型結(jié)構(gòu)如圖1所示。文獻(xiàn)[4]使用LSTM網(wǎng)絡(luò)和CNN網(wǎng)絡(luò)組成了一種混合結(jié)構(gòu)模型,該模型可以分別獲取字符和詞級別的特征信息,避免了對特征工程的需求。文獻(xiàn)[5]的LSTM模型對輸入模型的序列處理了兩次,第一次以提取文本信息,第二次用來消除歧義。文獻(xiàn)[6]將LSTM網(wǎng)絡(luò)和條件隨機(jī)場(Conditional Random Field,CRF)進(jìn)行了聯(lián)合,模型獲得了良好的性能。

      綜合以上學(xué)者的研究在分析后可知,將深度學(xué)習(xí)技術(shù)與傳統(tǒng)的機(jī)器學(xué)習(xí)方法進(jìn)行融合所產(chǎn)生的混合模型具有良好的性能。一方面,深度學(xué)習(xí)技術(shù)可以自動(dòng)獲取文本序列的特征信息,減少人工干預(yù)。另一方面,用機(jī)器學(xué)習(xí)算法對深度學(xué)習(xí)識別模型進(jìn)行優(yōu)化和校正可以獲得更優(yōu)秀的識別效果。

      圖1 基于深度學(xué)習(xí)的命名實(shí)體識別圖

      1.2 LSTM網(wǎng)絡(luò)與BLSTM網(wǎng)絡(luò)

      長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)是一種能夠捕獲序列文本特征信息的RNN改進(jìn)模型,在語音識別[7]、機(jī)器翻譯[8]、語言建模[9]等多種任務(wù)中均有著良好表現(xiàn)。相較于傳統(tǒng)的RNN模型,LSTM模型解決了早期RNN模型存在的長期依賴問題,同時(shí)避免了梯度爆炸和消失的問題。盡管文本序列和語音序列的任務(wù)不同,但LSTM網(wǎng)絡(luò)的結(jié)構(gòu)十分適合于處理序列化的數(shù)據(jù),LSTM網(wǎng)絡(luò)記憶單元結(jié)構(gòu)如圖2所示。LSTM網(wǎng)絡(luò)具有3種門結(jié)構(gòu),分別是:輸入門、遺忘門、輸出門。其中,輸入門控制當(dāng)前輸入的信息,遺忘門決定保留上層傳來的信息量,輸出門控制網(wǎng)絡(luò)輸出的信息。通過3種門結(jié)構(gòu),LSTM可以有效地控制記憶信息。LSTM網(wǎng)絡(luò)的公式描述如下所示:

      ft=σ(Wf·[ht-1,st]+bf),

      (1)

      it=σ(Wi·[ht-1,st]+bi),

      (2)

      (3)

      (4)

      ot=σ(Wo·[ht-1,st]+bo),

      (5)

      ht=ot⊙tanhCt.

      (6)

      圖2 LSTM記憶單元圖

      雙向長短期記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory,BLSTM)的設(shè)計(jì)原理是將一個(gè)前向的LSTM網(wǎng)絡(luò)和一個(gè)后向的LSTM網(wǎng)絡(luò)連接到同一輸出,以此來獲取前向和后向的信息[10]。相較于單向的LSTM網(wǎng)絡(luò),該網(wǎng)絡(luò)結(jié)構(gòu)可以更充分地利用序列化文本的上下文信息,雙向網(wǎng)絡(luò)的輸出為前向和后向網(wǎng)絡(luò)的輸出拼接,該種輸出的公式描述如下所示:

      (7)

      1.3 GRU

      門控循環(huán)單元(Gated Recurrent Unit,GRU)也屬于RNN網(wǎng)絡(luò)的一種變體網(wǎng)絡(luò)模型[11]。該網(wǎng)絡(luò)具有更簡潔的門結(jié)構(gòu),相較于LSTM網(wǎng)絡(luò)依靠3種門結(jié)構(gòu)來實(shí)現(xiàn)信息的更新與保留,GRU網(wǎng)絡(luò)則依靠更新門與復(fù)位門來控制記憶信息,更新門負(fù)責(zé)控制t-1時(shí)刻時(shí)記憶單元存儲的信息量,復(fù)位門負(fù)責(zé)結(jié)合當(dāng)前輸入的信息與歷史記憶信息,2種門結(jié)構(gòu)共同決定了GRU網(wǎng)絡(luò)的輸出表示。GRU網(wǎng)絡(luò)記憶單元結(jié)構(gòu)圖如圖3所示。GRU網(wǎng)絡(luò)具有結(jié)構(gòu)更簡單,參數(shù)更少,計(jì)算速度更快的優(yōu)勢。GRU網(wǎng)絡(luò)的公式描述如下所示:

      rt=σ(Wr·[ht-1,st]),

      (8)

      zt=σ(Wz·[ht-1,st]),

      (9)

      (10)

      (11)

      其中,Wr、Wz、Wh為權(quán)重矩陣;zt為更新門;rt為復(fù)位門;σ為激活函數(shù);⊙表示向量之間的點(diǎn)乘運(yùn)算;ht為t時(shí)刻GRU的輸出表示。

      圖3 GRU記憶單元圖

      1.4 協(xié)同訓(xùn)練

      協(xié)同訓(xùn)練算法是一類典型的半監(jiān)督學(xué)習(xí)算法,可以將無標(biāo)記的數(shù)據(jù)自動(dòng)訓(xùn)練為有標(biāo)記的數(shù)據(jù),使得海量無標(biāo)記的數(shù)據(jù)得以利用,減少了對有標(biāo)記數(shù)據(jù)的依賴,訓(xùn)練的過程中僅僅使用了少量的有標(biāo)記數(shù)據(jù)。文獻(xiàn)[12]提出的Co-training算法通過在2個(gè)視圖上利用有標(biāo)記的數(shù)據(jù)分別初始化分類器,并使用2個(gè)分類器對無標(biāo)記的數(shù)據(jù)進(jìn)行標(biāo)注,同時(shí)將每個(gè)分類器標(biāo)注后的數(shù)據(jù)作為另一個(gè)分類器的輸入,從而達(dá)到更新訓(xùn)練集的目的。隨后,文獻(xiàn)[13]提出了Tri-training算法,增加了第三個(gè)分類器。該算法通過對有標(biāo)記數(shù)據(jù)集重復(fù)取樣生成訓(xùn)練集,由此訓(xùn)練得到3個(gè)分類器。在隨后的訓(xùn)練過程中,3個(gè)分類器中用到的訓(xùn)練數(shù)據(jù)皆由其他兩個(gè)分類器合作提供。在對數(shù)據(jù)進(jìn)行標(biāo)注時(shí),Tri-training算法不同于Co-training算法僅僅使用一個(gè)分類器進(jìn)行標(biāo)注,而是采用投票法將3個(gè)分類器聯(lián)合起來對數(shù)據(jù)進(jìn)行標(biāo)注。上述過程不再需要分類器的差異性,因此使得Tri-training算法具有了更強(qiáng)的實(shí)用性。

      綜合上述研究,本文融合神經(jīng)網(wǎng)絡(luò)模型和Tri-training算法,提出了多神經(jīng)網(wǎng)絡(luò)協(xié)同訓(xùn)練模型。首先選取3種不同的神經(jīng)網(wǎng)絡(luò)模型,作為Tri-training算法的3個(gè)初始模型,為使初始識別模型具有一定的差異性,本文實(shí)驗(yàn)中分別選取了LSTM網(wǎng)絡(luò)、BLSTM網(wǎng)絡(luò)及GRU網(wǎng)絡(luò)。TMNN模型在訓(xùn)練的過程中使用了少量的有標(biāo)記數(shù)據(jù)和大量無標(biāo)記數(shù)據(jù),克服了缺乏有標(biāo)記語料的困難。

      2 多神經(jīng)網(wǎng)絡(luò)協(xié)同訓(xùn)練模型

      基于上述的相關(guān)工作,本文提出一種多神經(jīng)網(wǎng)絡(luò)協(xié)同訓(xùn)練模型TMNN,首先選取了3種不同的神經(jīng)網(wǎng)絡(luò)模型,彼此都具有一定的差異性。模型訓(xùn)練時(shí)使用少量有標(biāo)記的數(shù)據(jù)L以及大量未標(biāo)記的數(shù)據(jù)U對3種初始模型進(jìn)行協(xié)同訓(xùn)練。首先對L進(jìn)行重復(fù)采樣,得到3個(gè)不同的訓(xùn)練集L1,2,3。然后利用訓(xùn)練集分別訓(xùn)練3種初始識別模型H1,2,3。

      在協(xié)同訓(xùn)練的過程中,各神經(jīng)網(wǎng)絡(luò)識別模型所更新的有標(biāo)記數(shù)據(jù)由其余兩個(gè)識別模型協(xié)同提供。假設(shè)一個(gè)無標(biāo)記的數(shù)據(jù)x,如果H2和H3對x的識別相同,則認(rèn)為該識別結(jié)果準(zhǔn)確。如果H1對x的識別與H2和H3不相同,則該識別結(jié)果不準(zhǔn)確。每一輪訓(xùn)練,待標(biāo)記的數(shù)據(jù)從U中獲得,直至U為空。訓(xùn)練結(jié)束后,獲得的模型H1,2,3基于投票法對數(shù)據(jù)進(jìn)行重新標(biāo)注,其計(jì)算公式如下所示:

      (12)

      其中,L為少量的有標(biāo)記數(shù)據(jù)集;P為初始模型的識別精度;θ為用于判斷標(biāo)注結(jié)果的函數(shù)。

      TMNN的算法步驟詳見如下。

      算法:多神經(jīng)網(wǎng)絡(luò)協(xié)同訓(xùn)練模型TMNN

      輸入:有標(biāo)記數(shù)據(jù)集L;無標(biāo)記數(shù)據(jù)集U;初始模型H1、H2、H3

      輸出:最后的NER結(jié)果

      Step1L→L1、L2、L3、T

      [H1,L1]→C1,[H2,L2]→C2,[H3,L3]→C3

      Step2Repeat

      從U中選取待標(biāo)記數(shù)據(jù)至Ui

      利用Ci1,Ci2,Ci3進(jìn)行標(biāo)記,并且得到更新數(shù)據(jù)集V1、V2、V3

      Li1∪V1→Li+11、Li2∪V2→Li+12、Li3∪V3→Li+13。其中,Li+11,2,3為新的訓(xùn)練集

      [H1,Li+11]→Ci+11

      [H2,Li+12]→Ci+12

      [H3,Li+13]→Ci+13

      Li+11∪Li+12∪Li+13→T

      H1,2,3依據(jù)投票法對T中數(shù)據(jù)重新標(biāo)注

      untilU為空

      3 實(shí)驗(yàn)

      3.1 實(shí)驗(yàn)設(shè)置

      本文在新浪財(cái)經(jīng)隨機(jī)選取1 024份上市公司的高管簡歷中文文本數(shù)據(jù)作為實(shí)驗(yàn)的語料,該語料包括了姓名、學(xué)歷、籍貫、畢業(yè)院校等8種實(shí)體信息,8種實(shí)體描述見表1。數(shù)據(jù)集的規(guī)模為16 565條,實(shí)驗(yàn)過程中對語料隨機(jī)選取20%作為測試集,20%作為有標(biāo)記的訓(xùn)練集L,60%的數(shù)據(jù)集作為未標(biāo)注集U。為了避免神經(jīng)網(wǎng)絡(luò)模型輸入差異性對實(shí)驗(yàn)效果的影響,實(shí)驗(yàn)的過程中統(tǒng)一使用[-0.25,0.25]區(qū)間內(nèi)隨機(jī)初始化的方式得到的字向量作為3種初始化模型的輸入。

      表1 簡歷實(shí)體類別表

      3.2 評價(jià)指標(biāo)與標(biāo)注策略

      本文采用BIO的標(biāo)注策略,該標(biāo)注策略中B表示實(shí)體的起始部,I表示的是實(shí)體的非起始部,O表示其他。并且采用準(zhǔn)確率(Precision)、召回率(Recall)、F1值作為模型識別性能評價(jià)指標(biāo)。本文評價(jià)指標(biāo)的計(jì)算公式如下所示:

      (13)

      (14)

      (15)

      3.3 實(shí)驗(yàn)結(jié)果與分析

      為了分析TMNN模型的性能,本文對比分析了TMNN模型與傳統(tǒng)協(xié)同訓(xùn)練方法和3種單一神經(jīng)網(wǎng)絡(luò)NER模型(LSTM-CRF模型、GRU-CRF模型、BLSTM-CRF模型)在相同數(shù)據(jù)集上的識別效果。其中,傳統(tǒng)協(xié)同訓(xùn)練選用條件隨機(jī)場CRF作為初始分類器,實(shí)驗(yàn)結(jié)果見表2。從表2中可以看出,多神經(jīng)網(wǎng)絡(luò)協(xié)同訓(xùn)練模型的識別質(zhì)量遠(yuǎn)高于傳統(tǒng)協(xié)同訓(xùn)練算法。究其原因,傳統(tǒng)協(xié)同訓(xùn)練對特征工程和語言學(xué)規(guī)則具有較高的依賴性,模型泛化性能較差,識別質(zhì)量低,而本文提出的TMNN的初始識別模型分別選用了3種不同的神經(jīng)網(wǎng)絡(luò)模型,這三種神經(jīng)網(wǎng)絡(luò)可以自動(dòng)提取文本數(shù)據(jù)的內(nèi)部特征,避免了人工添加過多的特征工程和語言學(xué)規(guī)則,從而顯著地提高了NER的精度。相較于3種單一的神經(jīng)網(wǎng)絡(luò)模型,多神經(jīng)網(wǎng)絡(luò)協(xié)同訓(xùn)練模型TMNN通過使用不同的神經(jīng)網(wǎng)絡(luò)提取到具有差異化的特征,并且通過協(xié)同訓(xùn)練模型,達(dá)到持續(xù)優(yōu)化模型的目的,對比3種單一的神經(jīng)網(wǎng)絡(luò)模型的F1值分別有了3.35%、2.58%、1.25%的提高,系統(tǒng)性能顯著提升。

      表2 實(shí)驗(yàn)結(jié)果對比表

      圖4給出本文提出的TMNN模型和模型所使用的LSTM網(wǎng)絡(luò)、BLSTM網(wǎng)絡(luò)、GRU網(wǎng)絡(luò)在訓(xùn)練過程中識別精度的變化趨勢。從圖4中可以看出,當(dāng)iteration大于5時(shí),4種模型的F1值趨于穩(wěn)定。并且在訓(xùn)練過程中,多神經(jīng)網(wǎng)絡(luò)協(xié)同訓(xùn)練模型的性能都要優(yōu)于其他三種神經(jīng)網(wǎng)絡(luò)模型。綜合上述實(shí)驗(yàn)結(jié)果可以看出,多神經(jīng)網(wǎng)絡(luò)協(xié)同訓(xùn)練模型具有良好的穩(wěn)定性和系統(tǒng)性能,并且模型的實(shí)用性也有了顯著的提高。

      圖4 TMNN和3種神經(jīng)網(wǎng)絡(luò)識別效果對比圖

      Fig. 4 Comparison of recognition effects between TMNN and three neural network

      4 結(jié)束語

      本文提出的多神經(jīng)網(wǎng)絡(luò)協(xié)同訓(xùn)練模型,將神經(jīng)網(wǎng)絡(luò)和協(xié)同訓(xùn)練算法各自的優(yōu)勢相結(jié)合,使用神經(jīng)網(wǎng)絡(luò)模型自動(dòng)提取序列文本的內(nèi)部特征,有效利用了協(xié)同訓(xùn)練算法對無標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,達(dá)到了利用大量無標(biāo)記數(shù)據(jù)進(jìn)行命名實(shí)體識別的目的,TMNN模型降低了對人工標(biāo)記數(shù)據(jù)的需要,模型的系統(tǒng)實(shí)用性得到了提高。實(shí)驗(yàn)表明,本文模型具有良好的系統(tǒng)性能,在實(shí)際應(yīng)用中優(yōu)于已有的其它模型。

      隨著專業(yè)領(lǐng)域語料越來越多,識別專業(yè)領(lǐng)域命名實(shí)體的需求越來越大。下一步將探索專業(yè)領(lǐng)域的命名實(shí)體識別方法,以提高命名實(shí)體識別的跨領(lǐng)域適應(yīng)性,進(jìn)一步增強(qiáng)模型對于專業(yè)領(lǐng)域文本數(shù)據(jù)的學(xué)習(xí)能力,從而達(dá)到更好的專業(yè)領(lǐng)域識別效果,提高命名實(shí)體識別的應(yīng)用范圍。

      猜你喜歡
      分類器神經(jīng)網(wǎng)絡(luò)協(xié)同
      蜀道難:車與路的協(xié)同進(jìn)化
      神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      “四化”協(xié)同才有出路
      汽車觀察(2019年2期)2019-03-15 06:00:50
      BP-GA光照分類器在車道線識別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      三醫(yī)聯(lián)動(dòng) 協(xié)同創(chuàng)新
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
      丰镇市| 龙州县| 杭锦旗| 佛坪县| 巴里| 宁津县| 贡嘎县| 龙井市| 鄂托克前旗| 西畴县| 双鸭山市| 沾化县| 栾川县| 昭平县| 南和县| 香港| 皮山县| 正宁县| 得荣县| 桐城市| 德阳市| 奉化市| 宁化县| 洞口县| 元氏县| 镇巴县| 宁德市| 罗甸县| 玉环县| 东至县| 高尔夫| 滦平县| 顺昌县| 岳普湖县| 宽城| 康马县| 铜鼓县| 南城县| 英超| 来凤县| 晋州市|