• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于神經(jīng)網(wǎng)絡(luò)的片段級(jí)中文命名實(shí)體識(shí)別

    2018-05-04 06:46:24周俊生顧彥慧曲維光
    中文信息學(xué)報(bào) 2018年3期
    關(guān)鍵詞:字符命名實(shí)體

    王 蕾,謝 云,周俊生,顧彥慧,曲維光

    (南京師范大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 210046)

    0 引言

    命名實(shí)體識(shí)別(NER)是指從文本中識(shí)別出人名、地名和機(jī)構(gòu)名等專有名詞,是自然語言處理的關(guān)鍵技術(shù)之一,也是信息抽取、問答系統(tǒng)、句法分析、機(jī)器翻譯等應(yīng)用的重要基礎(chǔ)工作[1]。隨著互聯(lián)網(wǎng)的飛速發(fā)展和大數(shù)據(jù)時(shí)代的到來,文本數(shù)據(jù)規(guī)模越來越大,領(lǐng)域變得更多,本文內(nèi)容也變得更復(fù)雜。探索更具實(shí)用性的新的有效識(shí)別方法,成為學(xué)術(shù)界和工業(yè)界關(guān)注的熱點(diǎn)問題。

    目前,解決命名實(shí)體識(shí)別問題的主流方法是基于統(tǒng)計(jì)學(xué)習(xí)模型的方法,包括基于最大熵(ME)模型、隱馬爾可夫(HMM)模型、條件隨機(jī)場(CRF)模型等命名實(shí)體識(shí)別方法[2-4]。傳統(tǒng)方法通常依賴特征工程保證系統(tǒng)性能。然而,特征模板的制定需要人工設(shè)計(jì)和大量專家知識(shí)。特征設(shè)計(jì)需要實(shí)驗(yàn)進(jìn)行反復(fù)修改、調(diào)整和選擇,非常費(fèi)時(shí)費(fèi)力。傳統(tǒng)方法中數(shù)據(jù)采用稀疏表示,容易導(dǎo)致參數(shù)爆炸等問題。在面對(duì)大規(guī)模多領(lǐng)域復(fù)雜的文本數(shù)據(jù)時(shí),傳統(tǒng)方法則暴露出更多不足。

    對(duì)于中文命名實(shí)體識(shí)別任務(wù),現(xiàn)有的方法通常將該任務(wù)看作一個(gè)字符序列標(biāo)注問題,通過對(duì)字符分配標(biāo)記完成命名實(shí)體識(shí)別[5-6]。由于中文句子中單詞間沒有分隔符號(hào),相比于字符序列標(biāo)注模型,直接對(duì)中文句子中的片段進(jìn)行標(biāo)記分配更為合理,可以避免字符序列標(biāo)注方法中依賴局部標(biāo)記區(qū)分實(shí)體邊界的問題。Zhou等人[7]提出中文命名實(shí)體邊界識(shí)別與實(shí)體類別識(shí)別集成的算法模型,引入片段特征解決中文命名實(shí)體識(shí)別問題。但該方法采用傳統(tǒng)統(tǒng)計(jì)學(xué)習(xí)模型,仍然嚴(yán)重依賴具體任務(wù)的特征工程。

    近幾年,深度學(xué)習(xí)為解決自然語言處理問題提供了一種新的方法和途徑,受到廣泛關(guān)注。深度學(xué)習(xí)可以實(shí)現(xiàn)特征的自動(dòng)學(xué)習(xí),采用低維、稠密的實(shí)值向量表示數(shù)據(jù),避免對(duì)人工和專家知識(shí)的嚴(yán)重依賴。基于深度學(xué)習(xí)的命名實(shí)體識(shí)別方法受到關(guān)注?,F(xiàn)有研究工作中,Collobert和Weston構(gòu)建SENNA系統(tǒng)為多項(xiàng)自然語言處理任務(wù)提供統(tǒng)一的神經(jīng)網(wǎng)絡(luò)底層結(jié)構(gòu),包括命名實(shí)體識(shí)別任務(wù)[8];Turian等人使用神經(jīng)網(wǎng)絡(luò)預(yù)先訓(xùn)練的詞向量作為額外特征,與傳統(tǒng)基于CRF的方法結(jié)合解決命名實(shí)體識(shí)別問題[9];Lample等人針對(duì)命名實(shí)體識(shí)別任務(wù)提出雙向長短期記憶模型(Bi-LSTM)和CRF模型的組合結(jié)構(gòu)[10];Ma等人將Bi-LSTM、卷積神經(jīng)網(wǎng)絡(luò)(CNN)與CRF模型結(jié)合構(gòu)建了序列標(biāo)記模型[9];Chiu和Nichols利用Bi-LSTM和CNN對(duì)輸入信息進(jìn)行處理,完成命名實(shí)體識(shí)別任務(wù)[11];Liu等人以片段信息表示作為輸入,采用神經(jīng)網(wǎng)絡(luò)與半馬爾可夫條件隨機(jī)場(semi-CRF)模型結(jié)合完成英文命名實(shí)體識(shí)別任務(wù)[12]。目前,基于神經(jīng)網(wǎng)絡(luò)的中文命名實(shí)體識(shí)別研究較少,且主要采用字符序列標(biāo)注模型[13],還沒有基于神經(jīng)網(wǎng)絡(luò)的片段級(jí)中文命名實(shí)體識(shí)別研究工作。

    因此,我們主要對(duì)基于神經(jīng)網(wǎng)絡(luò)的片段級(jí)中文命名實(shí)體識(shí)別方法進(jìn)行探索研究,減弱對(duì)人工特征設(shè)計(jì)和專家知識(shí)的依賴,避免字符序列化標(biāo)注模型的不足。在Liu等人的研究工作[12]基礎(chǔ)上,我們結(jié)合中文語言特性和中文命名實(shí)體識(shí)別任務(wù)的特點(diǎn),除片段內(nèi)部字符和片段整體表示之外,引入離散特征與稠密向量表示結(jié)合的片段擴(kuò)展特征表示,改進(jìn)解碼算法獲取片段級(jí)上文信息,通過對(duì)片段整體分配標(biāo)記完成中文命名實(shí)體識(shí)別任務(wù)。

    1 基于神經(jīng)網(wǎng)絡(luò)的片段級(jí)中文命名實(shí)體識(shí)別

    中文句子中詞與詞之間沒有分隔符號(hào),中文命名實(shí)體識(shí)別需要完成實(shí)體邊界識(shí)別和實(shí)體分類任務(wù)。片段級(jí)的中文命名實(shí)體識(shí)別方法基于片段獲取表示信息,對(duì)于輸入的句子序列進(jìn)行片段切分并對(duì)切分序列中的片段整體進(jìn)行標(biāo)記分配。相比于字符序列化標(biāo)注方法,對(duì)片段整體進(jìn)行標(biāo)記分配更為合理,可以避免識(shí)別過程中依賴局部標(biāo)記來區(qū)分實(shí)體邊界的問題。

    我們采用“PER”“LOC”和“ORG”分別表示人名、地名和組織機(jī)構(gòu)名。以句子“中華人民共和國主席習(xí)近平在北京接受中央電視臺(tái)采訪?!睘槔鳛檩斎胄蛄?,對(duì)片段分配標(biāo)記后為“中華人民共和國/LOC 主席/O 習(xí)近平/PER 在/O 北京/LOC 接受/O 中央電視臺(tái)/ORG 采訪/O 。/O”。例子中,“中華人民共和國”“主席”“習(xí)近平”等看作是句子序列中的片段。在標(biāo)記集合T={PER, LOC, ORG, O}中選取具體的標(biāo)記分配給當(dāng)前片段。

    Semi-CRF模型是一種典型的對(duì)片段整體分配標(biāo)記的方法[14],但基于semi-CRF的命名實(shí)體識(shí)別方法具有傳統(tǒng)統(tǒng)計(jì)學(xué)習(xí)模型的不足。因此,選用基于神經(jīng)網(wǎng)絡(luò)和semi-CRF結(jié)合的片段神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)特征的自動(dòng)學(xué)習(xí),可以避免繁瑣的人工特征設(shè)計(jì)和對(duì)大量語言先驗(yàn)知識(shí)的依賴。

    對(duì)于輸入的句子序列x,有相應(yīng)的切分片段序列s=(s1,s2,…,sp)。對(duì)于片段sj=,其中uj表示片段起始字符在句子中的下標(biāo),vj表示片段結(jié)尾字符在句子中的下標(biāo),yj表示片段的標(biāo)記。處理該片段時(shí),基于片段sj的信息表示作為當(dāng)前神經(jīng)網(wǎng)絡(luò)模型的輸入,通過神經(jīng)網(wǎng)絡(luò)計(jì)算獲得當(dāng)前片段的抽象表示向量代替?zhèn)鹘y(tǒng)方法中的稀疏特征向量。Liu等人主要考慮片段內(nèi)部單元和片段整體信息[12]。我們引入片段相關(guān)擴(kuò)展特征,從片段內(nèi)部字符單元(Eunit)、片段整體(Eseg)和片段相關(guān)擴(kuò)展特征表示信息(Fextend)三個(gè)方面,結(jié)合稠密向量表示和離散特征獲取當(dāng)前片段信息,模型結(jié)構(gòu)如圖1所示。

    圖1 片段級(jí)中文命名實(shí)體識(shí)別模型結(jié)構(gòu)

    具體的,我們研究兩種神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu): (1)Bi-LSTM和標(biāo)準(zhǔn)神經(jīng)層構(gòu)成的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);(2)Bi-LSTM、雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bi-RNN)和標(biāo)準(zhǔn)神經(jīng)層構(gòu)成的組合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。

    1.1 基于Bi-LSTM的片段級(jí)中文命名實(shí)體識(shí)別

    (1)

    片段內(nèi)字符單元的向量表示按序連接形成片段內(nèi)部特征表示Eunitj,即對(duì)于片段sj,Eunitj具體表示如式(2)所示。

    Eunitj=[Cuj;Cuj+1;…;Cvj]

    (2)

    其中,[;;…;]表示各個(gè)向量依次連接構(gòu)成一個(gè)向量。

    由于切分片段序列中的片段長度不統(tǒng)一,為了使輸入下一層計(jì)算的向量長度固定,模型設(shè)置最大片段長度為L。設(shè)dC表示向量Ci的維數(shù),若當(dāng)前片段長度小于L則對(duì)Eunitj向量進(jìn)行末尾填充至長度為D=L×dC維的向量。

    片段sj的整體向量表示Esegj通過lookup操作從片段向量表中獲得,如果片段向量表中不存在當(dāng)前片段的向量,則選用特殊符號(hào)“UNKSEG”的向量表示,“UNKSEG”的初始向量取隨機(jī)值。

    片段相關(guān)的其他特征向量表示Fextendj主要包含片段長度信息和片段上文已完成切分的片段相關(guān)信息,當(dāng)前處理片段的前文切分片段通過查詢片段向量表獲得,片段長度特征向量通過查詢片段長度特征向量表獲得。通過神經(jīng)網(wǎng)絡(luò)模型處理輸出片段的最終表示Esj,如式(3)所示。

    Esj=relu(WS[Eunitj;Esegj;Fextendj;Eyj]+bS)

    (3)

    式(3)中,[;;]表示其中各向量連接構(gòu)成一個(gè)向量,WS是權(quán)值參數(shù),bS是偏置項(xiàng),Eyj是標(biāo)記yj的向量表示。Esj是當(dāng)前片段sj通過神經(jīng)網(wǎng)絡(luò)模型輸出的特征表示,也是替代傳統(tǒng)基于semi-CRF模型的方法中片段特征表示的向量。圖2是神經(jīng)網(wǎng)絡(luò)模型獲得片段表示的具體結(jié)構(gòu)。

    圖2 基于Bi-LSTM的神經(jīng)網(wǎng)絡(luò)獲取片段向量的結(jié)構(gòu)圖

    模型訓(xùn)練采用極大似然估計(jì),神經(jīng)網(wǎng)絡(luò)模型優(yōu)化選用SGD算法,初始學(xué)習(xí)率設(shè)為η0,正則化方法采用dropout技術(shù)。預(yù)測過程中,處理當(dāng)前切分片段時(shí),通過神經(jīng)網(wǎng)絡(luò)模型獲取片段信息的向量表示,結(jié)合semi-CRF模型進(jìn)行解碼。

    1.2 基于組合神經(jīng)網(wǎng)絡(luò)的片段級(jí)中文命名實(shí)體識(shí)別

    為了避免向量填充(padding),減少人工設(shè)置參數(shù)對(duì)系統(tǒng)的影響和限制,我們進(jìn)一步研究采用Bi-LSTM模型與其他神經(jīng)網(wǎng)絡(luò)模型的組合模型結(jié)構(gòu)獲取片段信息。隨著不同的神經(jīng)網(wǎng)絡(luò)模型的組合和模型結(jié)構(gòu)的加深,模型對(duì)輸入的信息表示可以獲得更抽象的特征信息,模型的刻畫能力更強(qiáng)。雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bi-RNN)是序列模型,能考慮上下文信息,因此我們選用Bi-LSTM、Bi-RNN和普通神經(jīng)層的組合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。

    圖3 組合神經(jīng)網(wǎng)絡(luò)獲得Eunitj的模型結(jié)構(gòu)圖

    對(duì)于當(dāng)前片段sj,通過lookup操作從片段向量表中獲得該片段整體向量表示Esegj,若當(dāng)前片段在片段向量表中不存在,則選取特殊符號(hào)“UNKSEG”的向量表示,“UNKSEG”的初始值選取隨機(jī)值。

    片段相關(guān)的其他特征向量表示Fextendj主要是包含片段上文切分片段相關(guān)信息和片段本身長度信息的特征。處理當(dāng)前片段時(shí),對(duì)于前文切分產(chǎn)生的片段通過查詢片段向量表獲得前一個(gè)切分片段的向量表示,若片段向量表中不存在查詢的片段,則選用特殊符號(hào)“UNKPSEG”的向量表示,“UNKPSEG”取隨機(jī)值初始化。片段長度特征信息通過查詢片段長度特征表獲得,每個(gè)長度值對(duì)應(yīng)唯一的長度表示向量,初始向量值為隨機(jī)值。

    基于當(dāng)前片段獲取的信息表示,通過神經(jīng)網(wǎng)絡(luò)模型輸出片段的最終表示Esj,具體計(jì)算如式(3)所示。Esj是對(duì)于當(dāng)前片段sj通過神經(jīng)網(wǎng)絡(luò)模型輸出的片段信息表示向量。圖4是獲得片段向量表示的組合神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)。

    圖4 獲取片段表示向量的組合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

    模型訓(xùn)練采用似然估計(jì),選用SGD優(yōu)化算法,初始學(xué)習(xí)率設(shè)為η0,正則化方法采用dropout技術(shù)。預(yù)測時(shí),與傳統(tǒng)semi-CRF方法中的解碼算法結(jié)合獲得句子的切分片段序列和相應(yīng)的片段標(biāo)記序列。

    1.3 片段特征表示

    1.3.1 片段內(nèi)部字符單元特征

    中文字符是構(gòu)成中文句子的最小單元,也是片段內(nèi)部的基本組成單元。對(duì)于當(dāng)前處理片段,針對(duì)片段內(nèi)部組成單元即各字符信息提取的特征表示,本文稱為片段內(nèi)部單元特征,記為Eunit。

    具體實(shí)現(xiàn)過程中,對(duì)于輸入序列x,序列中的每個(gè)元素xi有相應(yīng)的字符向量表示exi,字符xi通過Bi-LSTM編碼計(jì)算后得到向量表示Ci。對(duì)于片段sj=,其內(nèi)部單元對(duì)應(yīng)于輸入序列中的字符子序列(xuj,xuj+1,…,xvj),經(jīng)過Bi-LSTM編碼計(jì)算輸出字符表示后,片段sj內(nèi)部字符單元相應(yīng)的向量序列為Cj=(Cxuj,Cxuj+1,…,Cxvj)。片段內(nèi)部單元特征表示向量通過對(duì)序列中所有向量進(jìn)行處理獲得。根據(jù)不同的網(wǎng)絡(luò)結(jié)構(gòu),向量的處理方法不同。

    1.3.2 片段整體特征

    為了從片段整體獲取片段語義信息,我們采用低維、稠密的片段向量表示片段整體,稱為片段整體特征,記為Eseg。

    對(duì)于當(dāng)前處理的片段sj=,模型將片段看作一個(gè)整體獲取向量表示,即片段級(jí)的向量。具體是通過查表獲得當(dāng)前片段的向量表示,若不存在查詢的片段則選用“UNKSEG”符號(hào)的向量,取隨機(jī)值初始化。片段向量表中初始的片段級(jí)詞向量是利用無標(biāo)注的預(yù)訓(xùn)練語料通過預(yù)訓(xùn)練獲得。

    1.3.3 片段相關(guān)擴(kuò)展特征

    中文命名實(shí)體的上下文信息具有相應(yīng)的特點(diǎn)。如“老師”“書記”等詞常出現(xiàn)于人名的上下文中,“奔赴”“境內(nèi)”等詞常出現(xiàn)在地名的上下文中。為了獲取更豐富的片段信息,我們?cè)诋?dāng)前片段信息基礎(chǔ)上,引入上文片段信息。結(jié)合片段長度信息,將離散特征與稠密向量表示結(jié)合構(gòu)成片段相關(guān)擴(kuò)展特征,記為Fextend。

    具體的,由于處理到當(dāng)前片段時(shí)下文還未進(jìn)行切分,所以我們關(guān)注當(dāng)前處理片段的上文信息,選取當(dāng)前處理片段的前一個(gè)切分片段。通過查詢預(yù)先訓(xùn)練的片段向量表獲取向量表示,若不存在當(dāng)前片段,則采用特殊符號(hào)“UNKPSEG”的向量,該符號(hào)向量選取隨機(jī)值初始化。關(guān)于片段長度特征則構(gòu)建額外的特征向量表,不同長度對(duì)應(yīng)唯一的離散特征向量。上文片段向量與長度特征向量連接構(gòu)成Fextend。

    1.4 解碼算法

    片段表示引入上文片段信息時(shí),采用傳統(tǒng)semi-CRF的解碼算法無法滿足獲取前一個(gè)已切分片段的信息[13]。解碼算法需要將原解碼過程中的0階動(dòng)態(tài)規(guī)劃算法修改為1階動(dòng)態(tài)規(guī)劃算法[15],使得在子問題計(jì)算過程中,當(dāng)前片段的前一個(gè)切分片段的信息可見。圖5給出了算法的簡要描述。

    圖5 片段級(jí)中文命名實(shí)體識(shí)別方法1階動(dòng)態(tài)規(guī)劃解碼算法

    2 相關(guān)工作比較

    近十幾年來,對(duì)于中文命名實(shí)體識(shí)別研究主要基于傳統(tǒng)統(tǒng)計(jì)學(xué)習(xí)模型,通常將任務(wù)看作一個(gè)字符序列標(biāo)注問題。如廖先桃討論了中文命名實(shí)體識(shí)別的幾種方法[2],包括規(guī)則、HMM、ME和CRF。史海峰以CRF模型為基礎(chǔ)實(shí)現(xiàn)在字一級(jí)對(duì)于命名實(shí)體的識(shí)別[5]。對(duì)于中文命名實(shí)體識(shí)別任務(wù),對(duì)片段整體分配標(biāo)記更為合理,可以避免字符序列化標(biāo)注方法需要依賴局部標(biāo)記區(qū)分實(shí)體邊界的問題。Zhou等人提出中文命名實(shí)體邊界識(shí)別與類別識(shí)別集成的算法模型[7],引入片段級(jí)特征,同時(shí)完成實(shí)體邊界識(shí)別和類別識(shí)別兩個(gè)子任務(wù)。但該方法仍然基于傳統(tǒng)統(tǒng)計(jì)學(xué)習(xí)模型,依賴具體任務(wù)相關(guān)的特征工程。

    為了避免具體任務(wù)的特征工程,Kong等人將神經(jīng)網(wǎng)絡(luò)與semi-CRF結(jié)合,提出一種片段級(jí)的循環(huán)神經(jīng)網(wǎng)絡(luò)(SRNN)模型,對(duì)于輸入序列進(jìn)行片段切分和片段標(biāo)記分配[16]。Liu等人在Kong等人的研究基礎(chǔ)上提出SCONCATE模型[12],采用片段級(jí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過獲取片段內(nèi)部字符特征表示和片段整體表示對(duì)片段分配標(biāo)記,解決英文命名實(shí)體識(shí)別問題。

    目前還沒有基于神經(jīng)網(wǎng)絡(luò)的片段級(jí)中文命名實(shí)體識(shí)別研究。由于中文句子單詞間沒有明顯分隔符號(hào),相比于英文命名實(shí)體識(shí)別,中文命名實(shí)體更加復(fù)雜且缺少明顯的詞形變化等特征,任務(wù)更困難。只考慮字符或當(dāng)前片段表示不能很好地解決中文命名實(shí)體識(shí)別問題。為了更有效地獲取片段信息,我們引入離散特征與稠密向量表示結(jié)合的片段擴(kuò)展特征表示,改進(jìn)解碼算法獲取片段級(jí)上文信息,通過對(duì)片段整體分配標(biāo)記完成中文命名實(shí)體識(shí)別任務(wù)。

    3 實(shí)驗(yàn)

    3.1 數(shù)據(jù)

    實(shí)驗(yàn)數(shù)據(jù)使用MSRA語料,基于神經(jīng)網(wǎng)絡(luò)的片段級(jí)中文命名實(shí)體識(shí)別模型利用MSRA訓(xùn)練集進(jìn)行訓(xùn)練,在MSRA測試集上完成測試。針對(duì)語料在實(shí)驗(yàn)中的實(shí)際應(yīng)用,首先對(duì)訓(xùn)練集進(jìn)行相應(yīng)的語料預(yù)處理工作。將訓(xùn)練集中的句子轉(zhuǎn)化為“訓(xùn)練集句子-片段標(biāo)記序列”作為模型輸入的訓(xùn)練數(shù)據(jù)集。模型的測試集是MSRA測試集,是不包含任何切分信息和標(biāo)記信息的中文句子。

    關(guān)于模型初始輸入的字符向量和片段向量,我們采用Word2Vec工具對(duì)無標(biāo)注語料進(jìn)行預(yù)訓(xùn)練[17]。初始輸入向量預(yù)訓(xùn)練的語料集額外引入新華社2000~2004年和《人民日?qǐng)?bào)》2000年語料。向量預(yù)訓(xùn)練語料規(guī)模主要分為兩種: (1)MSRA訓(xùn)練集;(2)MSRA訓(xùn)練集、新華社和《人民日?qǐng)?bào)》共六年語料數(shù)據(jù)集合。以上兩種預(yù)訓(xùn)練語料記為pre1和pre2。

    3.2 參數(shù)設(shè)置

    實(shí)驗(yàn)包含多個(gè)超參數(shù),關(guān)于神經(jīng)網(wǎng)絡(luò)模型的超參數(shù)設(shè)置具體數(shù)值如表1所示。

    表1 用于實(shí)驗(yàn)的神經(jīng)網(wǎng)絡(luò)模型超參數(shù)設(shè)置

    表1中,第1組超參數(shù)是基于Bi-LSTM的片段級(jí)中文命名實(shí)體識(shí)別模型實(shí)驗(yàn)的參數(shù)。第2組是在基于組合神經(jīng)網(wǎng)絡(luò)的片段級(jí)中文命名實(shí)體識(shí)別模型中所需的參數(shù),第1組和第2組共同組成基于組合神經(jīng)網(wǎng)絡(luò)的片段級(jí)中文命名實(shí)體識(shí)別模型的參數(shù)。第3組是神經(jīng)網(wǎng)絡(luò)模型初始輸入包含片段擴(kuò)展特征時(shí),實(shí)驗(yàn)中所需的超參數(shù)。

    3.3 基于神經(jīng)網(wǎng)絡(luò)的片段級(jí)中文命名實(shí)體識(shí)別方法有效性驗(yàn)證

    為了驗(yàn)證基于神經(jīng)網(wǎng)絡(luò)片段級(jí)中文命名實(shí)體識(shí)別方法的有效性,我們基于神經(jīng)網(wǎng)絡(luò)的字符級(jí)中文命名實(shí)體識(shí)別方法實(shí)現(xiàn)了一個(gè)基線(Baseline)系統(tǒng)。Baseline采用基于Bi-LSTM模型的字符序列標(biāo)注模型結(jié)構(gòu),對(duì)于輸入的句子序列,采用“BIEOS”標(biāo)注體系通過對(duì)每個(gè)字符分配標(biāo)記完成中文命名實(shí)體識(shí)別。我們利用MSRA訓(xùn)練集進(jìn)行模型訓(xùn)練,在MSRA測試集上進(jìn)行測試。對(duì)比實(shí)驗(yàn)結(jié)果如表2所示。實(shí)驗(yàn)初始輸入的向量預(yù)訓(xùn)練語料采用pre1。從片段內(nèi)部單元和片段整體兩方面表示片段,基于Bi-LSTM的神經(jīng)網(wǎng)絡(luò)片段級(jí)模型記為Bi-LSTMpre,基于組合神經(jīng)網(wǎng)絡(luò)的片段級(jí)模型記為Combpre。為了獲取更豐富的片段信息提升系統(tǒng)性能,另一組實(shí)驗(yàn)選用大規(guī)模的預(yù)訓(xùn)練語料pre2,同時(shí)從片段內(nèi)部字符、片段整體以及片段擴(kuò)展特征三個(gè)方面獲取片段信息,模型記為Bi-LSTMpre2+ext和Combpre2+ext,實(shí)驗(yàn)結(jié)果如表3所示。

    實(shí)驗(yàn)結(jié)果顯示,與Baseline系統(tǒng)方法相比,基于神經(jīng)網(wǎng)絡(luò)的片段級(jí)中文命名實(shí)體識(shí)別方法識(shí)別效果顯著提升。采用大規(guī)模預(yù)訓(xùn)練語料,字符向量、片段向量表示包含更豐富的語義信息[18],可以更有效地獲取片段信息提升系統(tǒng)性能。我們提出的兩種基于不同神經(jīng)網(wǎng)絡(luò)的片段級(jí)方法獲得相當(dāng)?shù)南到y(tǒng)性能。

    表2 與Baseline實(shí)驗(yàn)結(jié)果對(duì)比

    表3 采用大規(guī)模預(yù)訓(xùn)練語料的實(shí)驗(yàn)結(jié)果

    3.4 不同片段級(jí)中文命名實(shí)體識(shí)別方法實(shí)驗(yàn)比較

    為了驗(yàn)證本文基于神經(jīng)網(wǎng)絡(luò)的片段級(jí)中文命名實(shí)體方法的有效性,我們選擇與Zhou等人工作的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比。該方法集成命名實(shí)體邊界識(shí)別和分類任務(wù),針對(duì)片段級(jí)中文命名實(shí)體識(shí)別進(jìn)行研究,相比于傳統(tǒng)字符序列標(biāo)注模型,在MSRA上獲得較好的性能[7]。該方法基于傳統(tǒng)統(tǒng)計(jì)學(xué)習(xí)模型,需要依賴人工特征設(shè)計(jì)和專家知識(shí)。

    表4是在MSRA測試集上的測評(píng)結(jié)果對(duì)比,基于Bi-LSTM的片段級(jí)中文命名實(shí)體識(shí)別系統(tǒng)和基于組合神經(jīng)網(wǎng)絡(luò)的片段級(jí)中文命名實(shí)體識(shí)別系統(tǒng)分別記為Our1和Our2。實(shí)驗(yàn)結(jié)果顯示,與Zhou等人基于傳統(tǒng)統(tǒng)計(jì)學(xué)習(xí)方法的片段級(jí)中文命名實(shí)體識(shí)別方法[7]相比,本文提出的基于神經(jīng)網(wǎng)絡(luò)的片段級(jí)中文命名實(shí)體識(shí)別方法中基于Bi-LSTM的片段級(jí)中文命名實(shí)體識(shí)別方法獲得較好的系統(tǒng)性能,基于組合神經(jīng)網(wǎng)絡(luò)的片段級(jí)中文命名實(shí)體識(shí)別方法獲得與之相當(dāng)?shù)膶?shí)驗(yàn)結(jié)果。我們的系統(tǒng)在人名和地名的識(shí)別結(jié)果上分別提升了0.9%、0.95%。

    表4 不同方法的實(shí)驗(yàn)結(jié)果對(duì)比

    4 結(jié)束語

    中文命名實(shí)體識(shí)別是中文自然語言處理領(lǐng)域中的重要基礎(chǔ)任務(wù)之一。本文針對(duì)傳統(tǒng)統(tǒng)計(jì)學(xué)習(xí)方法和字符序列化標(biāo)注模型的不足,主要研究基于神經(jīng)網(wǎng)絡(luò)的片段級(jí)中文命名實(shí)體識(shí)別方法,采用兩種神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)與半馬爾可夫條件隨機(jī)場模型結(jié)合,通過對(duì)片段整體分配標(biāo)記完成中文命名實(shí)體識(shí)別。據(jù)我們所知,這是首次針對(duì)基于神經(jīng)網(wǎng)絡(luò)的片段級(jí)中文命名實(shí)體識(shí)別進(jìn)行研究。實(shí)驗(yàn)結(jié)果顯示,該算法的識(shí)別效果明顯優(yōu)于Baseline,并且獲得與當(dāng)前其他最優(yōu)的中文命名實(shí)體識(shí)別系統(tǒng)相當(dāng)?shù)淖R(shí)別性能。

    在下一步的研究工作中,我們將繼續(xù)研究獲取表示片段信息的方法,使得輸入的片段信息表示可以更加完整有效,提升系統(tǒng)性能;另外,我們將探索不同的神經(jīng)網(wǎng)絡(luò)模型或不同神經(jīng)網(wǎng)絡(luò)模型的組合模型調(diào)整現(xiàn)有的模型結(jié)構(gòu),設(shè)計(jì)更適用于中文命名實(shí)體識(shí)別任務(wù)的模型結(jié)構(gòu),從而獲得更好的識(shí)別性能。

    [1] 宗成慶. 統(tǒng)計(jì)自然語言處理[M].北京: 清華大學(xué)出版社, 2008: 150-178.

    [2] 廖先桃. 中文命名實(shí)體識(shí)別方法研究[D],哈爾濱: 哈爾濱工業(yè)大學(xué)碩士學(xué)位論文, 2006.

    [3] McCallum A, Li W.Early results for named entity recognition with conditional random fields, feature induction and web-enhanced lexicons[C]//Proceedings of HLT-NAACL, 2003: 188-191.

    [4] 俞鴻魁, 張華平, 劉群, 等. 基于層疊隱馬爾可夫模型的中文命名實(shí)體識(shí)別[J]. 通信學(xué)報(bào), 2006, 27(2): 87-94.

    [5] 史海峰, 姚建民. 基于CRF的中文命名實(shí)體識(shí)別研究[D]. 蘇州: 蘇州大學(xué)碩士學(xué)位論文, 2010.

    [6] 王志強(qiáng).基于條件隨機(jī)域的中文命名實(shí)體識(shí)別研究[D].南京: 南京理工大學(xué)碩士學(xué)位論文,2006.

    [7] Zhou J, Qu W, Zhang F. Chinese named entity recognition via joint identification and categorization[J]. Chinese Journal of Electronics, 2013: 225-230.

    [8] Collobert R, Weston J, Bottou L, et al. Natural language processing (almost) from scratch[J]. The Journal of Machine Learning Research, 2011(12): 2493-2537.

    [9] Turian J, Ratinov L, Bengio Y. Word representations: A simple and general method for semi-supervised learning[C]//Proceedings of ACL, 2010: 384-394.

    [10] Lample G, Ballesteros M, Subramanian S, et al. Neural architectures for named entity recognition[C]//Proceedings of NAACL-HLT, 2016: 260-270.

    [11] Ma X, Hovy E. End-to-end sequence labeling via bi-directional LSTM-CNNs-CRF[C]//Proceedings of ACL, 2016: 1064-1074.

    [12] Liu Y,Che W, Guo J, et al. Exploring segment representations for neural segmentation models[C]//Proceedings of IJCAI, 2016: 2880-2886.

    [13] 王國昱. 基于深度學(xué)習(xí)的中文命名實(shí)體識(shí)別研究[D].北京: 北京工業(yè)大學(xué)碩士學(xué)位論文, 2015.

    [14] Sarawagi S, Cohen W W. Semi-Markov conditional random fields for information extraction[C]//Proceedings of NIPS, 2004(17): 1185-1192.

    [15] Zhang Y, Clark S. Syntactic processing using the generalized perceptron and beam search[J]. Computational Linguistics, 2011, 37(1): 105-151.

    [16] Kong L, Dyer C, Noah A. Segmental recurrent neural networks[C]//Proceedings of ICLR, 2016.

    [17] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[C]//Proceedings of Workshop at ICLR, 2013.

    [18] Lai S, Liu K, He S, et al. How to generate a good word embedding[J]. IEEE Intelligent Systems, 2016, 31(6): 5-14.

    猜你喜歡
    字符命名實(shí)體
    尋找更強(qiáng)的字符映射管理器
    命名——助力有機(jī)化學(xué)的學(xué)習(xí)
    字符代表幾
    前海自貿(mào)區(qū):金融服務(wù)實(shí)體
    中國外匯(2019年18期)2019-11-25 01:41:54
    一種USB接口字符液晶控制器設(shè)計(jì)
    電子制作(2019年19期)2019-11-23 08:41:50
    消失的殖民村莊和神秘字符
    有一種男人以“暖”命名
    東方女性(2018年3期)2018-04-16 15:30:02
    為一條河命名——在白河源
    散文詩(2017年17期)2018-01-31 02:34:08
    實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
    兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
    瑞金市| 曲靖市| 延川县| 石河子市| 锡林浩特市| 繁昌县| 武宁县| 株洲市| 江永县| 汪清县| 太仆寺旗| 利川市| 崇文区| 康乐县| 和田县| 宣恩县| 涟源市| 土默特右旗| 萍乡市| 巨鹿县| 连州市| 元朗区| 胶州市| 桃江县| 浙江省| 建瓯市| 靖江市| 嘉荫县| 佳木斯市| 邳州市| 肥乡县| 台中市| 六盘水市| 广汉市| 宜阳县| 东丽区| 留坝县| 安新县| 花莲县| 从化市| 马公市|