• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向中文命名實(shí)體識別的中文字符表示方法

    2023-07-15 07:05:06輝,盧
    關(guān)鍵詞:字符實(shí)體語義

    羅 輝,盧 玲

    (重慶理工大學(xué) 計算機(jī)科學(xué)與工程學(xué)院,重慶 400050)

    1 引 言

    隨著網(wǎng)絡(luò)信息技術(shù)的快速發(fā)展,人們通過社交媒體、大數(shù)據(jù)來獲取相關(guān)信息.為了應(yīng)對信息爆炸問題,亟需一種自動識別和提取目標(biāo)信息的技術(shù),幫助人們從海量信息中定位關(guān)鍵信息,命名實(shí)體識別的研究應(yīng)運(yùn)而生.命名實(shí)體識別(Named Entity Recognition,NER)是自然語言處理中的一項(xiàng)基礎(chǔ)任務(wù),在信息檢索、自動問答、機(jī)器翻譯等領(lǐng)域有廣泛應(yīng)用.由于英文自身的語言結(jié)構(gòu)特征較統(tǒng)一,英文的命名實(shí)體識別多被表達(dá)成序列標(biāo)注問題.相較于英文,中文因其連續(xù)編寫的特點(diǎn),其命名實(shí)體沒有明顯的形態(tài)學(xué)特征和詞語邊界,且中文有較強(qiáng)的多義性,實(shí)體類別豐富,因此中文命名實(shí)體識別任務(wù)較英文更加困難[1],其相關(guān)研究一直廣受關(guān)注.現(xiàn)有NER任務(wù)的文本預(yù)處理方式主要分為詞嵌入和字嵌入[2]兩種.詞嵌入需要進(jìn)行文本分詞,受限于分詞的性能,部分特定術(shù)語和專有詞語難以切分,容易損失有效語義信息.字嵌入則有效回避了詞切分不準(zhǔn)的問題,它對文本的每個字符進(jìn)行標(biāo)注,無需考慮詞的邊界,但單個字符攜帶的語義信息弱且發(fā)散,例如“數(shù)學(xué)”中包含“學(xué)”字,單個“學(xué)”字的語義不如“數(shù)學(xué)”的語義強(qiáng)烈,且由于“學(xué)”字可能包含于多個詞,因此“學(xué)”字比詞蘊(yùn)含的語義更為泛化.總體而言,針對基于字嵌入的NER任務(wù),增強(qiáng)單個字符的語義表示是有必要的.

    2 相關(guān)研究

    目前,學(xué)者們針對命名實(shí)體識別問題已開展了廣泛研究.在英文實(shí)體識別任務(wù)方面,Huang等[3]在單詞特征的基礎(chǔ)上加入拼寫特征,細(xì)化英文單詞的分布式結(jié)構(gòu),改善單詞的語義表現(xiàn)力,降低了NER性能對初始詞嵌入的依賴,提升了模型的魯棒性.Ma等[4]用基于字符的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)來提取英文單詞的詞項(xiàng)(子串)特征,提升了NER任務(wù)的F1值,表明通過捕獲和編碼單詞的詞項(xiàng)(子串)信息,可增進(jìn)對單詞,尤其是組合單詞語義的理解.Lample等[5]用雙向長短期記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory,BiLSTM)來獲取英文單詞的字符特征,在少量訓(xùn)練數(shù)據(jù)和無標(biāo)簽注釋的語料庫中獲得了良好的實(shí)體識別泛化能力.前述研究表明,通過改善英文單詞的語義表示方法可提升NER的性能.

    中文NER任務(wù)也主要圍繞基于單個中文字符的序列標(biāo)注模型展開,但由于中文的非結(jié)構(gòu)化特點(diǎn),單個中文字符比單個英文單詞的語言表現(xiàn)力弱,因此,后續(xù)研究較多將中文詞匯的信息融入到字符表示中,以期通過豐富字符的語義信息,提升基于字序列標(biāo)注模型的中文NER任務(wù)的性能.Zhang等[6]提出了一種融合實(shí)體詞典信息的Lattice-LSTM方法,通過向LSTM的遺忘門加入實(shí)體信息,豐富字符的語義表達(dá)能力,但該方法會減慢模型的訓(xùn)練和推理速度,且Lattice-LSTM模型的遷移學(xué)習(xí)[7]能力不佳,因此適合于特定領(lǐng)域的NER任務(wù).Ma等[7]提出了一種字符信息融合方法,將每個字符與其對應(yīng)的詞匯表示按一定的編碼規(guī)則融合拼接,通過對字符表示層進(jìn)行細(xì)微的操作來豐富語義信息,但未充分利用到實(shí)體信息與字符信息的語義相關(guān)性.楊等[8]將Bert(Bidirectional Encoder Representations from Transformers)語言模型應(yīng)用于NER任務(wù),實(shí)驗(yàn)取得了較好的效果.Sui等[9]提出了一種改善字符隱藏狀態(tài)圖注意力網(wǎng)絡(luò)(Graph Attention Networks,GAT)方法,將實(shí)體信息融入字符隱藏狀態(tài),豐富字符的上下文語義信息,提升了中文NER任務(wù)的F1值,但該方法的圖結(jié)構(gòu)類別相對復(fù)雜,且未將實(shí)體信息直接運(yùn)用到字符的初始表示信息中.趙等[2]用局部注意力卷積算法提升文本中的字嵌入語義信息,豐富了字符的語義特征.姚等[10]用廣義自回歸語言模型解決句子中上下文關(guān)系依賴性差和數(shù)據(jù)稀疏問題.武等[11]通過遷移學(xué)習(xí)將源域知識遷移到目標(biāo)域,有效解決了深度學(xué)習(xí)對少量數(shù)據(jù)學(xué)習(xí)不足的問題.Sun等[12]將醫(yī)學(xué)實(shí)體標(biāo)注問題作為閱讀理解問題來處理,借助更多先驗(yàn)知識提升實(shí)體識別的精確度.姜等[13]基于無語言模型進(jìn)行無監(jiān)督預(yù)分詞,再將詞頻、互信息和鄰接熵作為主要特征進(jìn)行新詞識別.He等[14]提出了一種結(jié)合知識圖譜和自注意力機(jī)制的命名實(shí)體識別方法,提高了識別實(shí)體的準(zhǔn)確率.總體來看,相關(guān)研究普遍認(rèn)同改善字符語義信息對實(shí)體識別的有效性,并進(jìn)行了多方研究和實(shí)踐.

    綜上,基于LSTM-CRF框架的NER方法被廣泛使用,同時,中文NER任務(wù)因中文的非結(jié)構(gòu)化特點(diǎn),在基于字符序列標(biāo)注的NER方法方面尚有提升空間,Ma等[7]提出的改善字符語義表示提升NER性能的觀點(diǎn)被普遍認(rèn)同和使用,為本文方法的提出提供了借鑒思路.

    針對中文NER 任務(wù),為提升單個中文字符的語義表現(xiàn)力,本文提出了一種基于GAT的中文字符表示方法GATLexicon.本文的主要工作有二,一是構(gòu)建文本字符與外部實(shí)體詞典中相匹配實(shí)體詞的關(guān)系圖,然后通過GAT將字符原始的表示與實(shí)體詞的表示相融合,得到文本字符的GATLexicon 表示;二是將文本字符的GATLexicon表示傳輸?shù)紹iLSTM得到字符特征表示,最后經(jīng)過條件隨機(jī)場(Conditional Random Field,CRF)對命名實(shí)體進(jìn)行預(yù)測識別.實(shí)驗(yàn)結(jié)果在4個中文數(shù)據(jù)集下分別提升了1.88%、10.69%、10.03%、4.18%,表明了GATLexicon方法在改善中文NER性能方面的有效性.

    3 GATLexicon字符表示方法

    現(xiàn)有研究已表明,引入外部實(shí)體詞典的信息,有利于提升基于字符序列的NER任務(wù)性能.例如,對以下文本:

    中 山 西 路 發(fā) 生 了 一 起 交 通 事 故.

    該文本需要識別的實(shí)體為“中山西路”,但實(shí)際識別的實(shí)體可能是“中山”.這是由于單個字符“西”、“路”所攜帶的語義與實(shí)體“中山西路”的相關(guān)性不足,令“西路”所攜帶的部分實(shí)體信息被忽略.故本文認(rèn)為,在單個字符的表示中融入外部實(shí)體信息,增強(qiáng)單個字符的語義,有助于提高NER的性能,由此提出了一種融合外部實(shí)體語義信息的GATLexicon 表示方法,其框架如圖1所示.

    圖1 外部實(shí)體融入文本中字符的框架思路Fig.1 Ideas of integrating entities into characters in text

    其中,以外部實(shí)體“中山西路”為掩碼掃描文本的字符序列,建立文本的連續(xù)字符序列“中”、“山”、“西”、“路”與“中山西路”的關(guān)聯(lián)關(guān)系圖,通過進(jìn)一步融合計算,將外部實(shí)體信息融入單字表示中,提升“西”、“路”與實(shí)體“中山西路”的語義相關(guān)性.

    GATLexicon 方法主要包括構(gòu)建實(shí)體—字符關(guān)系圖、基于GAT的字符表示學(xué)習(xí)兩個步驟.前者構(gòu)建實(shí)體—字符關(guān)系圖,通過圖結(jié)構(gòu)讓對應(yīng)實(shí)體結(jié)點(diǎn)與字符結(jié)點(diǎn)保持清晰、緊密的關(guān)聯(lián),后者用GAT對字符結(jié)點(diǎn)的每個鄰居結(jié)點(diǎn)根據(jù)語義相關(guān)性賦予不同權(quán)重,令字符信息的更新能夠有效避免外部實(shí)體的噪音影響,更精準(zhǔn)地融入外部實(shí)體的語義信息.

    3.1 實(shí)體—字符關(guān)系圖的構(gòu)建

    對任意文本T=[t1,t2,…,tn],其中ti(1≤i≤n)為文本的每一個字符,外部實(shí)體詞典集合為C={c1,c2,…,cm},cj(1≤j≤m)表示詞典的第j個實(shí)體詞,cj=[cj,1,cj,2,…,cj,k,…,cj,q],cj,k為實(shí)體詞cj中的某個字符.本文提出的實(shí)體—字符關(guān)系圖如圖2所示.

    圖2 實(shí)體—字符關(guān)系圖Fig.2 Entity-character relationship diagram

    為在字符ti中融入其相關(guān)實(shí)體信息,首先需從C中篩選出每一個ti的候選實(shí)體,構(gòu)建候選實(shí)體集C′,方法如算法1所示.

    算法1.構(gòu)建T的候選實(shí)體集

    輸入:T=[t1,t2,…,tn],C={c1,c2,…,cm}

    輸出:C′

    Step 1.構(gòu)建單詞查找樹tree(C)

    Step 2.C′=?

    for eachtiinT

    for eachcjinC

    for eachcj,kincj

    ifcj,1==ti

    forpin(2:len(cj))

    ifcj,p!=ti+1

    break;

    end for

    ifp==len(cj)

    C′=C′∪{cj}

    break;

    Step 3.returnC′

    算法2.構(gòu)建實(shí)體—字符關(guān)系圖

    輸入:T=[t1,t2,…,tn]

    輸出:G={V,E},V是圖G的頂點(diǎn)集,E為實(shí)體—字符關(guān)系鄰接矩陣

    Step 1.構(gòu)建(n+m)×(n+m)的零矩陣E

    for eachtiinT

    i++

    ifcj,k+p!=ti+p

    break

    else

    end for

    Step 3.V=T∪C′

    Step 4.returnG

    例如,對文本“李 華 前 往 上 海 南 站”,首先根據(jù)算法1提取每個字符ti的候選實(shí)體集ct,然后合并得到候選實(shí)體集C′,如表1所示,此時文本選中的候選實(shí)體中不包含“青?!?、“南京”等與單個字符不匹配的候選實(shí)體詞.

    表1 候選實(shí)體分布表Table 1 Candidate entity distribution table

    然后根據(jù)算法2構(gòu)建C′中5個候選實(shí)體詞與文本字符的連邊,即“上?!狈謩e和文本中的“上”、“海”兩個字符相連,“上海南站”除了連線“上”、“?!?還要連線“南”、“站”,由此構(gòu)建的實(shí)體—字符關(guān)系圖如圖3所示.

    圖3 GAT網(wǎng)絡(luò)的圖結(jié)構(gòu)示例Fig.3 Example of graph structure of GAT network

    3.2 基于GAT的字符Embedding學(xué)習(xí)

    根據(jù)得到的實(shí)體—字符關(guān)系圖,在后續(xù)的GAT 訓(xùn)練中,保證字符的信息更新能夠?qū)W習(xí)所有候選實(shí)體詞的語義信息:

    M=GAT(f,E)

    (1)

    首先通過預(yù)訓(xùn)練模型[15]查詢文本的字符和候選實(shí)體詞的向量表示,進(jìn)行特征拼接,得到圖結(jié)點(diǎn)的表示特征:

    (2)

    為了更新字符結(jié)點(diǎn)的信息,需要計算字符結(jié)點(diǎn)ti(1≤i≤n)與結(jié)點(diǎn)連邊的候選實(shí)體詞結(jié)點(diǎn)cj(1≤j≤m)的語義相關(guān)性:

    ei,j=LeakyReLU(αT[Wfi‖Wfj])

    (3)

    其中Wk是網(wǎng)絡(luò)中的學(xué)習(xí)參數(shù)陣,其中Wk∈F×F′,F為輸入結(jié)點(diǎn)的維度,F′為輸出結(jié)點(diǎn)的維度,k為GAT 的頭數(shù).因?yàn)榻Y(jié)點(diǎn)i存在多條與之相連的邊Ni,需要對每條邊計算其語義相關(guān)性,然后將所有的得分進(jìn)行歸一化操作:

    (4)

    根據(jù)每個邊上的權(quán)重信息,可以計算出更新結(jié)點(diǎn)i的信息:

    (5)

    本文同時設(shè)置了多頭注意力網(wǎng)絡(luò),需要對每個注意力網(wǎng)絡(luò)的字符結(jié)點(diǎn)進(jìn)行求和取平均:

    (6)

    以及保留了文本中的初始字符向量表示,與更新后的字符結(jié)點(diǎn)信息進(jìn)行拼接操作:

    (7)

    4 GATLexicon+biword的NER模型

    為驗(yàn)證GATLexicon字符表示方法的有效性,將GATLexicon 表示應(yīng)用到NER任務(wù)中,由此構(gòu)造的NER模型主要包括GATLexicon、BiLSTM和CRF共3部分,其中GATLexicon的NER模型總體框架如圖4所示.GATLexicon模型首先通過算法1找到與文本字符相匹配的實(shí)體集,然后通過算法2,構(gòu)建文本字符和實(shí)體集的實(shí)體—字符關(guān)系圖,再通過GAT網(wǎng)絡(luò)對文本的字符特征進(jìn)行更新,由此得到新的字符向量表示.本文把GATLexicon得到的字符表示傳輸?shù)紹iLSTM模塊的輸入端作語義編碼處理,將輸出的字符語義特征送入到CRF進(jìn)行最后的標(biāo)簽預(yù)測,從而識別出文本中相關(guān)的命名實(shí)體.與之前的工作有所不同的是,本文工作嘗試借助GAT網(wǎng)絡(luò)對文本中的字符進(jìn)行詞匯信息融合,以便后續(xù)的模型學(xué)習(xí)上能更準(zhǔn)確地識別出文本相對應(yīng)的實(shí)體.同時,對文本的字符和詞典

    圖4 GATLexicon模型的總體架構(gòu)Fig.4 Overall architecture of the GATLexicon model

    表示都使用預(yù)訓(xùn)練模型的向量表示,避免出現(xiàn)字符和詞典信息之間存在的差異性.

    4.1 biword

    Zhang等[6]已經(jīng)證明了雙字符對于表示字符信息是有用的,特別是對于那些不使用單詞信息的表示方法.因此,GATLexicon使用biword方法嵌入來增強(qiáng)字符的表示:

    fi=[eti,e(ti+ti+1)]

    (8)

    這樣經(jīng)過GATLexicon網(wǎng)絡(luò)之后更新得到新的字符向量表示為:

    (9)

    4.2 BiLSTM

    雙向長短期記憶網(wǎng)絡(luò)(BiLSTM)能夠有效克服傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)在長距離依賴下所帶來的梯度爆炸和梯度消失問題.此外,該模型相對于LSTM能夠充分利用輸入序列的上下文信息,從而挖掘出更多的序列特征信息,提升模型整體性能.BiLSTM基本思想即通過前向、后向LSTM兩個隱藏層來分別得到序列的前向和后向信息,再將這兩種信息進(jìn)行融合,得到字符序列的新特征表示.

    經(jīng)過GATLexicon網(wǎng)絡(luò)得到新的文本字符向量表示mi后,將信息傳入到BiLSTM中,輸出得到了文本的隱藏特征表示H={h1,h2,…,hn}:

    (10)

    4.3 CRF

    CRF是一種用于標(biāo)注和切分有序數(shù)據(jù)的條件概率模型.該模型結(jié)合了隱馬爾可夫模型和最大熵模型的優(yōu)點(diǎn),避免了這些模型本身存在的一些缺陷,能夠有效解決序列標(biāo)注問題,將每個輸出做獨(dú)立的標(biāo)記決策.

    假設(shè)文本的預(yù)測標(biāo)簽序列為y={y1,y2,…,yn},其中m為文本標(biāo)簽的個數(shù).在經(jīng)過BiLSTM得到文本序列的隱藏狀態(tài)H={h1,h2,…,hn}之后,傳輸?shù)紺RF來預(yù)測每個文本字符對應(yīng)的標(biāo)簽:

    (11)

    其中y′為文本中標(biāo)簽的個數(shù),W為用于模擬句子中第i個字符的標(biāo)簽矩陣,T是存儲從一個標(biāo)簽轉(zhuǎn)移分?jǐn)?shù)到另一個標(biāo)簽的過渡矩陣.最后將獲得給出最大分?jǐn)?shù)的標(biāo)簽輸出序列:

    (12)

    根據(jù)給出的最優(yōu)標(biāo)簽序列,通過最小化調(diào)節(jié)對數(shù)似然損失來優(yōu)化模型,損失函數(shù)公式為:

    (13)

    其中λ表示正則化參數(shù),Θ是所有可訓(xùn)練的參數(shù)集.

    5 實(shí)驗(yàn)結(jié)果與分析

    5.1 實(shí)驗(yàn)數(shù)據(jù)

    本文實(shí)驗(yàn)在4個中文數(shù)據(jù)集上進(jìn)行,分別是Resume[7]、Weibo(NE)[7]、OntoNotes[16]、MSRA[17]數(shù)據(jù)集,其中,OntoNotes和MSRA的數(shù)據(jù)來自新聞領(lǐng)域,Weibo(NE)和Resume分別來自微博用戶社交數(shù)據(jù)和簡歷數(shù)據(jù).Resume、OntoNotes、Weibo(NE)是按照標(biāo)準(zhǔn)切割的數(shù)據(jù)集,MSRA數(shù)據(jù)集并沒有驗(yàn)證集,本文實(shí)驗(yàn)采用隨機(jī)從訓(xùn)練集中選擇10%的樣本作為驗(yàn)證集的方法.4個數(shù)據(jù)集統(tǒng)計的相關(guān)信息如表2所示.

    表2 數(shù)據(jù)集的相關(guān)統(tǒng)計Table 2 Relevant statistics of the data set

    5.2 實(shí)驗(yàn)參數(shù)

    GATLexicon模塊的GAT網(wǎng)絡(luò)設(shè)置為2層,頭數(shù)為2,GAT隱藏維度為200,GAT-Dropout設(shè)置為0.4,字符信息dropout設(shè)置為0.3.Weibo(NE)和Resume數(shù)據(jù)集的學(xué)習(xí)率為0.005,OntoNotes和MSRA的學(xué)習(xí)率為0.0015.Weibo(NE)和Resume數(shù)據(jù)集在模型中BiLSTM層的維度為200,OntoNotes對應(yīng)BiLSTM層的維度為250,MSRA對應(yīng)BiLSTM層的維度為300.4個數(shù)據(jù)集的batchsize均設(shè)置為1.

    5.3 預(yù)訓(xùn)練模型

    對文本中的字符和候選實(shí)體詞的向量表示是通過開放的預(yù)訓(xùn)練模型進(jìn)行,即使用Word2Vec對自動分割的Giga-Word 中文文本進(jìn)行預(yù)訓(xùn)練[18],在最終的詞典中獲得了704.4k個單詞,其中單字符、雙字符和三字符單詞的數(shù)量分別為5.7K字節(jié)、291.5K字節(jié)、278.1K字節(jié).考慮上下文信息的biword embedding同樣采用Word2Vec方法對Giga-Word文本訓(xùn)練得到.

    5.4 評價指標(biāo)

    實(shí)驗(yàn)中評價NER模型的指標(biāo)為精確率(P)、召回率(R)和F1值.具體公式如下:

    (14)

    其中,Tp為模型識別正確的實(shí)體數(shù),Fp為模型識別錯誤實(shí)體的數(shù),Ft為模型未識別出的實(shí)體數(shù).

    5.5 實(shí)驗(yàn)結(jié)果分析

    表3為不同模型在Resume數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果.本文的GATLexicon模型F1值為95.36%,高于Lattice-LSTM模型0.90%,召回率為95.52%,高于Lattice-LSTM模型1.41%.本文GATLexicon+biword模型的F1值為95.38%,高于LR-CNN模型的F1值0.27%,同時,GATLexicon+biword的精確率為95.68%,總體優(yōu)于其他模型.

    表3 Resume數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果Table 3 Experimental results of the Resume dataset

    Weibo(NE)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果如表4所示.其中,GATLexicon+biword模型的召回率為52.31%,超出其他模型11.64%.盡管GATLexicon、GATLexicon+biword模型的準(zhǔn)確率并未顯著超過其他模型,但也分別保持著63.95%、61.41%相對較高的準(zhǔn)確率.從F1值看,GATLexicon+biword高于Lattice-LSTM模型3.46%.總體來看,本文的GATLexicon+biword方法體現(xiàn)了良好的魯棒性.

    表4 Weibo(NE)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果Table 4 Experimental results of the Weibo(NE)dataset

    OntoNotes數(shù)據(jù)集在數(shù)據(jù)標(biāo)注處理上分為Gold Seg和No Seg兩種方式,前者是基于詞的處理,后者是基于字符的處理,但由于前者的文本處理在現(xiàn)實(shí)中并不存在,因此本文實(shí)驗(yàn)只對后者,即No Seg方式進(jìn)行測試.在No seg 方式的數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果如表5所示.其中,Lattice-LSTM的 F1值為73.88%,高于本文GATLexicon模型的F1值0.28%,但低于GATLexicon+biword模型的F1值0.18%,且本文GATLexicon+biword的召回率要高于Lattice-LSTM的召回率1.96%.

    表5 OntoNotes數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果Table 5 Experimental results of the OntoNotes dataset

    不同模型在MSRA數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果如表6所示.GATLexicon的F1值為92.71%,最好的實(shí)驗(yàn)結(jié)果,比不使用GATLexicon網(wǎng)絡(luò)的BiLSTM+CRF模型的F1值要高上3.90%.盡管Lattice-LSTM的F1值高于GATLexicon的F1值 0.47%,但GATLexicon+biword的F1值仍高于Lattice-LSTM高0.08%,且GATLexicon+biword的召回率為93.16%,較Lattice-LSTM提高了0.37%,表明本文模型在對實(shí)體識別的學(xué)習(xí)方面要比Lattice-LSTM的學(xué)習(xí)效果要好.

    表6 MSRA數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果Table 6 Experimental results of the MSRA dataset

    5.6 消融性分析

    為研究模型各組成部分的貢獻(xiàn),在4個數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果如表7所示.

    表7 GATLexicon+biword模型的消融實(shí)驗(yàn)F1值(%)結(jié)果Table 7 F1 value(%)result of ablation experiment of GATLexicon+biword model

    首先去掉GATLexicon網(wǎng)絡(luò)模塊,這樣模型就是普通的BiLSTM+CRF模型,且加入了biword.表7的實(shí)驗(yàn)結(jié)果表明,去掉GAT網(wǎng)絡(luò)后,4個數(shù)據(jù)集的F1值分別為94.41%、50.55%、64.30%、88.81%,顯著低于GATLexicon+biword模型.其中,OntoNotes數(shù)據(jù)集在去掉GAT網(wǎng)絡(luò)后的F1值為64.30%,較GATLexicon+biword降低9.76%,而Weibo(NE)數(shù)據(jù)集則降低6.15%.通過觀察Onto Notes數(shù)據(jù)集發(fā)現(xiàn),其實(shí)體分布并不均勻,且存在著一部分噪聲數(shù)據(jù),因此傳統(tǒng)的BiLSTM+CRF模型學(xué)習(xí)到實(shí)體信息相對困難.Weibo(NE)數(shù)據(jù)集的內(nèi)容來自社交媒體文本,具有文本長度短、語言不規(guī)范、噪聲多、詞匯新奇等特點(diǎn),且實(shí)體分布較為稀疏,使得對命名實(shí)體的識別變得更加困難.實(shí)驗(yàn)表明,在GATLexicon模塊的影響下,文本的字符信息能夠充分融合詞典的信息,進(jìn)而改變原本的字符信息,讓其充分蘊(yùn)含上下文中與實(shí)體相關(guān)的語義信息,由此較好地解決了單個字符信息噪音多、表達(dá)不明確等問題.實(shí)驗(yàn)結(jié)果也充分表明,通過融合相關(guān)實(shí)體信息改善字符的信息表示,能夠顯著提升后續(xù)的識別實(shí)體模型學(xué)習(xí)效果.

    從去掉biword模塊的結(jié)果看,biword模塊的影響并不顯著,4個數(shù)據(jù)集上的F1值與GATLexicon+biword的差異均小于1%.通過數(shù)據(jù)集的統(tǒng)計結(jié)果(表2)發(fā)現(xiàn),在數(shù)據(jù)量較小的數(shù)據(jù)集中,biword對模型本身的學(xué)習(xí)并沒有明顯的提升,但隨著數(shù)據(jù)集的增大,biword模塊在對上下文的信息理解上有著顯著的提升,其中加入了biword的GATLexicon模型在MSRA數(shù)據(jù)集上比GATLexicon模型F1值提升了0.55%.這個模塊也能說明,在識別文本的實(shí)體時,考慮字符的上下文信息對模型的學(xué)習(xí)存在著提升的空間.

    5.7 可行性分析

    為驗(yàn)證GATLexicon網(wǎng)絡(luò)的可行性,本文實(shí)驗(yàn)將GATLexicon網(wǎng)絡(luò)加入其他模型,對比其他模型在使用GATLexicon網(wǎng)絡(luò)表示的字向量表示前后進(jìn)行的實(shí)體識別效果.實(shí)驗(yàn)用GRU(Gate Recurrent Unit,GRU)網(wǎng)絡(luò)代替BiLSTM網(wǎng)絡(luò),GRU網(wǎng)絡(luò)在4個數(shù)據(jù)集下的實(shí)驗(yàn)結(jié)果如表8所示.

    表8 基于GRU網(wǎng)絡(luò)框架下的F1值(%)實(shí)驗(yàn)結(jié)果Table 8 Experimental results based on F1 value(%)under the GRU network framework

    由表8的實(shí)驗(yàn)結(jié)果看出,GATLexicon(LSTM)的實(shí)驗(yàn)結(jié)果比GATLexicon(GRU)效果更加明顯.但是,在對比本文不加入GATLexicon網(wǎng)絡(luò)的GRU框架模型,經(jīng)過實(shí)驗(yàn)數(shù)據(jù)的結(jié)果分析中,加入了GATLexicon(GRU)的實(shí)驗(yàn)結(jié)果F1值分別提高了1.05%、0.76%、4.02%、1.40%,可以很明顯看到GATLexicon網(wǎng)絡(luò)能夠提高NER的精確度,充分說明了GATLexicon網(wǎng)絡(luò)在不同模型框架下的可行性.

    6 結(jié)束語

    本文研究文本中的字符與其相關(guān)實(shí)體的相關(guān)性,提出了一種基于GATLexicon網(wǎng)絡(luò)的字符信息融合部分實(shí)體信息的方法,令中文字符通過GATLexicon網(wǎng)絡(luò)融合其外部相關(guān)實(shí)體的信息,同時加入biword模塊,將字符與其上下文信息進(jìn)行部分融合,從而改善字符的表示,提升中文命名實(shí)體識別的性能.在Resume、Weibo(NE)、OntoNotes、MSRA4個標(biāo)準(zhǔn)中文NER數(shù)據(jù)集的實(shí)驗(yàn)表明,本文方法在4個數(shù)據(jù)集上的F1值均優(yōu)于Baseline,表明本文方法能夠較好地實(shí)現(xiàn)單個字符與其相關(guān)實(shí)體信息的融合,令生成的字符表示更適合于實(shí)體識別任務(wù).本文的字符表示方法可用于不同的命名實(shí)體識別模型架構(gòu),也可應(yīng)用于多個中文實(shí)體識別數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果表明GATLexicon網(wǎng)絡(luò)可以很好地改進(jìn)中文NER的性能.

    下一步研究將嘗試把實(shí)體和字符信息分別運(yùn)用于NER模型中,通過改變實(shí)體和字符的交叉融合方法提升中文實(shí)體識別的性能.

    猜你喜歡
    字符實(shí)體語義
    尋找更強(qiáng)的字符映射管理器
    語言與語義
    字符代表幾
    前海自貿(mào)區(qū):金融服務(wù)實(shí)體
    中國外匯(2019年18期)2019-11-25 01:41:54
    一種USB接口字符液晶控制器設(shè)計
    電子制作(2019年19期)2019-11-23 08:41:50
    消失的殖民村莊和神秘字符
    實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
    兩會進(jìn)行時:緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
    振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
    “上”與“下”語義的不對稱性及其認(rèn)知闡釋
    长宁县| 临颍县| 浮梁县| 嘉祥县| 镇坪县| 佛山市| 南丰县| 建德市| 岑巩县| 莲花县| 潍坊市| 临潭县| 苏州市| 鹤庆县| 枞阳县| 蕉岭县| 阜康市| 扎鲁特旗| 延安市| 景宁| 历史| 堆龙德庆县| 道孚县| 繁峙县| 博客| 墨玉县| 乌兰县| 本溪| 璧山县| 荣昌县| 白朗县| 泾川县| 渭南市| 深水埗区| 乌什县| 新乡县| 金寨县| 阿瓦提县| 寿光市| 津市市| 理塘县|