• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于實(shí)體級(jí)遮蔽BERT與BiLSTM-CRF的農(nóng)業(yè)命名實(shí)體識(shí)別

      2022-11-13 07:57:04韋紫君胡小春陳寧江
      關(guān)鍵詞:字符命名實(shí)體

      韋紫君,宋 玲,胡小春,陳寧江,3

      基于實(shí)體級(jí)遮蔽BERT與BiLSTM-CRF的農(nóng)業(yè)命名實(shí)體識(shí)別

      韋紫君1,宋 玲2,3※,胡小春4,陳寧江1,3

      (1. 廣西大學(xué)計(jì)算機(jī)與電子信息學(xué)院,南寧 530004;2.南寧學(xué)院信息工程學(xué)院,南寧 530200;3. 廣西多媒體通信與網(wǎng)絡(luò)技術(shù)重點(diǎn)實(shí)驗(yàn)室,南寧 530004;4.廣西財(cái)經(jīng)學(xué)院信息與統(tǒng)計(jì)學(xué)院,南寧 530007)

      字符的位置信息和語(yǔ)義信息對(duì)命名方式繁雜且名稱長(zhǎng)度較長(zhǎng)的中文農(nóng)業(yè)實(shí)體的識(shí)別至關(guān)重要。為解決命名實(shí)體識(shí)別過程中由于捕獲字符位置信息、上下文語(yǔ)義特征和長(zhǎng)距離依賴信息不充足導(dǎo)致識(shí)別效果不理想的問題,該研究提出一種基于EmBERT-BiLSTM-CRF模型的中文農(nóng)業(yè)命名實(shí)體識(shí)別方法。該方法采用基于Transformer的深度雙向預(yù)訓(xùn)練語(yǔ)言模型(Bidirectional Encoder Representation from Transformers,BERT)作為嵌入層提取字向量的深度雙向表示,并使用實(shí)體級(jí)遮蔽策略使模型更好地表征中文語(yǔ)義;然后使用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory,BiLSTM)學(xué)習(xí)文本的長(zhǎng)序列語(yǔ)義特征;最后使用條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)在訓(xùn)練數(shù)據(jù)中學(xué)習(xí)標(biāo)注約束規(guī)則,并利用相鄰標(biāo)簽之間的信息輸出全局最優(yōu)的標(biāo)注序列。訓(xùn)練過程中使用了焦點(diǎn)損失函數(shù)來緩解樣本分布不均衡的問題。試驗(yàn)在構(gòu)建的語(yǔ)料庫(kù)上對(duì)農(nóng)作物品種、病害、蟲害和農(nóng)藥4類農(nóng)業(yè)實(shí)體進(jìn)行識(shí)別。結(jié)果表明,該研究的EmBERT-BiLSTM-CRF模型對(duì)4類農(nóng)業(yè)實(shí)體的識(shí)別性能相較于其他模型有明顯提升,準(zhǔn)確率為94.97%,1值為95.93%。

      農(nóng)業(yè);命名實(shí)體識(shí)別;實(shí)體級(jí)遮蔽;BERT;BiLSTM;CRF

      0 引 言

      隨著信息化技術(shù)的快速發(fā)展,農(nóng)戶通過線上智能問答解決線下農(nóng)業(yè)問題已成為趨勢(shì)。面對(duì)龐大的問答數(shù)據(jù),如何對(duì)數(shù)據(jù)進(jìn)行分類、關(guān)鍵詞定位、深層語(yǔ)義關(guān)系挖掘是實(shí)現(xiàn)智能問答的關(guān)鍵,同時(shí)也是自然語(yǔ)言處理(Natural Language Processing,NLP)和農(nóng)業(yè)大數(shù)據(jù)智能研究領(lǐng)域的熱點(diǎn)研究方向[1]。命名實(shí)體識(shí)別[2](Named Entity Recognition,NER)是自然語(yǔ)言處理、智能問答[3]和知識(shí)圖譜構(gòu)建[4]等領(lǐng)域的關(guān)鍵技術(shù),其主要任務(wù)是從非結(jié)構(gòu)化文本中識(shí)別出有意義的名詞或短語(yǔ)并加以歸類,而農(nóng)業(yè)命名實(shí)體識(shí)別任務(wù)則是識(shí)別出農(nóng)業(yè)文本中的相關(guān)實(shí)體,如農(nóng)作物品種、病害、蟲害和農(nóng)藥名稱等。當(dāng)前中文農(nóng)業(yè)命名實(shí)體識(shí)別存在以下兩方面的問題:一是農(nóng)業(yè)知識(shí)數(shù)據(jù)尤其是標(biāo)記好的數(shù)據(jù)集難以獲得,導(dǎo)致模型性能和準(zhǔn)確率達(dá)不到預(yù)期效果;二是農(nóng)業(yè)實(shí)體命名方式繁雜多變且名稱長(zhǎng)度較長(zhǎng),并缺乏標(biāo)準(zhǔn)的數(shù)據(jù)集和構(gòu)詞規(guī)范,難以對(duì)農(nóng)業(yè)語(yǔ)料進(jìn)行分詞、分類、語(yǔ)義挖掘等操作。

      早期的命名實(shí)體識(shí)別研究大多是基于規(guī)則的方法[5-6],先根據(jù)特定領(lǐng)域知識(shí)手工設(shè)計(jì)規(guī)則并做成詞典,然后通過模式匹配等方式來實(shí)現(xiàn)命名實(shí)體識(shí)別。此類方法高度依賴人工設(shè)計(jì)規(guī)則,對(duì)語(yǔ)料庫(kù)與標(biāo)準(zhǔn)構(gòu)詞規(guī)范的依賴性很高,難以準(zhǔn)確識(shí)別構(gòu)詞復(fù)雜的命名實(shí)體。隨著機(jī)器學(xué)習(xí)的應(yīng)用,開始將命名實(shí)體識(shí)別任務(wù)建模為多分類任務(wù)或序列標(biāo)注任務(wù),訓(xùn)練模型從標(biāo)記好的數(shù)據(jù)中學(xué)習(xí)實(shí)體的命名模式,再對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行命名實(shí)體預(yù)測(cè)。文獻(xiàn) [7]提出基于條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)的農(nóng)作物病蟲害及農(nóng)藥命名實(shí)體識(shí)別方法,利用標(biāo)注后的數(shù)據(jù)訓(xùn)練CRF模型并對(duì)語(yǔ)料進(jìn)行分類。文獻(xiàn)[8]使用BIO(Begin, Inside, Outside)和BMES(Begin, Middle, End, Single)2種標(biāo)注方式,根據(jù)不同分類進(jìn)行特征選取,再基于CRF模型對(duì)農(nóng)業(yè)命名實(shí)體進(jìn)行識(shí)別。上述方法通常需要大規(guī)模的標(biāo)注語(yǔ)料,而中文農(nóng)業(yè)命名實(shí)體識(shí)別任務(wù)的標(biāo)準(zhǔn)語(yǔ)料庫(kù)難以獲得,增加了農(nóng)業(yè)實(shí)體的識(shí)別難度,影響識(shí)別效果。

      利用深度神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)深層語(yǔ)義特征,為命名實(shí)體識(shí)別任務(wù)提供了更多可借鑒的方法[9]。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,Recurrent Neural Network)+CRF和卷積神經(jīng)網(wǎng)絡(luò)(CNN,Convolutional Neural Network)+RNN+CRF 2種網(wǎng)絡(luò)結(jié)構(gòu)開始被廣泛應(yīng)用于命名實(shí)體識(shí)別任務(wù)。RNN+CRF結(jié)構(gòu)[10-11],將帶有語(yǔ)義信息的字符嵌入輸入到RNN(如雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory,BiLSTM)、雙向門控神經(jīng)網(wǎng)絡(luò))中,進(jìn)一步學(xué)習(xí)文本的長(zhǎng)序列語(yǔ)義特征;再使用CRF輸出全局最優(yōu)的標(biāo)注序列。文獻(xiàn)[12]利用連續(xù)詞袋模型預(yù)訓(xùn)練字向量,并引入文檔級(jí)注意力機(jī)制獲取實(shí)體間的相似信息,基于BiLSTM-CRF模型構(gòu)建農(nóng)業(yè)命名實(shí)體識(shí)別框架,解決農(nóng)業(yè)中分詞不準(zhǔn)確和實(shí)體標(biāo)注不一致的問題。文獻(xiàn)[13]針對(duì)漁業(yè)領(lǐng)域命名實(shí)體長(zhǎng)度較長(zhǎng)的特點(diǎn),使用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM,Long Short-Term Memory)學(xué)習(xí)長(zhǎng)距離依賴信息,并將標(biāo)記信息融入CRF模型,構(gòu)建Character+LSTM+CRF漁業(yè)實(shí)體識(shí)別模型,解決漁業(yè)實(shí)體較長(zhǎng)造成識(shí)別效果較差的問題。CNN+RNN+CRF結(jié)構(gòu)[14-15],通常是在RNN+CRF結(jié)構(gòu)的基礎(chǔ)上,先利用CNN提取具有漢字偏旁部首特征信息的部首嵌入,再將部首嵌入與帶有語(yǔ)義信息的字符嵌入相結(jié)合作為最終的輸入,同時(shí)考慮中文字符的部首信息和語(yǔ)義信息。文獻(xiàn)[16]采用基于部首嵌入和注意力機(jī)制的農(nóng)業(yè)病蟲害命名實(shí)體識(shí)別模型,將部首嵌入與字符嵌入結(jié)合作為輸入,采用不同尺寸窗口的卷積神經(jīng)網(wǎng)絡(luò)提取不同尺度的局部上下文信息,基于BiLSTM-CRF框架對(duì)農(nóng)業(yè)病蟲害實(shí)體進(jìn)行識(shí)別,緩解了農(nóng)業(yè)中內(nèi)在語(yǔ)義信息缺失的問題。上述方法均使用Word2Vec[17-18]模型作為嵌入層,而Word2Vec輸出的是上下文無關(guān)的淺層特征向量,因此無法表征一詞多義。中文里不少詞匯都具有一詞多義,并且中文農(nóng)業(yè)命名實(shí)體具有構(gòu)詞復(fù)雜和實(shí)體長(zhǎng)度較長(zhǎng)的特點(diǎn),因此字符的位置和上下文依賴信息至關(guān)重要,而上述方法無法充分考慮以上2種信息,就會(huì)影響識(shí)別效果。預(yù)訓(xùn)練語(yǔ)言模型(BERT[19]、ERNIE[20]等),通過預(yù)訓(xùn)練字向量的深度雙向表示,進(jìn)一步提高了命名實(shí)體識(shí)別的性能。文獻(xiàn)[21]基于外部詞典和BERT模型,利用特征向量拼接的方式融合字級(jí)特征和詞典特征對(duì)農(nóng)業(yè)領(lǐng)域的5類實(shí)體進(jìn)行識(shí)別,提高了農(nóng)業(yè)命名實(shí)體識(shí)別的性能。該方法利用外部詞典來輔助提取詞級(jí)特征,但基于詞典提取的詞級(jí)特征向量是固定的,即對(duì)于具有一詞多義的詞匯來說其不同語(yǔ)義得到的是相同的特征表示,因此并不能很好的區(qū)分其間的語(yǔ)義差異。并且基于詞典的方法具有一定的局限性,不能很好地處理輸入句子中出現(xiàn)詞典中不存在的詞。文獻(xiàn)[22]采用基于BERT+BiLSTM+Attention模型,利用BERT預(yù)訓(xùn)練字向量,再融合BiLSTM與注意力機(jī)制去重點(diǎn)關(guān)注文本中的主要特征,解決中醫(yī)病歷文本有效信息識(shí)別和抽取困難的問題。文獻(xiàn)[23]采用融合注意力機(jī)制與BERT+BiLSTM+CRF模型,利用BERT提高模型語(yǔ)義表征能力和使用注意力機(jī)制計(jì)算序列詞間相關(guān)性,解決漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)識(shí)別準(zhǔn)確率不高的問題。上述方法針對(duì)特定領(lǐng)域和具有明顯實(shí)體特征的命名實(shí)體識(shí)別效果較好,但不同領(lǐng)域的實(shí)體特征間存在差異,并且在農(nóng)業(yè)中存在具有邊界模糊特點(diǎn)的命名實(shí)體,因此無法將以上方法直接應(yīng)用于農(nóng)業(yè)領(lǐng)域。

      基于以上農(nóng)業(yè)命名實(shí)體識(shí)別任務(wù)中缺少標(biāo)準(zhǔn)語(yǔ)料庫(kù)、模型無法充分表征中文語(yǔ)義和名稱長(zhǎng)度較長(zhǎng)的實(shí)體識(shí)別準(zhǔn)確率低的問題,本文做了以下工作:1)基于權(quán)威農(nóng)業(yè)信息網(wǎng)站的相關(guān)信息,構(gòu)建一個(gè)中文農(nóng)業(yè)命名實(shí)體識(shí)別語(yǔ)料庫(kù);2)使用預(yù)訓(xùn)練語(yǔ)言模型BERT作為嵌入層,從無標(biāo)簽的文本中預(yù)訓(xùn)練出字向量的深度雙向表示,并根據(jù)中文的特點(diǎn)改進(jìn)原有的語(yǔ)言遮蔽方法,使用實(shí)體級(jí)遮蔽策略讓模型對(duì)文本中的完整實(shí)體進(jìn)行遮蔽和預(yù)測(cè),使模型更好地表征中文的語(yǔ)義;3)使用焦點(diǎn)損失函數(shù)緩解樣本分布不均衡問題,提高模型對(duì)難識(shí)別樣本的識(shí)別能力;4)使用BiLSTM-CRF模型作為下游任務(wù)模型,將BERT中獲取的字向量深度雙向表示序列輸入到雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)中做進(jìn)一步的語(yǔ)義編碼,學(xué)習(xí)文本的長(zhǎng)序列語(yǔ)義特征;最后通過CRF層輸出概率最大的標(biāo)注序列,實(shí)現(xiàn)農(nóng)業(yè)命名實(shí)體的準(zhǔn)確識(shí)別。并通過對(duì)比試驗(yàn),驗(yàn)證本文方法對(duì)中文農(nóng)業(yè)命名實(shí)體的有效識(shí)別。

      1 數(shù)據(jù)集構(gòu)建

      1.1 數(shù)據(jù)獲取

      本文語(yǔ)料是在各大權(quán)威農(nóng)業(yè)信息網(wǎng)站(如中國(guó)作物種質(zhì)信息網(wǎng)、中國(guó)農(nóng)業(yè)信息網(wǎng)、中國(guó)農(nóng)業(yè)知識(shí)網(wǎng)等)爬取的包含農(nóng)作物病蟲害、農(nóng)作物品種和農(nóng)藥品種相關(guān)的文本。原始數(shù)據(jù)中包含大量非結(jié)構(gòu)化數(shù)據(jù),因此在數(shù)據(jù)標(biāo)注前對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,包括非文本數(shù)據(jù)、鏈接及特殊字符刪除和去停用詞等操作,從而得到一個(gè)規(guī)范的語(yǔ)料庫(kù)。該語(yǔ)料庫(kù)包含37 243個(gè)農(nóng)業(yè)領(lǐng)域的中文句子,29 790個(gè)農(nóng)業(yè)類實(shí)體,共約180萬個(gè)中文字符。其中訓(xùn)練集、驗(yàn)證集和測(cè)試集按7:2:1的比例進(jìn)行分配。語(yǔ)料庫(kù)信息如表1所示。

      表1 語(yǔ)料庫(kù)信息

      1.2 標(biāo)注體系

      本文采用BIO體系對(duì)語(yǔ)料進(jìn)行標(biāo)注,共設(shè)計(jì)9個(gè)標(biāo)簽,分別是“B-CROP”、“I-CROP”、“B-DIS”、“I-DIS”、“B-PEST”、“I-PEST”、“B-PC”、“I-PC”、“O”。其中“B”表示實(shí)體名稱的開始,“I”表示實(shí)體名稱的內(nèi)部,“O”表示非實(shí)體部分。實(shí)體類型表示如下:“CROP”表示農(nóng)作物品種,“DIS”表示農(nóng)作物病害,“PEST”表示農(nóng)作物蟲害,“PC”表示農(nóng)藥品種。語(yǔ)料標(biāo)注示例如圖1所示。標(biāo)注后的數(shù)據(jù)集有29 790個(gè)命名實(shí)體,其中農(nóng)作物實(shí)體11 057個(gè),農(nóng)藥實(shí)體8 121個(gè),病害實(shí)體4 505個(gè),蟲害實(shí)體6 107個(gè)。

      圖1 語(yǔ)料標(biāo)注示例

      2 農(nóng)業(yè)命名實(shí)體識(shí)別方法的設(shè)計(jì)

      2.1 方法流程及模型架構(gòu)

      農(nóng)業(yè)命名實(shí)體識(shí)別方法流程如圖2所示,該方法主要分為中文農(nóng)業(yè)命名實(shí)體識(shí)別語(yǔ)料庫(kù)構(gòu)建、預(yù)訓(xùn)練和下游NER模型訓(xùn)練3個(gè)部分。該方法在預(yù)訓(xùn)練中根據(jù)中文語(yǔ)義的特點(diǎn)改進(jìn)了語(yǔ)言遮蔽方法,使用實(shí)體級(jí)遮蔽策略代替單個(gè)字符遮蔽策略,使訓(xùn)練得到的模型能夠更好地表征中文語(yǔ)義。

      圖2 農(nóng)業(yè)命名實(shí)體識(shí)別方法流程

      使用EmBERT-BiLSTM-CRF模型實(shí)現(xiàn)中文農(nóng)業(yè)命名實(shí)體識(shí)別任務(wù),模型由輸入層、BERT層、BiLSTM層和CRF層4部分組成。其中BERT層用于生成字向量的深度雙向表示;BiLSTM層用于挖掘文本的長(zhǎng)序列語(yǔ)義信息,使模型充分考慮上下文語(yǔ)境;CRF層用于學(xué)習(xí)標(biāo)注約束規(guī)則,并對(duì)BiLSTM的輸出進(jìn)行標(biāo)注合法性檢驗(yàn),最終輸出全局最優(yōu)的標(biāo)注序列,模型輸出的不是獨(dú)立的標(biāo)簽序列,而是考慮規(guī)則和順序的最佳序列。模型結(jié)構(gòu)如圖3所示。

      2.2 BERT層和實(shí)體級(jí)遮蔽策略

      BERT[19]是基于Transformer[24]的深度雙向預(yù)訓(xùn)練語(yǔ)言模型,能夠通過對(duì)所有層的上下文進(jìn)行聯(lián)合調(diào)節(jié),從無標(biāo)簽文本中預(yù)訓(xùn)練出特征的深度雙向表示,使特征向量可充分表征上下文語(yǔ)義信息,可有效解決傳統(tǒng)Word2Vec模型無法解決的一詞多義問題。多數(shù)中文農(nóng)業(yè)實(shí)體的命名方式繁雜多變且名稱長(zhǎng)度較長(zhǎng),其識(shí)別過程中,每個(gè)字符的位置和語(yǔ)義信息是關(guān)鍵。BERT模型的輸入表示由字符的位置嵌入、段嵌入與token嵌入3種特征嵌入表示求和來構(gòu)建的,充分考慮了字符的位置信息。預(yù)訓(xùn)練期間使用遮蔽語(yǔ)言模型,使訓(xùn)練得到的特征向量攜帶上下文語(yǔ)義信息,因此本文使用BERT作為模型的嵌入層。

      圖3 EmBERT-BiLSTM-CRF模型結(jié)構(gòu)

      為訓(xùn)練出深度雙向表示,采用對(duì)輸入文本進(jìn)行隨機(jī)遮蔽的方式,讓模型預(yù)測(cè)那些被遮蔽的字符。BERT原有的遮蔽方法是使用單個(gè)[MASK]標(biāo)志對(duì)文本中的單個(gè)字符進(jìn)行遮蔽,但中文的一個(gè)實(shí)體往往是由多個(gè)中文字符組成的,如果依然使用原有的遮蔽方法則無法將整個(gè)實(shí)體完整遮蔽,導(dǎo)致模型在預(yù)測(cè)被遮蔽詞時(shí)會(huì)產(chǎn)生偏差,從而無法準(zhǔn)確預(yù)測(cè)。因此本文將改進(jìn)BERT原有的語(yǔ)言遮蔽方法,使用實(shí)體級(jí)遮蔽策略(Entity-level Masking,EM)對(duì)中文文本進(jìn)行遮蔽。EM首先對(duì)文本進(jìn)行中文分詞和利用實(shí)體詞典進(jìn)行實(shí)體分析,然后使用多個(gè)連續(xù)的[MASK]標(biāo)志對(duì)整個(gè)中文實(shí)體進(jìn)行遮蔽,再讓模型預(yù)測(cè)完整實(shí)體中被[MASK]標(biāo)志替換的所有字符,獲得實(shí)體級(jí)的特征信息,從而緩解在進(jìn)行中文預(yù)測(cè)時(shí)因語(yǔ)義不完整造成的偏差。在訓(xùn)練過程中,模型對(duì)全文中的實(shí)體進(jìn)行隨機(jī)遮蔽,組成所有被遮蔽實(shí)體的中文字符共占全文總字符的15%。被選中遮蔽的實(shí)體中,80%被連續(xù)的[MASK]標(biāo)志替換,10%被語(yǔ)料庫(kù)中任意的實(shí)體替換,10%保持不變。EM方法如圖4所示,示例如表2所示。

      注:x1~ xn表示輸入序列中的字符。[MASK]表示當(dāng)前字符被遮蔽。

      表2 實(shí)體級(jí)遮蔽示例

      由于使用了遮蔽策略,訓(xùn)練過程中Transformer編碼器并不知道將預(yù)測(cè)哪些字符或哪些字符已經(jīng)被替換,所以保留了所有字符的上下文分布表示,使每一個(gè)字符最終攜帶其上下文語(yǔ)義信息。并且實(shí)體級(jí)遮蔽策略能讓模型學(xué)習(xí)到實(shí)體級(jí)的特征信息,對(duì)于不同語(yǔ)義的同一實(shí)體或一個(gè)句子中不同位置的同一實(shí)體都能產(chǎn)生不同的特征向量,從而有效緩解中文中一詞多義的問題。

      2.3 BiLSTM層

      農(nóng)業(yè)領(lǐng)域的實(shí)體命名中有不少病害和蟲害實(shí)體長(zhǎng)度為8個(gè)或以上中文字符,例如“水稻東格魯病毒病”、“水稻菲島毛眼水蠅”、“水稻顯紋縱卷葉螟”等;農(nóng)藥實(shí)體長(zhǎng)度為7個(gè)或以上中文字符,例如“丁硫克百威乳油”、“吡蟲啉可濕性粉劑”等。農(nóng)業(yè)命名實(shí)體具有較大的上下文長(zhǎng)距離依賴性,因此利用BiLSTM網(wǎng)絡(luò)學(xué)習(xí)文本的長(zhǎng)序列語(yǔ)義特征。

      LSTM[27]只能捕獲當(dāng)前時(shí)刻狀態(tài)之前的信息,無法捕獲之后的信息,因此無法同時(shí)考慮文本的上下文語(yǔ)境。雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)[28-29]由前向LSTM和后向LSTM構(gòu)成,前向LSTM利用上文的信息來預(yù)測(cè)當(dāng)前詞,后向LSTM利用下文的信息來預(yù)測(cè)當(dāng)前詞,因此可同時(shí)利用文本上下文信息,學(xué)習(xí)文本的長(zhǎng)序列語(yǔ)義特征,提高模型的識(shí)別能力。

      2.4 焦點(diǎn)損失函數(shù)

      構(gòu)建語(yǔ)料庫(kù)時(shí),數(shù)據(jù)為基于爬蟲技術(shù)從網(wǎng)絡(luò)中爬取的各種文本信息,數(shù)據(jù)存在一定的隨機(jī)性,導(dǎo)致語(yǔ)料庫(kù)通常存在樣本分布不均衡的問題。例如語(yǔ)料庫(kù)中某一種標(biāo)簽的樣本數(shù)量遠(yuǎn)多于其他標(biāo)簽的樣本數(shù)量,導(dǎo)致訓(xùn)練過程中損失函數(shù)的分布失衡,使模型在訓(xùn)練過程中傾向于樣本數(shù)量多的標(biāo)簽,造成樣本數(shù)量少的標(biāo)簽的識(shí)別性能較差。

      為了緩解樣本分布不均衡帶來的問題,本文利用焦點(diǎn)損失函數(shù)[30](Focal Loss,F(xiàn)L)在訓(xùn)練過程中平衡樣本的權(quán)重,通過減少易識(shí)別樣本在損失函數(shù)中的權(quán)重,讓模型更關(guān)注于難識(shí)別樣本。FL在交叉熵?fù)p失函數(shù)的基礎(chǔ)上加入權(quán)重參數(shù)和調(diào)制因子來平衡樣本分布,算法見公式(7)。

      2.5 CRF層

      BiLSTM的輸出相互獨(dú)立,無法考慮相鄰標(biāo)簽之間的信息,直接使用BiLSTM的輸出結(jié)果預(yù)測(cè)標(biāo)簽容易出現(xiàn)非法標(biāo)注的問題,如表3所示。因此,本文在BiLSTM層之上加入CRF層來緩解標(biāo)注偏置問題,從而提高序列標(biāo)注的準(zhǔn)確性。利用條件隨機(jī)場(chǎng)[31](CRF)在訓(xùn)練數(shù)據(jù)中自動(dòng)學(xué)習(xí)標(biāo)注的約束規(guī)則,例如標(biāo)注序列只能以“B-”或“O”開頭,不能以“I-”開頭;實(shí)體標(biāo)注序列只能以“B-”開頭,不能以“O”或“I-”開頭;標(biāo)注序列“B-label1 I-label2 I-label3...”中的labe1、label2、label3...應(yīng)該為同一種標(biāo)簽等,CRF將學(xué)習(xí)到的約束規(guī)則在預(yù)測(cè)時(shí)用于檢測(cè)標(biāo)注序列是否合法。

      表3 非法標(biāo)注序列示例

      序列標(biāo)注中,CRF不僅考慮當(dāng)前時(shí)刻的觀察狀態(tài),也考慮之前時(shí)刻的隱藏狀態(tài),因此能夠充分利用相鄰標(biāo)簽之間的信息,使最終的輸出不是獨(dú)立的標(biāo)簽序列,而是考慮規(guī)則和順序的最佳序列。設(shè)={1,2,3,…,x}為輸入的觀察序列,={1,2,3,…,y}為對(duì)應(yīng)的輸出標(biāo)注序列,CRF層在給定需要標(biāo)注的觀察序列的條件下,計(jì)算整個(gè)序列的聯(lián)合概率分布,最終輸出一個(gè)全局最優(yōu)的標(biāo)注序列,算法見公式(8)。

      3 試驗(yàn)與結(jié)果分析

      試驗(yàn)數(shù)據(jù)集采用第1小節(jié)構(gòu)建的農(nóng)業(yè)命名實(shí)體識(shí)別語(yǔ)料庫(kù),其中訓(xùn)練集、驗(yàn)證集和測(cè)試集的比例為7:2:1。采用實(shí)體級(jí)遮蔽策略的BERT模型(EmBERT),網(wǎng)絡(luò)層數(shù)為12層,隱藏層維度為768,多頭注意力機(jī)制中自注意力(Self Attention)頭的數(shù)量為12。下游模型中使用的雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)的隱藏層維度(lstm_dim)為128。為預(yù)防過擬合同時(shí)提高模型的泛化能力,在模型中引入了Dropout[32]機(jī)制。

      3.1 試驗(yàn)設(shè)置

      試驗(yàn)過程中需要優(yōu)化調(diào)整的參數(shù)主要有學(xué)習(xí)率(learning_rate)、失活率(dropout_rate)、批處理規(guī)模(batch_size)和迭代次數(shù)(epochs)。學(xué)習(xí)率過大容易導(dǎo)致模型的損失增大、準(zhǔn)確率降低;學(xué)習(xí)率過小則容易導(dǎo)致模型的收斂速度下降,因此合適的學(xué)習(xí)率是模型整體獲得良好性能的保證。失活率是模型訓(xùn)練時(shí)神經(jīng)元不更新權(quán)重的概率,用于防止模型過擬合,通常失活率設(shè)置為0.5。批處理規(guī)模即每批次訓(xùn)練的樣本數(shù)量,其在一定程度上影響模型的數(shù)據(jù)處理速度和收斂精度;batch_size過大模型容易收斂到一些較差的局部最優(yōu)點(diǎn)上,batch_size過小則容易導(dǎo)致模型不收斂或需要很大的epochs才能收斂。epochs為模型進(jìn)行全數(shù)據(jù)訓(xùn)練的次數(shù)(如1個(gè)epoch表示模型完整訓(xùn)練一次),通常需要多個(gè)epochs來保證模型獲得最好的學(xué)習(xí)效果。經(jīng)過多次對(duì)比試驗(yàn)得到的最優(yōu)參數(shù)設(shè)置如下,使用Adam[33]優(yōu)化器,learning_rate為7e-5,dropout_rate為0.5,batch_size為32,epochs為150。

      3.2 評(píng)價(jià)指標(biāo)

      試驗(yàn)采用召回率、準(zhǔn)確率和1值來衡量模型的性能,評(píng)價(jià)指標(biāo)計(jì)算公式如下:

      式中TruePositive為準(zhǔn)確識(shí)別的農(nóng)業(yè)實(shí)體個(gè)數(shù),ActualPositive為數(shù)據(jù)集中存在的農(nóng)業(yè)實(shí)體總數(shù),PredictPositive為識(shí)別出的農(nóng)業(yè)實(shí)體總數(shù)。

      3.3 結(jié)果與分析

      面向農(nóng)業(yè)領(lǐng)域4類實(shí)體(農(nóng)作物、農(nóng)藥、病害、蟲害),利用構(gòu)建的農(nóng)業(yè)命名實(shí)體識(shí)別語(yǔ)料庫(kù),設(shè)置3組對(duì)比試驗(yàn)驗(yàn)證分析本文提出的農(nóng)業(yè)命名實(shí)體識(shí)別方法的有效性。

      1)不同遮蔽策略性能的比較分析

      為驗(yàn)證實(shí)體級(jí)遮蔽策略對(duì)提高中文農(nóng)業(yè)命名實(shí)體推理和識(shí)別能力的有效性,分別對(duì)不使用遮蔽策略(No Masking)的模型Word2Vec+BiLSTM+CRF、使用字符級(jí)遮蔽策略(Word-level Masking(Chinese character))的模型Word-level Masking BERT+BiLSTM+CRF和使用實(shí)體級(jí)遮蔽策略(Entity-level Masking)的模型Entity-level masking BERT+BiLSTM+CRF進(jìn)行對(duì)比試驗(yàn),試驗(yàn)結(jié)果如表4所示。

      表4 不同遮蔽策略試驗(yàn)結(jié)果

      由表4可看出,使用實(shí)體級(jí)遮蔽策略的模型性能最好,準(zhǔn)確率達(dá)到了94.56%。此外,使用實(shí)體級(jí)遮蔽策略相較于使用字符級(jí)遮蔽策略,模型的準(zhǔn)確率、召回率和1值分別提高了2.59、1.7和2.15個(gè)百分點(diǎn);相較于不使用遮蔽策略,模型的準(zhǔn)確率、召回率和F1值分別提高了5.79、2.08和4個(gè)百分點(diǎn)。不使用遮蔽策略時(shí),模型輸出的字向量不包含上下文語(yǔ)義信息,難以解決一詞多義的問題,因此模型識(shí)別性能相對(duì)較弱,準(zhǔn)確率僅為88.77%。使用字符級(jí)遮蔽策略,通過對(duì)文本中的字符進(jìn)行隨機(jī)遮蔽,再讓模型預(yù)測(cè)被遮蔽的字符,使編碼器保留了每個(gè)字符的上下文分布表示,通過利用上下文信息在一定程度上解決了一詞多義的問題,因此模型識(shí)別性能有較好的提升,準(zhǔn)確率為91.97%。與字符級(jí)遮蔽策略相比,實(shí)體遮蔽策略是對(duì)文本中的完整實(shí)體進(jìn)行隨機(jī)遮蔽,再讓模型預(yù)測(cè)被遮蔽實(shí)體中所有被[MASK]標(biāo)志替換的中文字符,使模型可以學(xué)習(xí)到完整的實(shí)體級(jí)語(yǔ)義信息,提高對(duì)中文語(yǔ)義的推理和表征能力,因此模型的性能得到了進(jìn)一步的提升,準(zhǔn)確率為94.56%。

      2)不同損失函數(shù)性能的比較分析

      為驗(yàn)證焦點(diǎn)損失函數(shù)對(duì)提高中文農(nóng)業(yè)命名實(shí)體識(shí)別能力的有效性,分別利用不同損失函數(shù)在EmBERT-BiLSTM-CRF模型上進(jìn)行消融試驗(yàn),試驗(yàn)結(jié)果如表5所示。

      表5 不同損失函數(shù)試驗(yàn)結(jié)果

      注:CE為交叉熵?fù)p失,CRF為條件隨機(jī)場(chǎng)損失,F(xiàn)L為焦點(diǎn)損失。“√”表示模型中用到的損失函數(shù)。

      Note: CE is the cross entropy loss, CRF is the conditional random field loss, FL is the focal loss. “√” indicates that the loss function is used in the model.

      由試驗(yàn)結(jié)果可看出,使用CRF損失+FL的模型識(shí)別性能最好,1值為95.93%。其中,使用交叉熵?fù)p失(Cross Entropy,CE)的模型在樣本分布不均衡時(shí),損失函數(shù)的分布發(fā)生傾斜,使模型在訓(xùn)練過程中傾向于樣本數(shù)量多的標(biāo)簽,導(dǎo)致樣本數(shù)量少的標(biāo)簽的識(shí)別效果較差,模型的整體識(shí)別性能較差,1值為91.20%。使用焦點(diǎn)損失(FL)的模型,在CE的基礎(chǔ)上加入權(quán)重參數(shù)和調(diào)制因子來在增大數(shù)量少的標(biāo)簽樣本在損失函數(shù)中的權(quán)重,讓模型在訓(xùn)練過程中傾向于難識(shí)別樣本,提高了模型對(duì)難識(shí)別樣本的識(shí)別能力,緩解了樣本分布不均衡導(dǎo)致數(shù)量少的標(biāo)簽樣本識(shí)別效果較差的問題,因此相較于CE其識(shí)別性能有所提升,模型1值為91.89%。使用CRF損失的模型,通過計(jì)算標(biāo)簽間的轉(zhuǎn)移分?jǐn)?shù)來建模標(biāo)簽轉(zhuǎn)移路徑,然后訓(xùn)練模型最大化真實(shí)路徑的概率,讓模型利用相鄰標(biāo)簽的信息來輸出最優(yōu)的標(biāo)注序列,因此相較于單獨(dú)使用CE和FL的模型,其識(shí)別性能有較大提升,模型1值達(dá)到95.50%。使用CRF損失+FL的模型涵蓋了CRF損失和FL的優(yōu)點(diǎn),不僅能緩解樣本分布不均衡帶來的問題還能利用相鄰標(biāo)簽之間的信息,因此其識(shí)別性能優(yōu)于上述所有模型,模型1值為95.93%。同時(shí)本文通過對(duì)FL中和的不同取值進(jìn)行對(duì)比試驗(yàn),由試驗(yàn)結(jié)果得出=0.25,=2.0時(shí)模型獲得最優(yōu)性能,試驗(yàn)結(jié)果如表6所示。

      表6 FL不同α和γ的試驗(yàn)結(jié)果

      注:為權(quán)重因子,為聚焦參數(shù)。

      Note:is the weighting factor,is the focusing parameter.

      3)不同模型性能的比較分析

      為驗(yàn)證EmBERT-BiLSTM-CRF模型對(duì)中文農(nóng)業(yè)命名實(shí)體識(shí)別的性能,分別與BiLSTM、LSTM-CRF[13]、BiLSTM-CRF[28]和BERT-BiLSTM-CRF模型進(jìn)行對(duì)比試驗(yàn),試驗(yàn)結(jié)果如表7所示。由試驗(yàn)結(jié)果可看出,本文模型的識(shí)別性能優(yōu)于其他對(duì)比模型。

      表7 不同模型試驗(yàn)結(jié)果

      注:EmBERT-BiLSTM-CRF*為使用了實(shí)體級(jí)遮蔽策略但沒有使用FL的模型。EmBERT-BiLSTM-CRF為使用了實(shí)體級(jí)遮蔽策略和FL的模型。

      Note: EmBERT-BiLSTM-CRF* is a model that uses an entity-level masking strategy but does not use FL. EmBERT-BiLSTM-CRF is a model that uses an entity-level strategy and FL.

      BiLSTM模型的輸出相互獨(dú)立,在進(jìn)行標(biāo)簽預(yù)測(cè)時(shí)會(huì)出現(xiàn)標(biāo)注偏置問題,因此其識(shí)別效果相對(duì)較差,模型1值為89.55%。LSTM-CRF和BiLSTM-CRF模型在LSTM和BiLSTM模型的基礎(chǔ)上增加了CRF層,通過學(xué)習(xí)標(biāo)注約束規(guī)則和利用相鄰標(biāo)簽的信息,獲得一個(gè)全局最優(yōu)的標(biāo)注序列來緩解標(biāo)注偏置問題,與模型①相比,增加了CRF層的模型②③識(shí)別效果有所提升,1值分別為91.04%、91.50%。BERT-BiLSTM-CRF模型在BiLSTM-CRF模型的基礎(chǔ)上引入了BERT預(yù)訓(xùn)練語(yǔ)言模型作為嵌入層,使模型更充分的考慮了字符的位置信息和上下文語(yǔ)義信息,與模型①②③相比其識(shí)別效果有所提升,1值為93.35%。

      EmBERT-BiLSTM-CRF*模型不僅使用了BERT作為嵌入層學(xué)習(xí)字符的深度雙向表示,并且根據(jù)中文語(yǔ)義的特點(diǎn)改進(jìn)了語(yǔ)言遮蔽方法,使用實(shí)體級(jí)遮蔽策略(EM)對(duì)文本中的實(shí)體進(jìn)行完整的遮蔽和預(yù)測(cè),使模型能更好地表征中文語(yǔ)義,其識(shí)別效果相較于模型①②③④有了較大提升,1值為95.50%。EmBERT-BiLSTM-CRF模型在EmBERT-BiLSTM-CRF*的基礎(chǔ)上引入焦點(diǎn)損失函數(shù)來緩解樣本分布不均衡問題,通過增大數(shù)量少的標(biāo)簽樣本在損失函數(shù)中的權(quán)重,讓模型在訓(xùn)練過程中更關(guān)注難識(shí)別樣本,提高模型對(duì)難識(shí)別樣本的識(shí)別能力,模型的識(shí)別效果優(yōu)于上述所有模型,1值為95.93%。試驗(yàn)驗(yàn)證了在中文農(nóng)業(yè)命名實(shí)體識(shí)別的過程中,字符的位置信息和提高模型對(duì)實(shí)體完整語(yǔ)義的推理能力,對(duì)于農(nóng)業(yè)實(shí)體的準(zhǔn)確識(shí)別起到重要作用。

      圖5為不同模型對(duì)于農(nóng)業(yè)領(lǐng)域4類命名實(shí)體識(shí)別的效果。從圖5中可以看到,在所有實(shí)體類別中各個(gè)模型對(duì)農(nóng)作物、農(nóng)藥和蟲害實(shí)體的識(shí)別效果相對(duì)較好,對(duì)病害實(shí)體的識(shí)別效果相對(duì)較差。通過分析得到,蟲害和農(nóng)藥實(shí)體的識(shí)別效果較好是因?yàn)檗r(nóng)藥實(shí)體大多以“劑”、“乳油”等字詞結(jié)尾,蟲害實(shí)體大多以“虱”、“蟲”、“蟬”、“蚜”等字結(jié)尾,這兩類實(shí)體均具有較為明顯的實(shí)體特征,從而使模型對(duì)于這兩類實(shí)體的識(shí)別效果較好。農(nóng)作物實(shí)體的長(zhǎng)度相對(duì)較短,大多為2至3個(gè)中文字符,因此模型對(duì)農(nóng)作物實(shí)體特征的捕獲更完整,對(duì)其識(shí)別效果也相對(duì)較好。病害實(shí)體中存在一些類似于“水稻倒伏”、“小麥混雜退化”、“花生爛種”等實(shí)體特征不太明顯的實(shí)體,并且大多數(shù)病害實(shí)體存在實(shí)體嵌套的現(xiàn)象,例如“玉米圓斑病”、“水稻惡苗病”、“水稻東格魯病毒病”等,這使得模型對(duì)于病害實(shí)體識(shí)別的效果相對(duì)較差。本文的EmBERT-BiLSTM-CRF模型對(duì)病害實(shí)體的識(shí)別準(zhǔn)確率均高于其他幾個(gè)模型,說明使用實(shí)體級(jí)遮蔽策略對(duì)實(shí)體進(jìn)行完整遮蔽和預(yù)測(cè),使模型更充分地捕獲和表征字符的完整語(yǔ)義信息,從而提高農(nóng)業(yè)命名實(shí)體的識(shí)別效果。

      圖5 不同模型對(duì)4類農(nóng)業(yè)命名實(shí)體識(shí)別結(jié)果

      4 結(jié) 論

      本文針對(duì)中文農(nóng)業(yè)命名實(shí)體長(zhǎng)度較長(zhǎng)且命名方式繁雜多變,導(dǎo)致識(shí)別準(zhǔn)確率較低的問題,提出基于EmBERT-BiLSTM-CRF模型的農(nóng)業(yè)命名實(shí)體識(shí)別方法。通過使用BERT(Bidirectional Encoder Representation from Transformers)預(yù)訓(xùn)練語(yǔ)言模型作為嵌入層,充分考慮字符的位置信息和上下文語(yǔ)義信息,并根據(jù)中文語(yǔ)義的特點(diǎn)改進(jìn)了BERT原有的語(yǔ)言遮蔽方法,使用實(shí)體級(jí)遮蔽策略讓模型對(duì)中文實(shí)體進(jìn)行完整遮蔽,學(xué)習(xí)獲得實(shí)體級(jí)的特征信息,從而緩解模型在預(yù)測(cè)時(shí)因語(yǔ)義不完整造成的偏差,增強(qiáng)模型對(duì)中文語(yǔ)義的表征能力。同時(shí)在訓(xùn)練過程中使用焦點(diǎn)損失函數(shù),增大數(shù)量少的標(biāo)簽樣本在損失函數(shù)中的權(quán)重,提高模型對(duì)難識(shí)別樣本的識(shí)別能力。利用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)學(xué)習(xí)文本的長(zhǎng)距離依賴信息,再使用條件隨機(jī)場(chǎng)去獲得全局最優(yōu)標(biāo)注序列,使得整個(gè)模型的識(shí)別效果得到了明顯提升。模型的準(zhǔn)確率為94.97%,召回率為96.92%,1值為95.93%。由于農(nóng)業(yè)實(shí)體中存在著實(shí)體嵌套和實(shí)體特征不明顯的問題,因此本文的下一步研究方向?qū)⒅赜趯?duì)實(shí)體特征不明顯、實(shí)體邊界模糊的實(shí)體的識(shí)別方法的研究。

      [1] 金寧,趙春江,吳華瑞,等. 基于BiGRU_M(jìn)ulCNN的農(nóng)業(yè)問答問句分類技術(shù)研究[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2020,51(5):199-206.

      Jin Ning, Zhao Chunjiang, Wu Huarui, et al. Classification technology of agricultural questions based on BiGRU_MulCNN[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(5): 199-206. (in Chinese with English abstract)

      [2] Li J, Sun A, Han J, et al. A survey on deep learning for named entity recognition[J]. IEEE Transactions on Knowledge and Data Engineering, 2020, 34(1): 50-70.

      [3] Mollá D, van Zaanen M, Smith D. Named entity recognition for question answering[C]// Proceedings of the Australasian Language Technology Workshop 2006, Carlton, Vic, Australasian Language Technology Association, 2006: 51-58.

      [4] 吳賽賽,周愛蓮,謝能付,等. 基于深度學(xué)習(xí)的作物病蟲害可視化知識(shí)圖譜構(gòu)建[J]. 農(nóng)業(yè)工程學(xué)報(bào),2020,36(24):177-185.

      Wu Saisai, Zhou Ailian, Xie Nengfu, et al. Construction of visualization domain-specific knowledge graph of crop diseases and pests based on deep learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(24): 177-185. (in Chinese with English abstract)

      [5] Hanisch D, Fundel K, Mevissen H T, et al. ProMiner: Rule-based protein and gene entity recognition[J]. BMC Bioinformatics, 2005, 6(1): 1-9.

      [6] Kim J H, Woodland P C. A rule-based named entity recognition system for speech input[C]// Sixth International Conference on Spoken Language Processing, Beijing, China, ISCA, 2000: 521-524

      [7] 李想,魏小紅,賈璐,等. 基于條件隨機(jī)場(chǎng)的農(nóng)作物病蟲害及農(nóng)藥命名實(shí)體識(shí)別[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2017,48(S1):178-185.

      Li Xiang, Wei Xiaohong, Jia Lu, et al. Recognition of crops, diseases and pesticides named entities in Chinese based on conditional random fields[J]. Transactions of the Chinese Society for Agricultural Machinery, 2017, 48(S1):178-185. (in Chinese with English abstract)

      [8] 王春雨,王芳. 基于條件隨機(jī)場(chǎng)的農(nóng)業(yè)命名實(shí)體識(shí)別研究[J]. 河北農(nóng)業(yè)大學(xué)學(xué)報(bào),2014,37(1):132-135.

      Wang Chunyu, Wang Fang. Study on recognition of chinese agricultural named entity with conditional random fields[J]. Journal of Agricultural University of Hebei, 2014, 37(1): 132-135. (in Chinese with English abstract)

      [9] Zhai F, Potdar S, Xiang B, et al. Neural models for sequence chunking[C]//Proceedings of the AAAI Conference on Artificial Intelligence, San Francisco, California, USA, AAAI, 2017: 3365-3371.

      [10] Gridach M. Character-level neural network for biomedical named entity recognition[J]. Journal of Biomedical Informatics, 2017, 70: 85-91.

      [11] Dong C, Zhang J, Zong C, et al. Character-based LSTM-CRF with radical-level features for Chinese named entity recognition[M]//Natural Language Understanding and Intelligent Applications. Cham: Springer, 2016: 239-250.

      [12] 趙鵬飛,趙春江,吳華瑞,等. 基于注意力機(jī)制的農(nóng)業(yè)文本命名實(shí)體識(shí)別[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2021,52(1):185-192.

      Zhao Pengfei, Zhao Chunjiang, Wu Huarui, et al. Research on named entity recognition of Chinese Agricultural based on attention mechanism[J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52(1): 185-192. (in Chinese with English abstract)

      [13] 孫娟娟,于紅,馮艷紅,等. 基于深度學(xué)習(xí)的漁業(yè)領(lǐng)域命名實(shí)體識(shí)別[J]. 大連海洋大學(xué)學(xué)報(bào),2018,33(2):265-269.

      Sun Juanjuan, Yu Hong, Feng Yanhong, et al. Recognition of nominated fishery domain entity based on deep learning architectures[J]. Journal of Dalian Ocean University, 2018, 33(2): 265-269. (in Chinese with English abstract)

      [14] Shen Y, Yun H, Lipton Z C, et al. Deep active learning for named entity recognition[C]//Proceedings of the 2nd Workshop on Representation Learning for NLP, Vancouver, Canada, Association for Computational Linguistics, 2017: 252-256.

      [15] 李麗雙,郭元?jiǎng)P. 基于CNN-BLSTM-CRF模型的生物醫(yī)學(xué)命名實(shí)體識(shí)別[J]. 中文信息學(xué)報(bào),2018,32(1):116-122.

      Li Lishuang, Guo Yuankai. Biomedical named entity recognition with CNN-BLSTM-CRF [J]. Journal of Chinese information Processing, 2018, 32(1):116-122. (in Chinese with English abstract)

      [16] 郭旭超,唐詹,刁磊,等. 基于部首嵌入和注意力機(jī)制的病蟲害命名實(shí)體識(shí)別[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2020,51(S2):335-343.

      Guo Xuchao, Tang Zhan, Diao Lei, et al. Recognition of chinese agricultural diseases and pests named entity with joint adical-embedding and self-attention mechanism[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(S2): 335-343. (in Chinese with English abstract)

      [17] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[EB/OL]. (2013.09.07) [2022.06.29]. https://doi.org/10.48550/arXiv.1301.3781.

      [18] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]// Advances in Neural Information Processing Systems, Lake Tahoe, US: MIT Press, 2013, 26: 3111-3119.

      [19] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Minneapolis, Minnesota, 2019: 4171-4186.

      [20] Sun Y, Wang S, Li Y, et al. Ernie: Enhanced representation through knowledge integration[EB/OL]. (2019.04.09) [2022.06.29]. https://doi.org/10.48550/arXiv.1904.09223.

      [21] 趙鵬飛,趙春江,吳華瑞,等. 基于 BERT 的多特征融合農(nóng)業(yè)命名實(shí)體識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2022,38(3):112-118.

      Zhao Pengfei, Zhao Chunjiang, Wu Huarui, et al. Recognition of the agricultural named entities with multi-feature fusion based on BERT[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(3): 112-118. (in Chinese with English abstract)

      [22] 杜琳,曹東,林樹元,等. 基于BERT與Bi-LSTM融合注意力機(jī)制的中醫(yī)病歷文本的提取與自動(dòng)分類[J]. 計(jì)算機(jī)科學(xué),2020,47(S2):416-420.

      Du Lin, Cao Dong, Lin Shuyuan, et al. Extraction and automatic classification of TCM medical records based on attention mechanism of BERT and Bi-LSTM[J]. Computer Science, 2020, 47(S2): 416-420. (in Chinese with English abstract)

      [23] 任媛,于紅,楊鶴,等. 融合注意力機(jī)制與BERT+ BiLSTM+CRF模型的漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(10):135-141.

      Ren Yuan, Yu Hong, Yang He, et al. Recognition of quantitative indicator of fishery standard using attention mechanism and the BERT+BiLSTM+CRF model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(10): 135-141. (in Chinese with English abstract)

      [24] Ashish V, Noam S, Niki P,et al.Attention is all you need[C]//Advances in Neural Information Processing Systems, Long Beach, California, USA, Curran Associates Inc, 2017: 6000-6010.

      [25] Hasim A, Andrew S, Fran?oise B. Long short-term memory based recurrent neural network architectures for large vocabulary speech recognition[J]. Computer Science, 2014, 4(1):338-342.

      [26] Felix A, Jürgen S. Lstmrecurrent networks learn simple context-free and context-sensitive languages[J]. IEEE Transactions on Neural Networks, 2001, 12(6): 1333-1340.

      [27] Hammerton J. Named entity recognition with long short-term memory[C]//Proceedings of the Seventh Conference on Natural language learning at HLT-NAACL 2003, Edmonton, Canada, Association for Computational Linguistics, 2003: 172-175.

      [28] Graves A, Mohamed A, Hinton G. Speech recognition with deep recurrent neural networks[C]//2013 IEEE International Conference on Acoustics, Speech and Signal Processing, Vancouver, BC, Canada, IEEE, 2013: 6645-6649.

      [29] Huang Z, Xu W, Yu K. Bidirectional LSTM-CRF models for sequence tagging[J]. Computer Science, 2015, 4(1): 1508-1519.

      [30] Lin T, Priya G, Ross G, et al. Focal Loss for Dense Object Detection[C]// 2017 IEEE International Conference on Computer Vision (ICCV), Venice, Italy, IEEE, 2017: 2999-3007.

      [31] Lafferty J, McCallum A, Pereira F C N. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]// Proceedings of the 18th International Conference on Machine Learning 2001, San Francisco, CA, USA, Morgan Kaufmann Publishers Inc, 2001: 282-289.

      [32] Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: A simple way to prevent neural networks from overfitting[J]. The Journal of Machine Learning Research, 2014, 15(1): 1929-1958.

      [33] Kingma D, Ba J. Adam: A method for stochastic optimization[C]// Proceedings of the 3rd International Conference on Learning Representations, San Diego, CA, 2015: 1-15.

      Named entity recognition of agricultural based entity-level masking BERT and BiLSTM-CRF

      Wei Zijun1, Song Ling2,3※, Hu Xiaochun4, Chen Ningjiang1,3

      (1.530004; 2.530200,;3530004; 4.530007)

      An intelligent question-answering of agricultural knowledge can be one of the most important parts of information agriculture. Among them, named entity recognition has been a key technology for intelligent question-answering and knowledge graph construction in the fields of agricultural domain. It is also a high demand for the accurate identification of named entities. Furthermore, the Chinese named entity recognition can be confined to the location and semantic information of characters, due to the long length of agricultural entity and complex naming. Therefore, it is very necessary to improve the recognition performance in the process of named entity recognition, particularly for the sufficient capture of character position, contextual semantic features, and long-distance dependency information. In this study, a novel Chinese named entity recognition of agriculture was proposed using EmBERT-BiLSTM-CRF model. Firstly, the Bidirectional Encoder Representation from Transformers (BERT) pre-trained language model was applied as the layer of word embedding. The context semantic representation of the model was then improved to alleviate the polysemy, when pre-training the depth bidirectional representation of word vectors. Secondly, the language masking of BERT was enhanced significantly, according to the characteristics of Chinese. An Entity-level Masking strategy was utilized to completely mask the Chinese entities in the sentence with the consecutive tokens. The Chinese semantics was then better represented to alleviate the bias caused by incomplete semantics. Thirdly, the Bidirectional Long Short-Term Memory Network (BiLSTM) model was adopted to learn the semantic features of long-sequence using two LSTM networks (forward and backward), considering the contextual information in both directions at the same time. The long-distance dependency information of text was then captured during this time. Finally, the Conditional Random Field (CRF) was used to learn the labelling constraint in the training data. Among them, the learned constraint rules were used to detect whether the label sequence was legal during prediction. After that, the CRF also utilized the information of adjacent labels to output the globally optimal label sequence. Thus, the output of the model was a dependent label sequence, but an optimal sequence was considered the rules and order. A focal loss function was also used to alleviate the unbalanced sample distribution. A series of experiments were performed to construct the corpus of named entity recognition. As such, the corpus contained a total of 29 790 agricultural entities after BIO labelling, including 11 057 crops, 8 121 pesticides, 4 505 diseases, and 6 107 pest entities, in which the training, validation, and test set were divided, according to the ratio of 7:2:1. Four types of agricultural entities from the text were identified, including the crop varieties, pesticides, diseases, and insect pests, and then to label them. The experimental results show that the recognition accuracy of the EmBERT-BiLSTM-CRF model for the four types of entities was 94.97%, and the F1 score was 95.93%. Which compared with the models based on BiLSTM-CRF and BERT-BiLSTM-CRF, the recognition performance of EmBERT-BiLSTM-CRF is significantly improved, proved that used pre-trained language model as the a word embedding layer can represent the characteristics of characters well and the Entity-level Masking strategy can alleviate the bias caused by incomplete semantics, thereby enhanced the Chinese semantic representation ability of the model, so that enabling the model to more accurately identify Chinese agricultural named entities. This research can not only provide arelatively high entity recognition accuracy for tasks such as agricultural intelligence question answering, but also offer new ideas for the identification of Chinese named entities in fishery, animal husbandry, Chinese medical, and biological fields.

      agriculture; named entity recognition; entity-level masking; BERT; BiLSTM; CRF

      10.11975/j.issn.1002-6819.2022.15.021

      TP391

      A

      1002-6819(2022)-15-0195-09

      韋紫君,宋玲,胡小春,等. 基于實(shí)體級(jí)遮蔽BERT與BiLSTM-CRF的農(nóng)業(yè)命名實(shí)體識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2022,38(15):195-203.doi:10.11975/j.issn.1002-6819.2022.15.021 http://www.tcsae.org

      Wei Zijun, Song Ling, Hu Xiaochun, et al. Named entity recognition of agricultural based entity-level masking BERT and BiLSTM-CRF[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(15): 195-203. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.15.021 http://www.tcsae.org

      2021-12-20

      2022-06-29

      國(guó)家重點(diǎn)研發(fā)計(jì)劃課題(2018YFB1404404);廣西重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(桂科AB19110050);南寧市科技重大專項(xiàng)(20211005)

      韋紫君,研究方向?yàn)樽匀徽Z(yǔ)言處理。Email:1034268781@qq.com

      宋玲,教授,研究方向?yàn)槲锫?lián)網(wǎng)及大數(shù)據(jù)計(jì)算。Email:731486203@qq.com

      猜你喜歡
      字符命名實(shí)體
      尋找更強(qiáng)的字符映射管理器
      命名——助力有機(jī)化學(xué)的學(xué)習(xí)
      字符代表幾
      前海自貿(mào)區(qū):金融服務(wù)實(shí)體
      一種USB接口字符液晶控制器設(shè)計(jì)
      電子制作(2019年19期)2019-11-23 08:41:50
      消失的殖民村莊和神秘字符
      有一種男人以“暖”命名
      東方女性(2018年3期)2018-04-16 15:30:02
      為一條河命名——在白河源
      實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
      兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
      宣恩县| 拉孜县| 伊春市| 平利县| 昌邑市| 兴安盟| 泰和县| 大连市| 孟津县| 彭阳县| 泾源县| 衡水市| 汕尾市| 双鸭山市| 永平县| 和林格尔县| 玉溪市| 鄂尔多斯市| 瓦房店市| 垦利县| 马边| 明光市| 安福县| 沙坪坝区| 陇南市| 阿巴嘎旗| 五常市| 浙江省| 宝清县| 舒兰市| 寿阳县| 定西市| 洛浦县| 博爱县| 平安县| 白银市| 新龙县| 慈利县| 文安县| 闽侯县| 台湾省|