李書琴 張明美 劉 斌
(西北農(nóng)林科技大學(xué)信息工程學(xué)院, 陜西楊凌 712100)
受病蟲害的侵害和種植人員對(duì)種植技術(shù)掌握不全面的影響,我國獼猴桃果實(shí)品質(zhì)整體水平不高[1]?;谥R(shí)圖譜的獼猴桃種植領(lǐng)域問答系統(tǒng)利用知識(shí)圖譜可以準(zhǔn)確快速回答獼猴桃種植人員的專業(yè)問題,而命名實(shí)體識(shí)別(Named entity recognition,NER)是知識(shí)圖譜構(gòu)建任務(wù)中重要且關(guān)鍵的步驟[2],因此,如何準(zhǔn)確快速識(shí)別出獼猴桃種植領(lǐng)域命名實(shí)體對(duì)于確保獼猴桃種植業(yè)健康發(fā)展具有重要作用。
早期基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的條件隨機(jī)場(chǎng)(Conditional random field,CRF)方法將實(shí)體識(shí)別看作序列標(biāo)注問題,充分利用了內(nèi)部和上下文信息,在農(nóng)業(yè)領(lǐng)域得到廣泛應(yīng)用[3-4]。但該方法過于依賴人工特征,特征的設(shè)計(jì)需要很多專家知識(shí),特征選擇的好壞更是直接影響到命名實(shí)體識(shí)別系統(tǒng)的性能[5]。近年來,基于深度學(xué)習(xí)的方法在NER任務(wù)中取得了顯著效果。深度學(xué)習(xí)可以自動(dòng)學(xué)習(xí)文本特征,從而擺脫對(duì)人工特征的依賴,其中,卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)以及注意力機(jī)制等常用的深度學(xué)習(xí)方法與機(jī)器學(xué)習(xí)聯(lián)合使用的方式已經(jīng)被成功地應(yīng)用到農(nóng)業(yè)垂直領(lǐng)域的命名實(shí)體識(shí)別任務(wù)中[6-7]。
但以上方法在處理獼猴桃種植領(lǐng)域文本時(shí),需要先進(jìn)行中文分詞(Chinese word split,CWS),CWS的準(zhǔn)確性直接影響到中文命名實(shí)體識(shí)別效果。且獼猴桃種植領(lǐng)域命名實(shí)體識(shí)別任務(wù)主要關(guān)注獼猴桃種植文本中的獼猴桃品種、病蟲害、危害部位、藥劑、種植技術(shù)等實(shí)體,由于獼猴桃種植領(lǐng)域文本中涉及的病蟲害、藥劑及種植技術(shù)等多種實(shí)體術(shù)語專業(yè)性較強(qiáng),CWS容易產(chǎn)生大量的未登錄詞(Out-of-vocabulary,OOV),從而影響模型識(shí)別效果。
MENG等[8]在中文自然語言處理中通過大量的實(shí)驗(yàn)表明,“字”的表現(xiàn)總是優(yōu)于“詞”的表現(xiàn)。一些研究者[5,9-11]為了避免CWS錯(cuò)誤,直接使用基于word2vec等詞向量訓(xùn)練模型訓(xùn)練的字向量作為嵌入層。但以上詞向量訓(xùn)練模型在單個(gè)字符上語義表征不充分導(dǎo)致模型識(shí)別性能欠佳。
BERT[12]等預(yù)訓(xùn)練語言模型采用雙向的Transformer編碼器對(duì)大規(guī)模語料進(jìn)行訓(xùn)練,可以得到表征能力更強(qiáng)的字向量[13]。已有研究人員將預(yù)訓(xùn)練語言模型引入農(nóng)林業(yè)領(lǐng)域命名實(shí)體識(shí)別任務(wù)中[14-17]。但實(shí)體識(shí)別任務(wù)與其它自然語言處理任務(wù)不同的是,大部分實(shí)體屬于詞,詞中蘊(yùn)含著豐富的實(shí)體信息,而字符向量卻缺少該類信息。ZHANG等[18]提出的Lattice-LSTM模型,將每個(gè)字符匹配到的單詞通過注意力機(jī)制進(jìn)行加權(quán)求和作為字符表示,但由于每個(gè)字符對(duì)應(yīng)的詞數(shù)目不同,無法分批處理,導(dǎo)致識(shí)別速度較慢,且由于模型結(jié)構(gòu)復(fù)雜,無法遷移到其它網(wǎng)絡(luò)結(jié)構(gòu)中。針對(duì)該問題,LIU等[19]提出了4種不同的策略將詞進(jìn)行固定數(shù)目的編碼,使其可以分批處理從而適應(yīng)各種網(wǎng)絡(luò)結(jié)構(gòu)。MA等[20]提出了一個(gè)更為簡(jiǎn)單高效的SoftLexicon模型,利用4個(gè)詞集來表示每個(gè)字符在詞中的位置,同時(shí)采用詞的頻率作為權(quán)重對(duì)詞集進(jìn)行壓縮,簡(jiǎn)化了序列建模結(jié)構(gòu),提高了模型計(jì)算效率。但詞集內(nèi)的詞語義信息往往是相似的,上述研究忽略了不同詞對(duì)于當(dāng)前字符的重要程度,詞集中包含的詞信息沒有得到充分利用。
基于以上問題和研究,本文提出一種融合字詞語義信息的獼猴桃種植實(shí)體識(shí)別方法。首先采用多頭自注意力(Multiple self-attention mechanisms,MHA)[21]來調(diào)整SoftLexicon詞集中每個(gè)詞語的權(quán)重,緩解靜態(tài)詞頻作為權(quán)重?zé)o法學(xué)習(xí)到更為重要的詞特征問題;然后采用注意力機(jī)制自動(dòng)獲取每個(gè)詞集的重要程度,增強(qiáng)重要詞集信息的同時(shí)抑制不重要詞集信息;最后融合詞集表示和BERT的字符表示作為命名實(shí)體識(shí)別任務(wù)的嵌入層。同時(shí)使用雙向門控循環(huán)網(wǎng)絡(luò)(Bi-directional gated recurrent unit,BiGRU)進(jìn)一步提取字符之間的關(guān)系特征,最終使用CRF得到全局最優(yōu)標(biāo)簽序列。
模型主要由3部分構(gòu)成,嵌入層、BiGRU編碼層以及CRF層。嵌入層使用融合字詞語義信息的表示,字符語義信息使用BERT預(yù)訓(xùn)練模型生成的字符表示,詞語義信息使用注意力加權(quán)得到的詞集向量表示。編碼層采用BiGRU網(wǎng)絡(luò),最后通過CRF進(jìn)行標(biāo)簽推理,獲取全局最優(yōu)標(biāo)簽序列。模型整體結(jié)構(gòu)如圖1所示。
模型嵌入層融合了基于改進(jìn)的SoftLexicon模型生成的詞向量信息和采用BERT預(yù)訓(xùn)練語言模型生成的字符向量信息。
圖1 融合字詞語義信息的獼猴桃種植實(shí)體識(shí)別模型Fig.1 Kiwifruit planting entity recognition model integrating character and word information fusion
圖2 詞組匹配分類Fig.2 Word matching classification
詞向量由4個(gè)詞集組成,對(duì)于輸入文本序列S=(c1,c2,…,cT),將序列中相鄰的字符在詞典中匹配詞組,并按照每個(gè)字符ci在詞組中的不同位置,分別用標(biāo)簽為B、M、E、S的4個(gè)集合來記錄,集合B(ci)表示字符ci在開頭且長(zhǎng)度大于1的詞集合,集合M(ci)表示字符ci在中間位置且長(zhǎng)度大于1的詞集合,集合E(ci)表示字符ci在結(jié)尾且長(zhǎng)度大于1的詞集合,集合S(ci)表示單個(gè)字符ci,如果集合為空,則用“None”來填補(bǔ)。如圖2所示,輸入句子“獼猴桃根腐病危害軟棗獼猴桃根部”,以字符c4為例,因?yàn)樵撟址霈F(xiàn)在“根腐病”的開頭,“獼猴桃根腐病”的中間,“獼猴桃根”的結(jié)尾,所以B(c4)為{“根腐病”},M(c4)為{“獼猴桃根腐病”},E(c4)為{“獼猴桃根”},S(c4)則為{“根”}。
獲得每個(gè)字符對(duì)應(yīng)的B、M、E、S標(biāo)簽詞集后,需要對(duì)每個(gè)詞集進(jìn)行壓縮得到4個(gè)標(biāo)簽的詞向量。原始的SoftLexicon模型只使用詞頻z(w),即每個(gè)詞w在詞典中出現(xiàn)的次數(shù)作為權(quán)重進(jìn)行壓縮,同時(shí)對(duì)于所有詞集中不滿足最大長(zhǎng)度lmax的詞集用0進(jìn)行填充,并記錄該詞的z(w)為1。詞集向量B的具體計(jì)算方式(M、E、S同理)為
(1)
(2)
式中ew(w)——詞w對(duì)應(yīng)的詞向量
vi——詞集向量
對(duì)于要識(shí)別的獼猴桃種植領(lǐng)域文本中的實(shí)體,僅使用詞頻作為權(quán)重時(shí),容易出現(xiàn)準(zhǔn)確率較低但召回率較高的情況,例如針對(duì)“果實(shí)軟腐病”的“果”字,“果實(shí)軟腐病”和“果實(shí)”均屬于B集合,“果實(shí)軟腐病”中字符“果”的正確標(biāo)簽為“B-DIS”,但由于“果實(shí)”在詞典中出現(xiàn)的頻率較高且沒有使用注意力等方式計(jì)算權(quán)重,“果實(shí)軟腐病”中的字符“果”被標(biāo)記為“B-PART”,導(dǎo)致精確率較低但召回率較高。針對(duì)以上問題,本文采用MHA機(jī)制動(dòng)態(tài)地調(diào)整每個(gè)詞語權(quán)重,學(xué)習(xí)到更為重要的特征后再進(jìn)行壓縮,詞集B的具體計(jì)算公式(M、E、S同理)為
(3)
MHA(Q,K,V)=Concat(head1,head2,…,headn)Wo
(4)
headj=Attention(Qj,Kj,Vj)
(5)
(6)
式中 MHA(Q,K,V)——多頭注意力輸出
head——注意力頭
Concat——合并操作
Wo——多頭自注意力權(quán)重矩陣
Attention(Qj,Kj,Vj)——當(dāng)前詞在自注意力層的輸出
Qj、Kj、Vj—— 查詢向量、鍵向量、值向量
上述方式對(duì)每個(gè)詞集中不同詞進(jìn)行了權(quán)重調(diào)整,但不同詞集之間的重要程度沒有被區(qū)分,使用4個(gè)詞集的目的是區(qū)分字符在詞組中的不同位置,但當(dāng)部分詞集壓縮之后的結(jié)果非常相似時(shí),容易導(dǎo)致后續(xù)步驟不能明顯區(qū)分字符ci在所有詞中所處的4種位置,使用4個(gè)詞集的優(yōu)勢(shì)也相對(duì)被削弱。因此,為了進(jìn)一步考慮各個(gè)詞集的不同重要程度,本文采用注意力機(jī)制自動(dòng)獲取每個(gè)詞集的重要程度,根據(jù)不同的重要程度增強(qiáng)重要的詞集信息并抑制用處不大的詞集信息,充分發(fā)揮4個(gè)詞集的優(yōu)勢(shì)。注意力權(quán)重ai的計(jì)算公式為
(7)
其中
(8)
式中Vi——4個(gè)詞集合并后的矩陣,維度為4×dw
W——權(quán)重矩陣,維度d×dw
U——權(quán)重矩陣,維度1×dw
dw——詞向量維度
最終得到重要度矩陣ai的維度為1×4,4個(gè)值分別代表4個(gè)詞集的重要程度,使用該向量對(duì)4個(gè)詞集進(jìn)行重要度加權(quán)后可以得到更有說服力的詞集表示。
為了避免本文模型受太多分詞影響,在最終的嵌入層表示中融入了特征向量xBERT,該向量是BERT預(yù)訓(xùn)練語言模型在大規(guī)模語料下通過學(xué)習(xí)上下文語義信息得到的,能夠表征字的多義性,增強(qiáng)句子的語義表示,更好地挖掘結(jié)構(gòu)復(fù)雜的獼猴桃種植領(lǐng)域命名實(shí)體特征信息。
將4個(gè)詞集表示和字符向量連接后,得到字符的最終表示為
(9)
式中ai1、ai2、ai3、ai4——對(duì)應(yīng)字符ci的4個(gè)詞集B、M、E、S的重要程度
編碼層將融合字詞語義信息的嵌入層最終表示序列作為輸入,對(duì)序列中的字與字之間的關(guān)系進(jìn)行特征提取。采用GRU作為特征提取層,該網(wǎng)絡(luò)與長(zhǎng)短期記憶網(wǎng)絡(luò)(Long short-term memory,LSTM)類似,與LSTM的區(qū)別是不再采用單元狀態(tài)記錄或傳輸信息,將遺忘門和輸入門合并為一個(gè)單一的更新門,用隱藏狀態(tài)控制信息傳輸和記錄,用更新門和重置門控制隱藏層狀態(tài)的最終輸出,用隱藏狀態(tài)控制信息傳輸和記錄。
但單向的GRU只能獲取目標(biāo)詞的前文信息。例如,針對(duì)獼猴桃病害實(shí)體“獼猴桃葉斑病”,目標(biāo)詞為“斑”,GRU只能提取到“斑”的前一個(gè)字“葉”的特征,提取不到后面“病”的特征。而目標(biāo)詞的上下文信息均會(huì)影響到對(duì)目標(biāo)詞的預(yù)測(cè),進(jìn)而影響命名實(shí)體的識(shí)別性能。因此,為了精確識(shí)別獼猴桃種植領(lǐng)域命名實(shí)體,本文采用雙向GRU(BiGRU)網(wǎng)絡(luò)模型。
BiGRU的輸出由正向GRU和反向GRU組成,對(duì)于輸入文本序列X=(x1,x2,…,xt,…,xn),xt是t時(shí)刻的輸入向量,正向GRU輸出計(jì)算公式為
zt=σ(WZ[ht-1,xt])
(10)
rt=σ(Wr[ht-1,xt])
(11)
(12)
(13)
式中zt——更新門rt——重置門
σ——sigmoid函數(shù)
WZ、Wr——權(quán)重矩陣
ht、ht-1——t和t-1時(shí)刻的輸出
獼猴桃種植領(lǐng)域命名實(shí)體標(biāo)簽推理的任務(wù)是對(duì)序列文本中每個(gè)字符進(jìn)行分類,類別包括B-VAR、M-DIS、O等。通過BiGRU編碼層得到的特征向量是相互獨(dú)立的,直接輸入到全連接層中判定每個(gè)字符的標(biāo)簽時(shí)無法學(xué)習(xí)到文本標(biāo)簽間的約束關(guān)系,如B-VAR后面不可能是M-DIS。采用CRF全局優(yōu)化來學(xué)習(xí)獼猴桃種植領(lǐng)域文本序列標(biāo)簽間的約束關(guān)系。
考慮到標(biāo)簽之間的約束關(guān)系,CRF引入一個(gè)轉(zhuǎn)移矩陣A。對(duì)于輸入句子X來說,輸出標(biāo)簽序列y={y1,y2,…,yn}的得分定義為
(14)
式中Ni,yi——第i個(gè)字是標(biāo)簽yi的概率
Ayi,yi+1——標(biāo)簽轉(zhuǎn)移概率
score(X,y)——輸出序列得分
對(duì)所有輸出序列y計(jì)算得分,采用Viterb動(dòng)態(tài)規(guī)劃算法得到獼猴桃種植領(lǐng)域文本序列標(biāo)簽的最優(yōu)序列,進(jìn)而對(duì)命名實(shí)體標(biāo)簽進(jìn)行推理和預(yù)測(cè)。
本文實(shí)驗(yàn)數(shù)據(jù)主要是通過爬蟲框架,抓取百度百科和360百科網(wǎng)站有關(guān)獼猴桃種植的語料,少量數(shù)據(jù)摘取自與獼猴桃種植領(lǐng)域相關(guān)的知網(wǎng)文獻(xiàn)和書籍。對(duì)獲取的句子進(jìn)行清洗和去重后做人工標(biāo)注,得到12 477個(gè)獼猴桃種植領(lǐng)域相關(guān)的句子作為最終實(shí)驗(yàn)數(shù)據(jù)集。
獼猴桃種植領(lǐng)域?qū)嶓w共7類,類別定義如表1所示。
表1 獼猴桃種植領(lǐng)域?qū)嶓w類別Tab.1 Kiwifruit planting field entity category
采用BMESO標(biāo)注策略:B(Begin)表示實(shí)體開始,M(Median)表示中間部分,E(End)表示結(jié)尾部分,S(Single)表示單個(gè)字符的實(shí)體,O(Other)表示其它非命名實(shí)體字符,并在最后加上實(shí)體類別。如“桑/B-PEST白/M-PEST蚧/E-PEST的/O主/O要/O危/O害/O部/O位/O是/O葉/B-PART片/E-PART”。在訓(xùn)練時(shí),添加了保證訓(xùn)練長(zhǎng)度一致的PAD占位符,同時(shí)用[CLS]和[SEP]標(biāo)記句子的首部和尾部。
將自建的實(shí)驗(yàn)數(shù)據(jù)按7∶1∶2劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,訓(xùn)練集8 734條,驗(yàn)證集1 248條,測(cè)試集2 495條,數(shù)據(jù)規(guī)模如表2所示。
表2 實(shí)驗(yàn)數(shù)據(jù)規(guī)模Tab.2 Experimental data scale
數(shù)據(jù)集中包含實(shí)體24 740個(gè),其中品種5 364個(gè)、病害887個(gè)、蟲害1 784個(gè)、部位7 985個(gè)、藥劑1 314個(gè)、區(qū)域7 201個(gè)、氣候205個(gè)。不同類型實(shí)體在訓(xùn)練集、驗(yàn)證集和測(cè)試集中的統(tǒng)計(jì)如表3所示。
表3 不同類別實(shí)體數(shù)據(jù)規(guī)模Tab.3 Data size of different types of entities
實(shí)驗(yàn)環(huán)境:操作系統(tǒng)Ubuntu 16.04,CUDA 9.2,cudnn 7.6.5;4個(gè)E5-2620 v4 @2.10 GHz的CPU,一個(gè)GTX TITAN X GPU;內(nèi)存94 GB,顯存12 GB;編譯環(huán)境為Python 3.6.3和PyTorch 1.8.1。
本文實(shí)驗(yàn)使用Glove無監(jiān)督模型在大規(guī)模獼猴桃種植語料下訓(xùn)練得到的詞典。模型使用Adam優(yōu)化算法進(jìn)行參數(shù)調(diào)整,最大迭代次數(shù)為50,選取其中最優(yōu)結(jié)果作為最終實(shí)驗(yàn)結(jié)果。為了與其它方法對(duì)比,本文模型同樣采用單層BiGRU網(wǎng)絡(luò)。具體參數(shù)設(shè)置如表4所示。
表4 模型參數(shù)設(shè)置Tab.4 Parameter setting of model
命名實(shí)體識(shí)別的評(píng)價(jià)標(biāo)準(zhǔn)有精確率(Precision,P)、召回率(Recall,R)和F1值(F-measure)。
為了驗(yàn)證本文模型在獼猴桃種植領(lǐng)域的命名實(shí)體識(shí)別效果,在同一實(shí)驗(yàn)環(huán)境下,使用不同模型進(jìn)行對(duì)比實(shí)驗(yàn),對(duì)比模型包括:BiLSTM-CRF模型[22]、Lattice-LSTM模型[18]、WC-LSTM模型[19]、SoftLexicon模型[20]和BERT-BiLSTM-CRF模型[23],6組實(shí)驗(yàn)結(jié)果如表5所示。
表5 不同模型實(shí)體識(shí)別結(jié)果Tab.5 Entity recognition results of different models %
本文BiLSTM-CRF模型使用Glove無監(jiān)督模型訓(xùn)練得到的字向量作為嵌入層,然后將其輸入到BiLSTM-CRF中進(jìn)行序列標(biāo)注,雖然Glove模型得到的字向量能夠在一定程度上捕捉到字的一些語義特性,但識(shí)別的F1值只有88.17%,識(shí)別效果不佳。Lattice-LSTM模型使用注意力機(jī)制對(duì)當(dāng)前字符匹配到的詞進(jìn)行加權(quán)求和,顯著提高了識(shí)別效果,F(xiàn)1值提高0.89個(gè)百分點(diǎn),說明引入外部詞匯可以有效提高獼猴桃種植領(lǐng)域命名實(shí)體識(shí)別性能。WC-LSTM模型對(duì)當(dāng)前字符所有匹配到的詞采用自注意力編碼生成權(quán)重向量后,與字向量直接拼接得到最終的字符表示,序列編碼依舊使用BiLSTM-CRF結(jié)構(gòu),F(xiàn)1值高達(dá)89.99%。SoftLexicon模型為了簡(jiǎn)化模型結(jié)構(gòu),在嵌入層使用詞頻代替注意力加權(quán)的方式,同時(shí)加入了表示當(dāng)前字符在詞不同位置的4個(gè)詞集標(biāo)簽,將壓縮得到的4個(gè)詞集向量和字符向量進(jìn)行拼接得到最終字符表示,與使用注意力加權(quán)的WC-LSTM模型相比,F(xiàn)1值提高0.34個(gè)百分點(diǎn),說明引入4種詞集信息可以有效提高文本命名實(shí)體的識(shí)別性能。BERT-BiLSTM-CRF模型只使用BERT預(yù)訓(xùn)練增強(qiáng)的字符向量作為嵌入層,F(xiàn)1值高達(dá)90.56%,與使用Glove模型字向量作為嵌入層相比,F(xiàn)1值提高2.39個(gè)百分點(diǎn),說明BERT預(yù)訓(xùn)練模型可以學(xué)習(xí)到更全面的字符特征。
本文模型采用MHA和Attention對(duì)詞和詞集加權(quán),將得到的詞集向量與BERT預(yù)訓(xùn)練語言模型得到字符向量融合后作為字符的最終表示,并使用BiGRU進(jìn)行序列編碼,CRF模型進(jìn)行標(biāo)簽推理,實(shí)驗(yàn)結(jié)果表明,本文模型的F1值達(dá)91.91%,相較于其它模型,本文模型在獼猴桃種植領(lǐng)域命名實(shí)體識(shí)別任務(wù)中表現(xiàn)更加出色。
為了驗(yàn)證添加MHA調(diào)整詞權(quán)重和Attention獲取詞集重要程度對(duì)模型的影響,本文對(duì)添加MHA和Attention進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6所示。
表6 MHA和Attention影響實(shí)驗(yàn)結(jié)果Tab.6 MHA and Attention affected experiment results %
從表6可以看出,在SoftLexicon模型中添加MHA對(duì)詞集中的詞進(jìn)行權(quán)重調(diào)整時(shí),F(xiàn)1值提高0.52個(gè)百分點(diǎn);當(dāng)在SoftLexicon模型中添加Attention調(diào)整詞集取值時(shí),F(xiàn)1值提高0.25個(gè)百分點(diǎn),同時(shí)添加兩者時(shí),精確率、召回率和F1值均有顯著提高,與未添加任何機(jī)制的SoftLexicon模型相比,F(xiàn)1值總體提高0.82個(gè)百分點(diǎn),比單獨(dú)添加MHA或Attention機(jī)制效果都好。因此,使用MHA對(duì)詞向量進(jìn)行加權(quán)和使用Attention對(duì)詞集向量進(jìn)行調(diào)整可以提升模型性能,兩者同時(shí)使用可以進(jìn)一步提升獼猴桃種植領(lǐng)域命名實(shí)體識(shí)別性能。
為了驗(yàn)證使用BERT預(yù)訓(xùn)練語言模型增強(qiáng)字符表示和引入詞集向量作為外部詞匯對(duì)于模型的提升效果,分別使用Glove字符表示和詞集向量融合表示、基于BERT的字符增強(qiáng)表示以及BERT字符增強(qiáng)和詞集向量融合的表示作為嵌入,其中SoftLexicon表示以Glove字符表示和詞集向量融合表示作為嵌入層的模型,結(jié)果如表7所示。
表7 字詞融合實(shí)驗(yàn)結(jié)果
本文詞集向量均沒有添加MHA和Attention機(jī)制,僅使用詞頻作為權(quán)重計(jì)算詞集信息,編碼層均為單層的BiLSTM。SoftLexicon模型融合Glove字符向量和詞集向量作為嵌入,由于Glove模型特征提取能力有限,無法獲取更全面的語義信息,得到的字詞向量包含上下文信息較少,而且獼猴桃種植領(lǐng)域?qū)嶓w專業(yè)性較強(qiáng),結(jié)構(gòu)復(fù)雜,從而導(dǎo)致模型的識(shí)別性能不佳。使用BERT預(yù)訓(xùn)練語言模型得到字符向量作為嵌入層時(shí),與使用Glove字詞向量相比,其F1值提高0.23個(gè)百分點(diǎn),原因是BERT預(yù)訓(xùn)練語言模型可以提取出序列中與領(lǐng)域相關(guān)的更豐富的上下文信息,增強(qiáng)字符表示。融合BERT增強(qiáng)的字符向量和詞集信息作為嵌入層時(shí),識(shí)別性能有了顯著提高,其F1值高達(dá)91.02%,與使用Glove字詞向量和單純使用BERT字符向量相比,F(xiàn)1值分別提高0.69個(gè)百分點(diǎn)和0.46個(gè)百分點(diǎn),表明使用BERT預(yù)訓(xùn)練語言模型增強(qiáng)的字符表示和引入外部詞匯信息融合的方式確實(shí)可以提高本文獼猴桃種植領(lǐng)域命名實(shí)體識(shí)別效果。
為了驗(yàn)證BiGRU編碼層對(duì)模型的影響,分別使用BiLSTM、CNN、Transformer和BiGRU作為編碼層進(jìn)行實(shí)驗(yàn)對(duì)比,結(jié)果如表8所示。
表8 編碼層實(shí)驗(yàn)結(jié)果Tab.8 Experimental results of coding layer %
從表8可以看出,BiGRU作為編碼層時(shí),與BiLSTM、CNN或Transformer作為編碼層相比,模型的識(shí)別效果最好,F(xiàn)1值達(dá)到90.59%,說明使用BiGRU作為編碼層更適合獼猴桃種植領(lǐng)域命名實(shí)體識(shí)別任務(wù),可以進(jìn)一步提高命名實(shí)體識(shí)別水平。
本文提出的添加MHA和Attention機(jī)制以及使用BERT預(yù)訓(xùn)練語言模型的方法僅改變了嵌入層,可以與不同的序列建模層聯(lián)合使用,具有較好的通用性。為了驗(yàn)證不同序列建模層在本文模型中的通用性,將序列建模層的單層BiGRU更換為CNN,卷積層個(gè)數(shù)為2,卷積核大小為1和3,通用性實(shí)驗(yàn)結(jié)果如表9所示。
表9 通用性實(shí)驗(yàn)結(jié)果Tab.9 Performance of commonality test %
由表9可知,本文模型的識(shí)別效果最優(yōu),與基于字的CNN和SoftLexicon模型相比,精確率分別提高5.77、4.25個(gè)百分點(diǎn)。說明本文模型能夠更好地利用外部詞匯信息,具有更好的通用性。并且與 表7 進(jìn)行對(duì)比時(shí),可以看出編碼層使用BiGRU時(shí),模型識(shí)別效果更優(yōu)。
為了驗(yàn)證本文模型嵌入層各個(gè)部分對(duì)整體模型的影響,對(duì)添加MHA機(jī)制、Attention機(jī)制和BERT預(yù)訓(xùn)練模型增強(qiáng)的字符進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表10所示。
表10 消融實(shí)驗(yàn)結(jié)果Tab.10 Ablation experimental results %
從表10可以看出,使用BERT預(yù)訓(xùn)練語言模型增強(qiáng)的字符表示對(duì)模型性能提升最明顯,F(xiàn)1值提高0.62個(gè)百分點(diǎn),相比之下,添加MHA機(jī)制的提升效果最小,但總體來看,本文提出的每個(gè)改進(jìn)點(diǎn),均對(duì)模型性能有一定程度的提升。
表11對(duì)比了BiLSTM-CRF模型[22]、Lattice-LSTM模型[18]、WC-LSTM模型[19]、SoftLexicon模型[20]、BERT-BiLSTM-CRF模型[23]和本文模型在7類實(shí)體上的識(shí)別效果。
從表11可以看出,本文提出的模型識(shí)別效果優(yōu)于其它模型。使用BERT預(yù)訓(xùn)練的字向量作為嵌入層時(shí),與SoftLexicon模型相比,除病害類別外,其它6種類別實(shí)體的識(shí)別效果均有所提升,說明使用BERT預(yù)訓(xùn)練的字向量可以有效提升本文命名實(shí)體識(shí)別效果。本文模型部位類別識(shí)別的F1值高達(dá)96.87%,病害類別識(shí)別的F1值為96.17%,對(duì)于實(shí)體結(jié)構(gòu)復(fù)雜的蟲害識(shí)別F1值高達(dá)95.70%,與SoftLexicon模型相比,在7種類別實(shí)體上識(shí)別效果均有所提升,說明融合BERT預(yù)訓(xùn)練語言模型增強(qiáng)的字符表示和添加不同層次注意力機(jī)制等方法可以有效提升本文模型在獼猴桃種植領(lǐng)域?qū)嶓w識(shí)別效果。本文模型與BERT-BiLSTM-CRF模型相比,在6種實(shí)體類別上也有不同幅度的提升,進(jìn)一步驗(yàn)證了本文方法在獼猴桃種植領(lǐng)域?qū)嶓w識(shí)別任務(wù)上的優(yōu)勢(shì)。與SoftLexicon模型相比,本文模型對(duì)蟲害類別的F1值提升最高,提升3.13個(gè)百分點(diǎn),原因是該類別存在蟲害嵌套、歧義等干擾信息,在沒有其它充足的上下文語義信息時(shí)容易預(yù)測(cè)錯(cuò)誤,例如在識(shí)別“棉紅蜘蛛”和“紅蜘蛛”、“盲椿象”和“椿象”、“二點(diǎn)葉螨”和“葉螨”等實(shí)體時(shí),SoftLexicon模型只識(shí)別出“紅蜘蛛”、“椿象”和“葉螨”等,從而造成實(shí)體識(shí)別效果差,而本文模型則可以識(shí)別出正確的實(shí)體。
為了驗(yàn)證本文模型泛化性和穩(wěn)定性,本文在ResumeNER公開數(shù)據(jù)集上開展了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表12所示。結(jié)果表明,本文模型表現(xiàn)良好,F(xiàn)1值達(dá)到96.17%,顯著高于BiLSTM-CRF模型[22],與Lattice-LSTM[18]、WC-LSTM[19]、SoftLexicon[20]、BERT-BiLSTM-CRF[23]模型相比也均有提升。
表11 不同類別實(shí)體識(shí)別結(jié)果Tab.11 Entity recognition results of different types %
表12 各模型在公開數(shù)據(jù)集上識(shí)別效果對(duì)比Tab.12 Comparison of recognition effect of each model on public data set %
本文面向獼猴桃種植領(lǐng)域,提出一種融合字詞語義信息的命名實(shí)體識(shí)別模型,有效解決了獼猴桃種植領(lǐng)域命名實(shí)體結(jié)構(gòu)復(fù)雜、識(shí)別精確率較低的問題。該模型使用MHA調(diào)整詞向量權(quán)重,并使用注意力機(jī)制進(jìn)一步獲取每個(gè)詞集的重要程度,使模型更好地利用外部詞匯信息,融入BERT預(yù)訓(xùn)練語言模型提取的字符增強(qiáng)表示,使嵌入層輸出包含更豐富的上下文信息,編碼層使用BiGRU模型進(jìn)一步提高識(shí)別效果。通過實(shí)驗(yàn)證明,本文模型對(duì)7種獼猴桃種植領(lǐng)域?qū)嶓w的識(shí)別F1值高達(dá)91.91%,在公開數(shù)據(jù)集ResumeNER上也有較好的效果。
農(nóng)業(yè)機(jī)械學(xué)報(bào)2022年12期