丁浩 孔令圓 劉清 胡廣偉
摘 要: [目的/ 意義] 本文針對農(nóng)業(yè)領(lǐng)域提出一種基于融合多重特征詞嵌入模型的農(nóng)業(yè)命名實體識別方法,以提高識別準(zhǔn)確度。[方法/ 過程] 通過使用結(jié)合字符、位置語義、領(lǐng)域知識字典特征等多重特征向量作為嵌入層, 充分考慮字符的位置信息和上下文語義信息, 并根據(jù)農(nóng)業(yè)領(lǐng)域的中文實體的特點改進了單一字符向量嵌入,獲得更多的農(nóng)業(yè)實體特征, 同時采用雙向長短時記憶網(wǎng)絡(luò)BiLSTM 和多頭注意力機制來學(xué)習(xí)文本的長距離依賴信息, 再利用條件隨機場CRF 獲得全局最優(yōu)標(biāo)注序列。[結(jié)果/ 結(jié)論] 本文在農(nóng)業(yè)領(lǐng)域中文實體語料數(shù)據(jù)集中與9種基于基線方法進行對比實驗, 模型的Precision 為92 2%, Recall 為92 0%, F1 值為92 11%, 均優(yōu)于其他基線模型, 說明本文模型對于中文農(nóng)業(yè)命名實體識別更精確。
關(guān)鍵詞: 自然語言處理; 命名實體識別; 農(nóng)業(yè)文本; 信息抽??; BiLSTM; CRF
DOI:10.3969 / j.issn.1008-0821.2023.11.011
〔中圖分類號〕TP391 1 〔文獻標(biāo)識碼〕A 〔文章編號〕1008-0821 (2023) 11-0135-11