黃政豪,金光洙,高君龍
(1. 延邊大學(xué) 工學(xué)院,吉林 延吉 133002;2. 延邊大學(xué) 朝漢文學(xué)院,吉林 延吉 133002)
隨著信息規(guī)模的不斷擴(kuò)大,從海量數(shù)據(jù)中提取高價(jià)值信息逐漸成為了研究熱點(diǎn),而命名實(shí)體識(shí)別(Named Entity Recognition, NER)是信息抽取常用技術(shù)之一,是自然語(yǔ)言處理中信息抽取過(guò)程不可或缺的基本任務(wù)。它的研究成果廣泛應(yīng)用于自然語(yǔ)言處理的各項(xiàng)子任務(wù)中,如文本理解、信息檢索、自動(dòng)摘要、自動(dòng)問(wèn)答、機(jī)器翻譯等,對(duì)知識(shí)庫(kù)建設(shè)有重要作用[1];這也是國(guó)內(nèi)亟待發(fā)展的朝鮮語(yǔ)相關(guān)研究?jī)?nèi)容之一。
朝鮮語(yǔ)作為黏著語(yǔ),不同語(yǔ)境下的命名實(shí)體和上下文之間的關(guān)系十分復(fù)雜。因?yàn)樵诔r語(yǔ)中,具有實(shí)際意義的詞干通常與具有語(yǔ)法意義的助詞和詞綴連接在一起,形成基本語(yǔ)義單位[2]。這些組合而成的語(yǔ)節(jié)再次通過(guò)空格(隔寫(xiě))連接在一起,充當(dāng)不同的句子成分來(lái)構(gòu)建一個(gè)完整的句子[3]。因此,在進(jìn)行命名實(shí)體識(shí)別任務(wù)時(shí),無(wú)法直接將英語(yǔ)或漢語(yǔ)等語(yǔ)言所能夠使用的方法遷移過(guò)來(lái)使用。其次,朝鮮語(yǔ)作為資源稀缺語(yǔ)言,能夠用于研究的已標(biāo)注語(yǔ)料庫(kù)在規(guī)模上相較于英語(yǔ)和漢語(yǔ)等語(yǔ)言有明顯的差異,這也是阻礙研究的重要原因之一[4]。
通常針對(duì)訓(xùn)練數(shù)據(jù)不足的問(wèn)題,一般是持續(xù)通過(guò)人工標(biāo)注的方式構(gòu)建新的數(shù)據(jù)集來(lái)填補(bǔ)不足的部分。但這種方式對(duì)時(shí)間成本和人員專(zhuān)業(yè)程度要求過(guò)高,很難在短時(shí)間內(nèi)從根本上解決問(wèn)題。因此,目前更傾向于對(duì)已有的數(shù)據(jù)集進(jìn)行增強(qiáng)的方式提高模型的性能。Lee等[5]在研究中發(fā)現(xiàn)不少研究者通過(guò)數(shù)據(jù)增強(qiáng)方式提高了英語(yǔ)命名實(shí)體識(shí)別任務(wù)的性能,在韓國(guó)的研究也是通過(guò)預(yù)先構(gòu)建詞典、詞素和音節(jié)特征的融合等方法增強(qiáng)數(shù)據(jù),從而提高模型性能。而目前大部分融合特征方法只是對(duì)特征向量進(jìn)行拼接,缺點(diǎn)是容易丟失位置相關(guān)性和不同粒度之間的相關(guān)信息。
本文從朝鮮語(yǔ)語(yǔ)法和構(gòu)成特點(diǎn)出發(fā),研究在音素、音節(jié)和詞素三種粒度下朝鮮語(yǔ)實(shí)體的有效表征,提出一種基于多粒度融合的朝鮮語(yǔ)命名實(shí)體識(shí)別方法。該方法并不是拼接特征向量,而是通過(guò)詞素、音節(jié)和音素向量有效融合,確保以上三種粒度之間的位置關(guān)系和上下文關(guān)系保留下來(lái),從而提高模型的性能。
數(shù)據(jù)增強(qiáng)是一種通過(guò)人為操作對(duì)數(shù)據(jù)進(jìn)行變換的過(guò)程。其目的是增加數(shù)據(jù)量,從而獲得用于學(xué)習(xí)的新數(shù)據(jù),特別是在研究所需的語(yǔ)料數(shù)量不足的情況下使用。在計(jì)算機(jī)視覺(jué)領(lǐng)域中,常用對(duì)原始數(shù)據(jù)進(jìn)行裁剪、翻轉(zhuǎn)、放大、旋轉(zhuǎn)等變換的方法,以增加數(shù)據(jù)的多樣性。通過(guò)這些過(guò)程,可以生成與原始數(shù)據(jù)相似甚至接近實(shí)際存在的新數(shù)據(jù)。利用這種增強(qiáng)技術(shù)生成的數(shù)據(jù)可以有效地提高模型的性能[6]。
然而,在自然語(yǔ)言處理領(lǐng)域中,即使是單詞的微小變化,也有可能導(dǎo)致整個(gè)句子的含義產(chǎn)生明顯差異,同時(shí)句子排列順序的變換也可能導(dǎo)致語(yǔ)法錯(cuò)誤。因此,選擇數(shù)據(jù)增強(qiáng)的方法時(shí)必須非常謹(jǐn)慎,避免對(duì)模型訓(xùn)練造成負(fù)面影響。
朝鮮語(yǔ)中使用音節(jié)和組成音節(jié)的音素都包含不同的語(yǔ)法特征和上下文關(guān)系特征。同時(shí),一個(gè)詞匯被切分為音節(jié)或者音素都不會(huì)影響到原有語(yǔ)義,因此,常用于自然語(yǔ)言處理任務(wù)的數(shù)據(jù)增強(qiáng)過(guò)程中。Kim等[7]提出了使用音節(jié)分布模式作為深度學(xué)習(xí)輸入的形態(tài)分析方法,所提出的音節(jié)分布模式包括音素嵌入向量和詞素音節(jié)分布模式。Na等[8]針對(duì)韓語(yǔ)NER任務(wù)提出了一個(gè)基于字符表示的雙向LSTM-CRF方法,其中使用了基于音節(jié)向量的LSTM-ConvNet混合表示方法。Oh等[9]提出基于音節(jié)特征的命名實(shí)體識(shí)別方法,用于寵物疾病問(wèn)答系統(tǒng)。同時(shí),為了增加數(shù)據(jù)規(guī)模,使用相似病例數(shù)據(jù)擴(kuò)充了數(shù)據(jù)集以提高模型性能。
在命名實(shí)體抽取建模方法上,早期在深度學(xué)習(xí)普及之前,大多數(shù)命名實(shí)體識(shí)別任務(wù)主要圍繞傳統(tǒng)機(jī)器學(xué)習(xí)方法展開(kāi),主要包含基于隱馬爾科夫模型(Hidden Markov Model,HMM)的命名實(shí)體識(shí)別方法[10],基于支持向量機(jī)(Support Vector Machine,SVM)的方法[11],最大熵模型(Maximum Entropy Model,MaxEnt)與詞典匹配和規(guī)則相結(jié)合的方法[12]。傳統(tǒng)機(jī)器學(xué)習(xí)方法對(duì)詞典和語(yǔ)料庫(kù)特征標(biāo)注要求很高,利用這些規(guī)則集可以更高效地匹配相似領(lǐng)域語(yǔ)料中的命名實(shí)體,但構(gòu)建規(guī)則集本身需要的人工和時(shí)間成本較高,同時(shí)跨領(lǐng)域可移植性較差。
隨著近幾年深度學(xué)習(xí)的發(fā)展,最早由Huang等人[13]提出Bi-LSTM-CRF模型,提升了命名實(shí)體識(shí)別精度,在CONLL2000和CONLL2003語(yǔ)料集上F1值達(dá)到了94.46%和88.83%。Yao等[14]提出一種基于CNN的生物醫(yī)學(xué)命名實(shí)體識(shí)別模型,使用skip-gram神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)醫(yī)學(xué)文獻(xiàn)中稀有實(shí)體的識(shí)別訓(xùn)練。Chiu等[15]使用LSTM和CNN架構(gòu)自動(dòng)檢測(cè)字和字符級(jí)特征,該模型在CONLL2003數(shù)據(jù)集上獲得了91.62%的F1值。Kwon等[16]使用音節(jié)級(jí)別的Bi-LSTM進(jìn)行編碼,再通過(guò)將雙字音節(jié)作為額外編碼,最后通過(guò)Bi-LSTM-CRF模型完成NER標(biāo)記。
2017年,Transformer 模型由 Vaswani 等[17]提出,強(qiáng)大的注意力機(jī)制可以捕捉到長(zhǎng)距離的依賴(lài)關(guān)系,并且能夠進(jìn)行并行運(yùn)算,明顯優(yōu)于基于CNN和RNN的結(jié)構(gòu)。為解決Transformer中無(wú)法捕捉方向信息和相對(duì)位置的問(wèn)題,Yan等[18]提出了TENER模型,該模型在MSRA中文語(yǔ)料中的F1值達(dá)到92.74%,在OntoNotes5.0數(shù)據(jù)集上F1值達(dá)到88.43%。隨著Google提出基于雙向Transformer網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)建的預(yù)訓(xùn)練語(yǔ)言模型Bert[19],成功在11項(xiàng)NLP任務(wù)中獲得非常好的成績(jī)。越來(lái)越多的人將Bert引入到命名實(shí)體識(shí)別任務(wù)。楊飄等[20]在中文命名實(shí)體識(shí)別任務(wù)中引入Bert預(yù)訓(xùn)練模型,提出了Bert-BiGRU-CRF網(wǎng)絡(luò)結(jié)構(gòu),該模型在MSRA中文語(yǔ)料中F1值達(dá)到95.43%。2021年P(guān)ark等[21]提出KLUE-BERT預(yù)訓(xùn)練模型,包括8個(gè)自然語(yǔ)言處理任務(wù)的數(shù)據(jù)集,其中使用KLUE-BERT-BASE和KLUE-RoBERTa-BASE預(yù)訓(xùn)練模型的方法在KLUE-NER數(shù)據(jù)集上的F1值分別獲得83.97%和84.6%。
朝鮮語(yǔ)語(yǔ)法中把名詞、數(shù)詞、代詞統(tǒng)稱(chēng)為體詞[22],那么命名實(shí)體屬于朝鮮語(yǔ)語(yǔ)法中的體詞范疇。而朝鮮語(yǔ)中用于修飾體詞的助詞也是相對(duì)固定的,因此詞素粒度有助于計(jì)算機(jī)更明確地描述命名實(shí)體與上下文之間的關(guān)系。
朝鮮語(yǔ)具有大部分語(yǔ)言的普遍特征,同時(shí)也具有自身獨(dú)特的語(yǔ)言特點(diǎn)。它具有與英語(yǔ)類(lèi)似的分寫(xiě)結(jié)構(gòu),在研究過(guò)程中便于切分為語(yǔ)節(jié)單位。但朝鮮語(yǔ)的詞根與助詞等語(yǔ)義相關(guān)粒度單位是連寫(xiě)的,因此在進(jìn)一步細(xì)化粒度時(shí)需要經(jīng)過(guò)類(lèi)似于漢語(yǔ)的分詞過(guò)程完成詞素級(jí)別的切分操作。這些特性也導(dǎo)致了朝鮮語(yǔ)命名實(shí)體與其他詞綴之間邊界不明確的問(wèn)題。
本文從朝鮮語(yǔ)語(yǔ)法角度進(jìn)一步細(xì)化語(yǔ)料粒度融合來(lái)優(yōu)化所提取的特征。如表1所示,中國(guó)朝鮮語(yǔ)規(guī)范中規(guī)定的音素包含19個(gè)輔音、21個(gè)元音和27個(gè)韻尾,通過(guò)這三種音素組合形成一個(gè)音節(jié)[23]。
圖1 音節(jié)與音素關(guān)系圖
表 1 朝鮮語(yǔ)音素表(中國(guó))
圖2 韻尾與助詞使用關(guān)系圖
結(jié)合這一特征,本文采用詞素、音節(jié)和音素三個(gè)粒度做多粒度融合的朝鮮語(yǔ)命名實(shí)體識(shí)別任務(wù)。如圖3所示,第一列是根據(jù)朝鮮語(yǔ)隔寫(xiě)法分割的語(yǔ)節(jié),將每個(gè)語(yǔ)節(jié)通過(guò)詞素分析獲得詞素粒度,其中每個(gè)詞素都對(duì)應(yīng)一個(gè)命名實(shí)體標(biāo)簽。最后,通過(guò)音素切分獲得每個(gè)音節(jié)的音素字母作為音素粒度。本文提出的這一融合方法,提高了描繪朝鮮語(yǔ)命名實(shí)體邊界的能力,進(jìn)一步提高了命名實(shí)體識(shí)別效果。
圖3 朝鮮語(yǔ)多粒度切分圖
有效地提取和融合朝鮮語(yǔ)多種粒度的不同信息,進(jìn)一步提高朝鮮語(yǔ)命名實(shí)體識(shí)別模型的性能是本文研究的重點(diǎn)。本文利用CNN和Bi-LSTM來(lái)提取朝鮮語(yǔ)的音素粒度和音節(jié)粒度的特征,使用特征融合獲得增強(qiáng)后的音節(jié)粒度向量,將其融入詞素粒度向量中來(lái)提高基于詞素粒度的朝鮮語(yǔ)命名實(shí)體識(shí)別的性能。其次,為提高模型對(duì)命名實(shí)體與助詞邊界的劃定能力,使用TENER模型作為命名實(shí)體特征提取模型。在詞素嵌入部分使用KLUE組織提供的KLUE-BERT-BASE預(yù)訓(xùn)練模型。
本文所設(shè)計(jì)的模型結(jié)構(gòu)如圖4所示,首先利用Jamo-CNN[24]來(lái)提取朝鮮語(yǔ)音素特征。其次,將音節(jié)向量和上一步提取到的音素向量融合成增強(qiáng)的音節(jié)向量。將得到的音節(jié)向量輸入至Bi-LSTM層進(jìn)行編碼獲得最終音節(jié)特征。這些音節(jié)特征與使用KLUE-BERT預(yù)訓(xùn)練模型得到的詞素向量進(jìn)行拼接。最后,輸入至TENER模型,輸出命名實(shí)體標(biāo)簽。
圖4 本文方法的模型結(jié)構(gòu)圖
下面重點(diǎn)介紹CNN和Bi-LSTM對(duì)音節(jié)和音素向量的編碼過(guò)程。
(1) 基于Jamo-CNN的音素特征提取
朝鮮語(yǔ)的音素包含19個(gè)輔音、21個(gè)元音和27個(gè)韻尾,去除輔音和韻尾中出現(xiàn)的重復(fù)字母,共計(jì)51個(gè)音素字母。通過(guò)卷積操作獲取不同音素組合的特征信息,并與音節(jié)向量進(jìn)行融合,增強(qiáng)音節(jié)向量的特征表示,其結(jié)構(gòu)為圖4中的Jamo-CNN部分。設(shè)經(jīng)過(guò)卷積運(yùn)算產(chǎn)生一個(gè)新的特征μi,公式如下:
式(1)中fcnn是一個(gè)非線(xiàn)性函數(shù),卷積核為w∈Rh×2d,其中h為滑動(dòng)窗口大小,d是音素向量的維度。Z為第i步卷積操作的矩陣區(qū)域,b是偏置項(xiàng)。通過(guò)卷積操作后得到了特征圖μ=[μ1,μ2,…,μn-h+1],最后對(duì)特征圖進(jìn)行最大池化操作得到e=max{μ}。
(2)
如式(2)所示,假設(shè)有m個(gè)卷積核,可以得到最終的特征λ。最后通過(guò)前饋神經(jīng)網(wǎng)絡(luò)得到音素對(duì)應(yīng)的特征向量Ej,其中Wj是可訓(xùn)練的權(quán)重矩陣。
(2) 音節(jié)和音素特征融合方法
式(2)中的Ej是通過(guò)Jamo-CNN學(xué)習(xí)得到的音素特征。為了能夠?qū)⒋艘羲靥卣魃疃热诤系揭艄?jié)向量中,我們提出了結(jié)合兩種粒度的聯(lián)系和差異的特征融合方法。如圖4中Fusion Layer所示,使用預(yù)訓(xùn)練模型fastText[25]得到音節(jié)向量ES,然后使用特征融合方法得到增強(qiáng)的音節(jié)向量EIS。
(3)
其中,W1和W2是可訓(xùn)練的權(quán)重矩陣,g是一個(gè)門(mén)控機(jī)制,用于控制中間向量和輸出向量的權(quán)重。通過(guò)預(yù)訓(xùn)練模型獲得音節(jié)向量ES,與組成音節(jié)的音素特征向量Ej進(jìn)行融合,得到每個(gè)音節(jié)的增強(qiáng)后的向量EIS。
(3) 基于Bi-LSTM的音節(jié)特征提取
朝鮮語(yǔ)的多數(shù)詞素由兩個(gè)或兩個(gè)以上音節(jié)組成,形成一種相互關(guān)聯(lián)的序列。因此,對(duì)音節(jié)向量EIS使用Bi-LSTM模型學(xué)習(xí)前后音節(jié)間的依賴(lài)關(guān)系,獲得增強(qiáng)的音節(jié)特征,如式(4)所示。
(4)
(5)
其中,⊕是向量連接操作,ri是句子中的第i個(gè)詞素。WISF是權(quán)重矩陣,bISF是偏置項(xiàng)。最后將新的向量通過(guò)前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行降維,獲得詞素對(duì)應(yīng)的特征向量EISF。
我們需要一個(gè)準(zhǔn)確的詞素粒度特征來(lái)結(jié)合上述方法所獲得的音節(jié)和音素特征。因此,這里我們選擇使用KLUE-BERT預(yù)訓(xùn)練模型作為朝鮮語(yǔ)詞素嵌入方法。如式(6)所示。
將KLUE-BERT Embedding和詞素的增強(qiáng)音節(jié)特征融合起來(lái)輸入到最終的TENER層。
(4) TENER層
本文使用KLUE-NER和KlpexpoNER(2016)兩個(gè)不同的語(yǔ)料庫(kù)進(jìn)行了實(shí)驗(yàn)。KLUE-NER語(yǔ)料庫(kù)是由KLUE組織發(fā)布的,其中包含多個(gè)不同領(lǐng)域的文本數(shù)據(jù)。該語(yǔ)料庫(kù)的訓(xùn)練集包含21 008個(gè)句子,驗(yàn)證集和測(cè)試集分別為5 000個(gè)句子。KLUE-NER語(yǔ)料庫(kù)公布于2021年,其中包含6種實(shí)體類(lèi)型。Klpexpo NER(2016)是為2016年韓國(guó)語(yǔ)信息處理大賽而公布的,其中包含3 555個(gè)訓(xùn)練集句子,500個(gè)驗(yàn)證集句子,1 000個(gè)測(cè)試集句子。
我們使用F1值作為實(shí)驗(yàn)的評(píng)價(jià)指標(biāo),其中KLUE-NER[21]所提供的基線(xiàn)數(shù)據(jù)包括entityF1和charF1兩種。entityF1是命名實(shí)體完整匹配結(jié)果,而charF1是將實(shí)體切分為音節(jié)單位后進(jìn)行匹配的結(jié)果,即僅有部分音節(jié)識(shí)別的結(jié)果也計(jì)入統(tǒng)計(jì)結(jié)果中。本文采用命名實(shí)體完整匹配方法,因此統(tǒng)一使用entityF1作為評(píng)價(jià)指標(biāo),下文中簡(jiǎn)稱(chēng)為F1值,計(jì)算方法如式(11)所示。
如表2所示,針對(duì)不同語(yǔ)料庫(kù)使用了不同的參數(shù)設(shè)置。其中Head分別設(shè)置為6和8,維度設(shè)置為128和96,學(xué)習(xí)率為0.000 3和0.000 4,Batch size為16和8,而優(yōu)化器和Dropout統(tǒng)一使用SGD和0.15。實(shí)驗(yàn)使用了一塊RTX5000顯卡,除去數(shù)據(jù)預(yù)處理時(shí)間,每次迭代需要4min左右,每輪實(shí)驗(yàn)進(jìn)行100次迭代。
表2 參數(shù)設(shè)置
有許多研究者在KlpexpoNER(2016)做過(guò)測(cè)試。選擇其中5個(gè)最具有代表性的研究結(jié)果與本文的方法作了對(duì)比。Choi等[26]使用DBSCAN算法詞性聚類(lèi),并與Word2Vec一起輸入至CRF層完成韓語(yǔ)命名實(shí)體識(shí)別任務(wù)。其他的方法都是采用Bi-LSTM-CRF為基礎(chǔ)模型完成的。其中Nam等[27]將詞性特征融入到詞素向量中實(shí)現(xiàn)命名實(shí)體識(shí)別問(wèn)題。Yu等[28]結(jié)合了音素向量和外部的命名實(shí)體信息。Kwon等[16]利用LSTM學(xué)習(xí)音素特征,提高詞素的特征表示。Jin等[29]添加Masked self-attention來(lái)提高上下文對(duì)實(shí)體的關(guān)注度,在詞嵌入部分不僅通過(guò)Bi-LSTM學(xué)習(xí)音素特征,并且融入了自構(gòu)建的命名實(shí)體外部信息特征和絕對(duì)位置編碼。對(duì)比實(shí)驗(yàn)結(jié)果如表3所示。
表3 五組實(shí)驗(yàn)和本文模型在KlpexpoNER(2016)數(shù)據(jù)集中的表現(xiàn) (單位: %)
從表3的結(jié)果中可以看出,目前比較常用的模型是Bi-LSTM-CRF。使用Bi-LSTM-CRF方法都要比文獻(xiàn)[26]的效果要好。而文獻(xiàn)[16, 27-29]都是在Word Embedding的基礎(chǔ)上,再分別疊加了詞素、音節(jié)、位置等特征得到了更好的效果。其中文獻(xiàn)[29]添加了masked self-attention,在對(duì)比文獻(xiàn)中的效果最好。但是相對(duì)本文使用基于Transformer的模型,其強(qiáng)大的注意力機(jī)制可以獲得更多更準(zhǔn)確的實(shí)體特征,同時(shí)結(jié)合詞素、音節(jié)、音素多粒度融合方式,比文獻(xiàn)[29]高出了3.18%。
KLUE-NER語(yǔ)料庫(kù)發(fā)布于2021年,因此目前只有KLUE組織做出的效果可作為對(duì)比。本文使用HMM、CRF和Bi-LSTM模型在KLUE-NER語(yǔ)料庫(kù)上進(jìn)行實(shí)驗(yàn),并與本文方法進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果如表4所示。
表4 在KLUE-NER 數(shù)據(jù)集中的表現(xiàn) (單位: %)
如表4所示,本實(shí)驗(yàn)提出的模型在KLUE-NER語(yǔ)料庫(kù)中取得了最好的效果。傳統(tǒng)的CRF和HMM在單獨(dú)使用時(shí)只能得到74.36%和75.55%的成績(jī)。而B(niǎo)i-LSTM由于能對(duì)上下文特征更有效,因此比前兩種方法效果要好。使用基于BERT模型的KLUE-BERT時(shí),充分體現(xiàn)出注意力機(jī)制的優(yōu)越性,效果有了大幅提升。本文的模型是在KLUE-BERT基礎(chǔ)上結(jié)合了多粒度特征融合方法,相比KLUE-RoBERTa-BASE模型F1值提高了4.42%。實(shí)驗(yàn)結(jié)果表明本文提出的方法優(yōu)于其他方法。
為了更清楚地了解本文的模型對(duì)不同實(shí)體的有效性,進(jìn)行了針對(duì)Klpexpo 2016和KLUE-NER兩種數(shù)據(jù)集的不同命名實(shí)體抽取效果實(shí)驗(yàn)。這里選擇了命名實(shí)體分布最廣泛的人名(PS)、地名(LC)、機(jī)構(gòu)名(OG)、日期(DT)、數(shù)字(QT)、時(shí)間(TI)這六種實(shí)體類(lèi)別的數(shù)據(jù)進(jìn)行分析,如表5所示。
表5 不同實(shí)體類(lèi)別實(shí)驗(yàn)結(jié)果 (單位: %)
從表5的結(jié)果可以看出,六種不同的實(shí)體識(shí)別率在相似的水平上,并沒(méi)有出現(xiàn)太大的差異。其中人名、日期、時(shí)間和數(shù)字識(shí)別率是最高的,說(shuō)明該模型對(duì)這類(lèi)數(shù)據(jù)的敏感性最好。其主要原因是在語(yǔ)料庫(kù)中人名、日期、時(shí)間和數(shù)字的長(zhǎng)度較短,更容易捕捉其特征。而像地名和機(jī)構(gòu)名這類(lèi)數(shù)據(jù),長(zhǎng)度變化范圍更廣,因此模型的識(shí)別能力相對(duì)較弱。
表 6 測(cè)試實(shí)例(畫(huà)方框的區(qū)域?yàn)檎Z(yǔ)料庫(kù)中正確的實(shí)體)
為驗(yàn)證實(shí)驗(yàn)中使用的粒度融合方法、Jamo-CNN模塊和Syllable-BiLSTM模塊的有效性,設(shè)置了消融實(shí)驗(yàn)作為比較。如表7所示,第二項(xiàng)表示將音節(jié)與音素向量的融合方法改為普通的向量拼接;第三項(xiàng)代表去除將Jamo-CNN提取音素特征的模塊,只用FastText靜態(tài)詞向量表示音節(jié)特征;第四項(xiàng)代表只通過(guò)KLUE-BERT預(yù)訓(xùn)練模型代表形態(tài)素向量,去除了增強(qiáng)的音節(jié)特征。
表 7 消融實(shí)驗(yàn)結(jié)果 (單位: %)
從表7的結(jié)果看出,去除本文提出的多粒度融合方法,單獨(dú)使用KLUE-BERT預(yù)訓(xùn)練模型時(shí),模型性能下降最為明顯。而把特征融合改為特征拼接,去除Jamo-CNN音素特征和FastText音節(jié)特征時(shí)性能都有所下降,因此說(shuō)明本文所使用的方法均對(duì)命名實(shí)體識(shí)別任務(wù)有提高效果。
本文針對(duì)朝鮮語(yǔ)命名實(shí)體語(yǔ)料不足的問(wèn)題提出了朝鮮語(yǔ)多粒度特征的融合方法,增強(qiáng)了命名實(shí)體特征表示。該模型采用基于CNN將音節(jié)粒度與音素粒度進(jìn)行融合形成增強(qiáng)后的音節(jié)向量。其次,使用FastText預(yù)訓(xùn)練模型對(duì)增強(qiáng)的音節(jié)向量進(jìn)行編碼,獲取其順序特征。最后,為了提高詞素粒度特征,使用KLUE-BERT預(yù)訓(xùn)練模型生成增強(qiáng)的詞素向量,并與音節(jié)向量連接起來(lái),最終輸入TENER(基于Transformer的NER模型)模型完成命名實(shí)體識(shí)別。實(shí)驗(yàn)結(jié)果表明,本文提出的多粒度融合方法相較于詞素和音節(jié)特征結(jié)合BiLSTM-CRF的方法F1值高出3.18%,相比單獨(dú)使用KLUE-RoBERTa預(yù)訓(xùn)練模型的方法F1值高出4.42%。在未來(lái)的工作中,可將本文提出的方法擴(kuò)展到朝鮮語(yǔ)的多個(gè)研究領(lǐng)域來(lái)擴(kuò)大語(yǔ)料規(guī)模。