• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    融合相似度負(fù)采樣的遠(yuǎn)程監(jiān)督命名實(shí)體識(shí)別方法

    2024-08-15 00:00:00劉楊線巖團(tuán)相艷黃于欣

    摘 要:實(shí)體漏標(biāo)是目前遠(yuǎn)程監(jiān)督命名實(shí)體識(shí)別(distantly supervised named entity recognition,DS-NER)存在的一個(gè)難點(diǎn)問題。訓(xùn)練集中的漏標(biāo)實(shí)體在模型訓(xùn)練中提供了不正確的監(jiān)督信息,模型將在后續(xù)預(yù)測(cè)實(shí)體類型時(shí)更傾向于將該類實(shí)體預(yù)測(cè)為非實(shí)體,導(dǎo)致模型的實(shí)體識(shí)別和分類能力下降,同時(shí)影響了模型的泛化性能。針對(duì)這一問題,提出了融合實(shí)體特征相似度計(jì)算負(fù)采樣命名實(shí)體識(shí)別方法。首先,通過對(duì)候選樣本和標(biāo)注實(shí)體樣本進(jìn)行相似度計(jì)算并打分;其次,以相似度得分作為依據(jù)對(duì)候選樣本進(jìn)行采樣,采樣出參與訓(xùn)練的樣本。與隨機(jī)負(fù)采樣方法相比,該方法通過結(jié)合相似度計(jì)算,降低了采樣到漏標(biāo)實(shí)體的可能性,進(jìn)而提高了訓(xùn)練數(shù)據(jù)的質(zhì)量,從而提升了模型的性能。實(shí)驗(yàn)結(jié)果表明,該方法在 CoNLL03、Wiki、Twitter三個(gè)數(shù)據(jù)集上與其他模型相比,比基線模型平均取得了5%左右的F1值提升,證明了該方法能夠有效緩解遠(yuǎn)程監(jiān)督條件下實(shí)體漏標(biāo)帶來的命名實(shí)體識(shí)別模型性能下降的問題。

    關(guān)鍵詞:命名實(shí)體識(shí)別; 實(shí)體漏標(biāo); 遠(yuǎn)程監(jiān)督; 負(fù)采樣; 數(shù)據(jù)增強(qiáng)

    中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A

    文章編號(hào):1001-3695(2024)08-011-2322-07

    doi:10.19734/j.issn.1001-3695.2023.12.0577

    Incorporating similarity negative sampling for distantly supervised NER

    Liu Yang1,2, Xian Yantuan1,2, Xiang Yan1,2, Huang Yuxin1,2

    (1.Faculty of Information Engineering & Automation, Kunming University of Science & Technology, Kunming 650500, China; 2.Yunnan Key Laboratory of Artificial Intelligence, Kunming 650500, China)

    Abstract:The entity omission is a typical problem of distantly supervised named entity recognition. Entity omission in the training set provides incorrect supervision information during model training, model will be more inclined to predict this type of entity as a non-entity when subsequently predicting entity types, resulting in a decline in the model’s entity recognition and classification capabilities, and affects the generalization performance of the model. To deal with the problem, this paper proposed a incorporating similarity negative sampling for distantly supervised named entity recognition. Firstly, it calculated and scored the similarity between the candidate samples and the labeled entity samples. Secondly, it sampled the candidate samples based on the similarity score, and sampled the samples participating in the training. Compared with the random negative sampling method, this method reduced the possibility of sampling missing entities by combining similarity calculations, thereby improving the quality of training data and thus improving the performance of the model. Experimental results show that compared with other models on the three data sets of CoNLL03, Wiki, and Twitter, compared with the baseline model, the proposed model achieved an average F1 value improvement of about 5 percentage points. It is proved that this method can effectively alleviate the problem of performance degradation of the named entity recognition model caused by missing entities under distantly supervised conditions.

    Key words:named entity recognition; entity omission; distantly supervised; negative sampling; data augmentation

    0 引言

    命名實(shí)體識(shí)別(named entity recognition,NER)主要是從文本中識(shí)別出特定類別的實(shí)體,例如人名、地名、組織機(jī)構(gòu)名等,是自然語言處理(natural language processing,NLP)中的基礎(chǔ)任務(wù)之一,能夠服務(wù)于事件抽?。?]、實(shí)體鏈接[2]、關(guān)系抽?。?]、知識(shí)圖譜等一系列下游任務(wù)。例如:在對(duì)話理解任務(wù)中,系統(tǒng)通過命名實(shí)體識(shí)別系統(tǒng)提取出相應(yīng)的實(shí)體詞,能夠幫助系統(tǒng)更加準(zhǔn)確地理解對(duì)話;在機(jī)器翻譯任務(wù)中,正確的識(shí)別命名實(shí)體有助于保證翻譯的準(zhǔn)確性和一致性,提高機(jī)器翻譯模型的整體性能,所以提升命名實(shí)體識(shí)別模型的性能是十分必要的。

    早期的命名實(shí)體識(shí)別任務(wù)識(shí)別實(shí)體種類少,標(biāo)注粒度較粗,且語種和領(lǐng)域單一,隨著自然語言處理任務(wù)的不斷發(fā)展和應(yīng)用領(lǐng)域的不斷拓展,為了保障下游任務(wù)的性能,就對(duì)命名實(shí)體識(shí)術(shù)提出了更高的要求。實(shí)體種類由早期的幾類實(shí)體類型發(fā)展到十幾類實(shí)體類型;標(biāo)注粒度從早期的粗粒度標(biāo)注進(jìn)化到更細(xì)粒度的標(biāo)注;從早期的大語種不斷發(fā)展到使用人口較少的語種,并且根據(jù)不同具體的應(yīng)用領(lǐng)域衍生出了針對(duì)領(lǐng)域的命名實(shí)體識(shí)別等。由于上述原因,命名實(shí)體識(shí)別使用人工標(biāo)注訓(xùn)練數(shù)據(jù)成為了制約模型性能發(fā)展的一大瓶頸。由于語種與領(lǐng)域的不斷拓展,利用人工方式來標(biāo)注數(shù)據(jù)花費(fèi)時(shí)間較長(zhǎng),成本較為高昂,難以滿足當(dāng)前條件下各類命名實(shí)體識(shí)別模型對(duì)訓(xùn)練數(shù)據(jù)的要求。一種解決手段是引入遠(yuǎn)程監(jiān)督(distantly supervised,DS)[4]的策略,不同于傳統(tǒng)命名實(shí)體識(shí)別方法采用人工標(biāo)注數(shù)據(jù)來訓(xùn)練,遠(yuǎn)程監(jiān)督的思路是利用外部知識(shí)庫(kù)或領(lǐng)域詞典對(duì)來自不同語種或者不同領(lǐng)域的訓(xùn)練數(shù)據(jù)進(jìn)行大量的標(biāo)注,這樣可以使得模型獲得所需的訓(xùn)練數(shù)據(jù),從而緩解訓(xùn)練數(shù)據(jù)缺乏的問題。在擁有了訓(xùn)練數(shù)據(jù)后,命名實(shí)體識(shí)別模型的應(yīng)用領(lǐng)域由此得到了極大擴(kuò)展,下游任務(wù)性能也因此得到了提高。

    不過基于遠(yuǎn)程監(jiān)督方法的命名實(shí)體識(shí)別仍存在缺陷,這阻礙了遠(yuǎn)程監(jiān)督方法的進(jìn)一步使用,因?yàn)橥ㄟ^遠(yuǎn)程監(jiān)督獲取的標(biāo)簽,標(biāo)注的實(shí)體大多有正確的標(biāo)簽,由于外部知識(shí)庫(kù)或詞典并不是完備集,其覆蓋范圍有限,不能保證完全覆蓋數(shù)據(jù)集中包含的所有實(shí)體,從而導(dǎo)致數(shù)據(jù)集中有少量標(biāo)注數(shù)據(jù)存在實(shí)體被漏標(biāo)的情況。圖1展示了一個(gè)遠(yuǎn)程標(biāo)注示例,其中“OGR”指機(jī)構(gòu),“PER”指人名。第一行是初始文本,第二行是遠(yuǎn)程監(jiān)督標(biāo)注,第三行是正確標(biāo)注。示例中,由于外部知識(shí)庫(kù)或者詞典不完備,機(jī)構(gòu)實(shí)體“Manchester City”和“Arsenal”未被標(biāo)注。

    若有某個(gè)實(shí)體在訓(xùn)練集中被漏標(biāo),模型在訓(xùn)練時(shí)便會(huì)將其作為非實(shí)體學(xué)習(xí),導(dǎo)致模型在后續(xù)預(yù)測(cè)實(shí)體類型時(shí)更傾向于將該實(shí)體預(yù)測(cè)為非實(shí)體,這將損害模型的性能。

    在訓(xùn)練過程中引入負(fù)采樣策略緩解漏標(biāo)實(shí)體問題是當(dāng)前的一種主流方法,能夠在一定程度上避免采樣到漏標(biāo)實(shí)體作為負(fù)例參與訓(xùn)練。已有的采樣方法在采樣策略上進(jìn)行了諸多探索,如隨機(jī)采樣、均勻采樣[5]、加權(quán)采樣[6]等,有效地提升了遠(yuǎn)程監(jiān)督命名實(shí)體識(shí)別的效果。然而上述模型的采樣方法在采樣策略上大多帶有一定的隨機(jī)性,不可避免地導(dǎo)致采樣出部分漏標(biāo)實(shí)體參與訓(xùn)練,給模型帶來了不正確的監(jiān)督信號(hào),從而導(dǎo)致命名實(shí)體識(shí)別模型性能下降。

    針對(duì)上述提出的問題,本文提出了融合相似度負(fù)采樣的遠(yuǎn)程監(jiān)督命名實(shí)體識(shí)別方法。該方法主要貢獻(xiàn)在于:

    a)不同于之前方法的負(fù)采樣策略帶有隨機(jī)性,本文提出了融合相似度計(jì)算的主動(dòng)采樣策略,能夠盡可能地避免采樣出未標(biāo)注的實(shí)體參與訓(xùn)練,提高訓(xùn)練數(shù)據(jù)的質(zhì)量,緩解實(shí)體漏標(biāo)帶來的模型性能下降問題。

    b)采用了基于同義實(shí)體詞替換的數(shù)據(jù)增強(qiáng)方法,有效地?cái)U(kuò)充了訓(xùn)練數(shù)據(jù),同時(shí)提高了訓(xùn)練樣本的豐富度,而且可以獲得相對(duì)原始數(shù)據(jù)更多樣性的語義特征。

    c)本文方法在CoNLL03、Wiki、Twitter三個(gè)數(shù)據(jù)集上的結(jié)果與以往的基線模型相比,性能相比基線模型平均取得了5%左右的F1值提升。

    1 相關(guān)工作

    命名實(shí)體識(shí)別方法的發(fā)展經(jīng)歷了基于規(guī)則和手工模板的方法、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法和基于深度學(xué)習(xí)的方法三個(gè)階段。

    早期的命名實(shí)體識(shí)別方法主要采用基于規(guī)則和手工模板的方法,該方法主要通過相關(guān)領(lǐng)域?qū)<覍?duì)目標(biāo)文本手工制定有效的規(guī)則識(shí)別命名實(shí)體。

    基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法從給定的、有標(biāo)簽的訓(xùn)練數(shù)據(jù)出發(fā),然后通過手動(dòng)方式構(gòu)造特征,根據(jù)特定模型對(duì)文本中的每個(gè)單詞進(jìn)行標(biāo)簽的標(biāo)注,實(shí)現(xiàn)命名實(shí)體識(shí)別。方法有條件隨機(jī)場(chǎng)(conditional random field,CRF)[7,8]、最大熵模型(maximum entropy,ME)[9]、支持向量機(jī)(support vector machine,SVM)[10]、隱馬爾可夫模型(hidden Markov model,HMM)[11]等。

    近年來,隨著技術(shù)的發(fā)展和計(jì)算設(shè)備算力的不斷提升,深度學(xué)習(xí)在計(jì)算機(jī)視覺、圖像處理等方面取得了巨大的成功,而且在自然語言處理領(lǐng)域的應(yīng)用也取得了很大的進(jìn)步。命名實(shí)體識(shí)別方法的研究也從傳統(tǒng)基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法轉(zhuǎn)向基于深度學(xué)習(xí)的方法。長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-yerm memory,LSTM)[12]被應(yīng)用于處理命名實(shí)體識(shí)別問題,使用LSTM作為編碼器,CRF作為解碼器成為了NER任務(wù)中最基礎(chǔ)的模型架構(gòu)之一。Lample等人[13]在此基礎(chǔ)上采用了雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bi-directional long short-term memory,BiLSTM)作為編碼器,提出了BiLSTM-CRF模型用于解決命名實(shí)體識(shí)別問題,BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)有效利用輸入的前向和后向特征信息,能同時(shí)關(guān)注到上下文的語義信息進(jìn)行輸出。Google在2018年提出基于Transformer的預(yù)訓(xùn)練語言模型(pre-trained language model,PLM)BERT(bidirectional encoder tepresentations from Transfor-mers)[14],在多項(xiàng)NLP任務(wù)中成功SOTA(state-of-the-art),掀起了NLP領(lǐng)域使用預(yù)訓(xùn)練語言模型的潮流,此后大多NER工作均在PLM的基礎(chǔ)上進(jìn)行微調(diào)。

    基于跨度(Span)的命名實(shí)體識(shí)別方法是一種直觀而有效的方式,基于Span的方法將句子視為實(shí)體跨度的集合,其中的元素就是句子所有可能的子序列,利用Span的語義信息對(duì)每一個(gè)Span進(jìn)行驗(yàn)證,進(jìn)而可以有效地識(shí)別實(shí)體。Fu等人[15]首先研究了基于Span的命名實(shí)體識(shí)別預(yù)測(cè)模型,并與傳統(tǒng)序列標(biāo)記框架進(jìn)行了對(duì)比。游新冬等人[16]提出了一種基于跨度與拼接的中文命名實(shí)體抽取模型,在多個(gè)中文命名實(shí)體識(shí)別數(shù)據(jù)集上的實(shí)驗(yàn)證明了其有效性。

    為了克服人工標(biāo)注時(shí)間成本過長(zhǎng)的缺陷,能以較快的速度構(gòu)建數(shù)據(jù)集,遠(yuǎn)程監(jiān)督方法被用于訓(xùn)練數(shù)據(jù)標(biāo)注。但在實(shí)際應(yīng)用中,外部知識(shí)庫(kù)或詞典并不是完備集,無法保證完整覆蓋訓(xùn)練集中的所有實(shí)體,實(shí)體漏標(biāo)情況不可避免。為了減輕漏標(biāo)實(shí)體對(duì)模型的影響,Yang等人[17]將部分條件隨機(jī)場(chǎng) (partial conditional random fields,partial CRF)引入學(xué)習(xí)過程中,同時(shí)設(shè)計(jì)了一個(gè)選擇器對(duì)樣本進(jìn)行過濾,在一定程度上減輕了遠(yuǎn)程監(jiān)督所帶來的漏標(biāo)問題。Peng 等人[18]提出了一種基于正無標(biāo)注(positive-unlabeled,PU)學(xué)習(xí)的命名實(shí)體識(shí)別方法,該方法可以利用未標(biāo)注數(shù)據(jù)和實(shí)體詞典進(jìn)行模型的學(xué)習(xí),且只需使用實(shí)體詞典去標(biāo)注部分實(shí)體,當(dāng)詞典的質(zhì)量不佳時(shí),該方法仍能很好地識(shí)別句子中的實(shí)體。但當(dāng)高質(zhì)量的訓(xùn)練數(shù)據(jù)稀缺時(shí),上述方法仍會(huì)很大程度上受到未標(biāo)注實(shí)體的影響,從而影響模型的性能。

    漏標(biāo)的實(shí)體(偽負(fù)樣本)所占比例與真負(fù)樣本相比占較少,因此負(fù)采樣的優(yōu)勢(shì)在于能夠提高采集到真負(fù)樣本的概率。因而在實(shí)體漏標(biāo)條件下訓(xùn)練模型過程中,負(fù)采樣策略被廣泛應(yīng)用。楊一帆等人[19]在病歷領(lǐng)域使用了負(fù)采樣方法,有效緩解了醫(yī)療領(lǐng)域數(shù)據(jù)漏標(biāo)造成的模型性能下降問題。Xu等人[20]利用Span標(biāo)注方法,以負(fù)采樣的方式代替了部分訓(xùn)練,緩解了遠(yuǎn)程監(jiān)督數(shù)據(jù)集中樣本帶噪的問題。但是上述負(fù)采樣策略均基于隨機(jī)性采樣,仍會(huì)采樣出部分漏標(biāo)實(shí)體參與訓(xùn)練,影響命名實(shí)體識(shí)別模型的性能。

    數(shù)據(jù)增強(qiáng)(data augmentation)一般是基于現(xiàn)有數(shù)據(jù)生成更多的新數(shù)據(jù),這樣可以增加訓(xùn)練的數(shù)據(jù)量,提高模型的泛化能力;或者給數(shù)據(jù)增加噪聲,提升模型的魯棒性。計(jì)算機(jī)視覺(computer vision,CV)被廣泛使用,在NLP任務(wù)中也被普遍應(yīng)用。Yang等人[21]提出了一種名為FactMix的數(shù)據(jù)增強(qiáng)方法,通過利用訓(xùn)練集對(duì)訓(xùn)練樣本進(jìn)行詞替換,利用PLM對(duì)非實(shí)體部分進(jìn)行隨機(jī)替換,能夠提高模型的跨領(lǐng)域能力。Wei[22]等人提出一種簡(jiǎn)易的數(shù)據(jù)增強(qiáng)技術(shù)(easy data augmentation,EDA),通過同義詞替換、隨機(jī)插入、隨機(jī)交換和隨機(jī)刪除實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)效果,能夠提高神經(jīng)網(wǎng)絡(luò)的分類性能。但上述數(shù)據(jù)增強(qiáng)方式大多是隨機(jī)的,增強(qiáng)應(yīng)盡可能YpIUO1m1a4xSnwsx87HXAQ==使擴(kuò)增的數(shù)據(jù)句子在語義和結(jié)構(gòu)上沒有發(fā)生變化,而對(duì)應(yīng)的實(shí)體之間類型應(yīng)該相同。因此,本文的數(shù)據(jù)增強(qiáng)考慮采用基于同義實(shí)體詞替換的數(shù)據(jù)增強(qiáng)方法。

    2 融合相似度負(fù)采樣的遠(yuǎn)程監(jiān)督命名實(shí)體識(shí)別模型

    2.1 問題定義

    命名實(shí)體識(shí)別是將文本中的命名實(shí)體定位識(shí)別并分類為預(yù)定義實(shí)體類型(如人名、組織名、地名等)的過程。給定一個(gè)長(zhǎng)度為n的句子X={x1,x2,…,xn},基于Span的方法是通過枚舉出X所有可能的子序列,即跨度(Span),本文使用S表示所有可能的Span的集合,記為S={s1,1,s1,2,…,si,j,…,sn,n}。其中使用(i,j)來表示每個(gè)單獨(dú)的Span,i表示每個(gè)Span在句子中的開始位置,j表示每個(gè)Span的結(jié)束位置,L為Span的最長(zhǎng)取值,即0<j-i<L。對(duì)于所有枚舉出的Span,模型會(huì)從預(yù)定義的標(biāo)簽空間預(yù)測(cè)相應(yīng)的實(shí)體類型,預(yù)定義的標(biāo)簽空間中有v個(gè)實(shí)體類型,記為Y={y1,y2,…,yv}。

    如圖2所示,給定一個(gè)句子x=“Liverpool FC is a football club”,其對(duì)應(yīng)標(biāo)簽為Y={(0,1,ORG)},其可能的所有跨度為

    S={(0,0),(0,1),…,(1,1),(1,2),…,(5,5)}

    對(duì)于其他非實(shí)體Span,則被標(biāo)記為標(biāo)簽O。

    2.2 模型架構(gòu)

    原有的負(fù)采樣策略采樣過程是基于隨機(jī)采樣方法獲取負(fù)樣本,不可避免地會(huì)采樣到漏標(biāo)實(shí)體作為負(fù)例進(jìn)行訓(xùn)練,造成模型性能下降。因?yàn)槁?biāo)實(shí)體應(yīng)與相同類型實(shí)體具有高相似度,與不同類型的其他實(shí)體具有低相似度。如果候選樣本與不同實(shí)體類型都具有較高的相似度,則此樣本很可能是一個(gè)負(fù)樣本而不是漏標(biāo)實(shí)體。所以本文提出了一種融合相似度計(jì)算遠(yuǎn)程監(jiān)督命名實(shí)體識(shí)別方法,采用基于樣本相似度計(jì)算的主動(dòng)采樣策略,盡可能避免采樣到漏標(biāo)實(shí)體參與訓(xùn)練,以此緩解實(shí)體漏標(biāo)帶來的模型性能下降問題。

    本文模型的總體結(jié)構(gòu)如圖3所示,該模型主要包括編碼器層、Span處理層、樣本相似度計(jì)算及采樣層、分類預(yù)測(cè)層。按批次輸入的文本數(shù)據(jù)通過數(shù)據(jù)增強(qiáng)及編碼層中的數(shù)據(jù)增強(qiáng)部分得到增強(qiáng)數(shù)據(jù),而后將原始數(shù)據(jù)和增強(qiáng)數(shù)據(jù)通過編碼部分進(jìn)行編碼;Span處理層將編碼后的數(shù)據(jù)處理成跨度的向量表示,并將其送入樣本相似度計(jì)算及采樣層;通過計(jì)算候選樣本與已標(biāo)注樣本之間的相似度并獲取相似度得分,以相似度得分作為依據(jù)進(jìn)行采樣,而后把已標(biāo)注樣本和采樣的樣本通過分類層輸出樣本的預(yù)測(cè)值。針對(duì)已標(biāo)注樣本和采樣出的樣本分別計(jì)算損失,合并后即為總損失。

    2.3 編碼器層及Span處理層

    本文使用預(yù)訓(xùn)練語言模型BERT作為編碼器。開始階段,為了得到句子中每個(gè)單詞對(duì)應(yīng)的上下文特征向量hi,需要利用BERT對(duì)句子進(jìn)行編碼。給定句子X={x1,x2,…,xn},將句子X輸入BERT編碼器后,對(duì)于其中的每一個(gè)單詞xi,都會(huì)得到一個(gè)對(duì)應(yīng)的上下文特征向量hi,如式(1)所示。

    h1,h1,…,h1=BERTencoder(x1,x2,…,xn)(1)

    Span的長(zhǎng)度記為L(zhǎng),如式(2)所示。其中i表示Span的開始位置,j表示每個(gè)Span的結(jié)尾位置。

    L=j-i+1(2)

    對(duì)Span長(zhǎng)度進(jìn)行編碼,記為l,是對(duì)Span的長(zhǎng)度特征進(jìn)行編碼后的可訓(xùn)練嵌入。將可能的所有跨度集合記為S,對(duì)于S中的每個(gè)Span而言,si,j∈S,其中每個(gè)子元素可以表示為

    si,j=[hi;hj;l](3)

    其中:hi表示Span的開始部分;hj表示每個(gè)Span的結(jié)尾部分。有跨度集合S∈Euclid ExtraaBpB×N×r,其中B為批次中數(shù)據(jù)條數(shù),N為批次數(shù)據(jù)中最長(zhǎng)Span的長(zhǎng)度,r為使用多層線性層進(jìn)行降維后的維度。

    2.4 相似度計(jì)算及采樣層

    本文通過實(shí)體的標(biāo)簽信息,將跨度分為標(biāo)注樣本和未標(biāo)注樣本,并且將未標(biāo)注樣本都視為潛在的負(fù)樣本。以此為據(jù),將處理得到的S劃分為已標(biāo)注樣本向量表示集SL={sl1,sl2,…,slR}和候選樣本向量表示集SU={su1,su2,…,suT},其中T>>R。未標(biāo)注樣本與標(biāo)注樣本的相似度計(jì)算公式如式(4)所示。

    p=sim(su)=su·sl‖su‖‖sl‖(4)

    對(duì)于su∈SU,都會(huì)與SL中的每一個(gè)樣本計(jì)算相似度,記為pi;用上述計(jì)算出的相似度來計(jì)算未標(biāo)注樣本的相似度得分H,其計(jì)算過程如式(5)所示,其中R為批次中已標(biāo)注樣本的數(shù)量。

    H(su)=-∑Ri=1pilog2pi(5)

    而后以計(jì)算出的相似度得分為依據(jù),對(duì)SU中的樣本按從高到低進(jìn)行排序,并按此得分為依據(jù)進(jìn)行采樣。為了盡可能地從候選樣本中采樣出負(fù)樣本,也為了節(jié)省計(jì)算成本,采樣數(shù)量由采樣率控制,采樣數(shù)量如式(6)所示,其中T為未標(biāo)注樣本的數(shù)量,r代表采樣率。

    K=(1-r)×T(6)

    由此采樣出的樣本集合為Sselect={ssel1,ssel2,…,sselk},數(shù)量為K個(gè)。

    2.5 分類預(yù)測(cè)層

    對(duì)于SL和Sselect中的特征向量si,j,將其輸入到多層感知機(jī)(multi-later perceptron,MLP)中來預(yù)測(cè)Span的標(biāo)簽類型,通過標(biāo)簽的權(quán)重和Span向量的內(nèi)積來評(píng)分,評(píng)分函數(shù)如式(7)所示。

    score(si,j,yv)=sTi,jwlabel(7)

    其中:wlabel代表標(biāo)簽的權(quán)重;si,j代表Span的特征向量;v為可學(xué)習(xí)的實(shí)體類型種類。而后將每個(gè)實(shí)體Span得分輸入到softmax函數(shù)中,選擇得分最高的標(biāo)簽當(dāng)作實(shí)體標(biāo)簽,如式(8)所示。

    P(y|si)=softmax(W·score(si,j,yv)+b)(8)

    其中:W和b分別為softmax層的權(quán)重和偏置。

    本文模型的損失函數(shù)采用Zhang等人[23]提出的廣義交叉熵?fù)p失函數(shù)(generalized cross entropy loss,GCE loss),如式(9)所示。

    LGCE=∑ni=11-P(y|si,j)qq(9)

    其中:n為樣本數(shù)量;q為變換參數(shù)。

    對(duì)于SL和Sselect來說,兩個(gè)序列經(jīng)過兩次廣義交叉熵?fù)p失函數(shù)分別得到LossL、Losssel,總損失為兩者加和,如式(10)所示。

    Lossall=LossL+Losssel(10)

    3 實(shí)驗(yàn)結(jié)果與分析

    3.1 實(shí)驗(yàn)數(shù)據(jù)集

    本文使用了三個(gè)公共數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),分別是CoNLL03、Wiki、Twitter,其中數(shù)據(jù)集的標(biāo)簽通過遠(yuǎn)程監(jiān)督方式[24]獲得。

    a)CoNLL03數(shù)據(jù)集是來自路透社語料庫(kù)的新聞通信文章,標(biāo)注了人名(PER,persons)、地名(LOC,locations)、組織機(jī)構(gòu)(ORG,organizations)、MISC(miscellaneous)四種實(shí)體,其中原始訓(xùn)練集數(shù)據(jù)為14 041條,測(cè)試集為3 250條,實(shí)驗(yàn)集為3 453條;b)Wiki數(shù)據(jù)集來自于維基百科的文章,標(biāo)注了人名(PER,persons)、地名(LOC,locations)、組織機(jī)構(gòu)(ORG,organizations)、MISC(miscellaneous)四種實(shí)體。其中原始訓(xùn)練集數(shù)據(jù)為1 142條,測(cè)試集為280條,實(shí)驗(yàn)集為274條;c)Twitter數(shù)據(jù)集來自于推特的推文,標(biāo)注了地名(geoloc)、設(shè)施(facility)、電影(movie)、公司(company)等10種實(shí)體,其中原始訓(xùn)練集數(shù)據(jù)為2 393條,測(cè)試集為1 000條,測(cè)試集為3 473條。此外為了驗(yàn)證本文模型在中文命名實(shí)體識(shí)別上的能力,還在Ontonotes[25]中文數(shù)據(jù)集上開展了對(duì)比實(shí)驗(yàn)。

    3.2 實(shí)驗(yàn)設(shè)置

    實(shí)驗(yàn)使用的GPU為GeForce RTX 2080Ti。本文采用PyTorch實(shí)現(xiàn)提出的模型和算法實(shí)驗(yàn)。實(shí)驗(yàn)中采用反向傳播算法進(jìn)行參數(shù)優(yōu)化。

    本文使用Adam優(yōu)化器來訓(xùn)練模型,其學(xué)習(xí)率初始值為1E-5。廣義交叉熵?fù)p失函數(shù)的變換參數(shù)q值設(shè)為0.2。Span最大長(zhǎng)度設(shè)置為8。訓(xùn)練過程將BERT_BASE作為預(yù)訓(xùn)練語言模型,隱層數(shù)為768,注意力機(jī)制頭數(shù)為12頭。其他主要超參數(shù)具體設(shè)置如表1所示。

    3.3 評(píng)價(jià)指標(biāo)

    本文將準(zhǔn)確率P(precision)、召回率R(precision)、F1值(F1 score)作為實(shí)驗(yàn)的評(píng)價(jià)標(biāo)準(zhǔn),如式(11)~(13)所示。

    P=識(shí)別正確的實(shí)體數(shù)識(shí)別的實(shí)體數(shù)×100%(11)

    R=識(shí)別正確的實(shí)體數(shù)樣本的實(shí)體總數(shù)×100%(12)

    F1=2PRP+R×100%(13)

    3.4 模型實(shí)現(xiàn)細(xì)節(jié)

    實(shí)體漏標(biāo)會(huì)導(dǎo)致模型學(xué)習(xí)不正確的監(jiān)督信號(hào),導(dǎo)致模型對(duì)噪聲數(shù)據(jù)產(chǎn)生擬合,從而導(dǎo)致模型性能變差。本文提出融合相似度計(jì)算的負(fù)采樣算法來盡量避免噪聲數(shù)據(jù)參與訓(xùn)練。具體而言,該算法首先通過基于同義詞替換的數(shù)據(jù)增強(qiáng)方法擴(kuò)充訓(xùn)練數(shù)據(jù),例如句子“Shanghai is an East Asian city”中,“Shanghai”為L(zhǎng)OC實(shí)體類型,在其對(duì)應(yīng)的同義實(shí)體候選集中有其同義的單詞“Tokyo”,進(jìn)行替換后,生成新句子“Tokyo is an East Asian city”,依此類推,一個(gè)句子就可以變成兩個(gè)句子或者多個(gè)句子,實(shí)現(xiàn)訓(xùn)練數(shù)據(jù)的擴(kuò)充,從而達(dá)到數(shù)據(jù)增強(qiáng)的目的。

    在同義實(shí)體詞替換過程中,因?yàn)樘鎿Q的實(shí)體詞與被替換的詞屬于同一實(shí)體類型,所以替換后生成的句子仍然是合乎語法和語義的。而后依據(jù)實(shí)體的標(biāo)簽信息,將樣本劃分為標(biāo)注樣本和未標(biāo)注樣本,其中標(biāo)注樣本視為正樣本,未標(biāo)注樣本視為負(fù)樣本,通過計(jì)算正負(fù)樣本之間的相似度并計(jì)算相似度得分,以此作為主動(dòng)采樣的依據(jù)。最后在相似度得分的基礎(chǔ)上對(duì)負(fù)樣本進(jìn)行采樣,采樣出的訓(xùn)練數(shù)據(jù)參與訓(xùn)練。

    算法1 融合相似度計(jì)算的負(fù)采樣算法

    輸入:存在數(shù)據(jù)漏標(biāo)情況的原始訓(xùn)練數(shù)據(jù)樣本。

    輸出:采樣出的參與訓(xùn)練的樣本。

    a)對(duì)輸入數(shù)據(jù)進(jìn)行預(yù)處理。

    b)使用基于同義詞替換的數(shù)據(jù)增強(qiáng)方法對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行擴(kuò)充。

    c)根據(jù)式(1)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行編碼得到數(shù)據(jù)的特征向量h。

    d)根據(jù)式(3)對(duì)特征向量進(jìn)行跨度編碼得到跨度向量集S。

    e)根據(jù)實(shí)體的標(biāo)簽信息,將跨度向量集劃分為標(biāo)注樣本向量集SL和候選樣本向量集Sselect。

    f)根據(jù)式(4)計(jì)算候選樣本與標(biāo)注樣本之間的樣本相似度pi。

    g)由步驟f)計(jì)算出的樣本相似度,根據(jù)式(5)計(jì)算出樣本的相似度得分H。

    h)將步驟g)計(jì)算出的相似度得分按從高到低對(duì)候選樣本進(jìn)行排序,并根據(jù)式(6)來進(jìn)行負(fù)采樣,從而采樣出參與訓(xùn)練的樣本。

    i)返回最后參與訓(xùn)練的樣本集Sselect。

    3.5 對(duì)比實(shí)驗(yàn)

    為驗(yàn)證本文模型的有效性,采用以下方法作為基準(zhǔn)模型,與本文模型進(jìn)行比較:

    a)BiLSTM-CRF[26]是傳統(tǒng)的命名實(shí)體識(shí)別方法,使用通過遠(yuǎn)程監(jiān)督獲得標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練。

    b)AutoNER[24] 通過附加規(guī)則和字典對(duì)遠(yuǎn)程監(jiān)督的數(shù)據(jù)集進(jìn)行過濾,并為遠(yuǎn)程監(jiān)督命名實(shí)體識(shí)別任務(wù)提出了一種新的標(biāo)注方案。

    c)LRNT[27] 將部分條件隨機(jī)場(chǎng)用于采樣非實(shí)體部分?jǐn)?shù)據(jù)參與訓(xùn)練。

    d)KB Matching使用基于知識(shí)庫(kù)的方法,通過字符串匹配來檢索實(shí)體。

    e)Span-NS[5]在訓(xùn)練過程中采用了基于隨機(jī)采樣方法的采樣策略。

    f)Span-NS-V[6]在訓(xùn)練過程中均采用了基于加權(quán)抽樣方法的采樣策略。

    g)BS-NER[17]利用Span標(biāo)注方法,以負(fù)采樣的方式代替了部分訓(xùn)練,緩解了遠(yuǎn)程監(jiān)督數(shù)據(jù)集中樣本帶噪的問題。

    本文模型和其他基線模型在CoNLL03、Wiki、Twitter數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表2所示。

    如表2所示,相比于其他的基線模型,本文模型的主要評(píng)價(jià)指標(biāo)都有所提升,尤其是F1值的表現(xiàn)均為最優(yōu)。本文模型在CoNLL03數(shù)據(jù)集上的表現(xiàn)都優(yōu)于其他基線模型,其中R和F1值都高于其他模型,與BiLSTM-CRF等未采用負(fù)采樣策略的模型相比,F(xiàn)1值分別提升了10.33~21.69百分點(diǎn)不等,這說明融合相似度計(jì)算的主動(dòng)采樣策略有利于緩解實(shí)體漏標(biāo)問題,能夠提高模型性能。

    與Span-NS等負(fù)采樣模型相比,本文模型的性能仍要好于先前的負(fù)采樣模型。因?yàn)橄惹暗呢?fù)采樣模型的采樣策略大多帶有一定的隨機(jī)性,所以模型不可避免地會(huì)選擇未標(biāo)記的實(shí)體參與訓(xùn)練,從而在一定程度上對(duì)模型的性能造成影響。本文模型對(duì)比先前的采樣模型,F(xiàn)1值提升了1.11~5.58百分點(diǎn)不等,這說明當(dāng)訓(xùn)練數(shù)據(jù)中存在漏標(biāo)實(shí)體時(shí),在負(fù)采樣的過程中引入融合相似度計(jì)算的主動(dòng)采樣策略,可以提高采樣出的樣本質(zhì)量,盡可能地避免采樣到漏標(biāo)實(shí)體。

    在Wiki數(shù)據(jù)集上,本文模型的表現(xiàn)也全面超過了其他基線模型。與Span-NS和Span-NS-V相比,F(xiàn)1值分別提升了2.92和2.90百分點(diǎn)。即使是和當(dāng)前性能最優(yōu)的模型相比,本文模型的性能仍要好于BS-NER,F(xiàn)1值提高1.89百分點(diǎn)。Wiki數(shù)據(jù)集數(shù)據(jù)量與其他兩個(gè)數(shù)據(jù)集相比是偏少的,訓(xùn)練數(shù)據(jù)的缺少可能會(huì)給模型帶來過擬合問題,本文模型與之前的模型相比,引入了基于同義詞替換的數(shù)據(jù)增強(qiáng)方法,有效擴(kuò)充了訓(xùn)練數(shù)據(jù),同時(shí)可以獲得相對(duì)原本數(shù)據(jù)更多樣性的語義特征,并且能夠提高模型的泛化能力;同時(shí)得益于負(fù)采樣方法提升了R值,從而提升了整體的F1值,這也反映在了實(shí)驗(yàn)結(jié)果上。

    本文模型在Twitter數(shù)據(jù)集上也取得了不錯(cuò)的效果,相比未采用負(fù)采樣方法的F1值平均提高了22.31百分點(diǎn)。與近期的BS-NER相比,都同樣取得了最優(yōu)的結(jié)果,F(xiàn)1值提高了2.64百分點(diǎn)。與Span-NS-V相比,取得了最優(yōu)F1值,在精確率和召回率上各有優(yōu)勢(shì)。

    從圖4可以更加直觀地看出,本文模型在CoNLL03、Wiki和 Twitter三個(gè)數(shù)據(jù)集上的F1值都取得了較其他模型更優(yōu)的結(jié)果??傮w來看,本文模型在各類指標(biāo)上優(yōu)勢(shì)明顯,表明了融合相似度計(jì)算的主動(dòng)采樣策略的遠(yuǎn)程監(jiān)督命名實(shí)體識(shí)別方法能夠有效緩解實(shí)體漏標(biāo)帶來的模型性能下降問題,并且結(jié)合了同義實(shí)體詞替換的數(shù)據(jù)增強(qiáng)方法,提高了數(shù)據(jù)來源的豐富性,從而提升了模型的泛化性能。

    為了驗(yàn)證本文模型在中文命名實(shí)體識(shí)別中的應(yīng)用能力,在Ontonotes數(shù)據(jù)集上開展對(duì)比實(shí)驗(yàn),本文選擇TENER[28]、FLAT[29]、Lattice[30]三個(gè)具有代表性的中文命名實(shí)體識(shí)別模型作為基線模型來進(jìn)行對(duì)比。本文模型和其他基線模型在Ontonotes數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表3所示。

    如表3所示,相比于其他三個(gè)基線模型,F(xiàn)1值分別提高了 2.37、0.71和0.62百分點(diǎn)。雖然本文模型是用于處理英文命名實(shí)體識(shí)別,但實(shí)驗(yàn)結(jié)果證明本文模型在中文命名實(shí)體識(shí)別上也能達(dá)到較好的效果。綜上,由本文模型在中文命名實(shí)體識(shí)別數(shù)據(jù)集上的表現(xiàn),可以證明本文模型在中文命名實(shí)體識(shí)別領(lǐng)域也有一定的競(jìng)爭(zhēng)力。

    3.6 消融實(shí)驗(yàn)

    本節(jié)通過消融實(shí)驗(yàn)來驗(yàn)證模型模塊的有效性。消融實(shí)驗(yàn)將在三個(gè)通過遠(yuǎn)程監(jiān)督進(jìn)行的標(biāo)注數(shù)據(jù)集上進(jìn)行,設(shè)置如下:a)不使用負(fù)采樣策略與數(shù)據(jù)增強(qiáng)方法,只使用原始的框架訓(xùn)練模型(記為w/o AUG+NEG_S);b)僅使用數(shù)據(jù)增強(qiáng)方法訓(xùn)練模型,不采用負(fù)采樣策略參與訓(xùn)練(記為w/o NEG_S);c)僅使用負(fù)采樣方法訓(xùn)練模型,不采用數(shù)據(jù)增強(qiáng)方法參與訓(xùn)練(記為w/o AUG)。實(shí)驗(yàn)結(jié)果如表4所示。

    從表中可以得出以下結(jié)論:

    a)在三個(gè)數(shù)據(jù)集上,本文模型的F1值都是最佳的,說明模型中的每一個(gè)模塊(包括負(fù)采樣策略和數(shù)據(jù)增強(qiáng)方法)都是十分重要的。

    b)在三種設(shè)置條件下,w/o AUG+NEG_S效果是最差的,分別比原模型降低了7.46、7.44、7.19百分點(diǎn)。這說明本文模型所提出的融合相似度計(jì)算的主動(dòng)采樣策略和同義實(shí)體詞替換的數(shù)據(jù)增強(qiáng)方法能夠十分有效地提升模型性能,其效果對(duì)模型皆具有正向作用。融合相似度計(jì)算的主動(dòng)采樣策略能夠更加準(zhǔn)確地避免從樣本中采樣出漏標(biāo)實(shí)體作為樣本來訓(xùn)練分類器,從而提高模型分類性能;數(shù)據(jù)增強(qiáng)模塊可以有效擴(kuò)充訓(xùn)練數(shù)據(jù),增強(qiáng)模型泛化性。

    c)為驗(yàn)證融合相似度計(jì)算的負(fù)采樣策略對(duì)模型的提升能力,本文以w/o NEG_S同原始模型進(jìn)行比較,實(shí)驗(yàn)結(jié)果相比較實(shí)驗(yàn)組F1值下降了5.98~6.58百分點(diǎn)不等。這說明當(dāng)訓(xùn)練數(shù)據(jù)中存在漏標(biāo)實(shí)體時(shí),在采樣負(fù)例訓(xùn)練模型的過程中引入相似度計(jì)算機(jī)制,可以進(jìn)一步提升訓(xùn)練數(shù)據(jù)質(zhì)量,從而提高模型的性能。這對(duì)模型性能的提升是非常有效的,其在模型中是不可或缺的一部分。

    d)w/o AUG相較于原始模型,數(shù)據(jù)指標(biāo)有一定程度的下降,證實(shí)了基于同義實(shí)體詞替換的數(shù)據(jù)增強(qiáng)方法對(duì)模型是有正增益的。通過基于同義實(shí)體詞替換的數(shù)據(jù)增強(qiáng)可以有效擴(kuò)充訓(xùn)練數(shù)據(jù),增加了樣本來源的多樣性,同時(shí)又可以獲得相對(duì)原本數(shù)據(jù)更多樣性的語義特征,提高了模型的泛化能力,對(duì)模型的增益效果也體現(xiàn)在了實(shí)驗(yàn)結(jié)果上。

    3.7 采樣率對(duì)比實(shí)驗(yàn)

    在負(fù)采樣階段,采樣的樣本數(shù)量與質(zhì)量都和采樣率有關(guān),這由式(5)可以看出,因此本文對(duì)不同的采樣率進(jìn)行對(duì)比實(shí)驗(yàn),以探索采樣率對(duì)實(shí)驗(yàn)結(jié)果的影響。

    以三個(gè)數(shù)據(jù)集的F1值為例,表5列出了不同采樣率下,三個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果。high代表采樣時(shí)按樣本相似度得分從高到低對(duì)樣本進(jìn)行采樣,low代表采樣時(shí)按樣本相似度得分從低到高對(duì)樣本進(jìn)行采樣,如圖5所示。

    從表5中發(fā)現(xiàn),當(dāng)采樣出的樣本為相似度得分靠前5%的樣本時(shí),F(xiàn)1值結(jié)果為最優(yōu),另兩個(gè)相似度得分靠前的采樣率下的模型表現(xiàn)略有下降。

    相比之下,當(dāng)采樣到相似度得分較低的樣本時(shí),模型性能出現(xiàn)了明顯的下降。說明從相似度得分較低的樣本中采樣出的樣本中可能含有較多的漏標(biāo)實(shí)體,這樣的樣本不利于模型學(xué)習(xí)樣本分類,會(huì)給模型帶來錯(cuò)誤的監(jiān)督信號(hào),從而導(dǎo)致模型性能下降。

    3.8 案例分析

    本文使用“Japan began the defence of their Asian Cup title with a lucky 2-1 win against Syria in a Group C championship match on Friday.”作為例子進(jìn)行示例分析,其中將未使用融合相似度計(jì)算的主動(dòng)負(fù)采樣方法的訓(xùn)練模型(without NS)作為本文模型的對(duì)比案例,Gold是標(biāo)準(zhǔn)標(biāo)簽。在表6中,展示了未使用負(fù)采樣方法的模型和本文模型在遠(yuǎn)程監(jiān)督條件下獲取標(biāo)簽數(shù)據(jù)訓(xùn)練模型后作出的預(yù)測(cè)。未使用負(fù)采樣方法的模型主要從遠(yuǎn)程監(jiān)督中獲取標(biāo)簽學(xué)習(xí),在訓(xùn)練過程中由于漏標(biāo)實(shí)體影響,將Asian識(shí)別為實(shí)體;而本文模型通過融合相似度計(jì)算的主動(dòng)采樣策略,避免了漏標(biāo)實(shí)體帶來的錯(cuò)誤監(jiān)督信號(hào),而且通過數(shù)據(jù)增強(qiáng)和學(xué)習(xí)預(yù)訓(xùn)練語言模型中的知識(shí)成功識(shí)別出Asian Cup為MISC類型實(shí)體,由此進(jìn)一步說明了本文模型的有效性。

    4 結(jié)束語

    本文提出了一種融合相似度負(fù)采樣的遠(yuǎn)程監(jiān)督命名實(shí)體識(shí)別方法。融合相似度計(jì)算的主動(dòng)負(fù)采樣策略盡可能地避免采樣出漏標(biāo)實(shí)體作為負(fù)例參與訓(xùn)練,提升了遠(yuǎn)程監(jiān)督條件下命名實(shí)體識(shí)別模型的性能;同時(shí),通過基于同義詞替換的數(shù)據(jù)增強(qiáng)方法,增強(qiáng)了模型的泛化能力。實(shí)驗(yàn)結(jié)果表明,本文模型在三個(gè)常用的命名實(shí)體識(shí)別數(shù)據(jù)集均取得了優(yōu)異的性能,有效地緩解了遠(yuǎn)程監(jiān)督方法條件下實(shí)體漏標(biāo)造成的模型性能下降問題。由于本文模型是針對(duì)實(shí)體漏標(biāo)這一噪聲進(jìn)行研究的,對(duì)其他類型實(shí)體噪聲的抗噪能力還有待進(jìn)一步提高。在下一步的研究方向中,擬對(duì)數(shù)據(jù)中不完全標(biāo)注帶來的噪聲進(jìn)行進(jìn)一步研究處理,以提高模型在此種噪聲條件下的預(yù)測(cè)精度,進(jìn)而增強(qiáng)模型的泛用能力。

    參考文獻(xiàn):

    [1]張虎, 張廣軍. 基于多粒度實(shí)體異構(gòu)圖的篇章級(jí)事件抽取方法[J]. 計(jì)算機(jī)科學(xué), 2023, 50(5): 255-261. (Zhang Hu, Zhang Guangjun. Document-level event extraction based on multi-granularity entity heterogeneous graph[J]. Computer Science, 2023, 50(5): 255-261.)

    [2]Gupta N, Singh S, Roth D. Entity linking via joint encoding of types, descriptions, and context[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2017: 2681-2690.

    [3]王紅, 史金釧, 張志偉. 基于注意力機(jī)制的LSTM的語義關(guān)系抽?。跩]. 計(jì)算機(jī)應(yīng)用研究, 2018, 35(5): 1417-1420,1440. (Wang Hong, Shi Jinchuan, Zhang Zhiwei. Text semantic relation extraction of LSTM based on attention mechanism[J]. Application Research of Computers, 2018,35(5): 1417-1420,1440.)

    [4]Ji Guoliang, Liu Kang, He Shizhu, et al. Distant supervision for relation extraction with sentence-level attention and entity descriptions[C]//Proc of the 31st AAAI Conference on Artificial Intelligence, the 29th Innovative Applications of Artificial Intelligence Conference and the 7th Symposium on Educational Advances in Artificial Intelligence. Palo Alto,CA: AAAI Press, 2017: 3060-3066.

    [5]Li Yangming, Liu Lemao, Shi Shuming. Empirical analysis of unlabeled entity problem in named entity recognition[EB/OL].(2021-03-18). https://arxiv.org/abs/2012.05426.

    [6]Li Yangming, Liu Lemao, Shi Shuming. Rethinking negative sampling for handling missing entity annotations[EB/OL].(2022-02-25). https://arxiv.org/abs/2108.11607.

    [7]Song Shengli, Zhang Nan, Huang Haitao. Named entity recognition based on conditional random fields[J]. Cluster Computing, 2017, 22(S3): 5195-5206.

    [8]栗偉, 趙大哲, 李博, 等. CRF與規(guī)則相結(jié)合的醫(yī)學(xué)病歷實(shí)體識(shí)別[J]. 計(jì)算機(jī)應(yīng)用研究, 2015,32(4): 1082-1086. (Li Wei, Zhao Dazhe, Li Bo, et al. Combining CRF and rule based medical named entity recognition[J]. Application Research of Compu-ters, 2015, 32(4): 1082-1086.)

    [9]Ahmed I, Sathyaraj R. Named entity recognition by using maximum entropy[J]. International Journal of Database Theory & Application, 2015, 8:43-50.

    [10]原旎, 盧克治, 袁玉虎, 等. 基于深度表示的中醫(yī)病歷癥狀表型命名實(shí)體抽取研究[J]. 世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化, 2018, 20(3): 355-362. (Yuan Ni, Lu Kezhi, Yuan Yuhu,et al. Depth representation-based named entity extraction for symptom phenotype of TCM medical record[J]. World Science and Technology—Modernization of Traditional Chinese Medicine and Materia Medica, 2018, 20(3): 355-362.)

    [11]Patil N V, Patil A S, Pawar B V. HMM based named entity recognition for inflectional language[C]//Proc of International Conference on Computer, Communications and Electronics. Piscataway, NJ: IEEE Press, 2017: 565-572.

    [12]王博冉, 林夏, 朱曉東,等. Lattice LSTM神經(jīng)網(wǎng)絡(luò)法中文醫(yī)學(xué)文本命名實(shí)體識(shí)別模型研究[J]. 中國(guó)衛(wèi)生信息管理雜志, 2019, 16(1): 84-88. (Wang Boran, Lin Xia, Zhu Xiaodong, et al. Chinese name language entity recognition(NER) using Lattice LSTM in medical language[J]. Chinese Journal of Health Informatics and Management, 2019,16(1): 84-88.)

    [13]Lample G, Ballesteros M, Subramanian S, et al. Neural architectures for named entity recognition[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies.Stroudsburg, PA: Association for Computational Linguistics, 2016: 260-270.

    [14]Devlin J, Chang M W, Lee K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[C]//Proc of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2019:4171-4186.

    [15]Fu Jinlan, Huang Xuanjing, Liu Pengfei. SpanNER: named entity recognition as span prediction[C]//Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2021: 7183-7195.

    [16]游新冬, 劉陌村, 韓君妹,等. EMSS: 一種基于Span匹配的中文實(shí)體抽取方法[J/OL]. 小型微型計(jì)算機(jī)系統(tǒng). (2023-07-10). http://kns.cnki.net/kcms/detail/21.1106.TP.20230710.1020.003.html. (You Xindong, Liu Mocun, Han Junmei, et al. EMSS: a Chinese entity extraction method based on Span matching[J/OL].Journal of Chinese Computer Systems. (2023-07-10). http://kns.cnki.net/kcms/detail/21.1106.TP.20230710.1020.003.html.)

    [17]Yang Yaosheng, Chen Wenliang, Li Zhenghua, et al. Distantly supervised NER with partial annotation learning and reinforcement lear-ning[C]//Proc of the 27th International Conference on Computational Linguistics. Stroudsburg, PA: Association for Computational LinguisticPeElexO9iLW9K2uUQQNYdNcQyXvqx2SqmcxswMohuRM=s, 2018: 2159-2169.

    [18]Peng Minlong, Xing Xiaoyu, Zhang Qi, et al. Distantly supervised named entity recognition using positive-unlabeled learning[C]//Proc of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2019: 2409-2419.

    [19]楊一帆, 施淼元, 繆慶亮,等. 基于遠(yuǎn)程監(jiān)督的病歷文本漏標(biāo)問題研究[J]. 中文信息學(xué)報(bào), 2022, 36(8): 73-80. (Yang Yifan, Shi Miaoyuan, Miao Qingliang, et al. Conquering unlabeled entity in medical record text under distant supervision framework[J]. Journal of Chinese Information Processing, 2022, 36(8): 73-80.)

    [20]Xu Lu, Bing Lidong, Li Wei. Sampling better negatives for distantly supervised named entity recognition[C]//Proc of the 61st Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2023: 4874-4882.

    [21]Yang Linyi, Yuan Lifan, Cui Leyang, et al. FactMix: using a few labeled in-domain examples to generalize to cross-domain named entity recognition[C]//Proc of the 29th International Conference on Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2022: 5360-5371.

    [22]Wei J, Zou Kai. EDA: easy data augmentation techniques for boosting performance on text classification tasks[C]//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2019: 6382-6388.

    [23]Zhang Zhilu, Sabuncu M R. Generalized cross entropy loss for trai-ning deep neural networks with noisy labels[C]//Proc of the 32nd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2018: 8792-8802.

    [24]Shang Jingbo, Liu Liyuan, Gu Xiaotao, et al. Learning named entity tagger using domain-specific dictionary[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2018: 2054-2064.

    [25]Weischedel R, Palmer M, Marcus M, et al. OntoNotes release 4. 0. LDC2011T03[EB/OL].(2011-02-15). https://doi.org/10.35111/gfjf-7r50.

    [26]Ma Xuezhe, Hovy E. End-to-end sequence labeling via bi-directional LSTM-CNNs-CRF[C] //Proc of the 54th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2016: 1064-1074.

    [27]Cao Yixin, Hu Zikun, Chua T S, et al. Low-resource name tagging learned with weakly labeled data[C]//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2019: 261-270.

    [28]Yan Hang, Deng Bocao, Li Xiaonan, et al. TENER: adapting Transformer encoder for named entity recognition[EB/OL].(2019-12-10). https://arxiv.org/abs/1911.04474.

    [29]Li Xiaonan, Yan Hang, Qiu Xipeng, et al. FLAT: Chinese NER using flat-lattice transformer[C]//Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2020: 6836-6842.

    [30]Zhang Yue, Yang Jie. Chinese NER using Lattice LSTM[C] //Proc of the 56th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2018: 1554-1564.

    衡东县| 凌源市| 陵水| 吴忠市| 福州市| 阜平县| 裕民县| 周宁县| 聂荣县| 红安县| 昭平县| 赤城县| 建湖县| 耒阳市| 富川| 遂宁市| 东海县| 剑川县| 蒙阴县| 依兰县| 彩票| 绥江县| 寿宁县| 疏附县| 聂拉木县| 长乐市| 扶风县| 荥经县| 厦门市| 宝鸡市| 贵南县| 岳西县| 榆树市| 沂源县| 板桥市| 龙海市| 灌阳县| 营山县| 中宁县| 扎兰屯市| 黑龙江省|