王志娟,劉飛飛,趙小兵,宋 偉
(1. 中央民族大學(xué) 信息工程學(xué)院,北京 100081;2. 國(guó)家語言資源監(jiān)測(cè)與研究少數(shù)民族語言中心,北京 100081;3. 好未來教育科技集團(tuán),北京 100080)
命名實(shí)體識(shí)別(named entity recognition, NER)作為信息抽取的子任務(wù),是自然語言處理任務(wù)的基礎(chǔ)環(huán)節(jié),是信息檢索、知識(shí)圖譜等研究的基礎(chǔ)。經(jīng)過多年發(fā)展,命名實(shí)體識(shí)別研究覆蓋了英語、漢語、印地語、阿拉伯語、日語、西班牙語等多種語言。
命名實(shí)體識(shí)別的主要方法有規(guī)則、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)三類[1-2]。根據(jù)標(biāo)注語料的規(guī)模,機(jī)器學(xué)習(xí)又可以分為監(jiān)督式機(jī)器學(xué)習(xí)(訓(xùn)練語料全部標(biāo)注)、半監(jiān)督式機(jī)器學(xué)習(xí)(訓(xùn)練語料部分標(biāo)注)和無監(jiān)督式機(jī)器學(xué)習(xí)(無標(biāo)注語料)三種,其中,基于大規(guī)模標(biāo)注語料的監(jiān)督式學(xué)習(xí)方法的命名實(shí)體識(shí)別性能優(yōu)于半監(jiān)督和無監(jiān)督方法,是常用的命名實(shí)體識(shí)別方法。
主動(dòng)學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子領(lǐng)域,其主要工作是有針對(duì)性地選擇一些信息量大的語料進(jìn)行人工標(biāo)注,進(jìn)而通過較少的標(biāo)注語料實(shí)現(xiàn)較好的模型學(xué)習(xí)效果,從而最大限度地降低語料標(biāo)注成本[3-4]。目前主動(dòng)學(xué)習(xí)方法已經(jīng)成功應(yīng)用于許多自然語言處理任務(wù),例如,文本分類[5]、詞性標(biāo)記[6]、詞義消歧[7]、自動(dòng)翻譯[8]、命名實(shí)體識(shí)別[9-12]等。
本文提出了一種基于置信度的藏文人名識(shí)別的主動(dòng)學(xué)習(xí)模型,該模型用約33%的人工標(biāo)注語料就可達(dá)到監(jiān)督式學(xué)習(xí)模型的藏文人名識(shí)別效果。
本文的主要內(nèi)容安排如下: 首先介紹了藏文人名識(shí)別的研究現(xiàn)狀、面臨的困難以及主動(dòng)學(xué)習(xí)的原理,其次介紹了基于置信度的藏文人名識(shí)別的主動(dòng)學(xué)習(xí)模型,然后是實(shí)驗(yàn)部分,最后是結(jié)論和展望。
首先介紹藏文人名的識(shí)別研究現(xiàn)狀,然后介紹主動(dòng)學(xué)習(xí)的原理。
早期的藏文命名實(shí)體識(shí)別的研究主要采用基于規(guī)則的方法,Yu等[13]提出利用格助詞、邊界特征、詞典等識(shí)別藏文命名實(shí)體的方法,Sun等[14]提出基于多特征的藏族人名識(shí)別方法,結(jié)合藏文人名詞典匹配、邊界特征、上下文特征、人名高頻詞等多個(gè)特征實(shí)現(xiàn)藏文人名的識(shí)別。
2014年之后,藏文命名實(shí)體的識(shí)別方法開始以基于監(jiān)督式機(jī)器學(xué)習(xí)方法為主。加羊吉等[15]提出了最大熵和條件隨機(jī)場(chǎng)相融合的藏文人名識(shí)別方法;華卻才讓等[16]提出基于感知機(jī)的藏文命名實(shí)體識(shí)別;康才畯等[17]提出了基于條件隨機(jī)場(chǎng)的藏文人名識(shí)別方法;2017年,珠杰等[18]基于條件隨機(jī)場(chǎng)以及觸發(fā)詞、虛詞、人名詞典、人名后綴等特征的不同優(yōu)化組合實(shí)現(xiàn)了藏文人名識(shí)別。
目前藏文人名識(shí)別研究已經(jīng)取得了較好的識(shí)別效果,不過還存在音譯人名及與普通名詞同形的藏文人名識(shí)別效果不理想的問題[15]。這些問題往往是由于訓(xùn)練語料覆蓋面不夠所致,而藏文是一種資源稀缺語言,大量語料的標(biāo)注將需要更高的人力、物力和財(cái)力成本,對(duì)此本文提出了一種基于置信度的主動(dòng)學(xué)習(xí)方法,該方法將選擇那些信息量大、無冗余的語料進(jìn)行人工標(biāo)注,進(jìn)而達(dá)到降低語料標(biāo)注成本的目的。
主動(dòng)學(xué)習(xí)是半監(jiān)督機(jī)器學(xué)習(xí)的特例,該方法主要用于構(gòu)造有效訓(xùn)練集,由于訓(xùn)練集中通常包含大量的冗余樣本,主動(dòng)學(xué)習(xí)方法從大量未標(biāo)注語料中通過一定的選擇策略選擇一定數(shù)量的語料進(jìn)行人工標(biāo)注,從而降低語料標(biāo)注成本[3]。
主動(dòng)學(xué)習(xí)方法可以由以式(1)所示的五個(gè)組件進(jìn)行建模[19]。
A=(C,L,S,Q,U)
(1)
其中,C為分類器,L為已標(biāo)注的訓(xùn)練語料;S為語料標(biāo)注人員;Q為選擇策略,用于從未標(biāo)注的語料中選擇信息量大的語料供人工標(biāo)注;U為整個(gè)未標(biāo)注語料。
主動(dòng)學(xué)習(xí)方法主要分為兩個(gè)階段: 第一階段為初始化階段,利用已標(biāo)注的語料建立一個(gè)初始分類器模型;第二階段為迭代選擇階段,利用第一階段構(gòu)建的分離器標(biāo)注未標(biāo)注語料U,并按照某種選擇策略Q從U中選取一定數(shù)量的語料交給標(biāo)注者S進(jìn)行標(biāo)注,然后,將人工標(biāo)注結(jié)果添加到已標(biāo)注語料L中,重新訓(xùn)練分類器,直至滿足停止標(biāo)準(zhǔn)為止[20]。
目前,主動(dòng)學(xué)習(xí)方法已被應(yīng)用于命名實(shí)體識(shí)別任務(wù)中,Shen 等[9]提出了一種基于多特征的主動(dòng)學(xué)習(xí)方法,該方法將信息性、代表性、多樣性三種特征進(jìn)行表示量化,通過融合這三種特征的選擇策略減少了人工標(biāo)注成本。實(shí)驗(yàn)顯示: 在保證識(shí)別效果的前提下,該方法可以減少約80%的語料標(biāo)注量。Yao 等[11]提出了基于信息密度的選擇策略,該方法僅利用約1萬個(gè)標(biāo)注句子就實(shí)現(xiàn)了人工標(biāo)注約13萬句子的效果。
針對(duì)藏文人名識(shí)別中由于訓(xùn)練語料稀疏導(dǎo)致的識(shí)別效果不理想的問題,理論上可以通過增加訓(xùn)練語料規(guī)模解決。本文基于不確定主動(dòng)學(xué)習(xí)算法,利用條件隨機(jī)場(chǎng)作為藏文人名識(shí)別模型,選擇模型標(biāo)注結(jié)果中置信度較低的語料進(jìn)行人工標(biāo)注,進(jìn)而可以在保證識(shí)別效果的前提下,大大減少語料的人工標(biāo)注成本。
藏文人名識(shí)別的主動(dòng)學(xué)習(xí)過程,如圖1所示。
圖1 主動(dòng)學(xué)習(xí)原理
首先給定少量人工標(biāo)注語料L和大量未標(biāo)注語料U。然后按以下步驟訓(xùn)練基于主動(dòng)學(xué)習(xí)的藏文人名識(shí)別模型。
第一步: 利用人工標(biāo)注語料L訓(xùn)練一個(gè)基于CRF的藏文人名識(shí)別模型ML。
第二步: 用ML去標(biāo)注大量未標(biāo)注語料。
第三步: 在標(biāo)注結(jié)果中按一定的選擇策略選擇若干不確定性高、信息量大的語料,交給人工標(biāo)注。
第四步: 將人工新標(biāo)注的語料添加到已標(biāo)注語料L中,同時(shí)將其從未標(biāo)注語料U中刪除。
第五步: 判讀是否滿足主動(dòng)學(xué)習(xí)結(jié)束條件,若滿足,則結(jié)束;若不滿足,則重復(fù)步驟一到五,直到滿足主動(dòng)學(xué)習(xí)結(jié)束條件。
因此,對(duì)于基于主動(dòng)學(xué)習(xí)的藏文人名識(shí)別模型而言,選擇策略和停止策略的設(shè)計(jì)至關(guān)重要,下面基于置信度和新舊模型標(biāo)注結(jié)果的差異度分別介紹兩種選擇策略和兩種停止策略。
本文基于CRF模型識(shí)別藏文人名,對(duì)于給定的輸入序列X,其標(biāo)注結(jié)果為Y的條件概率為P(Y|X),該結(jié)果的范圍為[0,1],0表示對(duì)標(biāo)注結(jié)果沒有信心,1表示完全確認(rèn)標(biāo)注結(jié)果[20],如式(2)、式(3)所示。
(2)
(3)
標(biāo)注結(jié)果的置信度計(jì)算方法如式(4)所示。
Confidence(X)=P(Y|X)
(4)
本文基于句子的置信度選擇需要人工標(biāo)注的語料,具體選擇策略有兩種。
(1) 選擇策略1
該選擇策略的基本思想是每次迭代選擇置信度最低的前m個(gè)句子進(jìn)行人工標(biāo)注,因此每次選擇的句子數(shù)m是固定的。
(2) 選擇策略2
該選擇策略的基本思想是每次迭代選擇置信度低于某個(gè)閾值的n個(gè)句子進(jìn)行人工標(biāo)注。該方法每次迭代選擇的句子數(shù)可能不一樣,隨著迭代次數(shù)的增加,每次選擇的句子數(shù)n會(huì)越來越少。
本文提出了兩種停止策略。
(1) 停止策略1: 基于置信度的停止策略。
該停止策略的基本思想是當(dāng)所有待選語料的置信度均高于設(shè)定的閾值α?xí)r,主動(dòng)學(xué)習(xí)停止。
(2) 停止策略2: 基于差異度的停止策略。
該停止策略的基本思想是將新、舊模型標(biāo)注結(jié)果的差異度β作為停止依據(jù),新、舊模型標(biāo)注結(jié)果的差異度越小,說明新、舊模型性能的差異越小,當(dāng)二者的差異小于一個(gè)足夠小的數(shù)時(shí),主動(dòng)學(xué)習(xí)過程結(jié)束。
新、舊模型的差異度計(jì)算方法如下:
(5)
新舊模型的標(biāo)注差異度計(jì)算如式(6)所示。
(6)
其中,diff(xi)表示第i個(gè)音節(jié)的標(biāo)注差異情況,n表示模型標(biāo)注的音節(jié)總數(shù)。理論上而言,當(dāng)新、舊模型的差異度β為0或者小于一個(gè)非常小的數(shù)時(shí),表示新、舊模型標(biāo)注結(jié)果基本一致,主動(dòng)學(xué)習(xí)可以停止。
基于以上提出的選擇和停止策略,有以下4種主動(dòng)學(xué)習(xí)方法。
方法1選擇策略1+停止策略1
該主動(dòng)學(xué)習(xí)方法每次迭代選擇固定數(shù)量(m個(gè))的句子供人工標(biāo)注,直到待選語料的句子置信度均高于設(shè)定置信度閾值α1為止。
方法2選擇策略1+停止策略2
該主動(dòng)學(xué)習(xí)方法每次迭代選擇固定數(shù)量(m)的句子供人工標(biāo)注,直到新、舊模型的標(biāo)注結(jié)果的差異度小于設(shè)定閾值(β1)為止。
方法3選擇策略2+停止策略1
該主動(dòng)學(xué)習(xí)方法每次迭代選擇置信度低于給定閾值(n)的若干句子供人工標(biāo)注,直到待選語料的置信度均高于設(shè)定閾值α2為止。
方法4選擇策略2+停止策略2
該主動(dòng)學(xué)習(xí)方法每次迭代選擇置信度低于給定閾值(n)的若干個(gè)句子供人工標(biāo)注,直到新、舊模型的標(biāo)注結(jié)果的差異度小于設(shè)定閾值(β2)為止。
以上參數(shù)均由實(shí)驗(yàn)確定。
首先介紹實(shí)驗(yàn)方案,然后根據(jù)實(shí)驗(yàn)確定主動(dòng)學(xué)習(xí)方法1~4中的各個(gè)參數(shù),從標(biāo)注效果、標(biāo)注語料量和迭代次數(shù)三方面分析這四種主動(dòng)學(xué)習(xí)方法的性能,最后比較主動(dòng)學(xué)習(xí)方法和監(jiān)督式學(xué)習(xí)的效果。
本實(shí)驗(yàn)語料來自人民網(wǎng)、藏語廣播網(wǎng)、阿壩新聞網(wǎng)的藏語版,語料覆蓋新聞、政治、宗教、文化等多個(gè)領(lǐng)域,不僅包含大量藏族人名,還包含大量譯名。實(shí)驗(yàn)語料一共1 500個(gè)文本,其中訓(xùn)練語料1 360個(gè)文本(人工標(biāo)注語料100個(gè)文本、未標(biāo)注語料1 260個(gè)文本)、測(cè)試語料140個(gè)文本,語料基本情況如表1所示。
表1 實(shí)驗(yàn)語料基本情況
3.2.1 方法1的參數(shù)確定
表2所示為當(dāng)選擇策略為每次迭代選擇置信度最低的50、100、150、200、250句,停止策略為標(biāo)注結(jié)果的置信度為0.5~0.9時(shí)藏文人名識(shí)別效果、主動(dòng)學(xué)習(xí)迭代次數(shù)及語料標(biāo)注規(guī)模。
由表2可見,選擇m=50、α1=0.8時(shí),藏文人名識(shí)別的F值可達(dá)到88.3%,主動(dòng)學(xué)習(xí)迭代次數(shù)為63次,語料標(biāo)注規(guī)模為2.57 MB。
表2 方法1不同參數(shù)的藏文人名識(shí)別效果
續(xù)表
3.2.2 方法2的參數(shù)確定
表3所示為當(dāng)選擇策略為每次迭代選擇置信度最低的50、100、150、200、250句,停止策略為標(biāo)注結(jié)果的差異度為0.02%、0.01%、0.005%時(shí)藏文人名識(shí)別效果、主動(dòng)學(xué)習(xí)迭代次數(shù)及語料標(biāo)注規(guī)模。
由表3可見: 選擇m=250、β1=0.01%時(shí),藏文人名識(shí)別的F1值可達(dá)到88.1%,主動(dòng)學(xué)習(xí)迭代次數(shù)為13次,語料標(biāo)注規(guī)模為2.71 MB。
表3 方法2不同參數(shù)的藏文人名識(shí)別效果
3.2.3 方法3參數(shù)的確定
由于方法3的選擇策略n和停止策略α2均基于置信度,因此二者的取值只能相等。假定選擇策略和停止策略同等重要,令n=α2=0.5,此時(shí)的標(biāo)注效果、標(biāo)注規(guī)模及迭代次數(shù)如表4所示,可見,基于該主動(dòng)學(xué)習(xí)方法,藏文人名識(shí)別的F1值為86.9%,主動(dòng)學(xué)習(xí)迭代次數(shù)為18次,語料標(biāo)注規(guī)模為2.05MB。
表4 方法3的藏文人名識(shí)別效果
3.2.4 方法4參數(shù)確定
表4所示為當(dāng)選擇策略的置信度閾值為0.4~0.7,停止策略的差異度為0.02%、0.01%、0.005%時(shí)對(duì)應(yīng)的藏文人名識(shí)別效果、主動(dòng)學(xué)習(xí)迭代次數(shù)及語料標(biāo)注規(guī)模。
表5 方法4不同參數(shù)的藏文人名識(shí)別效果
由表5可見: 綜合考慮識(shí)別效果、語料標(biāo)注規(guī)模及迭代次數(shù),選擇n=0.7、β2=0.01%時(shí),藏文人名識(shí)別的F1值可達(dá)到88.0%,此時(shí),主動(dòng)學(xué)習(xí)迭代次數(shù)為6次,語料標(biāo)注規(guī)模為3.23 MB。
3.2.5 監(jiān)督式學(xué)習(xí)方法與主動(dòng)學(xué)習(xí)方法對(duì)比
表6是基于不同標(biāo)注語料規(guī)模的監(jiān)督式學(xué)習(xí)模型的藏文人名識(shí)別效果[21]??梢?,當(dāng)所有訓(xùn)練語料(10.26 MB)均已人工標(biāo)注的條件下,藏文人名識(shí)別的F1值最高可達(dá)88.3%。
表6 語料規(guī)模對(duì)藏文人名識(shí)別效果的影響(基于CRF)
表7所示為藏文人名識(shí)別的監(jiān)督式學(xué)習(xí)方法和主動(dòng)學(xué)習(xí)方法的對(duì)比情況。
表7 監(jiān)督式學(xué)習(xí)方法與主動(dòng)學(xué)習(xí)方法對(duì)比
由表7可見:
(1) 主動(dòng)學(xué)習(xí)方法可以基于較少的標(biāo)注語料達(dá)到基于較多標(biāo)注語料的監(jiān)督式學(xué)習(xí)方法的識(shí)別效果。本文提出的主動(dòng)學(xué)習(xí)方法1、2、4僅用約30%的人工標(biāo)注語料就達(dá)到了基于10 MB標(biāo)注語料的監(jiān)督式學(xué)習(xí)方法的藏文人名識(shí)別效果。
(2) 主動(dòng)學(xué)習(xí)方法的效果取決于選擇策略和停止策略的設(shè)計(jì),主動(dòng)學(xué)習(xí)方法的評(píng)價(jià)指標(biāo)除了F1值,還有循環(huán)迭代次數(shù)以及語料標(biāo)注量。
主動(dòng)學(xué)習(xí)方法1具有最好的識(shí)別效果(88.3%)以及最少的語料標(biāo)注量(2.57 MB),但是方法1的循環(huán)迭代次數(shù)高達(dá)63次,語料標(biāo)注周期過長(zhǎng);
主動(dòng)學(xué)習(xí)方法2具有較好的識(shí)別效果(88.1%)以及較少的語料標(biāo)注量(2.71 MB),但方法2的循環(huán)迭代次數(shù)為13次,語料標(biāo)注周期相對(duì)也過長(zhǎng);
主動(dòng)學(xué)習(xí)方法4所需的時(shí)間迭代次數(shù)最少,藏文人名的識(shí)別效果略低于方法1(方法4的F1值約為88.0%),但方法4的語料標(biāo)注量最大(約3.23 MB)。
綜合識(shí)別效果、迭代次數(shù)以及語料標(biāo)注規(guī)模三個(gè)因素,我們選擇方法4作為藏文人名的主動(dòng)學(xué)習(xí)模型。
語料標(biāo)注成本是資源稀缺語言自然處理研究面臨的問題之一,主動(dòng)學(xué)習(xí)方法通過選擇一些信息大、不確定性高、無冗余的語料進(jìn)行人工標(biāo)注,進(jìn)而在保證效果的前提下,大大降低語料標(biāo)注成本。本文基于置信度提出了四種主動(dòng)學(xué)習(xí)方法,實(shí)驗(yàn)證明: 主動(dòng)學(xué)習(xí)方法4(每次迭代選擇置信度低于0.7的句子進(jìn)行人工標(biāo)注,直到新、舊模型標(biāo)注結(jié)果的差異度小于0.01%)可用3.23 MB的標(biāo)注語料、在最少的迭代次數(shù)近似達(dá)到監(jiān)督式學(xué)習(xí)方法10 MB標(biāo)注語料的效果,人工語料標(biāo)注量降低了約66%。
基于主動(dòng)學(xué)習(xí)的藏文人名識(shí)別模型中,識(shí)別效果、迭代次數(shù)以及語料標(biāo)注規(guī)模三個(gè)因素有的互為促進(jìn)關(guān)系、有的互為制約關(guān)系,今后可以從這三因素的關(guān)系出發(fā)對(duì)選擇策略和停止策略進(jìn)行進(jìn)一步優(yōu)化設(shè)計(jì),進(jìn)而達(dá)到以最低的人力、時(shí)間成本獲取大規(guī)模、高質(zhì)量標(biāo)注語料的目的。