王聞慧,畢玉德,雷樹杰
(1. 信息工程大學(xué) 洛陽(yáng)校區(qū),河南 洛陽(yáng) 471003;2. 復(fù)旦大學(xué) 外國(guó)語(yǔ)言文學(xué)學(xué)院,上海 200433)
句法分析在自然語(yǔ)言處理任務(wù)中占據(jù)著重要位置,是機(jī)器翻譯(machine translation)、自動(dòng)問答(automatic question answering)等更復(fù)雜任務(wù)的基礎(chǔ)。由于語(yǔ)言自身的復(fù)雜性,尤其對(duì)于像越南語(yǔ)這樣缺乏形態(tài)標(biāo)記、以字為單位的孤立語(yǔ)而言,實(shí)現(xiàn)完全的句法分析十分困難。為此,Abney[1]提出了組塊分析理論,該理論采取先將句子中的組塊識(shí)別出,再尋找組塊之間關(guān)系的方法,降低了句法分析的復(fù)雜度。自此,組塊識(shí)別成為研究者長(zhǎng)期關(guān)注的重要課題。
對(duì)于越南語(yǔ)組塊識(shí)別而言,其主要面臨著以下三大難題: 一是越南語(yǔ)缺乏形態(tài)標(biāo)記,并與漢語(yǔ)一樣主要通過虛詞和詞序來(lái)表示語(yǔ)法信息,這使得在越南語(yǔ)組塊識(shí)別中可利用的標(biāo)記信息較少;二是越南語(yǔ)存在定語(yǔ)后置的現(xiàn)象,這增加了越南語(yǔ)名詞組塊內(nèi)部構(gòu)成的復(fù)雜性,同時(shí)也加大了越南語(yǔ)名詞組塊識(shí)別的難度;三是在越南語(yǔ)中,動(dòng)詞作定語(yǔ)與動(dòng)詞作謂語(yǔ)在形式上完全一樣,這增加了名詞組塊與動(dòng)詞組塊之間的辨識(shí)難度。
對(duì)于組塊識(shí)別而言,早期的識(shí)別方法主要基于規(guī)則,如基于有限狀態(tài)機(jī)的方法[2]、基于轉(zhuǎn)換學(xué)習(xí)與錯(cuò)誤驅(qū)動(dòng)的方法[3-4]等。從21世紀(jì)初開始,基于MBL[5]、SVM[6]、CRF[7]等傳統(tǒng)統(tǒng)計(jì)模型以及規(guī)則與統(tǒng)計(jì)模型相結(jié)合的方法[8-10]被廣泛應(yīng)用在組塊識(shí)別任務(wù)中。近年來(lái),隨著深度學(xué)習(xí)的興起,該方法也開始應(yīng)用于組塊識(shí)別任務(wù)中[11]。而對(duì)于越南語(yǔ)的組塊識(shí)別而言,主要有Lê Minh Nguyên等[12]采用CRF、SVM、Online Passive-Aggressive Learning(在線被動(dòng)攻擊學(xué)習(xí),一種增量學(xué)習(xí)算法)等模型對(duì)越南語(yǔ)名詞組塊進(jìn)行識(shí)別,實(shí)驗(yàn)結(jié)果顯示CRF模型的識(shí)別效果最好。Nguyen Thi Huong Thao等[13]將詞性特征融入到CRF模型中對(duì)越南語(yǔ)名詞短語(yǔ)進(jìn)行識(shí)別,實(shí)驗(yàn)結(jié)果顯示詞性對(duì)越南語(yǔ)名詞短語(yǔ)的識(shí)別效果有提升作用。郭劍毅等[14]分析總結(jié)出了越南語(yǔ)名詞組塊詞性組合特征,并將其作為約束條件融入到CRF模型中,得到了較好的識(shí)別效果。李佳[11]使用字符級(jí)的詞向量作為輸入,并將詞性特征融入到Bi-LSTM+CRF模型中對(duì)越南語(yǔ)組塊進(jìn)行識(shí)別,取得了較好的識(shí)別效果。
綜合來(lái)看,目前對(duì)越南語(yǔ)組塊識(shí)別的研究還較少,識(shí)別效果還有很大的提升空間,所使用的模型也主要集中在CRF等傳統(tǒng)統(tǒng)計(jì)模型上。而在深度學(xué)習(xí)方法的應(yīng)用方面,目前所采用的模型也較為單一,主要為Bi-LSTM+CRF模型,缺乏對(duì)如注意力機(jī)制等深度學(xué)習(xí)技術(shù)最新發(fā)展的應(yīng)用。此外,在深度學(xué)習(xí)方法中,當(dāng)前研究所采用的融入特征的方法也較為機(jī)械,大多采用向量之間直接串聯(lián)拼接的方法,不能夠根據(jù)輸入靈活確定詞向量與特征向量各自的權(quán)重,這些都限制了對(duì)越南語(yǔ)組塊的識(shí)別效果。為此,本文主要針對(duì)深度學(xué)習(xí)方法進(jìn)行改進(jìn): 一是將注意力機(jī)制引入神經(jīng)網(wǎng)絡(luò)的輸入層,使得模型能夠靈活決定詞向量與特征向量各自的權(quán)重;二是將注意力機(jī)制融入到Bi-LSTM+CRF模型中,從而使模型能夠有選擇地聚焦于對(duì)識(shí)別有效的信息上。
關(guān)于越南語(yǔ)組塊的界定,從目前來(lái)看并沒有形成統(tǒng)一的標(biāo)準(zhǔn),本文以越南語(yǔ)及語(yǔ)音處理會(huì)議(Vietnamese language and speech processing,VLSP)網(wǎng)站公布的越南語(yǔ)組塊語(yǔ)料為調(diào)查語(yǔ)料庫(kù),將越南語(yǔ)組塊定義為內(nèi)部可以嵌套同類型組塊的詞語(yǔ)序列。在VLSP語(yǔ)料中,涉及到的組塊類型共有八類,如表1所示。
表1 本文組塊類型及示例
以VLSP公布的組塊標(biāo)注語(yǔ)料(語(yǔ)料已經(jīng)進(jìn)行了詞性標(biāo)注)為調(diào)查語(yǔ)料庫(kù),本文對(duì)各類型組塊的內(nèi)部詞性組合模式進(jìn)行了統(tǒng)計(jì)。表1所示的八種越南語(yǔ)組塊類型中,名詞組塊、動(dòng)詞組塊、介詞組塊和形容詞組塊所占比率最高,共占到了語(yǔ)料中全部組塊的99.94%,為此本文主要對(duì)調(diào)查語(yǔ)料庫(kù)中的名詞組塊、動(dòng)詞組塊、介詞組塊和形容詞組塊四種類型組塊的內(nèi)部詞性組合模式進(jìn)行調(diào)查統(tǒng)計(jì)。其中,對(duì)名詞組塊、動(dòng)詞組塊、介詞組塊與形容詞組塊頻數(shù)排名前十位的內(nèi)部詞性組合模式的統(tǒng)計(jì)結(jié)果分別如表2~表5所示。
表2~表5中,以“+”作為詞性之間的連接符。從四種組塊類型的內(nèi)部詞性組合模式來(lái)看,介詞組塊內(nèi)頻數(shù)排名前十位的詞性組合模式所對(duì)應(yīng)的組塊占到了全部介詞組塊的99%以上,動(dòng)詞組塊與形容詞組塊在該項(xiàng)統(tǒng)計(jì)指標(biāo)上也分別達(dá)到了93.56%與96.06%,而名詞組塊中頻數(shù)排名前十位的詞性組合模式所對(duì)應(yīng)的組塊占全部名詞組塊的比例最低,為81.36%。
從以上數(shù)據(jù)可看出,越南語(yǔ)組塊內(nèi)部詞性構(gòu)成模式規(guī)律性明顯且分布較為集中,因此將詞性特征融入到組塊識(shí)別任務(wù)中能夠?yàn)榻M塊識(shí)別提供更多的信息。這是本文在模型中融入詞性特征的語(yǔ)言學(xué)依據(jù)。
從模型的角度講,由于多頭注意力機(jī)制能夠更好地捕獲輸入序列中各輸入值之間的內(nèi)在聯(lián)系[15],因此將多頭注意力機(jī)制應(yīng)用于越南語(yǔ)組塊識(shí)別任務(wù)能夠使模型更有效地利用組塊的內(nèi)部構(gòu)成信息,并通過賦予其相應(yīng)的權(quán)重,有效提升模型對(duì)組塊的識(shí)別效果。這是本文將多頭注意力機(jī)制融入 Bi-LSTM+CRF模型的語(yǔ)言學(xué)基礎(chǔ)。
表2 名詞組塊詞性組合模式統(tǒng)計(jì)
表3 動(dòng)詞組塊詞性組合模式統(tǒng)計(jì)
表4 介詞組塊詞性組合模式統(tǒng)計(jì)
表5 形容詞組塊詞性組合模式統(tǒng)計(jì)
從對(duì)未登錄越南語(yǔ)組塊識(shí)別的角度講,使模型能夠在遇到未登錄越南語(yǔ)組塊時(shí)相應(yīng)地增加詞性特征信息的權(quán)重,并相應(yīng)地減少詞匯信息的權(quán)重,則能夠提升模型對(duì)未登錄越南語(yǔ)組塊的識(shí)別效果。這是本文在深度學(xué)習(xí)模型輸入層融入注意力機(jī)制的語(yǔ)言學(xué)依據(jù)。
詞的分布式表示[16]是一種將詞向量化的有效方法,能夠在一定程度上表示詞的語(yǔ)義信息,是深度學(xué)習(xí)技術(shù)應(yīng)用于自然語(yǔ)言處理領(lǐng)域的基礎(chǔ)。本文通過Word2Vec開源工具獲取詞向量,其包含有CBOW與Skip-gram兩種模型,其中CBOW模型通過上下文來(lái)預(yù)測(cè)當(dāng)前詞,Skip-gram模型則通過當(dāng)前詞來(lái)預(yù)測(cè)上下文。本文選取CBOW模型作為詞向量的訓(xùn)練模型,對(duì)于CBOW模型而言,其訓(xùn)練目標(biāo)是最大化如下函數(shù),如式(1)所示。
其中,C表示語(yǔ)料中所有詞的集合,w表示屬于C的某個(gè)詞,Context(w)表示詞w的上下文。
本文使用VnCoreNLP[17]工具對(duì)來(lái)自維基百科的大規(guī)模無(wú)監(jiān)督越南語(yǔ)語(yǔ)料進(jìn)行分詞和詞性標(biāo)注,分別形成與維基百科語(yǔ)料相對(duì)應(yīng)的分詞語(yǔ)料與詞性語(yǔ)料。其中,分詞語(yǔ)料為維基百科語(yǔ)料所對(duì)應(yīng)的詞序列,而詞性語(yǔ)料為分詞語(yǔ)料所對(duì)應(yīng)的詞性序列。通過使用Word2Vec模型分別對(duì)分詞語(yǔ)料與詞性語(yǔ)料進(jìn)行訓(xùn)練,獲取預(yù)訓(xùn)練的越南語(yǔ)詞向量與詞性特征向量。
自2017年Bahdanau等[18]在英法機(jī)器翻譯任務(wù)中應(yīng)用注意力機(jī)制以來(lái),注意力機(jī)制被廣泛使用在自然語(yǔ)言處理的各項(xiàng)任務(wù)中。雖然注意力機(jī)制通常使用在Seq2Seq模型中,并作為Encoder-Decoder的一種機(jī)制來(lái)使用,但注意力機(jī)制作為一種思想,可以用來(lái)支持各種類型的自然語(yǔ)言處理任務(wù)。注意力機(jī)制的核心思想在于通過計(jì)算權(quán)重矩陣使得模型有選擇地聚焦于重要信息上,其本質(zhì)是一個(gè)查詢到一系列(鍵-值)對(duì)的映射,計(jì)算如式(2)~式(4)所示。
其中,Q表示查詢,K與V組成(鍵—值)對(duì)。式(2)用來(lái)計(jì)算Q與K的相似度,相似度的獲取除了式(2)中所示的點(diǎn)乘法以外,還可以通過余弦相似性或引入額外的神經(jīng)網(wǎng)絡(luò)來(lái)獲取。一般而言,式(2)~式(4)中的K與V相等,而在自注意力機(jī)制中,Q、K、V均相等。
作為一種較為成熟的序列標(biāo)注模型,Bi-LSTM+CRF被廣泛地應(yīng)用在各種自然語(yǔ)言處理任務(wù)中。針對(duì)Bi-LSTM+CRF模型,本文使用了兩種融入注意力機(jī)制的方法: 一是在Bi-LSTM層上添加了一層多頭注意力機(jī)制,詳見2.3;二是將注意力機(jī)制融入到Bi-LSTM+CRF模型的輸入層中,以獲取加入了相應(yīng)權(quán)重的聯(lián)合向量表示,詳見2.4。
長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long-short-term memory,LSTM)是循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的一種變體,其通過加入門限機(jī)制在一定程度上緩解了RNN面臨的梯度彌散和梯度爆炸問題。Bi-LSTM層利用了LSTM正向與反向兩個(gè)序列方向上的信息來(lái)對(duì)輸入信息進(jìn)行處理,而CRF層則通過計(jì)算輸出值之間的轉(zhuǎn)移概率,進(jìn)而將輸出值間的轉(zhuǎn)移信息融入到模型中,從而提升模型的效果。Bi-LSTM+CRF模型的整體架構(gòu)如圖1所示。
圖1 Bi-LSTM+CRF模型框架
多頭注意力機(jī)制由Vaswani等[15]在2017年提出,其由多個(gè)放縮點(diǎn)積注意力機(jī)制(scaled dot-product attention)組成,內(nèi)部結(jié)構(gòu)如圖2所示。
圖2 多頭注意力機(jī)制內(nèi)部結(jié)構(gòu)
由圖2可知,在放縮點(diǎn)積注意力機(jī)制中,通過對(duì)查詢Q與(鍵—值)對(duì)中的鍵K進(jìn)行相似度運(yùn)算等一系列操作,可以獲得權(quán)重矩陣,進(jìn)而使模型有選擇地聚焦于重要信息上。而在多頭注意力機(jī)制中,在對(duì)輸入進(jìn)行線性變換以后,要進(jìn)行h次放縮點(diǎn)積注意力操作。之后,將h次放縮點(diǎn)積注意力操作后的向量進(jìn)行串聯(lián)拼接,并進(jìn)行線性變換后作為多頭注意力機(jī)制的輸出。根據(jù)Vaswani等人的研究成果,進(jìn)行多次放縮點(diǎn)積操作的好處在于可以使模型在不同的表示子空間里學(xué)到更多的信息[15]。
由1.2節(jié)可知,越南語(yǔ)組塊內(nèi)部構(gòu)成的規(guī)律性較為明顯, 而多頭注意力機(jī)制有著較強(qiáng)的利用輸入序列中各輸入值間規(guī)律和關(guān)系的能力,因此將多頭注意力機(jī)制加入識(shí)別模型可以增強(qiáng)模型利用其內(nèi)部構(gòu)成信息的能力。為此,本文在Bi-LSTM+CRF模型的基礎(chǔ)上加入了多頭注意力機(jī)制。融入了多頭注意力機(jī)制的Bi-LSTM+CRF模型的整體架構(gòu)如圖3所示。
圖3中,模型由輸入層、Bi-LSTM層、Attention層與CRF層組成。其中,輸入層將輸入的詞與詞性特征轉(zhuǎn)化為相應(yīng)的向量表示,并采用首尾串聯(lián)拼接的方式組合為聯(lián)合向量輸入到Bi-LSTM層中。Attention層在接收Bi-LSTM層的輸出后,通過計(jì)算權(quán)重矩陣,增強(qiáng)了模型利用重要信息的能力,從而獲得識(shí)別效果的提升。
在以往基于深度學(xué)習(xí)的序列標(biāo)注任務(wù)中,特征向量的加入一般通過與詞向量的首尾串聯(lián)拼接獲得,如圖4所示。
圖3 Bi-LSTM+Multi-Head Attention+CRF模型
圖4中,通過將預(yù)訓(xùn)練的詞向量與預(yù)訓(xùn)練的詞性特征向量首尾串聯(lián)拼接,得到了融入詞性信息的聯(lián)合向量表示,并作為模型的輸入層參與到序列標(biāo)注任務(wù)中。但這種獲取聯(lián)合向量表示的方式較為機(jī)械, 且不能夠?qū)υ~向量與特征向量在聯(lián)合向量中的權(quán)重進(jìn)行靈活調(diào)整。受Rei等[19]工作的啟發(fā),本文提出了融入注意力機(jī)制的聯(lián)合向量表示方法,計(jì)算方法如式(5)~式(7)所示。
圖4 直接串聯(lián)的聯(lián)合向量表示
通過在輸入層加入注意力機(jī)制, 可以使 模型靈活地調(diào)整輸入的詞向量與詞性特征向量的權(quán)重,進(jìn)而能夠更好地處理序列標(biāo)注任務(wù),如圖5所示。
圖5中,預(yù)訓(xùn)練的詞向量與預(yù)訓(xùn)練的詞性特征向量被分別輸入一層神經(jīng)網(wǎng)絡(luò),并在激活函數(shù)的激活下獲得各自的權(quán)重(詞向量的權(quán)重為α,詞性特征向量的權(quán)重為β)。之后,詞向量與詞性特征向量分別與各自的權(quán)重相乘,相乘獲得的兩個(gè)向量通過首尾串聯(lián)拼接的方式組合為聯(lián)合向量輸入Bi-LSTM+CRF模型。與Rei等人的方法不同,本文的方法不要求詞性特征向量的維度必須與詞向量相同,也不要求α與β的和為1,這進(jìn)一步增強(qiáng)了本文模型的靈活性。
圖5 基于注意力機(jī)制的聯(lián)合向量表示
本文使用VLSP網(wǎng)站公布的組塊標(biāo)注語(yǔ)料為實(shí)驗(yàn)數(shù)據(jù),語(yǔ)料總規(guī)模超過70萬(wàn)詞。語(yǔ)料中包含8種類型的組塊,其中名詞組塊215 620個(gè)、動(dòng)詞組塊120 733個(gè)、介詞組塊41 492個(gè)、形容詞組塊29 208個(gè),其余4種組塊共641個(gè)。本文按照5∶1的比例將語(yǔ)料劃分為訓(xùn)練集與測(cè)試集。在測(cè)試語(yǔ)料中,含有各類型組塊 68 988個(gè),其中未登錄組塊14 108個(gè),未登錄組塊占比為20.45%。
本文使用IOB2標(biāo)注規(guī)范,每一類型組塊包含“B-組塊類型”與“I-組塊類型”兩種標(biāo)注類別,其中“B-組塊類型”用來(lái)標(biāo)注該類型組塊的開頭部分,“I-組塊類型”則用來(lái)標(biāo)注該類型組塊的中間部分與結(jié)尾部分,而對(duì)于非組塊組成成分,統(tǒng)一標(biāo)注為“O”。本文所使用語(yǔ)料共包含8種組塊類型,共計(jì)17種標(biāo)注類別。
為了全面評(píng)價(jià)模型對(duì)組塊識(shí)別的情況,本文設(shè)置了6個(gè)評(píng)價(jià)指標(biāo),如表6所示。
表6 評(píng)測(cè)指標(biāo)
續(xù)表
表6中,準(zhǔn)確率P是指標(biāo)簽標(biāo)注準(zhǔn)確率,用來(lái)評(píng)價(jià)整體識(shí)別情況;越南語(yǔ)組塊識(shí)別準(zhǔn)確率PC是指對(duì)越南語(yǔ)組塊整體的識(shí)別準(zhǔn)確率,只有對(duì)整個(gè)越南語(yǔ)組塊內(nèi)的所有組成詞標(biāo)注正確才算對(duì)該組塊識(shí)別正確;越南語(yǔ)組塊識(shí)別召回率RC是對(duì)越南語(yǔ)組塊整體識(shí)別的召回率;越南語(yǔ)組塊識(shí)別F值則綜合評(píng)價(jià)對(duì)越南語(yǔ)組塊整體的識(shí)別效果;未登錄越南語(yǔ)組塊識(shí)別召回率RUKC則用來(lái)評(píng)價(jià)模型對(duì)未登錄組塊的識(shí)別效果,是評(píng)價(jià)模型泛化能力的重要指標(biāo),由于對(duì)越南語(yǔ)組塊的識(shí)別難點(diǎn)和關(guān)鍵點(diǎn)都在于對(duì)未登錄組塊的識(shí)別,所以指標(biāo)也是反映模型識(shí)別效果的重要指標(biāo);未登錄越南語(yǔ)組塊類別召回率RUKTC則排除了對(duì)同一未登錄越南語(yǔ)組塊的反復(fù)識(shí)別造成的RUKC虛高的情況,從類別的角度評(píng)價(jià)模型對(duì)未登錄越南語(yǔ)組塊的識(shí)別效果,該指標(biāo)同樣也是評(píng)價(jià)模型泛化能力的重要指標(biāo)。
此外,本文還分別對(duì)測(cè)試語(yǔ)料中含有的名詞組塊、動(dòng)詞組塊、介詞組塊和形容詞組塊的識(shí)別情況進(jìn)行了統(tǒng)計(jì)。為了在文中更加清晰直觀地反映模型對(duì)不同類型組塊的識(shí)別情況,并對(duì)識(shí)別情況進(jìn)行全面的評(píng)價(jià),本文對(duì)各類型組塊識(shí)別情況的評(píng)價(jià)指標(biāo)設(shè)為F值,以名詞組塊為例,其評(píng)價(jià)指標(biāo)表示為FNP。在計(jì)算各類型組塊的相應(yīng)指標(biāo)時(shí),只有對(duì)組塊整體包含的各個(gè)組成詞都標(biāo)注正確才算作對(duì)組塊識(shí)別正確。
本文的模型在訓(xùn)練過程中全部使用自適應(yīng)學(xué)習(xí)率優(yōu)化函數(shù)Adam作為模型用優(yōu)化函數(shù)。為了避免學(xué)習(xí)率過高導(dǎo)致的損失值loss出現(xiàn)大幅度的震蕩,本文在多次實(shí)驗(yàn)調(diào)整后將模型的learning rate設(shè)置為0.001。此外,本文也多次調(diào)整batch size的大小以達(dá)到效果的最優(yōu),最終將batch size設(shè)置為128。為防止模型出現(xiàn)過擬合現(xiàn)象,本文采用了Dropout的方法,并將dropout值設(shè)置為0.5,即在每一個(gè)迭代訓(xùn)練過程中隨機(jī)去除50%的數(shù)據(jù)量。
為了避免參數(shù)設(shè)置不同對(duì)模型識(shí)別效果造成的影響,在本文進(jìn)行的實(shí)驗(yàn)中,模型的上述超參數(shù)設(shè)置完全一致,從而驗(yàn)證本文提出的兩種將注意力機(jī)制融入Bi-LSTM+CRF模型方法的有效性。
本文使用了VLSP網(wǎng)站公布的VietChunker[13]作為本文實(shí)驗(yàn)的基準(zhǔn)模型,使用其在本文測(cè)試集上的測(cè)試結(jié)果作為本文實(shí)驗(yàn)的基線標(biāo)準(zhǔn)。
本文的實(shí)驗(yàn)分為五個(gè)部分,第一部分使用VietChunker進(jìn)行測(cè)試;第二部分使用Bi-LSTM+CRF模型,并采用預(yù)訓(xùn)練的詞向量作為輸入;第三部分使用Bi-LSTM+CRF模型,并采用預(yù)訓(xùn)練的詞向量與詞性特征向量首尾串聯(lián)拼接形成的聯(lián)合向量作為模型輸入;第四部分使用Bi-LSTM+Multi-Head Attention+CRF模型,采用預(yù)訓(xùn)練的詞向量與詞性特征向量首尾串聯(lián)拼接形成的聯(lián)合向量作為模型輸入;第五部分使用Bi-LSTM+CRF模型,并采用融入注意力機(jī)制的聯(lián)合向量作為模型輸入,形成Attention-over-Input Layer+Bi-LSTM+CRF架構(gòu)。
通過五部分實(shí)驗(yàn)結(jié)果的對(duì)比,可以驗(yàn)證本文提出的兩種融入注意力機(jī)制方法的有效性。
本文在五種實(shí)驗(yàn)條件下對(duì)全部越南語(yǔ)組塊的識(shí)別情況如表7所示。
由表7可知,本文使用的模型絕大多數(shù)評(píng)測(cè)指標(biāo)上都要優(yōu)于VietChunker(雖然以詞向量為輸入的Bi-LSTM+CRF模型在PC上低于VietChunker 0.83%,但其在RC上高出VietChunker 4.69%),這體現(xiàn)了本文方法的有效性。
表7 全部越南語(yǔ)組塊識(shí)別情況統(tǒng)計(jì)
在Bi-LSTM+CRF內(nèi)部,在加入詞性特征向量后,模型對(duì)越南語(yǔ)組塊的識(shí)別效果有了顯著提升。其中,在準(zhǔn)確率P上提升了5.54%,在越南語(yǔ)組塊識(shí)別準(zhǔn)確率PC上提升了6.97%,在越南語(yǔ)組塊識(shí)別召回率RC上提升了7.91%,在FC上提升了7.48%,可以看出詞性特征對(duì)越南語(yǔ)組塊識(shí)別的提升作用非常明顯。
相對(duì)于加入詞性特征向量的Bi-LSTM+CRF模型,在加入多頭注意力機(jī)制后,模型的識(shí)別效果得到了進(jìn)一步的提升,在準(zhǔn)確率P上提升了2.89%,在越南語(yǔ)組塊識(shí)別準(zhǔn)確率PC上提升了2.69%,在越南語(yǔ)組塊識(shí)別召回率RC上提升了6.25%,在FC上提升了4.56%。這些數(shù)據(jù)表明,多頭注意力機(jī)制的加入顯著提升了模型對(duì)越南語(yǔ)組塊的識(shí)別效果。
而對(duì)于Attention-over-Input-Layer+Bi-LSTM+CRF方法而言,相對(duì)于加入詞性特征向量的Bi-LSTM+CRF模型,其在準(zhǔn)確率P上提升了2.16%,在越南語(yǔ)組塊識(shí)別準(zhǔn)確率PC上提升了1.67%,在越南語(yǔ)組塊識(shí)別召回率RC上提升了4.35%,在FC上提升了3.08%,這證實(shí)了在輸入層融入注意力機(jī)制方法的有效性。但相對(duì)于融入多頭注意力機(jī)制的方法而言,在輸入層融入注意力機(jī)制的方法在越南語(yǔ)組塊的識(shí)別效果上要相對(duì)差一些,其在準(zhǔn)確率P上要低于前者0.73%,在FC上低于前者1.48%。
本文在五種實(shí)驗(yàn)條件下對(duì)越南語(yǔ)名詞組塊、動(dòng)詞組塊、介詞組塊與形容詞組塊的識(shí)別效果如表8所示。
表8 各類型越南語(yǔ)組塊識(shí)別情況統(tǒng)計(jì)
由表8可知,在五種實(shí)驗(yàn)條件下,模型對(duì)四種越南語(yǔ)組塊的識(shí)別情況與表7中所示的對(duì)全部越南語(yǔ)組塊的識(shí)別情況大體一致。而從四種組塊類別的角度分析,在五種實(shí)驗(yàn)條件下,模型對(duì)介詞組塊的識(shí)別效果最好,對(duì)名詞組塊的識(shí)別效果最差,這一定程度上反映出這四種不同組塊類別內(nèi)部構(gòu)成的復(fù)雜性不同。其中,名詞組塊因其內(nèi)部構(gòu)成最為復(fù)雜、歧義性最為顯著,從而使得模型對(duì)其識(shí)別效果最差。從統(tǒng)計(jì)學(xué)的角度分析,由1.2節(jié)可知,在這四種越南語(yǔ)組塊類型中,內(nèi)部詞性組合模式規(guī)律性最為明顯的就是介詞組塊,其前十位詞性組合模式所對(duì)應(yīng)的組塊就占到了全部介詞組塊的99.38%,而名詞組塊的前十位內(nèi)部詞性組合模式所對(duì)應(yīng)的組塊僅占到全部名詞組塊的81.36%,這在一定程度上解釋了表8所示的實(shí)驗(yàn)結(jié)果。
作為評(píng)價(jià)模型識(shí)別效果的重要指標(biāo),未登錄組塊識(shí)別召回率能夠在一定程度上反映模型的泛化能力,本文在五種實(shí)驗(yàn)條件下對(duì)未登錄越南語(yǔ)組塊的識(shí)別效果如表9所示。
表9 未登錄越南語(yǔ)組塊識(shí)別情況統(tǒng)計(jì)
續(xù)表
從表9可以看到,相對(duì)于VietChunker,本文所使用模型在對(duì)未登錄越南語(yǔ)組塊識(shí)別方面的表現(xiàn)要更加優(yōu)異。而在Bi-LSTM+CRF內(nèi)部,在加入詞性特征向量后,Bi-LSTM+CRF模型對(duì)未登錄越南語(yǔ)組塊的識(shí)別效果有了極大的提升,其在未登錄越南語(yǔ)組塊識(shí)別召回率RUKC上提升了26.89%,在未登錄越南語(yǔ)組塊類型識(shí)別召回率RUKTC上提升了27.68%,這反映了詞性信息對(duì)未登錄越南語(yǔ)組塊識(shí)別的重要性。
相對(duì)于加入詞性特征向量的Bi-LSTM+CRF模型,在加入多頭注意力機(jī)制后,模型對(duì)未登錄越南語(yǔ)組塊的識(shí)別效果有了進(jìn)一步提升,其在未登錄越南語(yǔ)組塊識(shí)別召回率RUKC上提升了7.19%,在未登錄越南語(yǔ)組塊類型識(shí)別召回率RUKTC上提升了3.98%,這些數(shù)據(jù)表明多頭注意力機(jī)制能夠提升模型的泛化能力。
與表7和表8中所示的識(shí)別效果不同,Attention-over-Input-Layer+Bi-LSTM+CRF模型在對(duì)未登錄越南語(yǔ)組塊的識(shí)別效果方面要優(yōu)于Bi-LSTM+Multi-Head Attention+CRF模型,其在未登錄越南語(yǔ)組塊識(shí)別召回率RUKC上高于后者0.02%,在未登錄越南語(yǔ)組塊類型識(shí)別召回率RUKTC上高于后者2.42%。這表明,在輸入層融入注意力機(jī)制的方法能夠更好地調(diào)整詞向量與詞性特征向量在識(shí)別過程中所占的比重,使得模型在遇到未登錄越南語(yǔ)組塊時(shí)能夠加大詞性特征向量所占的權(quán)重??紤]到詞性信息在模型對(duì)未登錄組塊的預(yù)測(cè)上的重要作用,這樣可以使得模型更好地處理未登錄越南語(yǔ)組塊,從而增強(qiáng)模型的泛化能力。
針對(duì)越南語(yǔ)組塊識(shí)別任務(wù),本文在前期對(duì)越南語(yǔ)組塊內(nèi)部詞性構(gòu)成模式進(jìn)行統(tǒng)計(jì)調(diào)查的基礎(chǔ)上,發(fā)現(xiàn)其內(nèi)部詞性構(gòu)成模式具有很強(qiáng)的規(guī)律性,因此提出了融入注意力機(jī)制的思路,從而使得模型能夠更多地聚焦于組塊的內(nèi)部構(gòu)成信息。在Bi-LSTM+CRF模型的基礎(chǔ)上,本文使用了兩種融入注意力機(jī)制的方法,一是在Bi-LSTM之上加入多頭注意力機(jī)制,二是在輸入層融入注意力機(jī)制。實(shí)驗(yàn)結(jié)果表明,兩種融入注意力機(jī)制方法都能夠有效提升模型對(duì)越南語(yǔ)組塊的識(shí)別效果,且兩種方法有著各自的優(yōu)勢(shì)和特點(diǎn)。其中,在對(duì)越南語(yǔ)組塊的整體識(shí)別情況上,加入多頭注意力機(jī)制的方法要好于在輸入層融入注意力機(jī)制的方法,但在對(duì)未登錄越南語(yǔ)組塊的識(shí)別情況上,在輸入層融入注意力機(jī)制的方法要好于在Bi-LSTM之上加入多頭注意力機(jī)制的方法。