王宗澤, 張吳波
(湖北汽車工業(yè)學(xué)院電子信息系,湖北 十堰 442002)
命名實體是從眾多的信息數(shù)據(jù)中選取固定的實體以方便自然語言應(yīng)用機(jī)器識別出某些實體名稱,進(jìn)而生成具有關(guān)鍵詞性的信息結(jié)果,避免信息冗雜影響人們對數(shù)據(jù)信息提取的準(zhǔn)確性[1-2]。中文信息數(shù)據(jù)的提取與英語相比,缺少相應(yīng)的詞性邊界來實現(xiàn)斷句和達(dá)意,且市面上常見的翻譯軟件和編碼器難以對中文信息實現(xiàn)較好的提取效果,如傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)以固定的卷積核對信息進(jìn)行提取,對詞語的分界、詞性嵌套以及字詞歧義等問題的區(qū)分上還存在一定的不足,其精準(zhǔn)性和可靠性難以保證[3-4]。采用完全自注意力融合多元卷積的模型方式可以有效避免傳統(tǒng)模型對中文命名實體識別存在的缺陷,自注意力機(jī)制通過比較當(dāng)前解碼器在對單個字詞占長度序列中的權(quán)重,并在解碼器中使得每次生成的詞語具有獨一性,大大提高了解碼器對信息提取的順暢性和突出性[5]。將完全自注意力與多元卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行融合,有助于提高中文命名實體識別的準(zhǔn)確性,避免了詞性和用語習(xí)慣對不同人群實現(xiàn)信息提取的干擾。
目前常見的命名實體模型多依托于循環(huán)神經(jīng)網(wǎng)絡(luò)和雙向長短期記憶網(wǎng)絡(luò)編碼,實現(xiàn)了信息的提取,符合人固定的閱讀順序習(xí)慣,但對相同主要主語所指代的不同意思難以進(jìn)行區(qū)分和辨別,如相同的語句長度中不同主語所對應(yīng)的動作形式和含義的往往不受句子長短的影響,而與實體動作的發(fā)出對象有關(guān),傳統(tǒng)的編碼器難以提取到相同詞語在不同的信息數(shù)據(jù)中的含義和特征差異[6]。完全自注意力模型通過在對中文命名實體進(jìn)行信息特征提取的時候,根據(jù)信息傳遞的特征進(jìn)行選擇性的信息傳遞,而較少受到句子中字詞間距離的影響,直接驅(qū)動硬件,實現(xiàn)運算任務(wù)的執(zhí)行,能夠較大程度上提高編碼模型的運算效率和針對性[7]。其運行機(jī)制如圖1所示。
圖1中,編碼器將任務(wù)信息輸入,通過對句式中的信息和內(nèi)容進(jìn)行評分,得到各個字詞在句子中的重要程度權(quán)重占比,然后通過評分結(jié)果將機(jī)器的“注意力”集中在某些字詞上,并根據(jù)權(quán)重值較大的字詞與其相鄰字詞之間的關(guān)聯(lián)程度來確定其是在句子中的含義,借以避免陷入因一詞多義的干擾而使得信息的提取出現(xiàn)誤差。自注意力機(jī)制跳出了將信息和單詞雜糅成一個具體目標(biāo)向量的局限,而將編碼的注意力分配到句子中的實詞上,生成查詢、鍵入和值三個向量,并以此為參考依據(jù)得到每個部分特定詞的自注意向量,進(jìn)而將主要的信息傳遞給解碼器,即完成了對長時序信息的關(guān)鍵部分提取[8]。該運行機(jī)制中的主要公式及含義如式(1)所示。
A(P)=softmax(PNc(PNj)T)PNs
(1)
式(1)中,A(P)為輸出矩陣,P為輸入值,c,j,s為查詢向量、鍵入向量和數(shù)值向量,Nc,Nj,Ns為對應(yīng)的查詢向量矩陣,鍵入向量矩陣和數(shù)值向量矩陣,Softmax為函數(shù),T為標(biāo)簽數(shù)量。輸入數(shù)據(jù)信息中的每個字詞的評分由信息碼和內(nèi)容碼組成,通過對不同字詞之間是否存在前后信息的連貫性可以判斷該主語的意思及其他相同主語意思之間的區(qū)別[9]。
利用多元卷積解碼框架可以對中文命名實體信息中的詞性嵌套問題進(jìn)行識別,同時不以固定的卷積核作為目標(biāo)向量,而是通過關(guān)聯(lián)前后字詞的語法和詞意來實現(xiàn)單獨標(biāo)簽種類的解碼,實現(xiàn)對提取信息的優(yōu)化準(zhǔn)確,即在融合完全自注意力機(jī)制下,對中文命名實體任務(wù)的提取著重點于關(guān)注相鄰詞語之間的關(guān)系,并進(jìn)行建模[10-11]。其運行機(jī)制的結(jié)構(gòu)圖如圖2所示。
圖2模型結(jié)構(gòu)圖展示出,通過對輸入映射層的句子信息判斷其字詞占整個句子中的權(quán)重評分,并對其在原始位置上進(jìn)行位置向量的增加,隨后對每個位置向量進(jìn)行卷積矩陣操作,即可得到精確性較高的輸出數(shù)據(jù)。機(jī)制的數(shù)學(xué)公式如式(2)所示。
(2)
式(2)中,bi為自注意力向量,i為自注意力的個數(shù),Bi為自注意向量拼接成的矩陣,r為過濾器,Concat(Conv[B1,B2,...,Bn]為Bi通過卷積生產(chǎn)得到的矩陣,MLP為多層感機(jī),tanh為非線性化激活函數(shù)。借助多層感知機(jī)和函數(shù)對卷積生成的具有識別任務(wù)的卷積核進(jìn)行信息特征的抓取以區(qū)別不同字詞所代表標(biāo)簽數(shù)的強(qiáng)弱關(guān)系,其意義在于避免操作過程的冗余,對前后數(shù)據(jù)信息的關(guān)聯(lián)卷積可以保證信息的順暢性,進(jìn)而更好判斷出標(biāo)簽種類,發(fā)現(xiàn)隱藏向量與關(guān)聯(lián)字詞之間的特征關(guān)系,提高信息提取的準(zhǔn)確性[12]。式(3)為矩陣運行公式。
(3)
式(3)中,o為關(guān)聯(lián)的單詞數(shù)量,C.k表示模型的卷積核,n為過濾器的個數(shù),M(s,v)為卷積核經(jīng)過卷積后的結(jié)果,Concate為連接首尾向量的結(jié)果,Di為第i個標(biāo)簽的矩陣,融合自注意力和多元卷積的模型機(jī)制可以實現(xiàn)對信息序列進(jìn)行標(biāo)簽化分類和卷積操作,進(jìn)而實現(xiàn)對信息特征的提取。
對于中文命名實體中的判斷識別需要運用評價指標(biāo)對其進(jìn)行定量分析,包括準(zhǔn)確率、召回率和F值,F(xiàn)值的計算公式如式(4)所示。
(4)
式(4)中,P,R分別代表準(zhǔn)確率和召回率。
為了驗證采取的模型對中文命名實體關(guān)系提取的有效性,分別將其與卷積神經(jīng)網(wǎng)絡(luò)模型(Convolutional Neural Network, CNN)、雙向遞歸神經(jīng)網(wǎng)絡(luò) (Bi-directional recurrent Neural Net-work,BRVV)、雙向長短期記憶神經(jīng)網(wǎng)絡(luò)模型(Bi-directional Longshort-term Memory,BiLSTM)進(jìn)行對比實驗方法,皆采用同樣的詞向量和位置向量作為模型的輸入,以PR曲線(Rrecision-Recall曲線)對不同模型在處理中文命名實體的效果進(jìn)行分析[13-14]。PR曲線能夠綜合考慮模型的準(zhǔn)確率和召回率,可以反映出模型在對中文信息的特征提取時的精準(zhǔn)變化[15]。結(jié)果如圖3所示。
圖3(a)中,混合模型和BLSTM模型的PR曲線相較于BRNN模型和CNN模型更靠近右下角,而從數(shù)值來看的話,BRNN模型、BLSTM模型和CNN模型的準(zhǔn)確率分別為86.12%,87.54%和79.14%,混合模型的PR曲線在對數(shù)據(jù)信息的提取上的準(zhǔn)確率為93.67%,有效減少了中文詞意中的一詞多義帶來的信息提取困難。圖3(b)對任務(wù)的訓(xùn)練機(jī)制是通過辨別中文命名信息的關(guān)鍵部分,持續(xù)迭代,直到其能夠?qū)崿F(xiàn)對信息的正確提取。數(shù)據(jù)表明混合模型在訓(xùn)練樣本達(dá)到50次時,其運行的狀態(tài)已經(jīng)趨于平穩(wěn),變化幅度較之其他模型在次數(shù)為50次則波動較小,且混合模型在數(shù)據(jù)集中的F值為84.23。上述結(jié)果表明自注意力機(jī)制能夠較好考慮到句子序列中字詞之間的關(guān)聯(lián)性,穩(wěn)定性較好,也有效避免了傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)中固定卷積核對句子序列中信息提取的限制問題。
表1中,混合模式在進(jìn)行實詞替換后和偏旁部首干擾后,對數(shù)據(jù)信息提取的準(zhǔn)確率和召回來都有所提高,即對主語、賓語進(jìn)行替換后對其在分詞、斷句和釋意方面的F1 值達(dá)到了86.56,89.28和90.36。而偏旁部首的干擾也使得融合模式提取信息時的分詞、斷句的漲幅達(dá)到了12.3%,22.4%。偏旁部首的加入能夠擴(kuò)大對數(shù)據(jù)信息檢索的范圍,對于部分缺少數(shù)據(jù)集的語料庫具有較好的豐富和補充作用,為提取地名、人名等信息的識別準(zhǔn)確率和召回率具有一定的優(yōu)勢。在加入位置后的多元卷積與原有的卷積神經(jīng)網(wǎng)絡(luò)相比,其準(zhǔn)確率和召回率都有所上升,表明其對于每個實詞和虛詞在整個句子中權(quán)重值能有較好的評估。
表1 不同模型對句子信息的提取能力比較
中文命名實體的識別常會受到詞性的嵌入以及自注意力層數(shù)的影響,進(jìn)而對模型在提取信息的準(zhǔn)確率方面造成干擾,其結(jié)果如圖4所示。
圖4(a)中,隨著自注意力層數(shù)的增加,混合模型對信息的提取精確率都呈現(xiàn)出上漲的趨勢,而在層數(shù)達(dá)到第六層時,模型的準(zhǔn)確率和召回率都逐漸趨于平穩(wěn)態(tài)勢,表明自注意力編碼的層數(shù)對提取特征信息能力具有較好的積極影響效果。圖4(b)中,鍵入和查詢的向量為192維度時,嵌入字的維度為由64維增加至256維時,模型對信息提取的準(zhǔn)確率增幅達(dá)到了12.13%,召回率也有明顯的提升。但當(dāng)鍵入和查詢向量的增加1/2時,其嵌入維度的變化對模型的檢測結(jié)果沒有較為明顯的影響,即對每個字的注意力分值沒有明顯的波動,表明模型在維度為192維時,對信息的提取已經(jīng)具有較好的效果。同時對融合模型下不同測試集下的應(yīng)用效果進(jìn)行分析,結(jié)果如表2所示。
表2 混合模型下不同測試集所對應(yīng)的F值變化
由表2可知,數(shù)據(jù)集的變化使得模型在識別任務(wù)中F值也隨之變化,加入字詞嵌入和編碼拼接后的模型在F值變化數(shù)據(jù)較快,且在后期的收斂速度更快。拼接模型在數(shù)據(jù)集為13個時,F(xiàn)值達(dá)到了85.83,但其抖動程度較為明顯,在模型收斂時具有較大的起伏。字詞嵌入的模型在數(shù)據(jù)集為20個之后基本趨于平穩(wěn),且其F1值始終維持在85.52左右,與未經(jīng)過聯(lián)合學(xué)習(xí)的模型相似,表明中文分詞的聯(lián)合學(xué)習(xí)更大可能作用在字編碼階段。
探究融合完全自注意力和多元卷積網(wǎng)絡(luò)下的中文命名實體識別模型對信息提取的準(zhǔn)確率和結(jié)構(gòu)化方面具有重要的影響。結(jié)果表明,混合模型的準(zhǔn)確率(93.67%)都明顯優(yōu)于BRNN模型(86.12%),kBLSTM模型(87.54%)和CNN模型(79.14%)的準(zhǔn)確率,且其在訓(xùn)練樣本數(shù)量增加后,混合模型的整體運行狀態(tài)較為平穩(wěn),其F值達(dá)到了84.23,受實詞替換和偏旁部首干擾的影響較小,在對分詞信息的提取上實現(xiàn)了12.3%的漲幅。相同詞性的不同主語進(jìn)行替換之后,混合模型對分解語段和掌握語意方面的準(zhǔn)確率達(dá)到了90.78和91.77。當(dāng)嵌入字的維度達(dá)到了192維時,模型已經(jīng)能夠?qū)π畔⒌奶崛【哂休^好的應(yīng)用效果,準(zhǔn)確率提高了12.13%。